当前位置：文档之家› 蛋白质组学生物信息学分析介绍

蛋白质组学生物信息学分析介绍

生物信息学分析FAQ

CHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION (3)

什么是GO？ (3)

GO和KEGG注释之前，为什么要先进行序列比对（BLAST）？ (3)

GO注释的意义？ (3)

GO和GOslim的区别 (4)

为什么有些蛋白没有GO注释信息？ (4)

为什么GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致？ (4)

什么是差异蛋白的功能富集分析&WHY？ (4)

GO注释结果文件解析 (5)

Sheet TopBlastHits (5)

Sheet protein2GO/protein2GOslim (5)

Sheet BP/MF/CC (6)

Sheet Level2_BP/Level2_MF/Level2_CC (6)

CHAPTER TWO ABOUT KEGG PATHWAY ANNOTATION (7)

WHY KEGG pathway annotation? (7)

KEGG通路注释的方法&流程？ (7)

KEGG通路注释的意义？ (7)

为什么有些蛋白没有KEGG通路注释信息？ (8)

什么是差异蛋白的通路富集分析&WHY？ (8)

KEGG注释结果文件解析 (8)

Sheet query2map (8)

Sheet map2query (9)

Sheet TopMapStat (9)

CHAPTER THREE ABOUT FEATURE SELECTION & CLUSTERING (10)

WHY Feature Selection? (10)

聚类分析（Clustering） (10)

聚类结果文件解析 (10)

CHAPTER FOUR ABOUT PROTEIN-PROTEIN INTERACTION NETWORK (12)

蛋白质相互作用网络分析的意义 (12)

蛋白质相互作用 VS生物学通路？ (12)

蛋白质相互作用网络分析结果文件解析 (12)

CHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION

什么是GO？

随着多种生物基因组的相继解码，同时大量ESTs以及gene expression profile date的积累，使得annotation的工作量和复杂度大大增加。然而另一方面，大多数基因在不同真核生物中拥有共同的主要生物功能，通过在某些物种中获得的基因或者蛋白质（shared protein）的生物学信息，可以用以解释其他物种中对应的基因或蛋白（especially in comparative genomics）。由于这些繁复的功能信息主要是包含在积累的文献之中，如何有效的提取和综合这些信息就是我们面临的核心困难，这也是GO所要着力解决的问题。通过建立一套具有动态形式的控制字集（controlled vocabulary），来解释真核基因及蛋白在细胞内所扮演的角色，并随着生命科学研究的进步，不断积累和更新。一个ontology会被一个控制字集来描述并给予一定的名称，通过制定“本体”ontologies并运用统计学方法及自然语言处理技术，可以实现知识管理的专家系统控制。

到目前为止，Gene Ontology (GO) 数据库中有3大独立的ontology：biological process生物过程, molecular function分子功能，cellular component细胞组分。而这三个ontology下面又可以独立出不同的亚层次，层层向下构成一个ontologies的树型分支结构。可以说， GO是生物学的统一化工具。

由于GO是一种整合性的分类系统，其下的3类主ontology虽然说是独立的，但是无论是GOC原初的设计还是我们的使用中其实都还是存在一定的流程关系。一个基因/蛋白质或者一个ontology在注解的过程中，首先是考虑涉及在构成细胞内的组分和元件（cellular component），其次就是此组分/元件在分子水平上所行使的功能（molecular function），最后能够呈现出该分子功能所直接参与的生物过程（biological process）。由于这是一种存在反馈机制的注释过程，并且整个系统是动态开放实时更新的，因此在某种程度上说它具有纠错的能力。

GO和KEGG注释之前，为什么要先进行序列比对（BLAST）？

在进行功能注释和通路注释之前，我们会先将差异蛋白与合适的数据库中的蛋白序列进行比对。目的一：很多物种目前研究的程度还很有限，关于这些物种的蛋白注释信息还很不完善。根据相似性原理，具有相似序列的蛋白可能也具有相似的功能，因此，我们可以将BLAST所得的同源蛋白的注释信息转嫁到我们关注的差异蛋白上，来完成对于差异蛋白尤其是研究程度不足的物种的差异蛋白的注释。目的二：我们在查库过程中，为了得到更多的蛋白质鉴定信息，我们大多使用UniProt数据库（含SwissProt和TrEmbl：SwissProt中的蛋白均经过人工校验，数据可靠性高，注释完整；TrEmbl由基因组序列翻译而来，未经人工校验，注释信息不全）或NCBI Protein数据库（用户可任意提交序列，有冗余，信息不完善，质量很难保证），BLAST一方面可以帮我们提高后续的注释效率，另一方面也可以帮助客户大致了解所鉴定的蛋白可能的名称和功能（尤其对于uncharacterized protein，predicted protein，putative protein 等）。

GO注释的意义？

对鉴定到的蛋白或者差异蛋白进行GO注释，其宗旨是为了帮助我们了解这些蛋白。可能的应用包括：

一，例如，某客户对某差异蛋白A非常感兴趣，通过在GO注释的结果中（protein2GO表单）查询蛋白A的注释信息，即可得知蛋白A可能具有的功能、可能参与的生物学过程，以及该蛋白所在的亚细胞定位。

二，根据课题的设计和先验知识，客户可能对某个生物学过程（例如：离子运输）非常感兴趣，可以通过在结果中（BP表单）查询ion transport这个GO term下包含哪些蛋白，并对这些蛋白进行深入研究。

三，客户拿到质谱数据分析结果后，可能对于后续的分析没有方向，这种情况下可以通过在注释结果中查询哪些功能类别包含的蛋白数目较多，可以从这些功能类别和蛋白入手进行重点研究。

四，GO注释可以为课题的设计和实验结果的合理性提供证据。

GO和GOslim的区别

GOslim是简化的GO子集，是经过科学家人工筛选的一部分GO term。简单的说，GOslim去除了一些比较细枝末节的GO term，更着重研究level更高、相互关联的GO term，以及与物种更为相关的GO term（Plant，Candida albicans，Schizosaccharomyces pombe，Yeast，Aspergillus，Metagenomics）。GOslim对于大规模组学的研究很有意义（比如全基因组、全蛋白组），不至于相关的功能类别太多反而忽略了重点。通常情况下，我们的分析只针对几十个到几百个差异蛋白进行重点注释，GO和GOslim的结果差别不大。

为什么有些蛋白没有GO注释信息？

目前对于蛋白质的功能研究还有限，尤其是非模式生物。为了提高注释率，根据序列相似的蛋白可能具有相似的功能的原则，我们已经在注释前对目标蛋白序列进行了blast，并利用足够相似的比对序列的注释信息对目标序列进行注释。此外，我们还采用了查找InterPro数据库中的保守motif的方法对难以注释的蛋白进行注释。但是仍然有少数蛋白，对于该蛋白，或者同物种中也之相似的蛋白，或者其他物种中的同源蛋白的研究依然十分不足，所以以目前的研究水平难以获得注释信息。

为什么GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致？

一个蛋白可能参与多个生物过程（biological process），具有多种分子功能（molecular function），甚至存在于多个细胞组分（cellular component），因此GO Level 2的统计饼图里多个类别的蛋白数相加通常是大于差异蛋白数目的。此外，少数蛋白由于无法获得注释信息，不参与统计，也是造成统计数目和差异蛋白总数不一致的一个原因。

什么是差异蛋白的功能富集分析&WHY？

差异蛋白的功能富集分析是将差异蛋白列表中的蛋白与参考物种的全部蛋白列表或实验鉴定到的所有蛋白列表根据GO 功能的注释结果进行对照比较，通过Fisher精确检验 (Fisher’s Exact Test)，得出两者差异的显著性，从而找到这个差异蛋白列表中富集的功能类别条目，找到一个蛋白列表的功能特性。不同于蛋白功能注释以蛋白为单位进行注释，差异蛋白的功能富集分析以GO功能条目为单位，结果可以直接揭示整个差异蛋白列表中蛋白的整体功能富集特征。

GO注释结果文件解析

GO注释的结果文件包括GO.xlsx和GOslim.xlsx两个EXCEL表格，共计15个表单。

GO.xlsx：包含TopBlastHits，protein2GO，BP，MF，CC，Level2_BP，Level2_MF，Level2_CC等8个表单GOslim.xlsx：包含protein2GOslim，BP，MF，CC，Level2_BP，Level2_MF，Level2_CC等7个表单

Sheet TopBlastHits

Sequence name：目标蛋白ID

Sequence desc.：根据blast结果，目标蛋白可能的名称和描述

Sequence length：目标蛋白序列长度

Hit desc.：比对序列的蛋白名称和描述

Hit ACC：比对序列的蛋白ID号

E-Value：S值可靠性的评价，表明在随机的情况下，其它序列与目标序列相似度大于S值的可能性，越低越好Similarity：Positives/Alignment

Score：表示两序列的同源性，分值越高表明它们之间相似的程度越大

Alignment：比对上的蛋白序列部分的长度

Positives：相同或理化性质相似的氨基酸数目

Sheet protein2GO/protein2GOslim

SeqName：目标蛋白ID

Hit-Desc：比对序列的蛋白名称和描述

GO-Group：所注释GO term的类别（P：Biological Process，F：Molecular Function，C：Cellular Component）GO-ID：所注释GO term的ID

Term：所注释GO term的名称

Sheet BP/MF/CC

Level ：GO term 在ontologies 的树型分支结构中所处的层次，BP 、MF 、CC 最高（Level 1）

GO-ID ：所注释GO term 的ID

Term ：所注释GO term 的名称

Type ：GO term 所属类别（BP 、MF 、CC ）

#Seqs ：属于该GO term 的蛋白数目

Seqs ：属于该GO term 的蛋白ID

Sheet Level2_BP/Level2_MF/Level2_CC

Data labels ：GO term (Level 2), 属于该GO term 的蛋白数目

metabolic

process, 38

cellular process, 37

signaling, 2 multicellular organismal process,

3 developmental

process, 3 single-organism

process, 16 response to stimulus, 4 localization, 7 biological regulation, 8 cellular component organization or

biogenesis, 13 Biological Process

protein binding transcripti

on factor

activity, 1

catalytic

activity, 25

structural

molecule

activity, 8

transporte

r activity, 1 binding, 40 enzyme

regulator

activity, 4 Molecular Function extracellul ar region, 1 cell, 37 membrane , 8 extracellul ar matrix,

1 membrane -enclosed lumen, 4 macromole cular complex, 25 organelle, 28 Cellular Component

CHAPTER TWO ABOUT KEGG PATHWAY ANNOTATION

WHY KEGG pathway annotation?

在生物体中，蛋白质并不独立行使其功能，而是不同蛋白质相互协调完成一系列生化反应以行使其生物学功能。因此，通路分析有助于更系统、全面地了解细胞的生物学过程、性状或疾病的发生机理、药物作用机制，等等。

KEGG通路注释的方法&流程？

In the KEGG database, by adopting a web-based server called KAAS (KEGG Automatic Annotation Server: http://www.genome.jp/kegg/kaas/), the studied proteins are annotated with the KEGG orthology (KO) identifiers, or the K numbers, based on the best hit information using Smith–Waterman scores as well as by the manual curation. Each K number represents an ortholog group of genes, and it is directly linked to an object in the KEGG pathway map or the BRITE functional hierarchy. The method is based on sequence similarities, bi-directional best hit information and some heuristics, and has achieved a high degree of accuracy when compared with the manually curated KEGG GENES database.

KEGG通路注释的意义？

对鉴定到的蛋白或者差异蛋白进行KEGG通路注释，其宗旨是为了帮助我们了解这些蛋白可能参与的代谢或信号通路，从而显示蛋白质从细胞表面到细胞核的一系列变化过程,揭示参与该过程的一系列生物学事件和作用因子,提示某一过程的中断或变化可能导致的生物学后果等。对蛋白质进行通路注释可能的应用包括：

一，例如，某客户对某差异蛋白A非常感兴趣，通过在KEGG注释的结果中（query2map表单）查询蛋白A的注释信息，即可得知蛋白A可能参与的代谢或信号通路。

二，根据课题的设计和先验知识，客户可能对某条通路（例如：EGFR signaling pathway）非常感兴趣，可以通过在结果中（map2query表单）查询EGFR signaling pathway这条通路下包含哪些蛋白，并对这些蛋白进行深入研究。

三，客户拿到质谱数据分析结果后，可能对于后续的分析没有方向，这种情况下可以通过在注释结果中查询哪些通路包含的蛋白数目较多，可以从这些通路和蛋白入手进行重点研究。

四，KEGG通路注释可以为课题的设计和实验结果的合理性提供证据。

为什么有些蛋白没有KEGG通路注释信息？

目前对于通路的研究还有限，尤其是信号通路。为了提高注释率，我们已经在注释前对目标蛋白序列进行了blast，并利用同源蛋白的参与的通路信息对目标序列进行注释。但是仍然有部分蛋白，对于该蛋白，或者同物种中也之相似的蛋白，或者其他物种中的同源蛋白的研究依然十分不足，所以以目前的研究水平难以获得注释信息。

什么是差异蛋白的通路富集分析&WHY？

差异蛋白的通路富集分析是将差异蛋白列表中的蛋白与参考物种的全部蛋白列表或实验鉴定到的所有蛋白列表根据KEGG通路的注释结果进行对照比较，通过Fisher精确检验 (Fisher’s Exact Test)，得出两者差异的显著性，从而找到这个差异蛋白列表中富集的通路。不同于蛋白通路注释以蛋白为单位进行注释，差异蛋白的通路富集分析以KEGG通路为单位，结果可以直接揭示整个差异蛋白列表中蛋白的整体通路富集特征。

KEGG注释结果文件解析

KEGG注释的结果文件包括KEGG.xlsx表格和map文件夹。

KEGG.xlsx：包含query2map，map2query，TopMapStat等3张表单

Map文件夹：包含所有和目标蛋白相关的KEGG通路图，目标蛋白以绿色标识

Sheet query2map

Protein ID：目标蛋白ID

KO：KEGG orthology identifier/K number，

Map ID：目标蛋白可能参与的通路ID

Map Name：目标蛋白可能参与的通路名称

URL：可直接链接到KEGG数据库中目标蛋白可能参与的通路图，目标蛋白以红色标识

Sheet map2query

Map ID：目标蛋白可能参与的通路ID

Map Name：目标蛋白可能参与的通路名称

Seqs：参与该通路的目标蛋白ID

#Seqs：参与该通路的目标蛋白数目

URL：可直接链接到KEGG数据库中目标蛋白可能参与的通路图，参与该通路的所有目标蛋白以红色标识Sheet TopMapStat

X Axis：目标蛋白可能参与的通路名称

Y Axis：参与该通路的目标蛋白数目

CHAPTER THREE ABOUT FEATURE SELECTION & CLUSTERING

WHY Feature Selection?

检验某种生物处理是否有效果的常规试验，通常的做法就是做两组数据，一组处理样本，一组阴性对照，然后用t检验，看看p-value是否小于0.05。但是由于蛋白组学实验的样本量通常都比较小（一般不多于3组生物学重复），那么您的“显著”究竟是确实反映了处理效果，还是本来处理没什么效果，您只是这次“运气好”而侥幸碰到一组产生显著的数据？如果生物处理确实有很强的效用，即便在每组只有三个样本的情况下，达到显著的可能性当然很大，如80％，那么这种通过是意料之中的。反之，如果其实处理几乎没有效果，同样每组三个样本，但是这种情况下依然有可能达到p-value小于0.05，只是可能性相当小，如5％，那么这个显著一般认为“只是运气好”而已。具体可参考https://www.doczj.com/doc/c617136109.html,/blog-338817-272318.html。

所以，在样本量有限这一事实无法改变的情况下，为了避免“运气好”的质疑，我们需要其他的统计学算法或模型帮助我们筛选有意义的关键marker。在统计学中，特征选取(Feature Selection) 是从所有特征中选取可有效区分样本的一小部分特征的过程，即利用统计学模型从所有鉴定到的蛋白质中选取可区分生物学样本的蛋白质集合的过程。我们利用WEKA软件包中的information gain attribute evaluator和correlation-based feature selection (CFS) 算法，并结合蛋白质的表达倍数比来筛选特征差异表达蛋白质。

聚类分析（Clustering）

用来检验所选取的差异蛋白或经Feature Selection筛选的特征差异蛋白的合理性和准确性，即所挑选的蛋白是否可以代表不同样本之间的差异，或者说利用这些蛋白是否可以准确将不同组样本进行分类。一般不建议用Fold Change/P value筛选的差异蛋白直接做聚类，分类的准确率不高。

聚类结果文件解析

层次聚类结果以树型热图表示，红色代表上调，绿色代表下调

横坐标：样本，纵坐标：差异蛋白

以M为参考线，样本被分为两类：C1-C3为一类m1，T1-T3为一类m2，分类准确率100%，表示挑选的差异蛋白可以有效区分样本，即挑选的差异蛋白合理、准确

以N为参考线，蛋白被分为两类：Q4G0N4-Q99584为一类n1，A8K2W3-B4DMR3为一类n2。通过查询原始数据可知，n1组蛋白在m1（C）组样本中下调，在m2（T）组样本中上调；n2组蛋白在m1（C）组样本中上调，在m2（T）组样本中下调---挑选的差异蛋白在两组样本中的表达模式，也可说明挑选的差异蛋白具有合理性。

树叉的长度表示样本或蛋白之间的亲缘关系，即差异，长度越长两者差异越大。例如，距离a表示样本T1和T3之间的差异，距离b表示C组样本和T组样本之间的差异。

亲缘关系较近的样本或蛋白较为相似，如C1-C3相似，T1-T3相似，C 和T 有明显差异；又例如n1组内蛋

白在两组样本中表达模式相似，而与n2组蛋白的表达模式截然不同。此外，在同一蛋白组内，如n2，同一

小簇内的蛋白可能具有更相似的功能或参与相同的途径等等。

m2 m1 Protein ID

CHAPTER FOUR ABOUT PROTEIN-PROTEIN INTERACTION NETWORK 蛋白质相互作用网络分析的意义

在生物体中，蛋白质并不是独立存在的，其功能的行使必须借助于其他蛋白质的调节和介导。这种调节或介导作用的实现首先要求蛋白质之间有结合作用或相互作用。我们通过查询蛋白质相互作用数据库和相关文献，确定鉴定到的蛋白质或差异表达蛋白质之间的相互作用和与之直接作用的其他蛋白质。通过构建以结点（node）和连线（link）表示的蛋白质相互作用网络可以从不同的系统尺度提取蛋白质的有效信息，得到单个蛋白质无法获得的综合信息。例如，高度聚集的蛋白质可能具有相同或相似的功能，连接度高的蛋白质可能是影响整个系统代谢或信号转导途径的关键点。

蛋白质相互作用 VS生物学通路？

蛋白质相互作用是生物学通路的基础，但是由于在构建相互作用网络时并不考虑时间、空间、理化条件等因素，所构建的网络中的相互作用并不一定会同时发生。因此，我们建议可以将蛋白质相互作用网络分析以及通路注释的结果相结合，进行后续分析。

蛋白质相互作用网络分析结果文件解析

蛋白质相互作用网络分析的结果文件包括两张相互作用网络图PPI1.png和PPI2.png，以及目标蛋白连接度文件gene_degree.txt。

PPI1.png：目标蛋白之间的直接相互作用

PPI2.png：由目标蛋白直接的相互作用以及可以和目标蛋白直接相互作用的其他蛋白连接的网络，其中黄色节点为目标蛋白，蓝色节点为与目标蛋白直接作用的其他蛋白质

Gene_degree.txt：在所形成的的相互作用网络中，某个蛋白A的连接度为与蛋白A直接相互作用的蛋白数目。通常来讲，在某个网络中，蛋白的连接度越大，该蛋白发生变化时整个系统受到的扰动就越大，该蛋白就可能是维持系统平衡和稳定的关键蛋白，应当重点研究。

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识㈠De Novo测序也叫从头测序，是首次对一个物种的基因组进行测序，用生物信息学的分析方法对测序所得序列进行组装，从而获得该物种的基因组序列图谱。目前国际上通用的基因组De Novo测序方法有三种： 1. 用Illumina Solexa GA IIx 测序仪直接测序； 2. 用Roche GS FLX Titanium直接完成全基因组测序； 3. 用ABI 3730 或Roche GS FLX Titanium测序，搭建骨架，再用Illumina Solexa GA IIx 进行深度测序，完成基因组拼接。采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件，并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究，为后续的相关研究奠定基础。实验流程：公司服务内容 1.基本服务：DNA样品检测；测序文库构建；高通量测序；数据基本分析（Base calling，去接头，去污染）；序列组装达到精细图标准 2.定制服务：基因组注释及功能注释；比较基因组及分子进化分析，数据库搭建；基因组信息展示平台搭建 1.基因组De Novo测序对DNA样品有什么要求？

(1) 对于细菌真菌，样品来源一定要单一菌落无污染，否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上)， OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；每次样品制备需要10 μg样品，如果需要多次制备样品，则需要样品总量=制备样品次数*10 μg。 (2) 对于植物，样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品，最好为纯合或单倍体。基因组完整无降解(23 kb以上)，OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；样品总量不小于500 μg，详细要求参见项目合同附件。 (3) 对于动物，样品来源应选用肌肉，血等脂肪含量少的部位，同一个体取样，最好为纯合。基因组完整无降解(23 kb以上)，OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；样品总量不小于500 μg，详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证，用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式目前3种测序技术 Roche 454，Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中，Roche 454的单端测序读长可以达到400 bp，经常用于基因组骨架的组装，而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例，对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段，引物序列连接到DNA片段的一端，然后末端加上接头，将片段固定在flow cell上生成DNA簇，上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点，在第一轮测序完成后，去除第一轮测序的模板链，用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增，以达到第二轮测序所用的模板量，进行第二轮互补链的合成测序(图2)。图1 Single-read文库构建方法图2 Paired-end文库构建方法

生物信息学软件及使用概述

生物信息学软件及使刘吉平 liujiping@https://www.doczj.com/doc/c617136109.html, 用概述生物秀-专心做生物！ w w w .b b i o o .c o m

生物信息学是一门新兴的交叉学生物信息学的概念：科，它将数学和计算机知识应用于生物学，以获取、加工、存储、分类、检索与分析生物大分子的信息，从而理解这些信息的生物学意义。生物秀-专心做生物！ w w w .b b i o o .c o m

分析和处理实验数据和公共数据，生物信息学软件主要功能 1.2.提示、指导、替代实验操作，利用对实验数据的分析所得的结论设计下一阶段的实验 3.实验数据的自动化管理 4.寻找、预测新基因及其结构、功能 5.蛋白质高级结构及功能预测（三维建模，目前研究的焦点和难点）生物秀-专心做生物！ w w w .b b i o o .c o m

功能1. 分析和处理实验数据和公共数据，加快研究进度，缩短科研时间 ?核酸：序列同源性比较，分子进化树构建，结构信息分析，包括基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框（ORF ），蛋白编码区（CDS ）及外显子预测、RNA 二级结构预测、DNA 片段的拼接； ?蛋白：序列同源性比较，结构信息分析（包括Motif ，限制酶切点，内部重复序列的查找，氨基酸残基组成及其亲水性及疏水性分析)，等电点及二级结构预测等等； ?本地序列与公共序列的联接，成果扩大。生物秀-专心做生物！ w w w .b b i o o .c o m

Antheprot 5.0 Dot Plot 点阵图 Dot plot 点阵图能够揭示多个局部相似性的复杂关系生物秀-专心做生物！ w w w .b b i o o .c o m

蛋白质组学研究方法选择及比较

蛋白质组学研究方法选择及比较目前研究蛋白组学的主要方法有蛋白质芯片及质谱法，本文将从多方面对两种研究方法进行了解与比较；蛋白质芯片（Protein Array）将大量不同的蛋白质有序地排列、固定于固相载体表面，形成微阵列。利用蛋白质分子间特异性结合的原理，实现对生物蛋白质分子精准、快速、高通量的检测。主要类型： ●夹心法芯片(Sandwich-based Array) ●标记法芯片(Label-based Array) ●定量芯片(Quantitative Array) ●半定量芯片(Semi-Quantitative Array) 质谱（Mass Spectrometry）用电场和磁场将运动的离子按它们的质荷比分离后进行检测，测出离子准确质量并确定离子的化合物组成，即通过对样品离子质荷比的分析而实现对样品进行定性和定量的一种方法。主要类型：

●二维电泳+质谱(2D/Mass Spectrometry, MS) ●表面增强激光解吸电离飞行时间质谱(Surface-enhanced laser desorption/ionization- time of flight, SELDI) ●同位素标记相对和绝对定量(Isobaric tags for relative and absolute quantitation, iTRAQ) Protein Array or Mass Spectrometry？如何选择合适的研究方法？以下将从六个方面进行比较与推荐： 1.筛查蛋白组学表达差异建议选择：RayBiotech（1000个因子的芯片）+质谱 a)不同的方法学有不同的特点：对于质谱，可以筛查到未知的蛋白，但是对于分子量大、低丰度的蛋白质，质谱的灵敏度和准确性有一定的限制。 b)不同的方法能筛查到的目标不同：根据Proteome Analysis of Human Aqueous Humor 一文中报道，质谱筛查到的差异蛋白集中在小分子与代谢物。而用RayBiotech芯片筛查到的结果，多是集中在细胞因子、趋化、血管、生长等等。 c)质谱筛查到355个蛋白，而RayBiotech抗体芯片也筛查到328个蛋白，且用定量芯片验证25个蛋白有差异，这些蛋白是质谱找不到的。目前RayBiotech夹心法抗体芯片已经可以检测到1000个蛋白，采用双抗夹心法，尤其是对于低丰度蛋白，有很好的灵敏度和特异性，很多的低丰度蛋白是抗体芯片可以检测出来，而质谱检测不到的，且样品不经过变性和前处理，保持天然状态的样品直接检测，对于蛋白的检测准确度高。 d)质谱的重复性一直是质谱工作者纠结的问题，不同操作者的结果，不同样品处理条件，峰值的偏移等影响因素都会产生大的影响；RayBiotech的夹心法芯片重复性高。

生物信息学分析实践

水稻瘤矮病毒(RGDV)外层衣壳蛋白 P8的同源模建高芳銮(Raindy) 同源模建(homology modeling) ，也叫比较模建(Compatative modeling)，其前提是一个或多个同源蛋白质的结构已知，当两个蛋白质的序列同源性高于35%，一般情况下认为它们的三维结构基本相同；序列同源性低于30%的蛋白质难以得到理想的结构模型。同源模建是目前最为成功且实用的蛋白质结构预测方法， SWISS-MODEL 是由SwissProt 提供的目前最著名的蛋白质三级结构预测服务器，创建于1993年，面向全世界的生物化学与分子生物学研究工作者提供免费的自动模建服务。SWISS-MODEL 服务器提供的同源模建有两种工作模式：首选模式(First Approach mode)和项目模式(Project mode)。本实例以RGDV P8蛋白为研究对象采用首选模式进行同源模建。图1 SWISS-MODEL 的主界面操作流程如下： 1.选择模式单击左侧的“MENU ”菜单下方的“First Approach mode ”，右侧窗口自动SWISS-MODEL 工作窗口，在相应文本框中分别输入的E-mail 、项目标题、待模建的蛋白质序列，SWISS-MODEL 支持以FASTA 格式直接输入或提交UniProt 的登录号，如图2所示。《生物信息学分析实践》样稿

图2 SWISS-MODEL 的序列提交页面 2.参数设置当前版本只有一个选项可设置，如果用户需要使用指定的模板，可在“Use a specific template ”后的输入框填入ExPDB 晶体图像数据库中的模板代码，其格式为“PDBCODE+ChainID ”，如“1uf2P ”。本例不使用指定模板，默认留空。完毕，点击“Submit Modeling Request ”提交模建请求，服务器返回提交成功的提示，如图3所示：图3 成功提交 SWISS-MODEL WORKSPACEW 页面会自动刷新，直至模建完成，如图4所示，同时模建结果也会发送到指定的邮箱。 3结果解读点击下图右上方的“Print/Save this page as ”后的图标，可以将整个结果以PDF 文档格式保存到本地计算机中。模建结果给出了五个部分的信息：模建详情(Model Details)、比对信息(Alignment)、模建评价 (Anolea/Gromos/Verify3D)、模建日志(Modelling log)、模板选择日志(Template Selection Log)。《生物信息学分析实践》样稿

蛋白质组学研究的完整解决方案

蛋白质组学研究的完整解决方案人体内真正发挥作用的是蛋白质，蛋白质扮演着构筑生命大厦的“砖块”角色，随着破译生命密码的人类基因组计划进入尾声，一个以蛋白质和药物基因学为研究重点的后基因组时代已经拉开序幕，蛋白质将是今后的重点研究方向之一。然而，蛋白质的分离和鉴定非常费时，目前测定蛋白质的技术远远落后于破译基因组的工具，最好的实验室每天只能分离和识别出100种蛋白质。据估计，人体内可能有几十万种蛋白质，这大概需要10年时间进行识别。为了加快蛋白质组学研究进程，以专业生产蛋白质组学研究设备而著称的美国Genomic Solution Inc.公司开发了完整的蛋白质组学解决方案，由一系列机械手臂与软件，并结合了二维电泳实验设备与质谱仪，可以进行高效、自动化且具重复性的试验分析。在Genomic solution值得信赖的技术平台上，你的研究工作将更富成效，重复性更好。在这一整套Investigator平台上，各仪器之间配合无隙，由于它的整合性及标准性，使得研究进程大大加快，原来需要9—12个月才能获得数据结果发表的时间减少到9—12周。这套完整的系统具备蛋白质组研究所需的众多功能：2-D电泳、图像获取、2-D胶分析、蛋白样品切割、蛋白消化、MALDI样品准备、消化及点样、数据分析整合，再加上制备好的胶、试剂及附件，使研究工作可以立即展开。此套设备为进行蛋白质组学研究的利器,大大加速了蛋白质分离和鉴定的速度。该系统主要由以下几部分组成：一、2-D电泳系统（Investigator? 2-D Electophoresis System）该系统主要进行2D PAGE第一向等电聚焦凝胶电泳和第二向SDS-PAGE电泳，设备包括2-D电泳系统所需的各种设备，如pHaser?（IPG胶条电泳）、管状制胶设备、二维电泳装置、电源设备、半导体冷却器及各种相关的蛋白纯化试剂盒。产品特征： * 提供2D PAGE电泳所需的各种设备，使电泳更加简便，大大节约研究时间 * 高分辨率：有效的第一向等电聚焦凝胶电泳和23cm X 23cm第二向SDS-PAGE大面积板胶提供清晰的电泳图像，有效提高单体、磷酸化和糖基化蛋白的分离 * 大容量：可同时容纳15块1mm一维管状胶，或8块2-3mm管状胶；10块IPG胶条和10块二维电泳板胶 * 灵活性：该系统用于管状胶、IPG 胶条、预制胶、自制胶和SDS PAGE胶使用 * 恒温：高效的半导体制冷装置保证电泳体系温度恒定，温度变化< 0.5℃ * 专门为高分辨率2D PAGE而设计的电源系统 * 提供超纯的相关化学试剂和药品

生物信息学概论

2013/5/23
生物信息学概论
2013-5
提纲
1. 发展简史 2. 主要研究领域 3. 软件和工具
1. 发展简史
1946年 1946 年
美国生产出第一台全自动电子数字计算机“埃尼阿克”
1

2013/5/23
1. 发展简史
1955年 1955 年
Frederick Sanger determined the complete amino acid sequence of insulin in 1955 and earned him his first Nobel prize in Chemistry in 1958.
1. 发展简史
1965年 1965 年
The first Atlas of Protein Sequence and Structure contained sequence information on 65 proteins.
Dr. Margaret Oakley Dayhoff (1925-1983) was a pioneer in the use of computers in chemistry and biology, beginning with her PhD thesis project in 1948. Her work was multi-disciplinary, and used her knowledge of chemistry, mathematics, biology and computer science to develop an entirely new field. She is credited today as a founder of the field of Bioinformatics.
1. 发展简史
1965年 1965 年
First use of molecular sequences for evolutionary studies
One of the founding fathers of the field of molecular evolution
Zuckerkandl, E. and Pauling, L. (1965). "Molecules as documents of evolutionary history." Journal of theoretical biology 8(2): 357.
2

蛋白质组学生物信息学分析介绍

生物信息学分析FAQ CHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION (3) 什么是GO？ (3) GO和KEGG注释之前，为什么要先进行序列比对（BLAST）？ (3) GO注释的意义？ (3) GO和GOslim的区别 (4) 为什么有些蛋白没有GO注释信息？ (4) 为什么GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致？ (4) 什么是差异蛋白的功能富集分析&WHY？ (4) GO注释结果文件解析 (5) Sheet TopBlastHits (5) Sheet protein2GO/protein2GOslim (5) Sheet BP/MF/CC (6) Sheet Level2_BP/Level2_MF/Level2_CC (6) CHAPTER TWO ABOUT KEGG PATHWAY ANNOTATION (7) WHY KEGG pathway annotation? (7) KEGG通路注释的方法&流程？ (7) KEGG通路注释的意义？ (7) 为什么有些蛋白没有KEGG通路注释信息？ (8) 什么是差异蛋白的通路富集分析&WHY？ (8) KEGG注释结果文件解析 (8) Sheet query2map (8) Sheet map2query (9) Sheet TopMapStat (9) CHAPTER THREE ABOUT FEATURE SELECTION & CLUSTERING (10) WHY Feature Selection? (10)

聚类分析（Clustering） (10) 聚类结果文件解析 (10) CHAPTER FOUR ABOUT PROTEIN-PROTEIN INTERACTION NETWORK (12) 蛋白质相互作用网络分析的意义 (12) 蛋白质相互作用 VS生物学通路？ (12) 蛋白质相互作用网络分析结果文件解析 (12)

生物信息学分析

生物信息学分析生物信息学难吗？经常有人向我问这个问题，这有什么疑问吗？如果不难学，根本就不用问我这个问题。也无需投入那么多时间精力就能掌握，更无需花费三四千元参加线下的培训班，也不会月薪过万。所以，答案很肯定，道理很简单：生物信息比较难学。为什么难学？我总结里几点原因。首先，这是一个交叉学科，要求你既要有生物学的基础，又要有很强的计算机操作技能。这个就有点困难了。因为只是一个生物学就包括多个门类，有很多东西需要去学习，还需要学习计算机知识。很多人一门内容还没学明白，现在还得在加一门，这就属于祸不单行，雪上加霜，屋漏偏逢连夜雨。因此，这种既懂生物学，又懂计算机的复合型人才就比较短缺。而且，生物信息本质上属于数据挖掘，除了生物，计算机，到后面还需要极强的统计学知识才能做好数据分析，所以，还得加上统计学，也就是生物信息学=生物学+计算机科学+统计学三门学科的知识，这也就是为什么生物信息学比较难学。第二个原因，生物信息本身就包括很多内容，比如DNA的分析，RNA的分析，甲基化的分析，蛋白质的分析等方面，每一

门类又完全不同，从物种方面来分，动物，植物，微生物，医学等有差别很大，很难有一劳永逸，放之四海而皆准的分析方法。第三个原因就是生物信息是一门快速发展的学习，会出现很多新的测序方法，比如sanger测序，illumina，BGIseq，PacBio，IonTorrent，Nanopore等，每一个平台技术原理完全不同，因此数据特点也完全不同，这就需要针对每一个平台的数据做专门的学习，而且每个平台又在不断的推陈出现，可能今天你刚开发好的方法，产品升级了，都得推倒重来。还有很多新的技术，例如现在比较火的单细胞测序，Hi-C测序，Bionano测序等等内容，以后还出现更多新技术新方法，足够让你活到老，学到老。当然，你先要能活到老，吾生也有涯，而知也无涯。以有涯随无涯，殆已！高风险才有高收益当然啦，虽然你已经看到学习生物信息肯定是不容易了，门槛很高，但是呢，门槛高也有很多好处，就是挡住了一部分人，当你学会了，迈过门槛，你的身价就提高了。如果人人都很容易掌握了，那么也就不值钱了。所以，生物信息，前途是光明的，道路是曲折的。

蛋白质组学与分析技术课复习思1考

蛋白质组学与分析技术课复习思考一、名词解释 1、蛋白质组学：蛋白质组学是研究与基因对应的蛋白质组的学科，蛋白质组（proteome）一词，源于蛋白质（protein）与基因组（genome）两个词的杂合，意指“一种基因组所表达的全套蛋白质”,即包括一种细胞乃至一种生物所表达的全部蛋白质。 2、二维（双向）电泳原理：根据蛋白质的等电点和相对分子质量的特异性将蛋白质混合物在第一个方向上按照等电点高低进行分离，在第二个方向上按照相对分子质量大小进行分离。二维电泳分离后的蛋白质点经显色，通过图象扫描存档，最后是呈现出来的是二维方向排列的，呈漫天星状的小原点，每个点代表一个蛋白质。 3、三步纯化策略：第一步:粗提。纯化粗样快速浓缩(减少体积) 和稳定样品(去除蛋白酶) 最适用层析技术: 离子交换/疏水层析第二步：中度纯化。去除大部分杂质最适用层析技术: 离子交换/疏水层析第三步：精细纯化。达到最终纯度(去除聚合物,结构变异物) 最适用层析技术:凝焦过滤/离子交换/疏水层析/反相层析 4、高效纯化策略在三步纯化蛋白质过程中，同时考虑到纯化的速度、载量、回收率及分辨率的纯化策略。5、离子交换色谱：离子交换色谱中的固定相是一些带电荷的基团，这些带电基团通过静电相互作用与带相反电荷的离子结合。如果流动相中存在其他带相反电荷的离子，按照质量作用定律，这些离子将与结合在固定相上的反离子进行交换。固定相基团带正电荷的时候，其可交换离子为阴离子，这种离子交换剂为阴离子交换剂；固定相的带电基团带负电荷，可用来与流动相交换的离子就是阳离子，这种离子交换剂叫做阳离子交换剂。阴离子交换柱的功能团主要是－NH2，及－NH3 ：阳离子交换剂的功能团主要是－SO3H及－COOH。其中-NH3 离子交换柱及-SO3H离子交换剂属于强离子交换剂，它们在很广泛的pH范围内都有离子交换能力；-NH2及-COOH 离子交换柱属于弱离子交换剂，只有在一定的pH值范围内，才能有离子交换能力。离子交换色谱主要用于可电离化合物的分离，例如，氨基酸自动分析仪中的色谱柱，多肽的分离、蛋白质的分离，核苷酸、核苷和各种碱基的分离等。 6、吸附色谱吸附色谱系色谱法之一种，利用固定相吸附中对物质分子吸附能力的差异实现对混合物的分离，吸附色谱的色谱过程是流动相分子与物质分子竞争固定相吸附中心的过程。洗脱次序∶一般为正相，即：极性低的先被洗脱。 7、PCR扩增 PCR技术（polymerase chain reaction）技术能把单个目的基因大量扩增，这个方法必须在已知基因序列或已知该基因所翻译的氨基酸序列。进而推断出因序列的情况下使用。PCR 的每次扩增循环包括三步:1）变性,在高温下把双链靶DNA拆开；2）在较低的温度下使

基于质谱的蛋白质组学分析.

基于质谱分析的蛋白质组学在21世纪，生命科学的研究进入了后基因组时代，蛋白质组学作为其中的一个重要分支于20世纪90年代中期应运而生。由于蛋白质的复杂性，传统的蛋白质鉴定方法如末端测序等已无法满足蛋白质组学研究中的一系列需要。因此，质谱技术作为蛋白质组学研究的一项强有力的工具日趋成熟，并作为样品制备和数据分析的信息学工具被广泛地应用。质谱技术具有灵敏度、准确度、自动化程度高的优点，能准确测量肽和蛋白质的相对分子质量，氨基酸序列及翻译后修饰、蛋白质间相互作用的检测[1]，因此质谱分析无可争议地成为蛋白质组学研究的必然选择。 1. 蛋白质组学蛋白质组学（proteomics ）是从整体水平上研究细胞内蛋白质的组成、活动规律及蛋白质与蛋白质的相互作用，是功能基因组学时代一门新的科学。包括鉴定蛋白质的表达、修饰形式、结构、功能和相互作用等。根据研究目的，蛋白质组学可以分为表达蛋白质组学、结构蛋白质组学和功能蛋白质组学。表达蛋白质组学用于细胞内蛋白样品表达的定量研究。以绘制出蛋白复合物的结构或存在于一个特殊的细胞器中的蛋白为研究目的的蛋白质组学称为结构蛋白质组学，用于建立细胞内信号转导的网络图谱并解释某些特定蛋白的表达对细胞的作用[2]。功能蛋白质组学以细胞内蛋白质的功能及蛋白质之间的相互作用为研究目的，通过对选定的蛋白质组进行研究和分析，能够提供有关蛋白质的磷酸化、糖基化等重要信息。蛋白质组学研究的核心就是能够系地的鉴定一个细胞或组织中表达的每一个蛋白质及蛋白质的性能。蛋白质组学的主要相关技术有双向凝胶电泳、双向荧光差异凝胶电泳、质谱分析等[2]。由于蛋白质的高度复杂性和大量低丰度蛋白质的存在，对分析技术提出了巨大挑战，生物质谱技术则是适应这一挑战的必然选择。 2. 生物质谱技术

蛋白质组学研究的基本步骤

请简述蛋白质组学研究的基本步骤 1.蛋白质样品的制备：蛋白质样品的制备是蛋白质组学研究的首要环节，也是最为重要的部分。蛋白质样品的质量直接影响到科学研究的真实性和可信度。 2.蛋白质的分离：双向凝胶电泳技术是目前最基础和常用的蛋白质分离方法，它能将数千种蛋白质同时分离与展示的分离技术。双向电泳分为等电聚焦电泳和SDS-PAGE两个步骤，即先进行等电聚焦电泳，按照pI的不同将蛋白分离，然后再进行SDS-PAGE按照分子量的大小不同对蛋白进行分离。IPG胶条的应用，大大提高了双向电泳的重复性。 3. 蛋白质双向电泳凝胶的染色。目前双向电泳凝胶的染色的方法有3种，分别为考马斯亮蓝染色法、银染法和荧光染色法。考马斯亮蓝染色法，操作简便，无毒性，染色后的背景及对比度良好，与下游的蛋白质鉴定方法兼容，但灵敏度较低，可以检测到30～100 ng蛋白质。银染法是一种较为流行的染色方法，银染成本较低，灵敏度高，可检测少到2～5ng的蛋白。荧光试剂显色对蛋白质无固定作用，与质谱兼容性好，而其灵敏度与银染相仿，但线性范围要远高于银染，这使二维电泳分离蛋白质的荧光检测受到普遍关注和应用。 4.双向电泳凝胶图像的采集与分析：图像采集系统通过投射扫描根据吸光度的大小获碍蛋白质点的光密度信息。一般来说，该光密度值与蛋白质点的表达丰度成正比，以便于软件分析时的定量比较。完成图像采集后采用ImageMaster等图像分析软件进行分析。分析步骤：蛋白质点检测、背景消减、归一化处理、蛋白质点匹配。 5.蛋白质鉴定：蛋白质鉴定是蛋白质组学研究中的核心内容。目前蛋白质鉴定技术主要有Edman 降解法测序、质谱。质谱是目前最常用的蛋白质鉴定方法。质谱技术的基本原理是带电粒子在磁场或电场中运动的轨迹和速度依粒子的质量与携带电荷之比质荷比( m/z) 的不同而变化，可以据此来判断粒子的质量和特性。质谱完成后利用蛋白质的各种属性参数如相对分子质量、等电点、序列、氨基酸组成、肽质量指纹谱等在蛋白质数据库中检索，寻找与这些参数相符的蛋白质。

生物信息学分析方法

核酸和蛋白质序列分析蛋白质, 核酸, 序列关键词：核酸序列蛋白质序列分析软件在获得一个基因序列后，需要对其进行生物信息学分析，从中尽量发掘信息，从而指导进一步的实验研究。通过染色体定位分析、内含子／外显子分析、ORF分析、表达谱分析等，能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等，识别调控区的顺式作用元件，可以为基因的调控研究提供基础。通过蛋白质基本性质分析，疏水性分析，跨膜区预测，信号肽预测，亚细胞定位预测，抗原性位点预测，可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白，这对确定实验研究方向有重要的参考意义。此外，通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等，尽量挖掘网络数据库中的信息，可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接，放在北京大学人类疾病基因研究中心网站（https://www.doczj.com/doc/c617136109.html,/science/bioinfomatics.htm）,可以直接点击进入检索网站。下面介绍其中一些基本分析。值得注意的是，在对序列进行分析时，首先应当明确序列的性质,是mRNA序列还是基因组序列？是计算机拼接得到还是经过PCR扩增测序得到？是原核生物还是真核生物？这些决定了分析方法的选择和分析结果的解释。（一）核酸序列分析 1、双序列比对（pairwise alignment）双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置，它是用计算机进行序列分析的强大工具，分为全局比对和局部比对两类，各以Needleman-Wunsch 算法和Smith-Waterman算法为代表。由于这些算法都是启发式（heuristic）的算法，因此并没有最优值。根据比对的需要，选用适当的比对工具，在比对时适当调整空格罚分（gap penalty）和空格延伸罚分（gap extension penalty），以获得更优的比对。除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外，我们还推荐使用EMBOSS软件包中的Needle软件（http://bioinfo.pbi.nrc.ca:8090/EMBOSS/），和Pairwise BLAST （https://www.doczj.com/doc/c617136109.html,/BLAST/）。以上介绍的这些双序列比对工具的使用都比较简单，一般输入所比较的序列即可。（1）BLAST和FASTA FASTA（https://www.doczj.com/doc/c617136109.html,/fasta33/）和BLAST （https://www.doczj.com/doc/c617136109.html,/BLAST/）是目前运用较为广泛的相似性搜索工具。这两

质谱技术在蛋白质组学研究中的应用_甄艳

第35卷　第1期2011年1月南京林业大学学报(自然科学版) J o u r n a l o f N a n j i n g F o r e s t r y U n i v e r s i t y (N a t u r a l S c i e n c e E d i t i o n ) V o l .35,N o .1 J a n .,2011 h t t p ://w w w .n l d x b .c o m [d o i :10.3969/j .i s s n .1000-2006.2011.01.024] 　收稿日期:2009-12-31 修回日期:2010-10-26 　基金项目:国家自然科学基金项目(31000287);江苏省高校自然科学基础研究项目(10K J B 220002)　作者简介:甄艳(1976—),副教授,博士。＊施季森(通信作者),教授。E -m a i l :j s h i @n j f u .e d u .c n 。　引文格式:甄艳,施季森.质谱技术在蛋白质组学研究中的应用[J ].南京林业大学学报:自然科学版,2011,35(1):103-108. 质谱技术在蛋白质组学研究中的应用甄　艳,施季森＊ (南京林业大学,林木遗传与生物技术省部共建教育部重点实验室,江苏　南京　210037) 摘要:随着蛋白质组学研究的迅速发展,质谱技术已成为应用于蛋白质组学研究中的强有力工具和核心技术。质谱技术的先进性在于为蛋白质组学研究提供的通量和分子信息。笔者重点概述了基于质谱路线的蛋白质组学研究,介绍了基于质谱的定量蛋白质组学﹑翻译后修饰蛋白质组学、定向蛋白质组学、功能蛋白质组学以及基于串联质谱技术的蛋白质组学数据解析的研究进展。关键词:质谱;蛋白质组学;定量蛋白质组学;翻译后修饰;定向蛋白质组学;功能蛋白质组学中图分类号:Q 81 文献标志码:A 文章编号:1000-2006(2011)01-0103-06 A p p l i c a t i o n o f m a s s s p e c t r o m e t r y i n p r o t e o m i c s s t u d i e s Z H E NY a n ,S H I J i s e n ＊ (K e y L a b o r a t o r y o f F o r e s t G e n e t i c s a n d B i o t e c h n o l o g y M i n i s t r y o f E d u c a t i o n , N a n j i n g F o r e s t r y U n i v e r s i t y ,N a n j i n g 210037,C h i n a ) A b s t r a c t :W i t ht h e r a p i d d e v e l o p m e n t o f p r o t e o m i c s ,m a s s s p e c t r o m e t r y i s m a t u r i n g t o b e a p o w e r f u l t o o l a n dc o r e t e c h -n o l o g y f o r p r o t e o m i c s s t u d i e s d u r i n g t h e r e c e n t y e a r s .T h e s u p e r i o r i t y o f m a s s s p e c t r o m e t r y l i e s i n p r o v i d i n g t h e t h r o u g h -p u t a n d t h e m o l e c u l a r i n f o r m a t i o n ,w h i c hn o o t h e r t e c h n o l o g y c a n b e m a t c h e di np r o t e o m i c s .I nt h i s r e v i e w ,w e m a d e a g l a n c e o n t h e o u t l i n e o f m a s s s p e c t r o m e t r y -b a s e d p r o t e o m i c s .A n dt h e nw e a d d r e s s e d o n t h e a d v a n c e s o f d a t a a n a l y s i s o f m a s s s p e c t r o m e t r y -b a s e dp r o t e o m i c s ,q u a n t i t a t i v em a s ss p e c t r o m e t r y -b a s e dp r o t e o m i c s ,p o s t -t r a n s l a t i o n a l m o d i f i c a t i o n s b a s e d m a s s s p e c t r o m e t r y ,t a r g e t e d p r o t e o m i c s a n df u n c t i o n a l p r o t e o m i c s b a s e d -m a s s s p e c t r o m e t r y . K e yw o r d s :m a s ss p e c t r o m e t r y ;p r o t e o m i c s ;q u a n t i t a t i v ep r o t e o m i c s ;p o s t -t r a n s l a t i o n m o d i f i c a t i o n ;t a r g e t e d p r o -t e o m i c s ;f u n c t i o n a l p r o t e o m i c s 蛋白质组学(P r o t e o m i c s )是从整体水平上研究细胞内蛋白质的组成、活动规律及蛋白质与蛋白质的相互作用,是功能基因组学时代一门新的学科。目前蛋白质组学的研究主要有两条路线:一是基于双向电泳的蛋白质组学;二是基于质谱的蛋白质组学,其中基于双向电泳的蛋白质组学研究路线最终也离不开质谱技术的应用。自20世纪80年代末,两种质谱软电离方式即电喷雾电离(e l e c t r o s p r a y i o n i z a t i o n ,E S I )和基质辅助激光解析离子化(m a -t r i x a s s i s t e d l a s e r d e s o r p t i o n i o n i z a t i o n ,M A L D I )的发明和发展解决了极性大、热不稳定蛋白质和多肽分析的离子化和分子质量大的测定问题[1] ,蛋白质组学研究中常用的质谱分析仪包括离子阱(i o n t r a p ,I T ),飞行时间(t i m e o f f l i g h t ,T O F ),串联飞行时间(T O F -T O F ),四级杆/飞行时间(q u a d r u p o l e /T O F h y b r i d s ),离子阱/轨道阱(I T /o r b i t r a ph y b r i d ) 和离子阱/傅里叶变换串联质谱分析仪(I T /F o u r i e r t r a n s f o r m i o n c y c l o t r o nr e s o n a n c em a s s s p e c t r o m e t e r s h y b r i d s ,I T /F T M S ),这些质谱仪具有不同的灵敏度、分辨率、质量精确度和产生不同质量的M S /M S 谱[2] 。质谱作为蛋白质组学研究的一项强有力的工具日趋成熟,并作为样品制备及数据分析的信息学工具被广泛地应用。因此,有学者指出质谱技术已在蛋白质组学研究中处于核心地位[3] 。目前在通量及所包含的分子信息内容上,基于质谱的蛋白质组学技术在细胞生物学研究中可以鉴定和量化

生物信息学(第二版)

《精要速览系列-先锋版生物信息学（第二版）》 D.R.Westhead，J.H.Parish & R.M.Twyman 科学出版社2004 A生物信息学概述相关学习网站https://www.doczj.com/doc/c617136109.html,/inbioinformatics B数据采集 DNA,RNA和蛋白质测序 1．DNA测序原理 DNA中核苷酸的顺序是通过链式终止测序【也称为脱氧测序（dideoxy sequencing）或以发明人命名的Sanger方法】来确定。 2．DNA序列的类型基因组DNA，是直接从基因组中得到，包括自然状态的基因复制DNA（copy DNA, cDNA），通过反转录ｍＲＮＡ得到的重组DNA，包括载体序列如质粒，修饰过的病毒和在实验室使用的其他遗传元件等 3．基因组测序策略散弹法测序（shotgun sequence）包括随机DNA片段的生成，通过大量片段测序来覆盖整个基因组克隆重叠群测序（clone contig）DNA片段用推理的方法亚克隆，并且进行系统的测序直到整个序列完成 4．序列质量控制通过在DNA双链上进行多次读取完成高质量序列数据的测定可使用如Phred等程序对最初的跟踪数据（trace data）进行碱基识别和质量判断。载体序列和重复的DNA片段被屏蔽后，使用Phred等程序将序列拼接成重叠群（contigs），剩下的不一致部分通过人工修饰解决 5．单遍测序低质量的序列数据可以由单次读段（read）产生（单遍测序，single-pass sequencing）。尽管不很准确，但单遍测序如ESTs和GSS s，可以低廉的价格快速大量的产生 6．RNA测序因为有大量的小核苷酸（minor nucleotide）（化学改变的核苷）存在于转移RNA （tRNA）和核糖体RNA（rRNA）中，所以RNA测序不能像DNA测序那样直接进行。需要用特殊的方法来识别被改变的核苷，包括生化实验，核磁共振谱（NRM spectroscopy）和质谱（MS）技术 7．蛋白质测序蛋白质序列可以通过DNA序列推断得到，而RNA测序不能提供有关已改变残基或其他类型的翻译后蛋白质修饰（比如剪接或二硫键的形成）大部分蛋白质测序是通过质谱（MS）技术进行的

蛋白质组学及其主要技术

蛋白质组学及其主要技术朱红1 周海涛2 (综述) 何春涤1, (审校) (1.中国医科大学附属第一医院皮肤科,辽宁沈阳110001； 2.北京大学深圳医院核医学科，广东深圳518036) 【摘要】蛋白质组是指一种细胞、组织或有机体所表达的全部蛋白质。蛋白质组学是以蛋白质组为研究对象的新兴学科，近年来发展迅速，已成为后基因组时代的研究热点。目前，蛋白质组学研究技术主要包括：样品的制备和蛋白质的分离、蛋白质检测与图像分析、蛋白质鉴定及信息查询。本文就蛋白质组学概念及主要技术进行综述。【关键词】蛋白质组，蛋白质组学 1蛋白质组学的概念随着人类基因组测序计划的完成，人们对生命科学的研究重点由结构基因组转向功能基因组，1994年Wilkins和Williams首先提出蛋白质组一词[1]，蛋白质组是指一种细胞、组织或有机体所表达的全部蛋白质。从基因到蛋白质存在转录水平、翻译水平及翻译后水平的调控，组织中mRNA丰度与蛋白质丰度不完全符合[2]。蛋白质复杂的翻译后修饰、蛋白质的亚细胞定位或迁移、蛋白质-蛋白质相互作用等也无法从DNA／mRNA水平来判断。因此，只有将功能基因组学与蛋白质组学相结合，才能精确阐明生命的生理及病理机制。蛋白质组学是以蛋白质组为研究对象，对组织、细胞的整体蛋白进行检测，包括蛋白质表达水平、氨基酸序列、翻译后加工和蛋白质的相互作用,在蛋白质水平上了解细胞各项功能、各种生理、生化过程及疾病的病理过程等[3,4]。蛋白质组学有两种研究策略。一种是高通量研究技术，把生物体内所有的蛋白质作为对象进行研究，并建立蛋白质数据库，从大规模、系统性的角度来看待蛋白质组学，更符合蛋白质组学的本质。但是，由于剪切变异和翻译后修饰，蛋白质数量极其庞大，且表达随空间和时间不断变化，所以分析生物体内所有的蛋白质是一个耗时费力，难以实现的理想目标。另一种策略是研究不同状态或不同时期细胞或组织蛋白质组成的变化，主要目标是研究有差异蛋白质及其功能，如正常组织与肿瘤组织间的差异蛋白质，寻找肿瘤等疾病标记物并为其诊断治疗提供依据。 2蛋白质组学的常用技术 2.1样品的制备和蛋白质的分离技术 2.1.1样品的制备样品制备包括细胞裂解与蛋白质溶解，以及去除核酸等非蛋白质成分。激光捕获显微切割(Laser-captured microdissection, LCM)[5]技术可大量获得足够用于蛋白质组学研究的单一细胞成分，避免其他蛋白成分对电泳结果的干扰。尤其是肿瘤的蛋白质组学研究常用LCM技术来获取单一的肿瘤细胞。 2.1.2蛋白质的分离技术 ①双向凝胶电泳(Two-dimensional electrophoresis, 2-DE)：双向电泳方法于 l975年由O'Farrell[6]首先提出，根据蛋白质等电点和分子量的差异，连续进行成垂直方向的两次电泳将其分离。第一向为等电聚焦(Isoelectric focusing,IEF)电泳，其基本原理是利用蛋白质分子的等电点不同进行蛋白质的分离。较早出现的IEF是载体两性电解质pH梯度，即在电场中通过两性缓冲离子建立pH梯度；20世纪80年代初建立起来的固相pH梯度(Immobilized pH gradients，IPG)IEF，是利用一系列具有弱酸或弱碱性质的丙烯酰胺衍生物形成pH梯度并参与丙烯酰胺的共价聚合，形成固定的、不随环境电场条件变化的pH梯度。IPG胶实验的重复