序列比对和数据库
- 格式:doc
- 大小:267.00 KB
- 文档页数:50
生物信息学中的序列比对技术分析随着生物技术的不断进步,自动化测序技术的快速发展,大量生物学数据呈爆炸式增长。
同时,对生物信息学分析的需求日益增大,序列比对则成为生物信息学最常见的分析手段之一。
序列比对技术可以对已知序列与未知序列进行匹配、比对,以找出其中的异同点,分析其功能和演化关系,是生物科学、基因组学等分支的核心技术之一。
1. 序列比对的基本概念序列比对是指将两个或多个序列进行对比,找出它们的相似和不同之处的过程。
从基本原理上讲,序列比对是将一条DNA或RNA序列与另一条同源序列进行匹配的过程,而通过比较相同和不同之处来推断它们可能存在的共同祖先。
所谓同源序列,指的是两个或多个序列具有较高的序列相似度,可能来自相同种属的生物体或同一基因家族中的不同基因成员。
同源序列对于了解分子进化、基因结构与功能以及物种关系具有重要的意义。
2. 序列比对的类型在生物信息学领域,基本可以将序列比对分为全局比对和局部比对两种。
(1)全局比对全局比对是指将整个序列与另一条序列进行比对,寻找全长匹配区域。
全局比对适用于已知的高度同源性序列分析。
最常用的全局比对算法包括 Needleman-Wunsch 和 Smith-Waterman 算法。
其中,Needleman-Wunsch 算法较为严谨,适用于匹配全长序列;而 Smith-Waterman 算法则更为灵活,可以匹配任意长度的序列片段,并且可以找到更为相似的匹配序列。
(2)局部比对局部比对是指只比对序列中一部分序列,而不需要考虑整个序列,寻找相似或同源的序列区间。
相较于全局比对,局部比对更适合用于寻找序列中比较短且高度相似的区域。
常用的局部比对算法有 BLAST (Basic Local Alignment Search Tool) 和 FASTA (Fast Alignment Search Tool) 算法。
这些算法适用于较长的未知序列与基因或蛋白质序列数据库进行比对。
湖南师范大学硕士研究生入学考试自命题考试大纲
考试科目代码:[ ] 考试科目名称:生物信息学
考试内容和要点
1.生物信息学数据库
(1)知识点1:NCBI数据库的介绍
(2)知识点2:Swiss-Prot数据库
(3)知识点3:PDB数据库
考试要求:掌握NCBI数据库的建设和使用方法;掌握Swiss-Prot和PDB数据库的使用方法。
2.序列比对
(1)知识点1:双重序列比对分析
(2)知识点2:多序列比对分析
(3)知识点3:BLAST数据库搜索
考试要求:掌握序列比对的原理和方法;掌握如何使用BLAST软件进行数据库搜索和同源性分析。
3.序列特征分析
(1)知识点1:DNA序列特征分析
(2)知识点2:蛋白质序列特征分析
考试要求:掌握基因预测的原理和方法;掌握DNA序列预测和分析的原理和方法;掌握蛋白质序列跨膜区分析的原理和方法。
4.蛋白结构预测
(1)知识点1:蛋白质三级结构预测的原理
(2)知识点2:蛋白质三级结构预测的方法
(3)知识点3:蛋白质三级结构的分析
考试要求:掌握蛋白质三级结构预测的概念;掌握蛋白质三级结构预测的基本方法;掌握分析蛋白质三级结构的基本方法。
5. 基因功能注释
(1)知识点1:基因功能的基本概念
(2)知识点2:基因功能的注释原理和方法
考试要求:掌握基因注释和功能分类的基本概念;掌握基因功能注释的原理和方法;掌握常用基因功能注释软件的使用;。
多序列比对与以及各类常见的序列分析工具介绍多序列比对是一种比较多个生物序列之间的相似性和差异性的分析方法,可以揭示它们之间的演化关系和功能差异。
它在生物信息学和分子生物学研究中广泛应用,有助于研究DNA、RNA和蛋白质序列的进化、功能区域和氨基酸残基间相互作用。
本文将介绍多序列比对的基本原理和常见的序列分析工具。
多序列比对的目标是通过寻找序列之间的共有特征,建立它们之间的相似性和差异性关系图。
这种比对分析可以通过多种方式实现,包括基于局部比对和全局比对的算法。
局部比对主要用于短序列比对或存在插入/缺失的序列,而全局比对则适用于较长的序列。
常见的序列分析工具:1. Clustal Omega:Clustal Omega是一种用于多序列比对的工具,具有较高的准确性和较快的计算速度。
它通过整合序列比对和树构建方法来生成相似性矩阵,进而构建进化树、同源家族和功能域簇。
2.MAFFT:MAFFT是一种广泛使用的多序列比对工具,具有较快的速度和较高的准确性。
它适用于较大和较长的序列比对,并在处理有多种长度变化的序列时表现良好。
3. Muscle:Muscle是一种快速而准确的多序列比对工具。
它采用迭代算法,通过比对似然和得分来改善比对准确性。
Muscle还可以生成不同格式的输出文件,便于后续分析。
4. T-Coffee:T-Coffee是一种多序列比对工具,结合了精确性和速度。
它提供了多种比对模式,适用于不同类型的序列数据。
T-Coffee还可以集成结构信息进行序列比对。
5.MUSCLE:MUSCLE能够进行全局和局部序列比对,并自动根据序列间的相似性进行调整。
它广泛应用于DNA、RNA和蛋白质序列比对,并能够处理相对较大的序列集。
6. ClustalW:ClustalW是一种常见的多序列比对工具,旨在生成全局比对。
它提供了多种比对算法和可视化选项,可用于分析相对于参考序列的多个不同序列。
7.BLAST:BLAST是一种常用的序列比对工具,用于快速进行局部序列比对和寻找相似性序列。
第二代测序数据分析原理第二代测序技术是近年来迅速发展起来的高通量测序技术,能够产生大量的DNA序列数据。
与第一代测序技术相比,第二代测序技术具有更高的产量、更快的速度和更低的成本,成为当前基因组学研究和医学诊断的重要工具之一第二代测序数据分析原理是指对产生的高通量测序数据进行处理和解读的过程。
该过程涉及到数据的质控、序列比对、变异检测和功能注释等多个步骤,以获取对生物学问题回答所需的信息。
下面将详细介绍第二代测序数据分析的原理。
1.数据质控数据质控是第二代测序数据分析的第一步,其目的是剔除低质量的序列,保证后续分析得到的结果的准确性。
主要的质控步骤包括去除低质量碱基、去除接头序列和过滤冗余数据。
这些步骤可以通过使用不同的软件工具来实现,如Trimmomatic、FastQC等。
2.序列比对序列比对是将测序数据与参考基因组进行比对的过程。
参考基因组可以是已知的基因组序列,也可以是人工合成的探针序列。
序列比对主要采用两种方法:短序列比对和长序列比对。
短序列比对常用的算法有Bowtie、BWA等,长序列比对常用的算法有BLAST、GSNAP等。
3.变异检测变异检测是根据测序数据中的变异信息来鉴定样本中存在的单核苷酸多态性(SNP)、插入缺失(indel)等变异类型。
变异检测的过程主要包括变异鉴定、变异筛选和变异注释。
变异鉴定的方法包括泛素缺失、泛素纯化和下一代序列法。
变异筛选使用一系列的过滤条件来减少假阳性的产生,如频率过滤、质量过滤和功能过滤等。
变异注释是将检测到的变异与已有的数据库进行比对,以获取变异的生物学功能信息,如GEMINI、ANNOVAR等。
4.功能注释功能注释是将检测到的变异与基因、通路等功能元件进行关联,从而了解变异对生物学功能的影响。
功能注释的方法包括基因本体论(GO)、通路分析、蛋白质相互作用网络分析等。
这些方法可以帮助研究者理解变异的生物学意义以及变异在特定疾病中的作用机制。
综上所述,第二代测序数据分析原理包括数据质控、序列比对、变异检测和功能注释等多个步骤。
实验二_数据库相似性搜索与序列比对实验二数据库相似性搜索与序列比对实验原理:数据库相似性搜索以两两序列比对为基础,将感兴趣的基因序列与序列数据库中的每个序列进行比较,鉴别出相似的序列。
搜索结果显示出与最佳匹配序列的对位排列及匹配记分。
序列数据库搜索对发现基因的功能非常有效。
fasta和blast是两个著名的用于数据库相似性搜索的软件包。
其中blast(basiclocala1ignmentsearchtool)基于局部比对的搜索工具,是一种启发式搜索算法服务软件,包括blastp,blastn,blastx,tblastn 和tblastx程序。
实验目的和要求:学习数据库相似性检索和序列比对的程序的使用,能够理解程序给出的结果,从中获取有关功能和结构的信息。
(1)要求学生使用所学的数据库检索方法检索数据库中的特定基因(2)掌握数据库相似性搜索工具blast的基本比对方法,参数设置及结果分析(3)掌握核酸和蛋白质序列的比对方法、参数设置和结果分析实验材料:未知核酸序列;未知氨基酸序列;SOD基因工具软件:(1)数据库检索工具Entrez一、利用blast中的special类下的aligntwosequences(bl2seq)比较人与老鼠的sod基因蛋白质序列的相似性程度(1)人类aab27818是通过NCBI 1的ntrez和小鼠3gtt_E的SOD基因氨基酸序列或登录号(SOD分为SOD1或SOD2等,检索时注意选择完全相同的SOD基因)搜索蛋白质数据库获得的。
(2)进入NCBI的blast网页,然后选择specializedlast下的align two sequences(bl2seq)程序来比较这两个序列(3)选择blastp子程序,将序列或登录号分别粘贴到序列框中(4)其他选项采用默认的设置,运行程序(5)分析结果,并回答以下问题NCBI的Entrez搜索中使用了哪些关键词?humanandsodmouseandsod人和小鼠SOD基因蛋白质序列的注册号是多少?人aab27818 1和鼠标3gtt_e两序列比对得到的一致性百分比和相似性百分比分别为多少?识别127/153(83%)阳性135/153(88%)两序列比对结果中哪些区域出现了gap?差距0/153(0%)二、利用specielizedblast的conserveddomain进行蛋白质保守结构域分析(1)进入ncbi的blast网页(2)选择specialize last to enter下的保守域超链接(3)在cazy数据库查找一个糖苷水解酶glycosidehydrolases(gh+学号),获得其蛋白质序列或蛋白质序列的genbank登录号aek59386.1(4)在保守域页面的输入框中输入糖苷水解酶的登录号或蛋白质(5),选择默认参数,点击提交进行提交分析(6)阅读得到的结果,点击各hit的超链接了解找到的结构域的功能(7)将结构域图形和表格记录在实验报告中三、利用blast在数据库中搜索不同物种的同源基因(1)利用文献检索工具检索clostridiumthermocellum嗜热梭菌与其纤维素降解功能相关的基因,例如糖苷水解酶glycosidehydrolases(gh+学号)或多糖裂解酶polysaccharidelyases(pls)或碳水化合物酯酶carbohydrateesterases(ces)等(2)利用ncbi的entrez检索该基因获得其核酸序列ab125373或者使用(2)中的蛋白质注册号通过NCBI数据库中的相关信息链接到核酸数据库,以获得基因的核酸注册号或序列(3)利用blastn进行数据库相似性搜索搜索其他微生物中的同源基因(4)分析blast结果,并回答以下问题检索获得基因名称是?chi19-1该基因的登录号是多少?ab125373进行blastn搜索的数据库选项为?nr请列出其他3-5种具有该基因及其同源基因的微生物的注册号?ap009493.1。
序列比对和数据库搜索引言在生物学的研究中,有一个常用的方法,就是通过比较分析获取有用的信息和知识。
达尔文正是研究比较了galapagos finches同其它一些物种的形态学特征,从而提出了自然选择学说。
今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分析,只不过更加精细,更加详尽。
在这个意义上,我们从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。
最常用的比较方法是序列比对,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。
在这一章,我们只讨论一下双重比对,即只比较两个序列,至于较多的序列即多序列比对,将在下一章介绍。
七十年代以来,DNA测序方法的飞速发展,极大地引发了序列信息量的扩增,从而使可供比较的序列数量呈现爆炸式增长。
分子生物学家应该意识到,将未知序列同整个数据库中的已知序列进行比较分析已经成为他们手中一个强有力的研究手段。
在过去的三十年里,即使不提及计算机的应用,序列比较的各种算法也已经发展得越来越迅速,也越来越成熟,已经能够跟上序列数据库增长的步伐。
今天,我们已经拥有一些小的模式物种的基因组的全序列,还拥有人类基因序列的一些较大的样品,我们已经进入比较基因组时代,也就是说,对两个物种进行全基因组序列比较已经不再是一个梦想。
序列比对的进化基础进行序列比对的目的之一是让人们能够判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。
值得注意的是,相似性和同源性虽然在某种程度上具有一致性,但它们是完全不同的两个概念。
相似性是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量,而同源性是指从一些数据中推断出的两个基因在进化上曾具有共同祖先的结论,它是质的判断。
基因之间要么同源,要么不同源,绝不象相似性那样具有多或少的数量关系。
如图7.1所示,比较家鼠和小龙虾的同源的胰蛋白酶序列,发现它们具有41%的相似性。
BLAST相关术语及参数详解BLAST(Basic Local Alignment Search Tool)是一种用于序列比对的常用算法和程序。
它可以在数据库中和比对两个序列,并根据相似度进行排序。
BLAST包含一些相关的术语和参数,下面将对其进行详细解释和说明。
1.序列:BLAST用于比对和的数据单位,可以是蛋白质或核酸序列。
2.比对:将查询序列与数据库中的参考序列进行比较,并确定相似度、匹配位置和分数。
3. 数据库:包含参考序列的集合,可以是蛋白质数据库(如NCBI NR)或核酸数据库(如GenBank)等。
4.查询:待比对的目标序列,由用户提供。
5.相似度:比对后序列之间的相似性程度。
BLAST使用分数和百分比的形式表示相似度,分数越高,相似度越高。
6.插入:在比对过程中,为了使两个序列对齐,可能会在其中一个序列中插入一些“缺失”的字符。
7.缺失:在比对过程中,由于插入或删除操作,导致序列之间的位置不对齐,出现缺失。
8.匹配:在比对过程中,两个序列之间相同的字符,表示两个序列在该位置上具有相同碱基或氨基酸。
9.分数:BLAST使用分数来评估两个序列之间的相似性程度。
分数越高,表示两个序列越相似。
10.E值:期望值,表示在随机情况下,出现当前比对的得分或更高得分的概率。
E值越小,表示比对结果越可信。
11.阈值:用于筛选比对结果的最小分数值或E值。
低于阈值的比对将被排除。
12. Bit score:比对结果的分数,以位(bit)为单位。
Bit score 越高,表示比对结果越可信。
13.靶序列:在数据库中时,将查询序列与之比对的参考序列。
14.检索:从数据库中返回与查询序列相似的参考序列。
15.空间:指定比对程序在数据库中的范围。
可以是整个数据库,也可以是特定的序列子集。
16.高分值段对(HSPs):在BLAST比对结果中,指在两个序列中同时出现的相似部分。
17. 元数据库:元数据库是一个包含多个数据库的组合,可用于BLAST。
测序结果分析DNA测序技术已经成为了生物学研究的一项非常重要的工具,能够为我们提供大量的基因信息。
但是,得到大量的基因信息并不意味着我们就可以直接进行基因研究,我们还需要对测序结果进行深入的分析才能够更加准确地了解这些基因的特点和功能。
本文将介绍测序结果分析的基本流程和一些常见的方法。
测序结果分析的基本流程测序结果分析的基本流程可以分为以下几步:1.原始测序数据处理:对测序测序的原始数据进行过滤、去重、修剪等操作,得到高质量的序列数据。
2.序列比对:将样本读取序列与参考序列比对,确定SNP、INDEL、等变异信息。
3.基因注释:对比对结果进行注释,在数据库中查找相关基因的信息,如基因的长度、功能、结构、等等。
4.功能富集分析:对匹配到的基因进行功能富集分析,可以了解到哪些基因和功能在样本间被不同地表达。
常见的测序结果分析方法1. 原始数据处理原始数据处理主要包括数据过滤、去除低质量序列、去除接头等步骤。
之后,我们可以得到高质量的序列数据,用于后续的分析。
2. 序列比对序列比对是将样本测序序列与参考序列比对,比对结果用于寻找SNP、INDEL 等变异。
比对的方法包括全局比对和局部比对,全局比对速度慢但结果较准确,局部比对速度快但可能会产生错误结果。
一般常用的软件有Bowtie、BWA、STAR 等。
3. 基因注释基因注释是对比对结果定位到相应的基因序列上,然后通过与数据库进行比对进行注释。
常用的数据库包括NCBI GenBank、KEGG、UniProt等。
从中可以获得各种相关信息,例如功能、结构、长度等。
4. 功能富集分析功能富集分析是对匹配到的基因进行功能分析,可以了解哪些基因和功能在样本间被不同地表达。
常用的软件包括DAVID(Database for Annotation, Visualization and Integrated Discovery)、GO(Gene Ontology)等,这些数据库可以将富集到的功能直接表示为直线图或散点图等方式,分析结果比较清晰。
ncbi使用指导NCBI是美国国家生物技术信息中心(National Center for Biotechnology Information)的缩写,是一个提供生物医学和遗传学相关数据和信息的数据库。
NCBI提供了许多工具和资源,以帮助研究人员在基因组学、蛋白质学、遗传学和生物信息学等领域进行研究。
以下是使用NCBI的一些基本指南:1. 访问NCBI网站:使用任何现代网络浏览器,打开NCBI的主页(https://)即可开始使用。
2. 搜索文献:在NCBI主页上的搜索框中,输入你要搜索的关键词,如基因名、疾病名或其他相关的信息。
点击“搜索”按钮,即可看到与你的搜索关键词相关的论文和研究。
3. 搜索序列:如果你希望搜索某个特定基因或蛋白质的序列,可以使用“基因”或“蛋白质”选项卡下的搜索工具。
在搜索框中输入你要搜索的序列信息,点击“搜索”按钮,即可找到与该序列相关的信息和研究。
4. 访问数据库:NCBI提供了许多数据库,如GenBank(基因组数据库)、PubMed(文献数据库)和BLAST(序列比对工具)。
你可以使用NCBI的导航菜单,选择你感兴趣的数据库进行浏览和搜索。
5. 下载数据:在NCBI的数据库中,你可以找到大量的基因组序列、蛋白质序列和其他相关数据。
你可以通过点击数据记录的链接,进入详情页,然后选择下载你需要的数据文件或信息。
6. 利用NCBI工具:NCBI还提供了一些生物信息学工具,如BLAST(序列比对工具)、Primer-BLAST(引物设计工具)和Gene Expression Omnibus(基因表达数据库)。
你可以使用这些工具进行基因序列比对、引物设计和基因表达分析等。
7. 阅读文献:NCBI的PubMed数据库是一个广泛的生物医学文献数据库,你可以使用关键词搜索文献,并阅读或下载全文。
你还可以使用PubMed Central(PMC)访问免费的全文文章。
总之,NCBI是一个丰富的生物医学信息资源,提供了许多工具和数据库,以帮助研究人员进行基因组学和生物信息学研究。
序列比对和数据库搜索Gregory D.SchulerNationalCenterfor Biotechnology InformationNational Library of Medicine.National Institutes of HealthBethesda. Maryland引言在生物学的研究中,有一个常用的方法,就是通过比较分析获取有用的信息和知识。
达尔文正是研究比较了galapagos finches同其它一些物种的形态学特征,从而提出了自然选择学说。
今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分析,只不过更加精细,更加详尽。
在这个意义上,我们从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。
最常用的比较方法是序列比对,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。
在这一章,我们只讨论一下双重比对,即只比较两个序列,至于较多的序列即多序列比对,将在第八章介绍。
七十年代以来,DNA测序方法的飞速发展,极大地引发了序列信息量的扩增,从而使可供比较的序列数量呈现爆炸式增长。
分子生物学家应该意识到,将未知序列同整个数据库中的已知序列进行比较分析已经成为他们手中一个强有力的研究手段。
在过去的三十年里,即使不提及计算机的应用,序列比较的各种算法也已经发展得越来越迅速,也越来越成熟,已经能够跟上序列数据库增长的步伐。
今天,我们已经拥有一些小的模式物种的基因组的全序列,还拥有人类基因序列的一些较大的样品,我们已经进入比较基因组时代,也就是说,对两个物种进行全基因组序列比较已经不再是一个梦想。
序列比对的进化基础进行序列比对的目的之一是让人们能够判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。
值得注意的是,相似性和同源性虽然在某种程度上具有一致性,但它们是完全不同的两个概念。
相似性是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量,而同源性是指从一些数据中推断出的两个基因在进化上曾具有共同祖先的结论,它是质的判断。
基因之间要么同源,要么不同源,绝不象相似性那样具有多或少的数量关系。
如图7.1所示,比较家鼠和小龙虾的同源的胰蛋白酶序列,发现它们具有41%的相似性。
由于受到研究进化关系这一目的的影响,大多数比对方法很自然地都希望能够在某种程度上建立起分子进化的模型。
我们通常都假定同源序列是从某一共同祖先不断变化而来,但事实上,我们无法得知这个祖先序列到底是什么样子,除非能够从化石中获得它的DNA,我们所能够做到的只是从现存物种中,探求真相。
从祖先序列以来所发生的变化包括取代、插入以及缺失。
在理想情况下,同源基因或蛋白质序列在相互比较时,残基之间相互对应,从而使取代的情况很明显地表现出来。
在某些位置,一个序列中拥有某些残基而另一个序Bioinformatics: A Practical Guide to the Analysis of Genes and ProteinsEdited by A.D.Baxevanis and B.F.F.OuelletteISBN 0-471-19196-5.pages 145-171. Copyright© 1998 Wiley-Liss. Inc.列中缺少这种残基,表明这些残基是插入到前者或是从后者中丢失的。
这些空位在序列比对时用连续的短线填补。
如图7.1,在序列比对中,发现了5个空位。
|------ S-S-------*|MouseIVGGYNCEENSVPYQVSLNS-----GYHFCGGSLINEQWVVSAGHCYK-------S RIQVCrayfishIVGGTDA VLGEFPYQLSFQETFLGFSFHFCGASIYNENYAITAGHCVYGDD YENPSGLQI*Mouse RLGEHNIEVLEGNEQFINAAKIIRHPQYDRKTLNNDIMLIKLSSRA VINARV STISLPTACrayfishV AGELDMSVNEGSEQTITVSKIILHENFDYDLLDNDISLLKLSGSLTFNNNV APIALPAQ|---- S-S--------|Mouse PPATGTKCLISGWGNTASSGADYPDELQCLDAPVLSQAKCEASYPG-KITSN MFCVGFLECrayfishGHTATGNVIVTGWG-TTSEGGNTPDVLQKVTVPLVSDAECRDDYGADEIF DSMICAGVPE◇ *|-------------S-S------------------|MouseGGKDSCQGDSGGPVVCNG----QLQGVVSWGDGCAQKNKPGVYTKVYNY VKWIKNTIAANCrayfish GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYH VDWIKANAV--图7.1、保守位点通常在功能上极为重要。
对老鼠的胰蛋白酶(Swiss-ProtP07146)和小龙虾的胰蛋白酶(Swiss-Prot P00765)作比对,相同的残基用下标线标出,在比对上方标出的是三个二硫键(-S-S),这些二硫键中的半胱氨酸残基极为保守,打星号的残基的侧链参与电荷传递系统,打菱形符号的活性位点的残基负责底物的特异性。
在残基-残基比对中,很明显,某些位置的氨基酸残基相对于其它位置的残基具有较高的保守性,这个信息揭示了某些残基对于一个蛋白质的结构和功能是极为重要的。
如图7.1所示,处于活性位点的残基都是极为保守的,比如形成二硫键的半胱氨酸,参与电子传递的氨基酸残基以及决定底物特异性的氨基酸残基。
这些保守的残基对于保持蛋白的结构与功能非常重要,另一方面,由于历史原因,某些保守位置对蛋白功能并无太大的重要性。
当我们处理非常相近的物种时必须十分小心,因为相似性在某些情况下更多地是历史的反映而不是功能的反映,比如,mouse和rat的某些序列具有高度的相似性,可能仅仅是因为没有足够的时间进行分化而已。
尽管如此,系列比对仍然是从已知获得未知的一个十分有用的方法,比如通过比较一个新的蛋白同其它已经经过深入研究的蛋白,可以推断这个未知蛋白的结构与功能的某些性质。
必须指出的是,不能够仅仅是通过比较分析这一判据来断定结论是否正确,结论还必须经过实验验证。
当我们发现两个基因或蛋白质具有惊人的相似性时,我们会认为他们之间具有一段共同的进化历程,从而我们判断他们会具有相似的生物学功能,但是,这个推断在成为结论之前必须经过实验的验证。
例如,ζ-晶状物是脊椎动物眼睛里晶状体基质的组成部分,根据序列相似性的基础,它在E.coli中的同源物是代谢酶苯醌氧化还原酶(如图7.2),不管二者的共同祖先如何,它们的功能在进化中已经改变了(Gonzalez et al.,1994)。
这就好象火车变成了铁路餐车,虽然对二者的外部结构的观察揭示了它们结构的历史,但是仅仅根据这一信息往往会得出有关其功能的错误结论。
当一个基因适应了一个新的功能时,保守位置通常也会发生一些形式上的变化,比如,当蛋白具有催化功能时,活性为点的残基相当保守,而当蛋白功能改变时,这些残基将会发生漂移。
Human-ZCrMATGQKLMRA VRVFEFGGPEVLKLRSDIA VPIPKDHQVLIKVHACGVNPV ETYIRSGTYSEcoli-QOR------MATRIEFHKHGGPEVLQA-VEFTPADPAENEIQVENKAIGINFIDTYIRS GLYP. . ******. . . *…. . . * *.* ..****** *Human-ZCrRKPLLPYTPGSDV AGVIEA VGDNASAFKKGDRVFTSSTISGGYAEYALAAD HTVYKLPEKEcoli-QOR-PPSLPSGLGTEAAGIVSKVGSGVKHIKAGDRVVYAQSALGAYSSVHNIIAD KAAILPAA* ** *.. **.. ** . * **** . . * *. **Human-ZCrLDFKQGAAIGIPYFTAYRALIHSACVKAGESVLVHGASGGVGLAACQIARA YGLKILGTAEcoli-QOR ISFEQAAASFLKGLTVYYLLRKTYEIKPDEQFLFHAAAGGVGLIACQWAKA LGAKLIGTV. * * ** . * * * .. .* * * * *.***** *** *.* * *..**Human-ZCr GTEEGQKIVLQNGAHEVFNHREVNYIDKIKKYVGEKGIDIIIEMLANVNLS KDLSLLSHGEcoli-QOR GTAQKAQSALKAGAWQVINYREEDLVERLKEITGGKKVRVVYDSVGRDT WERSLDCLQRR** . . *. ** .* * **…. * * * . .. . . . . * * .Human-ZCrGRVIVVG-SRGTIEINPROTMAKES----SIIGVTLFSSTKEEFQQYAAALQAG MEIGWLEcoli-QORGLMVSFGNSSGA VTGVNLGILNQKGSLYVTRPSLQGYITTREELTEASNEL FSLIASGVI* .. * * *.. . . . . . .*.** . . * . . * .Human-ZCr KPVIGSQ--YPLEKV AEAHENIIHGSGATGKMILLLEcoli-QOR KVDV AEQQKYPLKDAQRAHE-ILESRATQGSSLLIP* . * *** *** *. . * .*.图7.2、最佳全局比对:对人类ζ-晶状物(Swiss-Prot Q08257)和E.coli苯醌氧化还原酶(Swiss-Prot P28304)的氨基酸序列进行比对。
这是一个由CLUSTAL W程序(Higgins et al., 1996)得到的最佳全局比对结果。
在比对下方,星号表示残基相同,打点表示这个残基是保守的。
早期的序列比对方法只应用于那些在全长范围内具有简单相似性的一些序列。
全序列比对就是对序列进行全程扫描,进行比较。
以上讨论的胰蛋白酶和ζ-晶状物之间的比较就属于全序列比对。
具有简单的球形结构域的蛋白一般可以使用全序列比对的策略,以为所有的同源序列尚未经过实质上的变化蛋白质的模块性质许多蛋白质在全程范围内并不具有相似性,但却似乎是由众多的模块结构域搭建而成。