第三章序列比对
- 格式:ppt
- 大小:1.85 MB
- 文档页数:45
第三章序列比对1 序列比对的概念序列比对的定义是:根据特定的计分规则,两个或多个符号序列按位置比较后排列,尽可能反映序列间的相似性,这一过程称为序列比对。
2 序列比对的意义生物信息学形成早期的主要研究内容就是序列比对,而当时序列比对研究的课题主要是生物大分子的进化。
核酸序列与蛋白质序列的突变是经实验证明的生物学现象,而现代生物学认为正是这种生物大分子序列的不断变化形成了生物进化的分子基础。
即在地质年代早期的地球生物中的核酸、蛋白质等序列经过几十亿年的演变后,成为了现今极其多样化的生物大分子序列。
我们并不知道这些分子序列祖先演化的实际过程,但可以找到现存序列的相似性,根据相似性去推导演化的过程。
正是通过序列比对找出序列之间的相似性。
序列比对找到的是相似性,可用这相似性去进行同源性分析。
后文所讲到的分子系统发育分析,就是通过序列比对,再进行聚类分析,然后依据所得结果确定被测分子序列的亲缘关系,构建进化树。
序列比对的一个用途就是用于搜索相似序列。
当你获得一段DNA序列或氨基酸序列后,发现对它一无所知时,可以在核酸序列数据库中搜索关于这一序列的信息,一个有效的方法是采用比对算法在数据库中找到一系列与该序列有相似性的序列,并按相似程度由高到低排列。
现在应用的多个序列搜索软件的本质差异基本上是比对算法的差异,随着数据库规模的扩大,对快速搜索的要求越来越高,而优化比对算法是解决问题的方案之一。
在基因组测序中,序列比对更是有重要作用。
基因组测序一般要将若干个拷贝的长核酸序列打断成有重叠区域的许多小片断,测序仪对小片断进行测序,然后把已知碱基排列顺序的小片断用比对算法找到有重叠区的另外的片断,把它们边接起来还原成原来的长核酸序列,得到长核酸序列的碱基排列顺序。
序列比对还可以寻找序列中的特定位点。
当一个基因的某一位点发生突变时,它与原基因进行比对时就能发现这个位点,这在寻找致病基因时尤为重要。
同时,通过比对,可找出不同序列间一些保守性的区域,它们可能行使重要的功能。
第三章序列比较序列比较是生物信息学中最基本、最重要的操作,通过序列比对可以发现生物序列中的功能、结构和进化的信息。
序列比较的根本任务是:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的差异。
在分子生物学中,DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。
一个普遍的规律是序列决定结构,结构决定功能。
研究序列相似性的目的之一是,通过相似的序列得到相似的结构或相似的功能。
这种方法在大多数情况下是成功的,当然,也存在着这样的情况,即两条序列几乎没有相似之处,但分子却折叠成相同的空间形状,并具有相同的功能。
这里先不考虑空间结构或功能的相似性,仅研究序列的相似性。
研究序列相似性的另一个目的是通过序列的相似性,判别序列之间的同源性,推测序列之间的进化关系。
这里,将序列看成由基本字符组成的字符串,无论核酸序列还是蛋白质序列,都是特殊的字符串。
本章着重介绍通用的序列比较方法。
序列的相似性3.13.1序列的相似性序列的相似性可以是定量的数值,也可以是定性的描述。
相似度是一个数值,反映两条序列的相似程度。
关于两条序列之间的关系,有许多名词,如相同、相似、同源、同功、直向同源、共生同源等。
在进行序列比较时经常使用“同源”(homology)和“相似”(similarity)这两个概念,这是两个经常容易被混淆的不同概念。
两条序列同源是指它们具有共同的祖先。
在这个意义上,无所谓同源的程度,两条序列要么同源,要么不同源。
而相似则是有程度的差别,如两条序列的相似程度达到30%或60%。
一般来说,相似性很高的两条序列往往具有同源关系。
但也有例外,即两条序列的相似性很高,但它们可能并不是同源序列,这两条序列的相似性可能是由随机因素所产生的,这在进化上称为“趋同”(convergence),这样一对序列可称为同功序列。
直向同源(orthologous)序列是来自于不同的种属同源序列,而共生同源(paralogous)序列则是来自于同一种属的序列,它是由进化过程中的序列复制而产生的。
《生物信息学》第三章:序列比较(第三部分)在线多序列比对工具:TCOFFEE - ExpressoTCOFFEE是一个非常流行的多序列比对工具。
TCOFFEE与CLUSTAL系列在所使用的算法上类似,准确度上比CLUSTAL系列略高,但计算耗时也比CLUSTAL系列略高。
最关键的是TCOFFEE有很多种变形,也就是说它有更多的功能。
许多网站都提供TCOFFEE 的在线使用,比如EMBL的多序列比对工具里就有TCOFFEE。
但是这次,我们从TCOFFEE 的网站做多序列比对。
TCOFFEE本身是一个标准的多序列比对工具,跟CLUSTAL没有什么区别。
我们来看它的变形,也就是根据比对序列种类的不同,TCOFFEE网站下特有的比对工具(图1)。
图1. TCOFFEE网站下特有的比对工具针对蛋白质序列的比对工具,除了TCOFFEE以外,还有Expresso,M-Coffee, TM-Coffee 以及PSI-Coffee。
其中,Expresso最有特色,它是为序列加入结构信息后再做多序列比对的工具。
因为有结构信息的辅助,它可以大大提高比对的准确度。
M-Coffee可以把多个比对的结果整合成一个。
TM-Coffee专为穿膜蛋白打造,PSI-Coffee专为远源序列打造。
同样的还有针对RNA和DNA序列的Coffee。
抱歉不能一一品尝,我们就挑他家的特色招牌咖啡,Expresso尝一下。
也就是做加入结构信息的蛋白质多序列比对。
做Expresso的序列我们选用网站提供的示例序列(图2)。
Show more options下,可以通过各种方式给入输入序列的结构信息。
如果你有这些序列现成的结构文件,也就是PDB 文件,可以直接把它们上传上来。
三条序列对应三个上传链接。
可以上传的结构文件不只限于PDB数据库下载的,也包括还未正式发表的解析结构或者计算机预测的结构,只要是用PDB文件格式保存的,都可以。
图2. TCOFFEE Expresso序列和结构信息输入界面如果没有现成的结构文件,但是这些序列在PDB数据库里有对应结构的话,你可以从接下来的输入框里,按照规定的写法,指定哪条序列对应PDB数据库中的哪个结构(图3)。