第三章序列对比与数据库搜索(下)
- 格式:ppt
- 大小:7.73 MB
- 文档页数:43
序列比对和数据库搜索Gregory D.SchulerNationalCenterfor Biotechnology InformationNational Library of Medicine.National Institutes of HealthBethesda. Maryland引言在生物学的研究中,有一个常用的方法,就是通过比较分析获取有用的信息和知识。
达尔文正是研究比较了galapagos finches同其它一些物种的形态学特征,从而提出了自然选择学说。
今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分析,只不过更加精细,更加详尽。
在这个意义上,我们从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。
最常用的比较方法是序列比对,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。
在这一章,我们只讨论一下双重比对,即只比较两个序列,至于较多的序列即多序列比对,将在第八章介绍。
七十年代以来,DNA测序方法的飞速发展,极大地引发了序列信息量的扩增,从而使可供比较的序列数量呈现爆炸式增长。
分子生物学家应该意识到,将未知序列同整个数据库中的已知序列进行比较分析已经成为他们手中一个强有力的研究手段。
在过去的三十年里,即使不提及计算机的应用,序列比较的各种算法也已经发展得越来越迅速,也越来越成熟,已经能够跟上序列数据库增长的步伐。
今天,我们已经拥有一些小的模式物种的基因组的全序列,还拥有人类基因序列的一些较大的样品,我们已经进入比较基因组时代,也就是说,对两个物种进行全基因组序列比较已经不再是一个梦想。
序列比对的进化基础进行序列比对的目的之一是让人们能够判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。
值得注意的是,相似性和同源性虽然在某种程度上具有一致性,但它们是完全不同的两个概念。
相似性是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量,而同源性是指从一些数据中推断出的两个基因在进化上曾具有共同祖先的结论,它是质的判断。
第三章序列比对1 序列比对的概念序列比对的定义是:根据特定的计分规则,两个或多个符号序列按位置比较后排列,尽可能反映序列间的相似性,这一过程称为序列比对。
2 序列比对的意义生物信息学形成早期的主要研究内容就是序列比对,而当时序列比对研究的课题主要是生物大分子的进化。
核酸序列与蛋白质序列的突变是经实验证明的生物学现象,而现代生物学认为正是这种生物大分子序列的不断变化形成了生物进化的分子基础。
即在地质年代早期的地球生物中的核酸、蛋白质等序列经过几十亿年的演变后,成为了现今极其多样化的生物大分子序列。
我们并不知道这些分子序列祖先演化的实际过程,但可以找到现存序列的相似性,根据相似性去推导演化的过程。
正是通过序列比对找出序列之间的相似性。
序列比对找到的是相似性,可用这相似性去进行同源性分析。
后文所讲到的分子系统发育分析,就是通过序列比对,再进行聚类分析,然后依据所得结果确定被测分子序列的亲缘关系,构建进化树。
序列比对的一个用途就是用于搜索相似序列。
当你获得一段DNA序列或氨基酸序列后,发现对它一无所知时,可以在核酸序列数据库中搜索关于这一序列的信息,一个有效的方法是采用比对算法在数据库中找到一系列与该序列有相似性的序列,并按相似程度由高到低排列。
现在应用的多个序列搜索软件的本质差异基本上是比对算法的差异,随着数据库规模的扩大,对快速搜索的要求越来越高,而优化比对算法是解决问题的方案之一。
在基因组测序中,序列比对更是有重要作用。
基因组测序一般要将若干个拷贝的长核酸序列打断成有重叠区域的许多小片断,测序仪对小片断进行测序,然后把已知碱基排列顺序的小片断用比对算法找到有重叠区的另外的片断,把它们边接起来还原成原来的长核酸序列,得到长核酸序列的碱基排列顺序。
序列比对还可以寻找序列中的特定位点。
当一个基因的某一位点发生突变时,它与原基因进行比对时就能发现这个位点,这在寻找致病基因时尤为重要。
同时,通过比对,可找出不同序列间一些保守性的区域,它们可能行使重要的功能。
实验二_数据库相似性搜索与序列比对实验二数据库相似性搜索与序列比对实验原理:数据库相似性搜索以两两序列比对为基础,将感兴趣的基因序列与序列数据库中的每个序列进行比较,鉴别出相似的序列。
搜索结果显示出与最佳匹配序列的对位排列及匹配记分。
序列数据库搜索对发现基因的功能非常有效。
fasta和blast是两个著名的用于数据库相似性搜索的软件包。
其中blast(basiclocala1ignmentsearchtool)基于局部比对的搜索工具,是一种启发式搜索算法服务软件,包括blastp,blastn,blastx,tblastn 和tblastx程序。
实验目的和要求:学习数据库相似性检索和序列比对的程序的使用,能够理解程序给出的结果,从中获取有关功能和结构的信息。
(1)要求学生使用所学的数据库检索方法检索数据库中的特定基因(2)掌握数据库相似性搜索工具blast的基本比对方法,参数设置及结果分析(3)掌握核酸和蛋白质序列的比对方法、参数设置和结果分析实验材料:未知核酸序列;未知氨基酸序列;SOD基因工具软件:(1)数据库检索工具Entrez一、利用blast中的special类下的aligntwosequences(bl2seq)比较人与老鼠的sod基因蛋白质序列的相似性程度(1)人类aab27818是通过NCBI 1的ntrez和小鼠3gtt_E的SOD基因氨基酸序列或登录号(SOD分为SOD1或SOD2等,检索时注意选择完全相同的SOD基因)搜索蛋白质数据库获得的。
(2)进入NCBI的blast网页,然后选择specializedlast下的align two sequences(bl2seq)程序来比较这两个序列(3)选择blastp子程序,将序列或登录号分别粘贴到序列框中(4)其他选项采用默认的设置,运行程序(5)分析结果,并回答以下问题NCBI的Entrez搜索中使用了哪些关键词?humanandsodmouseandsod人和小鼠SOD基因蛋白质序列的注册号是多少?人aab27818 1和鼠标3gtt_e两序列比对得到的一致性百分比和相似性百分比分别为多少?识别127/153(83%)阳性135/153(88%)两序列比对结果中哪些区域出现了gap?差距0/153(0%)二、利用specielizedblast的conserveddomain进行蛋白质保守结构域分析(1)进入ncbi的blast网页(2)选择specialize last to enter下的保守域超链接(3)在cazy数据库查找一个糖苷水解酶glycosidehydrolases(gh+学号),获得其蛋白质序列或蛋白质序列的genbank登录号aek59386.1(4)在保守域页面的输入框中输入糖苷水解酶的登录号或蛋白质(5),选择默认参数,点击提交进行提交分析(6)阅读得到的结果,点击各hit的超链接了解找到的结构域的功能(7)将结构域图形和表格记录在实验报告中三、利用blast在数据库中搜索不同物种的同源基因(1)利用文献检索工具检索clostridiumthermocellum嗜热梭菌与其纤维素降解功能相关的基因,例如糖苷水解酶glycosidehydrolases(gh+学号)或多糖裂解酶polysaccharidelyases(pls)或碳水化合物酯酶carbohydrateesterases(ces)等(2)利用ncbi的entrez检索该基因获得其核酸序列ab125373或者使用(2)中的蛋白质注册号通过NCBI数据库中的相关信息链接到核酸数据库,以获得基因的核酸注册号或序列(3)利用blastn进行数据库相似性搜索搜索其他微生物中的同源基因(4)分析blast结果,并回答以下问题检索获得基因名称是?chi19-1该基因的登录号是多少?ab125373进行blastn搜索的数据库选项为?nr请列出其他3-5种具有该基因及其同源基因的微生物的注册号?ap009493.1。
第三章序列比较序列比较是生物信息学中最基本、最重要的操作,通过序列比对可以发现生物序列中的功能、结构和进化的信息。
序列比较的根本任务是:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的差异。
在分子生物学中,DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。
一个普遍的规律是序列决定结构,结构决定功能。
研究序列相似性的目的之一是,通过相似的序列得到相似的结构或相似的功能。
这种方法在大多数情况下是成功的,当然,也存在着这样的情况,即两条序列几乎没有相似之处,但分子却折叠成相同的空间形状,并具有相同的功能。
这里先不考虑空间结构或功能的相似性,仅研究序列的相似性。
研究序列相似性的另一个目的是通过序列的相似性,判别序列之间的同源性,推测序列之间的进化关系。
这里,将序列看成由基本字符组成的字符串,无论核酸序列还是蛋白质序列,都是特殊的字符串。
本章着重介绍通用的序列比较方法。
序列的相似性3.13.1序列的相似性序列的相似性可以是定量的数值,也可以是定性的描述。
相似度是一个数值,反映两条序列的相似程度。
关于两条序列之间的关系,有许多名词,如相同、相似、同源、同功、直向同源、共生同源等。
在进行序列比较时经常使用“同源”(homology)和“相似”(similarity)这两个概念,这是两个经常容易被混淆的不同概念。
两条序列同源是指它们具有共同的祖先。
在这个意义上,无所谓同源的程度,两条序列要么同源,要么不同源。
而相似则是有程度的差别,如两条序列的相似程度达到30%或60%。
一般来说,相似性很高的两条序列往往具有同源关系。
但也有例外,即两条序列的相似性很高,但它们可能并不是同源序列,这两条序列的相似性可能是由随机因素所产生的,这在进化上称为“趋同”(convergence),这样一对序列可称为同功序列。
直向同源(orthologous)序列是来自于不同的种属同源序列,而共生同源(paralogous)序列则是来自于同一种属的序列,它是由进化过程中的序列复制而产生的。