第5章 序列比对与数据库相似性搜索
- 格式:ppt
- 大小:5.06 MB
- 文档页数:101
第一章生物信息学是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多个学科交叉结合形成的一门新学科,是利用信息技术和数学方法对生命科学研究中的生物信息进行存储。
检索和分析的科学。
1982年创建了GenBank数据库。
(1)序列数据资源:储存了生物信息学研究的原始数据,是生物信息学存在和发展的基础。
(2)序列比对与比对搜索:相似性分析是生物信息学最早涉及的问题之一。
常用的分析方法是序列比对。
(3)基因组结构注释(4)分子系统发生分析:系统发生关系是表示物种进化关系的参考依据。
通过分析分子水平的序列数据,可以了解物种系统发生的关系,目前常用树的形式来表示不同物种间的进化关系。
(5)蛋白质结构:蛋白质的空间结构是其行使功能的基础。
(6)蛋白质序列分析与功能预测。
(7)微阵列数据分析:微阵列是一种重要的基因表达高通量检测技术。
(8)蛋白质组数据分析:高通量的蛋白质组工程能够大范围地确定蛋白质功能,能确定蛋白质在哪种特殊的生理条件下会出现,还能确定那些蛋白质之间有相互作用。
(9)疾病相关研究:寻找疾病相关基因是认识疾病发生机理、研制疾病的基因诊断与防治手段的基础,也是人类基因组研究的重要手段。
(10)SNP芯片及深度测序数据分析。
视黄醇结合蛋白是一个相对分子质量小、被大量分泌的蛋白质,能结合血液中的视黄醇。
性质:①在多个物种中有许多蛋白质和RBP4同源,包括人、小鼠和鱼总的蛋白质。
②也有许多人类蛋白质额RBP4紧密相关,它们和RBP4的家族成为lipocalin家族——一群多样的小配体结合蛋白,它们倾向于分泌到细胞外空间。
③有细南的lipealin 蛋白,它们在对抗生素的抗性中起作用。
编码细菌lipocalin 的基因可能是一古老基因,它通过水平基因转移的过程进人真核生物基因组。
④些lipocalin 蛋白的表达水平受到显著的调控。
⑤lipealin 蛋白小而丰富,并且是可溶性的,它们的生物化学性质已被详细研究,许多蛋白质的三维结构也以x线晶体街射的方法被解析出来。
实验二_数据库相似性搜索与序列比对实验二数据库相似性搜索与序列比对实验原理:数据库相似性搜索以两两序列比对为基础,将感兴趣的基因序列与序列数据库中的每个序列进行比较,鉴别出相似的序列。
搜索结果显示出与最佳匹配序列的对位排列及匹配记分。
序列数据库搜索对发现基因的功能非常有效。
fasta和blast是两个著名的用于数据库相似性搜索的软件包。
其中blast(basiclocala1ignmentsearchtool)基于局部比对的搜索工具,是一种启发式搜索算法服务软件,包括blastp,blastn,blastx,tblastn 和tblastx程序。
实验目的和要求:学习数据库相似性检索和序列比对的程序的使用,能够理解程序给出的结果,从中获取有关功能和结构的信息。
(1)要求学生使用所学的数据库检索方法检索数据库中的特定基因(2)掌握数据库相似性搜索工具blast的基本比对方法,参数设置及结果分析(3)掌握核酸和蛋白质序列的比对方法、参数设置和结果分析实验材料:未知核酸序列;未知氨基酸序列;SOD基因工具软件:(1)数据库检索工具Entrez一、利用blast中的special类下的aligntwosequences(bl2seq)比较人与老鼠的sod基因蛋白质序列的相似性程度(1)人类aab27818是通过NCBI 1的ntrez和小鼠3gtt_E的SOD基因氨基酸序列或登录号(SOD分为SOD1或SOD2等,检索时注意选择完全相同的SOD基因)搜索蛋白质数据库获得的。
(2)进入NCBI的blast网页,然后选择specializedlast下的align two sequences(bl2seq)程序来比较这两个序列(3)选择blastp子程序,将序列或登录号分别粘贴到序列框中(4)其他选项采用默认的设置,运行程序(5)分析结果,并回答以下问题NCBI的Entrez搜索中使用了哪些关键词?humanandsodmouseandsod人和小鼠SOD基因蛋白质序列的注册号是多少?人aab27818 1和鼠标3gtt_e两序列比对得到的一致性百分比和相似性百分比分别为多少?识别127/153(83%)阳性135/153(88%)两序列比对结果中哪些区域出现了gap?差距0/153(0%)二、利用specielizedblast的conserveddomain进行蛋白质保守结构域分析(1)进入ncbi的blast网页(2)选择specialize last to enter下的保守域超链接(3)在cazy数据库查找一个糖苷水解酶glycosidehydrolases(gh+学号),获得其蛋白质序列或蛋白质序列的genbank登录号aek59386.1(4)在保守域页面的输入框中输入糖苷水解酶的登录号或蛋白质(5),选择默认参数,点击提交进行提交分析(6)阅读得到的结果,点击各hit的超链接了解找到的结构域的功能(7)将结构域图形和表格记录在实验报告中三、利用blast在数据库中搜索不同物种的同源基因(1)利用文献检索工具检索clostridiumthermocellum嗜热梭菌与其纤维素降解功能相关的基因,例如糖苷水解酶glycosidehydrolases(gh+学号)或多糖裂解酶polysaccharidelyases(pls)或碳水化合物酯酶carbohydrateesterases(ces)等(2)利用ncbi的entrez检索该基因获得其核酸序列ab125373或者使用(2)中的蛋白质注册号通过NCBI数据库中的相关信息链接到核酸数据库,以获得基因的核酸注册号或序列(3)利用blastn进行数据库相似性搜索搜索其他微生物中的同源基因(4)分析blast结果,并回答以下问题检索获得基因名称是?chi19-1该基因的登录号是多少?ab125373进行blastn搜索的数据库选项为?nr请列出其他3-5种具有该基因及其同源基因的微生物的注册号?ap009493.1。
序列比对和数据库搜索引言在生物学的研究中,有一个常用的方法,就是通过比较分析获取有用的信息和知识。
达尔文正是研究比较了galapagos finches同其它一些物种的形态学特征,从而提出了自然选择学说。
今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分析,只不过更加精细,更加详尽。
在这个意义上,我们从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。
最常用的比较方法是序列比对,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。
在这一章,我们只讨论一下双重比对,即只比较两个序列,至于较多的序列即多序列比对,将在下一章介绍。
七十年代以来,DNA测序方法的飞速发展,极大地引发了序列信息量的扩增,从而使可供比较的序列数量呈现爆炸式增长。
分子生物学家应该意识到,将未知序列同整个数据库中的已知序列进行比较分析已经成为他们手中一个强有力的研究手段。
在过去的三十年里,即使不提及计算机的应用,序列比较的各种算法也已经发展得越来越迅速,也越来越成熟,已经能够跟上序列数据库增长的步伐。
今天,我们已经拥有一些小的模式物种的基因组的全序列,还拥有人类基因序列的一些较大的样品,我们已经进入比较基因组时代,也就是说,对两个物种进行全基因组序列比较已经不再是一个梦想。
序列比对的进化基础进行序列比对的目的之一是让人们能够判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。
值得注意的是,相似性和同源性虽然在某种程度上具有一致性,但它们是完全不同的两个概念。
相似性是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量,而同源性是指从一些数据中推断出的两个基因在进化上曾具有共同祖先的结论,它是质的判断。
基因之间要么同源,要么不同源,绝不象相似性那样具有多或少的数量关系。
如图7.1所示,比较家鼠和小龙虾的同源的胰蛋白酶序列,发现它们具有41%的相似性。
实验三:相似性搜索与序列比对一:实验目的1. 能够熟练使用NCBI网站的BLAST系列工具和EMBL的BLAST和FASTA工具,掌握一定的数据库搜索相似序列的技巧。
2. 能够熟练运用Clustalx软件进行双序列和多序列比对。
3. 学会使用EMBL上的Clustalw工具进行比对二:实验内容及操作步骤1.BLAST和FASTA的使用Blastna)进入NCBI主页下载关于H5N1核酸序列或其它你感兴趣的核酸序列(Fasta格式)b)进入/BLAST/c)选择Nucleotide→Nucleotide-nucleotide BLAST (blastn)进行核酸相似性数据库搜索d)在search对话框中粘贴入下载的H5N1核酸序列或其它你感兴趣的核酸序列(Fasta格式)e)调整各参数值,直到获得最佳比对f)点击进行比对g)点击Format!对结果进行格式化,可在下面的选项中自行设计结果的显示方式h)查看比对结果,看在数据库中找到的序列与你的序列是否相似或相同Blastpa)进入NCBI主页下载某一蛋白质序列(Fasta格式),如amineb)选择Protein→Protein-protein BLAST (blastp)进行蛋白质相似性数据库搜索c)在search对话框中粘贴入下载的蛋白质序列(Fasta格式)d)调整各参数值,直到获得最佳比对e)点击进行比对f)点击Format!对结果进行格式化,可自行设计结果的显示方式g)查看比对结果,看在数据库中找到的序列与你的序列是否相似或相同Bl2seqa)进入NCBI主页下载某两条核酸或蛋白质序列(Fasta格式)b)进入/BLAST/c)点击Special目录下的Align two sequences (bl2seq)d)将两条序列分别输入Sequence 1和Sequence 2区域e)点Align进行比对EMBL-BLASTa)进入/b)点击ToolBox下的Blast2 - NCBIc)自行练习EMBL-BLAST,并比较与NCBI上的BLAST有何区别FASTA1.进入EMBL主页:/2.点击Services,点击ToolBox下的FASTA3.设置好参数点击Run4.点击结果中Summary Table下的按钮查看不同的结果显示2.Clustalx软件和在线Clustalw的使用使用Clustalx软件进行双序列比对:a)在NCBI中,搜索H5N1或任何你感兴趣的核酸或蛋白序列,选中两条序列,并一起存为FASTA文件,文件名为newname.fasta, 文件内容例如:>xxxxATTTCGGGTGCTCGATGCTAGG>xxxxxATATTATCATAGAGGGATACCCCCTGGGGb)点击软件的File→Load Sequences,加载保存的fasta文件c)点击Alignment→Do Alignment,进行默认参数的双序列比对d)将比对后的文件存到指定的目录,并用记事本打开并查看你保存的文件e)点击Alignment→Alignment Parameters→Pairwise Alignment Parameters,设置各个参数,再进行第3步看结果有何不同f)点击Alignment→Output Format Options,将存储的文件格式进行修改(默认为xxx.aln),执行c、d步骤,看不同文件格式的文件内容有何不同使用Clustalx软件进行多序列比对:a)在NCBI中,搜索H5N1或任何你感兴趣的核酸或蛋白序列,选中三条或三条以上序列,并一起存为FASTA文件,文件名为newname.fasta, 文件内容举例如下:>xxxxATTTCGGGTGCTCGATGCTAGG>xxxxxATATTATCATAGAGGGATACCCCCTGGGG>xxxxxATATTATCATAGAGGGATACCCCCTGGGG...…b)点击软件的File→Load Sequences,加载我们存的fasta文件c)点击Alignment→Do Alignment,进行默认参数的多序列比对d)将比对后的文件存到指定的目录,并用记事本打开你保存的文件e)点击Alignment→Alignment Parameters→Multiple Alignment Parameters,设置各个参数,再进行第c步看结果有何不同使用EMBL的Clustalw工具进行多序列比对:a)在NCBI中下载三条或三条以上核酸或蛋白质序列(Fasta格式)b)进入EMBL主页:/c)点击Services, 点击ToolBox→Sequence Analysis→ClustalWd)在对话框中输入下载的核酸或蛋白序列,点击Run进行默认参数的比对e)点击查看Results of search下的内容f)进入c步骤所在页面,修改Clustalw中的各参数并重复d步骤,看比对结果有何不同g)进入c步骤所在页面,在输入你的E-mail,并在选择E-mail,查看邮箱中的结果三、作业1.了解什么是BLAST,它有哪些应用。
核酸序列比对算法及相似性搜索实践核酸序列比对算法是生物信息学中的重要技术之一,它能够对两个或多个核酸序列进行比较,以求得它们之间的相似性和差异。
在生物学研究中,核酸序列比对算法被广泛应用于基因识别、物种分类、突变检测等领域。
本文将介绍常用的核酸序列比对算法,并结合实践案例展示其应用。
1. 序列比对算法概述核酸序列比对算法的目标是在两个或多个序列中找出相同或相似的片段。
根据比对的目的和序列特点,可以选择不同的算法。
以下是几个常用的核酸序列比对算法:1.1 基于Hash的序列比对算法基于Hash的序列比对算法通过构建序列的Hash表来快速搜索相同的片段。
它能够在很短的时间内找到相同的序列片段,但对于相似性较高的序列比对效果较差。
1.2 Smith-Waterman算法Smith-Waterman算法是一种动态规划算法,能够找到两个序列中最大的局部比对得分。
它通过计算得分矩阵并回溯最优比对路径,来确定最佳的比对结果。
Smith-Waterman算法可用于发现两个序列中的差异、寻找序列间的变异和插入缺失序列等。
1.3 Needleman-Wunsch算法Needleman-Wunsch算法是一种全局比对算法,能够找到两个序列之间的最佳全局比对。
它通过计算得分矩阵并回溯最优比对路径,来确定最佳的全局比对结果。
Needleman-Wunsch算法广泛应用于物种进化树的构建和序列同源性分析等。
1.4 BLAST算法BLAST算法(Basic Local Alignment Search Tool)是一种快速的序列比对算法,能够在大规模数据库中搜索相似的序列。
它通过构建索引和预计算,将待比对序列与数据库中的序列进行局部比对,从而快速找到相似的序列。
BLAST算法被广泛应用于基因组注释、蛋白质结构预测等领域。
2. 核酸序列相似性搜索实践案例为了展示核酸序列比对算法的应用,以下是一个实践案例。
在某次研究中,科研人员需要比对一组已知基因组的核酸序列与新发现的未知基因组中的核酸序列,以寻找可能的突变和变异。
一、名词辨析(每题5分,共20分)1、基因与基因组:Gene 基因:遗传功能的单位。
它是一种DNA序列,在有些病毒中则是一种RNA 序列,它编码功能性蛋白质或RNA分子。
Genome 基因组:染色体组,一个生物体、细胞器或病毒的整套基因;例如,细胞核基因组,叶绿体基因组,噬菌体基因组。
2、相似性与同源性:所谓同源序列,简单地说,是指从某一共同祖先经趋异进化而形成的不同序列。
同源性可以用来描述染色体—“同源染色体”、基因—“同源基因”和基因组的一个片断—“同源片断”必须指出,相似性(similarity)和同源性(homology)是两个完全不同的概念。
相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
相似性本身的含义,并不要求与进化起源是否同一、与亲缘关系的远近、甚至于结构与功能有什么联系。
3、CDS与cDNA:cDNA序列:互补DNA序列,指的是mRNA为在逆转录酶的作用下将形成DNA 的过程。
CDS序列:编码序列,从起始密码子到终止密码子的所有序列。
4、数据库搜索和数据库查询:数据库查询:对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找(又称数据库检索)。
数据库搜索:通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。
搜索对象不是数据库的注释信息,而是序列信息。
二、判断题(20分)1、生物信息学可以理解为生命科学中的信息科学。
(√)2、DNA分子和蛋白质分子都含有进化信息。
(√)3、目前生命科学研究的重点和突破点的已完全转移到生物信息学上,已不需要实验做支撑。
(×)4、生物信息学的发展大致经历了三个阶段:前基因组时代、基因组时代和后基因组时代。
(√)5、基因组与蛋白质组一样,都处于动态变化之中。
(×)6、蛋白质三维结构都是静态的,在行使功能的过程中其结构不会改变。
(×)7、生物信息学中研究的生物大分子主要是脂类和多糖。