核酸氨基酸序列相似性比较
- 格式:docx
- 大小:21.67 KB
- 文档页数:8
核苷酸氨基酸序列转换核苷酸和氨基酸序列在生物学研究中起着重要的作用。
核苷酸是DNA和RNA的基本组成单位,而氨基酸是蛋白质的基本组成单位。
通过研究核苷酸和氨基酸序列,我们可以了解生物体内基因组的组成和蛋白质的结构与功能。
DNA和RNA是生物体内的遗传物质,它们由四种不同的核苷酸组成:腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C)。
这些核苷酸按照特定的顺序排列,形成了DNA和RNA的序列。
通过对核苷酸序列的研究,我们可以了解到生物体内基因的组成和结构。
而蛋白质是生物体内的重要分子,它们由氨基酸组成。
氨基酸是一种有机化合物,它们由氨基(NH2)、羧基(COOH)和一个侧链组成。
氨基酸根据它们的侧链的不同可以分为20种不同的类型。
这些氨基酸按照特定的顺序排列,形成了蛋白质的序列。
通过对氨基酸序列的研究,我们可以了解到蛋白质的结构和功能。
核苷酸和氨基酸序列的转换是生物学研究中常用的技术之一。
通过比较不同物种的核苷酸和氨基酸序列,我们可以了解到它们之间的相似性和差异性。
这有助于我们研究生物体的进化关系和功能差异。
核苷酸和氨基酸序列的转换还可以用于研究疾病的发生机制。
一些疾病是由于基因突变引起的,这些突变可以导致核苷酸和氨基酸序列的改变。
通过对这些序列的分析,我们可以了解到疾病的发生机制和可能的治疗方法。
核苷酸和氨基酸序列在生物学研究中起着重要的作用。
通过对它们的研究,我们可以了解到生物体内基因的组成和结构,蛋白质的结构和功能,以及疾病的发生机制。
这些研究对于推动生物学的发展和提高人类健康水平具有重要意义。
计算机技术在生物学科的应用1.序列比对序列比对其意义是从核酸、氨基酸的层次来比较两个或两个以上符号序列的相似性或不相似性,进而推测其结构功能及进化上的联系。
研究序列相似性的目的是通过相似的序列得到相似的结构或功能,也可以通过序列的相似性判别序列之间的同源性,推测序列之间的进化关系。
序列比对是生物信息学的基础,非常重要。
序列比对中最基础的是双序列比对,双序列比较又分为全局序列比较和局部序列比较,这两种比较均可用动态程序设计方法有效解决。
在实际应用中,某些在生物学上有重要意义的相似性不是仅仅分析单条序列,只能通过将多个序列对比排列起来才能识别。
比如当面对许多不同生物但蛋白质功能相似时,我们可能想知道序列的哪些部分是相似的,哪些部分是不同的,进而分析蛋白质的结构和功能。
为获得这些信息,我们需要对这些序列进行多序列比对。
多重序列比对算法有动态规划算法、星形比对算法、树形比对算法、遗传算法、模拟退火算法、隐马尔可夫模型等,这些算法都可以通过计算机得以解决。
2.数据库搜索随着人类基因组计划的实施,实验数据急剧增加,数据的标准化和检验成为信息处理的第一步工作,并在此基础上建立数据库,存储和管理基因组信息。
这就需要借助计算机存储大量的生物学实验数据,通过对这些数据按一定功能分类整理,形成了数以百计的生物信息数据库,并要求有高效的程序对这些数据库进行查询,以此来满足生物学工作者的需要。
数据库包括一级数据库和二级数据库,一级数据库直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是对基本数据进行分析、提炼加工后提取的有用信息。
分子生物学的三大核心数据库是GenBank核酸序列数据库,SWISS-PROT蛋白质序列数据库和PDB生物大分子结构数据库,这三大数据库为全世界分子生物学和医学研究人员了解生物分子信息的组织和结构,破译基因组信息提供了必要的支撑。
但是用传统的手工分析方法来处理数据显然已经无法跟上新时代的步伐,对于大量的实验结果必须利用计算机进行自动分析,以此来寻找数据之间存在的密切关系,并且用来解决实际中的问题。
序列比对和数据库搜索引言在生物学的研究中,有一个常用的方法,就是通过比较分析获取有用的信息和知识。
达尔文正是研究比较了galapagos finches同其它一些物种的形态学特征,从而提出了自然选择学说。
今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分析,只不过更加精细,更加详尽。
在这个意义上,我们从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。
最常用的比较方法是序列比对,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。
在这一章,我们只讨论一下双重比对,即只比较两个序列,至于较多的序列即多序列比对,将在下一章介绍。
七十年代以来,DNA测序方法的飞速发展,极大地引发了序列信息量的扩增,从而使可供比较的序列数量呈现爆炸式增长。
分子生物学家应该意识到,将未知序列同整个数据库中的已知序列进行比较分析已经成为他们手中一个强有力的研究手段。
在过去的三十年里,即使不提及计算机的应用,序列比较的各种算法也已经发展得越来越迅速,也越来越成熟,已经能够跟上序列数据库增长的步伐。
今天,我们已经拥有一些小的模式物种的基因组的全序列,还拥有人类基因序列的一些较大的样品,我们已经进入比较基因组时代,也就是说,对两个物种进行全基因组序列比较已经不再是一个梦想。
序列比对的进化基础进行序列比对的目的之一是让人们能够判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。
值得注意的是,相似性和同源性虽然在某种程度上具有一致性,但它们是完全不同的两个概念。
相似性是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量,而同源性是指从一些数据中推断出的两个基因在进化上曾具有共同祖先的结论,它是质的判断。
基因之间要么同源,要么不同源,绝不象相似性那样具有多或少的数量关系。
如图7.1所示,比较家鼠和小龙虾的同源的胰蛋白酶序列,发现它们具有41%的相似性。
核酸序列比对算法及相似性搜索实践核酸序列比对算法是生物信息学中的重要技术之一,它能够对两个或多个核酸序列进行比较,以求得它们之间的相似性和差异。
在生物学研究中,核酸序列比对算法被广泛应用于基因识别、物种分类、突变检测等领域。
本文将介绍常用的核酸序列比对算法,并结合实践案例展示其应用。
1. 序列比对算法概述核酸序列比对算法的目标是在两个或多个序列中找出相同或相似的片段。
根据比对的目的和序列特点,可以选择不同的算法。
以下是几个常用的核酸序列比对算法:1.1 基于Hash的序列比对算法基于Hash的序列比对算法通过构建序列的Hash表来快速搜索相同的片段。
它能够在很短的时间内找到相同的序列片段,但对于相似性较高的序列比对效果较差。
1.2 Smith-Waterman算法Smith-Waterman算法是一种动态规划算法,能够找到两个序列中最大的局部比对得分。
它通过计算得分矩阵并回溯最优比对路径,来确定最佳的比对结果。
Smith-Waterman算法可用于发现两个序列中的差异、寻找序列间的变异和插入缺失序列等。
1.3 Needleman-Wunsch算法Needleman-Wunsch算法是一种全局比对算法,能够找到两个序列之间的最佳全局比对。
它通过计算得分矩阵并回溯最优比对路径,来确定最佳的全局比对结果。
Needleman-Wunsch算法广泛应用于物种进化树的构建和序列同源性分析等。
1.4 BLAST算法BLAST算法(Basic Local Alignment Search Tool)是一种快速的序列比对算法,能够在大规模数据库中搜索相似的序列。
它通过构建索引和预计算,将待比对序列与数据库中的序列进行局部比对,从而快速找到相似的序列。
BLAST算法被广泛应用于基因组注释、蛋白质结构预测等领域。
2. 核酸序列相似性搜索实践案例为了展示核酸序列比对算法的应用,以下是一个实践案例。
在某次研究中,科研人员需要比对一组已知基因组的核酸序列与新发现的未知基因组中的核酸序列,以寻找可能的突变和变异。
氨基酸序列的相似性与分子进化研究分子生物学是生物学研究中最新兴、发展最快的分支之一。
氨基酸序列的比较是分子生物学的核心技术之一,也是分子进化研究中最常用的方法之一。
本文将从氨基酸序列的相似性和分子进化这两个方面来探讨分子生物学的相关问题。
一、氨基酸序列的相似性氨基酸序列的相似性是指两个或多个生物体中某种蛋白质的氨基酸序列之间的相似程度。
相似性的高低可以反映生物个体之间的亲缘关系,进而推断其进化关系。
通过比较不同生物物种的同源蛋白质氨基酸序列的相似性,可以得出以下结论:1. 相似性越高,两物种的亲缘关系越近。
例如,同属哺乳动物的猩猩和人类的差异在不到5%左右,而与非洲绿猴的差异则高达20%以上。
2. 不同物种之间的相似性还可以显示它们的共同祖先。
例如,谷氨酸脱羧酶(glutamate dehydrogenase)是生命起源较久远、在细胞代谢中广泛存在的代表性酶,根据其氨基酸序列的比较,可以得出细菌、植物和动物之间在起源时期已经分化出来的信息。
氨基酸序列的相似性比较有一些基本的方法:1. 比较相似性百分比。
这是最常见、最简单的比较方法。
具体而言,将某物种中某个蛋白质的氨基酸序列与其他物种相同蛋白质的序列对比,以相同氨基酸数占总数的比例为相似性。
2. 比较两个蛋白质的氨基酸序列中的替代和同义突变。
即突变导致的氨基酸替代和没有导致的氨基酸替代。
3. 比较基因树。
基因树是基于分子序列相似性建立的,它反映了彼此之间的亲缘关系。
构建一个基因树可以帮助揭示生物群体之间的进化历史,同时也可以预测蛋白质功能的演化。
二、分子进化分子进化是指利用分子生物学方法及工具来研究生命的进化过程和进化规律。
它的基本思想是,正是DNA、RNA和蛋白质的不断变异、选择和适应使得生物进化。
分子进化研究需要比较生物体中蛋白质的氨基酸序列或基因的核苷酸序列,然后用相似性分析、进化树分析等方法来推断它们之间的进化关系,以及基因或蛋白质的演化历史。
氨基酸多重序列比对
每个氨基酸的比对是相互独立的那么对于其中空位的部分,正在一条序列上的空位,另一条序列上就是插入
序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。
术语“序列比对”也指构建上述比对或在潜在的不相关序列的数据库中寻找significantalignments。
基本信息
用途语言进化的研究理论基础进化学说重要性对算法的研究具有非常重要的意义
正文
序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。
将两个或多个序列排列在一起,标明其相似之处。
序列中可以插入间隔(通常用短横线“-”表示)。
对应的相同或相似的符号(在核酸中是A,T(或U),C,G,在蛋白质中是氨基酸残基的单字母表示)排列在同一列上。
这一方法常用于研究由共同祖先进化而来的序列,特别是如蛋白质序列或DNA序列等生物序列。
在比对中,错配与突变相应,而空位与插入或缺失对应。
序列比对还可用于语言进化或文本间相似性之类的研究。
术语“序列比对”也指构建上述比对或在潜在的不相关序列的
数据库中寻找significantalignments。
BLAST 核酸/氨基酸序列相似性比较Blast (Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。
BLAST程序能迅速与公开数据库进行相似性序列比较。
BLA ST结果中的得分是对一种对相似性的统计说明。
BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。
如果您想进一步了解B LAST算法,您可以参考NCBI的BLAST Course ,该页有BLAST算法的介绍。
BLAST的功能BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。
BLAST还能发现具有缺口的能比对上的序列。
BLAST是基于Altschul等人在J.Mol.Biol上发表的方法(J.Mol.Biol.215:403-410(1990)),在序列数据库中对查询序列进行同源性比对工作。
从最初的BLAST发展到现在NCBI提供的BLAST2.0,已将有缺口的比对序列也考虑在内了。
BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。
所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。
BLAST包含的程序:1、BLASTP是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
2、BLASTX是核酸序列到蛋白库中的一种查询。
先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
3、BLASTN是核酸序列到核酸库中的一种查询。
库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
4、TBLASTN是蛋白序列到核酸库中的一种查询。
与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
5、TBLASTX是核酸序列到核酸库中的一种查询。
此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。
通常根据查询序列的类型(蛋白或核酸)来决定选用何种BLAST。
假如是作核酸-核酸查询,有两种BLAST供选择,通常默认为BLASTN。
如要用TBLASTX也可,但记住此时不考虑缺口。
BLAST适用于本地查询。
可以下载公共数据库,对于该数据库的更新和维护是必不可少的。
如果要直接到网上查询也可以(即NetBlast),但记住如果你认为自己的序列很有价值的话,还是谨慎为宜。
如何访问在线的BLAST功能服务?您只要通过浏览器访问Blast主页(/) 。
所有的查询和分析都通过浏览器来完成,就象您在您的本地机上一样方便和快捷。
BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。
Blast中常用的程序介绍:1、BLASTP是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
2、BLASTX是核酸序列到蛋白库中的一种查询。
先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
3、BLASTN是核酸序列到核酸库中的一种查询。
库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
4、TBLASTN是蛋白序列到核酸库中的一种查询。
与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
5、TBLASTX是核酸序列到核酸库中的一种查询。
此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。
NCBI的在线blast:/Blast.cgi1,进入在线blast界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。
不同的blast程序上面已经有了介绍。
这里以常用的核酸库作为例子。
2,粘贴fasta格式的序列。
选择一个要比对的数据库。
关于数据库的说明请看NCBI在线blast数据库的简要说明。
一般的话参数默认。
3,blast参数的设置。
注意显示的最大的结果数跟E值,E值是比较重要的。
筛选的标准。
最后会说明一下。
4,注意一下你输入的序列长度。
注意一下比对的数据库的说明。
5,blast结果的图形显示。
没啥好说的。
6,blast结果的描述区域。
注意分值与E值。
分值越大越靠前了,E值越小也是这样。
7,blast结果的详细比对结果。
注意比对到的序列长度。
评价一个blast结果的标准主要有三项,E值(Expect),一致性(Identities),缺失或插入(Gaps)。
加上长度的话,就有四个标准了。
如图中显示,比对到的序列长度为1405,看Identities这一值,才匹配到1344bp,而输入的序列长度也是为1344bp(看上面的图),就说明比对到的序列要长一点。
由Qurey(起始1)和Sbjct(起始35)的起始位置可知,5'端是是多了一段的。
有时也要注意3'端的。
附:E值(Expect):表示随机匹配的可能性,E值越大,随机匹配的可能性也越大。
E值接近零或为零时,具本上就是完全匹配了。
一致性(Identities):或相似性。
匹配上的碱基数占总序列长的百分数。
缺失或插入(Gaps):插入或缺失。
用"—"来表示。
BlastN/MegaBlast/Discontiguous MegaBlast 的区别:三者之间的共同之处就是BlastN/Megablast/Discontiguous megablast 都是BlastN,就是核酸序列比对核酸序列的算法。
简单而言BlastN : 应该是出现较早的算法。
比对的速度慢,但允许更短序列的比对(如短到7个碱基的序列)。
MEGABLAST : 主要用来鉴定一段新的核酸序列,它并不注重比对各个碱基的不同和序列片断的同源性,而只注重被比对序列是否是数据库未收录的,是否为新的提交序列或基因。
速度快。
同一物种间的。
Discontiguous MEGABLAST : 灵敏度(sensitivity)更高,用于更精确的比对。
主要用于跨物种之间的同源比对。
详细解释1,MEGABLAST 常被用于鉴定核酸序列MEGABLAST is the tool of choice to identify a nucleotide sequence.MegaBLAST也是一种BLASTN程序,不过它主要是用来在非常相似的序列之间(来自同一物种)比对同源性的。
鉴定某一段核酸序列是否存在于数据库,最好的方法是选择MEGABLAST。
如果比对到的序列在数据库中注释完整的话,那该序列丰富的注释可以当作新序列的参考。
当然,BlastN/MEGABLAST/Discontiguous MEGABLAST,都可以完成这种事情。
但MEGABLA ST就是特别设计用于非常相似序列之间的比对,可用于寻找查询序列的最佳匹配的序列。
2,Discontiguous MEGABLAST 更好地用于查找不同物种的相似的核酸序列,而不是与查询序列相同(identical)物种的。
Discontiguous MEGABLAST is better at finding nucleotide sequences similar, but not identical, to your nucleotide query.Discontiguous MEGABLAST,用于跨物种核酸序列快速比对。
它使用非重叠群字段匹配算法(noncontiguous word match)来进行核酸比对。
Discontiguous MegaBLAST比b lastx等翻译后比对要快得多,同时它在比较编码区时也具有相当高的敏感度。
但是需要指出的是,核酸与核酸之间的比对并不是发现同源蛋白编码区域的最佳方法,直接在蛋白水平用Blastp比对更好。
这是因为密码子的简并性。
(Lc.注:翻译得有些拗口,多多见谅!)Discontiguous MEGABLAST详细介绍:/blast/discontiguous.ht ml原文:/blast/producttable.shtml#tab31本文详细出处参考:/1009/#more-10091,Blastp: 标准的蛋白序列与蛋白序列之间的比对Standard protein BLAST is designed for protein searches.Blastp用于确定查询的氨基酸序列在蛋白数据库中找到相似的序列。
跟其它的Blast程序一样,目的是要找到相似的区域。
2,PSI-BLAST : 敏感度更高的蛋白序列与蛋白序列之间的比对PSI-BLAST is designed for more sensitive protein-protein similarity searches.Position-Specific Iterated (PSI)-BLAST,是一种更加高灵敏的Blastp程序,对于发现远亲物种的相似蛋白或某个蛋白家族的新成员非常有效。
当你使用标准的Blastp比对失败时,或比对的结果仅仅是一些假基因或推测的基因序列时("hypothetical protein" o r "similar to..."),你可以选择PSI-BLAST重新试试。
3,PHI-BLAST : 模式发现迭代BLASTPHI-BLAST can do a restricted protein pattern search.PHI-BLAST, 模式发现迭代BLAST, 用蛋白查询来搜索蛋白数据库的一个程序。
仅仅找出那些查询序列中含有的特殊模式的对齐。
PHI的语法详细介绍看这里:/blast/html/PHIsyntax.htmlPeptide Sequence Databases蛋白序列的数据库nrAll non-redundant GenBank CDS translations + RefSeq Proteins + PDB + SwissP rot + PIR + PRF所有非冗余的的GenBank CDS区的翻译序列+ 参考序列的蛋白+ PDB数据库 + SwissProt蛋白数据库+ PRF蛋白数据库refseqRefSeq protein sequences from NCBI's Reference Sequence Project.所有NCBI的参考序列swissprotLast major release of the SWISS-PROT protein sequence database (no updates). swissprot的蛋白数据库patProteins from the Patent division of GenPept.专利的蛋白数据库pdbSequences derived from the 3-dimensional structure from Brookhaven Protein Da ta Bank.PDB数据库monthAll new or revised GenBank CDS translation+PDB+SwissProt+PIR+PRF released i n the last 30 days.一个月内新增加的蛋白序列env_nrProtein sequences from environmental samples.来自environmental samples的蛋白序列Nucleotide Sequence Databases核酸数据库nrAll GenBank + RefSeq Nucleotides + EMBL + DDBJ + PDB sequences (excludin g HTGS0,1,2, EST, GSS, STS, PAT, WGS). No longer "non-redundant".所有GenBa nk的核酸序列+ 参考序列中的核酸序列+ EMBL +DDBJ +PDB核酸序列(但不包括HTG,EST,GSS等序列)refseq_rnaRNA entries from NCBI's Reference Sequence projectNCBI参考序列中的核酸序列refseq_genomicGenomic entries from NCBI's Reference Sequence projectNCBI参考序列中的基因组序列estDatabase of GenBank + EMBL + DDBJ sequences from EST Divisions来自GenBa nk + EMBL + DDBJ 的EST序列est_humanHuman subset of est.人的EST序列est_mouseMouse subset.小鼠的EST序列est_othersNon-Mouse, non-Human subset of est.、除了人与小鼠之外的EST序列gssGenome Survey Sequence, includes single-pass genomic data, exon-trapped sequ ences, and Alu PCR sequences.htgsUnfinished High Throughput Genomic Sequences: phases 0, 1 and 2 (finished, p hase 3 HTG sequences are in nr)未发布的高通量的基因组测序patNucleotides from the Patent division of GenBank.专利的核酸序列pdbSequences derived from the 3-dimensional structure from Brookhaven Protein Da ta BankPDB核酸序列monthAll new or revised GenBank + EMBL + DDBJ + PDB sequences released in the last 30 days.一个月内新增的核酸序列dbstsDatabase of GenBank+EMBL+DDBJ sequences from STS Divisions .STS数据库chromosomeA database with complete genomes and chromosomes from the NCBI Reference Sequence project..NCBI参考序列计划中所有的完整基因组和染色体序列wgsA database for whole genome shotgun sequence entries.基因组鸟枪法测序得到的序列env_ntNucleotide sequences from environmental samples, including those from Sargass o Sea and Mine Drainageprojects.来自environmental samples的核酸序列。