当前位置:文档之家› 系统发育树构建方法优劣

系统发育树构建方法优劣

系统发育树构建方法优劣
系统发育树构建方法优劣

1.邻接法邻接法(neighbor-joiningmethod,NJ)由Saitou和Nei(1987)提出,NJ法是基于最小进化原理经常被使用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。在重建系统发生树时,它取消了UPGMA法所做的假定,认为在进化分支上,发生趋异的次数可以不同。最近的计算机模拟已表明它是最有效的基于距离数据重建系统树的方法之一。该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。它的特点是重建的树相对准确,假设少,计算速度快,只得一棵树。其缺点主要表现在将序列上的所有位点等同对待,且所分析序列的进化距离不能太大。故NJ法适用于进化距离不大,信息位点少的短序列。邻接法在距离建树中经常会用到,而不用理会使用什么样的优化标准。完全解析出的进化树是通过对完全没有解析出的“星型”进化树进行“分解”得到的,分解的步骤是连续不断地在最接近(实际上是最孤立的)的序列对中插入树枝,而保留进化树的终端。于是,最接近的序列对被巩固了,而“星型”进化树被改善了,这个过程将不断重复。这个方法相对而言很快,也就是说,对于一个50个序列的进化树,只需要若干秒甚至更少。

2.最大简约法最大简约法(maximum parsimony method,MP)最早是基于形态特征分类的需要发展起来的,具体的算法有许多不同版本,其中有些已被广泛地应用于分子进化研究中。利用MP方法重建系统发生树,实际上是一个对给定OTUs其所有可能的树进行比较的过程。对某一个可能的树,首先对每个位点祖先序列的核苷酸组成做出推断,然后统计每个位点用来阐明差异的核苷酸最小替换数目。在整个树中,所有信息简约位点最小核苷酸替换数的总和称为树的长度(常青和周开亚,1998)。MP法是一种优化标准,这种标准遵循“奥卡姆剃刀原则(Occam’S Razor principle)”:对数据最好的解释也是最简单的,而最简单的所需要的特别假定也最少。MP法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树,也就是通过比较所有可能树,选择其中长度最小的树作为最终的系统发生树,即最大简约树(maximum parsimony tree)。与其他建树方法相比,MP法无需引入处理核苷酸或者氨基酸替代时所必需的假设(替代模型)。同时,MP法对于分析某些特殊的分子数据(如插入序列和插入/缺失)有用。在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,MP法能够获得正确的(真实)系统树。但MP法推导的树不是唯一的,在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会出现建树错误。故MP法适用于序列残基差别小,具有近似变异率,包含信息位点比较多的长序列。

3.最大似然法最大似然法(maximum likelihood method,MI。)是20世纪60年代末期由于对地生物信息学分析实践震波和水声信号等处理的需要而发展起来的一种非线性谱估计方法。最早由凯佩用这种方法对空间阵列接收信号进行频率波数谱估值,后来推广到对时问信号序列的功率谱估值。

最大似然法最早应用于系统发育分析是在对基因频率数据的分析上。其原理是考虑到每个位点出现残基的似然值,将每个位置所有可能出现的残基替换概率进行累加,产生特定位点的似然值。MI。法对所有可能的系统发育树都计算似然函数,似然函数值最大的那棵树即为最可能的系统发育树。利用最大似然法来推断一组序列的系统发生树,需首先确定序列进化的模型,如Jukes—Cantor模型、Kimura二参数模型及一般二参数模型等。在进化模型选择合理的情况下,MI。法是与进化事实吻合最好的建树算法。其缺点是计算强度非常大,极为耗时。

4.贝叶斯法

贝叶斯法(Bayesianmethod,BI)是近年来发展起来的一种新的利用贝叶斯演绎法预测种系发生史的系统进化分析方法,它既保留了最大似然法的基本原理,又引进了马尔科夫链的蒙特卡洛方法(markovchainmontecarloprocess),来模拟演化树的较晚期可能性分布,并使计算时间大大缩短。贝叶斯法根据多种分子进化模型,利用马尔科夫链的蒙特卡洛方法产生所有参数的后验概率(posteriorprobability)估计值,这些参数包括拓扑结构、分支长度和替代模型各参数的估计。该方法不仅可以对模型的参数进行直接量化,而且可以分析很大的数据集,因其以后验概率来表示各分支的可信性而不需用自引导法(bootstrap)进行检验(徐广等,2003)。Huelsenbeck等(2001)认为贝叶斯法的优点在于:推导系统树、评估系统树的不确定性、检测选择作用、比较系统树、参考化石记录计算分歧时间和检测分子钟。贝叶斯法得到的系统进化树不需要利用自引导法进行检验,其后验概率直观地反映了系统进化树的可信程度,是一种系统进化分析的好方法,它既能根据分子进化的现有理论和各种模型用概率重建系统进化关系,又克服了最大似然法计算速度慢、不适用于大数据集样本的缺陷。贝叶斯法可以选择适当的模型来拟合数据,它和最大似然法相似,都是选定一个进化模型,然后通过程序搜索模型和序列数据一致的最优系统树。但二者基本的不同在于,最大似然法是以观察数据的最大概率来拟合系统树,贝叶斯法是通过系统树对数据及进化模型的最大拟合概率而得到系统树;最大似然法给出的是数据的概率,而贝叶斯法给出的是模型的概率;最大似然法搜索单一的最相似系统树,贝叶斯法得到的是具有大致相等似然的系统树集合。另外,通过贝叶斯法分析得到的结果很容易解释,系统树分支上的数值就表明了该分支的概率,而且通过贝叶斯法,我们可以利用复杂的碱基替代模型快速而有效地分析大的数据(徐广等,2003)。

5.常用构树方法的比较甄选从上述我们可以了解到,重建系统发生树的方法有很多,也各有优缺点。因此在实际操作中,往往需要根据自己的研究需要联合使用不同的构树方法以获得最佳分析结果。比较以上几种主要的构树方法,一般情况下,若有合适的分子进化模型可供选择,用最大似然法构树获得的结果较好;对于近缘物种序列,通常情况下使用最大简约法;而对于远缘物种序列,一般使用邻接法或最大似然法。对于相似度很低的序列,邻接法往往出现I.BA(10ng—branchattraction,长枝吸引)现象,有时严重干扰进化树的构建。对于各种方法重建进化树的准确性,Hall(2005)认为贝叶斯法最好,其次是最大似然法,然后是最大简约法。其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。邻接法和最大似然法是需要选择模型的。蛋白质序列和DNA序列的模型选择是不同的。蛋白质序列的构树模型一般选择Poissoncorrection(泊松修正),而核酸序列的构树模型一般选择Kimura2-parameter(Kimura一2参数)。如果对各种模型的理解并不深入,最好不要使用其他复杂的模型。参数的设置推荐使用缺省的参数。在重建进化树过程中,均需选择bootstrap进行树的检验。一般bootstrap的值>70,则认为重建的进化树较为可靠。如果bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。因此,一般推荐用两种以上不同的方法构建进化树,如果所得到的进化树类似,且bootstrap值总体较高,则得到的结果较为可靠。通常情况下,只要选择了合适的方法和模型,构出的树均是有意义的,研究者可根据自己研究的需要选择最佳的树进行分析。

系统发育树构建步骤

如何建树 step 1. 将16S rDNA序列在NCBI上进行BLAST比对(https://www.doczj.com/doc/3316684158.html,/BLAST/) BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索工具”(Altschul et al.,1990 [62];1997[63])。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。它们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。BLASTN结果如何分析(参数意义): 例如: >gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus Query: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60 |||||||||||||||||||||||||||||||||||||||||| ||||||||| ||||| Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58 Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120 || ||||||||||||||||||||||||||||||| | |||||| ||||||||||||| Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118 其中,Score指的是提交的序列和搜索出的序列之间的分值,越高说明越相似。Expect指的是比对的期望值。比对越好,expect越小,一般在核酸层次的比对,expect小于1e-10,就比对很好了,多数情况下为0。Identities指的是提交的序列和参比序列的相似性,如上所指为1497个核苷酸中二者有1382个相同。Gaps指的是一般翻译成空位,指的是对不上的碱基数目。Strand指的是链的方向,Plus / Minus意味着提交的序列和参比序列是反向互补的,如果是Plus / Plus则二者皆为正向。 挑选与目的菌株具有较近亲源关系的模式种(type strain)序列将这些序列用记事本保存成dna.seq文件。 >M.mulatta AAGCTTTTCT GGCGCAACCA TCCTCATGAT >M.fascicularis AAGCTTCTCC GGCGCAACCA CCCTTA TAA T step 2. 用CLUSTALX对已知DNA序列做多序列比对 1 双击clustalx.exe运行程序。 2 点File→Load Sequence,打开dna.seq。

系统发育分析

实习四: 系统发育分析-PHYLIP, MEGA, MrBayes 实习目的 1. 学会使用PHYLIP,MEGA和MrBayes构建进化树 2. 学会分析建树结果,体会各种方法差异 实习内容: 一、PHYLIP PHYLIP网址: https://www.doczj.com/doc/3316684158.html,/PHYLIP.html PHYLIP是一个免费的系统发育树构建软件,它的功能比较全面,可用距离法、最大简约法和最大似然法分别进行建树,还可以对进化树可靠性进行检验。PHYLIP没有多序列比对功能,所以先要用其它序列比对软件完成序列比对,并保存为phy格式后,才可提交给PHYLIP进行分析。 1.1 比对序列的准备 1.将教学材料里demo sequence.zip文件解压到D盘根目录下,分别用其中的mRNA和protein序列学习进化树构建。首先我们用实习2学过的多序列比对软件对序列进行比对。这里以CLUSTAX为例来说明。 强烈建议:将你的所有同源核酸(或蛋白质)序列存到一个文本文档里,将”>”之后那行只保留物种名称,或物种名称_蛋白(或基因)名称,方便后面分析比较。 2.用CLUSTALX进行多条序列比对,在Alignment - output format option选中PHYLIP格式,对序列进行比对(Alignment - Do complete alignment)。将生成的phy文件保存,此文件可以用写字板打开浏览,里面内容是多条序列比对结果。(Figure 1.1)

Figure 1.1 用clustalx 进行多条序列比对及生成的phy 文件 3. 双击解压PHYLIP-3.69.zip 文件,得到三个文件夹,其中doc 文件夹里是关于所有PHYLIP 子程序的 使用说明,exe 文件夹里是直接可以使用的可执行程序,src 文件夹里是所有程序的源代码。 4. 打开PHYLIP 的exe 文件夹,将上步保存的phy 文件复制到exe 文件夹中。 5. 上课时我们是先将序列用某种方法建树后,然后做bootstrap 检验,看树的可靠性。但一般情况下用 你的序列直接构建出来的树与伪样本建出来的一致树(consensus tree)是非常相似的,所以这里我们先做bootstrap,直接用伪样本建树。

构建进化树方法比较

【转载】分子进化树构建及数据分析的简介 分子进化树构建及数据分析的简介 mediocrebeing, rodger, lylover[1], klaus, oldfish, yzwpf [1] lylover. Email: lylover_2005@https://www.doczj.com/doc/3316684158.html, 一、引言 开始动笔写这篇短文之前,我问自己,为什么要写这样的文章?写这样的文章有实际的意义吗?我希望能够解决什么样的问题?带着这样的疑惑,我随手在丁香园(DXY)上以关键字“进化分析求助”进行了搜索,居然有289篇相关的帖子(2006年9月12日)。而以关键字“进化分析”和“进化”为关键字搜索,分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关,这里我保守的估计,大约有3,000~4,000篇帖子的内容,是关于分子进化的。粗略地归纳一下,我大致将提出的问题分为下述的几类:1.涉及基本概念。例如,“分子进化与生物进化是不是一个概念”,“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”,等等。 2.关于构建进化树的方法的选择。例如,“用boostrap NJ得到XX图,请问该怎样理解?能否应用于文章?用boostrap test中的ME法得到的是XXX树,请问与上个树比,哪个更好”,等等。 3.关于软件的选择。例如,“想做一个进化树,不知道什么软件能更好的使用且可以说明问题,并且有没有说明如何做”,“拿到了16sr RNA数据,打算做一个系统进化树分析,可是原来没有做过这方面的工作啊,都要什么软件”,“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”,“请问有做过进化树分析的朋友,能不能提供一下,做树的时候参数的设置,以及代表的意思。还有各个分支等数值的意思,说明的问题等”,等等。 4.蛋白家族的分类问题。例如,“搜集所有的关于一个特定domain的序列,共141条,做的进化树不知具体怎么分析”,等等。 5.新基因功能的推断。例如,“根据一个新基因A氨基酸序列构建的系统发生树,这个进化树能否说明这个新基因A和B同源,属于同一基因家族”,等等。 6.计算基因分化的年代。例如,“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近,具体推算出他们之间的分歧时间”,“如何估计病毒进化中变异所需时间”,等等。 7.进化树的编辑。例如生成的进化树图片,如何进行后续的编辑,比如希望在图片上标注某些特定的内容,等等。 由于相关的帖子太多,作者在这里对无法阅读全部的相关内容而致以歉意。同时,作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念,作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》(Molecular Evolution and Phylogenetics)一书,以及相关的分子进化方面的最新文献。对于问题7,作者之一lylover一般使用Powerpoint 进行编辑,而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。

构建系统发育树需要注意的几个问题

构建系统发育树需要注意的几个问题 1 相似与同源的区别:只有当序列是从一个祖先进化分歧而来时,它们才是同源的。 2 序列和片段可能会彼此相似,但是有些相似却不是因为进化关系或者生物学功能相近的缘故,序列组成特异或者含有片段重复也许是最明显的例子;再就是非特异性序列相似。 3 系统发育树法:物种间的相似性和差异性可以被用来推断进化关系。 4 自然界中的分类系统是武断的,也就是说,没有一个标准的差异衡量方法来定义种、属、科或者目。 5 枝长可以用来表示类间的真实进化距离。 6 重要的是理解系统发育分析中的计算能力的限制。任何构树的实验目的基本上就是从许多不正确的树中挑选正确的树。 7 没有一种方法能够保证一颗系统发育树一定代表了真实进化途径。然而,有些方法可以检测系统发育树检测的可靠性。第一,如果用不同方法构建树能得到同样的结果,这可以很好的证明该树是可信的;第二,数据可以被重新取样(bootstrap),来检测他们统计上的重要性。 分子进化研究的基本方法 对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。 表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(species tree)、基因树等等一些相同或含义略有差异的名称。 系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基

分子进化与系统进化树的构建

分子进化与系统进化树的构建 分子进化与系统进化树的构建 分子进化与系统进化树的构建 主要内容: 1、分子进化的研究方法 2、系统进化树的构建方法 3、系统进化树构建常用软件汇集 4、系统进化树构建方法及软件的选择 5、Phylip分子进化分析软件包简介及使用 6、如何利用MEGA3.1构建进化树 声明: 1、本篇涉及的资源主要源于网络及相关书籍,由酷友搜集、分析、整理、审改,供大家学习参考用,如有转载、传播请注明源于基因酷及本篇的工作人员;若本篇侵犯了您的版权或有任何不妥,请Email genecool@https://www.doczj.com/doc/3316684158.html,告知。 2、由于我们的学识、经验有限,本篇难免会存在一些错误及缺陷,敬请不吝赐教:请到基因酷论坛(https://www.doczj.com/doc/3316684158.html,/bbs)本篇对应的专题跟贴指出或Email genecool@https://www.doczj.com/doc/3316684158.html,。 致谢: 整编者:flashhyh 主要参考资料:《生物信息学札记》樊龙江;《分子进化分析与相关软件的应用》作者不详;《进化树构建》ZHAO Yangguo;《如何用MEGA 3.1构建进化树》作者不详;《MEGA3指南》作者不详; 分子进化的研究方法 分子进化的研究方法 分子进化的研究方法 分子进化研究的意义 自20世纪中叶,随着分子生物学的不断发展,进化研究也进入了分子进化(molecularevolution)研究水平,并建立了一套依赖于核酸、蛋白质序列信息的理论和方法。随着基因组测序计划的实施,基因组的巨量信息对若干生物领域重大问题的研究提

供了有力的帮助,分子进化研究再次成为生命科学中最引人注目的领域之一。这些重大问题包括:遗传密码的起源、基因组结构的形成与演化、进化的动力、生物进化等等。分子进化研究目前更多地是集中在分子序列上,但随着越来越多生物基因组的测序完成,从基因组水平上探索进化奥秘,将开创进化研究的新天地。 分子进化研究最根本的目的就是从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。通过核酸、蛋白质序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。 分子进化研究的基础 假设假设::核苷酸和氨基酸序列中含有生物进化历史的全部信息核苷酸和氨基酸序列中含有生物进化历史的全部信息。。 分子钟理论:在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。如下图: 直系同源与旁系同源 直系同源(orthologs):同源的基因是由于共同的祖先基因进化而产生的; 旁系同源(paralogs):同源的基因是由于基因复制产生的。 两者之间的关系如下图所示: 注:用于分子进化分析中的序列必须是直系同源的用于分子进化分析中的序列必须是直系同源的 用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。 分子进化研究的基本方法 对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。 表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath 和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(speciestree)、基因树等等一些相同或含义略有差异的名称. 系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基因的时间顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问题。下图表示了

系统发育树构建方法优劣

1.邻接法邻接法(neighbor-joiningmethod,NJ)由Saitou和Nei(1987)提出,NJ法是基于最小进化原理经常被使用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。在重建系统发生树时,它取消了UPGMA法所做的假定,认为在进化分支上,发生趋异的次数可以不同。最近的计算机模拟已表明它是最有效的基于距离数据重建系统树的方法之一。该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。它的特点是重建的树相对准确,假设少,计算速度快,只得一棵树。其缺点主要表现在将序列上的所有位点等同对待,且所分析序列的进化距离不能太大。故NJ法适用于进化距离不大,信息位点少的短序列。邻接法在距离建树中经常会用到,而不用理会使用什么样的优化标准。完全解析出的进化树是通过对完全没有解析出的“星型”进化树进行“分解”得到的,分解的步骤是连续不断地在最接近(实际上是最孤立的)的序列对中插入树枝,而保留进化树的终端。于是,最接近的序列对被巩固了,而“星型”进化树被改善了,这个过程将不断重复。这个方法相对而言很快,也就是说,对于一个50个序列的进化树,只需要若干秒甚至更少。 2.最大简约法最大简约法(maximum parsimony method,MP)最早是基于形态特征分类的需要发展起来的,具体的算法有许多不同版本,其中有些已被广泛地应用于分子进化研究中。利用MP方法重建系统发生树,实际上是一个对给定OTUs其所有可能的树进行比较的过程。对某一个可能的树,首先对每个位点祖先序列的核苷酸组成做出推断,然后统计每个位点用来阐明差异的核苷酸最小替换数目。在整个树中,所有信息简约位点最小核苷酸替换数的总和称为树的长度(常青和周开亚,1998)。MP法是一种优化标准,这种标准遵循“奥卡姆剃刀原则(Occam’S Razor principle)”:对数据最好的解释也是最简单的,而最简单的所需要的特别假定也最少。MP法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树,也就是通过比较所有可能树,选择其中长度最小的树作为最终的系统发生树,即最大简约树(maximum parsimony tree)。与其他建树方法相比,MP法无需引入处理核苷酸或者氨基酸替代时所必需的假设(替代模型)。同时,MP法对于分析某些特殊的分子数据(如插入序列和插入/缺失)有用。在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,MP法能够获得正确的(真实)系统树。但MP法推导的树不是唯一的,在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会出现建树错误。故MP法适用于序列残基差别小,具有近似变异率,包含信息位点比较多的长序列。 3.最大似然法最大似然法(maximum likelihood method,MI。)是20世纪60年代末期由于对地生物信息学分析实践震波和水声信号等处理的需要而发展起来的一种非线性谱估计方法。最早由凯佩用这种方法对空间阵列接收信号进行频率波数谱估值,后来推广到对时问信号序列的功率谱估值。 最大似然法最早应用于系统发育分析是在对基因频率数据的分析上。其原理是考虑到每个位点出现残基的似然值,将每个位置所有可能出现的残基替换概率进行累加,产生特定位点的似然值。MI。法对所有可能的系统发育树都计算似然函数,似然函数值最大的那棵树即为最可能的系统发育树。利用最大似然法来推断一组序列的系统发生树,需首先确定序列进化的模型,如Jukes—Cantor模型、Kimura二参数模型及一般二参数模型等。在进化模型选择合理的情况下,MI。法是与进化事实吻合最好的建树算法。其缺点是计算强度非常大,极为耗时。

构建系统进化树的方法步骤

构建系统进化树的方法步骤 1. 建树前的准备工作 1.1 相似序列的获得——BLAST BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。 首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。它们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。 这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。 BLASTN结果如何分析(参数意义): >gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus Query: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60 |||||||||||||||||||||||||||||||||||||||||| ||||||||| ||||| Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58 Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120 || ||||||||||||||||||||||||||||||| | |||||| ||||||||||||| Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118 Score :指的是提交的序列和搜索出的序列之间的分值,越高说明越相似;

构建系统进化树的详细步骤

构建系统进化树的详细步骤 1. 建树前的准备工作 1.1 相似序列的获得——BLAST BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool 的缩写,意 为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际著名生物信息中心 都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序 列之间相似性程度最高的片段,并作为核向两端延伸,以找出尽可能长的相似序列片段。 首先登录到提供BLAST服务的常用,比如国的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些提供的BLAST服务在界面上差不多,但所用的程序有所差异。它 们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明 行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是 任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就 可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。 这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。 BLASTN结果如何分析(参数意义): >gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus

系统发育树构建方法研究_冯思玲

中图分类号:TP39 文献标识码:A 文章编号:1009-2552(2009)06-0038-03 系统发育树构建方法研究 冯思玲 (海南大学信息科学技术学院,海口570228) 摘 要:系统发育树的构建与分析是生物信息学中的一个重要分支。研究系统发育树可以重建祖先序列和估计分歧时间。对构建系统发育树的四种方法进行概述,主要包括基于距离的方法,简约法(MP),最大似然法(ML)和贝叶斯树估计方法。并对基于这些方法的软件进行简要介绍,最后对系统发育树构建技术中的难点问题进行分析。 关键词:系统发育树;基于距离方法;简约法;最大似然法;贝叶斯树估计方法Research on method of the construction of phylogenetic trees FENG Si ling (School of Information Science&Technology,Hainan University,Haikou570228,China) Abstract:The construction and analysis of phylogenetic trees is an important part in bioinformatics.The main objectives of studying the construction of phylogenetic trees can reconstruct ancestors sequences and estimate the time of divergence.The four methods about construc ting phylogenetic trees are described,which are based on distance method,parsimony method,maximum likelihood methods and Bayesian tree estimate methods. The software package based on these methods is briefly introduced,at last the difficult points about tree building techniques are analyzed. Key words:phylogenetic trees;distance based methods;parsimony method;maximum likelihood methods; Bayesian tree estimate methods 0 引言 系统发育树也称系统进化树(phylogenetic tree),它是用类似树状分支的图来表示各种(类)生物之间的亲缘关系,通过对生物序列的研究来推测物种的进化历史。主要是通过DNA序列,蛋白质序列,蛋白质结构等来构建系统发育树,或者通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。研究系统发育树的目的可以重建祖先序列 性状;估计来自于同一个祖先的不同生物之间的分歧时间;识别和疾病关联的突变等。近些年随着基因数据的爆炸增长,系统发育树的构建越来越流行。基于分子的进化研究已经应用到许多方面,如基因进化,物群划分,交配系统,父亲身份测试,环境监视以及已经转移物种的疾病源的研究等。 从数学的观点看,系统发育树是一颗树叶有标签的有根二叉树,根表示祖先序列。系统发育树主要是它的拓扑结构和分支长度。分支长度表示突变的时间。拓扑表示树的分支模式,有N个叶子可生成无根树的数目根据Schroder公式有(2N-5)!!,对每个无根树有(2N-3)种可能的分枝。因此,有根树的树目是(2N-3)(2N-5)!!=(2N-3)!![1]。 系统发育树的叶子在生物上称作操作分类单元OTU(operational taxonomic units),OTU代表构建的系谱的不同生物。构建系统发育树所用的数据用矩阵X N K表示,N表示氨基酸或核苷酸的序列数,即有N个叶子的树。K表示序列的字符数(列数)。构建树分析主要有二步:第一步用X N K矩阵产生树 T并 收稿日期:2009-03-06 基金项目:海南省自然科学基金项目(80637);海南大学校科研基金项目(kyjj0609) 作者简介:冯思玲(1973-),女,讲师,硕士,研究方向为生物信息学算法研究。 38

常见系统发育软件使用

常见系统发育软件使用方法 Xie Lei BJFU 1 Paup MP流程: Mac 准备nex文件(interleave和noninterleave均可) → 存入新建文件夹→拖入paup或用paup打开→ execute → log file → cstatus → tstatus → hsearch → define outgroup → roottrees → savetrees → describetrees →contree(save to file) →save pict→bootstrap(save tree file) →print bootstrap tree→save pict. →stop log. PC版操作,可将附录批处理文件容粘贴至nex文件后面,execute即可。 2 Paup ML 流程:Mac 准备nex文件(interleave和noninterleave均可) → 存入新建文件夹→拖入paup或用paup打开→execute→从modeltest软件中打开paupblock运算检测模型→生成score file→打开modeltest中的bin读取score数据→生成结果文档→存档并打开此文档→AIC→将begin paup的运算模块贴至原nex数据文件后面→重新将其拖入paup运行→选择ML运算模式→hsearch→打印树图→save pict. →bootstrap. PC版操作,可将附录5批处理文件容粘贴至nex文件后面,execute即可。 3 Garli运算ML流程: 准备nex文件(interleave) → 存入新建文件夹→拖入paup或用paup打开→execute→输出noninterleave文档(若直接是noninterleave上述过程省略,又如果是PC机paup,无菜单操作,可在paup命令行中输入附录1*的命令回车即可生成noninterleave数据)。 使用noninterleave文档(数据中类群名称不得有单引号,空格,所有方括号中容删除)→新建文件夹存入→按照流程2进行modeltest→在苹果机上打开Garli→

自己总结的有关系统发育的各个分析方法

Mrbayes3.1 1、输入"filename.nex"文件:将生成的"filename.nex"文件放在Mrbayes同一目录下,打开Mrbayes,在Mrbayes> 后输入exe filename.nex。 2、设定模型和参数:输入lset nst=6 rates=invgamma,其中,lset是model set(模型设置)命令,nst=6即将替代模型设置为GTR(General Time Reversible普通时间可逆)模型,rates=invgamma是将位点间差异比率设为invgamma。 3、运算:输入mcmc ngen=10000 samplefreq=10,保证在后面的可能性分布中probability distribution至少取到1000个样品。默认取样频率:every 100th generation。如果分裂频率分支频率split frequencies的标准偏差standard deviation在100,000代generations以后低于0.01,当程序询问:“Continue the analysis? (yes/no)”,回答no;如果高于0.01,yes继续直到该值低于0.01。 4、结果查看:输入sump burnin=250(在此为1000个样品,即任何相当于你取样的25%的值),参数总结summarize the parameter,程序会输出一个关于样品(sample)的替代模型参数的总结表,包括mean,mode和95 % credibility interval of each parameter,要保证所有参数PSRF(the potential scale reduction factor)的值接近1.0,如果不接近,分析时间要延长。输入sumt burnin=250,即舍弃250个老化样本后对各进化树进行总结。程序会输出一个具有每一个分支的posterior probabilities的树以及一个具有平均枝长mean branch lengths的树。这些树会被保存在一个可以由treeview等读取的树文件中。 Modeltest3.7 1、将modelblockPAUPb10.txt全部粘贴到分析文件filename.nxe(记事本打开)后面,重命名为test.model.nex。 2、用PAUP打开test.model.nex,开始运算,生成两个文件(同一目录下),model.scores和modelfit.log。 2、将Modeltest3.7win.exe和分析文件model.scores放在同一目录下。(此前,可以先安装DOShere软件)在包括以上两文件的文件夹,右键,选择Command Prompt Here。 3、输入Modeltest3.7win.exe 4、输入Modeltest3.7win.exeoutfile,生成outfile文件。 5、记事本打开outfile文件,文件给出了两个最优模型。 Phyml_win32建ML树 1、将Phyml_win32.exe和分析文件filename.phy放在同一个文件夹下 2、打开Phyml_win32.exe,输入filename.phy 3、输入B,输入1000,即1000次重复 4、输入M,选择模型 5、输入Y,运算

贝叶斯法构建系统发育树

贝叶斯法构建系统发育树 1.打开PAUP软件,打开目标文件和primates文件,将目标文件修改成primates文件格式。 2. 用modeltest 3.7软件分析模型参数。 3. 打开mrbayes软件,文件输入。命令:>execute 文件名.nex 4. 设置参数,模型(上面modeltest3.7软件分析模型参数)。命令:>lset nst=6/2 rates =gamma/invgamma/propinv,若要检查模型的参数,输入命令showmodel。若设定lset nst=2,需输入命令report tratio=dirichlet。 3.1 >mcmc ngen=100000(1000000) (samplefreq=10(100)),注意:代数可以先设为10000,以便估计时间的长短。>help mcmc来确认设置。 3.2 运行结束前,标准误差要小于0.01,否则增加代数,继续运行 4.1 >sump burnin=250(2500);抽样的25%划为老化样本,舍去。PSRF值需约等于1.0,否则要运行更长时间。 4.2 >sumt burnin=250(2500),输出所得的进化树,可用treeview打开. Modeltest 3.7基本操作步骤(中文) Moedltest是进行似然法计算必须的软件之一,它可以帮助大家为所获数据选择最佳的模型进行计算,得到最优的结果。目前该软件的这里介绍一下Modeltest3.7的基本操作步骤: 1. 下载Modeltest3.7软件和模型文件modelblockPAUPb10.txt; 2. 将序列同源排序后保存为XXX.nex文件;全部拷贝到C盘。 3. 打开模型文件,将文件内容拷贝到XXX.nex文件的末尾,可以将该文件另存为XXX.test.model.nex,保留原来的*.nex文件;; 4. 打开PAUP4.0应用程序,将XXX.test.model.nex文件拖入PAUP窗口,然后在命令行输入:execute XXX.test.model.nex,回车后PAUP就开始对数据

系统发育分析

本科生毕业论文(设计) 题目: 基于线粒体COX2基因的几种鲤科鱼丹亚科(Danioninae)鱼类的系统发育分析

郑重声明 本人的毕业论文(设计)是在指导老师的指导下独立撰写并完成的。毕业论文(设计)没有剽窃、抄袭、造假等违反学术道德、学术规范和侵权行为,本人愿意承担由此产生的各种后果;直至法律责任,并可以通过网络接受公众的查询。特此声明。 毕业论文作者(签名): 年月日

目录 中文摘要 ............................................................................................. 错误!未定义书签。英文摘要(Abstract) ............................................................................. 错误!未定义书签。 1 前言 ................................................................................................. 错误!未定义书签。 1.1 鲤科简介及其系统学研究现状 .................................................. 错误!未定义书签。 1.1.1 鲤科的分类特征 ....................................................................... 错误!未定义书签。 1.1.2 鲤科的分类系统 ....................................................................... 错误!未定义书签。 1.1.3 研究现状 ................................................................................... 错误!未定义书签。 1.2 线粒体基因组(mtDNA) ............................................................... 错误!未定义书签。 1.2.1 鱼类线粒体基因组的结构组成和特点 ................................... 错误!未定义书签。 1.2.2 线粒体DNA序列分析在鲤科系统学研究的应用 ................ 错误!未定义书签。 1.2.3 线粒体蛋白编码基因的特点 ................................................... 错误!未定义书签。 1.2.4 mtDNA用于系统发育分析的优点 .......................................... 错误!未定义书签。 1.3 本研究的目的和意义 .................................................................. 错误!未定义书签。 2 材料与方法 ..................................................................................... 错误!未定义书签。 2.1 方案论证 ...................................................................................... 错误!未定义书签。 2.1.1 分子系统学概述 ....................................................................... 错误!未定义书签。 2.1.2 分子系统发育研究方法 ........................................................... 错误!未定义书签。 2.2 过程论述 ...................................................................................... 错误!未定义书签。 2.2.1 实验数据的获取 ....................................................................... 错误!未定义书签。 2.2.2 实验数据处理和分析 ............................................................... 错误!未定义书签。 2.2.3 建树 ........................................................................................... 错误!未定义书签。 3 实验结果分析 ................................................................................. 错误!未定义书签。 3.1 本实验所研究的8种鱼的分类 .................................................. 错误!未定义书签。 3.2 鲤科鱼类COX2基因序列分析.................................................. 错误!未定义书签。 3.2.1 COX2基因序列多态位点及信号位点..................................... 错误!未定义书签。 3.2.3 COX2基因的遗传密码及其氨基酸组成................................. 错误!未定义书签。 3.2.4 COX2基因的遗传距离............................................................. 错误!未定义书签。 3.2.5 利用COX2基因进行的系统发育重建................................... 错误!未定义书签。

相关主题
文本预览
相关文档 最新文档