系统发育树构建方法优劣
- 格式:doc
- 大小:16.50 KB
- 文档页数:2
多基因联合建树多基因联合建树是一种常用的分子进化分析方法,它可以通过多个基因序列的比较来推断物种间的进化关系。
在本文中,我们将详细介绍多基因联合建树的原理、方法、应用和优缺点。
一、多基因联合建树的原理1. 分子进化和系统发育分子进化是指生物体内遗传物质(如DNA或蛋白质)随时间发生的变化。
这些变化可以反映出不同物种之间的亲缘关系,也就是系统发育。
系统发育是指生物体之间历史上的演化关系,包括亲缘关系、分类级别和演化时间等。
2. 多序列比对为了研究不同物种之间的演化关系,需要对它们的基因序列进行比较。
多序列比对是指将两个或以上的序列进行比较,并寻找它们之间相同和不同的部分。
这些相同和不同部分可以用来推断这些序列之间的亲缘关系。
3. 基于距离矩阵法建树距离矩阵法是一种常用于构建系统发育树(phylogenetic tree)的方法。
它首先计算不同序列之间的距离,然后将这些距离转化为一个矩阵。
接着,通过不同的算法(如UPGMA、NJ等)将这个矩阵转化为一棵系统发育树。
4. 多基因联合建树多基因联合建树是指将多个基因序列进行比对,并将它们的比对结果合并起来进行系统发育分析。
这种方法可以提高系统发育分析的准确性和可靠性。
二、多基因联合建树的方法1. 数据获取和处理多基因联合建树需要大量的数据支持,包括不同物种的基因序列、相应的注释信息和分类信息等。
这些数据可以从公共数据库(如NCBI、Ensembl)中获取,并通过一系列数据处理步骤(如序列清洗、去冗余、去污染等)进行预处理。
2. 序列比对和质量评估序列比对是多基因联合建树中最关键的步骤之一。
它可以通过不同的软件(如ClustalW、MUSCLE、MAFFT等)进行。
在比对过程中,需要考虑到序列长度、相似度和缺失情况等问题,并进行相应的质量评估。
3. 构建进化模型和计算距离矩阵在多基因联合建树中,需要选择适当的进化模型来描述不同基因序列之间的进化关系。
这些模型可以通过软件(如ModelTest、jModelTest等)进行选择,并用于计算距离矩阵。
系统发育树主要的四种构建方法系统发育树(PhylogeneticTree)是生物学中最重要的概念之一,代表着物种的演变和发展关系,因此在基因组学、进化生物学等领域被广泛使用。
系统发育树以树状结构来组织物种之间的关系,这种结构形象地描绘了物种发展演化脉络,以及物种之间的亲缘关系。
通常情况下,系统发育树构建通过收集系统发育记录内容,通过分析物种间的相似性和距离,将这些信息映射到一个空间,以构建一个描述系统发育关系的树状结构。
本文将介绍构建系统发育树的四种主要方法,并结合实例详细说明其原理、优缺点。
第一种方法是基于分支的构建方法。
该方法的原理是从物种之间的共有特性出发,基于一组物种形态上的关系构建树。
该方法对物种之间的亲缘关系比较友好,但是它忽略了物种之间的根源关系,无法从真实的物种演化关系中考虑更多的信息。
以拟南芥(Arabidopsis thaliana)为例,其系统发育树利用了分支的构建方法,以体内的形态特征(如叶片的外形)为基础,把它与附近的物种进行比较,得到了拟南芥系统发育树的结构。
第二种方法是基于遗传标志物的构建方法。
在这种方法中,研究者采集物种的遗传标志物,包括核酸序列和蛋白质序列等,然后从遗传标志物间的相似性出发,计算出物种之间的进化距离,最后构建系统发育树。
此外,通过分析核酸序列的变异情况,也可以得到更准确的系统发育树。
以海岸铃声花(Lobelia cardinalis)为例,在其系统发育树的构建中,研究者采集了它的核酸序列、蛋白质序列,并与附近的物种进行比较,分析其遗传标志物的相似性,从而得到了海岸铃声花系统发育树的结构。
第三种方法是基于表型特征的构建方法。
表型特征是物种形态上可以观察到的特征,而表型比较可以帮助我们更好地分析物种间的进化距离,为物种系统发育树的构建提供依据。
以金星兰(Phalaenopsis amabilis)为例,其系统发育树利用了表型特征的构建方法,以金星兰的叶片形态等特征,与附近的物种进行比较,从而得到了金星兰的系统发育树结构。
系统发育树的构建与分析方法概述系统发育树是生物学中重要的研究工具,通过构建系统发育树可以探究生物之间的关系,研究进化过程和生物多样性。
本文将介绍系统发育树的构建和分析方法。
系统发育树的构建方法系统发育树的构建方法可以分为以下几种:1. 相似性分析法相似性分析法是最简单和常用的构建系统发育树的方法之一。
该方法通过比较不同物种的形态、行为、生理等特征的相似性,判断它们之间的亲缘关系。
这种方法的局限性在于很多特征可能出现多次独立进化,而不是从共同祖先继承的。
2. 分子序列分析法由于DNA或蛋白质序列的进化是按照分子钟模型进行的,因此分子序列分析成为当前构建系统发育树的最常用和最准确的方法之一。
该方法通过比较生物体DNA或蛋白质序列的差异,建立相似度矩阵,并在此基础上运用数学模型进行树的构建。
3. 基因组分析法基因组分析法通过直接比较不同生物体的基因组,从而确定它们之间的进化关系。
这种方法包括全基因组比较和重构古基因组。
4. 形态-分子组合分析法形态-分子组合分析法是将形态特征和分子特征结合起来分析生物之间的进化关系。
在这种方法中,形态特征通常用于解决分子序列存在误差的问题。
系统发育树的分析方法系统发育树的分析方法包括静态分析和动态分析两种。
静态分析静态分析是指对系统发育树形态和拓扑关系的分析,这种方法主要依靠人工分析和软件分析两种方式。
1. 人工分析法人工分析法主要是通过比较不同树之间的拓扑结构和相应的节点值,判断它们之间的相关性。
人工分析法需要手动绘制树,并用统计方法比较不同树之间的相似性。
2. 软件分析法软件分析法主要是应用多种专业软件进行计算和模拟,比如molecular evolution software suite (MEGA)、PAUP和PhyML等。
这种方法可以减少人力工作,提高分析准确性。
动态分析动态分析是指以时间序列为基础,考察系统发育树演化的过程和趋势。
这种方法主要依靠统计分析方法,如马尔科夫链蒙特卡罗(MCMC)、Bayesian标记链蒙特卡罗(MCMC)等。
1.邻接法邻接法(neighbor-joiningmethod,NJ)由Saitou和Nei(1987)提出,NJ法是基于最小进化原理经常被使用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。
在重建系统发生树时,它取消了UPGMA法所做的假定,认为在进化分支上,发生趋异的次数可以不同。
最近的计算机模拟已表明它是最有效的基于距离数据重建系统树的方法之一。
该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。
它的特点是重建的树相对准确,假设少,计算速度快,只得一棵树。
其缺点主要表现在将序列上的所有位点等同对待,且所分析序列的进化距离不能太大。
故NJ法适用于进化距离不大,信息位点少的短序列。
邻接法在距离建树中经常会用到,而不用理会使用什么样的优化标准。
完全解析出的进化树是通过对完全没有解析出的“星型”进化树进行“分解”得到的,分解的步骤是连续不断地在最接近(实际上是最孤立的)的序列对中插入树枝,而保留进化树的终端。
于是,最接近的序列对被巩固了,而“星型”进化树被改善了,这个过程将不断重复。
这个方法相对而言很快,也就是说,对于一个50个序列的进化树,只需要若干秒甚至更少。
2.最大简约法最大简约法(maximum parsimony method,MP)最早是基于形态特征分类的需要发展起来的,具体的算法有许多不同版本,其中有些已被广泛地应用于分子进化研究中。
利用MP方法重建系统发生树,实际上是一个对给定OTUs其所有可能的树进行比较的过程。
对某一个可能的树,首先对每个位点祖先序列的核苷酸组成做出推断,然后统计每个位点用来阐明差异的核苷酸最小替换数目。
在整个树中,所有信息简约位点最小核苷酸替换数的总和称为树的长度(常青和周开亚,1998)。
MP法是一种优化标准,这种标准遵循“奥卡姆剃刀原则(Occam’S Razor principle)”:对数据最好的解释也是最简单的,而最简单的所需要的特别假定也最少。
系统发育树构建分析..实习报告3:系统发育树构建与分析——Phylip方法,MEGA方法,MrBayes方法学号 20090**** 姓名 ****** 专业年级生命生技******实验时间 2012.6.15 时间 2012.6.17实验目的:1. 学会使用Phylip,MEGA和MrBayes构建进化树;2. 学会分析建树结果,体会各种方法差异实验内容:1. 利用系统发育分析软件PHYLIP、MEGA、MrBayes分别对同源核酸序列和同源蛋白质序列构建系统发育树,分析比较建树结果。
2. 完成作业。
作业:1. 利用实习1搜索到的五个以上物种的直系同源核酸和蛋白质序列(给出fasta格式第一行信息),用Phylip软件,分别选择最大简约法,最大似然法和距离法(NJ, UPGMA, FM)构建进化树,要求bootstrap产生500个伪样本,分析核酸和蛋白质序列采用不同建树方法得到的进化树是否存在差异,试分析原因。
答:直系同源核酸序列(calcium binding protein):>Homo_sapiens gi|315221156|ref|NM_002964.4| Homo sapiens S100 calcium binding protein A8 (S100A8), mRNA>Pan_troglodytes gi|114559691|ref|XM_001137986.1| PREDICTED: Pan troglodytes S100 calcium binding protein A8, transcript variant 3(S100A8), mRNA >Macaca_mulatta gi|388453998|ref|NM_001266907.1| Macaca mulatta S100 calcium binding protein A8 (S100A8), mRNA>Canis_lupus_familiarisgi|225784824|ref|NM_001146144.1| Canis lupus familiaris S100 calcium binding protein A8 (S100A8), mRNA >Mus_musculus gi|113930764|ref|NM_013650.2| Mus musculus S100 calcium binding protein A8 (calgranulin A) (S100a8), mRNA >attus_norvegicus gi|281485599|ref|NM_053822.2| Rattus norvegicus S100 calcium binding protein A8 (S100a8), mRNA直系同源蛋白质序列(calcium binding protein):>Homo_sapiens gi|21614544|ref|NP_002955.2| protein S100-A8 [Homo sapiens] >Pan_troglodytes gi|114559692|ref|XP_001137986.1| PREDICTED: protein S100-A8 isoform 3 [Pan troglodytes]>Macaca_mulatta gi|109016347|ref|XP_001110530.1| PREDICTED: protein S100-A8 isoform 3 [Macaca mulatta]>Canis_lupus_familiaris gi|225784825|ref|NP_001139616.1| proteinS100-A8 [Canis lupus familiaris]>Bos_taurus gi|165973998|ref|NP_001107197.1| protein S100-A8 [Bos taurus] ...>Mus_musculus gi|7305453|ref|NP_038678.1| protein S100-A8 [Mus musculus]>Rattus_norvegicus gi|16758672|ref|NP_446274.1| S100 calcium binding protein A8 [Rattusnorvegicus](1)最大简约法同源核酸序列建树结果如图所示:由系统发育树可以看出,Homo sapiens,Pan troglodytes的具有较近的亲缘关系,Pan troglodytes与Macaca mulatta的亲缘关系较远,Canis lupus familiaris和Bos taurus亲缘关系较近,Mus musculus和Rattus norvegicus的亲缘关系较近。
构建系统发育树的方法
系统发育学是生物学中的一个重要分支,它研究的是生物种类之间的亲缘关系。
构建系统发育树是系统发育学的核心内容之一,它可以帮助我们更好地了解生物种类之间的演化历史和亲缘关系。
下面我们来介绍一下构建系统发育树的方法。
1. 形态学比较法
形态学比较法是最早被使用的构建系统发育树的方法之一。
它通过比较不同生物种类的形态特征,来推断它们之间的亲缘关系。
这种方法的优点是简单易行,但是它的缺点也很明显,即不同生物种类的形态特征可能会受到环境因素的影响,从而导致推断结果的不准确性。
2. 分子生物学方法
分子生物学方法是目前最常用的构建系统发育树的方法之一。
它通过比较不同生物种类的DNA序列或蛋白质序列,来推断它们之间的亲缘关系。
这种方法的优点是准确性高,但是它的缺点也很明显,即需要大量的实验数据和计算资源。
3. 综合方法
综合方法是将形态学比较法和分子生物学方法结合起来使用的一种方法。
它通过同时考虑不同生物种类的形态特征和分子序列,来推
断它们之间的亲缘关系。
这种方法的优点是可以克服单一方法的缺点,但是它的缺点也很明显,即需要更多的实验数据和计算资源。
构建系统发育树是一个复杂的过程,需要综合考虑多种因素。
不同的方法各有优缺点,我们需要根据具体情况选择合适的方法来进行研究。
随着科技的不断进步,我们相信未来会有更多更准确的方法被开发出来,来帮助我们更好地了解生物种类之间的亲缘关系。
系统发育进化树构建【实用版】目录一、什么是系统发育进化树二、系统发育进化树的构建方法三、系统发育进化树的应用四、总结正文一、什么是系统发育进化树系统发育进化树是一种用来表示物种或基因间亲缘关系的树状图,它可以利用树状分支图形来展示生物之间的进化关系。
系统发育进化树主要用于研究物种或序列的进化和系统分类,其研究对象通常包括碱基序列或氨基酸序列。
二、系统发育进化树的构建方法系统发育进化树的构建过程被称为分支系统发育分析,或分子系统发育分析。
该过程主要通过数理统计算法来计算生物间的进化距离,并以此为基础构建进化树。
具体的构建方法包括以下步骤:1.选择合适的分析方法:根据研究对象的特性和研究目的,选择合适的分析方法,如最大似然法、贝叶斯法等。
2.构建初始树:基于分子数据,通过计算不同物种或基因间的进化距离,构建初始的系统发育进化树。
3.优化树结构:通过比较不同树的结构和分支,利用统计学方法优化树结构,得到更准确的系统发育进化树。
4.评估树可靠性:通过评估树的分支稳定性和树顶角度等指标,判断树的可靠性和精度。
三、系统发育进化树的应用系统发育进化树在生物学领域具有广泛的应用,包括:1.物种分类和进化关系研究:通过构建系统发育进化树,可以揭示物种之间的亲缘关系和进化历史,为生物分类和系统演化研究提供重要依据。
2.基因功能和调控关系分析:在基因组学研究中,可以通过构建基因序列的系统发育进化树,揭示基因之间的功能和调控关系。
3.病原体演化研究:对于病原微生物的研究,可以通过构建系统发育进化树,揭示病原体的演化过程和传播路径,为传染病防控提供重要信息。
4.生物多样性保护策略制定:通过对不同物种的系统发育进化树分析,可以评估物种的演化地位和保护价值,为生物多样性保护策略的制定提供参考。
四、总结系统发育进化树作为一种重要的生物学研究方法,可以帮助我们揭示生物之间的亲缘关系和进化历史。
构建系统发育树的方法
构建系统发育树的方法
一、定义
系统发育树(Phylogenetic Tree)又称为系统种群学树,是一
种描述物种演化的树型结构,从根节点开始描述物种主要进化分支结构,树上的每条边则表示两个物种在进化的历史中距离彼此更近或来自同一进化祖先的关系。
二、建立系统发育树的方法
1.收集数据:系统发育树的建立首先要收集数据,作为建立树的基础,这些数据一般是利用各种实验技术来收集,比如遗传学实验和物种形态的实验。
2.选取特征:从收集的大量数据中,应选取尽可能多的可靠特征,作为建立树的材料,这些特征要有规律性,有可靠性,可以容易发现物种之间的内在关系,有利于在研究中可靠地比较各物种之间的相似程度。
3.分类比较:将所有待比较的物种或实体按照类似的特征进行分类,根据同一物种种的特征之间的差异,可以比较出物种之间的相似度,确定出有利于建立树的特征。
4.描绘树枝:根据比较的结果,可以依次将物种分类编码,从根节点开始,逐级分细枝条,最后得出系统发育树的图形结构。
5.校正树枝:检查系统发育树的构建结果,如果发现有一些物种不太符合物种演化过程的规律,可以根据其他数据和结果来校正树枝,
从而得出最终的发育树结构。
1.邻接法邻接法(neighbor-joiningmethod,NJ)由Saitou和Nei(1987)提出,NJ法是基于最小进化原理经常被使用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。
在重建系统发生树时,它取消了UPGMA法所做的假定,认为在进化分支上,发生趋异的次数可以不同。
最近的计算机模拟已表明它是最有效的基于距离数据重建系统树的方法之一。
该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。
它的特点是重建的树相对准确,假设少,计算速度快,只得一棵树。
其缺点主要表现在将序列上的所有位点等同对待,且所分析序列的进化距离不能太大。
故NJ法适用于进化距离不大,信息位点少的短序列。
邻接法在距离建树中经常会用到,而不用理会使用什么样的优化标准。
完全解析出的进化树是通过对完全没有解析出的“星型”进化树进行“分解”得到的,分解的步骤是连续不断地在最接近(实际上是最孤立的)的序列对中插入树枝,而保留进化树的终端。
于是,最接近的序列对被巩固了,而“星型”进化树被改善了,这个过程将不断重复。
这个方法相对而言很快,也就是说,对于一个50个序列的进化树,只需要若干秒甚至更少。
2.最大简约法最大简约法(maximum parsimony method,MP)最早是基于形态特征分类的需要发展起来的,具体的算法有许多不同版本,其中有些已被广泛地应用于分子进化研究中。
利用MP方法重建系统发生树,实际上是一个对给定OTUs其所有可能的树进行比较的过程。
对某一个可能的树,首先对每个位点祖先序列的核苷酸组成做出推断,然后统计每个位点用来阐明差异的核苷酸最小替换数目。
在整个树中,所有信息简约位点最小核苷酸替换数的总和称为树的长度(常青和周开亚,1998)。
MP法是一种优化标准,这种标准遵循“奥卡姆剃刀原则(Occam’S Razor principle)”:对数据最好的解释也是最简单的,而最简单的所需要的特别假定也最少。
MP法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树,也就是通过比较所有可能树,选择其中长度最小的树作为最终的系统发生树,即最大简约树(maximum parsimony tree)。
与其他建树方法相比,MP法无需引入处理核苷酸或者氨基酸替代时所必需的假设(替代模型)。
同时,MP法对于分析某些特殊的分子数据(如插入序列和插入/缺失)有用。
在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,MP法能够获得正确的(真实)系统树。
但MP法推导的树不是唯一的,在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会出现建树错误。
故MP法适用于序列残基差别小,具有近似变异率,包含信息位点比较多的长序列。
3.最大似然法最大似然法(maximum likelihood method,MI。
)是20世纪60年代末期由于对地生物信息学分析实践震波和水声信号等处理的需要而发展起来的一种非线性谱估计方法。
最早由凯佩用这种方法对空间阵列接收信号进行频率波数谱估值,后来推广到对时问信号序列的功率谱估值。
最大似然法最早应用于系统发育分析是在对基因频率数据的分析上。
其原理是考虑到每个位点出现残基的似然值,将每个位置所有可能出现的残基替换概率进行累加,产生特定位点的似然值。
MI。
法对所有可能的系统发育树都计算似然函数,似然函数值最大的那棵树即为最可能的系统发育树。
利用最大似然法来推断一组序列的系统发生树,需首先确定序列进化的模型,如Jukes—Cantor模型、Kimura二参数模型及一般二参数模型等。
在进化模型选择合理的情况下,MI。
法是与进化事实吻合最好的建树算法。
其缺点是计算强度非常大,极为耗时。
4.贝叶斯法
贝叶斯法(Bayesianmethod,BI)是近年来发展起来的一种新的利用贝叶斯演绎法预测种系发生史的系统进化分析方法,它既保留了最大似然法的基本原理,又引进了马尔科夫链的蒙特卡洛方法(markovchainmontecarloprocess),来模拟演化树的较晚期可能性分布,并使计算时间大大缩短。
贝叶斯法根据多种分子进化模型,利用马尔科夫链的蒙特卡洛方法产生所有参数的后验概率(posteriorprobability)估计值,这些参数包括拓扑结构、分支长度和替代模型各参数的估计。
该方法不仅可以对模型的参数进行直接量化,而且可以分析很大的数据集,因其以后验概率来表示各分支的可信性而不需用自引导法(bootstrap)进行检验(徐广等,2003)。
Huelsenbeck等(2001)认为贝叶斯法的优点在于:推导系统树、评估系统树的不确定性、检测选择作用、比较系统树、参考化石记录计算分歧时间和检测分子钟。
贝叶斯法得到的系统进化树不需要利用自引导法进行检验,其后验概率直观地反映了系统进化树的可信程度,是一种系统进化分析的好方法,它既能根据分子进化的现有理论和各种模型用概率重建系统进化关系,又克服了最大似然法计算速度慢、不适用于大数据集样本的缺陷。
贝叶斯法可以选择适当的模型来拟合数据,它和最大似然法相似,都是选定一个进化模型,然后通过程序搜索模型和序列数据一致的最优系统树。
但二者基本的不同在于,最大似然法是以观察数据的最大概率来拟合系统树,贝叶斯法是通过系统树对数据及进化模型的最大拟合概率而得到系统树;最大似然法给出的是数据的概率,而贝叶斯法给出的是模型的概率;最大似然法搜索单一的最相似系统树,贝叶斯法得到的是具有大致相等似然的系统树集合。
另外,通过贝叶斯法分析得到的结果很容易解释,系统树分支上的数值就表明了该分支的概率,而且通过贝叶斯法,我们可以利用复杂的碱基替代模型快速而有效地分析大的数据(徐广等,2003)。
5.常用构树方法的比较甄选从上述我们可以了解到,重建系统发生树的方法有很多,也各有优缺点。
因此在实际操作中,往往需要根据自己的研究需要联合使用不同的构树方法以获得最佳分析结果。
比较以上几种主要的构树方法,一般情况下,若有合适的分子进化模型可供选择,用最大似然法构树获得的结果较好;对于近缘物种序列,通常情况下使用最大简约法;而对于远缘物种序列,一般使用邻接法或最大似然法。
对于相似度很低的序列,邻接法往往出现I.BA(10ng—branchattraction,长枝吸引)现象,有时严重干扰进化树的构建。
对于各种方法重建进化树的准确性,Hall(2005)认为贝叶斯法最好,其次是最大似然法,然后是最大简约法。
其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。
邻接法和最大似然法是需要选择模型的。
蛋白质序列和DNA序列的模型选择是不同的。
蛋白质序列的构树模型一般选择Poissoncorrection(泊松修正),而核酸序列的构树模型一般选择Kimura2-parameter(Kimura一2参数)。
如果对各种模型的理解并不深入,最好不要使用其他复杂的模型。
参数的设置推荐使用缺省的参数。
在重建进化树过程中,均需选择bootstrap进行树的检验。
一般bootstrap的值>70,则认为重建的进化树较为可靠。
如果bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。
因此,一般推荐用两种以上不同的方法构建进化树,如果所得到的进化树类似,且bootstrap值总体较高,则得到的结果较为可靠。
通常情况下,只要选择了合适的方法和模型,构出的树均是有意义的,研究者可根据自己研究的需要选择最佳的树进行分析。