系统发育树构建方法优劣
- 格式:doc
- 大小:16.50 KB
- 文档页数:2
多基因联合建树多基因联合建树是一种常用的分子进化分析方法,它可以通过多个基因序列的比较来推断物种间的进化关系。
在本文中,我们将详细介绍多基因联合建树的原理、方法、应用和优缺点。
一、多基因联合建树的原理1. 分子进化和系统发育分子进化是指生物体内遗传物质(如DNA或蛋白质)随时间发生的变化。
这些变化可以反映出不同物种之间的亲缘关系,也就是系统发育。
系统发育是指生物体之间历史上的演化关系,包括亲缘关系、分类级别和演化时间等。
2. 多序列比对为了研究不同物种之间的演化关系,需要对它们的基因序列进行比较。
多序列比对是指将两个或以上的序列进行比较,并寻找它们之间相同和不同的部分。
这些相同和不同部分可以用来推断这些序列之间的亲缘关系。
3. 基于距离矩阵法建树距离矩阵法是一种常用于构建系统发育树(phylogenetic tree)的方法。
它首先计算不同序列之间的距离,然后将这些距离转化为一个矩阵。
接着,通过不同的算法(如UPGMA、NJ等)将这个矩阵转化为一棵系统发育树。
4. 多基因联合建树多基因联合建树是指将多个基因序列进行比对,并将它们的比对结果合并起来进行系统发育分析。
这种方法可以提高系统发育分析的准确性和可靠性。
二、多基因联合建树的方法1. 数据获取和处理多基因联合建树需要大量的数据支持,包括不同物种的基因序列、相应的注释信息和分类信息等。
这些数据可以从公共数据库(如NCBI、Ensembl)中获取,并通过一系列数据处理步骤(如序列清洗、去冗余、去污染等)进行预处理。
2. 序列比对和质量评估序列比对是多基因联合建树中最关键的步骤之一。
它可以通过不同的软件(如ClustalW、MUSCLE、MAFFT等)进行。
在比对过程中,需要考虑到序列长度、相似度和缺失情况等问题,并进行相应的质量评估。
3. 构建进化模型和计算距离矩阵在多基因联合建树中,需要选择适当的进化模型来描述不同基因序列之间的进化关系。
这些模型可以通过软件(如ModelTest、jModelTest等)进行选择,并用于计算距离矩阵。
系统发育树主要的四种构建方法系统发育树(PhylogeneticTree)是生物学中最重要的概念之一,代表着物种的演变和发展关系,因此在基因组学、进化生物学等领域被广泛使用。
系统发育树以树状结构来组织物种之间的关系,这种结构形象地描绘了物种发展演化脉络,以及物种之间的亲缘关系。
通常情况下,系统发育树构建通过收集系统发育记录内容,通过分析物种间的相似性和距离,将这些信息映射到一个空间,以构建一个描述系统发育关系的树状结构。
本文将介绍构建系统发育树的四种主要方法,并结合实例详细说明其原理、优缺点。
第一种方法是基于分支的构建方法。
该方法的原理是从物种之间的共有特性出发,基于一组物种形态上的关系构建树。
该方法对物种之间的亲缘关系比较友好,但是它忽略了物种之间的根源关系,无法从真实的物种演化关系中考虑更多的信息。
以拟南芥(Arabidopsis thaliana)为例,其系统发育树利用了分支的构建方法,以体内的形态特征(如叶片的外形)为基础,把它与附近的物种进行比较,得到了拟南芥系统发育树的结构。
第二种方法是基于遗传标志物的构建方法。
在这种方法中,研究者采集物种的遗传标志物,包括核酸序列和蛋白质序列等,然后从遗传标志物间的相似性出发,计算出物种之间的进化距离,最后构建系统发育树。
此外,通过分析核酸序列的变异情况,也可以得到更准确的系统发育树。
以海岸铃声花(Lobelia cardinalis)为例,在其系统发育树的构建中,研究者采集了它的核酸序列、蛋白质序列,并与附近的物种进行比较,分析其遗传标志物的相似性,从而得到了海岸铃声花系统发育树的结构。
第三种方法是基于表型特征的构建方法。
表型特征是物种形态上可以观察到的特征,而表型比较可以帮助我们更好地分析物种间的进化距离,为物种系统发育树的构建提供依据。
以金星兰(Phalaenopsis amabilis)为例,其系统发育树利用了表型特征的构建方法,以金星兰的叶片形态等特征,与附近的物种进行比较,从而得到了金星兰的系统发育树结构。
系统发育树的构建与分析方法概述系统发育树是生物学中重要的研究工具,通过构建系统发育树可以探究生物之间的关系,研究进化过程和生物多样性。
本文将介绍系统发育树的构建和分析方法。
系统发育树的构建方法系统发育树的构建方法可以分为以下几种:1. 相似性分析法相似性分析法是最简单和常用的构建系统发育树的方法之一。
该方法通过比较不同物种的形态、行为、生理等特征的相似性,判断它们之间的亲缘关系。
这种方法的局限性在于很多特征可能出现多次独立进化,而不是从共同祖先继承的。
2. 分子序列分析法由于DNA或蛋白质序列的进化是按照分子钟模型进行的,因此分子序列分析成为当前构建系统发育树的最常用和最准确的方法之一。
该方法通过比较生物体DNA或蛋白质序列的差异,建立相似度矩阵,并在此基础上运用数学模型进行树的构建。
3. 基因组分析法基因组分析法通过直接比较不同生物体的基因组,从而确定它们之间的进化关系。
这种方法包括全基因组比较和重构古基因组。
4. 形态-分子组合分析法形态-分子组合分析法是将形态特征和分子特征结合起来分析生物之间的进化关系。
在这种方法中,形态特征通常用于解决分子序列存在误差的问题。
系统发育树的分析方法系统发育树的分析方法包括静态分析和动态分析两种。
静态分析静态分析是指对系统发育树形态和拓扑关系的分析,这种方法主要依靠人工分析和软件分析两种方式。
1. 人工分析法人工分析法主要是通过比较不同树之间的拓扑结构和相应的节点值,判断它们之间的相关性。
人工分析法需要手动绘制树,并用统计方法比较不同树之间的相似性。
2. 软件分析法软件分析法主要是应用多种专业软件进行计算和模拟,比如molecular evolution software suite (MEGA)、PAUP和PhyML等。
这种方法可以减少人力工作,提高分析准确性。
动态分析动态分析是指以时间序列为基础,考察系统发育树演化的过程和趋势。
这种方法主要依靠统计分析方法,如马尔科夫链蒙特卡罗(MCMC)、Bayesian标记链蒙特卡罗(MCMC)等。
1.邻接法邻接法(neighbor-joiningmethod,NJ)由Saitou和Nei(1987)提出,NJ法是基于最小进化原理经常被使用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。
在重建系统发生树时,它取消了UPGMA法所做的假定,认为在进化分支上,发生趋异的次数可以不同。
最近的计算机模拟已表明它是最有效的基于距离数据重建系统树的方法之一。
该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。
它的特点是重建的树相对准确,假设少,计算速度快,只得一棵树。
其缺点主要表现在将序列上的所有位点等同对待,且所分析序列的进化距离不能太大。
故NJ法适用于进化距离不大,信息位点少的短序列。
邻接法在距离建树中经常会用到,而不用理会使用什么样的优化标准。
完全解析出的进化树是通过对完全没有解析出的“星型”进化树进行“分解”得到的,分解的步骤是连续不断地在最接近(实际上是最孤立的)的序列对中插入树枝,而保留进化树的终端。
于是,最接近的序列对被巩固了,而“星型”进化树被改善了,这个过程将不断重复。
这个方法相对而言很快,也就是说,对于一个50个序列的进化树,只需要若干秒甚至更少。
2.最大简约法最大简约法(maximum parsimony method,MP)最早是基于形态特征分类的需要发展起来的,具体的算法有许多不同版本,其中有些已被广泛地应用于分子进化研究中。
利用MP方法重建系统发生树,实际上是一个对给定OTUs其所有可能的树进行比较的过程。
对某一个可能的树,首先对每个位点祖先序列的核苷酸组成做出推断,然后统计每个位点用来阐明差异的核苷酸最小替换数目。
在整个树中,所有信息简约位点最小核苷酸替换数的总和称为树的长度(常青和周开亚,1998)。
MP法是一种优化标准,这种标准遵循“奥卡姆剃刀原则(Occam’S Razor principle)”:对数据最好的解释也是最简单的,而最简单的所需要的特别假定也最少。
系统发育树构建分析..实习报告3:系统发育树构建与分析——Phylip方法,MEGA方法,MrBayes方法学号 20090**** 姓名 ****** 专业年级生命生技******实验时间 2012.6.15 时间 2012.6.17实验目的:1. 学会使用Phylip,MEGA和MrBayes构建进化树;2. 学会分析建树结果,体会各种方法差异实验内容:1. 利用系统发育分析软件PHYLIP、MEGA、MrBayes分别对同源核酸序列和同源蛋白质序列构建系统发育树,分析比较建树结果。
2. 完成作业。
作业:1. 利用实习1搜索到的五个以上物种的直系同源核酸和蛋白质序列(给出fasta格式第一行信息),用Phylip软件,分别选择最大简约法,最大似然法和距离法(NJ, UPGMA, FM)构建进化树,要求bootstrap产生500个伪样本,分析核酸和蛋白质序列采用不同建树方法得到的进化树是否存在差异,试分析原因。
答:直系同源核酸序列(calcium binding protein):>Homo_sapiens gi|315221156|ref|NM_002964.4| Homo sapiens S100 calcium binding protein A8 (S100A8), mRNA>Pan_troglodytes gi|114559691|ref|XM_001137986.1| PREDICTED: Pan troglodytes S100 calcium binding protein A8, transcript variant 3(S100A8), mRNA >Macaca_mulatta gi|388453998|ref|NM_001266907.1| Macaca mulatta S100 calcium binding protein A8 (S100A8), mRNA>Canis_lupus_familiarisgi|225784824|ref|NM_001146144.1| Canis lupus familiaris S100 calcium binding protein A8 (S100A8), mRNA >Mus_musculus gi|113930764|ref|NM_013650.2| Mus musculus S100 calcium binding protein A8 (calgranulin A) (S100a8), mRNA >attus_norvegicus gi|281485599|ref|NM_053822.2| Rattus norvegicus S100 calcium binding protein A8 (S100a8), mRNA直系同源蛋白质序列(calcium binding protein):>Homo_sapiens gi|21614544|ref|NP_002955.2| protein S100-A8 [Homo sapiens] >Pan_troglodytes gi|114559692|ref|XP_001137986.1| PREDICTED: protein S100-A8 isoform 3 [Pan troglodytes]>Macaca_mulatta gi|109016347|ref|XP_001110530.1| PREDICTED: protein S100-A8 isoform 3 [Macaca mulatta]>Canis_lupus_familiaris gi|225784825|ref|NP_001139616.1| proteinS100-A8 [Canis lupus familiaris]>Bos_taurus gi|165973998|ref|NP_001107197.1| protein S100-A8 [Bos taurus] ...>Mus_musculus gi|7305453|ref|NP_038678.1| protein S100-A8 [Mus musculus]>Rattus_norvegicus gi|16758672|ref|NP_446274.1| S100 calcium binding protein A8 [Rattusnorvegicus](1)最大简约法同源核酸序列建树结果如图所示:由系统发育树可以看出,Homo sapiens,Pan troglodytes的具有较近的亲缘关系,Pan troglodytes与Macaca mulatta的亲缘关系较远,Canis lupus familiaris和Bos taurus亲缘关系较近,Mus musculus和Rattus norvegicus的亲缘关系较近。
构建系统发育树的方法
系统发育学是生物学中的一个重要分支,它研究的是生物种类之间的亲缘关系。
构建系统发育树是系统发育学的核心内容之一,它可以帮助我们更好地了解生物种类之间的演化历史和亲缘关系。
下面我们来介绍一下构建系统发育树的方法。
1. 形态学比较法
形态学比较法是最早被使用的构建系统发育树的方法之一。
它通过比较不同生物种类的形态特征,来推断它们之间的亲缘关系。
这种方法的优点是简单易行,但是它的缺点也很明显,即不同生物种类的形态特征可能会受到环境因素的影响,从而导致推断结果的不准确性。
2. 分子生物学方法
分子生物学方法是目前最常用的构建系统发育树的方法之一。
它通过比较不同生物种类的DNA序列或蛋白质序列,来推断它们之间的亲缘关系。
这种方法的优点是准确性高,但是它的缺点也很明显,即需要大量的实验数据和计算资源。
3. 综合方法
综合方法是将形态学比较法和分子生物学方法结合起来使用的一种方法。
它通过同时考虑不同生物种类的形态特征和分子序列,来推
断它们之间的亲缘关系。
这种方法的优点是可以克服单一方法的缺点,但是它的缺点也很明显,即需要更多的实验数据和计算资源。
构建系统发育树是一个复杂的过程,需要综合考虑多种因素。
不同的方法各有优缺点,我们需要根据具体情况选择合适的方法来进行研究。
随着科技的不断进步,我们相信未来会有更多更准确的方法被开发出来,来帮助我们更好地了解生物种类之间的亲缘关系。
系统发育进化树构建【实用版】目录一、什么是系统发育进化树二、系统发育进化树的构建方法三、系统发育进化树的应用四、总结正文一、什么是系统发育进化树系统发育进化树是一种用来表示物种或基因间亲缘关系的树状图,它可以利用树状分支图形来展示生物之间的进化关系。
系统发育进化树主要用于研究物种或序列的进化和系统分类,其研究对象通常包括碱基序列或氨基酸序列。
二、系统发育进化树的构建方法系统发育进化树的构建过程被称为分支系统发育分析,或分子系统发育分析。
该过程主要通过数理统计算法来计算生物间的进化距离,并以此为基础构建进化树。
具体的构建方法包括以下步骤:1.选择合适的分析方法:根据研究对象的特性和研究目的,选择合适的分析方法,如最大似然法、贝叶斯法等。
2.构建初始树:基于分子数据,通过计算不同物种或基因间的进化距离,构建初始的系统发育进化树。
3.优化树结构:通过比较不同树的结构和分支,利用统计学方法优化树结构,得到更准确的系统发育进化树。
4.评估树可靠性:通过评估树的分支稳定性和树顶角度等指标,判断树的可靠性和精度。
三、系统发育进化树的应用系统发育进化树在生物学领域具有广泛的应用,包括:1.物种分类和进化关系研究:通过构建系统发育进化树,可以揭示物种之间的亲缘关系和进化历史,为生物分类和系统演化研究提供重要依据。
2.基因功能和调控关系分析:在基因组学研究中,可以通过构建基因序列的系统发育进化树,揭示基因之间的功能和调控关系。
3.病原体演化研究:对于病原微生物的研究,可以通过构建系统发育进化树,揭示病原体的演化过程和传播路径,为传染病防控提供重要信息。
4.生物多样性保护策略制定:通过对不同物种的系统发育进化树分析,可以评估物种的演化地位和保护价值,为生物多样性保护策略的制定提供参考。
四、总结系统发育进化树作为一种重要的生物学研究方法,可以帮助我们揭示生物之间的亲缘关系和进化历史。
构建系统发育树的方法
构建系统发育树的方法
一、定义
系统发育树(Phylogenetic Tree)又称为系统种群学树,是一
种描述物种演化的树型结构,从根节点开始描述物种主要进化分支结构,树上的每条边则表示两个物种在进化的历史中距离彼此更近或来自同一进化祖先的关系。
二、建立系统发育树的方法
1.收集数据:系统发育树的建立首先要收集数据,作为建立树的基础,这些数据一般是利用各种实验技术来收集,比如遗传学实验和物种形态的实验。
2.选取特征:从收集的大量数据中,应选取尽可能多的可靠特征,作为建立树的材料,这些特征要有规律性,有可靠性,可以容易发现物种之间的内在关系,有利于在研究中可靠地比较各物种之间的相似程度。
3.分类比较:将所有待比较的物种或实体按照类似的特征进行分类,根据同一物种种的特征之间的差异,可以比较出物种之间的相似度,确定出有利于建立树的特征。
4.描绘树枝:根据比较的结果,可以依次将物种分类编码,从根节点开始,逐级分细枝条,最后得出系统发育树的图形结构。
5.校正树枝:检查系统发育树的构建结果,如果发现有一些物种不太符合物种演化过程的规律,可以根据其他数据和结果来校正树枝,
从而得出最终的发育树结构。
系统发育树构建的三种方法
系统发育树(Systems 发育 Tree,简称Stree)是一种用于描述生物系统进化的图形化工具,通常用于模拟生物系统行为的演化过程。
以下是三种构建系统发育树的方法:
1. 基于规则的方法:这种方法使用预定义的规则和偏好来构建
系统发育树。
例如,可以使用遗传算法或人工神经网络等机器学习方法,来预测一个物种的遗传特征或行为演化轨迹。
这种方法需要大量
的人工工作,但可以生成较为准确的演化树。
2. 基于统计方法的方法:这种方法使用统计学方法来推断物种
之间的演化关系。
例如,可以使用最大似然估计或贝叶斯推断等方法,来预测一个物种的遗传特征或行为演化轨迹。
这种方法不需要人工工作,但需要更多的计算资源和时间,才能得到比较准确的演化树。
3. 基于模型的方法:这种方法使用已经建立的模型和数据来构
建系统发育树。
例如,可以使用层次结构模型(如生物进化树、社会网络模型等)来预测一个物种的遗传特征或行为演化轨迹。
这种方法可
以快速构建系统发育树,但需要更多的人工工作来验证模型的准确性。
系统发育进化树构建系统发育进化树(Phylogenetic tree)是一种用于描述物种或群体之间进化关系的图形表示。
通过构建系统发育进化树,我们可以了解不同物种之间的亲缘关系,以及它们的共同祖先。
本文将介绍系统发育进化树的构建方法和其在生物学领域中的应用。
一、系统发育进化树的构建方法1. 选择合适的基因或序列:构建系统发育进化树需要选择适当的基因或序列进行分析。
常用的基因包括核糖体RNA(rRNA)和线粒体DNA(mtDNA)等。
2. 收集物种样本:从不同物种中收集样本,并提取相应的基因或序列。
3. 序列比对:将收集到的序列进行比对,找出它们之间的相同和差异。
4. 构建进化模型:根据序列比对的结果,选择适当的进化模型,如最大似然法或贝叶斯推断等。
5. 构建进化树:利用选定的进化模型,根据序列的相似性和差异性,构建系统发育进化树。
二、系统发育进化树的应用1. 物种分类:系统发育进化树可用于物种分类,帮助我们理解不同物种之间的亲缘关系。
通过比较进化树上的分支长度和节点位置,我们可以判断物种之间的相似性和差异性。
2. 进化研究:系统发育进化树可用于研究物种的进化历史和进化速率。
通过比较不同物种之间的进化树,我们可以了解它们的共同祖先以及它们之间的演化路径。
3. 分子演化研究:系统发育进化树在分子演化研究中起着重要的作用。
通过比较不同物种的基因或序列,我们可以推断它们的演化历史和演化速率。
4. 物种保护:系统发育进化树可用于指导物种保护工作。
通过研究物种的进化关系,我们可以了解哪些物种是濒危物种或有特殊保护需求的物种。
5. 药物开发:系统发育进化树可用于药物开发。
通过比较不同物种的基因或序列,我们可以了解它们之间的差异,并找到可能具有药用潜力的物种。
总结:系统发育进化树是一种重要的工具,用于描述物种或群体之间的进化关系。
通过构建系统发育进化树,我们可以了解不同物种之间的亲缘关系,以及它们的共同祖先。
系统发育进化树在物种分类、进化研究、分子演化研究、物种保护和药物开发等领域都有着广泛的应用。
系统发育树的构建与分析方法系统发育学是一门研究物种进化关系的学科,通过对不同物种的形态特征、生理生态特性、分子遗传信息等数据进行分析,可以得出它们在进化树中的位置。
而系统发育树则是用来表示各物种间进化历程和亲缘关系的图形表示。
它不仅可以揭示物种之间的起源和进化演化,而且可以对生物多样性的保护和利用产生重要影响。
本文将介绍系统发育树的构建和分析方法。
一、系统发育树的构建方法1. 形态学方法形态学方法是最早用于构建系统发育树的方法。
它是根据物种的形态特征进行比较研究,如昆虫的翅膀、花的形态、动物的身体部位等。
这种方法的优点是简单易行,但缺点是由于不同物种形态特征的相似性,并不能完全反映它们在进化树上的亲缘程度,有一定局限性。
2. 分子系统发育学方法随着分子生物学的发展,分子数据也开始被应用于系统发育树的构建。
这种方法通过对物种不同基因的序列进行修建的,如rRNA、DNA、蛋白质序列等来了解它们进化的历程和亲缘关系。
因为DNA和蛋白质在进化过程中往往较为保守,且具有一定统一性,因此这种方法比形态学方法更为精确,同时也能够构建更多样化的进化模型。
3. 固定标记法固定标记法是结合形态学和分子方法的一种新技术。
它利用生物体细胞核DNA中的高度变异的区域,如微卫星(Simple Sequence Repeats, SSR)等,通过引物特异性地扩增这些标记区域,将扩增产物的大小与数量(即大小因素和数量因素)组成一个确定的数字序列,用于构建系统发育树。
这种方法因能够同时反映形态和分子信息,且具有标记简单、修建渐进、多样性较高等优点,逐渐成为研究系统发育的新方法。
二、系统发育树的分析方法一旦构建了系统发育树,便需要进行分析以研究物种间的亲缘关系、进化历程等信息。
1. 树形态分析树形态分析包括节点分支的长度、角度、直线距离等进化遗传参数的分析。
通过对树形态的分析,可以更全面地了解不同物种亲缘关系的演化特点。
2. 分子位点分析分子位点分析是指对系统发育树上指定基因位点的序列进行分析,如进化速率、突变次数、转换和替换等信息。
三种方法构建系统发育树学习笔记所用数据为一个属内不同种不同群体的叶绿体基因组序列,数量为80条。
发现用全长序列建树的时候,不适合选用太多外类群,否则ML法中会导致属内分枝的枝长特别短。
原因应该是基因间隔区和内含子区域序列位点的差异较大。
枝长含义NJ:表示遗传距离;MP:性状状态变换的替换数;ML/BI:该分枝上的相对进化数量(遗传变异量);每个位点上的替换数(一般以每位点多少次核苷酸替换或氨基酸取代来表示)。
遗传距离大多数情况以序列来说遗传距离就是两个OTU(个体、群体、物种或基因家族)之间序列的差异值。
序列比对多序列比对用mafft得到的结果较为准确,muscle比对的速度较快。
多序列比对的绝大多数算法都是基于渐进比对的概念。
简单来说就是先从两个序列的比对开始,逐渐添加新序列,直到所有的序列都加入为止。
但是不同的添加顺序会产生不同的比对结果。
所以由最相似的两个序列开始比对,由近到远逐步完成最为可靠。
mafft --thread 15 --auto 80-AcoeOut.fasta > 80-AcoeOut_aln.fasta##比对时如果不清楚什么参数合适,加个参数--auto,软件可以自动帮你处理挑选保守位点进行下一步建树序列比对完后,用于建树的序列位点必须保证具有良好的同源性。
所以需要删除序列分歧很大的区域和gap区域。
我用的软件为Gblocks,主要目的是把有gap的位点全部去除,参数为-b5=n,其余的选项有-b5=h,h表示half 指去除在大于50%的序列中出现gap的位点。
Gblocks 80-AcoeOut_aln.fasta -t=d -b5=n最大简约法(软件PAUP)最大简约法的树长指所有性状在一棵树上的进化改变总数。
计算得到的结果可能会有许多树长相等的简约树,此时需要计算它们的一致树。
分为strict consensus和semistrict consensus等,strict表示100%,在所有简约树中都出现的分枝,才会出现在一致树中,否则为梳子。
细菌系统发育树的分析与构建
细菌系统发育树分析和构建是重要的微生物进化工作。
它不仅有助于我们研究细菌的系统发育史,而且可以提供宝贵的信息,以便我们更好地了解细菌的关联性以及改善微生物分类法。
分析与构建细菌系统发育树的过程通常包括以下步骤:(1)从候选的细菌中收集
数据,然后从中提取最有信息值的标识符,如16S rRNA序列;(2)确定候选细菌之间
的分子进化关系,通常这是通过算法,如联立方突变分析;(3)使用算法,将候选细菌
排序,建立一个系统发育树;(4)测试系统发育树是否可信,例如使用Bayesian定性统计检验;(5)将细菌分类到物种和自然属级别,以便更好地说明系统发育树的特征。
为了建立准确的细菌系统发育树,数据的质量与种数对最终树的准确性有很大影响,因此选择和收集有关候选细菌的质量数据是整个分析与构建过程中非常重要的一步。
最常用的细菌质量数据是核糖核酸序列(如16S rRNA),它可以有效地跨越主要的系统发育树枝。
此外,建立的系统发育树应经常检查和修正,以确保树的正确性。
此外,还需要定期更新
数据集,以确保系统发育树具有最新的分子进化信息。
最后,通过建立细菌系统发育树,我们可以更好地理解细菌的相关性,从而改善现存的微
生物分类方法,同时在不同细菌物种间建立良好的关联。
此外,这些细菌系统发育树也帮
助了在细菌抗性领域中的研究,并为抗性细菌的了解与治疗提供宝贵的信息。
因此,细菌
系统发育树的分析与构建是重要的一步,从而可以提供重要的信息以改善我们对细菌起源、进化和系统发育机理的理解。
构建系统发育树需要注意的几个问题1 相似与同源的区别:只有当序列是从一个祖先进化分歧而来时,它们才是同源的。
2 序列和片段可能会彼此相似,但是有些相似却不是因为进化关系或者生物学功能相近的缘故,序列组成特异或者含有片段重复也许是最明显的例子;再就是非特异性序列相似。
3 系统发育树法:物种间的相似性和差异性可以被用来推断进化关系。
4 自然界中的分类系统是武断的,也就是说,没有一个标准的差异衡量方法来定义种、属、科或者目。
5 枝长可以用来表示类间的真实进化距离。
6 重要的是理解系统发育分析中的计算能力的限制。
任何构树的实验目的基本上就是从许多不正确的树中挑选正确的树。
7 没有一种方法能够保证一颗系统发育树一定代表了真实进化途径。
然而,有些方法可以检测系统发育树检测的可靠性。
第一,如果用不同方法构建树能得到同样的结果,这可以很好的证明该树是可信的;第二,数据可以被重新取样(bootstrap),来检测他们统计上的重要性。
分子进化研究的基本方法对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。
表型的(phenetic)和遗传的(cladistic)数据有着明显差异。
Sneath和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。
这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。
表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。
进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。
文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(species tree)、基因树等等一些相同或含义略有差异的名称。
系统进化树分有根(rooted)和无根(unrooted)树。
标题:单拷贝直系同源基因系统发育树的构建摘要:随着基因测序技术的不断发展,越来越多的基因序列得到了公开发布,为研究者提供了丰富的遗传信息。
在众多研究中,通过构建系统发育树来揭示不同物种的亲缘关系和进化历史是一项重要的工作。
而单拷贝直系同源基因系统发育树的构建,对于了解不同物种之间的关系和进行进化分析具有重要意义。
本文将介绍单拷贝直系同源基因系统发育树的构建方法及相关应用。
正文:1. 单拷贝直系同源基因系统概述单拷贝直系同源基因即同一基因家族中的每个成员都只有一个拷贝,且这些拷贝是由同一个祖先基因直接演化而来,因此它们在不同物种之间具有较高的同源性和拓展性。
而单拷贝直系同源基因系统则是指由这些单拷贝直系同源基因所构成的系统。
这些基因在不同物种之间的保守程度较高,因此常被用于物种之间亲缘关系的研究和系统发育树的构建。
2. 单拷贝直系同源基因系统发育树构建的重要性单拷贝直系同源基因系统发育树的构建对于揭示不同物种之间的亲缘关系具有重要意义。
通过比较单拷贝直系同源基因在不同物种中的序列差异和演化速率,可以推断这些物种之间的亲缘关系和进化历史。
单拷贝直系同源基因系统发育树的构建还可以为物种的分类和系统发育关系提供重要参考。
3. 单拷贝直系同源基因系统发育树构建的方法a. 基因家族的筛选与挑选需要从目标物种的基因组序列中筛选出单拷贝直系同源基因家族。
可以利用基因同源性分析工具如BLAST、HMMER等进行筛选和挑选,确保所选择的基因家族符合单拷贝直系同源基因的特征。
b. 序列比对与进化树构建选定合适的单拷贝直系同源基因后,需要对这些基因序列进行比对。
可以利用一些专业的序列比对软件如ClustalW、MAFFT等进行多序列比对,得到基因序列的保守区域和变异区域。
利用分子进化树构建软件如PHYLIP、MEGA等构建系统发育树,并进行进化分析。
4. 单拷贝直系同源基因系统发育树构建的应用单拷贝直系同源基因系统发育树的构建在生物学领域有着广泛的应用。
1.邻接法邻接法(neighbor-joiningmethod,NJ)由Saitou和Nei(1987)提出,NJ法是基于最小进化原理经常被使用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。
在重建系统发生树时,它取消了UPGMA法所做的假定,认为在进化分支上,发生趋异的次数可以不同。
最近的计算机模拟已表明它是最有效的基于距离数据重建系统树的方法之一。
该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。
它的特点是重建的树相对准确,假设少,计算速度快,只得一棵树。
其缺点主要表现在将序列上的所有位点等同对待,且所分析序列的进化距离不能太大。
故NJ法适用于进化距离不大,信息位点少的短序列。
邻接法在距离建树中经常会用到,而不用理会使用什么样的优化标准。
完全解析出的进化树是通过对完全没有解析出的“星型”进化树进行“分解”得到的,分解的步骤是连续不断地在最接近(实际上是最孤立的)的序列对中插入树枝,而保留进化树的终端。
于是,最接近的序列对被巩固了,而“星型”进化树被改善了,这个过程将不断重复。
这个方法相对而言很快,也就是说,对于一个50个序列的进化树,只需要若干秒甚至更少。
2.最大简约法最大简约法(maximum parsimony method,MP)最早是基于形态特征分类的需要发展起来的,具体的算法有许多不同版本,其中有些已被广泛地应用于分子进化研究中。
利用MP方法重建系统发生树,实际上是一个对给定OTUs其所有可能的树进行比较的过程。
对某一个可能的树,首先对每个位点祖先序列的核苷酸组成做出推断,然后统计每个位点用来阐明差异的核苷酸最小替换数目。
在整个树中,所有信息简约位点最小核苷酸替换数的总和称为树的长度(常青和周开亚,1998)。
MP法是一种优化标准,这种标准遵循“奥卡姆剃刀原则(Occam’S Razor principle)”:对数据最好的解释也是最简单的,而最简单的所需要的特别假定也最少。
MP法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树,也就是通过比较所有可能树,选择其中长度最小的树作为最终的系统发生树,即最大简约树(maximum parsimony tree)。
与其他建树方法相比,MP法无需引入处理核苷酸或者氨基酸替代时所必需的假设(替代模型)。
同时,MP法对于分析某些特殊的分子数据(如插入序列和插入/缺失)有用。
在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,MP法能够获得正确的(真实)系统树。
但MP法推导的树不是唯一的,在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会出现建树错误。
故MP法适用于序列残基差别小,具有近似变异率,包含信息位点比较多的长序列。
3.最大似然法最大似然法(maximum likelihood method,MI。
)是20世纪60年代末期由于对地生物信息学分析实践震波和水声信号等处理的需要而发展起来的一种非线性谱估计方法。
最早由凯佩用这种方法对空间阵列接收信号进行频率波数谱估值,后来推广到对时问信号序列的功率谱估值。
最大似然法最早应用于系统发育分析是在对基因频率数据的分析上。
其原理是考虑到每个位点出现残基的似然值,将每个位置所有可能出现的残基替换概率进行累加,产生特定位点的似然值。
MI。
法对所有可能的系统发育树都计算似然函数,似然函数值最大的那棵树即为最可能的系统发育树。
利用最大似然法来推断一组序列的系统发生树,需首先确定序列进化的模型,如Jukes—Cantor模型、Kimura二参数模型及一般二参数模型等。
在进化模型选择合理的情况下,MI。
法是与进化事实吻合最好的建树算法。
其缺点是计算强度非常大,极为耗时。
4.贝叶斯法
贝叶斯法(Bayesianmethod,BI)是近年来发展起来的一种新的利用贝叶斯演绎法预测种系发生史的系统进化分析方法,它既保留了最大似然法的基本原理,又引进了马尔科夫链的蒙特卡洛方法(markovchainmontecarloprocess),来模拟演化树的较晚期可能性分布,并使计算时间大大缩短。
贝叶斯法根据多种分子进化模型,利用马尔科夫链的蒙特卡洛方法产生所有参数的后验概率(posteriorprobability)估计值,这些参数包括拓扑结构、分支长度和替代模型各参数的估计。
该方法不仅可以对模型的参数进行直接量化,而且可以分析很大的数据集,因其以后验概率来表示各分支的可信性而不需用自引导法(bootstrap)进行检验(徐广等,2003)。
Huelsenbeck等(2001)认为贝叶斯法的优点在于:推导系统树、评估系统树的不确定性、检测选择作用、比较系统树、参考化石记录计算分歧时间和检测分子钟。
贝叶斯法得到的系统进化树不需要利用自引导法进行检验,其后验概率直观地反映了系统进化树的可信程度,是一种系统进化分析的好方法,它既能根据分子进化的现有理论和各种模型用概率重建系统进化关系,又克服了最大似然法计算速度慢、不适用于大数据集样本的缺陷。
贝叶斯法可以选择适当的模型来拟合数据,它和最大似然法相似,都是选定一个进化模型,然后通过程序搜索模型和序列数据一致的最优系统树。
但二者基本的不同在于,最大似然法是以观察数据的最大概率来拟合系统树,贝叶斯法是通过系统树对数据及进化模型的最大拟合概率而得到系统树;最大似然法给出的是数据的概率,而贝叶斯法给出的是模型的概率;最大似然法搜索单一的最相似系统树,贝叶斯法得到的是具有大致相等似然的系统树集合。
另外,通过贝叶斯法分析得到的结果很容易解释,系统树分支上的数值就表明了该分支的概率,而且通过贝叶斯法,我们可以利用复杂的碱基替代模型快速而有效地分析大的数据(徐广等,2003)。
5.常用构树方法的比较甄选从上述我们可以了解到,重建系统发生树的方法有很多,也各有优缺点。
因此在实际操作中,往往需要根据自己的研究需要联合使用不同的构树方法以获得最佳分析结果。
比较以上几种主要的构树方法,一般情况下,若有合适的分子进化模型可供选择,用最大似然法构树获得的结果较好;对于近缘物种序列,通常情况下使用最大简约法;而对于远缘物种序列,一般使用邻接法或最大似然法。
对于相似度很低的序列,邻接法往往出现I.BA(10ng—branchattraction,长枝吸引)现象,有时严重干扰进化树的构建。
对于各种方法重建进化树的准确性,Hall(2005)认为贝叶斯法最好,其次是最大似然法,然后是最大简约法。
其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。
邻接法和最大似然法是需要选择模型的。
蛋白质序列和DNA序列的模型选择是不同的。
蛋白质序列的构树模型一般选择Poissoncorrection(泊松修正),而核酸序列的构树模型一般选择Kimura2-parameter(Kimura一2参数)。
如果对各种模型的理解并不深入,最好不要使用其他复杂的模型。
参数的设置推荐使用缺省的参数。
在重建进化树过程中,均需选择bootstrap进行树的检验。
一般bootstrap的值>70,则认为重建的进化树较为可靠。
如果bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。
因此,一般推荐用两种以上不同的方法构建进化树,如果所得到的进化树类似,且bootstrap值总体较高,则得到的结果较为可靠。
通常情况下,只要选择了合适的方法和模型,构出的树均是有意义的,研究者可根据自己研究的需要选择最佳的树进行分析。