用贝叶斯方法重建基因进化历史
- 格式:pdf
- 大小:1.32 MB
- 文档页数:13
生物进化中的演化树生物进化是指生物在漫长的时间内通过遗传变异和适应环境的选择而逐渐发展和改变的过程。
而演化树(也称为系统进化树或谱系树)是一种用来描述不同物种之间进化关系的图形工具。
本文将就生物进化中的演化树进行探讨,分析其构建方法、意义以及应用。
一、演化树的构建方法演化树的构建基于大量的分子生物学和遗传学数据,包括DNA序列、蛋白质序列及其他分子标记。
通过对这些数据进行分析和比较,可以揭示出不同物种之间的遗传关系和进化距离。
常用的演化树构建方法包括距离法、最大似然法和贝叶斯法等。
距离法是通过计算不同物种之间的遗传距离来构建演化树,距离越短表示亲缘关系越近。
最大似然法则是通过估计进化模型参数,找到使观测数据出现概率最大的树形结构。
贝叶斯法则是根据贝叶斯定理,通过计算概率分布来构建演化树。
这些方法都具有各自的优缺点,研究者应根据实际情况选择合适的方法。
二、演化树的意义演化树能够揭示物种之间的进化关系,显示出不同物种的分支和演化路径。
通过演化树,我们可以了解物种的起源、扩散和分化过程,推测不同物种之间的共同祖先以及进化速率的差异。
此外,演化树还可以用来研究生物的起源和进化动力学,揭示生物多样性的形成和演化的规律。
三、演化树的应用演化树在生物学研究中有着广泛的应用。
在系统发育学中,演化树可以用来分类和鉴定物种,帮助我们了解物种间的亲缘关系以及演化的历史。
在人类起源和进化研究中,通过演化树可以追溯人类的进化历程和与其他灵长类动物的亲缘关系。
在遗传学研究中,演化树可以用于分析基因家族的起源和进化,研究基因表达的差异以及基因功能的演化等。
此外,演化树还可以应用于生物多样性保护和物种保护的决策制定。
通过了解物种的进化历史和亲缘关系,可以指导保护工作的开展,制定合理的保护策略和措施,保护濒危物种和生态系统的完整性。
总结:生物进化中的演化树是一种用来描述不同物种之间进化关系的图形工具,通过构建演化树可以揭示物种的起源、进化历程以及亲缘关系。
贝叶斯网络模型用于基因调控网络再构建分析基因调控网络(gene regulatory network)是描述基因间相互作用的一种拓扑结构模型,它能够帮助理解基因表达调控的复杂机制。
然而,真实的基因调控网络往往由于实验和技术限制,无法完整地被观察到。
贝叶斯网络模型作为一种强大的数据驱动方法,能够从大规模基因表达数据中推断基因调控网络的结构和参数。
本文将介绍贝叶斯网络模型在基因调控网络再构建分析中的应用。
贝叶斯网络模型是一种概率图模型,其基本假设是基因之间的关系可以通过概率分布来描述。
在基因调控网络再构建分析中,贝叶斯网络模型可以根据基因表达数据推断出基因之间的条件依赖关系。
具体而言,贝叶斯网络模型可以通过计算每对基因之间的条件概率来估计基因之间的影响关系。
通过这种方式,可以确定哪些基因对其他基因具有调控作用,以及调控的方向和强度。
在基因调控网络再构建分析中,贝叶斯网络模型通常需要经过一系列的数据预处理和模型建立步骤。
首先,需要对基因表达数据进行归一化和筛选,以确保数据的准确性和可靠性。
然后,根据预处理后的数据,可以使用贝叶斯网络模型进行网络结构建模。
常见的贝叶斯网络模型包括贝叶斯网络(Bayesian network)、动态贝叶斯网络(Dynamic Bayesian network)等。
在进行贝叶斯网络模型建模时,需要考虑以下几个关键问题。
首先是网络拓扑结构的确定,即确定基因之间的连接关系。
这可以通过评估基因之间的条件概率来实现。
其次是参数的估计,即确定基因之间的调控方向和强度。
这可以通过最大后验概率估计(Maximum A Posteriori Estimation)或贝叶斯推断(Bayesian inference)等方法来实现。
最后是模型的评估和验证,即通过交叉验证等方法评估模型的准确性和可靠性。
贝叶斯网络模型在基因调控网络再构建分析中具有许多优势。
首先,它能够从大规模基因表达数据中提取有用的信息,揭示基因之间的调控机制。
多基因串联构建进化树的经典文献1. Felsenstein, J. (1985). Confidence limits on phylogenies: An approach using the bootstrap. Evolution, 39(4), 783-791.这篇经典文献提出了一种使用bootstrap方法构建进化树并计算置信区间的方法。
作者通过模拟数据集并进行重复抽样,得到了进化树的置信度评估。
2. Nei, M., & Kumar, S. (2000). Molecular evolution and phylogenetics. Oxford university press.这本经典教材详细介绍了使用多基因串联数据构建进化树的方法。
作者解释了不同的进化模型和计算方法,并提供了计算进化树的实例和案例研究。
3. Yang, Z. (2006). Computational molecular evolution. Oxford university press.这本经典教材介绍了使用多基因串联数据进行计算机模拟和进化树构建的方法。
作者详细解释了常用的进化模型、计算方法和统计推断,以及如何评估进化树的可靠性。
4. Rannala, B., & Yang, Z. (1996). Probability distribution of molecular evolutionary trees: A new method of phylogenetic inference. Journal of molecular evolution, 43(3), 304-311.这篇经典文献提出了一种基于贝叶斯统计的方法,用于构建进化树并估计参数。
作者通过模拟数据集,比较了该方法与传统方法的性能,并证明了其在多基因串联数据中的有效性。
5. Wiens, J. J., & Moen, D. S. (2008). Missing data and the accuracy of Bayesian phylogenetics. Journal of Systematics and Evolution, 46(3), 307-314.这篇经典文献探讨了在多基因串联数据中缺失数据的影响,并提出了一种贝叶斯方法来处理缺失数据问题。
系统进化树的构建方法系统进化树(systematic phylogenetic tree)是用于描述不同物种之间进化关系的一种图形化表示方法,可以帮助我们理解物种的起源、演化和分类。
构建系统进化树主要涉及到物种的分类学和进化生物学知识,以及系统发育分析方法。
下面将介绍系统进化树的构建方法。
1.选择研究对象:确定研究的物种范围,通常会选择有代表性的物种,包括已知的和新发现的物种。
2.收集DNA序列数据:从每个研究对象中提取DNA样本,并通过PCR扩增得到所需的基因序列。
常用的基因包括线粒体基因COI、核基因ITS 等,根据具体研究目的和对象进行选择。
3.序列比对:将收集到的DNA序列进行比对,通常采用计算机程序进行全局比对,比对结果会显示序列之间的同源区域和差异。
4. 构建系统进化树:有多种方法可以构建系统进化树,其中最常用的是系统发育建模方法,如最大简约法(maximum parsimony)、最大似然法(maximum likelihood)和贝叶斯推断(Bayesian inference)等。
最大简约法是最简单和最常用的构建系统进化树的方法之一、它基于简约原则,认为进化过程中最少的演化步骤是最可能的。
方法将不同物种的序列进行比对,统计共有的字符以及不同的字符,根据最小化改变的原则,得到进化树。
最大似然法使用概率模型来计算物种之间的进化关系,根据序列数据的概率分布确定最可能的进化树。
这种方法考虑了不同序列字符的不同演化速率以及序列之间的相关性。
贝叶斯推断方法基于贝叶斯统计学原理,通过计算不同进化树的后验概率来确定最有可能的进化树。
该方法能够对不同进化模型和参数进行全面的推断,但计算复杂度较高。
5.进行分支长度调整和进化树根的定位:进化树的分支长度表示物种间的差异,可以根据各个物种间的差异大小进行调整。
进化树的根通常是已知的进化历史或已知的进化事件,如灭绝事件等,可以通过分析群体间的基因流动等信息进行推断。
动物进化中的祖先重建动物进化是一个漫长而神秘的过程,为了更好地理解动物演化的历程以及各物种之间的亲缘关系,科学家们经常利用祖先重建的方法进行研究。
祖先重建是通过对现存物种的形态、遗传信息以及化石记录进行分析和推断,重新构建出已灭绝祖先的外貌、生态习性甚至基因组信息的方法。
本文将介绍动物进化中的祖先重建的原理和应用,并探讨其在揭示进化过程中的重要作用。
一、祖先重建的原理祖先重建是基于现有物种的形态、遗传信息和化石记录进行推断和分析的。
对于现存物种,科学家们通过比较其形态和生理特征的异同,以及基因组的相似性来推测它们之间的亲缘关系。
例如,在鸟类中,科学家们通过比较不同种类的喙形状、羽毛结构以及飞行方式等特征,来推断它们的共同祖先是什么样的动物。
此外,遗传信息也是祖先重建的重要依据之一。
通过分析现有物种的DNA序列,科学家们可以推测不同物种之间的遗传关系和进化历程。
当然,这种方法也有一定的局限性,因为DNA序列的变异会受到自然选择、基因重组以及突变等因素的影响。
化石记录也提供了祖先重建的重要线索。
通过发掘和研究化石,科学家们可以了解到已经灭绝的物种的形态特征、生活习性以及进化历程。
通过与现有物种的比较,科学家们可以推断已灭绝物种与现有物种之间的关系。
二、祖先重建的应用1. 进化历程的重建:祖先重建可以帮助科学家们了解动物进化的历史,揭示不同物种之间的亲缘关系以及起源。
通过对祖先的重建,可以追溯到更早期的共同祖先,进一步探索起源于哪些环境和生态条件下。
2. 形态与功能的理解:通过对祖先重建的研究,科学家们可以了解各种形态特征和功能的演化过程。
例如,通过对哺乳动物口腔结构的祖先重建,可以揭示哺乳动物开始进化为食草动物的过程,以及这一进化过程中对口腔结构和消化系统的适应性改变。
3. 生态位与适应性的探索:祖先重建也可以帮助科学家们了解不同物种在特定生态环境下的适应性。
通过对祖先重建的研究,可以推测不同物种在进化过程中是如何适应特定的环境条件的,进一步了解生态位的形成和演化。
序贯贝叶斯方法
序贯贝叶斯方法(SequentialBayesianMethod)是一种机器学习
方法,它会根据历史数据建立一些规则来对将来数据进行预测。
它与
经典机器学习算法在技术上有一定的差异,因为它不仅考虑当前数据,而且还考虑了历史数据。
这意味着,通过序贯贝叶斯方法,我们可以
从大量历史数据中提取出规则,并用这些规则来预测将来的数据。
序贯贝叶斯方法基于贝叶斯概率理论,使用的方法是循环式的贝
叶斯估计(recursive Bayesian estimation)。
它可以将新数据和历
史数据相结合,以便更好地预测未来数据。
序贯贝叶斯方法假设,历史数据与未来数据之间存在一定的相关性,而且这种相关性可以通过特定模型进行描述。
根据这个假设,一
旦模型被构建,就可以将历史数据与未来数据进行比较。
在模型构建
的过程中,会分析历史数据,并提取有用的信息,最后将所有信息整
合在一起形成模型。
序贯贝叶斯方法可以用来预测未来的数据,也可以用来分析和检
测潜在的异常行为。
它还可以用来识别模式、追踪变化与动态。
序贯
贝叶斯方法在金融、政治研究和社会科学研究中得到了广泛的应用,
是一种十分有效的机器学习方法。
贝叶斯方法gwas
一、贝叶斯方法简介
贝叶斯方法是一种基于概率论的统计分析方法,它通过先验概率和后验概率的计算,实现对不确定事件的预测和决策。
贝叶斯方法在生物学、计算机科学、经济学等多个领域具有广泛的应用。
二、GWAS简介
基因组广泛关联研究(Genome-Wide Association Study,GWAS)是一种针对复杂性状遗传机制的研究方法。
通过对大量遗传标记和表型数据进行分析,GWAS可以识别出与表型相关的遗传变异。
三、贝叶斯方法在GWAS中的应用
在GWAS研究中,贝叶斯方法可以用于遗传变异的优先级排序、效应大小估计以及复杂性状的遗传解析。
通过贝叶斯方法,研究者可以更精确地估计遗传变异与表型之间的关系,提高研究效率。
四、案例分析
以乳腺癌为例,贝叶斯方法可以用于分析基因组数据,根据基因型和表型信息计算各遗传变异的相对风险。
通过贝叶斯分析,研究者可以发现与乳腺癌风险相关的基因变异,为乳腺癌的预防、诊断和治疗提供理论依据。
五、贝叶斯方法与GWAS的结合优势
贝叶斯方法在GWAS中的应用可以提高研究结果的准确性和可靠性。
相较于传统的统计方法,贝叶斯方法具有更好的理论基础和更强的数据分析能力。
同时,贝叶斯方法可以有效地处理GWAS中大量的不确定性数据,提高研究效
率。
六、总结与展望
贝叶斯方法在GWAS中的应用为复杂性状的遗传研究提供了新的思路和方法。
随着基因组测序技术的发展,贝叶斯方法在GWAS中的优势将更加凸显。
重建系统发育树(PAUP的ML法和贝叶斯法)1 多重序列比对将待比对的序列以fasta格式保存,利用clustalx2.1或MEGA中的clustalW 软件进行多序列比对。2 保守区的选择将1得到的序列提交Gblock在线服务器(http://www.phylogeny.fr/one_task.cgi?task_type=gblocks),得到保守区的序列.fasta,并通过MEGA软件将其转换为.nex;3 核苷酸替换饱和度检测用DAMBE 软件验证替换饱和。只要比较ISS和ISS.c 值大小及显著与否,即可。当ISS小于ISS.c 且p=0.0000(极显著),就说明没序列替换未饱和,可以建树。4 核苷酸替换模型的选择在进行系统发育分析过程中,建树序列的进化模型选择是至关重要的一步,尤其对进化模型敏感的ML法和BI法。通过MrMTgui 软件选择核酸替代模型。4.1 安装PAUP、ModelTest (或MrModelTest) 软件,然后再安装MrMTgui 软件。配置MrMTgui,分别设置PAUP、ModelTest和MrModelTest路径。4.2 运行PAUP点击Run Paup,选择2中.nex文件。当模型参数值计算完毕,程序会提示是否立即启动分析,选择“否”,先保存scores文件。然后选择,运行MrModeltest,就得到模型数据了。一种是基于hLRT 标准选择的模型,另一种是基于AIC标准选择的模型,一般选择AIC标准。4.3添加模型参数,添加到建树的文件 .nex。5 使用PAUP软件重建ML树(运行时间较长)将用AIC标准选择的模型参数直接拷贝到Nexus文件的最后。参数设置:set criterion=likelihood 转化为似然法。outgroup 1 2 …….设定外类群bootstrap nreps=1000 keepall=yes brlens=yes 此命令设定循环次数为1000次(具体次数可根据实际情况自定),保存枝长。describetrees 1/plot=both brlens=yes 此命令设定了描述树的方式,即phylogram和cladogram均显示,显示枝长。最后用 savetrees from=1 to=1000 保存树。6 贝叶斯树6.1在Nexus文件的最后加入一个MrBayes block。(MEGA输出Nexus格式文件不能被Mrbayes识别,因此要进行修改)格式修改前:格式修改后:6.2运行mrbayes.exe,在命令行界面中输入转换或者修改的Nexus文件,点击回车,最后生成 *.tre,即最终的BI树。用Figtree 查看生成 .tre在运行1000代后都会显示 Average standard deviation of split frequencies。注:当这个值 < 0.01 时,说明两次运行的结果差异显著,Convergence 已经达到,这时可以输入 no 终止运行;这个值<0.05也可以,但不能>0.05。
进化的时钟分子钟与物种分化的时间推算进化是生物学中一个不可忽视的过程,它涉及到物种的起源和分化。
而要了解物种分化的时间,科学家们运用了分子钟的概念。
分子钟是基于分子序列的变异速率进行时间估计的一种方法。
在这篇文章中,我们将探讨进化的时钟分子钟与物种分化时间推算的原理和应用。
一、分子钟的原理及应用分子钟是指利用生物分子中的突变累积来估计时间的方法。
它基于分子之间的差异,通过比较不同物种或个体间的DNA、蛋白质序列等,来推测它们的分岐时间。
具体来说,分子钟假设在演化过程中,生物分子的突变累积速率是恒定的,就像时钟的滴答声。
分子钟的应用非常广泛,包括了物种分化时间推算、进化的速率估计以及遗传关系分析等。
它提供了进化生物学、生物地理学和人类学等领域的重要依据,帮助我们了解物种的起源及其演化历程。
二、分子钟的类型在分子钟研究中,常用的分子标记有DNA、RNA和蛋白质序列。
其中,DNA序列的应用最为广泛。
根据不同的分子钟类型,我们可以将分子钟分为基于核酸序列和基于氨基酸序列的两大类。
基于核酸序列的分子钟主要是通过比较DNA或RNA的差异来推测物种的分化时间。
这些方法包括分子进化钟、中性进化钟和分子鳞片钟等。
这些方法不仅能够推测物种分化的时间,还可以对进化速率进行估计。
基于氨基酸序列的分子钟则是通过比较蛋白质序列的差异来推测物种分化的时间。
这些方法可以用于研究较早期的进化事件,并在系统发育分析中发挥重要作用。
三、分子钟的建模方法在分子钟的应用中,科学家们开发了一系列的建模方法来推测分子之间突变的时间。
其中最常用的方法是使用最大似然估计法(Maximum Likelihood)和贝叶斯估计法(Bayesian Estimation)。
最大似然估计法通过计算突变的概率,来推测物种分化的时间。
它假设突变是随机和独立发生的,并且根据已知的样本数据,选择出最有可能的时间。
贝叶斯估计法则结合了先验知识和已知数据,应用概率模型来推测分子的进化过程。
贝叶斯方法pdf小伙伴们!今天咱来唠唠贝叶斯方法这个有趣的玩意儿哈。
一、贝叶斯方法是啥呀。
贝叶斯方法呢,简单来说,就是一种基于贝叶斯定理的统计推断方法哟。
它跟咱们平常接触的一些统计方法不太一样呢。
它特别的地方在于,它会把先验知识和新的观测数据结合起来,去更新我们对某个事件或者参数的认识。
比如说,我们一开始对某个事情有个大概的看法,这就是先验知识啦。
然后呢,当我们得到了新的数据,贝叶斯方法就能根据这些新数据来调整我们原来的看法,让我们的认识更加准确。
举个例子哈,就好比我们猜一个盒子里红球和白球的比例。
一开始我们可能随便猜个比例,这就是先验。
然后我们从盒子里拿出几个球看看,这就是新数据。
贝叶斯方法就能根据拿出来的球的情况,调整我们对盒子里红球和白球比例的猜测啦。
二、贝叶斯方法的基本公式。
贝叶斯定理的公式是这样的:P(A|B) = P(B|A) P(A) / P(B) 。
这里面的P(A|B)表示在B事件发生的条件下,A事件发生的概率,这叫后验概率;P(B|A)是在A事件发生的条件下,B事件发生的概率;P(A)是A事件发生的先验概率;P(B)是B事件发生的概率。
这个公式看着有点复杂哈,不过咱们可以慢慢理解。
比如说,我们想知道一个人得了某种病(事件A)的概率,在他出现了某个症状(事件B)的情况下。
P(A)就是我们在不知道他有这个症状之前,估计他得这个病的概率,也就是先验概率。
P(B|A)就是如果他得了这个病,出现这个症状的概率。
P(B)就是不管得不得病,出现这个症状的概率。
通过这个公式,我们就能算出在他有这个症状的情况下,他得这个病的概率啦。
三、贝叶斯方法的应用领域。
贝叶斯方法的应用那可老广啦。
1. 在医学领域,它可以帮助医生根据病人的症状、检查结果等信息,更准确地判断病人得某种病的概率,从而制定更合适的治疗方案。
比如说,对于一些比较复杂的疾病,不同的症状可能对应不同的病因,医生可以用贝叶斯方法结合各种检查数据,来分析最有可能的病因。
实验3 用贝叶斯方法重建基因进化历史传统的系统进化学研究一般采用的要么是表型的数据,要么是化石的证据。
化石的证据依赖于考古学的发现,而表型数据往往极难量化,所以往往会得到许多极具争议的结论。
如今,现代分子生物学尤其是测序技术的发展为重建进化史提供了大量的数据,如多态性数据(如SNPs或微卫星)、基因序列、蛋白序列等等。
常规的做法一般都是利用某一个或者几个基因来构建物种树(species tree),但是一个基因的进化史能不能完全代表所有被研究物种的进化史呢?这是非常值得讨论的问题,但这不是我们本次实验的重点,在这里就不多赘述了。
所以,我们这里所指的进化树如非特别说明,指的都是基因树(gene tree)。
经典的研究系统进化的方法主要有距离法、最大简约法(maximum parsimony,MP)、最大似然法(maximum likelihood,ML)等等。
这些方法各有各的优点,也分别有其局限性,例如距离法胜在简单快速、容易理解,但是其模糊化了状态变量,将其简化为距离,也就不可避免的丧失了许多序列本身所提供的信息。
而最大简约法虽然用的是原始数据,但也只是原始数据的一小部分。
特别是在信息位点比较小的情况下,其计算能力还不如距离法。
相对来说,最大似然法虽然考虑问题更加全面,但带来的另一个结果是其计算量大大增加,因此常常需要采用启发式(heuristic)方法推断模型参数,重建进化模型。
本实验利用的是贝叶斯方法来重建基因进化史。
1.贝叶斯方法概述不可免俗的,我们还是要来看看贝叶斯模型,并分别对模型内部的一系列内容一一进行简单的介绍。
Bayes模型将模型参数视作随机变量(r.v.),并在不考虑序列的同时为参数假设先验分布(prior distribution)。
所谓先验分布,是对参数分布的初始化估计。
根据Bayes定理,可以不断对参数进行改进:f(θ|D)=f(D|θ)f(θ)f(D)(1) 其中f(θ|D)为后验概率分布(posterior probability distribution),而f(θ)是先验概率分布(prior probability distribution),而f(D|θ)为似然值。
此外f(D)=∫f(D|θ)f(θ)Ωdθ (2)其中参数空间Ω=(Ψ,Φ)包含了所有可能树的集合Ψ和所有似然模型参数的集合Φ。
一个树实例ψ=(τ,β)可用其拓扑结构(topology)τ和枝长参数(branch length)β表示。
而似然模型则包含了其他所有参数φ。
对于给定的似然模型f(D|θ)和多序列比对数据D,以及参数φ,每一组θ=(ψ,φ)代表特定的拓扑结构、枝长以及模型参数。
于是,公式(1)又可写作p(τ,β,φ|D)=L(D|τ,β,φ)p(τ,β,φ)∑∫∫L(D|τ,β,φ)p(τ,β,φ)dφdβΦBτ (3)公式(3)中采用了∑⋅的原因是拓扑结构是离散变量,其中B为所有可能枝长的集合。
如果要计算某一拓扑结构的后验概率分布,那么可以写出其边际概率分布(marginal probability distribution)p(τ|D)=∫∫L(D|τ,β,φ)p(τ,β,φ)dφdβΦB∑∫∫L(D|τ,β,φ)p(τ,β,φ)dφdβΦBτ (4)用同样的方法我们可以获得其他诸如枝长、似然模型参数的后验概率分布。
贝叶斯推断依赖于后验概率,但在大部分情形下后验概率的归一化常数无法直接得到,因此需要采用数值方法如马尔可夫蒙特卡洛(MCMC)来估计参数的后验概率分布。
1.1马尔可夫链蒙特卡洛算法(Markov chain Monte Carlo, MCMC)Metropolis-Hasting算法在参数空间Ω中进行连续的先后依赖的采样,获得一系列采样点�θ(0),θ(1),θ(2),…�使得从特定的某一采样点之后的所有采样点�θ(i+1),θ(i+2),θ(i+3),…�达到平稳分布且近似于θ的后验分布。
因此根据马尔可夫链大数定律(Markov chain law of large numbers),只要保证足够的模拟代数,去掉�θ(0),θ(1),…,θ(i)�后采样拓扑结构的长期频率就近似于拓扑结构的后验概率。
在参数空间Ω的马尔可夫链上,从状态θ1→θ2的概率密度函数为q(θ1,θ2)。
因此Metropolis-Hasting算法的关键是构造符合上述条件的转移矩阵,使得到的稳态分布为我们想要得到的后验概率分布。
在现有状态θ下,Metropolis-Hasting算法接受(accept)新状态θ∗的概率为R=min�1,p(θ∗|D)q(θ∗,θ)p(θ|D)q(θ,θ)� (5) 通常q都是对称的,也就是说q(θ∗,θ)q(θ,θ)=1。
因此公式(5)可写作R=min�1,L(D|θ∗)p(θ∗)L(D|θ)p(θ)� (6) 如果R=1,接受新状态;如果R<1,则用runif(1)产生一个随机数α,如果R>α则接受新状态,否则拒绝。
表1. MCMC算法收敛速率可能特别慢,也就是实际上不可行。
另外,MCMC还可能陷入局部最优。
因此,评估收敛在MCMC算法中是一个非常重要和具有挑战性的问题。
1.2MCMC中产生新树的方法在表1的MCMC算法2-(1)步骤中,树的更新是一个关键的问题,下面是一般的方法:(1)随机选择一个树作为初始树(starting tree);(2)随机选择一个edge,采用NNI(nearest-neighbor interchange);或者选择一个internal node,进行SPR(subtree pruning and regrafting);再或者用TBR(tree bisection and reconnection)策略…….(3)是否接受新的拓扑结构?而改变枝长的方法也有很多,其中最为简单的一种策略是:(1)随机选择一个edge,用一个在原枝长左右对称的一种分布随机产生一个数值作为候选的新枝长;(2)是否接受新枝长?1.3MCMC中更新模型参数的方法对于取值范围在[0,M]的参数,如HKY模型中的转换/颠换比κ,可以随机产生一个符合U~Uniform(−δκ,δκ),从而产生新值κ∗=κ+U,接受与否完全看是否在取值范围内。
而对于一组和必须满足条件的数值参数来说,如四种核苷酸的分布,则可在原值的基础上构造Dirichlet分布,构造新值。
例如当前值如果是z= (z1,z2,…,z k),其中∑z i=c i。
则我们可以构造新值z∗=cY,其中Y是从参数为(αz1,αz2,…,αz k)的Dirichlet分布中随机抽样得到的数值,这里的α为调整参数(tuning parameter),α越大,得到的新值的值就越是接近于现值。
新值接受与否的Hasting比率值是两个Dirichlet分布密度的比值。
2.设定先验概率分布对于Bayes方法来说,选择一个好的先验概率分布是非常关键的。
如果原始数据包含了大量的参数的信息,那么先验概率对后验概率分布的影响并不大,这时候也就接近于最大似然法,我们甚至可以采用毫无信息的先验概率分布(例如,Uniform分布)。
MrBayes为用户提供了大量的先验概率以供选择,用户可以采用不同的先验,并比较其结果,看看结果是否对先验概率敏感。
2.1碱基稳态频率所谓碱基稳态频率,指的是当进化达到稳态时,某一个位置上四种碱基的出现频率{p A,p C,p T,p G},这种频率不再随着碱基取代的发生而改变。
由于p A+p C+ p T+ p G=1。
所以我们在设定参数时,常用Dirichlet分布来设定其先验概率。
2.2碱基取代速率矩阵对于DNA序列来说,在不考虑gap的情形下,其进化的历史实际上就是碱基替换的演变历史。
很自然的,我们可以用一个4×4的矩阵来表示碱基取代模型,这样就有了16个参数,但是其中有4个参数是可以通过其他参数来确定的,因此就有了16-4=12个自由参数。
这个速率矩阵具有以下性质:(1)非对角元素非负;(2)对角元素是本行其他非对角元素和的相反数;(3)因此,每行的和为0这是一个简单的例子:一般都写作Q=�a b c d e f g h i j k lm n o p �如今常用的碱基取代模型主要有:(1)JC69(Jukes-Cantor,1969)假设b=c=d=e=g=⋯=n=o,则a=f=k=p=−3b,且满足p(A)=p(C)=p(G)=p(T)=0.25;所以参数个数为1,对应MrBayes的设置lset nst=1;(2)K2P(Kimura,1980):假定四种碱基的稳态比例均为0.25;转换(transition,嘌呤<->嘌呤或者嘧啶<->嘧啶)和颠换(transversion,嘌呤<->嘧啶)具有不同的速率。
所以,参数个数为2,对应MrBayes的设置为lset nst=2;(3)HKY模型(Hasegawa-Kishino-Yano 1985):其他设置与K2P相同,唯有碱基的稳态比例可以自由设定;(4)GTR模型:四种碱基的组成是自由的,取代矩阵是对称的,所以取代矩阵中有6个参数,对应于lset nst=6。
2.3碱基取代速率差异模型大部分方法认为整条序列的碱基取代速率是均匀的,但这个假设并不符合我们的常识。
因此,MrBayes还引入了碱基取代速率差异模型,用Gamma分布来作为这个模型参数的先验概率。
之所以采用Gamma分布,乃是因为Gamma分布是一种非常灵活多变且强大的概率分布模型,只要设定Gamma分布的shape参数就可以定义一个Gamma分布。
2.4进化树模型进化树模型有2类参数:一是拓扑结构(topology)参数,另一个是枝长(branch length)参数。
附录一、MrBayes教程注:< >内为需要输入的内容,但不包括括号。
所有命令都需要在MrBayes >的提示下才能输入。
1.输入文件格式:Nexus文件输入格式为Nexus文件(ASCII,一种格式化的文本文件,如图):这个文件中(每一个完整的语句后面都是一个分号):dimensions——表示输入多序列比对的大小,包括序列个数(ntax),多序列比对的序列长度(nchar);format——告诉程序输入的文本的类型,这里datatype=dna宣示为DNA序列,序列中gap=-,缺失核苷酸用?表示(missing=?);matrix——宣示接下来是序列的主体;或者还有其他信息:interleave=yes代表数据矩阵为交叉序列interleaved sequencesnexus文件可由MacClade或者Mesquite生成。