当前位置:文档之家› 分子系统发育分析

分子系统发育分析

分子系统发育分析Molecular Phylogenetics 杨茜

北京大学生命科学学院

2011-01-09

提纲2345案例:分析NADH1序列

系统发育的基本概念

系统发育树的构建方法

系统发育分析的软件

参考和推荐书目

elines 5

1

系统发育的相关概念

系统发育学

研究物种进化和系统分类

系统发育分析

推断或评估这些进化和分类关系

系统发育树

通过系统发育分析所推断出来的进化关系一般用分支图来描述

系统发育(Phylogeny)

系统发育分析是研究物种进化和系统分类的一种方法,其常用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。

系统发育树描述了同一谱系的进化关系,包括了分子进化、物种进化以及分子进化和物种进化的综合。通过系统发育树,我们可以找到亲缘关系最近的物种或者基因,探索基因的功能,追溯基因的起源。

在现代系统发育学研究中,研究的重点已经不再是生物的形态学特征或者其他特性,而主要是序列信息。

虽然已有了大量的用于系统发育的算法、过程和计算机程序,但是这些方法的可靠性和实用性还是依赖于数据的结构和大小。

系统发育分析一般没有实验基础,因为系统发育的发生过程都是已经完成的历史,只能去推断或者评估,而无法重现。

系统发育分析的概念性步骤

系统发育分析生物数据

序列比对建立替代模型构建系统发育树评估系统发育树

选择序列时的注意事项

1.序列有指定的来源并且正确无误

2.序列是同源的,即所有的序列都起源于同一祖先序列

3.样本序列之间的差异包含了足以解决感兴趣的问题的信息位点。

4.样本序列是随机进化的。

5.序列中的每一个位点的进化都是独立的。

序列比对

建立一个序列比对的基本步骤包括:选择合适的比对程序;然后从比对结果中提取数据。至于如何提取有效数据,取决于所选择的建树程序如何处理容易引起歧义的比对区域和插入/删除序列(即所谓的indel或者gap)。

分析DNA序列的方法基本上仍然是通过碱基和密码子的替代来考察序列的差异;这个方法同样应用于对蛋白质序列的分析,但是由于氨基酸的生物化学多样性,我们必须引入更多的参数。

从比对中提取数据

如果比对中出现可变长度,我们通常会根据比对的不确定性程度和处理indel状态的原则这两个标准对比对结果进行取舍,从中选择所需的数据;其中针对indel状态的处理方法取决于建树方法以及从比对结果中发掘出的信息,最极端的方法是把包括空位在内的所有indel位点从比对中清除出去,在分析时不加考虑,这个方法的好处是可以把序列的变化包容在取代模型中,而不需要特别的模型来处理indel状态,但是它的缺点也很明显:indel区域的信息完全被忽略了。

系统发育树的种类

1.有根树和无根树

2.基因树和物种树

3.期望树和现实树

有根树和无根树

?有根树是具有方向的树。包含唯一的根节点,将其作为树中所有物种的最近共同祖先。?无根树是没有方向的,其中线段的两个演化方向都有可能。

?如果类群数(m)为4,就有15种可能的有根树拓扑结构和3种无根树拓扑结构。

?可能的拓扑结构随m的增加而迅速增加,这些拓扑结构中只有一种是真实树。

物种树和基因树

代表一个物种或群体进化历史的系统发育树被称为物种树。根据基因构建的树称为基因树。

基因树可能不同于物种树。

一个用无限长的序列或每一分支的替代树构建成的树称为期望树。而建立在实际替代数基础上的树称为真实树。

要注意的是,期望树和真实树通常不同于由所观察到的序列数据重建的树,即重建树或推论树。由于基因的进化改变受限于随机误差和某些自然选择因素,即使由很多基因构建的树也可能不同于真实树

距离法(Distance)

最大简约法

(Maximum Parsimony)

最大似然法

(Maximum Likelihood)建树方法

距离法(Distance)

运用距离法或距离矩阵法时,系统发育树的构建基于所有类群间的进化距离值的关系。根据所有序列的两两比对结果,通过序列两两之间的差异决定进化树的拓扑结构和树枝长度

-使用算术平均的不加权的组对法(UPGMA)

-最小进化法(Minimal Evolution)

-邻接法(Neighbor-joining)

最大简约法(Maximum Parsimony)

最大简约法根据序列的多重比对结果,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最少的拓扑结构作为最优树,即能够利用最少的步骤去解释多重比对中的碱基差异。理论基础是解释一个过程最好的理论是所需假设数目最少的那一个。前提是要选择信息位点。

-加权MP法(转换和颠换)

-不加权MP法

最大似然法(Maximum Likelihood)

最大似然法以一个特定的替代模型分析一组序列数据的多重比对结果,优化出拥有一定拓扑结构和树枝长度的进化树,使所获得的每一个拓扑结构的似然率均为最大,挑选似然率最大的拓扑结构作为最优树。

建树过程费时,计算量大,每个步骤都要考虑内部节点的所有可能性。前提是要选择合理并正确的替代模型。

核苷酸替换模型

系统发育树可靠性的检验

自展法(bootstrap)是对所比较序列上的替换位点作多次随机取样,根据每次取样的数据可以得到新的树形图,相同的组合出现在某一个节点上的次数占总取样次数的百分比就是该节点的bootstrap值。

>95%统计学上有意义,>70%可信,<50%不可信。

不同建树方法的优缺点

常用的建树软件

1.MEGA (Molecular Evolutionary Genetics Analysis)

2.PHYLIP (PHYLogeny Inference Package)

3.PAUP (Phylogenetic Analysis Using Parsimony)

4.PAML (Phylogenetic Analysis by Maximum Likelihood)

系统发育分析

实习四: 系统发育分析-PHYLIP, MEGA, MrBayes 实习目的 1. 学会使用PHYLIP,MEGA和MrBayes构建进化树 2. 学会分析建树结果,体会各种方法差异 实习内容: 一、PHYLIP PHYLIP网址: https://www.doczj.com/doc/b83991355.html,/PHYLIP.html PHYLIP是一个免费的系统发育树构建软件,它的功能比较全面,可用距离法、最大简约法和最大似然法分别进行建树,还可以对进化树可靠性进行检验。PHYLIP没有多序列比对功能,所以先要用其它序列比对软件完成序列比对,并保存为phy格式后,才可提交给PHYLIP进行分析。 1.1 比对序列的准备 1.将教学材料里demo sequence.zip文件解压到D盘根目录下,分别用其中的mRNA和protein序列学习进化树构建。首先我们用实习2学过的多序列比对软件对序列进行比对。这里以CLUSTAX为例来说明。 强烈建议:将你的所有同源核酸(或蛋白质)序列存到一个文本文档里,将”>”之后那行只保留物种名称,或物种名称_蛋白(或基因)名称,方便后面分析比较。 2.用CLUSTALX进行多条序列比对,在Alignment - output format option选中PHYLIP格式,对序列进行比对(Alignment - Do complete alignment)。将生成的phy文件保存,此文件可以用写字板打开浏览,里面内容是多条序列比对结果。(Figure 1.1)

Figure 1.1 用clustalx 进行多条序列比对及生成的phy 文件 3. 双击解压PHYLIP-3.69.zip 文件,得到三个文件夹,其中doc 文件夹里是关于所有PHYLIP 子程序的 使用说明,exe 文件夹里是直接可以使用的可执行程序,src 文件夹里是所有程序的源代码。 4. 打开PHYLIP 的exe 文件夹,将上步保存的phy 文件复制到exe 文件夹中。 5. 上课时我们是先将序列用某种方法建树后,然后做bootstrap 检验,看树的可靠性。但一般情况下用 你的序列直接构建出来的树与伪样本建出来的一致树(consensus tree)是非常相似的,所以这里我们先做bootstrap,直接用伪样本建树。

如何构建系统发育树

如何构建系统发育树 Bioinformatics2009-11-03 10:45 阅读159 评论0 字号:大中小小 (2009-06-11 22:44:13) 标签:系统发育树构建系统发育树分子生物学发育分析it 转自丁香园 构建系统发育树需要注意的几个问题 1 相似与同源的区别:只有当序列是从一个祖先进化分歧而来时,它们才是同源的。 2 序列和片段可能会彼此相似,但是有些相似却不是因为进化关系或者生物学功能相近的缘故,序列组成特异或者含有片段重复也许是最明显的例子;再就是非特异性序列相似。 3 系统发育树法:物种间的相似性和差异性可以被用来推断进化关系。 4 自然界中的分类系统是武断的,也就是说,没有一个标准的差异衡量方法来定义种、属、科或者目。 5 枝长可以用来表示类间的真实进化距离。 6 重要的是理解系统发育分析中的计算能力的限制。任何构树的实验目的基本上就是从许多不正确的树中挑选正确的树。 7 没有一种方法能够保证一棵系统发育树一定代表了真实进化途径。然而,有些方法可以检测系统发育树检测的可靠性。第一,如果用不同方法构建树能得到同样的结果,这可以很好的证明该树是可信的;第二,数据可以被重新取样,来检测他们统计上的重要性。 分子进化研究的基本方法 对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。 表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(speciestree)、基因树等等一些相同或含义略有差异的名称. 系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基因的时间顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问题。 用于构建系统进化树的数据有二种类型:一种是特征数据(characterdata),它提供了基因、个体、群体或物种的信息;二是距离数据(distancedata)或相似性数据(similaritydata),它涉及的则是成对基因、个体、群体或物种的信息。距离数据可由特征数据计算获得,但反过来则不行。这些数据可以矩阵的形式表达。距离矩阵(distancematrix)是在计算得到的距离数据基础上获得的,距离的计算总体上是要依据一定的遗传模型,并能够表示出两个分类单位间的变化量。系统进化树的构建质量依赖于距离估算的准确性。 一1) 打开clustal X,载入上述序列,“load sequences”→“output format options”: “CLASTAL FORMA T”;CLASTAL SEQUENCES NUMBERS:ON; ALIGNMENT PARAMETERS: “RESET NEW GAPS BEFOR ALIGNMENT” “MULTIPLE ALIGNMENT PARAMETERS”→设置相关参数 2) “DO COMPLETE ALIGNMENT”→FILE→SA VE AS,掐头去尾。 3) 打开MEGA4,FILE→CONVERT TO MEGA FORMA TE→SA VE→FILE→OPEN DA TA→CONTAINING PROTAIN SEQUENCES? NO →PHYLOGENY→BOOTSTRAP TEST OF PHYLOGENY→N J → 设置相关参数。最后看到系统发育树 二这里要介绍的是Bioedit-Mega建树法,简单实用,极易上手。 1 将所测得的序列在NCBI上进行比对,这个就不多讲了。 2 选取序列保存为text格式。 3 运行Bioedit,使用其中的CLUSTAL W进行比对。 4 运用MEGA 4 建树,首先将前面的文件转化格式为mega格式,然后进行激活,最后进行N-J建树。

分子发育系统学

一、本研究的目的和意义 本研究采用从核酸数据库GenBank中下载斑腿蝗科部分种的线粒体ND2基因序列及部分其他种属的ND2基因序列进行分析,并利用各种软件建立系统发育树,对斑腿蝗部分类群之间的系统发育关系进行研究。尝试以较多的分子序列资料得出较为全面而可信的系统发育关系。希望通过对斑腿蝗部分种线粒体基因组的分析,为研究斑腿蝗科的系统发育关系提供新的信息。 二、斑腿蝗科昆虫ND2基因序列分析 对所获得的8条序列进行正反链序列互补检测、校对,用MEGA6.0进行比对和分析,发现没有碱基的插入和缺失。 三、ND2基因序列多态位点及信号位点 表1密码子不同位点碱基频率 Domain: Data T(U) C A G Total T-1 C-1 A-1 G-1 Pos #1 T-2 C-2 A-2 G-2 Pos #2 T-3 C-3 A-3 G-3 Pos #3 Xenocatantops -brachycerus 33.5 17.2 38.6 10.7 1023 30 14.1 41.3 14.7 341 45 22.9 20.2 11.4 341 25 14.7 54.3 5.9 341 Prumna -arctica 35.8 15.1 39.1 10.1 1029 33 11.7 42.3 13.1 343 46 22.4 19.2 12 343 28 11.1 55.7 5.2 343 Traulia -szetschuanensis 33.6 17.4 37.5 11.4 1023 29 15.2 41.1 14.4 341 48 20.5 19.6 12.3 341 24 16.4 51.9 7.6 341 Ognevia -longipennis 36.2 15.9 37.6 10.3 1023 32 14.4 40.5 13.5 341 48 22 18.8 11.1 341 29 11.4 53.7 6.2 341 Kingdonella -bicollina 36.8 14.9 38.8 9.5 1021 35 12 40.2 12.9 341 46 23.5 17.9 12.1 340 29 9.1 58.2 3.5 340 Shirakiacris -shirakii 33.5 18.1 37.6 10.8 1023 31 13.5 42.5 12.6 341 47 21.7 19.1 12.6 341 23 19.1 51.3 7 341 Filchnerella -beicki 33 17.7 37.2 12 1023 29 14.4 40.2 16.1 341 45 23.5 19.6 11.7 341 25 15.2 51.9 8.2 341 Humphaplotropis -culaishanensis 32.8 17.9 37 12.3 1023 28 15.5 40.5 16.1 341 45 24 19.9 11.1 341 26 14.1 50.4 9.7 341 Avg. 34.4 16.8 37.9 10.9 1024 31 13.8 41.1 14.2 341.3 46 22.6 19.3 11.8 341.1 26 13.9 53.4 6.7 341.1 四、ND2基因的碱基替换 在8种蝗虫的ND2基因中,碱基替换表现出明显的差异。见表2。从全数据集看:两种转换(T-C、A-G)的频率和大于四种颠换(T-A、T-G、C-A、C-G)

7-9章 系统发育 进化

7 系统发育重建和大类群起源 单系群:包含一个共同祖先和它所有后代的真实分支 并系群:包含了一个共同祖先,但不包含所有后代的分支 多系群:所有后代没有一个共同祖先的分支 同源性状(Homology):指来源于共有祖先的相同性状 趋同性状(Homoplasy):包括了来自不同祖先的相似性状 趋同性状形成原因:相似的选择压力是趋同结构演化的原因;逆转演化 8 基因及基因组的进化 基因间隔区:基因到另一个相邻基因间的核苷酸序列 转座子:是基因组中高度重复的序列,是基因组中非常重要的组成部分(在植物中常常占基因组的一半以上)。1) 按复制方式:a. DNA-DNA复制方式转座 b. 反转录转座子2) 按转座途径:a. 复制转座 b. 非复制转座 非编码RNA是不翻译但能转录为RNA(tRNA;rRNA;microRNAs;snoRNAs;snRNAs;siRNAs;exRNAs;piRNAs;ncRNAs) SSR:是指单碱基或多碱基的多个串联重复序列1) 单碱基2) 二碱基3) 三碱基4) 多碱基基因组的变异包括结构性变异及序列变异:1) 结构性变异2) 序列变异 结构性变异:全基因组重复;部分片段的重复;倒位;染色体融合;染色体重排;水平转移序列变异:替换(同义突变vs. 非同义突变);少量碱基的插入或缺失(编码区、启动子区、内含子、基因间隔区、…) 基因类型:断裂基因(不连续基因);非剪接基因(连续基因);结构基因;调控基因;重复基因;重叠基因;跳跃基因;假基因 结构基因:是指编码任何RNA或除了调节因子(regulatory factor)以外的蛋白质的基因。它编码的内容呈现广泛的功能和结构,包括结构蛋白、酶类或不执行调控功能的RNA分子。调控基因:是调节蛋白质合成的基因。它能使结构基因在需要某种酶时就合成某种酶,不需要时,则停止合成,它对不同染色体上的结构基因有调节作用。 重复基因:由一个祖先基因通过基因重复而产生的一组基因。 重复基因产生的主要机制:串联重复;片段重复;逆转录转座或其他转座事件 重叠基因(overlapping gene):同一段DNA顺序上,由于阅读框架不同或终止早晚不同, 同时编码两个以上基因。 重叠方式:1)一个基因完全在另一个基因里面。如基因A和B是两个不同基因,而B包含在基因A内。2)部分重叠。这些重叠的基因具有不同的读码框架3)两个基因只有一个碱基重叠。如基因D的终止密码子的最后一个碱基是J基因起始密码子的第一个碱基(如 。 基因的重叠性使有限的DNA序列包含了更多的遗传信息,是生物对它的遗传物质经济而合理的利用。 跳跃基因:又称“转座子”,它们能够自我复制,在染色体中“跳”到不同的位置。 DNA转座:复制型转座;非复制型转座;保守型转座 转座的遗传学效应:1)可引起基因突变-插入或切离2)改变染色质的结构(缺失、倒位等)3)可以插入新基因 假基因(pseudogene):失去功能的基因,常用ψ表示。 根据形成机制分为两种类型:1)非加工假基因(non-processed pseudogene)也叫复制型假基因

植物的进化和系统发育

第十四章植物的进化和系统发育 第一节植物进化的证据 一化石证据 二比较解剖学的证据 三个体发育中重演现象的证据 四生理生化的证据 五分子生物学的证据 第二节植物进化的趋势和进化方式 一、上升式进化 二、下降式进化 三、趋同进化 四、趋异进化 五、平行进化 六、特化或专化 七、渐变式进化与跳跃式进化 第三节生物进化的基本理论 一、达尔文的自然选择学说 二、现代遗传学对生物进化机制的一些解释 (一)遗传与变异的辩证统一是植物(生物)进化的根本动力 (二)自搔选择是植物进化的基本规律 (三)人工选择 (四)隔离在植物进化中的重要作用 三、单元起源和多元起源 (一)单元论 (二)多元论 四、植物的个体发育和系统发育 (一)植物的个体发育 (二)植物的系统发育 第四节植物界的起源和进化 一、地质年代与植物进化简史 二、植物界的起源和进化简史 (一)原核藻类的产生 (二)真核藻类的产生和发展 1 藻类细胞的演化

2 藻体形态的演化 在绿藻门、红藻门和褐藻门中有类似“茎叶”的组织体,而且在生殖方式、生 活史类型方面都发展到比较高级的水平,因此称为高等藻类,其它个门称为低等 藻类。 3 繁殖及生活史的演化 (1) 繁殖方式:营养繁殖 无性生殖 (2) 有性生殖:同配生殖 异配生殖 4 生活史: 合子减数分裂(具核相交替) 配子减数分裂(具核相交替) 孢子减数分裂(同型世代交替 配子体占优势的异型世代交替 孢子体占优势的异型世代交替) (三)裸蕨植物的产生和蕨类植物的起源和发展 裸蕨植物是最古老的陆生维管植物,存在于志留纪末期到泥盆纪晚期。无 叶、无真根,具假根,地上部分为二叉分枝,原生中柱,孢子囊单室枝顶,孢子同型。他的出现开辟了植物由水生到陆生的新时代,由裸蕨植物又演化出了其他蕨类植物和原裸子植物,使植物界的演化进入了一个新阶段。多数人认为裸蕨植物起源于绿藻,也有人认为起源于褐藻或苔藓植物。 古代和现存的蕨类植物的祖先都是裸蕨植物。裸蕨植物沿着石松类、木贼类 和真蕨类三条路线进行演化和发展。 1 刺石松和裸蕨中星木属相似,认为是裸蕨植物和石松类植物之间的过渡。 2 最古老的木贼类植物海尼属和古芦木属,其特征和裸蕨类相似。 3 真蕨中的小原始蕨和古蕨被认为是介于裸蕨和真蕨之间的类型。 (四)苔藓植物的产生 1 起源于绿藻 (1) 叶绿体结构和绿藻的载色体相似,都含有叶绿素和叶黄素,光合产物为淀粉。 单细胞 具鞭毛 单细胞具鞭毛的群体 单细胞具鞭毛的多细胞体 单细胞 无鞭毛 群体 多细胞 不分枝丝状体 分枝丝状体叶状体 异丝体 枝状体

常见系统发育软件使用

常见系统发育软件使用方法 Xie Lei BJFU 1 Paup MP流程: Mac 准备nex文件(interleave和noninterleave均可) → 存入新建文件夹→拖入paup或用paup打开→ execute → log file → cstatus → tstatus → hsearch → define outgroup → roottrees → savetrees → describetrees →contree(save to file) →save pict→bootstrap(save tree file) →print bootstrap tree→save pict. →stop log. PC版操作,可将附录批处理文件容粘贴至nex文件后面,execute即可。 2 Paup ML 流程:Mac 准备nex文件(interleave和noninterleave均可) → 存入新建文件夹→拖入paup或用paup打开→execute→从modeltest软件中打开paupblock运算检测模型→生成score file→打开modeltest中的bin读取score数据→生成结果文档→存档并打开此文档→AIC→将begin paup的运算模块贴至原nex数据文件后面→重新将其拖入paup运行→选择ML运算模式→hsearch→打印树图→save pict. →bootstrap. PC版操作,可将附录5批处理文件容粘贴至nex文件后面,execute即可。 3 Garli运算ML流程: 准备nex文件(interleave) → 存入新建文件夹→拖入paup或用paup打开→execute→输出noninterleave文档(若直接是noninterleave上述过程省略,又如果是PC机paup,无菜单操作,可在paup命令行中输入附录1*的命令回车即可生成noninterleave数据)。 使用noninterleave文档(数据中类群名称不得有单引号,空格,所有方括号中容删除)→新建文件夹存入→按照流程2进行modeltest→在苹果机上打开Garli→

系统发育树构建方法优劣

1.邻接法邻接法(neighbor-joiningmethod,NJ)由Saitou和Nei(1987)提出,NJ法是基于最小进化原理经常被使用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。在重建系统发生树时,它取消了UPGMA法所做的假定,认为在进化分支上,发生趋异的次数可以不同。最近的计算机模拟已表明它是最有效的基于距离数据重建系统树的方法之一。该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。它的特点是重建的树相对准确,假设少,计算速度快,只得一棵树。其缺点主要表现在将序列上的所有位点等同对待,且所分析序列的进化距离不能太大。故NJ法适用于进化距离不大,信息位点少的短序列。邻接法在距离建树中经常会用到,而不用理会使用什么样的优化标准。完全解析出的进化树是通过对完全没有解析出的“星型”进化树进行“分解”得到的,分解的步骤是连续不断地在最接近(实际上是最孤立的)的序列对中插入树枝,而保留进化树的终端。于是,最接近的序列对被巩固了,而“星型”进化树被改善了,这个过程将不断重复。这个方法相对而言很快,也就是说,对于一个50个序列的进化树,只需要若干秒甚至更少。 2.最大简约法最大简约法(maximum parsimony method,MP)最早是基于形态特征分类的需要发展起来的,具体的算法有许多不同版本,其中有些已被广泛地应用于分子进化研究中。利用MP方法重建系统发生树,实际上是一个对给定OTUs其所有可能的树进行比较的过程。对某一个可能的树,首先对每个位点祖先序列的核苷酸组成做出推断,然后统计每个位点用来阐明差异的核苷酸最小替换数目。在整个树中,所有信息简约位点最小核苷酸替换数的总和称为树的长度(常青和周开亚,1998)。MP法是一种优化标准,这种标准遵循“奥卡姆剃刀原则(Occam’S Razor principle)”:对数据最好的解释也是最简单的,而最简单的所需要的特别假定也最少。MP法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树,也就是通过比较所有可能树,选择其中长度最小的树作为最终的系统发生树,即最大简约树(maximum parsimony tree)。与其他建树方法相比,MP法无需引入处理核苷酸或者氨基酸替代时所必需的假设(替代模型)。同时,MP法对于分析某些特殊的分子数据(如插入序列和插入/缺失)有用。在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,MP法能够获得正确的(真实)系统树。但MP法推导的树不是唯一的,在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会出现建树错误。故MP法适用于序列残基差别小,具有近似变异率,包含信息位点比较多的长序列。 3.最大似然法最大似然法(maximum likelihood method,MI。)是20世纪60年代末期由于对地生物信息学分析实践震波和水声信号等处理的需要而发展起来的一种非线性谱估计方法。最早由凯佩用这种方法对空间阵列接收信号进行频率波数谱估值,后来推广到对时问信号序列的功率谱估值。 最大似然法最早应用于系统发育分析是在对基因频率数据的分析上。其原理是考虑到每个位点出现残基的似然值,将每个位置所有可能出现的残基替换概率进行累加,产生特定位点的似然值。MI。法对所有可能的系统发育树都计算似然函数,似然函数值最大的那棵树即为最可能的系统发育树。利用最大似然法来推断一组序列的系统发生树,需首先确定序列进化的模型,如Jukes—Cantor模型、Kimura二参数模型及一般二参数模型等。在进化模型选择合理的情况下,MI。法是与进化事实吻合最好的建树算法。其缺点是计算强度非常大,极为耗时。

系统发育树构建方法研究_冯思玲

中图分类号:TP39 文献标识码:A 文章编号:1009-2552(2009)06-0038-03 系统发育树构建方法研究 冯思玲 (海南大学信息科学技术学院,海口570228) 摘 要:系统发育树的构建与分析是生物信息学中的一个重要分支。研究系统发育树可以重建祖先序列和估计分歧时间。对构建系统发育树的四种方法进行概述,主要包括基于距离的方法,简约法(MP),最大似然法(ML)和贝叶斯树估计方法。并对基于这些方法的软件进行简要介绍,最后对系统发育树构建技术中的难点问题进行分析。 关键词:系统发育树;基于距离方法;简约法;最大似然法;贝叶斯树估计方法Research on method of the construction of phylogenetic trees FENG Si ling (School of Information Science&Technology,Hainan University,Haikou570228,China) Abstract:The construction and analysis of phylogenetic trees is an important part in bioinformatics.The main objectives of studying the construction of phylogenetic trees can reconstruct ancestors sequences and estimate the time of divergence.The four methods about construc ting phylogenetic trees are described,which are based on distance method,parsimony method,maximum likelihood methods and Bayesian tree estimate methods. The software package based on these methods is briefly introduced,at last the difficult points about tree building techniques are analyzed. Key words:phylogenetic trees;distance based methods;parsimony method;maximum likelihood methods; Bayesian tree estimate methods 0 引言 系统发育树也称系统进化树(phylogenetic tree),它是用类似树状分支的图来表示各种(类)生物之间的亲缘关系,通过对生物序列的研究来推测物种的进化历史。主要是通过DNA序列,蛋白质序列,蛋白质结构等来构建系统发育树,或者通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。研究系统发育树的目的可以重建祖先序列 性状;估计来自于同一个祖先的不同生物之间的分歧时间;识别和疾病关联的突变等。近些年随着基因数据的爆炸增长,系统发育树的构建越来越流行。基于分子的进化研究已经应用到许多方面,如基因进化,物群划分,交配系统,父亲身份测试,环境监视以及已经转移物种的疾病源的研究等。 从数学的观点看,系统发育树是一颗树叶有标签的有根二叉树,根表示祖先序列。系统发育树主要是它的拓扑结构和分支长度。分支长度表示突变的时间。拓扑表示树的分支模式,有N个叶子可生成无根树的数目根据Schroder公式有(2N-5)!!,对每个无根树有(2N-3)种可能的分枝。因此,有根树的树目是(2N-3)(2N-5)!!=(2N-3)!![1]。 系统发育树的叶子在生物上称作操作分类单元OTU(operational taxonomic units),OTU代表构建的系谱的不同生物。构建系统发育树所用的数据用矩阵X N K表示,N表示氨基酸或核苷酸的序列数,即有N个叶子的树。K表示序列的字符数(列数)。构建树分析主要有二步:第一步用X N K矩阵产生树 T并 收稿日期:2009-03-06 基金项目:海南省自然科学基金项目(80637);海南大学校科研基金项目(kyjj0609) 作者简介:冯思玲(1973-),女,讲师,硕士,研究方向为生物信息学算法研究。 38

自己总结的有关系统发育的各个分析方法

Mrbayes3.1 1、输入"filename.nex"文件:将生成的"filename.nex"文件放在Mrbayes同一目录下,打开Mrbayes,在Mrbayes> 后输入exe filename.nex。 2、设定模型和参数:输入lset nst=6 rates=invgamma,其中,lset是model set(模型设置)命令,nst=6即将替代模型设置为GTR(General Time Reversible普通时间可逆)模型,rates=invgamma是将位点间差异比率设为invgamma。 3、运算:输入mcmc ngen=10000 samplefreq=10,保证在后面的可能性分布中probability distribution至少取到1000个样品。默认取样频率:every 100th generation。如果分裂频率分支频率split frequencies的标准偏差standard deviation在100,000代generations以后低于0.01,当程序询问:“Continue the analysis? (yes/no)”,回答no;如果高于0.01,yes继续直到该值低于0.01。 4、结果查看:输入sump burnin=250(在此为1000个样品,即任何相当于你取样的25%的值),参数总结summarize the parameter,程序会输出一个关于样品(sample)的替代模型参数的总结表,包括mean,mode和95 % credibility interval of each parameter,要保证所有参数PSRF(the potential scale reduction factor)的值接近1.0,如果不接近,分析时间要延长。输入sumt burnin=250,即舍弃250个老化样本后对各进化树进行总结。程序会输出一个具有每一个分支的posterior probabilities的树以及一个具有平均枝长mean branch lengths的树。这些树会被保存在一个可以由treeview等读取的树文件中。 Modeltest3.7 1、将modelblockPAUPb10.txt全部粘贴到分析文件filename.nxe(记事本打开)后面,重命名为test.model.nex。 2、用PAUP打开test.model.nex,开始运算,生成两个文件(同一目录下),model.scores和modelfit.log。 2、将Modeltest3.7win.exe和分析文件model.scores放在同一目录下。(此前,可以先安装DOShere软件)在包括以上两文件的文件夹,右键,选择Command Prompt Here。 3、输入Modeltest3.7win.exe 4、输入Modeltest3.7win.exeoutfile,生成outfile文件。 5、记事本打开outfile文件,文件给出了两个最优模型。 Phyml_win32建ML树 1、将Phyml_win32.exe和分析文件filename.phy放在同一个文件夹下 2、打开Phyml_win32.exe,输入filename.phy 3、输入B,输入1000,即1000次重复 4、输入M,选择模型 5、输入Y,运算

系统发育分析

本科生毕业论文(设计) 题目: 基于线粒体COX2基因的几种鲤科鱼丹亚科(Danioninae)鱼类的系统发育分析

郑重声明 本人的毕业论文(设计)是在指导老师的指导下独立撰写并完成的。毕业论文(设计)没有剽窃、抄袭、造假等违反学术道德、学术规范和侵权行为,本人愿意承担由此产生的各种后果;直至法律责任,并可以通过网络接受公众的查询。特此声明。 毕业论文作者(签名): 年月日

目录 中文摘要 ............................................................................................. 错误!未定义书签。英文摘要(Abstract) ............................................................................. 错误!未定义书签。 1 前言 ................................................................................................. 错误!未定义书签。 1.1 鲤科简介及其系统学研究现状 .................................................. 错误!未定义书签。 1.1.1 鲤科的分类特征 ....................................................................... 错误!未定义书签。 1.1.2 鲤科的分类系统 ....................................................................... 错误!未定义书签。 1.1.3 研究现状 ................................................................................... 错误!未定义书签。 1.2 线粒体基因组(mtDNA) ............................................................... 错误!未定义书签。 1.2.1 鱼类线粒体基因组的结构组成和特点 ................................... 错误!未定义书签。 1.2.2 线粒体DNA序列分析在鲤科系统学研究的应用 ................ 错误!未定义书签。 1.2.3 线粒体蛋白编码基因的特点 ................................................... 错误!未定义书签。 1.2.4 mtDNA用于系统发育分析的优点 .......................................... 错误!未定义书签。 1.3 本研究的目的和意义 .................................................................. 错误!未定义书签。 2 材料与方法 ..................................................................................... 错误!未定义书签。 2.1 方案论证 ...................................................................................... 错误!未定义书签。 2.1.1 分子系统学概述 ....................................................................... 错误!未定义书签。 2.1.2 分子系统发育研究方法 ........................................................... 错误!未定义书签。 2.2 过程论述 ...................................................................................... 错误!未定义书签。 2.2.1 实验数据的获取 ....................................................................... 错误!未定义书签。 2.2.2 实验数据处理和分析 ............................................................... 错误!未定义书签。 2.2.3 建树 ........................................................................................... 错误!未定义书签。 3 实验结果分析 ................................................................................. 错误!未定义书签。 3.1 本实验所研究的8种鱼的分类 .................................................. 错误!未定义书签。 3.2 鲤科鱼类COX2基因序列分析.................................................. 错误!未定义书签。 3.2.1 COX2基因序列多态位点及信号位点..................................... 错误!未定义书签。 3.2.3 COX2基因的遗传密码及其氨基酸组成................................. 错误!未定义书签。 3.2.4 COX2基因的遗传距离............................................................. 错误!未定义书签。 3.2.5 利用COX2基因进行的系统发育重建................................... 错误!未定义书签。

分子系统发育分析

分子系统发育分析Molecular Phylogenetics 杨茜 北京大学生命科学学院 2011-01-09

提纲2345案例:分析NADH1序列 系统发育的基本概念 系统发育树的构建方法 系统发育分析的软件 参考和推荐书目 elines 5 1

系统发育的相关概念 系统发育学 研究物种进化和系统分类 系统发育分析 推断或评估这些进化和分类关系 系统发育树 通过系统发育分析所推断出来的进化关系一般用分支图来描述

系统发育(Phylogeny) 系统发育分析是研究物种进化和系统分类的一种方法,其常用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 系统发育树描述了同一谱系的进化关系,包括了分子进化、物种进化以及分子进化和物种进化的综合。通过系统发育树,我们可以找到亲缘关系最近的物种或者基因,探索基因的功能,追溯基因的起源。 在现代系统发育学研究中,研究的重点已经不再是生物的形态学特征或者其他特性,而主要是序列信息。 虽然已有了大量的用于系统发育的算法、过程和计算机程序,但是这些方法的可靠性和实用性还是依赖于数据的结构和大小。 系统发育分析一般没有实验基础,因为系统发育的发生过程都是已经完成的历史,只能去推断或者评估,而无法重现。

系统发育分析的概念性步骤 系统发育分析生物数据 序列比对建立替代模型构建系统发育树评估系统发育树

选择序列时的注意事项 1.序列有指定的来源并且正确无误 2.序列是同源的,即所有的序列都起源于同一祖先序列 3.样本序列之间的差异包含了足以解决感兴趣的问题的信息位点。 4.样本序列是随机进化的。 5.序列中的每一个位点的进化都是独立的。

分子系统发育分析5

分子系统发育分析用于研究生物体在分子水平的进化式样、方向、速率以及各种分子机制对基因和基因组的结构与功能的影响。 同源——最基本的意义就是具有共同祖先 一般来说,如果两个物种中有两个性状(状态)满足以下两个条件中的任意一个,就可以称这两个性状为一对同源性状:1)它们与这些物种的祖先类群中所发现的某个性状相同;(2)它们是具有祖先—后裔关系的不同性状。 同源性一般是指核酸分子的核苷酸序列之间或蛋白质分子的氨基酸序列之间的相似程度。直系同源(rothology)可反映五种血统上的同源性,既物种进化的历史。 祖先类群:如果一个类群或物种至少有一个子裔类群,这个原始类群就是祖先类群。 单系类群:包含一个祖先类群所有子裔的群组称为单系类群。 并系类群:不满足单系类群要求,各成员间又具有共通祖先特征的群组。 姊妹群:与某一类群在谱系关系上最为密切的类群称为姊妹群。 内类群和外类群:一项研究所涉及的某一特定类群可称为内类群,不包括在内类群中又与之有一定关系的类群可称为外类群。 序列分析是最终测定同源性程度的方法。DNA-DNA杂交或DNA-RNA杂交也是有用的估计途径。 在分子系统发育分析中,首先应考虑直系同源基因序列。 系统树(phylogenetic tree) :用来表达类群(或序列)间系统发育关系的一种树状图。可划分为以下几种类型: 有根树(rooted tree)和无根树(unrooted tree) 以外类群作为树根的系统树称为有根树;没有外类群为树根的系统树称为无根树。 有根树数目的计算方法:Nr=(2n—3)!{2n-2(n—2)!} 无根树数目的计算方法:Nu=(2n—5)!{2n-3(n—3)!} 基因树(gene tree)是由一个基因所构建的系统树。 物种树(species tree):则表达了某一特定类群的进化路径。 核苷酸置换模型可以用4X4的矩阵表示。 估算两个蛋白质序列间置换数的方法中必须将同义置换和非同义置换非分开考虑,而起始和终止密码子应排除在外因为它们几乎不随时间变化。判断是同义置换还是非同义置换,关键是看翻译结果。即置换后翻译的氨基酸是否有变。 核苷酸序列分歧度:DNA序列间的分歧度k是一种相异性指数,可通过序列成对比较获得碱基差异值,然后运用序列进化模型来校正。 蛋白质编码序列分歧度:设Ks为两个序列间同义变化的分歧度,KA为非同义变化的分歧度,应用但参数模型。可以计算。 系统树构建方法简约法,相容法,距离距阵法(包括邻接法和UPGMA法),最大似然法。UPGMA法:使用算术平均的不加权对群法的缩写,也称为平均法,是目前聚类分析中使用的最多的一种聚合策略。 统计检验工具有重复取样法(分为自展法和刀切法)

常见系统发育软件使用

) 常见系统发育软件使用方法 Xie Lei BJFU 1 Paup MP流程: Mac 准备nex文件(interleave和noninterleave均可) →存入新建文件夹→拖入paup或用paup打开→execute →log file →cstatus →tstatus →hsearch →define outgroup →roottrees →savetrees →describetrees →contree(save to file) →save pict→bootstrap(save tree file) →print bootstrap tree→save pict. →stop log. PC版操作,可将附录批处理文件内容粘贴至nex文件后面,execute即可。 \ 2 Paup ML 流程:Mac 准备nex文件(interleave和noninterleave均可) → 存入新建文件夹→拖入paup或用paup打开→execute→从modeltest软件中打开paupblock运算检测模型→生成score file→打开modeltest中的bin读取score数据→生成结果文档→存档并打开此文档→AIC→将begin paup的运算模块贴至原nex数据文件后面→重新将其拖入paup运行→选择ML运算模式→hsearch→打印树图→save pict. →bootstrap. PC版操作,可将附录5批处理文件内容粘贴至nex文件后面,execute即可。 3 Garli运算ML流程: 准备nex文件(interleave) → 存入新建文件夹→拖入paup或用paup打开→execute→输出noninterleave文档(若直接是noninterleave上述过程省略,

相关主题
文本预览
相关文档 最新文档