系统发育分析
- 格式:pdf
- 大小:2.50 MB
- 文档页数:35
第九章系统发育分析Mark A. Hershkovitz and Detlef D.LeipeNational Center for Biotechnology InformationNational Library of MedicineNational Institutes of HealthBethesda,Maryland系统发育学研究的是进化关系,系统发育分析就是要推断或者评估这些进化关系。
通过系统发育分析所推断出来的进化关系一般用分枝图表(进化树)来描述,这个进化树就描述了同一谱系的进化关系,包括了分子进化(基因树)、物种进化以及分子进化和物种进化的综合。
因为”clade”这个词(拥有共同祖先的同一谱系)在希腊文中的本意是分支,所以系统发育学有时被称为遗传分类学(cladistics)。
在现代系统发育学研究中,研究的重点已经不再是生物的形态学特征或者其他特性,而是生物大分子尤其是序列。
尽管本章的目的是想描述一个万能的系统发育分析方法,但是这个目标过于天真,是不可能实现的(Hills et al.,1993)。
虽然人们已经设计了大量的用于系统发育的算法、过程和计算机程序,这些方法的可靠性和实用性还是依赖于数据的结构和大小,因此关于这些方法的优点和缺点的激烈争论成了分类学和系统发育学期刊的热门课题(Avise, 1994:Saitou, 1996; Li, 1997; Swofford et al., 1996a)。
Hillis等人(1993)曾经极其简单地介绍过系统发育学。
比起许多其它学科而言,用计算的方法进行系统发育分析很容易得到错误的结果,而且出错的危险几乎是不可避免的;其它学科一般都会有实验基础,而系统发育分析不太可能会拥有实验基础,至多也就是一些模拟实验或者病毒实验(Hillis et al., 1994);实际上,系统发育的发生过程都是已经完成的历史,只能去推断或者评估,而无法再现了。
基于系统发育分析的物种分类研究物种分类是生物学的重要分支之一。
它通过对生物多样性的研究,将物种按照一定的规则进行归类和命名,促进了人们对生物多样性的认识和理解。
基于系统发育分析的物种分类研究,是指通过对物种的遗传变异和演化历史进行分析,来重新构建物种分类系统的一种方法。
一、系统发育分析的原理系统发育分析的基本原理是:物种是基于演化关系分类的,每个物种都来源于一个共同的祖代。
通过比较不同物种的基因序列或形态特征,可以推断出它们之间的进化距离和关系。
具有较近进化关系的物种,其基因序列或形态特征的相似度也会较高。
因此,系统发育分析是一种通过遗传距离来重新分类物种的方法。
二、系统发育分析在物种分类中的应用系统发育分析在物种分类中的应用十分广泛。
它可以用来重新分类现有的物种,也可以用来发现新的物种。
例如,在众多的啄木鸟物种中,有一些物种的分类一直存在争议。
如果只依据形态特征进行分类,那么其分类的准确性会受到很大的挑战。
但是,通过对啄木鸟基因序列的分析,可以准确地重新分类这些物种。
此外,系统发育分析还可以用于发现新的物种。
通常情况下,新物种的发现需要依据形态特征和生态分布等多种因素进行综合判断。
但是,如果两个个体之间的遗传距离较远,那么可以将它们作为两个不同物种进行分类。
例如,在新西兰海域的深海中,有一种虾类的分类一直没有确定。
但是通过对虾类基因序列的分析,发现有两个不同的遗传分支,因此可以将它们分别归为两个不同的物种。
三、系统发育分析的优势与传统的物种分类方法相比,系统发育分析有以下优势:1. 高度准确性系统发育分析是一种基于遗传距离的分类方法,它可以准确地反映物种间的进化距离和关系。
因此,通过系统发育分析得到的分类结果,准确性往往比传统方法更高。
2. 可重复性强系统发育分析基于的是遗传距离,这种距离是可以被客观地测量和比较的。
因此,不同的实验室或研究者得到的分类结果也往往是可以复制和重现的。
3. 对不同类型物种适用性强系统发育分析不仅对哺乳动物、鸟类等较为复杂的物种适用,同时也可以用来分类昆虫、植物等不同类型的物种。
实习五:系统发育分析-PHYLIP,MEGA, MrBayes学号姓名专业年级实验时间提交报告时间实验目的:1. 学会使用PHYLIP,MEGA和MrBayes构建进化树2. 学会分析建树结果,体会各种方法差异实验内容:系统发育(phylogeny)也称系统发展,是与个体发育相对而言的,它是指某一个类群的形成和发展过程。
系统发育学的目的是研究进化关系,系统发育分析就是要推断或者评估这些进化关系。
通过系统发育分析所推断出来的进化关系一般用分枝图表(进化树)来描述,这个进化树就描述了同一谱系的进化关系,包括了分子进化(基因树)、物种进化以及分子进化和物种进化的综合。
多序列比对的目标是发现多条序列的共性。
本次实验旨在使用PHYLIP,MEGA和MrBayes构建进化树,并通过分析构树的结果,了解各方法的差异性。
作业:1. List the title of the orthologous nucleotide and protein sequences you found from Practice 1. Build phylogenetic trees with PHYLIP, MEGA and MrBayes respectively. Make a simple comparison the trees you have got, and try to explain the difference.核酸序列使用的是来自Trifolium repens(白车轴草)硬粒小麦(Triticum durum)Camellia sinensis(山茶)Cicer arietinum (鹰嘴豆)及Glycine max(大豆)dehydrin的编码脱水素(dehydrin)的DNA序列,这些物种将分别以TF,TC,Cam,Cic及Gly表示;首先对于PHYLIP中的关系,通过五种算法的构树结果可以发现其树形的差异不大。
如何利用生物大数据进行系统发育分析生物大数据的迅速积累和高精度的分析工具的发展,为生物学研究提供了前所未有的机会。
其中,生物大数据在系统发育分析方面的应用尤其引人关注。
系统发育学旨在揭示物种之间的进化关系,了解生命的起源、进化和分布等基本问题。
本文将介绍如何利用生物大数据进行系统发育分析,并探讨其在生物学研究中的潜在价值。
1. 数据收集与整理首先,要进行系统发育分析,需要收集和整理一定数量和质量的生物序列数据。
这些数据可以是DNA、RNA或蛋白质序列,可以通过公开数据库(如GenBank、NCBI等)获取。
为了确保数据的准确性,可以对获取的数据进行筛选和清理,去除低质量序列和存在缺失的数据。
2. 序列比对与建立进化树获取和整理好的生物序列数据,可以通过序列比对软件进行比对。
常用的序列比对软件包括BLAST、MAFFT、Clustal等。
通过比对,可以找到序列之间的相似性,为后续的进化树构建提供基础。
建立进化树是系统发育分析的核心步骤之一。
进化树揭示了物种之间的亲缘关系,可以指导物种分类和演化研究。
常用的建树方法有最大简约法、最大似然法和贝叶斯推演法等。
这些方法可以结合已知的物种分类信息和序列比对结果,构建出一棵合理的进化树。
3. 进化模型选择与分析在建立进化树之前,需要选择合适的进化模型。
进化模型描述了序列的进化过程,不同模型具有不同的复杂度和解释能力。
选择合适的进化模型可以提高分析结果的准确性。
常用的进化模型选择方法有AIC(赤池信息准则)、BIC(贝叶斯信息准则)和LRT(似然比检验)等。
这些方法通过对比不同模型的假设和数据拟合情况,选择最合适的模型进行进化分析。
4. 分子钟估计与进化速率分析在建立进化树的基础上,可以通过分子钟推断方法估计物种分化的时间。
这需要根据已知的地质事件等时间点,将进化树的分支长度与时间进行关联。
分子钟估计方法包括最小二乘法、贝叶斯方法等。
进化速率可以用来研究物种的演化速度和适应性。
系统发育树的构建与分析方法概述系统发育树是生物学中重要的研究工具,通过构建系统发育树可以探究生物之间的关系,研究进化过程和生物多样性。
本文将介绍系统发育树的构建和分析方法。
系统发育树的构建方法系统发育树的构建方法可以分为以下几种:1. 相似性分析法相似性分析法是最简单和常用的构建系统发育树的方法之一。
该方法通过比较不同物种的形态、行为、生理等特征的相似性,判断它们之间的亲缘关系。
这种方法的局限性在于很多特征可能出现多次独立进化,而不是从共同祖先继承的。
2. 分子序列分析法由于DNA或蛋白质序列的进化是按照分子钟模型进行的,因此分子序列分析成为当前构建系统发育树的最常用和最准确的方法之一。
该方法通过比较生物体DNA或蛋白质序列的差异,建立相似度矩阵,并在此基础上运用数学模型进行树的构建。
3. 基因组分析法基因组分析法通过直接比较不同生物体的基因组,从而确定它们之间的进化关系。
这种方法包括全基因组比较和重构古基因组。
4. 形态-分子组合分析法形态-分子组合分析法是将形态特征和分子特征结合起来分析生物之间的进化关系。
在这种方法中,形态特征通常用于解决分子序列存在误差的问题。
系统发育树的分析方法系统发育树的分析方法包括静态分析和动态分析两种。
静态分析静态分析是指对系统发育树形态和拓扑关系的分析,这种方法主要依靠人工分析和软件分析两种方式。
1. 人工分析法人工分析法主要是通过比较不同树之间的拓扑结构和相应的节点值,判断它们之间的相关性。
人工分析法需要手动绘制树,并用统计方法比较不同树之间的相似性。
2. 软件分析法软件分析法主要是应用多种专业软件进行计算和模拟,比如molecular evolution software suite (MEGA)、PAUP和PhyML等。
这种方法可以减少人力工作,提高分析准确性。
动态分析动态分析是指以时间序列为基础,考察系统发育树演化的过程和趋势。
这种方法主要依靠统计分析方法,如马尔科夫链蒙特卡罗(MCMC)、Bayesian标记链蒙特卡罗(MCMC)等。
分子系统发育分析的生物信息学方法一、概述分子系统发育分析的生物信息学方法,是生物信息学领域中的重要研究手段,其核心在于利用分子层面的数据揭示生物体之间的进化关系。
该方法主要通过对DNA或蛋白质的分子序列信息进行分析,计算序列间的相似性,从而估计基因分子进化的速率、基因间序列的分歧时间以及物种或基因在系统发育中的位置。
在分子系统发育分析中,生物信息学方法的应用不仅限于单条生物序列的进化信息提取,还涉及到多条生物序列之间的比对与关联分析。
通过比较不同物种间的基因序列,可以揭示它们之间的进化关系和亲缘关系。
生物信息学方法还可以利用数学模型和计算机程序,构建系统发育树,直观地展示物种之间的进化历程。
随着生物信息学技术的不断发展,分子系统发育分析的生物信息学方法也在不断更新和完善。
新的算法和工具不断涌现,使得我们能够更准确地分析生物序列数据,揭示生物进化的奥秘。
分子系统发育分析的生物信息学方法在生物学研究中具有广泛的应用前景和重要的实践价值。
本文将详细介绍分子系统发育分析的生物信息学方法,包括单条生物序列的进化信息提取、多条生物序列的比对与关联分析、系统发育树的构建等方面,并探讨这些方法在生物学研究中的应用和未来发展。
1. 分子系统发育学概述分子系统发育学,作为系统发育系统学的一个重要分支,致力于通过深入剖析生物大分子(如蛋白质、核酸等)的结构与功能,揭示生物各类群之间的谱系发生关系。
这一学科不仅涵盖了生物进化历程的宏观视角,更通过分子生物学技术和计算机技术的结合,深入到微观层面,从而为我们提供了生物演化的全新理解。
在分子系统发育学的研究中,基因或生物体的系统发育关系常常通过构建有根或无根的树状结构来展示。
这种树状结构不仅揭示了物种之间的亲缘关系,还为我们理解物种的进化历程和演化模式提供了关键线索。
通过多重序列比对,研究者可以分析一组相关基因或蛋白质,进而推断和评估不同基因间的进化关系,这包括分子进化(基因树)和物种进化(物种树)的研究。
系统发育树的构建与分析方法系统发育学是一门研究物种进化关系的学科,通过对不同物种的形态特征、生理生态特性、分子遗传信息等数据进行分析,可以得出它们在进化树中的位置。
而系统发育树则是用来表示各物种间进化历程和亲缘关系的图形表示。
它不仅可以揭示物种之间的起源和进化演化,而且可以对生物多样性的保护和利用产生重要影响。
本文将介绍系统发育树的构建和分析方法。
一、系统发育树的构建方法1. 形态学方法形态学方法是最早用于构建系统发育树的方法。
它是根据物种的形态特征进行比较研究,如昆虫的翅膀、花的形态、动物的身体部位等。
这种方法的优点是简单易行,但缺点是由于不同物种形态特征的相似性,并不能完全反映它们在进化树上的亲缘程度,有一定局限性。
2. 分子系统发育学方法随着分子生物学的发展,分子数据也开始被应用于系统发育树的构建。
这种方法通过对物种不同基因的序列进行修建的,如rRNA、DNA、蛋白质序列等来了解它们进化的历程和亲缘关系。
因为DNA和蛋白质在进化过程中往往较为保守,且具有一定统一性,因此这种方法比形态学方法更为精确,同时也能够构建更多样化的进化模型。
3. 固定标记法固定标记法是结合形态学和分子方法的一种新技术。
它利用生物体细胞核DNA中的高度变异的区域,如微卫星(Simple Sequence Repeats, SSR)等,通过引物特异性地扩增这些标记区域,将扩增产物的大小与数量(即大小因素和数量因素)组成一个确定的数字序列,用于构建系统发育树。
这种方法因能够同时反映形态和分子信息,且具有标记简单、修建渐进、多样性较高等优点,逐渐成为研究系统发育的新方法。
二、系统发育树的分析方法一旦构建了系统发育树,便需要进行分析以研究物种间的亲缘关系、进化历程等信息。
1. 树形态分析树形态分析包括节点分支的长度、角度、直线距离等进化遗传参数的分析。
通过对树形态的分析,可以更全面地了解不同物种亲缘关系的演化特点。
2. 分子位点分析分子位点分析是指对系统发育树上指定基因位点的序列进行分析,如进化速率、突变次数、转换和替换等信息。
新生儿系统发育特点
新生儿的系统发育特点主要包括以下几个方面:
1. 运动系统:新生儿在出生后的第一年,运动系统会迅速发育。
他们从一开始的抬头、翻身、坐立,到后来的爬行和站立,每个阶段都需要时间和练习。
此外,新生儿的手部和手指也相当灵活,能够抓握和玩耍一些小物体。
2. 消化系统:新生儿的消化系统在出生后的第一年也在迅速发育。
他们的胃容量会逐渐增加,肠道吸收能力会逐渐增强,能够消化母乳或配方奶等食物。
但是需要注意的是,新生儿的肠道微生物群尚未完全建立,需要特别注意饮食卫生和营养均衡。
3. 免疫系统:新生儿在出生后的第一年,免疫系统也在逐步发育。
虽然他们在出生后的前几个月容易感染一些疾病,但随着免疫系统的逐渐完善,他们的抵抗力会逐渐增强。
4. 神经系统:新生儿的神经系统在出生后的第一年也是快速发育的。
他们的大脑容量会逐渐增加,神经元之间的连接会更加复杂。
这使得新生儿能够更好地感知周围的环境和人,以及控制自己的动作和语言。
5. 情感和社会交往能力:新生儿在出生后的第一年也会逐渐发展出情感和社会交往能力。
他们开始对周围的人和环境产生兴趣,与父母进行眼神交流,以及通过声音和表情来表达自己的情感。
新生儿也能够通过模仿和学习来发展自己的语言和沟通能力。
需要注意的是,每个新生儿的发展速度可能会有所不同,有些孩
子可能会在某些方面比其他孩子更早熟或更晚熟。
但是总体来说,新生儿的系统发育特点主要表现在运动、消化、免疫、神经、情感和社会交往等方面。
家长需要给予孩子足够的关爱和关注,提供良好的成长环境和营养,促进孩子的全面发展。
分子进化学中的系统发育分析分子进化学是研究生物物种演化过程的学科,也是分子生物学和进化生物学的交叉领域。
它主要依靠分子生物学技术研究DNAs、RNAs、蛋白质等分子在物种演化过程中的变异和进化规律。
分子进化学的重要应用之一是系统发育分析,即利用分子标记刻画不同物种之间的亲缘关系。
系统发育分析可以为生物分类学、生态学、医学等领域提供重要的支持和参考。
一、分子标记在系统发育分析中的应用分子标记是在分子水平上进行物种识别和进化研究的重要工具。
常用的分子标记包括DNA序列、蛋白质序列、限制性酶切位点等。
其中,DNA序列和蛋白质序列由于其具有高度的可变性和易于测定的优点,被广泛应用于系统发育分析中。
DNA序列包括基因组DNA和线粒体DNA,它们分别对应不同的遗传特征和进化速率。
基因组DNA具有比较慢的进化速率,适合于较深层次的亲缘关系研究;而线粒体DNA则具有相对较快的进化速率,适合于较浅层次的亲缘关系研究。
二、系统发育分析的方法系统发育分析的基本方法是构建物种的演化树。
演化树是通过分析物种间的共同祖先和衍生特征等信息,画出演化历程中物种进化关系的图示。
常用的方法包括距离法、最大简约法、贝叶斯法等。
其中,最大简约法是目前最为常用的方法之一,其基本思想是寻找相对简单的演化树解释被分析序列的特征,从而推断物种间的演化关系。
贝叶斯法则利用统计模型和贝叶斯公式,计算出演化树的概率分布。
三、系统发育分析在分子生态学研究中的应用分子生态学是研究生态过程和生态系统中物种之间的相互作用和关系的学科。
系统发育分析可以为分子生态学研究提供重要的理论和方法支持。
例如,在研究微生物群落的物种演化关系时,可以利用16S rRNA序列作为分子标记,进行系统发育分析,研究不同微生物群落的分布和功能。
此外,利用系统发育分析还可以研究野生动植物种群的遗传多样性、遗传漂变和适应性等。
四、系统发育分析在医学研究中的应用系统发育分析在医学研究中也具有重要的应用价值。
使用生物大数据技术进行系统发育分析的技巧与步骤生物大数据技术的应用正日益成为现代生物学研究的重要手段之一。
其中,使用生物大数据技术进行系统发育分析是一种重要的方法,它能够帮助研究者解决物种间的亲缘关系、进化过程等问题。
本文将介绍使用生物大数据技术进行系统发育分析的技巧与步骤。
首先,进行系统发育分析的第一步是获取所需的生物大数据。
生物大数据可以从公共数据库(如GenBank、NCBI等)中获取,这些数据库中存储了海量的生物序列数据。
研究者可以根据研究对象的特点,选择合适的数据进行分析。
一般来说,选择包含物种的核酸序列(如DNA或RNA)或蛋白质序列会比较常见。
第二步是进行序列比对。
在获得了所需的序列数据后,研究者需要将这些序列进行比对,以便找到共有的保守区域和变异区域。
多序列比对可以使用一些常见的比对工具,如Clustal Omega、MAFFT等。
比对的结果会显示序列之间的同源性,从而为下一步的分析提供基础。
第三步是进行系统发育树的构建。
根据序列比对的结果,研究者可以利用构建系统发育树的方法来推断不同物种之间的亲缘关系。
常见的树构建方法包括距离法、最大简约法和最大似然法等。
距离法以序列之间的相似性距离为基础来构建树,最大简约法基于共有的变异位点来构建树,最大似然法则基于进化模型来构建树。
在选择树构建方法时,研究者需要考虑到数据的质量、物种的数量以及计算资源的限制等因素。
第四步是进行系统发育树的评估与解读。
构建了系统发育树后,研究者需要对树的拓扑结构进行评估,以确定树的可靠性和稳定性。
常见的评估方法包括支持值计算、Bootstrap分析等。
支持值(Support)表示在多次重抽样中,相同分类群出现在同一个分支上的频率。
Bootstrap分析则通过重新随机抽取有放回地获得多个数据子集,并重新构建树的过程来评估树的稳定性。
解读系统发育树时,研究者可以根据树的拓扑结构和分支长度等特征,推断物种间的进化关系、分类学关系等信息。
系统发育学分析在物种分类学中的应用系统发育学是生物学中重要的分支学科,研究生物种类间的亲缘关系,揭示生物进化的规律。
在物种分类学中,系统发育学分析成为判断生物分类关系的主要方法之一。
本文将探讨系统发育学分析在物种分类学中的应用。
一、系统发育学的基本概念系统发育学研究生物的亲缘关系,建立生物分类系统。
在建立一个生物分类系统中,最基本的基础是要建立一个“根树”。
根树是一个有方向的树形图:我们将它称为 cladogram。
根树通常从根的位置开始,生长至树枝端。
它的树枝代表进化历程中的分化或变异,而节点代表共有祖先。
当我们构建一个根树时,我们可以使用距离矩阵方法、最大似然估计、贝叶斯推理或最小进化原理等方法。
这些方法都可以用来确定不同物种间的亲缘关系,以及它们之间的共同祖先。
二、系统发育学在物种分类学中的应用在生物学研究中,发现两种生物间的相似点和差异点可以提供诸多信息,以便根据生物体系学知识将它们组合在一起。
物种之间的共同点和差异点可以将它们划分成一组,同时与其它物种区分开来,这正是物种分类学的初衷。
系统发育学的主要目的是研究或构建一条根树,以便评估物种间的亲缘关系。
而在系统发育树中,不同的节点(即内部分支点和叶节点)代表不同的物种或群体。
通过比较基因序列、形态形状等特征,我们可以确定不同物种间的差异,为构建根树提供基础依据。
基于系统发育学的分析,我们可以揭示不同物种之间的亲缘关系,以及它们在演化树上的位置。
这使我们更好地理解物种进化的路径,并能提供有用的信息,以便为生态学、生物学和医学等领域的研究提供基础知识和理解。
三、系统发育学在分类法中的应用密码子偏好、剪切点位置、序列长度和其中的Ohno定律等贡献加强了通常用于构建演化树的系统发育学中的配对分析。
在构建系统发育树之前,也常常需要进行多个序列比较的配对分析。
这种分析可以为每一个物种编码,以便在演化树上排列它们的位置。
在演化树的构建过程中,我们需要确定叶节点的长度、内部分支节点的长度和共同祖先节点的长度。
phylosuite使用介绍PhyloSuite是一个用于分析系统发育的软件套件,可以在Windows、Linux和Mac OS X 平台上使用,并且支持各种分析方法和文件格式,包括序列比对、物种树、基因树的推断和可视化等功能。
以下是PhyloSuite使用的详细介绍。
1. 下载和安装PhyloSuitePhyloSuite是一个免费的软件,可以从其官方网站下载。
下载完成后,将PhyloSuite 解压缩并打开PhyloSuite的主界面,就可以开始使用PhyloSuite进行系统发育的分析了。
2. 总体流程使用PhyloSuite进行系统发育分析的流程大致分为以下五个步骤,具体如下:(1) 准备数据。
将需要分析的序列数据导入到PhyloSuite中,并将其按照要求进行格式转换和校准等操作。
(2) 序列比对。
使用PhyloSuite内置的多种比对工具进行数据的全局比对、局部比对和进化模型选择等操作,以得到高质量的序列比对结果。
(3) 系统发育分析。
在序列比对的基础上,使用PhyloSuite内置的多种方法推断物种树或基因树,并进行支持率计算和进化树的可视化等操作,以得到最终的系统发育信息。
(4) 结果评估。
对系统发育分析的结果进行统计分析、可视化评估和相关统计检验等操作,以确认分析的准确性和稳定性。
(5) 结果呈现和再利用。
将系统发育分析的结果导出并保存为文本或图片格式,以便用于科学研究、学术会议和出版文章等应用场景。
3. 具体操作在使用PhyloSuite进行系统发育分析时,需要了解各个功能模块的具体操作方法,以下是PhyloSuite中几个核心模块的简要介绍。
(2) Alignment模块。
该模块提供了多种序列比对工具,包括MAFFT, RAxML, MUSCLE 等,并提供多种比对质量评价和修改工具,以得到高质量的序列比对结果。
(3) Phylogeny模块。
此模块支持多种系统发育分析方法和工具,包括Maximum Likelihood, Bayesian Inference, Distance-based等,其可视化输出还包括多种图形化展示方式,以便于直观理解分析结果。
实习四: 系统发育分析-PHYLIP, MEGA, MrBayes实习目的1. 学会使用PHYLIP,MEGA和MrBayes构建进化树2. 学会分析建树结果,体会各种方法差异实习内容:一、PHYLIPPHYLIP网址: /PHYLIP.htmlPHYLIP是一个免费的系统发育树构建软件,它的功能比较全面,可用距离法、最大简约法和最大似然法分别进行建树,还可以对进化树可靠性进行检验。
PHYLIP没有多序列比对功能,所以先要用其它序列比对软件完成序列比对,并保存为phy格式后,才可提交给PHYLIP 进行分析。
1.1 比对序列的准备1.将教学材料里demo sequence.zip文件解压到D盘根目录下,分别用其中的mRNA和protein序列学习进化树构建。
首先我们用实习2学过的多序列比对软件对序列进行比对。
这里以CLUSTAX为例来说明。
强烈建议:将你的所有同源核酸(或蛋白质)序列存到一个文本文档里,将”>”之后那行只保留物种名称,或物种名称_蛋白(或基因)名称,方便后面分析比较。
2.用CLUSTALX进行多条序列比对,在Alignment - output format option选中PHYLIP 格式,对序列进行比对(Alignment - Do complete alignment)。
将生成的phy文件保存,此文件可以用写字板打开浏览,里面内容是多条序列比对结果。
(Figure 1.1)Figure 1.1 用clustalx进行多条序列比对及生成的phy文件3.双击解压PHYLIP-3.69.zip文件,得到三个文件夹,其中doc文件夹里是关于所有PHYLIP 子程序的使用说明,exe文件夹里是直接可以使用的可执行程序,src文件夹里是所有程序的源代码。
4.打开PHYLIP的exe文件夹,将上步保存的phy文件复制到exe文件夹中。
5.上课时我们是先将序列用某种方法建树后,然后做bootstrap检验,看树的可靠性。
但一般情况下用你的序列直接构建出来的树与伪样本建出来的一致树(consensus tree)是非常相似的,所以这里我们先做bootstrap,直接用伪样本建树。
6.双击SEQBOOT子程序(SEQBOOT是一个利用bootstrap方法产生伪样本的程序),所有PHYLIP子程序默认的输入文件名为infile, 输出文件名为outfile。
如果在exe 文件夹里找不到默认的输入文件,会提示can’t find input file “infile”。
输入刚刚生成的phy文件名,点击回车。
(Tip: 如果你的phy文件不在exe文件夹中,需要输入phy文件的完整路径;或者你也可以直接把phy文件拖到这个程序窗口里来。
)Figure 1.2 seqboot程序起始界面7.进入程序参数选择页面(Figure 1.3)。
第一列中的D、J、%、B、R、W、C、S等代表可选的参数。
想改变哪个参数,就键入此参数对应的字母,并点击回车键,对应参数将会发生改变。
当我们设置好所有参数后,(这里我们可以不做任何修改),键入Y表示接受所有参数,按回车。
此时程序询问“random number seed? <must be odd>”,这是询问随机抽列产生伪样本时,生成随机数的种子是多少,输入一个(4N+1)的数即可(如5,9,13等),点击回车程序开始运行,输出结果到文件outfile,保存在当前exe文件夹里。
.Figure 1.3 seqboot程序参数选择页面主要参数解释:D:数据类型,有Molecular sequence(分子序列)、discrete morphology(离散表型)、restriction sites(限制酶切位点)和gene frequencies (基因频率)4个选项。
J:伪样本产生方法,有Bootstrap, Jackknife(打乱一半位点), Permute(打乱每个位点的物种次序)和rewrite(将phy文件转变为其它格式)4个选项。
B:自举法窗口大小选择,默认为1,也可任意设定。
R:产生伪样本的数目,默认100个。
W:输入文件为字符还是权重,我们是比对结果,所以是字符。
S:输出文件为字符数据还是权重,与输入要保持一致。
I:phy文件格式是顺序的(sequential)还是分块的(interleaved)。
Tip: 如果用MUSCLE进行多序列比对,在命令中加入参数 –phyl,(example: muscle –in mrna.txt –out mrna.out –phyl) 即可生成phy格式的比对结果。
在用SEQBOOT读入序列时,将I参数改为No,即可读入结果,进行伪样本的构建。
后面用到其它程序分析的时候,都要将I参数改为No。
Figure 1.4 seqboot程序运行过程页面程序默认产生100个伪样本,点击回车关闭seqboot程序后,将outfile更名为seqb, 用写字板打开seqb,可以看到里面是100套多条序列比对结果。
(Figure 1.5) 注意:实习指导里每一步都将outfile和outtree的重命名,重命名的文件名是为了方便各位识别哪个文件由哪个程序产生,不是必须这样命名,你完全可以按照你的习惯进行重命名。
Figure 1.5 seqboot运行后输出文件内容1.2 最大简约法建树(Maximum Parsimony)PHYLIP中对核酸序列进行最大简约法建树的程序有两个,DNAPARS和DNAPENNY,其中DNAPARS在搜索最优树时采用的是启发式算法,而DNAPENNY是完全算法,所以前者不能保证得到最优树,而后者可以,但后者运行所需时间也相应要长。
我们这里介绍如何用DNAPARS建树。
1. 打开DNAPARS(PROTPARS如果序列是蛋白质),将刚才生成的seqb文件名输入。
(Figure 1.6)如果上一步输出的outfile文件你忘了更名,将会有警告,询问你如何处理已存在的outfile,是用新生成的文件替换掉R,还是在原文件后面续写A,或结果输出到另一个文件F或退出程序Q。
所以一定记得重命名每步新生成的outfile和outtree。
Figure 1.6 DNAPARS程序起始页面2.因为我们前面用seqboot生成了100个伪样本,所以要改M参数为分析多个数据 (multiple data sets,Figure 1.7),输入M回车,程序会提问是分析多个数据还是多个权重?输入D(数据),程序提问有多少个数据要分析?输入你在SEQBOOT里生成的replicate的数目100。
程序会再要求输入一个随机数种子(random number seed),作为打乱输入序列次序的随机数种子,同样给一个4N+1的数,然后输入打乱序列次序的次数,一般10次就可以了。
打乱输入序列的次序,是为了得到不受输入序列次序影响,更可靠的系统发育树,每打乱一次,建树就要多花1倍的时间。
Figure 1.7 DNAPARS程序参数选择页面主要参数解释:U:是否自动寻找自佳树,还是利用使用者所提供的树S:寻找最佳树的搜寻方式,more thorough(运行时间较长)或 less thorough(运行时间较短)V:保存多少个树 number of trees to save (当最优树不止一个的时候)J:是否更改输入序列的次序,由于输入序列的次序有时会影响分析结果,可以打乱输入序列次序以得到更可靠的结果。
如果选是,会要求输入一个4N+1的数做种子,然后询问打乱次数,一般打乱10次以上会提高结果的可靠性。
O:外群位置,默认不设外群,可以更改为任意一条序列。
T:每个位点进化步骤(替换次数)是否要设定阈值,如果设置了阈值,当实际进化步骤大于阈值时,忽略多出部分。
目的是平衡各位点对于建树结果的影响。
N:转换和颠换是否全部计算在内。
W:位点之间是否权重不同M:是否分析多个数据。
由于我们第一步seqboot产生了100个伪样本,每一步都要更改这个参数。
参数0-4都是关于显示方面的选择。
5:是否推断节点(node)上的祖先序列。
6:是否将建好的树写入树文件。
点击回车键,程序运行。
将生成两个文件outfile和outtree,将outfile更名为mpfile,将outtree更名为mptree。
用写字板打开mpfile(Figure 1.8),用TREEVIEW打开mptree(Figure 1.9)后,可以看到这两个文件都含有100个进化树。
Figure1.9显示共有101棵树,这是因为有时会生成不止1个最大简约树。
Figure 1.8 outfile(更名为mpfile)用写字板打开Figure 1.9 outtree(更名为mptree)用treeview打开3.打开CONSENSE(将多个伪样本建成的进化树,根据majority原则,得出一致树)软件,将刚才生成的mptree文件输入。
生成两个文件outfile和outtree。
Outfile 可用记事本打开,outtree可用TREEVIEW打开,两个文件是最后得到的一致树。
将两个文件更名为cmpfile和cmptree。
至此我们采用MP方法,并使用bootstrap检验,得到了最优树。
Figure 1.10 CONSENSE软件界面参数C是选择构建一致树的方法,Strict consensus只将在所有树中完全相同的部分显示在一致树中;MR, MRe and M1 产生的都是根据多数原则产生一致树。
默认的MRe方法将在50%以上自举树中出现的分枝列入一致树;M1允许使用者指定一致性百分阈值。
参数O是询问是否设定外群,和将哪条序列定为外群,默认是不设定的。
参数R是选择输出有根树还是无根树,默认为无根树。
用写字板打开cmpfile,(Figure 1.11)首先给出了输入序列的次序,注意,这里zebrafish 是第一条序列。
接下来是一致树上采用了的branch pattern的总结。
左边一列是branch pattern图示,用 dot(.)和 star(*)表示,dot (.) 代表这个物种不出现在这枝上,*代表这个物种出现在这枝上。
. 和 * 出现的次序就是上面的物种次序,第一行前2个物种是.,中间两个是*,后面3个是.,意思是说物种3(rat)和4(mouse)聚为一枝。
右边这列是这种branch pattern的支持率,第一行支持率为100%,说明101棵自举树都把物种3和4聚为一枝。
特别要注意的是,PHYLIP在不设外群的时候,总是把第一个物种,这里是zebrafish,放在最外层,也就是右边一致树最下面那枝,这并不是说这个物种离其它物种最远,只是这个软件的设置。