第四部分 分子系统学
- 格式:doc
- 大小:30.50 KB
- 文档页数:4
分⼦进化和分⼦系统学(转载)分⼦进化和分⼦系统学12.1 概念 分⼦进化⼀词有两层含义。
从⽣命历史看,在前⽣命的化学进化阶段(细胞⽣命出现之前),进化主要表现在分⼦层次上,即表现在⽣物分⼦的起源和进化上。
换⾔之,从时序上说,分⼦进化是⽣物进化的初始阶段。
但从另⼀⾓度来看,在细胞⽣命出现之后,进化发⽣在⽣物分⼦、细胞、组织、器官、⽣物个体、种群等各个组织层次上,分⼦进化是⽣物分⼦层次上的进化。
换⾔之,从组织层次上说,分⼦进化是⽣物组织的基础层次的进化。
我们通常所说的分⼦进化就是指后者。
前者通常被称为前⽣命的化学(分⼦)进化。
⼀般⽽⾔,对⾃然现象的认识过程是从⼈类感官所及的层次开始,逐步向微观和宏观两个⽅向扩展。
向微观领域的探索往往出于寻找“深层原因”的动机。
对进化原因和进化机制的探索,最终必然深⼊到分⼦层次。
向宏观领域探索则是相反的过程,即⽤已知的低组织层次的知识去认识和解释⾼组织层次现象。
如今,科学家们发现,不同层次的现象遵循不同的规律和不同的法则。
低层次的规律并不完全适⽤于⾼层次,⽤⾼层次的规律解释低层次现象也往往⾏不通。
因此,本章讨论的分⼦进化规律和分⼦进化的理论基本上只适⽤于分⼦进化。
12.2 ⽣物⼤分⼦进化的特点 在⽣物⼤分⼦的层次上来观察进化改变时,我们看到的是⼀个很不同于表型进化的过程。
根据分⼦进化研究的权威之⼀⽊村(Kimura,1989)的总结,分⼦进化有两个显著特点,即进化速率相对恒定和进化的保守性。
1.⽣物⼤分⼦进化速率相对恒定 如果以核酸和蛋⽩质的⼀级结构的改变,即分⼦序列中的核苷酸或氨基酸的替换数作为进化改变量的测度,进化时间以年为单位,那么⽣物⼤分⼦随时间的改变(即分⼦进化速率)就像“物理学的振荡现象”⼀样,⼏乎是恒定的。
通过⽐较不同物种同类(同源的)⼤分⼦的⼀级结构,可以计算出该类分⼦的进化速率。
对于某类蛋⽩质分⼦或某个基因(或核酸序列)来说,其分⼦进化速率可表⽰为氨基酸或核苷酸的每个位点每年的替换数,即 上式中的K是分⼦进化速率(每个氨基酸位点每年的替换数);d是氨基酸或核苷酸替换数⽬;N是⼤分⼦结构单元(氨基酸或核苷酸)总数; t是所⽐较的⼤分⼦发⽣分异的时间, 2t代表进化时间,进化经历的时间是分异时间的2倍。
分子系统学分子系统学是指通过对生物大分子(蛋白质、核酸等)的结构、功能等的进化研究,来阐明生物各类群(包括已绝灭的生物类群)间的谱系发生关系.相对于经典的形态系统分类研究,由于生物大分子本身就是遗传信息的载体,含有庞大的信息量,且趋同效应弱,因而其结论更具可比性和客观性.尤为重要的是,一些缺乏形态性状的生物类群(如微生物和某些低等动、植物)中,它几乎成为探讨其系统演化关系的唯一手段.由于分子系统学的上述特点,自其诞生之日起,就逐渐在各种生物类群的系统发生研究中得到了广泛的应用.总的说来,迄今分子系统学的研究所获得的生物类群间亲缘关系的结果,大多都和经典的形态系统树相吻合.但是,在一些生物进化谱系不明或模糊关键环节上,它得出的结果却往往和形态系统学的推测大相径庭.1研究步骤分子系统学研究的主要方法是根据分子生物学数据构建生物类群的谱系发生树.它一般包括以下程序:1.首先确定所要分析的生物类群,选择该类群中相关亚类群的一些代表种类;确定所要分析的目的生物大分子(包括DNA序列、蛋白质序列等)或它们的组合;2.设法获得它们的序列数据或其它相关数据(如限制性内切酶(I LP)、随机扩增多态DNA( )、DNA序列等),DNA序列的数据可以通过GenBank获得,也可以通过实验室的研究(设计特异引物进行PCR扩增和序列测定)而获得;3.对获得的相关数据进行比对(pairwisealignment)或其它的数学处理,如转变成遗传距离数据矩阵;通过一些遗传分析软件(常用的计算机软件如:PHYLIP J、PAI J、MEGA[J 等)对这些处理后的数据,并基于一定的反映DNA序列进化规律的数学模型构建分子系统树;4对构建的系统树做相应的数学统计分析以检验系统树的可靠性等.值得注意的是,在分析具体的研究对象时,上述各个环节是紧密联系的一个整体,要获得一个正确的结论,必须综合考虑每一环节之间的内在联系.比如目的基因的选择、数据处理和分析的分类群之间、构树方法和分析软件的选择之间都有密切的联系.2涉及议题基因树和物种树分子系统学的目的就是通过基因树来推测物种树.基因树是根据生物大分子的序列数据(主要为DNA序列数据)构建的谱系树,物种树则是反映物种实际种系发生的谱系树.人们期待着得到的基因树和物种树相一致,然而实际情况往往并非如此.Nei(1987)描绘了二种谱系树之间所有可能的关系,认为二种谱系树之间至少存在二个方面的差异:一是基因树的分化时间早于物种树,二是基因树的拓扑结构可能与物种树不一致(二个或多个基因树之间存在着差异)如何将由多个基因或基因组建立的基因树综合成一个物种树,是分子系统学面临的一个主要难题.Maddison(1997)认为:基因重复所导致的并源而非直源关系的产生,不同生物类群问基因的水平转移,系统演化分歧事件发生后产生的分子性状的多型性引起的谱系选择等生物学因素是造成二者不一致的主要原因.相应地,分子系统学研究中一定要选择直源基因而非并源基因,选择水平转移事件较少的树,采用基于大量独立进化的基因位点进行分析等等,都不失为一种行之有效的方法,更有利于获得一个可靠的树.分类群的选择分子系统学研究中如何选择所研究的对象——内类群的选择是一个非常值得注意的问题.内类群选择(内类群的数目及选择依据等)的科学性与否直接影响到所得结论的可靠性.关于内类群的数目,目前大多数分子系统学家认为,当所分析的序列长度一定时,尽量选择较多的分类群有助于获得更准确的结论,而内类群选择的依据主要体现在:(1)结合古生物学,形态学等各方面证据,尽量保证所选择的分类群确为一个单系发生的类群;(2)分类群的选择并非是随机的,尽量使其在所研究的生物类群中具有代表性;(3)在某些因具有明显长枝效应(或短枝效应)而导致的系统关系不确定的分支间增加分类群有助于减弱或消除这种效应.另外,在构建分子系统树中,同样需要选择外类群以确定系统发生树的基部位置,从而确定进化的方向.外类群的选择可以是单个(单一外类群),也可以是多个(复合外类群).在所研究的内类群数目不多且二者之间的极性关系十分确定的情况下,单个外类群足以说明问题.而在较为复杂的分析中,通常选择复合外类群以保证所得结论的可靠性[11].随机选择的外类群,极有可能因为亲缘关系较远,导致所得结果的不确定性增大.因此,在选择外类群时,必须结合其它分类学上的证据,或者在做详细的系统发育研究之前,首先对所研究的内、外群的关系进行初步探讨,以便于选择较为理想的外类群.最理想的外类群应该是该内群的姐妹群,因为二者间拥有较多的共近裔性状.目的基因的选择分子系统学研究中目的基因的选择也是一个至关重要的问题.一般来说,要根据所研究的具体分类群选择适宜的基因:在高级分类阶元(科级以上)间的系统发生分析中,选择一些在进化中较为保守的基因或基因片段(如核编码的蛋白质(酶)基因、核糖体基因(18S rRNA基因、28S rRNA基因)等);在较低级的分类阶元间,可以选择进化速率较快的基因或基因片断(如某些核编码基因的内含子或转录间隔区(ITS)以及一些细胞器基因(线粒体基因和叶绿体基因)等).当然,每一个具体的研究对象,可以选择的基因数目可以是多个的,至于哪些是最有效的,这通常要依据具体情况做比较分析后才能得出结论.条件允许的话,可以作多基因或多基因组合分析后寻求一致树来加以解决.有时针对某些涉及到多种层次分类阶元的复杂分类群时,还可以采取组合分析的方法:即推断位于系统树基部的深层次的谱系发生时,运用较保守的基因作为目的基因;推断位于系统树中段的谱系发生时,采用进化速率较为适中的基因;在系统树顶端的终端分类单元时,采用进化速率较快的基因.这样可以在不同阶层的演化关系中都获得可信的结果.基因序列数据的比对选择了适宜的目的基因并通过基因的扩增(PCR技术)和序列测定后,就获得了各个目标生物类群的DNA序列数据,对所获得的同源DNA序列进行比对是分析中的关键环节.所谓比对是指通过插入间隔(gaps)的方法,使不同长度的序列对齐达到长度一致,并确保序列中的同源位点都排列在同一位置.其中间隔的处理对后续的系统学分析有明显的影响.序列比对目前通常基于以下二种原理:点标(dot plot)法和记分距阵(scoring ma仃ix)法.基因树的构建方法目前,构建基因树的方法很多,常用的主要有二大类:距离法(distancemethod):是将序列数据转变成数据(遗传距离)矩阵,然后通过此数据矩阵构建系统树、具体性状法(dis—cretecharacter method):直接分析序列上每个核苷酸位点所提供的信息构建系统树,它又包括最大简约法(MP)和最大似然法以及由ML法延伸的贝叶斯法(Bayesianmetl-,od).距离法该方法基于这样一种假设,即只要获得一组同源序列间的进化距离(遗传距离),那么就可以重建这些序列的进化历史.距离法中以邻接法(NJ)最为常用.邻接法是由Saitou和Nei(1987)提出,其原理是逐步寻找新的近邻种类(序列),使最终生成的分子树的遗传距离总长度为最小.该法虽并不检验所有可能的拓扑结构,但在每阶段诸物种(序列)聚合时都要应用最小进化原理,故而被认为是ME的一种简化方法.最大简约法该方法源于形态学的分支系统学研究,而最早被Fitch(1971)用于核苷酸数据研究.它是一种最优化标准,遵循“奥卡姆剃刀(Ockharn’S razor)原理,即假设由一祖先位点替换为另一位点时,发生的替换数目最少的事件为最可能发生的事件.在实际应用中,由于MP法只考虑所谓的“信息位点”,所得的进化树是最短的、也是变化最少的进化树.因而,简约法的“最小核苷酸替换数目”原则也意味着“异源同型事件(homoplastic event)(即平行替换、趋同替换、同时替换和回复突变等)最少.最大似然法该法最早由Felsenstein(1981)提出,其原理是以一个特定的替代模型分析一组既定的序列数据,使获得的每一个拓扑结构的似然率均为最大,再挑出似然率值最大的拓扑结构作为最终树这里所分析的参数是每个拓扑结构的枝长,并对似然率的最大值来估算枝长.迄今的研究表明,在分类群数目较大、序列长度较长的复杂分析中,ML法的分析结果优于其它任何方法。
第四部分分子生物学在系统学中的运用分子系统学(molecular systematics)是检测、描述并解释生物在分子水平的多样性及其演化规律的学科,是一门综合性很强的交叉学科。
其理论基础来源于系统学、分类学、遗传学、比较生物化学、分子生物学和进化论,其方法来源于免疫学、仪器分析、生物化学和分子生物学。
它是随着PCR技术、限制性内切酶等现代生物学技术的诞生及其在系统学中的应用和发展而形成的,经过几十年的发展,分子系统学逐渐形成了自身的原理和分析方法。
实验1 实验数据的获取进入NCBI主页(/)后,在Search框中选择nucleotide,在For后输入Grylloidea complete mitochondrion,即蟋蟀总科全线粒体后,点击Go即可搜索出符合条件的序列。
在搜索结果中浏览已经测序的蟋蟀总科全线粒体基因组,发现该总科已经被测序的有5种。
点开每一种的序列号,即可得到全线粒体基因序列及相关信息。
本研究所选择的5种蟋蟀总科及外群全线粒体基因序列数据的分类地位及来源见表2-1。
所用线粒体基因组主要来自于截止2012年3月为止GeneBank中收录的所用蟋蟀总科昆虫。
以NCBI中收录的东方蝼蛄(Gryllotalpa orietalis)和斑蝼蛄(Gryllotalpa pluvialis)作为外群。
实验2实验数据处理和分析所下载的5种昆虫的全线粒体基因序列所编码的基因完全相同,均为ATP6,ATP8,COX1,COX2,COX3,CYTb,ND1,ND2,ND3,ND4L,ND4,ND5,ND6基因。
将表2-1中所列的线粒体基因组编码的13个蛋白编码基因以及其联合数据分别作为一个独立的Fasta格式文件。
用ClustalX1.83进行多重序列比对,参数设置均设置默认。
将比对好的13种蛋白编码基因及联合数据集分别建成14个数据集。
(1) 序列组成分析经ClustalX 1.83软件比对后的序列为aln格式,在MEGA中打开并转化为meg格式,在使用MEGA 4.1软件进行比对结果的分析。
计算各个种之间的遗传距离(及其标准差),各数据组碱基的组成(nucleotide composition)、保守位点(conserved sites)、变异位点(variable sites)、简约信息位点(parsimony information sites)、自裔位点(singleton sites)、两两碱基频率(nucleotide pair frequency)、转换与颠换的比值R(Ts/Tv)等。
并进行碱基组成偏向性分析和碱基替换饱和性分析等。
所有进化模型均假设各支系的碱基组成处于平衡状态,所以在数据分析之前,需要对数据组的碱基组成偏向性(base composition bias)进行检验。
(2) 数据组系统发育信号检测如果转换颠换比的值小于2.0此基因序列的突变已达到饱和状态,可能会发生多重替换,受进化噪音影响的可能性较大,给系统发育分析带来困难,因此要对各数据集进行碱基替换饱和分析。
实验3 系统发育分析软件分子生物之形质资料与一般传统形态形质资料之性质不同,故在计算生物间的相似度的方法或系数种类亦不同,特别需考虑sequence alignment的问题,而并非单纯或直接去比对各形质之异同。
1. ClustalX2.0:用来对核酸与蛋白序列进行多序列比较(multiple sequence alignment)的软件。
多序列比较在分子生物学中是一个基本方法,用来发现特征序列,进行蛋白分类,证明序列间的同源性,帮助预测新序列二级结构与三级结构,确定PCR引物,以及在分子进化分析方面均有很大帮助。
2. PHYLIP(Ver.3.68):Phylogeny Inference Package,内含三十余种独立程序可分析各种类型之资料及选用不同的分析方法。
它可以分析DNA与蛋白序列,限制位点等,并可绘制进化树。
程序含有许多选项可以精确控制与分析。
3. TreeView 1.6.6:TreeView是用来生成与打印进化树的软件它可以读取NEXUS与PHYLIP生成的进化树格式文件,生成进化树,并输出到打印机。
4. PAUP 4.0b(Win):PAUP是由Swofford所编写的利用简约分析进行系统发育分析(phylogenetic analysis using parsimony)的软件包,目前亦有多个版本。
该软件包中提供了简约分析用的多种模型,其中包括了Wangner、Fitch、Doll、Camin-Sokal等,对系统发育分析结果亦可进行一些统计分析及自举检验。
PAUP具有IBM-PC和Macintosh两种文本供选择。
5. MEGA 4.1:分子进化遗传分析MEGA(molecular evolutionary genetics analysis)是由Kumar等(1993)所编写的分子进化遗传分析的软件包。
在版本4.1中,它能对DNA、mRNA、氨基酸序列及遗传距离进行系统发育分析。
在建树方法上,提供了目前最常用的UPGMA、邻近法及最大简约法,对所获得数亦可进行自举检验及标准误估计可靠性检验。
6. MrBayes (Version 3.1.2):MrBayes软件可进行贝叶斯系统发育推论分析,其网址为http://morphbank.ebc.uu.se/mrbayes,目前可以免费下载。
该软件以NEXUS格式输入数据,但如果数据为隔行,则必须加入interleave=yes。
数据可以是核酸或氨基酸序列,也可以是限制性位点或以0、1表示的形态数据。
可以通过批处理或逐步执行的程序。
MrBayes软件可以通过不同的方法汇总模型参数的后置分布,包括系统树布局和分支长度,该软件还可以推导祖征和位点速率。
实验4 系统发育树构建1 距离矩阵法(distance-matrix methods)距离法矩阵是指以距离系数矩阵为基础的各种系统发育分析方法。
这类方法首先要求原始数据以成对分类单元之间的距离形式表示,对于性状数据编码后要转换成距离数据。
当距离关系满足超度量特性时,可以直接应用聚类分析方法构建超度量树,否则就要用叠加树法。
这类方法的优点是算法较性状数据分析方法简单直观,对进化过程没有其它更多的假设,故系统分析的结果具有稳定性。
基于距离构建系统树的方法很多,其中被证明能有效用于实际数据分析的方法有算数平均的不加权的组队法(UPGMA)、最小进化法(ME)和邻接法(NJ)。
2 简约性方法(parsimony methods)简约性方法源于形态性状研究,该方法的理论基础是ockham的哲学原理,即解释一个过程的最好的理论是所需假设数目最少的那一个。
如果对系统发育推断所需要知道的进化愈少,结果就愈可信。
与其他方法比较,简约法依靠较少或简单的进化假设,可以直接利用原始数据,不需要将原始数据转换成距离数据,可以避免信息丢失,而且大多数简约法的计算机算法及程序比其它方法更成熟。
该方法既可以用于核昔酸数据,也可以用于氨基酸数据。
简约性方法中最常用的为MP法(maximum parsimony,最简约法)。
简约法是一种不依赖任何进化模型的方法,能快速地分析出大量序列之间的系统发生关系,所构建的树中的短分支更接近真实,但简约树的树长值完全决定于所有重建祖先序列中的最小突变数,而突变是否按照事先约定的核昔酸最少替代的途径进行是不得而知的,单一的突变图谱可能会得出似是而非的结论。
再者,所有分支的突变数不可能相同,由于没有考虑核昔酸的突变过程,使得长分支末端的序列由于趋同进化而显示较高的相似性。
趋同现象违背了简约法则,导致的结果是对“长支吸引”的敏感。
因此,当序列单位位点上核昔酸替代数相对较大时,则极可能得出错误拓扑结构的树。
3 最大似然法(maximum likelihood method,ML法)最大似然法是应用统计推断构建系统发育关系的典型方法。
其原理是,只要建立一个关于进化过程的模型和一组观测数据就可以进行统计推测,一棵树(T)的似然性(L)是产生该树的观测数据(D)与进化模型(M)的概率。
在给定D和H的条件下,不同分枝形式和分枝长度的树有不同的似然性数值,极似然法的标准是选择具有最大似然值的树。
其分析的核心在于替代模型,目前根据碱基频率的相等或不等、转换和颠换速率的相等或不等、位点间替换速率异质性的有无以及不变位点比例的高低等特征提出的替代模型很多,仅在Modeltest软件中实际使的就达到56种,模型的正确选择也就成为极似然法的关键所在。
似然法似乎是几种常用方法中最为接近序列实际进化的方法,它考虑了所有可能的突变路径,能完全利用数据的系统发生信息。
然而,极似然法构建的系统树在很大程度上依赖于对核昔酸替代模型的选择。
似然法运算强度极大,对于分类单元较多时十分费时,这也是似然法应用的最大障碍。
而且似然法并没有评估拓扑结构的优劣,而是假定分支长度估计最精确的拓扑结构为最优树。
实际上,系统发生所关心的是树的拓扑结构,分支长度反而成为干扰参数,忽略分支长度似乎更合理些。
4 贝叶斯推论法(Bayesianinference)贝叶斯推论法是建立在后验概率(posterior probablity)基础上的,有关类群历史的推断是根据树的后验概率进行的,具有最高后验概率值的树的分支格局就可以作为有关类群系统发育关系的最佳估计。
一系列数值方法可以用于近似的获得后验概率,其中最有用的是Markov链Monte Carlo。
算法,其基本思想是建立Markov链,以替代模型参数作为状态空间,其静态分布就是参数的后验概率分布,通过计算机模拟和抽样技术获得分支格局的后验概率。
贝叶斯推论的优点在于能够以很高的计算速度处理大型数据集,同时提供了衡量树可信性的有效参数一后验概率。
贝叶斯法和极似然法相似,都是选定一个进化模型,然后通过程序搜索模型和序列数据一致的最优系统树。
但二者基本的不同在于,似然法是以观察数据的最大概率来拟合系统树。
贝叶斯法正好相反,是通过系统树对数据及进化模型的最大拟合概率而得到系统树。
极似然法给出的是数据的概率,而贝叶斯法给出了模型的概率。
极似然法搜索单一的最相似系统树,贝叶斯法得到的是具有大致相等似然值的系统树集合。
所有系统树的后验概率加在一起等于1,任何分支上的后验概率就是所有系统树该分支的后验概率之和。
将所有系统树按照后验概率大小排列,然后将具有最大后验概率的系统树加在一起,直至后验概率大于0.95通常,在此95%置信概率,贝叶斯法会给出唯一的系统树。