生物信息学基础大作业报告

  • 格式:doc
  • 大小:2.01 MB
  • 文档页数:12

下载文档原格式

  / 12
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学基础大作业报告

报告主题系统发育树的构建方法和研究进展

班级计科0901 姓名王海颖

总学号 0304090111

目录

目录 ........................................................................................................................................... - 2 - 一引言.. (3)

二系统发育树的构建方法 (3)

2.1概括介绍 (3)

2.2具体介绍 (4)

2.2.1 基于距离的方法 (4)

2.2.2 最大简约法 (4)

2.2.3 最大似然法 (5)

2.2.4 贝叶斯树估计方法 (7)

三系统发育树的改进算法 (7)

3.1 遗传算法和模拟退火算法 (7)

3.2古DNA序列构建生物系统发育树 (7)

3.2 基于28S rDNA序列构建侧耳属系统发育树 (7)

3.3 基于全蛋白质组的微生物构建系统发育树 (8)

3.4 一种基于线粒体完全基因组的熵密度分布的脊椎动物系统发育树构建

方法 (8)

四评价方法的改进 (8)

4.1遗传算法和模拟退火算法的改进 (8)

4.2 用EM算法进行参数估计 (8)

4.2 乙型肝炎病毒C基因区序列的系统发育树分析 (9)

4.3 矿区的氧化亚铁硫杆菌新菌系的鉴定. (10)

4.4 55株芽孢杆菌16S rRNA基因序列测定与系统发育学分析 (10)

4.5酸马奶中乳杆菌Lb.casei.Zhang和ZLl2—1的16S rDNA基因序列及聚类分析11 五结束语 (11)

参考文献 (11)

一.引言:

二十一世纪,生命科学和信息科学都处于科学技术的主导地位,二者的融合使得一个新的领域——生物信息学产生了。生物信息学是在生命科学的研究中,以计算机科学知识为辅导工具对生物信息进行存储、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一。

系统发生学是生物信息学中的一个重要研究领域,研究物种之间的进化关系,其基本思想是比较物种的特征,并认为特征相似的物种在遗传学上接近。系统分析早在达尔文时代就已经开始了,从那时起,重建地球上所有生物的进化历史就已经成为许多生物学家的梦想。生物进化是生物科学的灵魂,是生物科学体系的轴心。有关进化的思想、实事、原理和规律又始终贯穿于生物分支学科中。系统发生是指生物形成或进化的历史。

系统发生研究的结果往往以系统发育树表示,用它描述物种进化关系。通过对生物学数据的建模提取特征,进而比较这些特征,研究生物形成或进化的历史。在分子水平上进行系统发生分析具有许多优势,所得到的结果更加科学、可靠。系统发育树也称系统进化树,它是用类似树状分支的图来表示各种(类)生物之间的亲缘关系,通过对生物序列的研究来推测物种的进化历史。

构建系统发育树就是从生物物种的序列信息推断生物进化历史,“重塑”出系统进化的(谱系)关系,并把进化关系用系统发育树的形式表示出来——树的叶子结点表示各个生物序列,树枝的长度表示生物间进化距离。主要通过DNA 序列,蛋白质序列,蛋白质结构等来构建系统发育树,或者通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。研究系统发育树的目的可以重建祖先序列;估计来自于同一个祖先的不同生物间分歧时间;识别和疾病关联的突变等。构建系统发育树的研究是生物信息学中的一个热点。基于分子的进化研究已经应用到许多方面,如基因进化,物群划分,交配系统,父亲身份测试,环境监视以及已经转移物种的疾病源的研究等。系统发育树的构建是现代生命科学研究中的重要技术,是分析未知菌种与其他茵种的亲缘关系,为进一步了解生物的进化关系的重要依据.

二.构建方法介绍

2.1概括介绍

系统发育树的构建问题是一个NP完全问题,因此研究构造发生树的近似最优算法有着重要意义。

发育树的构建主要有两类方法,即基于算法的方法和基于最优原则的方法。基于算法的距离法是一种纯数学法,通过序列两两之间的差异决定发育树的拓扑结构和枝长,它将发育树的构建和最后发育树的确定融合在一起,构建发育树的过程,也就是寻找最佳发育树的过程。与距离法不同,基于最优原则的方法是首

先确定一个标准,然后按这个标准去比较不同的发生树,最后选择最优的树,结果符合选择标准的最优树可能是一个,也可能是多个。最大简约考察输入数据中序列的多重比对结果,优化出的发生树能够利用最少的离散步骤去解释多重比对的碱基差异。最大似然法考察输入数据中序列的多重比对结果,优化出拥有一定拓扑结构和枝长的发生树,这个发生树能以最大的概率反应考察的多重比对结果。

系统发育树构建的方法通常有四种类型:基于距离的方法,最大简约方法,最大似然法和贝叶斯估计方法。

2.2具体介绍

2.2.1基于距离的方法

基于距离的建树方法考察数据中所有序列的两两比对结果,通过序列两两之间的差异决定发生树的拓扑结构和树枝长度。距离矩阵用来记录两个序列的差异数量值,其准确性大小依赖于进化模型的选择。

从己知生物序列中能推断各个物种之间的进化历史,按照一定的遗传模型,把任意两个序列间的进化历史转化成数字,就得到两两之间的进化距离,把所有的距离用矩阵的形式表示出来,就得到了距离矩阵,根据该矩阵构建出系统进化树。使用距离法构建系统发生树,所生成的树的质量取决于距离尺度的质量和每次挑选相邻结点的标准。距离的度量首先需要选取一个进化模型,根据此模型,推导出距离的公式,进而将序列之问的关系换算成距离。而挑选相邻节点的标准,也就是距离法构建进化树的聚类算法,主要的方法有UPGMA、Fitch Margoliash和邻接(neighbor-joinmg)方法。

2.2.2 最大简约法

利用最大简约方法构建系统发生树,实际上是一个对给定分类单元所有可能的树进行比较的过程,针对某一个可能的树,首先对每个位点祖先序列的核苷酸组成做出推断,然后统计每个位点用来阐明差异的核苷酸最小替换数目。在整个树中,所有简约信息位点最小核苷酸替换数的总和称为树的长度或树的代价。通过比较所有可能树,选择其中长度最小、代价最小的树作为最终的系统发生树,即最大简约树。

简约法的目标就是,构造一棵反映分类物种之间最小变化的系统发生树。简约法的理论基础是Ockham哲学原则,即解释一个过程,最好的理论是所需假设数目最少的~个。所以,突变最少的进化关系就越有可能是物种之间真实的进化关系。

简约法利用的只是对简约分析提供信息的特征,即信息位点,非信息位点对构建最大简约树是无用的。所谓信息位点,是符合以下要求的位点:至少包含两种不同的核苷酸,并且出现的核苷酸需要至少出现两次。不变位点(所有物种拥有相