序列谱进化树方法

格式：pdf
大小：2.23 MB
文档页数：6

下载文档原格式

进化树算法

2）要构建一个进化树（to reconstrut phyligenetic tree）构建进化树的算法主要分为两类：独立元素法（discrete character methods）和距离依靠法（distance methods）。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的（例如：一个序列上可能包含很多的酶切位点，而每个酶切位点的存在与否是由几个碱基的状态决定的，也就是说一个序列碱基的状态决定着它的酶切位点的状态，当多个序列进行进化树分析时，进化树的拓扑形状也就决定着这些碱基的状态了）。而距离依靠法是指进化树的拓扑形状由两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立法包括最大简约法（maximum parsimony methouds,MP）和最大可能性法（maximum likelihood methods，ML）；距离依靠法包括除权配对法（UPGMAM）和邻位相连法（neighbor-Joining，NJ）。
3）对进化树进行评估主要采用Bootstraping 法。进化树的构建是一个统计学的问题，构建出来的进化树只是对真实进化关系的评估或者模拟。如果采用一个适当的方法，那么所构建的进化树就会更接近真实的“进化树”模拟的进化树需要一个数学的方法来对其进行评估。不同的算法有不同的适用目标。一般来说，MJ适用于符合以下条件的多序列：
Hale Waihona Puke ①所要比较的碱基差别小；②对于序列上的每一个碱基有近似相等的变异率；③没有过多的颠换/转换的倾向；④所检验的序列碱基数目较多(大于几千个碱基），用ML分析序列则不用上述诸多条件，但是此种方法计算及其耗时，如果分析的序列较多，有可能要花上几天的时间才能计算完毕。UPGMAM假设在进化过程中所有核苷酸/氨基酸都有相同的变异率，也就是存在着一个分子钟。这个算法的得到的进化树相对来说不是很准确，现在已很少使用。NJ是一个经常被使用的算法，它构建的进化树相对准确，而且计算快捷。其缺点是序列上的所有位点都被同等对待，而且，所分析的序列的进化距离不可能太大。另外，需要特别指出的是对于一个特定多序列对象来说可能没有任何一个现存的算法非常适合它。最好是发展一个更好的算法来解决它，当无疑非常困难。如果有人能建立这样的算法的话，那他（她）完全可以在Proc.Natl A上发一篇高质量的文章。

构建进化树的步骤

构建进化树的步骤通常包括以下几个关键环节：
1. 数据收集：收集相关的生物序列数据，这些数据可以来自于公共数据库，如NCBI的GenBank，也可以通过实验获得。

序列数据包括DNA或蛋白质序列。

2. 序列alignment（序列比对）：使用比对软件如Clustal Omega、MAFFT、MUSCLE等，将收集到的序列进行比对，以确保序列的同源性，并消除由于序列变异导致的噪音。

3. 序列拼接和校正：对测序得到的正向和反向序列进行拼接和校正，以获得完整的序列。

常用的拼接软件有Contig Express、Geneious 和Sequencher等。

4. 选择合适的模型：根据序列数据选择合适的进化模型。

可以使用软件如Modeltest来评估不同的进化模型，选择BIC（Bayesian Information Criterion）分数最低的模型。

5. 建树：选择合适的软件和建树方法来构建进化树。

常用的软件有MEGA、PhyML、MrBayes等，建树方法包括NJ（邻接法）、MP （最大简约法）、ML（最大似然法）等。

6. 建树检验：使用如Bootstrap方法等来检验所建树的稳定性和可靠性。

Bootstrap方法通过重复抽样来检验建树的节点支持度。

7. 绘制进化树：使用软件如TreeDraw、FigTree或在线工具来绘制进化树的图像，以便于分析和展示。

系统进化树绘制

MEGA：系统进化树绘制1.从测序公司获取可以用TXT格式打开的菌株16SrDNA序列文本信息；2.打开NCBI网站（https:///），依次点击BlAST—>Microbes，进入最下图所示界面。

3.将序列信息粘贴到黄色文本框内，点击BLAST按钮，进入比对结果页面，根据所需选择20条（参考）相似序列信息，点击Download，下载FASTA（aligned sequences）格式序列信息到电脑；4.将测序所得序列信息与Blast所得序列信息合并到同一个Text文件中；5.打开MEGA软件（以MEGA6.06为例），点击Align—>Edit/Build Alignment，选择Creat a new alignment并点击OK，点击DNA，进入最下图界面，最大化子界面；6.点击下图红线圈出的图标或通过Edit—>Insert Sequence From File Ctrl+I，进入第二个图所示界面，将文件格式由ABI改为Text，选择所选序列信息文件，点击打开；7.按住Shift，鼠标点击首条和最后一条多余的序列信息，即可选择某一需要删除的序列信息区域，点击Delete删除多余序列信息，并编辑各序列名称，点击保存编辑好的序列信息；8.点击Data—>Phylogenetic Analysis（系统进化分析），点击“Yes”完成系统进化分析；9.回到MEGA主页面，依次点击Analysis—>Phylogeny—>Construct/Test Neighbor-Joining Tree...，在跳出的界面中点击“Yes”，接着将跳出页面中的Test of Phylogeny项的None改为Bootstrap method，点击Compute，系统完成运算，生成系统进化树；10.依次点击Image—>Save as PDF file,保存成PDF格式系统发育树图谱。

怎样使用MEGA建立进化树

如何使用建立进化树1、首先是双击软件打开如下图所示
2、现在是处于DNA序列,而我们要做蛋白质的进化树的话,就如下操作
3、接下来我们要进行序列的输入,点击左边那个红箭头,则出现下面的窗口；
4、然后右击sequence 1,修改名字,如改成DPV
5、然后从Word 里复制蛋白质序列,然后在下面的位置粘贴
6、则可出现如下图的序列了
7、然后点击窗口上的保存图标保存
8、重复从3开始,直到你的序列输入完
9、序列输入完后进行最后的保存,方法如下：
要输入ul7两次保存名字—然后关闭这个窗口; 接下来打开
出现下面这个窗口
接下来就可以建立各种样式的进化树
嗯,只是把过程写出来,方便大家建立进化树,不足的地方,大家补充好。

手把手教你用FastTree快速构建序列进化树

手把手教你用FastTree快速构建序列进化树
手把手教你用Fast Tree 快速构建序列进化树
常见的建树方法有：贝叶斯法（Bayesian），最大似然法（Maximum likelihood，ML），最大简约法（Maximum parsimony，MP），邻接法（Neighbor-Joining，NJ），最小进化法（Minimum Evolution，ME），类平均法（UPGMA）。

一般来讲，如果模型合适，最大似然法的效果较好。

对于近缘序列，最大简约法用的假设最少，各种方法结果相似。

而对于远缘序列，一般使用最大似然法或邻接法。

对相似度很低的序列，邻接法往往出现Long-branch attraction（LBA，长枝吸引现象），严重干扰进化树的构建。

对于各种方法构建分子进化树的准确性，Hall 认为贝叶斯的方法最好，其次是最大似然法，然后是最大简约法。

其实如果序列的相似性较高，各种方法结果差别不大。

最大似然法和邻接法需要选择模型。

对于蛋白质序列，一般选择Poisson Correction（泊松修正）模型。

而对于核酸序列，一般选择Kimura 2-parameter（Kimura-2 参数）模型。

表1. 构建进化树的常用软件
软件名称简介Clustal X图形化的序列比对工具GeneDoc多序列比对结果美化工具BioEdit序列分析综合工具MEGA图形化比对，进化分析综合工具PAUP进化分析工具Phylip
进化分析工具PhyML最大似然法建树工具PAML最大似然
法建树工具MrBayes贝叶斯法建树工具FastTree最大似然法建树工具（速度快）TreeView进化树显示工具。

进化树制作

二、ITS序列分析，学习进化树的制作
1
3
2
ห้องสมุดไป่ตู้
二、ITS序列分析，学习进化树的制作
二、ITS序列分析，学习进化树的制作
找出所有序列都有的第一列碱基，将第一列碱基之前的删掉（拉黑序列 +delete），找到所有序列都有的最后一列碱基，同上操作，保存，关闭窗口。
二、ITS序列分析，学习进化树的制作
二、ITS序列分析，学习进化树的制作
1、测序完成后，会得到拼接好的序列。 2 、复制拼接的序列，在NCBI BLAST上搜索，可以找到和自己的序列相似的其他序列，选择多条序列，下载，利用 MEGA 5.10,制作进化树。
二、ITS序列分析，学习进化树的制作
二、ITS序列分析，学习进化树的制作
选择刚刚保存的文件
二、ITS序列分析，学习进化树的制作
Test of phylogeny： Bootstrap method
No. of Bootstrap Replication:500/10 00(节点处的数字为 500/1 000次自引导值中该节点存在的百分数。 )
二、ITS序列分析，学习进化树的制作
青霉属
新萨托菌属
曲霉属

进化树方法

进化树方法
进化树方法（phylogenetic tree methods）是一种通过分析生物序列、形态等特征，建立生物分类理论模型的方法。

其基本原理是将不同生物样本的特征数据进行比对和分析，计算出它们之间的相似性和差异性，并按照一定的规则将它们归类，最后绘制出一棵进化树（phylogenetic tree）。

该方法主要用于研究生物进化和系统发育等领域，可以帮助我们更好地理解不同生物之间的关系和演化历程。

常见的进化树方法包括距离法、最小进化原理法和最大简约原则法等。

其中距离法基于不同生物的遗传距离来建立进化树，最小进化原理法则是寻找最小的进化路径，而最大简约原则法则是保留最少的节点和分支，以得到最简洁的进化树。

进化树方法与分子时钟方法、分子标记等方法相结合，可以使研究更加准确和全面。

进化树构建方法-MEGA

利用MEGA 来构建进化树（molecular evolutionary genetics analysis 分子进化遗传分析）打开mega5，选择Align----edit/built alignment----create a new alignment—OK选择DNA/protein出现新的对话框Open------选择已经保存好的用clustalx 经过比对保存的以.aln格式的文件打开之后，出现下面的页面双击文件名可以进行修改的。

我的就是从这里开始修改把A,B,C 都去掉，只留号码就好右键菜单点击delete 删除带※的那一行。

得到下面的图示，点击保存，重新起名字。

之后点击此图内的Alignment 选择Align by clustalW即可。

默认设置即可，点击OK就进行比对了，此后会出现一个过渡对话框，显示的是两两比对和多序列比对的过程之后回到初始页面，就是这个页面之后点File---点开，把刚才保留的文件点开然后出现下面的页面多了几个内容，点击TA的那个框框。

之后出现这样的框框图片然后在主程序中选择phylogeny---construct/test neighbor-joining tree,然后出现下面的页面黄色框框处的的参数是可以改变的，该图为我已经改变好的，把Bootstrap 的值改为1000 Methods根据文献上的参考改为了Kimura2-parameter model.之后点击compute,就出现了，而且还带有必需的支持率即自展值，是用来检验你所计算的进化树分支可信度的。

简单地讲就是把序列的位点都重排，重排后的序列再用相同的办法构树，如果原来树的分枝在重排后构的树中也出现了，就给这个分枝打上一分，如果没出现就给0分，这样经过你给定的repetitions 次（至少1000次）重排构树打分后，每个分枝就都得出分值，计算机会给你换算成bootstrap值。

重排的序列有很多组合，值越小说明分枝的可信度越低，最好根据数据的情况选用不同的构树方法和模型。

3个基因构建进化树的方法

3个基因构建进化树的方法进化是生物学中一个重要的概念，它描述了生物种群随时间的演化过程。

进化树是一种用来表示不同物种之间演化关系的图表，它可以帮助我们理解生物的演化历史和亲缘关系。

构建进化树的方法有很多种，其中一种常用的方法是基于基因序列的比较。

本文将介绍基于3个基因的构建进化树的方法。

基因是生物体内用来传递遗传信息的分子，它们以DNA的形式存在于细胞中。

每个物种的基因组中都有很多基因，其中一些基因在不同物种之间保持高度保守，也就是说它们的序列变化很小。

这些保守的基因可以用来构建进化树。

在构建进化树的过程中，我们需要选择适合的基因进行比较。

一般来说，选择的基因应该满足以下几个条件：首先，基因在不同物种中的序列变化应该相对较小，这样才能准确地反映物种之间的演化关系；其次，基因在不同物种中应该有足够的变异，这样才能提供足够的信息来推断进化关系；最后，基因的比较应该能够得到可靠的结果，这就要求我们选择那些已经被广泛研究和验证的基因。

在基因选择完毕后，我们需要获取各个物种的基因序列。

这可以通过DNA测序技术来实现，现代的测序技术已经非常高效和准确，可以快速得到大量的基因序列数据。

在获取到基因序列后，我们需要对这些序列进行比对和分析，以便得到物种之间的差异。

比对可以使用一些开源的软件来完成，比如BLAST和ClustalW等。

通过比对，我们可以得到物种之间基因序列的异同点，这些差异点可以用来推断进化关系。

基于比对结果，我们可以使用一些计算模型来构建进化树。

常用的计算模型有距离法、最大简约法和最大似然法等。

这些方法都是基于不同的原理来进行计算的，它们可以根据基因序列的差异程度来计算物种之间的进化距离，并将这些距离用树状图的形式展示出来。

进化树的构建过程是一个迭代的过程，通过不断调整模型参数，我们可以得到更准确的进化树。

基于3个基因的构建进化树的方法可以提高进化树的准确性。

因为多个基因的比较能够提供更多的信息，可以避免单个基因的局限性。

基因进化树构建

基因进化树构建
基因进化树构建是一种重要的生物学研究方法。

它可以通过比较不同
物种之间的基因序列或蛋白质结构来推断它们的演化关系。

这种方法
可以帮助科学家们了解不同物种之间的亲缘关系，研究物种的起源和
演化，以及预测未来的进化方向。

基因进化树构建的基本原理是通过比较不同物种之间的基因或蛋白质
序列的异同，来推断它们的演化关系。

这种方法可以用来研究不同物
种之间的亲缘关系，比如说研究人类和大猩猩之间的关系，以及研究
鸟类之间的演化历程。

基因进化树构建的方法主要有两种：分子钟方法和序列比较方法。

分
子钟方法是一种基于时间的方法，它通过比较不同物种之间的基因或
蛋白质序列变异程度，来推断它们的演化时间和速率。

而序列比较方
法则是一种基于比较的方法，它主要通过比较不同物种之间的基因或
蛋白质序列相似程度，来推断它们的演化关系。

基因进化树构建的过程中，需要先收集不同物种的基因或蛋白质序列，并将它们进行比较分析。

通常会使用一些专门的生物信息学软件，比
如Clustal，Mega等来进行序列比对和进化分析。

在分析过程中，还需要对数据进行校准和修正，以确保分析结果的准确性和可靠性。

最
终，得到的结果可以用树状图的形式来表示不同物种之间的亲缘关系和演化历程。

总的来说，基因进化树构建是一种重要的生物学研究方法，它可以帮助我们了解物种之间的演化关系和进化历程。

随着生物信息学技术的不断发展和改进，基因进化树构建的分析方法也在不断演化和改进，这将有助于我们更深入地研究生命的起源和演化。

基因进化树的构建

基因进化树的构建
基因进化树（Phylogenetic tree）是用来描述不同物种或个体之间基因演化关系的一种图形表示方法。

构建基因进化树可以帮助我们了解物种之间的亲缘关系和演化历史。

以下是构建基因进化树的一般步骤：
1.收集基因序列数据：首先，需要收集感兴趣物种或个体的基因序列数据。

这些基因序列可以是DNA序列、蛋白质序列或其他分子标记。

2.序列比对：将收集到的基因序列进行比对，找出相同的区域。

这可以通过使用比对算法（如ClustalW、MAFFT等）来完成。

比对后的序列将有助于确定物种或个体之间的相似性。

3.构建进化模型：选择适合你的数据的进化模型。

进化模型描述了基因在演化过程中的变化方式。

常见的进化模型包括Jukes-Cantor模型、Kimur a模型、GTR模型等。

选择适当的模型可以提高进化树的准确性。

4.构建进化树：使用构建进化树的方法，如最大似然法（Maximum Li kelihood）、贝叶斯推断（Bayesian Inference）或距离法（Distance-based m ethods）来构建进化树。

这些方法基于序列的相似性和进化模型来计算物种或个体之间的进化距离或相似性。

5.进化树评估和解释：评估构建的进化树的可靠性和准确性。

可以使用统计方法（如Bootstrap分析）来评估节点的支持度。

解释进化树的结果，包括物种或个体之间的亲缘关系和演化历史。

构建系统进化树的详细步骤

构建系统进化树的详细步骤1. 建树前的准备工作1.1 相似序列的获得——BLASTBLAST是目前常用的数据库搜索程序，它是Basic Local Alignment Search Tool 的缩写，意为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。

国际著名生物信息中心都提供基于Web的BLAST服务器。

BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段，并作为核向两端延伸，以找出尽可能长的相似序列片段。

首先登录到提供BLAST服务的常用，比如国的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。

这些提供的BLAST服务在界面上差不多，但所用的程序有所差异。

它们都有一个大的文本框，用于粘贴需要搜索的序列。

把序列以FASTA格式(即第一行为说明行，以“>”符号开始，后面是序列的名称、说明等，其中“>”是必需的，名称及说明等可以是任意形式，换行之后是序列)粘贴到那个大的文本框，选择合适的BLAST程序和数据库，就可以开始搜索了。

如果是DNA序列，一般选择BLASTN搜索DNA数据库。

这里以NCBI为例。

登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。

BLASTN结果如何分析(参数意义):>gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, completesequenceScore = 2020 bits (1019), Expect = 0.0Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / PlusQuery: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60|||||||||||||||||||||||||||||||||||||||||| ||||||||| ||||| Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120|| ||||||||||||||||||||||||||||||| | |||||| ||||||||||||| Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118Score :指的是提交的序列和搜索出的序列之间的分值，越高说明越相似; Expect:比对的期望值。

进化树步骤

进化树步骤
一、CDS序列做进化树
1、把fasta文件粘贴到文本文件（UE编辑器），保存时将扩展名改为fas。

2、双击后在Alignment Explorer窗口中打开，点击Translated Protein Sequences，单击弹出窗口的“YES,如图：
3、做蛋白的Mutiple Alignment
在Alignment Explorer窗口中，点击菜单栏的Alignment，选择下拉对话框的Align by ClustalW,在弹出的页面中直接默认参数，点击“OK”。

4、将Mutiple Alignment的结果存成MEGA格式（文件名为CDPK）
Data Export Alignment MEGA format
5、双击CDPK.meg文件，点击主界面的phylogeny构建进化树
选用NJ聚类法，在弹出的对话框中的参数选择如图所示：
点击compute，进行计算，计算完成后就得到了树状图，保存结果就好了。

二、Consistency序列做进化树
1、把fasta文件粘贴到文本文件（UE编辑器），保存时将扩展名改为fas。

2、双击该文件，在Alignment Explorer窗口中打开，Data E xport Alignment
MEGA format（文件的扩展名是.meg）。

3、双击.meg文件，点击主界面的phylogeny构建进化树
选用NJ聚类法，在弹出的对话框中的参数选择如图所示：
进行计算后就得到了进化树图，进行保存就可以了。

序列搜索_比对以及进化树的构建

Clustalx的输出结果
• .aln格式文件
– 这个文件是默认输出，可以转换成各种格式，而且很多软件都支持这种格式。
• .dnd格式文件
– 引导树。就是根据两两序列相似值构建的一个指导后面多重联配的启发树 – 不能做进化分析。进化分析要考虑的所有同源位点的一个综合效应，因此应该用.aln格式文件专门做进化分析。
• Blastn : 应该是出现较早的算法。比对的速度慢，但允许更短序列的比对（如短到7个碱基的序列）。 • MEGABLAST : 主要用来鉴定一段新的核酸序列，它并不注重比对各个碱基的不同和序列片断的同源性，而只注重被比对序列是否是数据库未收录的，是否为新的提交序列或基因。速度快。同一物种间的。 • Discontiguous MEGABLAST : 灵敏度（sensitivity）更高，用于更精确的比对。主要用于跨物种之间的同源比对。
• dnadist 计算核苷酸距离矩阵 • 把刚才的outfile改名，如dnadistinfile • 双击dnadist，输入dnadistinfile，回车
输入D，选择模型，如改成kimura-2 输入M，然后输入 D，再输入1000，和上面步骤要一致即自举值 bootstrap=1000
• NCBI负责管理GenBank。 GenBank是
美国国立卫生研究院维护的基因序列数据库，汇集并注释了所有公开的核酸序列。
• GenBank与日本DNA数据库（DNA Data Bank of Japan, DDBJ）以及欧洲生物信息研究所的欧洲分子生物学实验室核苷酸数据库（European Molecular Biology Laboratory, EMBL），所有这 3个中心都可以独立地接受数据提交，而3个中心之间则逐日交换信息，并制成相同的充分详细的数据库向公众开放。因此他们是相等的。

应用PHYLIP构建进化树的完整详细过程

一、获取序列一般自己通过测序得到一段序列（已知或未知的都可以），通过NCBI的BLAST获取相似性较高的一组序列，下载保存为FASTA格式。

用BIOEDIT等软件编辑序列名称，注意PHYLIP在DOS下运行，文件名不能超过10位，超过的会自动截留前面10位。

二、多序列比对目前一般应用CLASTAL X进行，注意输出格式选用PHY格式。

生成的指导树文件（DND文件）可以直接用TR EEVIEW打开编辑，形式上和最终生成的进化树类似，但是注意不是真正的进化树。

三、构建进化树1.N-J法建树依次应用PHYLIP软件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和CONSENSE.EXE打开。

具体步骤如下：（1）打开seqboot.exe输入文件名：输入你用CLASTAL X生成的PHY文件（*.phy）。

R为bootstrap的次数，一般为1000 （设你输入的值为M，即下两步DNADIST.EXE、NEIGHBOR.EXE中的M值也为1000）odd number: (4N+1)(eg: 1、5、9…)改好了y得到outfile（在phylip文件夹内）改名为2（2）打开Dnadist.EXE输入2修改M值，再按D，然后输入1000（M值）y得到outfile（在phylip文件夹内）改名为3（3）打开Neighboor.EXE输入3M=1000（M值）按Y得到outfile和outtree（在phylip文件夹内）改outtree为4，outfile改为402(4)打开consense.exe输入4y得到outfile和outtree（在phylip文件夹内）Outfile可以改为*.txt文件，用记事本打开阅读。

四、进化树编辑和阅读outtree可改为*.tre文件，直接双击在treeview里看；也可以不改文件扩展名，直接用treeview、PHYLODRAW 、NJPLOT等软件打开编辑。

序列比对,构建进化树

1从NCBI上下载某个基因在其他物种的序列比如，下载caveolin基因在其他物种的序列NCBI地址：在search一栏的下拉列表中选择Nucleotide,for后面的一栏中输入自己要查询的基因。

完毕，点击GO确认。

可得到一下结果：每一条记录分别是某个物种的caveolin的序列，以第10条记录为例，称为GenBank 登录号。

为拉丁文的人类的字母，表示物种，表示基因名称（caveolin基因家族共有3个主要基因，分别称为1，2，3）表示此序列为cDNA,不含含子。

下图中的NEXT表示翻页，查看剩余的记录。

打开第10条记录可看到下图：现在你需要保存下来得就是上面的这一串（碱基）核酸序列。

复制黏贴（包括上面表示顺序的数字）到TXT文本中备用。

打开DNAMAN软件，左上角点击file-new，出现下图：可以把先前从NCBI下载的序列（保存到TXT文本中得）复制到箭头指示处，得到：并按照上图左上角file-save as(注意此文件得保存名称为保存的此物中得名称)，已上是DNAMAN软件中seq序列格式的保存方法。

2 序列编辑和比对（DNAMAN软件）你们实验PCR得到的序列只是某个基因上的一部分，所以为了进行不同物种间的比对，要把下载下来的其他物种的某个基因的序列进行删减，以使两段基因是大约相同长度的片段进行比对。

以人类caveolin1基因为例说明一下。

按照1，2，3得顺序依次打开，得到下图：点击上图中的1，你会得到下图，点击2是清楚所有刚才选进比对的序列（为了重新选择序列），3是有选择的删除某个序列。

当然，把你的所有准备的序列保存好以后，从查找围这个下拉列表中寻找你要比对的序列。

可以按住ctrl点击你要比对的几个序列（同时选中）选完点击打开。

再点下图中得确定键。

得到下图：找好这两个物种重合的那个核苷酸的序号（前后两段都是），然后打开你保存的seq格式的序列，数出刚才比对重合部分的后端的碱基数，把这个碱基后面的序列删掉，再用此方法把比对重合部分前段得序列删掉，保存。

进化树的构建

一、获取序列一般自己通过测序得到一段序列（已知或未知的都可以），通过NCBI的BLAST获取相似性较高的一组序列，下载保存为FASTA格式。

用BIOEDIT等软件编辑序列名称，注意PHYLIP 在DOS下运行，文件名不能超过10位，超过的会自动截留前面10位。

二、多序列比对目前一般应用CLASTAL X进行，注意输出格式选用PHY格式。

生成的指导树文件（DND文件）可以直接用TREEVIEW打开编辑，形式上和最终生成的进化树类似，但是注意不是真正的进化树。

三、构建进化树1.N-J法建树依次应用PHYLIP软件中的SEQBOOT.EXE、DNA DIST.EXE、NEIGHBOR.EXE和CONSENSE.EXE打开。

具体步骤如下：（1）打开seqboot.exe输入文件名：输入你用CLASTAL X生成的PHY文件（*.phy）。

R为bootstrap的次数，一般为1000 （设你输入的值为M，即下两步DNA DIST.EXE、NEIGHBOR.EXE中的M值也为1000）odd number: (4N+1)(eg: 1、5、9…)改好了y得到outfile（在phylip文件夹内）改名为2（2）打开Dnadist.EXE输入2修改M值，再按D，然后输入1000（M值）y得到outfile（在phylip文件夹内）改名为3（3）打开Neighboor.EXE输入3M=1000（M值）按Y得到outfile和outtree（在phylip文件夹内）改outtree为4，outfile改为402(4)打开consense.exe输入4y得到outfile和outtree（在phylip文件夹内）Outfile可以改为*.txt文件，用记事本打开阅读。

四、进化树编辑和阅读outtree可改为*.tre文件，直接双击在treeview里看；也可以不改文件扩展名，直接用treeview、PHYLODRAW、NJPLOT等软件打开编辑。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

活性中心序列谱及系统发育树的制作
杨曼丽
1 序列谱的制作
1.1 搜集数据
查找数据。

在CAZy数据库（）中找到目标家族。

All显示的是该家族所有的序列条目，Structure显示的是结构已经被实验解析的条目，Characterized显示的是有功能标注的条目。

数据显示按Archaea、Bacteria和Eukaryota分类。

排列按字母顺序。

数据库中分别显示蛋白的名称、EC号、来源、GeneBank、Uniprot及PDB数据。

图1
下载PDB文件。

将目标PDB文件下载。

在同种蛋白含有不同PDB文件的时候注意文件的选取。

可以通过上传时间、发表文献等找出最原始的结构，其他相关结构一般为该原始结构的突变结构。

下载Uniprot序列。

将目标Uniprot文件下载，保存为Fasta格式。

一般文件命名原则为：物种_EC号_Uniprot 号_PDB号（如果有的话）。

物种用A、B、E标注。

没有Uniprot号的用GenBank号代替。

为了方便后续的建树，可以先将每个序列文件抬头（一般为第一行”>”标识）名称改为文件所命之名，这样可以省去在建树后改leaf名称的麻烦
1.2 活性中心架构的获取
底物的选取。

用Pymol打开下载好的PDB文件，用present->ligands找出底物。

也可显示全序列，查找序列末端。

注意一般底物为BGC等糖环，而非ACT等小分子。

有的底物在结构解析时有丢失，因此需要详细研究整个家族的PDB，以便将一些底物进行拼接。

图2
切点和方向的确定。

找好底物后将整条糖链横向放置，找出非还原端和还原端（一般非还原端在左，还原端在右）。

查找原始文献，找到切点位置，记录为0点。

0点往非还原端方向的糖环分别为-1、-2、-3、-4……，往还原端方向的糖环分别为+1、+2、+3、+4……。

活性中心氨基酸的筛选。

从一个糖环开始选取其邻近氨基酸。

以5埃为例。

选择第一个糖环的氧原子（如O6），Pymol的log会显示该原子的序号（如6006）。

在CUI中输入命令：select near O6, resi 6006 around 5 。

将选取出来的氨基酸保存后进行下一个原子周围的选取。

统计。

用EXCEL对数据进行统计。

一般首列为PDB号，首行为相对位置。

比如一个氨基酸离-4位糖环的O4比较近，则命名此列为-4 O4。

氨基酸的命名方法是位置号码+氨基酸名，如111A指的是111位的丙氨酸。

将不同PDB的底物和相关氨基酸进行拼凑，至少保证每个位点上有一个氨基酸。

结构比对。

打开VMD，Extension->Analysis->Multiseq. 输入PDB文件。

选择Tools->Stamp Structural Alignment进行结构比对。

比对完后找到目标氨基酸，将其同一位点所有结果都记录在EXCEL中。

注意，空位点用“-”表示。

图3
注意：VMD使用的一些问题。

①文件名不要超过8个字符否则会报错。

因此之前为了建树方便的命名需要进行删减
②在随后的结构模建中，用Swiss-model模建的结构有时候会有配体，而配体在源代码中显示为Z轴。

这是VMD所不能识别的。

因此，在结构比对之前需要把配体删除（如果是带有配体的PDB原文件则不影响）
③结构比对如果出错不能比对可能原因是这些结构中含有某个差异太大导致比对不能的结构。

因此一般再比对是不要一开始就选全部比对（数据量大的话比对时间长如果有差异大的数据则这些时间等于浪费，数据量小可以先尝试全部比对），可以少量多次标记再进行。

1.3 序列谱的绘制
数据的处理。

用UltraEdit对数据进行处理。

从EXCEL中复制所有氨基酸到UltraEdit中，并将所有数字和空格删除。

一般选取列阵模式，可以竖行删除。

图4
序列谱的绘制。

打开WEBLOGO主页: /点击Creat创建序列谱。

在Multiple Sequence Alignment输入上一步编辑好的结果。

Colours选项选择Custom。

颜色设置一般如下：KRH->GREEN; DE->BLUE; FWY->PUPPLE; MV ALI->RED; G-ÆBLACK; NQ->RGB=>FFB300; TSPC->RGB=>FFB3FF。

注意，一般可以根据位点数量调节图片大小比例。

序列谱的验证。

用Consurf数据库（http://consurf.tau.ac.il）对序列进行打分。

进入页面后按提示操作即可。

2 进化树的构建
数据筛选。

将CAZy数据库中Characterized条目的Uniprot数据用Pfam进行搜索，保留本家族结构域，去除CBM等其他结构域。

（linker的保留与否视情况而定）
序列比对。

打开MEGA5。

新建Alignment（选择protein），输入筛选好的数据，点击比对。

保存文件
图5
制作进化树。

打开比对文件，选择Analysis中的系统发育树构建，选择NJ法构建进化树。

一般次数选
择1000次（比500次准一些，经验值）
图6
预处理及输出文件。

选择Bootstrap consensus tree。

在VIEW中有对树的一些显示方式。

其中的OPTION
可以设置枝的粗细等。

选择IMAGE可以输出图像文件。

在File中还可以输出NEWICK文件（以备后用）。

3 绘图与美化
进化树的美化。

进化树的美化有多种方式，这里介绍一种比较简单的工具。

iTOL（http://itol.embl.de/）
是EMBL制作的一个网站工具，这个工具可以对进化树进行很多美化处理。

图7
注册后开始添加文件。

一般一个新的Project需要输入的就是上文提到的Newick文件。

在主页面可以对树进行初步选择。

此外还可以对树进行颜色等编辑。

具体操作请参阅HELP页面。

选取颜色时建议
使用取色器读取RGB数值。

图8
图9
4 其他软件
在做生物信息学数处理时，为了保证数据的准确性和美观性，常使用不止一种软件或方法进行实验。

在此不详细说明，只列举。

序列比对：MEGA5可以进行序列比对。

其他一般用Clustalx等
结构比对：除了VMD外还有STRAP，这个软件相比VMD的优点是不卡，但是数据量大的话耗时也长。

模建：有些没有PDB结构的序列需要进行模建。

通常使用Swiss-model。

它的优点是返回数据块，模建事会自动把两段linker进行删减，缺点是有些模建的结构含有底物，会用Z轴标注，VMD不能识别，需要删除。

此外还有MODWEB也可对结构进行模建。

优点是在SLOW模式下能模建出一些Swiss模建的不好的结构，缺点是过于缓慢，一般SLOW模式需要1-2天，而FAST模式的模建结果不是很好。

绘图：进化树的绘制还可用FigTree；ACDchemSketch可以非常方便的绘制化学结构；一般用Photoshop 处理图片，但是矢量图用CorelDraw效果会更好；一些更好看的模式图可能需要MATLAB和3DMAX；蛋白质结构一般可用POV-RAY打光渲染。

以上提到的全部软件均有免费版本。