序列谱进化树方法
- 格式:pdf
- 大小:2.23 MB
- 文档页数:6
构建进化树的步骤通常包括以下几个关键环节:
1. 数据收集:收集相关的生物序列数据,这些数据可以来自于公共数据库,如NCBI的GenBank,也可以通过实验获得。
序列数据包括DNA或蛋白质序列。
2. 序列alignment(序列比对):使用比对软件如Clustal Omega、MAFFT、MUSCLE等,将收集到的序列进行比对,以确保序列的同源性,并消除由于序列变异导致的噪音。
3. 序列拼接和校正:对测序得到的正向和反向序列进行拼接和校正,以获得完整的序列。
常用的拼接软件有Contig Express、Geneious 和Sequencher等。
4. 选择合适的模型:根据序列数据选择合适的进化模型。
可以使用软件如Modeltest来评估不同的进化模型,选择BIC(Bayesian Information Criterion)分数最低的模型。
5. 建树:选择合适的软件和建树方法来构建进化树。
常用的软件有MEGA、PhyML、MrBayes等,建树方法包括NJ(邻接法)、MP (最大简约法)、ML(最大似然法)等。
6. 建树检验:使用如Bootstrap方法等来检验所建树的稳定性和可靠性。
Bootstrap方法通过重复抽样来检验建树的节点支持度。
7. 绘制进化树:使用软件如TreeDraw、FigTree或在线工具来绘制进化树的图像,以便于分析和展示。
MEGA:系统进化树绘制1.从测序公司获取可以用TXT格式打开的菌株16SrDNA序列文本信息;2.打开NCBI网站(https:///),依次点击BlAST—>Microbes,进入最下图所示界面。
3.将序列信息粘贴到黄色文本框内,点击BLAST按钮,进入比对结果页面,根据所需选择20条(参考)相似序列信息,点击Download,下载FASTA(aligned sequences)格式序列信息到电脑;4.将测序所得序列信息与Blast所得序列信息合并到同一个Text文件中;5.打开MEGA软件(以MEGA6.06为例),点击Align—>Edit/Build Alignment,选择Creat a new alignment并点击OK,点击DNA,进入最下图界面,最大化子界面;6.点击下图红线圈出的图标或通过Edit—>Insert Sequence From File Ctrl+I,进入第二个图所示界面,将文件格式由ABI改为Text,选择所选序列信息文件,点击打开;7.按住Shift,鼠标点击首条和最后一条多余的序列信息,即可选择某一需要删除的序列信息区域,点击Delete删除多余序列信息,并编辑各序列名称,点击保存编辑好的序列信息;8.点击Data—>Phylogenetic Analysis(系统进化分析),点击“Yes”完成系统进化分析;9.回到MEGA主页面,依次点击Analysis—>Phylogeny—>Construct/Test Neighbor-Joining Tree...,在跳出的界面中点击“Yes”,接着将跳出页面中的Test of Phylogeny项的None改为Bootstrap method,点击Compute,系统完成运算,生成系统进化树;10.依次点击Image—>Save as PDF file,保存成PDF格式系统发育树图谱。
如何使用建立进化树1、首先是双击软件打开如下图所示
2、现在是处于DNA序列,而我们要做蛋白质的进化树的话,就如下操作
3、接下来我们要进行序列的输入,点击左边那个红箭头,则出现下面的窗口;
4、然后右击sequence 1,修改名字,如改成DPV
5、然后从Word 里复制蛋白质序列,然后在下面的位置粘贴
6、则可出现如下图的序列了
7、然后点击窗口上的保存图标保存
8、重复从3开始,直到你的序列输入完
9、序列输入完后进行最后的保存,方法如下:
要输入ul7两次保存名字—然后关闭这个窗口; 接下来打开
出现下面这个窗口
接下来就可以建立各种样式的进化树
嗯,只是把过程写出来,方便大家建立进化树,不足的地方,大家补充好。
手把手教你用FastTree快速构建序列进化树
手把手教你用Fast Tree 快速构建序列进化树
常见的建树方法有:贝叶斯法(Bayesian),最大似然法(Maximum likelihood,ML),最大简约法(Maximum parsimony,MP),邻接法(Neighbor-Joining,NJ),最小进化法(Minimum Evolution,ME),类平均法(UPGMA)。
一般来讲,如果模型合适,最大似然法的效果较好。
对于近缘序列,最大简约法用的假设最少,各种方法结果相似。
而对于远缘序列,一般使用最大似然法或邻接法。
对相似度很低的序列,邻接法往往出现Long-branch attraction(LBA,长枝吸引现象),严重干扰进化树的构建。
对于各种方法构建分子进化树的准确性,Hall 认为贝叶斯的方法最好,其次是最大似然法,然后是最大简约法。
其实如果序列的相似性较高,各种方法结果差别不大。
最大似然法和邻接法需要选择模型。
对于蛋白质序列,一般选择Poisson Correction(泊松修正)模型。
而对于核酸序列,一般选择Kimura 2-parameter(Kimura-2 参数)模型。
表1. 构建进化树的常用软件
软件名称简介Clustal X图形化的序列比对工具GeneDoc多序列比对结果美化工具BioEdit序列分析综合工具MEGA图形化比对,进化分析综合工具PAUP进化分析工具Phylip
进化分析工具PhyML最大似然法建树工具PAML最大似然
法建树工具MrBayes贝叶斯法建树工具FastTree最大似然法建树工具(速度快)TreeView进化树显示工具。
进化树方法
进化树方法(phylogenetic tree methods)是一种通过分析生物序列、形态等特征,建立生物分类理论模型的方法。
其基本原理是将不同生物样本的特征数据进行比对和分析,计算出它们之间的相似性和差异性,并按照一定的规则将它们归类,最后绘制出一棵进化树(phylogenetic tree)。
该方法主要用于研究生物进化和系统发育等领域,可以帮助我们更好地理解不同生物之间的关系和演化历程。
常见的进化树方法包括距离法、最小进化原理法和最大简约原则法等。
其中距离法基于不同生物的遗传距离来建立进化树,最小进化原理法则是寻找最小的进化路径,而最大简约原则法则是保留最少的节点和分支,以得到最简洁的进化树。
进化树方法与分子时钟方法、分子标记等方法相结合,可以使研究更加准确和全面。
利用MEGA 来构建进化树(molecular evolutionary genetics analysis 分子进化遗传分析)打开mega5,选择Align----edit/built alignment----create a new alignment—OK选择DNA/protein出现新的对话框Open------选择已经保存好的用clustalx 经过比对保存的以.aln格式的文件打开之后,出现下面的页面双击文件名可以进行修改的。
我的就是从这里开始修改把A,B,C 都去掉,只留号码就好右键菜单点击delete 删除带※的那一行。
得到下面的图示,点击保存,重新起名字。
之后点击此图内的Alignment 选择Align by clustalW即可。
默认设置即可,点击OK就进行比对了,此后会出现一个过渡对话框,显示的是两两比对和多序列比对的过程之后回到初始页面,就是这个页面之后点File---点开,把刚才保留的文件点开然后出现下面的页面多了几个内容,点击TA的那个框框。
之后出现这样的框框图片然后在主程序中选择phylogeny---construct/test neighbor-joining tree,然后出现下面的页面黄色框框处的的参数是可以改变的,该图为我已经改变好的,把Bootstrap 的值改为1000 Methods根据文献上的参考改为了Kimura2-parameter model.之后点击compute,就出现了,而且还带有必需的支持率即自展值,是用来检验你所计算的进化树分支可信度的。
简单地讲就是把序列的位点都重排,重排后的序列再用相同的办法构树,如果原来树的分枝在重排后构的树中也出现了,就给这个分枝打上一分,如果没出现就给0分,这样经过你给定的repetitions 次(至少1000次)重排构树打分后,每个分枝就都得出分值,计算机会给你换算成bootstrap值。
重排的序列有很多组合,值越小说明分枝的可信度越低,最好根据数据的情况选用不同的构树方法和模型。
3个基因构建进化树的方法进化是生物学中一个重要的概念,它描述了生物种群随时间的演化过程。
进化树是一种用来表示不同物种之间演化关系的图表,它可以帮助我们理解生物的演化历史和亲缘关系。
构建进化树的方法有很多种,其中一种常用的方法是基于基因序列的比较。
本文将介绍基于3个基因的构建进化树的方法。
基因是生物体内用来传递遗传信息的分子,它们以DNA的形式存在于细胞中。
每个物种的基因组中都有很多基因,其中一些基因在不同物种之间保持高度保守,也就是说它们的序列变化很小。
这些保守的基因可以用来构建进化树。
在构建进化树的过程中,我们需要选择适合的基因进行比较。
一般来说,选择的基因应该满足以下几个条件:首先,基因在不同物种中的序列变化应该相对较小,这样才能准确地反映物种之间的演化关系;其次,基因在不同物种中应该有足够的变异,这样才能提供足够的信息来推断进化关系;最后,基因的比较应该能够得到可靠的结果,这就要求我们选择那些已经被广泛研究和验证的基因。
在基因选择完毕后,我们需要获取各个物种的基因序列。
这可以通过DNA测序技术来实现,现代的测序技术已经非常高效和准确,可以快速得到大量的基因序列数据。
在获取到基因序列后,我们需要对这些序列进行比对和分析,以便得到物种之间的差异。
比对可以使用一些开源的软件来完成,比如BLAST和ClustalW等。
通过比对,我们可以得到物种之间基因序列的异同点,这些差异点可以用来推断进化关系。
基于比对结果,我们可以使用一些计算模型来构建进化树。
常用的计算模型有距离法、最大简约法和最大似然法等。
这些方法都是基于不同的原理来进行计算的,它们可以根据基因序列的差异程度来计算物种之间的进化距离,并将这些距离用树状图的形式展示出来。
进化树的构建过程是一个迭代的过程,通过不断调整模型参数,我们可以得到更准确的进化树。
基于3个基因的构建进化树的方法可以提高进化树的准确性。
因为多个基因的比较能够提供更多的信息,可以避免单个基因的局限性。
基因进化树构建
基因进化树构建是一种重要的生物学研究方法。
它可以通过比较不同
物种之间的基因序列或蛋白质结构来推断它们的演化关系。
这种方法
可以帮助科学家们了解不同物种之间的亲缘关系,研究物种的起源和
演化,以及预测未来的进化方向。
基因进化树构建的基本原理是通过比较不同物种之间的基因或蛋白质
序列的异同,来推断它们的演化关系。
这种方法可以用来研究不同物
种之间的亲缘关系,比如说研究人类和大猩猩之间的关系,以及研究
鸟类之间的演化历程。
基因进化树构建的方法主要有两种:分子钟方法和序列比较方法。
分
子钟方法是一种基于时间的方法,它通过比较不同物种之间的基因或
蛋白质序列变异程度,来推断它们的演化时间和速率。
而序列比较方
法则是一种基于比较的方法,它主要通过比较不同物种之间的基因或
蛋白质序列相似程度,来推断它们的演化关系。
基因进化树构建的过程中,需要先收集不同物种的基因或蛋白质序列,并将它们进行比较分析。
通常会使用一些专门的生物信息学软件,比
如Clustal,Mega等来进行序列比对和进化分析。
在分析过程中,还需要对数据进行校准和修正,以确保分析结果的准确性和可靠性。
最
终,得到的结果可以用树状图的形式来表示不同物种之间的亲缘关系和演化历程。
总的来说,基因进化树构建是一种重要的生物学研究方法,它可以帮助我们了解物种之间的演化关系和进化历程。
随着生物信息学技术的不断发展和改进,基因进化树构建的分析方法也在不断演化和改进,这将有助于我们更深入地研究生命的起源和演化。
活性中心序列谱及系统发育树的制作
杨曼丽
1 序列谱的制作
1.1 搜集数据
查找数据。
在CAZy数据库()中找到目标家族。
All显示的是该家族所有的序列条目,Structure显示的是结构已经被实验解析的条目,Characterized显示的是有功能标注的条目。
数据显示按Archaea、Bacteria和Eukaryota分类。
排列按字母顺序。
数据库中分别显示蛋白的名称、EC号、来源、GeneBank、Uniprot及PDB数据。
图1
下载PDB文件。
将目标PDB文件下载。
在同种蛋白含有不同PDB文件的时候注意文件的选取。
可以通过上传时间、发表文献等找出最原始的结构,其他相关结构一般为该原始结构的突变结构。
下载Uniprot序列。
将目标Uniprot文件下载,保存为Fasta格式。
一般文件命名原则为:物种_EC号_Uniprot 号_PDB号(如果有的话)。
物种用A、B、E标注。
没有Uniprot号的用GenBank号代替。
为了方便后续的建树,可以先将每个序列文件抬头(一般为第一行”>”标识)名称改为文件所命之名,这样可以省去在建树后改leaf名称的麻烦
1.2 活性中心架构的获取
底物的选取。
用Pymol打开下载好的PDB文件,用present->ligands找出底物。
也可显示全序列,查找序列末端。
注意一般底物为BGC等糖环,而非ACT等小分子。
有的底物在结构解析时有丢失,因此需要详细研究整个家族的PDB,以便将一些底物进行拼接。
图2
切点和方向的确定。
找好底物后将整条糖链横向放置,找出非还原端和还原端(一般非还原端在左,还原端在右)。
查找原始文献,找到切点位置,记录为0点。
0点往非还原端方向的糖环分别为-1、-2、-3、-4……,往还原端方向的糖环分别为+1、+2、+3、+4……。
活性中心氨基酸的筛选。
从一个糖环开始选取其邻近氨基酸。
以5埃为例。
选择第一个糖环的氧原子(如O6),Pymol的log会显示该原子的序号(如6006)。
在CUI中输入命令:select near O6, resi 6006 around 5 。
将选取出来的氨基酸保存后进行下一个原子周围的选取。
统计。
用EXCEL对数据进行统计。
一般首列为PDB号,首行为相对位置。
比如一个氨基酸离-4位糖环的O4比较近,则命名此列为-4 O4。
氨基酸的命名方法是位置号码+氨基酸名,如111A指的是111位的丙氨酸。
将不同PDB的底物和相关氨基酸进行拼凑,至少保证每个位点上有一个氨基酸。
结构比对。
打开VMD,Extension->Analysis->Multiseq. 输入PDB文件。
选择Tools->Stamp Structural Alignment进行结构比对。
比对完后找到目标氨基酸,将其同一位点所有结果都记录在EXCEL中。
注意,空位点用“-”表示。
图3
注意:VMD使用的一些问题。
①文件名不要超过8个字符否则会报错。
因此之前为了建树方便的命名需要进行删减
②在随后的结构模建中,用Swiss-model模建的结构有时候会有配体,而配体在源代码中显示为Z轴。
这是VMD所不能识别的。
因此,在结构比对之前需要把配体删除(如果是带有配体的PDB原文件则不影响)
③结构比对如果出错不能比对可能原因是这些结构中含有某个差异太大导致比对不能的结构。
因此一般再比对是不要一开始就选全部比对(数据量大的话比对时间长如果有差异大的数据则这些时间等于浪费,数据量小可以先尝试全部比对),可以少量多次标记再进行。
1.3 序列谱的绘制
数据的处理。
用UltraEdit对数据进行处理。
从EXCEL中复制所有氨基酸到UltraEdit中,并将所有数字和空格删除。
一般选取列阵模式,可以竖行删除。
图4
序列谱的绘制。
打开WEBLOGO主页: /点击Creat创建序列谱。
在Multiple Sequence Alignment输入上一步编辑好的结果。
Colours选项选择Custom。
颜色设置一般如下:KRH->GREEN; DE->BLUE; FWY->PUPPLE; MV ALI->RED; G-ÆBLACK; NQ->RGB=>FFB300; TSPC->RGB=>FFB3FF。
注意,一般可以根据位点数量调节图片大小比例。
序列谱的验证。
用Consurf数据库(http://consurf.tau.ac.il)对序列进行打分。
进入页面后按提示操作即可。
2 进化树的构建
数据筛选。
将CAZy数据库中Characterized条目的Uniprot数据用Pfam进行搜索,保留本家族结构域,去除CBM等其他结构域。
(linker的保留与否视情况而定)
序列比对。
打开MEGA5。
新建Alignment(选择protein),输入筛选好的数据,点击比对。
保存文件
图5
制作进化树。
打开比对文件,选择Analysis中的系统发育树构建,选择NJ法构建进化树。
一般次数选
择1000次(比500次准一些,经验值)
图6
预处理及输出文件。
选择Bootstrap consensus tree。
在VIEW中有对树的一些显示方式。
其中的OPTION
可以设置枝的粗细等。
选择IMAGE可以输出图像文件。
在File中还可以输出NEWICK文件(以备后用)。
3 绘图与美化
进化树的美化。
进化树的美化有多种方式,这里介绍一种比较简单的工具。
iTOL(http://itol.embl.de/)
是EMBL制作的一个网站工具,这个工具可以对进化树进行很多美化处理。
图7
注册后开始添加文件。
一般一个新的Project需要输入的就是上文提到的Newick文件。
在主页面可以对树进行初步选择。
此外还可以对树进行颜色等编辑。
具体操作请参阅HELP页面。
选取颜色时建议
使用取色器读取RGB数值。
图8
图9
4 其他软件
在做生物信息学数处理时,为了保证数据的准确性和美观性,常使用不止一种软件或方法进行实验。
在此不详细说明,只列举。
序列比对:MEGA5可以进行序列比对。
其他一般用Clustalx等
结构比对:除了VMD外还有STRAP,这个软件相比VMD的优点是不卡,但是数据量大的话耗时也长。
模建:有些没有PDB结构的序列需要进行模建。
通常使用Swiss-model。
它的优点是返回数据块,模建事会自动把两段linker进行删减,缺点是有些模建的结构含有底物,会用Z轴标注,VMD不能识别,需要删除。
此外还有MODWEB也可对结构进行模建。
优点是在SLOW模式下能模建出一些Swiss模建的不好的结构,缺点是过于缓慢,一般SLOW模式需要1-2天,而FAST模式的模建结果不是很好。
绘图:进化树的绘制还可用FigTree;ACDchemSketch可以非常方便的绘制化学结构;一般用Photoshop 处理图片,但是矢量图用CorelDraw效果会更好;一些更好看的模式图可能需要MATLAB和3DMAX;蛋白质结构一般可用POV-RAY打光渲染。
以上提到的全部软件均有免费版本。