微生物分子生态学常用软件使用方法
- 格式:pdf
- 大小:1011.73 KB
- 文档页数:18
生物信息学软件的使用教程与数据分析生物信息学是一门结合生物学和计算机科学的学科,通过利用计算机科学和统计学的方法来研究生物学中的大规模生物分子数据。
在生物研究中,大量的生物信息数据被产生,如基因组测序数据、蛋白质结构数据、转录组数据等,这些数据的分析对于理解生物过程和疾病发生机制至关重要。
生物信息学软件是专门用于处理和分析这些生物信息数据的工具。
本文将介绍一些常见的生物信息学软件的使用教程和数据分析方法。
1. BLAST(Basic Local Alignment Search Tool):BLAST是最常用的序列比对工具之一,用于在数据库中寻找类似序列或通过序列相似性比对两个或多个序列。
BLAST可以用于查找一个给定的序列是否存在于一个已知的数据库中,也可用于快速比较两个序列的相似性,并寻找具有高度相似性的区域。
在使用BLAST时,首先需要选择合适的数据库,然后输入待比对的序列,设置相似性阈值和其他参数,最后运行BLAST程序并分析结果。
2. NCBI(National Center for Biotechnology Information)工具:NCBI提供了许多生物信息学工具,如BLAST、Entrez等。
Entrez是一个可检索多种生物信息学数据库的工具,包括GenBank(存储核酸序列)、PubMed(存储科学文献摘要与索引)、Protein(蛋白质序列数据库)等。
通过使用NCBI提供的工具,可以比对和分析大量的生物序列和相关的生物信息。
使用NCBI工具时,可以通过访问NCBI网站或使用命令行工具来查询和分析数据。
3. R和Bioconductor:R是一种用于统计计算和数据可视化的自由软件环境,而Bioconductor是一个在R环境中为生物学研究提供的开源生物信息学软件包。
R和Bioconductor提供了丰富的统计和生物信息学分析方法,可用于分析基因表达数据、基因组测序数据、蛋白质结构数据等。
Q1.怎么查找序列保守区?A1:很多人查找序列保守区,一般通过序列多重比对后,肉眼判断序列保守区,但此法难免太主观,不具重复性,且选择的保守区无法受统计上的显著性检验。
其实,实现这一目的,可以使用DnaSP--> “Analysis” -->“Conserved DNA region”...【Raindy 注】设计简并引物,用此法,简单易用,强烈推荐...Q2. 多个 FASTA格式保存的单条序列如何批量快速合并为一个文件?A2 :一条条添加,费时费劲,且容易出错。
解决的办法有两个:一是可以通过DNAMAN 的“多重序列比对”后导出功能,即:添加序列所在的目录,或全选相关文件,进行多重比对,导出Clustal aln 文件,然后再转换为FASTA;二是使用我们2012年新开发的序列火枪手套件的“Seq Merger.exe” 即可快速实现合并。
Q3. 如何解决 Clustalx 多重比对(*.Aln格式)后转为MEGA 格式时提示出错的问题?A3:检查所转换 MEGA 的 *.meg 文件最后几行内容是否有*号,全部删减之即可。
因为Clustalx 多重比对后,程序会自动添加一致序列。
Q4. 为什么DNAMAN软件的很多功能菜单都显示无法使用?A4:DNAMAN软件的精华在于通道(Channel)的应用,遇到功能菜单呈灰度无法使用时,不妨将序列载入通道后再试试...Q5. 如何让多重比对美观显示又不占篇幅?A5:推荐使用Web Logo (/logo.cgi)或 Sequence Logo之类的在线工具处理。
其实这类工具还有一个妙用-可用于设计简并引物,简并序列一目了然,如下图的第7个碱其位点,G/A=R。
Q6. 如何在多重比对序列的上方显示对应的蛋白质二级结构?A6:使用 ESPript(http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi)对多重比对序列着色的同时,上传预测的蛋白质结构文件*.pdb 即可,效果如下图所示,也可以下载《马铃薯Y病毒pipo基因的分子变异及结构特征分析》一文参考。
分子生物学实验中的分析软件使用方法介绍随着科技的发展和进步,分子生物学实验的数据量不断增加,对于这些大量的数据进行分析成为了科研工作者不可或缺的一部分。
为了更好地处理和解读这些数据,科研人员们使用各种分析软件来辅助他们的研究工作。
本文将介绍一些常用的分析软件及其使用方法。
一、基因序列分析软件基因序列分析软件是分子生物学实验中最常用的软件之一,它们用于分析DNA或RNA序列以及蛋白质序列。
其中,NCBI Blast是一种非常常用的基因序列比对软件,它可以通过将待比对的序列与已知的序列数据库进行比对,从而确定序列的相关性和相似性。
使用NCBI Blast,我们可以快速找到与我们研究对象相关的序列信息。
二、基因表达分析软件基因表达分析软件用于分析基因在不同组织或条件下的表达水平,以及基因调控网络等。
在这方面,R语言是一种非常强大的工具。
通过使用R语言中的各种包和函数,我们可以对基因表达数据进行聚类分析、差异表达分析、通路富集分析等。
同时,R语言还提供了丰富的数据可视化功能,可以帮助我们更好地展示和解读实验结果。
三、蛋白质结构分析软件蛋白质结构分析软件主要用于预测蛋白质的三维结构以及模拟蛋白质的动力学行为。
其中,Swiss-PdbViewer是一种常用的蛋白质结构可视化软件,它可以帮助我们观察和分析蛋白质的结构特征。
而GROMACS则是一种常用的分子动力学模拟软件,它可以模拟蛋白质在不同环境下的运动轨迹,帮助我们理解蛋白质的功能和机制。
四、基因组学分析软件基因组学分析软件主要用于处理和分析整个基因组的数据,包括基因组序列、基因组注释以及基因组变异等。
在这方面,Ensembl是一种非常常用的基因组分析软件。
它提供了大量的基因组数据和工具,可以帮助我们进行基因组注释、基因组比对以及基因组变异的分析。
五、细胞图像分析软件细胞图像分析软件用于分析和处理细胞图像数据,帮助我们了解细胞的形态和功能。
其中,ImageJ是一种非常流行的细胞图像分析软件,它提供了丰富的图像处理和分析工具,可以帮助我们进行细胞计数、细胞形态分析以及细胞追踪等。
生物信息学工具的使用教程及其在生态保护中的应用随着生物学研究的快速发展,生物信息学成为了解析生物学大数据和推动生物研究的重要工具之一。
生物信息学工具通过利用计算机技术和统计学分析,能够从海量的生物学数据中提取有意义的信息。
本文将介绍几种常用的生物信息学工具及其在生态保护领域的应用。
一、BLAST:快速定位序列相似性BLAST(Basic Local Alignment Search Tool)是一种广泛应用于基因组学、生物信息学和生物工程的序列比对工具。
BLAST可以通过指定一个查询序列,快速地在数据库中搜索相似的序列。
它可以用于比对DNA序列、蛋白质序列甚至整个基因组来寻找相似性。
在生态保护中,BLAST可以用于快速鉴定物种和确定无脊椎动物在某一区域的遗传多样性。
通过将采集到的样品DNA序列与已知的DNA数据库进行BLAST比对,可以精确地鉴定物种和评估其种群结构。
二、PhyloBayes:系统发育推断PhyloBayes是一种基于贝叶斯统计方法的系统发育分析工具。
它能够根据DNA或蛋白质序列的比对结果,利用基因演化模型构建物种间的系统进化关系。
与传统的最大似然方法相比,PhyloBayes能够更准确地还原物种的演化历史。
在生态保护中,PhyloBayes可以用于研究物种的起源和演化关系,评估物种的多样性和分布格局。
通过对不同物种的系统发育分析,可以揭示它们之间的种属关系,为生态保护工作提供指导。
三、R语言和Python:数据分析和可视化R语言和Python是两种常用的科学计算语言,它们广泛应用于生物信息学中的数据分析和可视化。
R语言拥有强大的统计分析和可视化软件包,而Python则具有丰富的科学计算库,使得二者成为生物信息学工具开发和应用的首选语言。
在生态保护中,R语言和Python可以用于生物群落分析、物种分布建模和环境数据处理。
通过对野外调查数据的统计分析和可视化,可以更好地了解物种多样性和环境变化,帮助制定生态保护策略。
PHYLIP使用下面介绍几个软件的使用。
首先是PHYLIP。
其是多个软件的压缩包,下载后双击则自动解压。
当你解压后就挥发现PHYLIP的功能极其强大,主要包括五个方面的功能软件:i,DNA 和蛋白质序列数据的分析软件。
ii,序列数据转变成距离数据后,对距离数据分析的软件。
iii,对基因频率和连续的元素分析的软件。
iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列进行分析的软件。
v,按照DOLLO简约性算法对序列进行分析的软件。
vi,绘制和修改进化树的软件。
在此,我主要对前两种功能软件进行说明。
我们现在有几个序列如下:Mo3ATGTATTTCGTACA TTACTGCCAGCCACCA TGAATATTGCACGGTACCATMo5ATGTATTTCGTACA TTACTGCCAGCCACCA TGAATATTGTACGGTACCATMo6ATGTATTTCGTACA TTACTGCCAGCCACCA TGAATATTGTACGGTACCATMo7ATGTATTTCGTACA TTACTGCCAGCCACCA TGAATATTGTACAGTACCA TMo8ATGTATTTCGTACA TTACTGCCAGCCACCA TGAATATTGTACAGTACCATMo9ATGTATCTCGTACATTACTGCCAGCCACCA TGAATATTGTACGGTACCATMo12ATGTATTTCGTACA TTACTG CCAGCCACCA TGAATATTGTACGGTACCA TMo13ATGTATCTCGTACATTACTGCCAGCCACCA TGAATATTGTACGGTACCAT要对这8个序列进行进化树分析,按照上面的步骤,首先用CLUSTALX排列序列,输出格式为*.PHY。
用记事本打开如下图:图中的8和50分别表示8个序列和每个序列有50个碱基。
然后,打开软件SEQBOOT,如下图:按路径输入刚才生成的*.PHY文件,并在Random number seed (must be odd) ?的下面输入一个4N+1的数字后,屏幕显示如下:图中的D、J、R、I、O、1、2代表可选择的选项,键入这些字母,程序的条件就会发生改变。
在互联网上,有很多软件可以解决对单个基因进行研究的分子生物实验人员从立项到最后写论文的实际问题。
以下是在对相同作用的很多软件进行比较后,推荐给一线实验人员使用的Windows应用软件。
一、资料收集整理阶段二、序列分析、实验设计模拟阶段三、实验操作和数据分析阶段四、文章写作和结果发表阶段五、分子生物学实验室常用数据库一、资料收集整理本阶段需要查找某个项目专题的文章,并写出对该专题的综述,以便对自己所要做的课题的现状有一个基本的了解。
★推荐软件:Reference Manager 10.0同类参考软件:Endnote 6.0二、序列分析、实验设计模拟1.综合性软件这类软件要求对本阶段上述的大部分功能均具备,而且这类软件在一些专项分析上仍有绝对优势。
★推荐软件:DNASTAR同类参考软件:Vector NTI Suite 6.0、Omiga 2.0、DNASIS 2.5、DNATools 5.12.制酶分析可能是最简单的功能了,用普通的文本搜索也能找出相应的序列位点。
正因如此,我们希望软件在结果输出上有更完美的表现。
另外几乎所有的软件都没有考虑在酶切位点前应该有保护碱基,所以该分析通过,并不能在实验中总能通过。
★推荐软件:DNAssist 1.0同类参考软件:Primer Premier 5.0、Vector NTI Suite 6.0和其他多种软件3.引物设计引物设计一般包括用于检测和用于进一步分子操作的引物。
其中用于分子操作的在原来序列上设计,加上接头和保护碱基。
但几乎所有软件都没有考虑接头和保护碱基的设计。
因此能否对假定的引物进行各种属性的分析,参考各种结果,最后找到合适的引物序列便成为选择软件的最关键。
★推荐软件:Primer3同类参考软件:Primer Premier 5.0,Vector NTI Suite 6.0 DNAClub、Oligo 5.04.序列比对序列比对包括部分完全相同序列查找和序列相似性排列两类。
附录3分子生态学统计软件介绍分子生态学是研究生命系统与环境系统相互作用的分子基础与分子机理的崭新的分子生物学与生态学的交叉学科,是从基因、蛋白质、酶等生物分子活动规律来阐释生态规律进化、生态过程、适应和演变历程(Burke et al ,1992; Bachmann et al ,1994)。
这些研究通常会产生大量而复杂的分子数据,选择合适的统计方法对正确的解释科学现象是非常重要的。
以下就介绍几类常用的分子生态学软件。
3.1 遗传多样性与遗传结构分析软件遗传多样性是生物多样性的基础,丰富的遗传多样性可以提供很多宝贵的遗传资源。
因此为了对天然群体的遗传多样性研究,分子生态学专家开发出了一系列的评估软件,用于计算和检测生物群体基因变异的度量和遗传指标,其中用得比较广泛的有POPGENE 、STRUCTURES 、GENEPOP 、GenAlEx 6、NTSYSpc 、FSTAT 等。
POPGENE 是由Francis Yeh 等人开发的用共显性和显性标记来研究群体内和群体间的遗传多样性。
这个软件操作较简单,功能也比较全,主要包括计算广泛的遗传学数据如等位基因频率、遗传多样性、遗传距离、G -statistics 、F -statistics 等以及复杂的遗传学数据基因流、中性检测、连锁不平衡、多位点结构等。
新版本的POPGENE 还可用来分析数量遗传变异以及提供更高质量的系统聚类图。
POPGENE 下载地址:http://www.ualberta.ca/~fyeh/download.htmFSTAT 软件包是Jérôme Goudet 开发的用于计算共显性标记的遗传多样性和遗传分化参数。
主要功能如下:检测样本和总体水平上的基因频率,观察和期望基因型,等位基因数,基因丰富度;检测整体水平上以及每个样本或位点是否处于哈温平衡; Nei's (1987)的遗传多样性和遗传分化的估计值和 Weir & Cockerham (1984)每个等位基因,每个位点以及总体上的Capf (Fit), theta (F st )和smallf (F is)的估计值;检测R- statistics (Slatkin , 1995),5 将原始数据转化成Genepop 的格式等。
常用分子生物学软件的入门介绍一、基因芯片:1、基因芯片综合分析软件。
ArrayVision 7.0一种功能强大的商业版基因芯片分析软件,不仅可以进行图像分析,还可以进行数据处理,方便protocol的管理功能强大,商业版正式版:6900美元。
Arraypro 4.0Media Cybernetics公司的产品,该公司的gelpro, imagepro一直以精确成为同类产品中的佼佼者,相信arraypro也不会差。
phoretix™Array Nonlinear Dynamics公司的基因片综合分析软件。
J-express挪威Bergen大学编写,是一个用JAVA语言写的应用程序,界面清晰漂亮,用来分析微矩阵(microarray)实验获得的基因表达数据,需要下载安装JAVA运行环境JRE1.2后(5.1M)后,才能运行。
2、基因芯片阅读图像分析软件ScanAlyze 2.44斯坦福的基因芯片基因芯片阅读软件,进行微矩阵荧光图像分析,包括半自动定义格栅与像素点分析。
输出为分隔的文本格式,可很容易地转化为任何数据库。
3、基因芯片数据分析软件Cluster斯坦福的对大量微矩阵数据组进行各种簇(Cluster)分析与其它各种处理的软件。
SAMSignificance Analysis of Microarrays 的缩写,微矩阵显著性分析软件,EXCEL软件的插件,由Stanford大学编制。
4.基因芯片聚类图形显示TreeView 1.5斯坦福开发的用来显示Cluster软件分析的图形化结果。
现已和Cluster成为了基因芯片处理的标准软件。
FreeView是基于JAVA语言的系统树生成软件,接收Cluster生成的数据,比Treeview增强了某些功能。
5.基因芯片引物设计Array Designer 2.00DNA微矩阵(microarray)软件,批量设计DNA和寡核苷酸引物工具常用分子生物学软件的入门介绍二、RNA二级结构。
常用分子生物学软件(二)引言概述:随着分子生物学研究的不断深入,分析和处理分子生物学数据的需求日益增长。
为了满足这一需求,许多常用的分子生物学软件被广泛应用于实验室和研究机构中。
本文将介绍一些常用的分子生物学软件,以帮助研究人员更好地理解和应用这些工具进行数据分析和实验设计。
正文:1. 序列分析软件1.1 BLAST:用于快速比对蛋白质或核酸序列,帮助确认其他物种中是否存在与查询序列相似的序列。
1.2 ClustalW:用于多序列比对分析,可以对多个序列进行比较,并生成比对结果。
2. 基因表达和调控软件2.1 DESeq2:用于差异表达分析,可以识别和分析基因在不同样本或条件下的表达差异。
2.2 MEME:用于寻找和分析DNA、RNA或蛋白质序列中的共同模otif,帮助识别某些转录因子的结合位点。
3. 蛋白质结构预测软件3.1 SWISS-MODEL:基于比对分析和模板结构预测,可以预测目标蛋白质的三维结构。
3.2 Phyre2:利用比对、结构推理和模板模拟方法,用于蛋白质序列到结构的预测。
4. 分子模拟软件4.1 GROMACS:用于分子动力学模拟的软件套件,可以模拟蛋白质、核酸和膜蛋白等生物分子的运动和相互作用情况。
4.2 AMBER:常用的分子模拟软件,用于模拟和分析生物大分子的结构、动力学和能量。
5. 生物网络分析软件5.1 Cytoscape:用于构建和分析复杂网络的开源软件平台,尤其适用于生物学领域中的生物网络分析。
5.2 STRING:用于生物网络分析和预测蛋白质相互作用的在线工具,可以帮助解析基因或蛋白质之间的关系网络。
总结:本文介绍了常用的分子生物学软件,包括序列分析、基因表达和调控、蛋白质结构预测、分子模拟和生物网络分析等方面的工具。
这些软件的使用可以帮助研究人员更好地理解、分析和解释分子生物学数据,促进科学研究的进展和创新。
实验七微生物分子生态学常用软件使用方法微生物生态学研究中测序已经成为一项常规的必不可少的分析手段,实验后常常会得到大量的核酸序列,有的是细菌基因组上随机的序列片断,有的是16S rRNA基因的克隆文库,有的是功能基因序列等等,如此海量的序列数据,需要进行正确、快速和有效的分析,熟练掌握各种生物学软件的使用方法就显得尤为重要。
这里我们主要介绍如何进行序列同源性分析,如何构建系统进化树,如何对克隆文库进行分析,如何对DNA指纹图谱进行比较分析,介绍相关软件的使用方法。
一、实验原理这里简要介绍序列数据分析过程中用到的软件:BLAST是NCBI(the National Center for Biotechnology Information)的一项服务。
BLAST在网络上可以直接使用,我们可以提交序列,并与NCBI数据库(GenBank+EMBL+DDBJ+PDB sequences)进行比对,之后会将一系列的结果返回给用户。
GeneTool可以进行核酸分析,本文中主要用于去除载体序列。
ClustalX 1.8:广泛使用的多序列比对程序,在ClustalW多序列比对程序的基础上增加了图形用户界面。
输入为多序列的Fasta格式文件,进行多序列全局比对生成结果的同时,在指定文件夹生成“.dnd”和“.aln”格式文件。
PhyloDraw 0.8:构建进化树的绘图工具,它支持多种多序列比对软件的Multiple Alignment 结果。
本实验采用ClustalX进行多序列比对,生成“.dnd”格式的比对文件,最后用PhyloDraw 画出序列进化树。
它支持Unrooted tree(无根树)、Rooted tree(有根树)、Radial tree(放射状树)、Rectangle cladogram(矩形进化分支树)、Slated cladogram和Phylogram(序列进化树)。
这些都是不同的树型,结果是一致的。
下面简要说明Blast、Fasta、Cluastx、PhyloDraw等进行序列比对以及构建进化树的算法等,作为深入研究的理论基础。
DNA序列的比对是生物信息学的基础之一,寻找序列相似性的过程称为序列比对。
系统进化推断是通过生物间可观测的性质来建立物种之间进化关系假说的方法。
我们的目的是构建系统进化树,它已成为相似性比对为基础表示进化关系的很直观的方法。
系统进化树是严格的二叉树,二叉分支假设极大的简化了建树算法。
在系统进化树中,序列之间的进化距离可以作为树枝长度的度量。
构建系统进化树的方法很多,主要有以下四种方法:(1)基于成对距离比对的系统进化树:这种方法能够生成有根的树,这种方法首先通过定义每一对序列之间的距离矩阵初始化,然后按照距离分组,最后建立从树枝到树根的树。
(2)基于相邻连接的系统进化树:这种方法不仅根据距离矩阵搜索最小的成对距离,而且会搜索使整个树高最小的相邻集,最适合于进化距离较短的情况。
(3)基于最大节约法的系统进化树:这种方法是从一系列可能的树中找到一个需要最少的核苷酸替换就可以解释所看到差异的树。
(4)基于最大似然法的系统进化树:这是一种概率法,它通过在信息位点的每种可能的进化改变的概率排列并使树的总概率最大化来寻找最佳选择。
最常见的UPGMA ,它的全称是使用算数平均数的未加权对群法(Unweighted Pair Group Method with Arithmetic),该算法属于基于成对距离比对生成系统进化树算法。
z UPGMA 算法描述:初始化过程 :(1) 为每个物种建立一个群(Cluster);(2) 每个群的大小赋初值n i =1,即只包括一个物种;(3) 计算任意两个群之间的距离ij D ,采用二维数组存储该距离矩阵;(4) 输出树为T ,为每个物种分配一个叶结点。
循环过程:每一个循环都能将将其中两个群合成为一个群(1) 遍历所有距离值,找出具有最近距离D ij 的两个群i 和j ;(2) 创建一个新的群(ij),它共有j i (ij)n n n +=个物种;(3) 连接树上的i 和j 到一个新的结点,该结点对应于新的群(ij),连接i 和j 的树枝长度为2,ji D ;(4) 按照下面公式计算从新的群到其它每个群的距离(不包括i 和j )k j ji j k i j i i D n n n D n n n k ij D ,,()(),(+++= (5) 删除距离矩阵中i 和j 的记录,添加新的记录D (ij),k(6) 返回1直到只剩下一个群;综上所述,该算法主要思想是首先将每个序列被分配到自己的群中,从树的零高度开始这个序列的分支,找出距离最近的两个群合并为一个群,直到剩下一个群为之。
树枝的长度反应两者之间的距离,即进化时间的长短,构造的顺序是从树枝到树根逐渐构造。
二、实验目的分析实验数据,大量的序列数据信息分析整理,进行同源性比较、构建进化树、分析指纹图谱的相似性等。
三、实验材料(1)以本室的序列数据为例,介绍相关软件的使用方法。
(2)生物学软件:如上列举的软件。
四、操作步骤4.1 序列分析及进化树构建4.1.1. 去除载体序列,目标序列经克隆(以克隆到 Promega 公司生产的pGEM-T载体为例)通用引物(T7/SP6)测序后,测序结果中带有部分载体序列,在进行序列分析以前,要首先去除载体序列,可以使用DNAMAN和GeneTool等等,这里以GeneTool为例进行说明。
下图是GeneTool软件的主界面:将需要去载体序列的文件(Raw Sequence)打开,搜索EcoR I 酶切位点 GAATTC (pGEM-T easy 载体两端均有该位点),以下图为例,上游和下游的序列均用蓝色标出从上游位点向后第5个碱基开始,下游位点向前第11个碱基开始为我们的目标片断,选中之后输出,保存为FASTA格式的”TXT”文件,这样就完成了我们去载体序列的过程。
4.1.2. 到GenBank数据库中进行Blastn分析, 找到其Closest Relatives:打开/BLAST/如下图所示:选择做Nucleotide-nucleotide BLAST (Blastn)弹出界面:将要比对的序列填入Search中,下面以GenBank中公开的NC_003045序列(Bovine coronavirus, complete genome)为例进行分析。
参数可以采用默认值,之后点击BLAST,以可以得到下图的结果:其中Query = (31,028 letters)表示我们序列全长为31028bp,查询的ID为1089336352-4777-118277223650.BLASTQ4,点击Format开始搜索GenBank数据库,采用Blast的方法,并将结果返回给用户,下表显示了GenBank 中和序列NC_003045做Blast之后得到的序列,从上到下同源性降低。
下图表示AF391541.1序列和NC_003045序列的配对情况。
我们可以将排在最前面的(1-2条)序列下载下来,这就是与测许序列亲缘关系最近的序列信息(Closest Relatives)。
值得注意的是,有时候序列之间是反向匹配的,我们需要将测许序列顺过来,使其方向从小到大,这样就完成了第二步——在数据库中寻找同源序列。
4.1.3. 通过Clustalx软件和PhyloDraw构建系统进化树。
第二步中,我们可以将一个文库中测序得到的每个序列都到GenBank中找到与其相似的同源性最高的序列,用这些序列进行构建进化树时,进化树中将包含大量已知序列,可以作为目标序列进化地位的参考。
在下图的范例中,我们L-46c、L-33c、L-18、L-67、L-92、L-ASa、L-ASb、L-46d、L-33d均为我们实验室测序得到的序列,有了从GenBank中得到的亲缘关系较近的序列,生成的进化树中能够一目了然地看到这些未知序列的分类地位。
以下介绍如何使用ClustalX软件和PhyloDraw构建系统进化树首先,将所有的要构建系统进化树的序列存储到一个文件中,采用FASTA格式,FASTA 格式又称为Pearson格式,这是比较简单而使用最多的序列格式。
序列文件的第一行是由大于符号开头的任意文字说明,主要为标记序列用,从第二行开始为序列本身。
碱基名称大小写均可,如下所示:> sequence1acttaaaaagattttctatctacggatagttagctctttttctagaccttgtctactcaattcaactaaacagaaattttgtccttccttccggccgcatgttcatgctgctggaagctg> sequence2acttaaaaagattttctatctacggatagttagctctttttctagaccttgtctactcaattcaactaaacagaaattttgtccttccttccggccgcatgttcatgctgctggaagctg> sequence3acttaaaaagattttctatctacggatagttagctctttttctagaccttgtctactcaattcaactaaacagaaattttgtccttccttccggccgcatgttcatgctgctggaagctg其次,使用ClustalX打开这个存储多个序列的文件之后做Alignment,将输出“.dnd”格式的文件作为PhyloDraw的输入。
最后,使用PhyloDraw打开上一步生成的“.dnd”文件,可以有不同的树型供选择:Unrooted tree Rooted treeRadial tree Phylogram通过上面的去除载体序列,到GenBank下载Closest relatives序列,以及最后的构建进化树三个步骤,就完成了对序列进行分析的一个主要工作。
4.2 使用RDP在线分析数据及构建进化树RDP(Ribosomal Database Project)主要是提供关于核糖体相关的序列数据,它可以实现在线的构建进化树,序列比对等。
实验中得到的16S rRNA序列信息可以在线使用RDP 进行分析。
下面简要介绍如何在线使用RDP分析序列并构建系统进化树。
打开/cgis/phylip.cgi这是一个通过web接口提供Phylip和weighbor 服务的程序。
我们可以使用这个程序来创建距离矩阵(相似性矩阵)和构建系统进化树。
我们可以使用自己的序列和RDP数据库中序列结合在一起构建系统进化树,步骤如下:1.编辑要构建进化树的数据集合Edit Data Set:首先将序列上传到RDP中,点击Edit Data set,之后,可以通过browse打开本地序列,见下面的左图。