clustalx的应用
- 格式:doc
- 大小:2.58 MB
- 文档页数:28
实习二:序列比对-Dotplot和Clustalx一、实习目的:(1)掌握利用点阵法进行两条序列比对(2)学会使用Clustalx软件进行多条序列比对二、实习内容:(一)Dotplot点阵法是非常简单、直观的一种两条序列比对的方法,它能展示出两条序列所有可能配对的区域,由研究者决定最有意义或自己感兴趣的区域。
通过点阵法还可以对序列自身进行比对,寻找序列内部的正向或反向重复区域或互补区域。
正向重复为与主对角线平行的折线区域,而反向重复为与主对角线垂直的折线区域。
/molkit/dnadot/主要设置:窗口大小(Window Size):即在两条序列中同时比较的字符串的长度。
此软件要求窗口大小必须为奇数。
错配限制(Mismatch Limit):在给定窗口里,允许错配的数目。
如果错配数量小于等于此数目,则在图上标记点,否则,不做标记。
窗口大小越小,图上出现的点的数目越多,反之越小。
错配限制越小,图上出现的点越少,反之越小。
尝试改变这两个参数,体会其对比对结果的影响。
主要作用:1.通过序列自身比对,寻找其重复和反向重复区域。
2.查找同源序列,在entrez或srs系统,查寻不同物种中的同源序列再进行Dotplot分析。
(二)ClustalXClustal是一种利用渐近法(progressive alignment)进行多条序列比对的软件。
即从多条序列中最相似(距离最近)的两条序列开始比对,按照各个序列在进化树上的位置,由近及远的将其它序列依次加入到最终的比对结果。
Clustalx比对结果是构建系统发育树的前提。
运用流程:载入序列―>编辑序列―>设置参数―>完全比对―>比对结果三、作业1、简要说明你如何搜索不同物种的同源序列,并解释这些序列进行dotplot分析得到的结果。
答:主要有以下几个步骤:1)、首先进入entrez或srs系统,我选择的是entrez系统。
2)、点击,进入界面。
Clustalx的中文使用说明书
生物
用ClustalX做多序列比对分析图示
1、打开程序如下图所示:
2、Load Sequnce, 载入序列如下图所示:
3、选择序列文件,FASTA格式的如下图所示:
4、用文本编辑器察看FASTA序列文件内容,这里用的是记事本,推荐用EditPlus或者Ultraedit 如下图所示:
5、序列Load进去之后如下图所示:
6、Do Complete Alignment, 通常情况下直接选这个即可,无须修改比对参数如下图所示:
7、点Do Complete Alignment之后弹出的文件对话框,.dnd的是输出的指导树文件,.aln 的是序列比对结果,它们都是纯文本文件如下图所示:
点“ALIGN”之后开始等待,如果序列不多,很快就可以算完,如果数据很多,可能要等一段时间,这时候可以用眼睛盯着ClustalX的状态栏,那里会有程序运行状态和现在正在比对那两条序列的提示信息,看看可以消磨时间。
8、比对结束之后,我们可以看到这个结果如下图所示:
9、这时候我们可以发现ClustalX已经生成了.dnd和.aln两个文件,仍然用文本编辑器打开来看,这时.aln文件,这个文件可以用Mega2做进一步的bootstrap进化树分析如下图所示:
10、这是.dnd文件(指导树) 如下图所示:
11、可以用Treeview打开dnd文件,看上去就像这样子如下图所示
图3-15 ClustalX所识别的文件输入格式。
Clustalx多序列比对-生物信息学实验三:多条序列比对——Clustalx实习目的:了解掌握Clustalx软件的应用,学会做多条序列比对并分析。
实习内容:一、ClustalX的使用Clustal是一种利用渐近法(progressive alignment)进行多条序列比对的软件。
即从多条序列中最相似(距离最近)的两条序列开始比对,按照各个序列在进化树上的位置,由近及远的将其它序列依次加入到最终的比对结果。
1. 准备要比对的序列请查找至少存在于5个物种中的同源序列(核酸或蛋白质皆可),并保存为fasta格式,存为文本文件(所有的序列请粘贴到同一个文本文件中)。
选择NM、XM或NP打头的序列,不要选择NC或NW打头的序列,那是全基因组序列。
建议关键词:hemoglobin,trypsin, peroxidase, p53, Superoxide Dismutase, h5n1, etc.2. 打开clustalX程序开始菜单,程序,clustalX2- clustalX23. 载入序列点最上方的File菜单,选择Load Sequence-选择你刚保存的序列文件,点打开。
”后的字符。
注意:ClustalX程序无法识别汉字,无法识别在左侧窗口里是fasta格式序列的标识号,取自序列第一行“>带空位的文件夹名,如 my document。
各位同学的序列文件不要保存在桌面上或带汉字的文件夹中,推荐保存在D盘根目录下。
4. 比对参数的选择可以对两条序列比对的参数和多条序列比对的参数进行设置。
a. 两条序列比对的参数设置点击Alilgnment菜单,选择Alignment Parameters,再选择Pairwise Alignment Parameters。
首先可以选择比对的效果,是slow/accurate 还是fast/approximate。
第一种模式采用的是动态规划算法进行比对的,第二种模式采用的是启发式的算法。
blast和clustal的原理一、引言Blast和Clustal是生物信息学领域中常用的两种序列比对工具。
Blast 主要用于快速查找数据库中与给定序列相似的序列,而Clustal则用于多个序列之间的比对。
本文将分别介绍Blast和Clustal的原理。
二、Blast原理1. 基本概念Blast全称为Basic Local Alignment Search Tool,是一种常用的序列比对工具。
其基本思想是通过寻找两条序列之间最长的局部匹配来确定它们之间的相似性程度。
2. 搜索算法Blast搜索算法主要分为两步:预处理和搜索。
预处理阶段,将数据库中所有序列进行预处理,生成索引文件。
这个过程称为建立BLAST数据库。
这个过程通常耗时较长,但只需要执行一次。
搜索阶段,将查询序列与索引文件进行比对,并找出最佳匹配结果。
这个过程通常很快,可以在几秒钟内完成。
3. 基本流程Blast基本流程如下:(1)将查询序列切成多个长度相等的片段;(2)将每个片段与数据库中所有序列进行比对,并计算得分;(3)根据得分排序,并选择最高得分的前N条结果返回。
4. 常用算法Blast有多种算法,其中最常用的是BLASTP、BLASTN、BLASTX、TBLASTN和TBLASTX。
(1)BLASTP:用于比对蛋白质序列与蛋白质数据库中的序列;(2)BLASTN:用于比对核酸序列与核酸数据库中的序列;(3)BLASTX:用于比对核酸序列的翻译产物与蛋白质数据库中的序列;(4)TBLASTN:用于比对蛋白质序列与核酸数据库中的翻译产物;(5)TBLASTX:用于比对核酸序列与核酸数据库中的翻译产物。
三、Clustal原理1. 基本概念Clustal全称为Cluster Analysis,是一种常用的多序列比对工具。
其基本思想是通过寻找多条序列之间最长的共同片段来确定它们之间的相似性程度。
2. 比对算法Clustal比对算法主要分为两步:预处理和多重比对。
工具:JModeltest下载地址:http://darwin.uvigo.es/补充工具:Clustalx下载地址:/1.使用Clustalx 工具进行多序列比对,将结果存储为FASTA 格式2.Clustalx 工具是一种多序列比对工具。
本次实验我使用的是2.0.12 版本,和以前的输出格式相比,又多了一种新的输出格式——FASTA 格式,这个格式是将比对结果中的gap 用“- ”替换,然后存储成一般的序列格式,这个格式对接下去JModeltest 的使用十分重要。
一般情况下FASTA 格式并不是默认的输出格式,需要在设置中添加。
首先,打开Clustalx, 再选择Alignment -> Output Format Options ,在弹出的对话框中将FASTA format 打上勾即可。
另外,Jmodeltest 也可以使用NEXUS 格式。
下面是一个例子,假设有两条序列(虽然是个多序列比对工具,还是举个两条序列的简单例子比较容易理解):>P1ATGGGGTTTAGA TAA>P2ATGTTTAGTTAA比对之后存储的FASTA 结果应该是:>P1ATGGGGTTTAGA TAA>P2- - - ATGTTTAGTTAA注意事项:A. 输出时记得要对输出的文件名进行修改,否则会把原来的文件替换掉;B. 进行比对时,比对文件必须放在纯英文的路径下,否则软件无法读取;2. JModeltest 的使用:JModeltest 下载下来后不需要再安装,直接运行即可。
使用起来也简单易懂。
首先,点击File -> Load DNA alignment ,读取比对结果的FASTA 格式文件文件,之后选择需要进行测试的模型,点击Analysis -> Compute likelihood scores ,弹出对话框:对话框提供了4 种不同模式进行计算,每种模式包含的模型具体如下:3 schemes: JC, HKY and GTR.5 schemes: JC, HKY, TN, TPM1, and GTR.7 schemes: JC, HKY, TN, TPM1, TIM1, TVM and GTR.11 schemes: JC, HKY, TN, TPM1, TPM2, TPM3, TIM1, TIM2, TIM3, TVM and GTR.选择好这后就可以点击开始计算。
Clustalx 多重序列比对图解教程(By Raindy)本帖首发于Raindy'blog,转载请保留作者信息,谢谢!欢迎有写生物学软件专长的战友,加入生信教程写作群:13559330,接头暗号:你所擅长的生物学软件名称软件简介:CLUSTALX-是CLUSTAL多重序列比对程序的Windows版本。
Clustal X为进行多重序列和轮廓比对和分析结果提供一个整体的环境。
序列将显示屏幕的窗口中。
采用多色彩的模式可以在比对中加亮保守区的特征。
窗口上面的下拉菜单可让你选择传统多重比对和轮廓比对需要的所有选项。
主要功能:你可以剪切、粘贴序列以更改比对的顺序;你可以选择序列子集进行比对;你可以选择比对的子排列(Sub-range)进行重新比对并可插入到原始比对中;可执行比对质量分析,低分值片段或异常残基将以高亮显示。
当前版本:1.83PS:如果你是新手或喜欢中文界面,推荐使用本人汉化的Clustalx 1.81版链接地址:/index.php?Go=Show:ist&ID=7435 (请完整复制)应用:Clustalx比对结果是构建系统发育树的前提实例:植物呼肠孤病毒属外层衣壳蛋白P8(AA序列)为例流程:载入序列―>编辑序列―>设置参数―>完全比对―>比对结果1.载入序列:运行ClustalX,主界面窗口如下所图(图1),依次在程序上方的菜单栏选择“File”-“Load Sequence”载入待比对的序列,如图2所示,如果当前已载入序列,此时会提示是否替换现有序列(Replace existing sequences),根据具体情形选择操作。
图1图22.编辑序列:对标尺(Ruler)上方的序列进行编辑操作,主要有Cut sequences(剪切序列)、Paste sequences(粘贴)、Select All sequences(选定所有序列),Clear sequence Selection(清除序列选定)、Search for string(搜索字串)、Remove All gaps(移除序列空位)、Remove Gap-Only Columns(仅移除选定序列的空位)图33.参数设置:可以根据分析要求设置相对的比对参数。
利用clustalx 2.1对蛋白进行多序列比对目录1. 方法介绍1.1概念1.2理论基础1.3任务1.4目的2研究内容3. 工具3.1 clustalx简介3.2 clustalx 后台运作流程3.3 clustalx的下载3.4 clustalx菜单设置4.操作步骤4.1获取目标序列4.2执行比对4.3 treeview软件制作进化树5. 结果分析正文1. 方法介绍:多序列比对1.1 概念:多序列比对即通过多个核苷酸或氨基酸的序列进行比较,确定序列之间可能由于功能、结构或进化上的关联而形成的相似片段。
1.2 理论基础:1)生物学一个最基本的假设是地球上所有物种都有共同的祖先,从这个祖先开始以树状形式发展,通常称为生命之树。
2)基于序列比对的同源即具有共同祖先。
同源序列一般相似;相似可以用百分比来描述。
序列不一定是同源的,相似序列在进化上具有趋同性。
序列决定结构,结构决定功能。
3)现有的基因、蛋白质等携带生物学信息、具有生物学功能的分子都是由原有的分子演化而来;现有的基因及其他核酸序列,都是由已经存在的基因或其他序列经过复制、转移、合并、删减等方式形成的;不同物种的基因、蛋白质在结构、序列上的相似性与其进化上亲缘关系密切相关。
1.3 任务:发现序列之间的相似性,找出序列之间共同的区域,辨别序列之间的差异。
1.4 目的:通过“相似序列→相似的结构→相似的功能“来判别序列之间的同源性,进而推测序列之间的进化关系。
2. 研究内容:通过对人类、家鼠、大鼠和鸡体内BMP-2(bone morphogeneticprotein 2)即骨形态发生蛋白2的多序列比对得到的dnd结果文件来揭示在四种生物中的该蛋白的同源性。
3. 工具:clustalx 2.13.1 clustalx简介:Clustal是用来对核酸与蛋白序列进行多序列比对的软件,可以用来发现特征序列,进行蛋白分类,证明序列间的同源性,帮助预测新序列二级结构与三级结构,确定PCR引物,以及在分子进化分析方面均有很大帮助。
Clustal包括Clustalw和Clustalx和Clustal omega。
Clustalw是命令行接口;Clustalx是一个图形用户界面;;Clustal omega是Clustal家族的最新补充,是在以前的版本基础上,提供了一个显著增长的可扩展性,使数以十万计的序列在只有几个小时内排列。
它也将使用多个处理器包含其中。
此报告仅介绍本地软件版clustalx,其操作界面简单,运行速度较快使其被广泛使用。
3.2 clustalx 后台运作流程:3.3 clustalx的下载:1)在浏览器地址栏输入clustal官方网站网址并进入;2)在右下角点击ClustalW/ClustalX并进入3)呈现的界面如下,点击EBI ftp sitej进入下载条目界面4)选择最新版本2.1,进入5)选择windowns版本的clustalx2.1,点击进行下载6)在弹出的下载窗口中选择保存位置7)完成下载3.4 clustalx菜单设置(因软件功能多样,此模块仅介绍与多序列比对相关的主要操作内容)输入序列的格式比较灵活,可以是FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式;输出格式也可以选择,有ALN、GCG、PHYLIP和NEXUS等,用户可以根据自己的需要选择合适的输出格式。
1)打开clustalx软件,操作界面如下图所示。
上方有七个条目,分别是file(文件),edit(编辑),alignment(比对),tree(树状图),colors (颜色),quality(打分)和help(帮助)。
2)空白处的上方“mode”下可选择比对模式,有multiple alignment mode(多序列比对模式)和profile alignment file(剖面比对模式)。
我们做的一般选择多序列比对模式。
3)在mode右边的font(字体)下拉框中可根据需要选择字体大小4)上方工具栏点击file,出现的load sequence为载入序列,选择此载入方式的前提是要把比对的多条序列保存在一个TXT文件中,重复操作则覆盖上次文件;append sequence为添加序列,选择此载入方式即可把分开保存的序列文件分别载入到界面中;save sequence 为保存序列。
5)Edit下有针对已载入序列的各种编辑操作,“cut sequence”为剪切,”paste sequence” 为粘贴,”select all sequence”为选中全部,下面还有”clear sequence selection”清除所选序列,”clear range selection” 清除所选区域,”remove gaps”清除空位等操作6)alignment下有“do complete alignment“执行序列比对,”do guide tree only“只输出引导树,”alignment parameters“比对参数等,点击比对参数后,在右弹窗中可选择需要的比对参数,如”multiple alignment parameters“多序列比对参数。
7)点击multiple alignment parameters,弹出窗口如下所示gap opening 空位,右边框中输入打分值gap extension为扩展,右框中输入打分值protein weight matrix 为比对蛋白序列时选择的打分矩阵此处可载入自定义打分矩阵DNA weight matrix 为比对核苷酸序列时选择的打分矩阵8)以下为构建引导树的内容,因下文实例操作中用treeview构建进化树,此处引导树不再做介绍。
应注意的是,引导树不等同于进化树,引导树是clustalx软件在运行时知道比对的一个参照。
此处可选择draw tree 观看引导树。
9)在colors 下可选择设置序列颜色,可选black and white 设置黑白色,也可通过load color parameter file 上传自定义色彩文件,一般默认即可10)在quality下可以选择突出显示“show low-scoring segment“打分低的区段,“show exceptional residues”显示空位位点,也可选择“save column score to file”把比对得分以纵列形式保存成文件。
11)help中有关于软件操作的所有指导4.操作步骤4.1获取目标序列Homo sapiens 人类Mus musculus 家鼠 Rattus norvegicus 大鼠Gallus gallus 鸡以其中一条序列为例的序列下载过程:1)在浏览器中输入NCBI 的网址 并进入2)在下方搜索栏中选择“protein ”数据库,搜索关键词“bmp-2”3)点击搜索后出现以下界面,根据描述“Mus musculus ”打开此条目4)在出现的界面中选择“FASTA”格式显示。
5)以FASTA格式显示的序列如下图所示6)点击右上方的“send to”,选择下载FASTA格式的序列文件7)依次下载四条序列。
下载完成后可将四条序列保存在一个文件中,选择load载入软件;也可以分开保存,选择append载入软件。
文件中每条序列必须以“>”号和注释开头,序列部分则另起一行,其中注释部分就是软件操作过程中序列的标识。
必须把序列文件以英文命名并保存在clustalx所在的文件夹下,且此文件下所有文件名均需是英文的。
4.2执行比对1)打开软件,选择append sequence2)选中所选序列,依次载入后,调整字体大小后如下图所示。
序列左边是物种名称,序列的不同颜色代表不同氨基酸残基(help中有详细描述)。
序列比对参数4)选择默认参数值5)在alignment下选择do complete alignment执行序列比对操作6)弹出的窗口中可以默认或选择aln文件和dnd文件的存放位置。
默认的话则保存在软件的文件夹下。
aln文件打开后如图所示这个文件是默认输出,可以转换成各种格式,而且很多软件都支持这种格式。
Aln文件可以用于保存序列比对结果,可用专门的多序列比对着色软件如着色,并进一步做分析等操作。
dnd文件是构建进化树的文件,只能用构建进化树的软件打开。
是根据两两序列相似值构建的一个指导后面多重联配的启发树。
不能做进化分析。
进化分析要考虑的所有同源位点的一个综合效应,因此应该用.aln格式文件专门做进化分析。
7)默认后保存的文件如下图所示,保存在软件的文件夹下8)保存竖列的打分文件,选中全部序列,选择“quality”下的“save column to file”保存,默认保存在软件的文件夹下,如下图所示9)打开保存的打分文件10)打开Aln 文件,如下图中,“*”表示在所选打分矩阵下,该位置完全保守;“:”表示该位置的残基极相似,打分大于0.8;“.”表示该位置残基相似度较“:”低,打分低于0.8。
Aln 文件可以用于保存序列比对结果,可用专门的多序列比对着色软件如着色,并进一步做分析等操作。
4.3treeview 软件制作进化树1)treeview软件下载网站很多,Treeview软件可以将多序列比对结果以进化树的形式展示,其默认前提是所有蛋白源自同一祖先。
枝的长度代表进化距离。
在其中两种树状图的左下角有标尺,可根据它来计算进化距离。
主要的操作窗口如下图所示。
2)点击file载入,显示的选项中自动检索出了本地的dnd文件,点击即可得到进化树。
3)载入序列后默认已第二种树形图显示,也可选择其他几种树形图显示。
右侧注释是物种名称,图形和字体的大小均可调整,注释也可修改。
上图中的0.1及下方的横线代表了该进化树上的相同距离所代表的数值,是对进化距离的一个定量显示。
4)点击file下的save as graphic 可将进化树保存成emf图形文件,如下图所示5. 结果分析1)从执行序列比对操作后的软件界面来看:原来的序列中某些位置插入了空位,上方有“*”,“:”,“.”等符号。
“*”集中出现在比对后第241-600个残基的区域,该区域保守度较高,说明这段区域很可能决定相近的功能。
把这段区域的序列拷贝保存后可进入profile等网站中搜索或预测相应的功能。
2)从打分文件来看:残基相同时大氛围100,100集中出现的位置与软件界面显示的结果是一致的。
3)从生成的aln文件来看: aln文件将软件界面的图形结果用字符保存,可以更直观地看到保守区域。
4)从进化树文件来看:从图上可以看出,从进化的初期,人类、鸡和两种鼠的BMP-2就朝着不同的进化方向进化。