本地blast的详细用法∷柳城
- 格式:pdf
- 大小:272.75 KB
- 文档页数:4
如何运用BLAST进行序列比对、检验引物特异性序列比对,绝大多数战友都会想到BLAST,但BLAST的使用确实又是一个很大的难题,因为他的功能比较强悍,里面涉及到的知识比较多,而且比对结束后输出的结果参数(指标)又很多。
如果把BLAST的使用详细的都讲出来,我想我发帖发到明天也发不完,更何况我自己也不是完全懂得BLAST的使用。
所以我在这里也就“画龙点睛”——以比对核酸序列为例来给大家介绍一下BLAST的使用,也算是BLAST 的入门课程吧。
请看帖的战友好好体会,如果你用心看,在看帖完毕之后BLAST的基本使用(包括其他序列的比对)应该没有问题了。
一、打开BLAST页面,打开后如图所示:(缩略图,点击图片链接看原图)对上面这个页面进行一下必要的介绍:BLAST的这个页面主体部分(左面)包括了三部分:BLAST Assembled Genomes、Basic BLAST、Specialized BLAST。
相信大家可以看懂这三个短语的意思,我就不多说了;我要说的是,可以认为这是三种序列比对的方法,或者说是BLAST的三条途径。
第一部分BLAST Assembled Genomes就是让你选择你要比对的物种,点击相应物种之后即可进入比对页面。
第二部分Basic BLAST包含了5个常用的BLAST,每一个都附有简短的介绍。
第三部分Specialized BLAST是一些特殊目的的BLAST,如IgBLAST、SNP等等,这个时候你就需要在Specialized BLAST部分做出适当的选择了。
总之,这是一个导航页面,它的目的是让你根据自己的比对目的选择相应的BLAST 途径。
下面以最基本的核酸序列比对来谈一下BLAST的使用,期间我也会含沙射影的说一下其他序列比对的方法。
二、点击Basic BLAST部分的nucleotide blast链接到一个新的页面。
打开后如图所示:=" width=640 height=462 title="Click to iew full 2.JPG (849 X 613)" border=0 align=absmiddle> 介绍一下上述页面:Enter Query Sequence部分是让我们输入序列的,你可以直接把序列粘贴进去,也可以上传序列,还可以选择你要比对的序列的范围(留空就代表要比对你要输入的整个序列)。
Blast使⽤⽅法攻略结果12列Query id,Subject id,% identity,alignment length,mismatches,gap openings,q. start,q. end,s. start,s. end,e-value,bit scoreBlast,全称Basic Local Alignment Search Tool,即"基于局部⽐对算法的搜索⼯具",由Altschul等⼈于1990年发布。
Blast能够实现⽐较两段核酸或者蛋⽩序列之间的同源性的功能,它能够快速的找到两段序列之间的同源序列并对⽐对区域进⾏打分以确定同源性的⾼低。
Blast的运⾏⽅式是先⽤⽬标序列建数据库(这种数据库称为database,⾥⾯的每⼀条序列称为subject),然后⽤待查的序列(称为 query)在database中搜索,每⼀条query与database中的每⼀条subject都要进⾏双序列⽐对,从⽽得出全部⽐对结果。
Blast是⼀个集成的程序包,通过调⽤不同的⽐对模块,blast实现了五种可能的序列⽐对⽅式:blastp:蛋⽩序列与蛋⽩库做⽐对,直接⽐对蛋⽩序列的同源性。
blastx:核酸序列对蛋⽩库的⽐对,先将核酸序列翻译成蛋⽩序列(根据相位可以翻译为6种可能的蛋⽩序列),然后再与蛋⽩库做⽐对。
blastn:核酸序列对核酸库的⽐对,直接⽐较核酸序列的同源性。
tblastn:蛋⽩序列对核酸库的⽐对,将库中的核酸翻译成蛋⽩序列,然后进⾏⽐对。
tblastx:核酸序列对核酸库在蛋⽩级别的⽐对,将库和待查序列都翻译成蛋⽩序列,然后对蛋⽩序列进⾏⽐对。
Blast提供了核酸和蛋⽩序列之间所有可能的⽐对⽅式,同时具有较快的⽐对速度和较⾼的⽐对精度,因此在常规双序列⽐对分析中应⽤最为⼴泛。
可以毫不夸张的说,blast是做⽐较基因组学乃⾄整个⽣物信息学研究所必须掌握的⼀种⽐对⼯具。
Blast本地化:window平台下blast软件的安装boyun发表于 2009-07-09 17:08 | 阅读 1 views1.对于windows 2000/xp 用户,下载blast-2.2.18-ia32-win32.exe安装文件ftp:///blast/executables/LATEST/blast-2.2.18-ia32-win32.exe2.创建一个新目录,例如C:\blast,将下载的文件blast-2.2.18-ia32-win32.exe复制到该目录,双击这个文件,自解压产生bin、data、doc 三个目录,bin是程序目录,data是程序使用数据的目录,doc是文档目录。
表:bin目录中的程序程序说明bl2seq.exe进行两条序列比对blastall.exe做普通的blast比对blastclust.exeblastpgp.execopymat.exefastacmd.exe通过gi号,接收号等,在数据库中检索序列formatdb.exe格式化数据库formatrpsdb.exeimpala.exemakemat.exemegablast.exe megablast程序rpsblast.exeseedtop.exe3.用文本编辑器创建一个ncbi.ini文件,文件包含下面内容:[NCBI]Data="C:\blast\data\"将ncbi.ini文件存放到系统的Windows 或者 WINNT目录。
4.将”C:\blast\bin”目录添加路径中(该步骤非必须,但会给以后的操作带来方便),方法:1)右击我的电脑选择属性,选择高级,点击环境变量,设置环境变量2)系统变量中,选择Path,点击“编辑”,在变量值的后面添加“; C:\blast\bin”,点击确定将安装路径添加到path5.测试,打开dos窗口(点击开始,选择运行,打开的输入框中输入“cmd”,确定),键入“blastall”,回车,如果安装正确,将显示blastall的所有参数说明。
BLAST种类及使用方法BLAST(Basic Local Alignment Search Tool)是一种常用的生物信息学工具,用于在数据库中和比对生物序列。
BLAST工具有多种不同的变体,每种都有不同的用途和适用范围。
下面将介绍几种常见的BLAST工具及其使用方法。
1.BLASTN:BLASTN用于比对核酸序列(DNA或RNA)。
它可以识别相似的核酸序列,并计算相似度和比对长度。
通过对两个序列之间的匹配和错配进行比较,BLASTN可以找到最佳的比对结果。
BLASTN对于找到相似的基因和寻找保守序列非常有用。
使用方法:a.输入待比对的核酸序列。
b.选择合适的数据库(如NCBI的NR数据库)。
c.选择期望的输出格式。
d.运行BLASTN比对。
e.分析比对结果,并根据需要进行相关的进一步分析。
2.BLASTP:BLASTP用于比对蛋白质序列。
它可以找到相似的蛋白质序列,并计算相似度和比对长度。
BLASTP通过比较两个蛋白质序列之间的氨基酸匹配和错配来找到最佳的比对结果。
BLASTP对于找到相似的蛋白质序列、预测蛋白质结构和功能非常有用。
使用方法:a.输入待比对的蛋白质序列。
b. 选择合适的数据库(如NCBI的RefSeq数据库)。
c.选择期望的输出格式。
d.运行BLASTP比对。
e.分析比对结果,并根据需要进行相关的进一步分析。
3.BLASTX:使用方法:a.输入待比对的核酸序列。
b. 选择合适的数据库(如NCBI的RefSeq数据库)。
c.选择期望的输出格式。
d.运行BLASTX比对。
e.分析比对结果,并根据需要进行相关的进一步分析。
4. BLAST2Seq:使用方法:a.输入两个待比对的生物序列。
b.选择合适的数据库(如NCBI的NR数据库)。
c.选择期望的输出格式。
d. 运行BLAST2Seq比对。
e.分析比对结果,并根据需要进行相关的进一步分析。
5.tBLASTn:tBLASTn用于比对核酸序列,并将其翻译成六个阅读框的蛋白质序列,然后与蛋白质序列进行比对。
BLAST使用方法一、BLAST的安装和准备工作2.获取待比对的序列文件,可以是FASTA格式的DNA或蛋白质序列。
二、BLAST的常用参数和选项1. Program:指定使用哪种BLAST程序(如BLASTn、BLASTp等)。
2. Database:指定使用哪个数据库进行比对。
3. Query:指定待比对的序列文件。
4. E-value:期望值。
一种描述比对结果误差率的指标,值越小表示结果越可信。
通常情况下,E-value小于0.01被认为是显著结果。
5. Word size:BLAST在比对时使用的核心词的长度。
长度越大表示查全率(sensitivity)越高,但速度会减慢。
6. Gap open:允许在比对过程中插入空位(如插入一个碱基)。
Gap open参数定义了开放一个空位的惩罚分数。
7. Gap extension:允许空位的延伸。
Gap extension参数定义了延伸一个空位的惩罚分数。
三、使用BLAST进行比对1.命令行方式:-打开命令行界面,并定位到BLAST软件的安装目录。
- 输入命令,指定BLAST程序、数据库、查询文件和其他参数。
例如:blastn -db nt -query query.fasta -out output.txt -evalue 0.01-运行命令,BLAST将开始进行比对并生成结果文件。
2.网页方式(以NCBIBLAST为例):- 打开NCBI网站的BLAST页面()。
-选择需要使用的BLAST程序(如BLASTn、BLASTp等)。
-上传待比对的序列文件,或者粘贴序列文本到输入框中。
-选择适当的数据库和其他参数。
-点击“BLAST”按钮,等待比对完成。
四、解读BLAST结果1. E-value:表示在随机比对中获得与查询序列相似度更高的结果的期望概率。
E-value越小表示比对结果越显著。
2. Bitscore:用于表示比对结果的质量。
Bitscore越高表示比对结果越可信。
blast的用法总结大全(学习版)编制人:__________________审核人:__________________审批人:__________________编制学校:__________________编制时间:____年____月____日序言下载提示:该文档是本店铺精心编制而成的,希望大家下载后,能够帮助大家解决实际问题。
文档下载后可定制修改,请根据实际需要进行调整和使用,谢谢!并且,本店铺为大家提供各种类型的经典范文,如英语单词、英语语法、英语听力、英语知识点、语文知识点、文言文、数学公式、数学知识点、作文大全、其他资料等等,想了解不同范文格式和写法,敬请关注!Download tips: This document is carefully compiled by this editor.I hope that after you download it, it can help you solve practical problems. The document can be customized and modified after downloading, please adjust and use it according to actual needs, thank you!In addition, this shop provides various types of classic sample essays, such as English words, English grammar, English listening, English knowledge points, Chinese knowledge points, classical Chinese, mathematical formulas, mathematics knowledge points, composition books, other materials, etc. Learn about the different formats and writing styles of sample essays, so stay tuned!blast的用法总结大全blast的意思n. 爆炸;一阵(疾风等);(吹奏乐器、哨子、汽车喇叭等突然发出的)响声;突如其来的强劲气流vt. 击毁,摧毁;尖响;裁判高声吹哨;枯萎:使枯萎vi. 爆炸;吼叫;枯萎:枯萎;攻击:严厉批评或猛烈攻击blast的用法用作名词(n.)Police say that the blast occurred at 9 am.警方说这次爆炸发生在上午九点。
NCBI在线版Blast使⽤(超详细奥)⾸先进⾏Blast类型的选择:blastp:将待查询的蛋⽩质序列及其互补序列⼀起对蛋⽩质序列数据库进⾏查询;blastn:将待查询的核酸序列及其互补序列⼀起对核酸序列数据库进⾏查询;blastx:先将待查询的核酸序列按六种可读框架(逐个向前三个碱基和逐个向后三个碱基读码)翻译成蛋⽩质序列,然后将翻译结果对蛋⽩质序列数据库进⾏查询;tblastn:先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋⽩质序列,然后将待查询的蛋⽩质序列及其互补序列对其翻译结果进⾏查询;tblastx:先将待查询的核酸序列和核酸序列数据库中的核酸序列按六种可读框架翻译成蛋⽩质序列,然后再将两种翻译结果从蛋⽩质⽔平进⾏查询。
基本步骤如下:1,进⼊在线blast界⾯,可以选择blast特定的物种(如下)。
不同的blast程序上⾯已经有了介绍。
这⾥以常⽤的Blast 中nucleotide blast作为例⼦。
Human ⼈类Mouse ⼩⿏Rat ⼤⿏Arabidopsis thaliana 拟南芥Oryza sativa ⽔稻Bos taurus ⽜Danio rerio 斑马鱼Drosophila melanogaster ⿊腹果蝇Gallus gallus 乌⾻鸡Pan troglodytes ⿊猩猩Microbes 微⽣物Apis mellifera 蜜蜂2,粘贴fasta格式的序列(可以是多条奥!!)或使⽤Accession number(s)、gi(s)(注意仅使⽤数字,不加上标志符gi)。
选择⼀个要⽐对的数据库,如果是⼈和⿏则进⾏相应的选择,否则选择Others中的nr/nt 。
关于数据库的说明请看NCBI在线blast数据库的简要说明。
其他选项不是必选的,如Job Title就是这次⽐对的名字,随便起⼀个即可;Organism为物种,可以填⼊你想⽐对的物种(分类单元如green plant等)的名字(拉丁名字,输⼊⼏个字母后会出现索引的)。
在线b l a s t的用法总结-标准化文件发布号:(9556-EUATWK-MWUB-WUNN-INNUL-DDQTY-KIIBlast(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。
BLAST程序能迅速与公开数据库进行相似性序列比较。
BLAST结果中的得分是对一种对相似性的统计说明。
BLAST 采用一种局部的算法获得两个序列中具有相似性的序列NCBI的在线blast:/Blast.cgi本文详细出处参考:/475/举例一:核酸序列的比对1,进入在线blast界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。
不同的blast程序上面已经有了介绍。
这里以常用的核酸库作为例子。
(补充介绍下:1、BLASTN【 nucleotide blast】是核酸序列到核酸库中的一种查询。
库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
2、BLASTP【protein blast】是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
3、BLASTX是核酸序列到蛋白库中的一种查询。
先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
4、TBLASTN是蛋白序列到核酸库中的一种查询。
与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
5、TBLASTX是核酸序列到核酸库中的一种查询。
此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。
)2,粘贴fasta格式的序列。
选择一个要比对的数据库。
关于数据库的说明请看NCBI在线blast数据库的简要说明。
一般的话参数默认。
3,blast参数的设置。
构建本地blast比对常用软件blast和clustal(多序列比对)。
本地blast的构建及使用步骤如下:程序下载>程序安装>进入Dos命令系统>数据库格式化>程序运行(及进行比对)>查看分析结果。
1.程序下载:连接到:ftp:///blast/executables/release/LATEST/按自己的OS进行下载;2.现在D盘建立新文件夹并命名为“blast”,然后下载“win32-ia32”(windows)到blast文件夹中;3.双击win32-ia32.exe安装程序,产生3个新文件:bin、data和doc4.以blastp记录本地blast的使用(目的:用番茄的TFT1蛋白序列跟拟南芥中的每一条14-3-3蛋白序列比较,以查看该序列与拟南芥中的哪条序列相似性最高)4.1建库在bin中建一个txt文件,将拟南芥的13条序列(必须为fasta格式)粘贴进去:>AtGF14 chiMATPGASSARDEFVYMAKLAEQAERYEEMVEFMEKV AKA VDKDELTVEERNLLSV AYK NV IGARRASWRIISSIEQKEESRGNDDHVSLIRDYRSKIETELSDICDGILKLLDTILVPAA ASGDSKVFYLKMKGDYHRYLAEFKSGQERKDAAEHTLTAYKAAQDIANSELAPTHPIRLG LALNFSVFYYEILNSPDRACNLAKQAFDEAIAELDTLGEESYKDSTLIMQLLRDNLTLWT SDMQDDV ADDIKEAAPAAAKPADEQQS>AtGF14 psiMSTREENVYMAKLAEQAERYEEMVEFMEKV AKTVDVEELSVEERNLLSV AYKNVIGARR ASWRIISSIEQKEESKGNEDHV AIIKDYRGKIESELSKICDGILNVLEAHLIPSASPAESK VFYLKMKGDYHRYLAEFKAGAERKEAAESTLV AYKSASDIATAELAPTHPIRLGLALNFS VFYYEILNSPDRACSLAKQAFDDAIAELDTLGEESYKDSTLIMQLLRDNLTLWTSDMTDE AGDEIKEASKPDGAE>AtGF14 omegaMASGREEFVYMAKLAEQAERYEEMVEFMEKVSAA VDGDELTVEERNLLSV AYKNVIGA RR ASWRIISSIEQKEESRGNDDHVTAIREYRSKIETELSGICDGILKLLDSRLIPAAASGDS KVFYLKMKGDYHRYLAEFKTGQERKDAAEHTLAAYKSAQDIANAELAPTHPIRLGLALN F SVFYYEILNSPDRACNLAKQAFDEAIAELDTLGEESYKDSTLIMQLLRDNLTLWTSDMQD DAADEIKEAAAPKPTEEQQ>AtGF14 phiMAAPPASSSAREEFVYLAKLAEQAERYEEMVEFMEKV AEA VDKDELTVEERNLLSV AYKN VIGARRASWRIISSIEQKEESRGNDDHVTTIRDYRSKIESELSKICDGILKLLDTRLVPA SANGDSKVFYLKMKGDYHRYLAEFKTGQERKDAAEHTLTAYKAAQDIANAELAPTHPIR L GLALNFSVFYYEILNSPDRACNLAKQAFDEAIAELDTLGEESYKDSTLIMQLLRDNLTLWTSDMQDESPEEIKEAAAPKPAEEQKEI>AtGF14 upsilonMSSDSSREENVYLAKLAEQAERYEEMVEFMEKV AKTVETEELTVEERNLLSV AYKNVIGA RRASWRIISSIEQKEDSRGNSDHVSIIKDYRGKIETELSKICDGILNLLEAHLIPAASLA ESKVFYLKMKGDYHRYLAEFKTGAERKEAAESTLV AYKSAQDIALADLAPTHPIRLGLAL NFSVFYYEILNSSDRACSLAKQAFDEAISELDTLGEESYKDSTLIMQLLRDNLTLWTSDL NDEAGDDIKEAPKEVQKVDEQAQPPPSQ>AtGF14 lambda MAATLGRDQYVYMAKLAEQAERYEEMVQFMEQLVTGATPAEELTVEERNLLSV AYKNVI G SLRAAWRIVSSIEQKEESRKNDEHVSLVKDYRSKVESELSSVCSGILKLLDSHLIPSAGA SESKVFYLKMKGDYHRYMAEFKSGDERKTAAEDTMLAYKAAQDIAAADMAPTHPIRLG LA LNFSVFYYEILNSSDKACNMAKQAFEEAIAELDTLGEESYKDSTLIMQLLRDNLTLWTSD MQEQMDEA>AtGF14 nuMSSSREENVYLAKLAEQAERYEEMVEFMEKV AKTVDTDELTVEERNLLSV AYKNVIGAR R ASWRIISSIEQKEESRGNDDHVSIIKDYRGKIETELSKICDGILNLLDSHLVPTASLAES KVFYLKMKGDYHRYLAEFKTGAERKEAAESTLV AYKSAQDIALADLAPTHPIRLGLALNF SVFYYEILNSPDRACSLAKQAFDEAISELDTLGEESYKDSTLIMQLLRDNLTLWNSDIND EAGGDEIKEASKHEPEEGKPAETGQ>GF14 kappa MATTLSRDQYVYMAKLAEQAERYEEMVQFMEQLVSGATPAGELTVEERNLLSV AYKNVI G SLRAAWRIVSSIEQKEESRKNEEHVSLVKDYRSKVETELSSICSGILRLLDSHLIPSATA SESKVFYLKMKGDYHRYLAEFKSGDERKTAAEDTMIAYKAAQDV A V ADLAPTHPIRLGL A LNFSVFYYEILNSSEKACSMAKQAFEEAIAELDTLGEESYKDSTLIMQLLRDNLTLWTSD MQEQMDEA>AtGF14 epsilonMENEREKQVYLAKLSEQTERYDEMVEAMKKV AQLDVELTVEERNLVSVGYKNVIGARR AS WRILSSIEQKEESKGNDENVKRLKNYRKRVEDELAKVCNDILSVIDKHLIPSSNA VESTV FFYKMKGDYYRYLAEFSSGAERKEAADQSLEAYKAA V AAAENGLAPTHPVRLGLALNFS V FYYEILNSPESACQLAKQAFDDAIAELDSLNEESYKDSTLIMQLLRDNLTLWTSDLNEEG DERTKGADEPQDEN>AtGF14 iotaMSSSGSDKERETFVYMAKLSEQAERYDEMVETMKKV ARVNSELTVEERNLLSVGYKNVI G ARRASWRIMSSIEQKEESKGNESNVKQIKGYRQKVEDELANICQDILTIIDQHLIPHATS GEATVFYYKMKGDYYRYLAEFKTEQERKEAAEQSLKGYEAATQAASTELPSTHPIRLGLA LNFSVFYYEIMNSPERACHLAKQAFDEAIAELDTLSEESYKDSTLIMQLLRDNLTLWTSDLPEDGGEDNIKTEESKQEQAKPADATEN>AtGF14 omicronMENERAKQVYLAKLNEQAERYDEMVEAMKKV AALDVELTIEERNLLSVGYKNVIGARR ASWRILSSIEQKEESKGNEQNAKRIKDYRTKVEEELSKICYDILA VIDKHLVPFATSGESTV FYYKMKGDYFRYLAEFKSGADREEAADLSLKAYEAATSSASTELSTTHPIRLGLALNFSV FYYEILNSPERACHLAKRAFDEAIAELDSLNEDSYKDSTLIMQLLRDNLTLWTSDLEEGG K>AtGF14 muMGSGKERDTFVYLAKLSEQAERYEEMVESMKSV AKLNVDLTVEERNLLSVGYKNVIGSR RASWRIFSSIEQKEA VKGNDVNVKRIKEYMEKVELELSNICIDIMSVLDEHLIPSASEGES TVFFNKMKGDYYRYLAEFKSGNERKEAADQSLKAYEIATTAAEAKLPPTHPIRLGLALNF SVFYYEIMNAPERACHLAKQAFDEAISELDTLNEESYKDSTLIMQLLRDNLTLWTSDISE EGGDDAHKTNGSAKPGAGGDDAE>AtGF14 Pi MENEREKLIYLAKLGCQAGRYDDVMKSMRKVCELDIELSEEERDLLTTGYKNVMEAKRV S LRVISSIEKMEDSKGNDQNVKLIKGQQEMVKYEFFNVCNDILSLIDSHLIPSTTTNVESI VLFNRVKGDYFRYMAEFGSDAERKENADNSLDAYKV AMEMAENSLVPTNMVRLGLALN FS IFNYEIHKSIESACKLVKKAYDEAITELDGLDKNICEESMYIIEMLKFNLSTWTSGDGNG NKTDG完成后重命名为“db”并去掉扩展名(这就是所建的库,相当于在NCBI中你所选择的搜索库)4.2在bin中再建一个txt文件>TFT1(tomato) MALPENLTREQCLYLAKLAEQAERYEEMVKFMDKLVIGSGSSELTVEERNLLSV AYKNVIGSLRAAWRIVSSIEQKEEGR KNDEHVVLVKDYRSKVESELSDVCAGILKILDQYLIPSAS AGESKVFYLKMKGDYYRYLAEFKVGNERKEAAEDTMLAYKAAQDIA V AELAPTHPIRLGLALNFSVFYYEILNASEKACS MAKQAFEEAIAELDTMGEESYKDSTLIMQLLRDNLTLWTS重命名为“in”,并去掉扩展名(相当于在NCBI中输入的query序列)。
生物信息学中的基因组序列分析工具使用指南随着高通量测序技术的发展,大量的基因组序列数据被不断产生。
为了从这些序列数据中获取有用的信息,生物学家们需要利用生物信息学工具对基因组序列进行分析。
本文将为您提供生物信息学中常用的基因组序列分析工具的使用指南。
一、BLAST(Basic Local Alignment Search Tool)BLAST是一种用于序列比对的常用工具。
它能够通过比对查询序列与已知序列数据库中的序列,来找到相似的序列并进行注释。
以下是使用BLAST的基本步骤:1. 准备查询序列:将待比对的查询序列保存为文本文件的形式,可以是单个序列或多个序列。
2. 选择BLAST程序:根据不同的比对目的,选择合适的BLAST程序,如blastn用于核酸与核酸的比对,blastp用于蛋白质与蛋白质的比对。
3. 选择数据库:根据需求选择适合的数据库,如NCBI核酸数据库(nt)或非冗余蛋白质数据库(nr)等。
4. 运行BLAST:使用命令行界面或图形界面,输入相应的参数,运行BLAST程序。
5. 分析结果:根据比对结果,分析相似序列的特征、功能等信息。
二、MAFFT(Multiple Alignment using Fast Fourier Transform)MAFFT是一种用于多序列比对的工具,能够同时比对多个序列,识别共有的区域,并预测不同序列间的变异位置。
以下是使用MAFFT 的基本步骤:1. 准备序列:将待比对的序列保存为文本文件的形式,可以是核酸序列或蛋白质序列。
2. 运行MAFFT:使用命令行界面,输入相应的参数,运行MAFFT 程序。
3. 分析比对结果:根据比对结果,分析序列间的共有区域和变异位置,推断序列的进化关系或寻找保守结构。
三、MEME(Multiple EM for Motif Elicitation)MEME是一种用于寻找DNA、RNA或蛋白质序列中共有模体(motif)的工具。
BLAST (Basic Local Alignment Search Tool)NCBI采用的一套对蛋白质数据库或DNA数据库中进行相似性比较的分析工具(当然很多其它生物学数据库都提供了BLAST检索入口)。
您只需提交您的序列,通过BLAST查询就顷刻间从公开数据库中无数的的序列里找到相似序列。
BLAST结果中的得分是对一种对相似性的统计说明。
BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。
如果您想进一步了解BLAST算法,您可以参考NCBI的BLAST Course ,该页有BLAST算法的介绍。
BLAST功能是什么?BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。
BLAST还能发现具有缺口的能比对上的序列。
BLAST是基于Altschul等人在J.Mol.Biol上发表的方法(J.Mol.Biol.215:403-410(1990)),在序列数据库中对查询序列进行同源性比对工作。
从最初的BLAST发展到现在NCBI提供的BLAST2.0,已将有缺口的比对序列也考虑在内了。
BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。
所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。
GCG及EMBOSS等软件包中包含有五种BLAST:1、BLASTP是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
2、BLASTX是核酸序列到蛋白库中的一种查询。
先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
3、BLASTN是核酸序列到核酸库中的一种查询。
库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
本地blast的详细用法Posted on 03 四月 2009 by 柳城,阅读 9,626本地blast的详细使用方法blast all -p blastn -i myRNA.fasta -d humanRNA.fasta -o myresult.blastout -a 2 -F F -T T -e 1e-10解释如下:blastall: 这是本地化/命令行执行blast时的程序名字!(Tips:blastall直接回车就会给出你所有的参数帮助,但是英文的)-p: p 是program的简写,program在计算机领域中是程序的意思。
此参数是指定要使用何种子程序,所谓子程序,就是针对不同的需要,如核酸序列和核酸序列进行比对、蛋白质序列和蛋白质序列进行比对、假设翻译后核酸序列于蛋白质序列进行比对,选择相应的子程序: blastn 是用于核酸对核酸 blastp 是蛋白质对蛋白质序列等等,一共5个自程序。
-i: i 是input的简写,意思是输入文件,就是你自己的要进行比对的序列文件(fasta格式)-d: d是database的简写,意思是要比对的目标数据库,在例子中就是humanRNA.fasta (别忘了要formatdb)-o: o是output的简写,意思是结果文件名字,这个根据你自己的习惯起名字,可以带路径,(上边两个参数-i -d 也都可以带路径)*注意以上4个参数是必须的,缺一不可,下面的参数是为了得到更好的结果自己可调的参数,如果你不加也没有关系,blastall程序本身会给一个默认值!-a: 是指计算时要用的CPU个数,我的机器有两个CPU,所以用-a 2,这样可以并行化进行计算,提高速度,当然你的计算机就一个CPU,可以不用这个参数,系统默认值为1,就是一个CPU-F: 是filter的简写,blastall程序中有对简单的重复序列和低复杂度的一些repeats过滤调,默认是T (注意以后的有几种参数就两个选项,T/F T就是ture,真,你可以理解为打开该功能; F就是false,假,理解为关闭该功能)-T: 是HTML的简写,是指blast结果文件是否用HTML格式,默认是F!如果你想用IE看,我建议用-T T-e: 是Expectation value,期望值,默认是10,我用的10-10!BLASTALL 用法a.格式化序列数据库格式化序列数据库— —formatdbformatdb简单介绍:formatdb处理的都是格式为 ASN.1和FASTA,而且不论是核苷酸序列数据库,还是蛋白质序列数据库;不论是使用Blastall ,还是Blastpgp,Mega Blast应用程序,这一步都是不可少的。
formatdb命令行参数:formatdb - 得到formatdb 所有的参数显示(见附录二)和介绍,主要参数的说明:-i输入需要格式化的源数据库名称O p t i o n a l-p文件类型,是核苷酸序列数据库,还是蛋白质序列数据库T–p r o t e i n F-n u c l e o t i d e[T/F]O p t i o n a l d e f a u l t=T-a输入数据库的格式是A S N.1(否则是F A S T A)T-T r u e,F-F a l s e.[T/F]O p t i o n a l d e f a u l t=F-o解析选项T-T r u e:解析序列标识并且建立目录F-F a l s e:与上相反[T/F]O p t i o n a l d e f a u l t=F命令示例:f o r m a t d b-i e c o l i.n t-p F-o T运行此命令就会在当前目录下产生用于BLAST搜索的7个文件,一旦如上的formatdb命令执行完毕,就不再需要ecoli.nt,可以移除。
此时,blastall可以直接使用。
b.Blastall常用参数简析-p Program Name [String]所用程序名称[String],用户可以根据需要从blastn,blastp,blastx,tblastn,tblastx中任选一程序。
-d Database [String] default = nr所用序列数据库的名称 [String],默认为:nr-i Query File [File In] default = stdin所用查询序列文件[File In],默认为:stdin,本文例为 test.txt-e Expectation value (E) [Real] default = 10.0期望值[Real] 默认为10.0 描述搜索某一特定数据库时,随机出现的匹配序列数目。
-m alignment view options: 比对显示选项,其具体的说明可以用以下的比对实例说明0 = pairwise,显示具体匹配信息(缺省)1 = query-anchored showing identities,查询-比上区域,显示一致性2 = query-anchored no identities,查询-比上区域,不显示一致性3 = flat query-anchored, show identities,查询-比上区域的屏文形式,显示一致性4 = flat query-anchored, no identities,查询-比上区域的屏文形式,不显示一致性5 = query-anchored no identities and blunt ends,查询-比上区域,不显示一致性,无突然的结束6 = flat query-anchored, no identities and blunt ends,查询-比上区域的屏文形式,不显示一致性7 = XML Blast output,XML格式的输出8 = tabular,TAB格式的输出9 =tabular with comment lines,带注释行的TAB格式的输出10 =ASN, text,文本方式的ASN格式输出11 =ASN, binary [Integer] default = 0,二进制方式的ASN格式输出-m 8 用法举例说明如下:A_query B_Sbjct 97.61 585 3 3 309 886 94498 95078 0.0 1017A_query B_Sbjct 100.00 303 0 0 913 1215 95092 95394 2e-172 601A_query B_Sbjct 100.00 209 0 0 1 209 94196 94404 3e-116 414A_query B_Sbjct 100.00 123 0 0 1234 1356 95413 95535 6e-65 244A_query B_Sbjct 100.00 41 0 0 210 250 94096 94136 5e-16 81.8A_query B_Sbjct 100.00 35 0 0 251 285 94440 94474 2e-12 69.9A_query B_Sbjct 100.00 29 0 0 885 913 95747 95775 7e-09 58.0A_query A_query 97.61 585 3 3 309 886 403 983 0.0 1017A_query A_query 100.00 303 0 0 913 1215 997 1299 2e-172 601A_query A_query 100.00 209 0 0 1 209 101 309 3e-116 414A_query A_query 100.00 123 0 0 1234 1356 1318 1440 6e-65 244A_query A_query 100.00 41 0 0 210 250 1 41 5e-16 81.8A_query A_query 100.00 35 0 0 251 285 345 379 2e-12 69.9A_query A_query 100.00 29 0 0 885 913 1652 1680 7e-09 58.0结果12列Query id,Subject id,% identity,alignment length,mismatches,gap openings,q. start,q. end,s. start,s. end,e-value,bit score--------------------------------------------------------------------------------------------------------------o BLAST report Output File [File Out] Optional default = stdout,BLAST报告的输出文件[File Out] 默认为:stdout-F Filter query sequence (DUST with blastn, SEG with others) [String] default = T查询序列过滤,将那些给出影响比对结果的低复杂度区域过滤掉。
用blastn进行查询的序列用DUST程序过滤,其他的用SEG过滤。
对DUST和SEG的详细情况,用户可以自己查询资料。
-G Cost to open a gap (zero invokes default behavior) [Integer] default = 0空位开放罚分[Integer] (设为0则调用默认行为) 默认为0分-E Cost to extend a gap (zero invokes default behavior) [Integer] default = 0空位扩展罚分[Integer] (设为0则调用默认行为) 默认为0分-T Produce HTML output [T/F] default = F以网页形式打印-X X dropoff value for gapped alignment (in bits) (zero invokes default behavior)blastn 30, megablast 20, tblastx 0, all others 15 [Integer],default = 0-I Show GI's in deflines [T/F] default = F提示行显示GI number 默认不显示-q Penalty for a nucleotide mismatch (blastn only) [Integer] default = -3核酸序列基对不匹配所罚分数(blastn only) [Integer] 默认罚3分-r Reward for a nucleotide match (blastn only) [Integer] default = 1核苷酸序列基对匹配所加分数(blastn only) [Integer] 默认加1分-g Perfom gapped alignment (not available with tblastx) [T/F] default = T是否执行带缺口的比对(not available with tblastx) 默认为是 -a Number of processors to use [Integer] default = 1使用处理器的数目[Integer] 默认为单机-B Number of concatenated queries, for blastn and tblastn [Integer] Optional default = 0需要联配查询的序列数目 for blastn and tblastn [Integer] 默认为单序列-M Matrix [String],default = BLOSUM62 打分矩阵,默认BLOSUM62-W Word size, default if zero (blastn 11, megablast 28, all others 3) [Integer] default = 0所开窗口-w Frame shift penalty (OOF algorithm for blastx) [Integer] default = 0窗口罚分。