生物信息学 实验三 数据库搜索-BLAST
- 格式:doc
- 大小:71.00 KB
- 文档页数:4
blast应用实例Blast是一种常用的生物信息学工具,用于比对和分析生物序列。
它可以将一个或多个查询序列与数据库中的目标序列进行比对,通过比对结果提供有关序列相似性、保守区域和功能注释的信息。
以下是Blast应用的一些实例:1.从NCBI数据库搜索相似序列:Blast可以用于从NCBI的数据库中搜索与给定序列相似的序列。
例如,如果我们有一个未知的蛋白质序列,我们可以使用Blast将其比对到NCBI的非冗余蛋白质数据库上,以找到与之相似的蛋白质序列。
这对于鉴定新的蛋白质家族、推断功能等非常有用。
2.基因注释:Blast可以用于对新的基因序列进行功能注释。
例如,通过比对一个未知的DNA序列到已知的基因组序列数据库,我们可以获得对应的基因区域、编码蛋白质以及可能的功能信息。
这对于基因组学研究和药物研发很重要。
3.遗传多样性分析:Blast也可以用于研究不同物种或个体之间的遗传差异。
通过比对DNA或RNA序列,可以鉴定不同物种或个体之间的变异位点。
这对于研究进化、种群遗传学和物种鉴定具有重要意义。
4.病原体识别:Blast可以用于快速识别和鉴定病原体。
通过比对未知的病原体序列到已知的病原体数据库,可以确定其种类和亚型。
这对于疾病的诊断和流行病学研究非常有帮助。
5.系统发育分析:Blast在系统发育学中也被广泛应用。
通过比对多个物种的DNA或蛋白质序列,可以构建物种间的进化关系树。
这对于研究生物的进化历史和亲缘关系具有重要意义。
6.基因工程:Blast可以用于在已知的基因库中寻找与目标序列相似的基因。
这对于基因工程和生物治疗的设计和优化非常有用。
通过比对获取相关蛋白质、启动子、调控序列等信息,可以进行目标基因的定向改造和调节。
7.基因家族研究:Blast可以用于鉴定和研究特定基因家族。
通过比对已知基因家族的代表性成员,可以找到其他类似的基因序列。
这对于研究基因家族的进化、功能和调控具有重要意义。
8.转录因子结合位点预测:Blast可以用于识别和预测转录因子结合位点。
samtools- 序列比对/Map (SAM) format生物信息学工具概要:samtools view -bt ref_list.txt -o aln.bam aln.sam.gz序列提取,相当于ncbi上的Query subrangesamtools sort aln.bam aln.sorted排序samtools index aln.sorted.bam索引文件samtools idxstats aln.sorted.bam在索引文件中检索和打印。
输出是每个参考序列组成的序列名称,序列的长度;# mapped reads and # unmapped reads.samtools view aln.sorted.bam chr2:20,100,000-20,200,000 提取序列samtools merge out.bam in1.bam in2.bam in3.bam合并多个分类队列samtools faidx ref.fasta创建序列索引文件samtools pileup -vcf ref.fasta aln.sorted.bamsamtools mpileup -C50 -gf ref.fasta -r chr3:1,000-2,000 in1.bam in2.bamsamtools tview aln.sorted.bam ref.fasta描述Samtools是一个工具集,操纵的BAM矩阵格式。
(序列比对/Map)输入和输出都是SAM格式,并排序,合并和创建索引,并允许检索迅速读取任何地区;Samtools的设计工作流。
它以一个输入文件' - '为标准输入(stdin)和一个输出文件' -为标准,输出(stdout)。
因此,可以多个命令结合Unix管道。
Samtools总是输出警告和错误信息到标准错误输出(标准错误)。
bfastWork flowThe basic work flow has five steps as seen in Figure 2.1.1. The first step is to create a reference genome. This reference genome contains all thesequence to which we wish to align. The command bfast fasta2brg performs this task (see section 3.2).2. The second step is to create indexes of the reference genome, which was created in thefirst step. The number and layout of these indexes is determined both by the user’s speed and accuracy requirements. The command bfast index performs this task (see section 3.3).3. The third step is to find candidate alignment locations (CALs) for each read. The expected number of CALs returned is a function of the number of indexes and the layouts chosen in the second step as well as the number offsets. The binary bfast match performs this task (see section 3.4).4. The fourth step is to fully align each CAL for each read. This uses a standard local alignment algorithm (Smith and Waterman (1981)) or a custom tool for ABI SOLiD 2.3. WORK FLOW 5data (Homer et al. (2009b)). The binary bfast localalign performs this task (see section 3.5).5. The fifth and final step is to prioritize the final alignments. The user specifies criteriato select the correct alignment for each read. The criteria can be based on many factors,including uniqueness, score, or other factors. The binary bfast postprocess performs this task (see section 3.6).bwabwa - Burrows-Wheeler Alignment Tool.SH SYNOPSIS.PPbwa index -a bwtsw database.fasta.PPbwa aln database.fasta short_read.fastq > aln_sa.sai.PPbwa samse database.fasta aln_sa.sai short_read.fastq > aln.sam.PPbwa sampe database.fasta aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln.sam.PPbwa dbwtsw database.fasta long_read.fastq > aln.sam流程图:。
化学实验知识:“BLAST算法在生物信息学中的应用实验研究”随着生物学、计算机科学和统计学的发展,生物信息学已成为研究生物学和医学的重要工具之一。
生物信息学是一个跨学科的领域,它结合了分子生物学、计算机科学、统计学、化学、物理学等多个学科,并重点关注生物数据的获取、处理和分析。
在生物信息学中,BLAST算法是一个重要的工具。
BLAST是“基本局部序列比对工具”的缩写,在生物学中常用来进行DNA、RNA和蛋白质序列查询。
BLAST算法是一种算法,可以快速从已知的蛋白质、DNA,RNA数据库中找到与之匹配的序列。
BLAST算法有许多优点。
首先,它非常快速。
BLAST算法可以快速比对大量的序列,尤其适用于大规模的生物信息学研究。
其次,BLAST算法具有高灵敏度和高特异性。
即使在具有相似序列的情况下,BLAST算法仍然可以找到最好的匹配。
最后,BLAST算法易于使用。
BLAST算法的用户界面简单明了,方便使用者快速操作。
然而,BLAST算法也有一些限制。
首先,BLAST算法只能找到与查询序列非常相似的序列。
因此,BLAST算法并不适用于寻找较为远缘的同源序列。
其次,BLAST算法的结果需要人工解读。
由于BLAST算法找到的序列数量通常非常之多,结果需要经过专家的解读和筛选,才能得出有价值的结论。
目前,BLAST算法已经广泛应用于生物信息学的各个领域。
例如,在基因组学领域,BLAST算法被用来鉴定基因和分析遗传变异。
在蛋白质学领域,BLAST算法被用来预测蛋白资质和进行结构预测。
此外,BLAST算法还被用于药物发现和疫苗设计。
总之,BLAST算法是生物信息学研究的重要工具之一。
它具有快速、高效和易于使用等优点。
同时,BLAST算法也面临一些挑战,例如远程同源序列的识别和结果解读。
随着生物信息学的发展,BLAST算法还将不断优化和改进,为生物学和医学的研究工作提供更强大的支持。
实习 4 :BLAST相似序列的数据库搜索学号20090**** 姓名****** 专业年级生命生技****实验时间2012.6.19 提交报告时间2012.6.20实验目的:学习使用BLAST在数据库中搜索相似序列实验内容:使用NCBI上面的BLAST程序进行相似性序列搜索:1.把核酸序列利用BLASTN搜索相似核酸序列;2.把蛋白质序列对应的蛋白质利用BLASTP搜索相似蛋白质序列;3.把核酸序列利用BLAST搜索相似蛋白质序列并与BLASTP比较,体会差异:4.把蛋白质序列利用TBLASTN搜索相似核酸序列并与BLASTN比较,体会差异:5.把核酸序列利用TBLASTX搜索相似核酸序列并与BLASTN比较,体会差异。
作业:1. 找一条你感兴趣的核酸序列(可以是前面搜索到的同源核酸序列中任意一条),通过BLASTN搜索NR数据库,说明你的参数如何设置,分析搜索结果包含哪些信息。
答:使用的序列为:智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA。
Algorithm parameters设置如下:参数:Enter Query Sequence——NM_001185098Choose Search Set——Database: Nucleoctide collection(nr); Exclude: √Models(XM/XP),√Uncultured/environmental ample sequencesProgram Selection——Optimize fot: Highly similar sequences展开“Algorithm parameters”,依次设置:General Parameters——Max target sequence:100; Short queries:√; Expect threshold:10;Word size:28; Max matches in a query range:0Scoring Parameters——Matrix/Mismatch Scores:1,-2; Gap Costs: LinearFilters and Masking——Filter: √Low complexity regions; √Mask: mask for lookup table only搜索结果分析:使用智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA搜索NR数据库,搜索出100条符合条件的序列,序列来自的物种包括了Homo sapiens,Pan troglodytes,Gorilla gorilla,Pongo abelii,Pongo pygmaeus,Mus musculus等,其中根据得分高低排列,前7条序列如下所示:NM_001185098.1 Homo sapiens insulin (INS), transcript variant 3, mRNANM_001185097.1 Homo sapiens insulin (INS), transcript variant 2, mRNANM_000207.2 Homo sapiens insulin (INS), transcript variant 1, mRNANG_007114.1 Homo sapiens insulin (INS), RefSeqGene on chromosomeAC132217.15 Homo sapiens chromosome 11, clone RP11-889I17, complete sequenceBC005255.1 Homo sapiens insulin, mRNAJ00265.1 Human insulin gene, complete cds上述序列的“Max ident”均为100%或99%,且E-Value值很低,可见搜索出来的序列与QUERY序列匹配的相似度很高。
BLAST(序列相似性快速搜索工具)
1. 什么是BLAST?
•BLAST的全称是Basic Local Alignment Search T ool(基本的局部比对搜索工具),基于一种局部最优的比对策略。
•BLAST是生命科学研究中常用的一套在核苷酸数据库或蛋白质数据库中进行序列相似性比对的一套分析工具
•BLAST算法是启发式算法。
首先将query序列打断成子片段,称之为seed words,然后将seed与预先索引好的序列进行比对,选择seed连续打分较高的位置采用动态规划算法进行延伸,延伸过程也会进行打分,当打分低于某一限度这一延伸过程就会被终止抛弃,最后产生了一系列的高得分序列。
最后还要使用E-value对其显著性进行评估,选出比对结果最好的序列。
•BLAST分为在线BLAST和本地化BLAST
IMAGE.png
2. BLAST程序类型
BLAST实际上是综合在一起的一组工具
的统称,它不仅可用于直接对蛋白质数据库和
核酸数据库进行搜索,而且可以将待搜索的核
酸序列翻译成蛋白质序列后再进行搜索,或者
反之,以提高搜索效率。
因此BLAST可以分
为 BLASTp、 BLASTn、 BLASTx、 tBLASTn、
tBLASTx。
IMAGE.jpg
IMAGE.png
3.BLAST 比对结果解读
实际应用中主要看E-value(E值越小越好),同时要求Score大于一定值。
图片来自MOOC。
实验1 DNA Blast(利用DNA数据库上提供的Blast功能)1基本信息:姓名:程瑶学号:201378020205班级:医学1301 实验日期:2016-04-192实验目的和要求:1)掌握BLAST的原理;2)了解如何利用Genbank数据库中提供的Blast功能完成同源性检索3实验仪器、设备与材料:计算机(联网)4实验原理:BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。
BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。
BLAST(Basic local alignment search tool),中文意思为基本的基于局部对准的搜索工具,是一种快速查找与靶序列具有连续相同片段的序列的技术。
5实验步骤:1)进入NCBI主页(/),点击BLAST按钮,进入了BLAST HOME界面。
A、选择blastn,在Enter Query Sequence 输入FASTA格式的序列,以枯草芽孢杆菌的葡萄糖-1-脱氢酶为例。
在choose search set栏中的Database中选择“others”,注意此处的program selection选择Highly similar sequences (megablast),再点击“BLAST”按钮,需要一定的反应时间,结果可以看到有很多非常相似的序列,打开匹配度较高的序列,查看来源、功能等。
改变下面几个参数(每次只能变化一个参数),看输出结果中打分最高的10条序列是否会发生变;B:进入blastp,在Enter Query Sequence 输入FASTA格式的序列。
在choose search set栏中的Database中选择“others”,注意此处的program selection选择Highlysimilar sequences (megablast),再点击“BLAST”按钮,需要一定的反应时间,结果可以看到有很多非常相似的序列,打开匹配度较高的序列,查看来源、功能等。
blast和clustal的原理一、引言Blast和Clustal是生物信息学领域中常用的两种序列比对工具。
Blast 主要用于快速查找数据库中与给定序列相似的序列,而Clustal则用于多个序列之间的比对。
本文将分别介绍Blast和Clustal的原理。
二、Blast原理1. 基本概念Blast全称为Basic Local Alignment Search Tool,是一种常用的序列比对工具。
其基本思想是通过寻找两条序列之间最长的局部匹配来确定它们之间的相似性程度。
2. 搜索算法Blast搜索算法主要分为两步:预处理和搜索。
预处理阶段,将数据库中所有序列进行预处理,生成索引文件。
这个过程称为建立BLAST数据库。
这个过程通常耗时较长,但只需要执行一次。
搜索阶段,将查询序列与索引文件进行比对,并找出最佳匹配结果。
这个过程通常很快,可以在几秒钟内完成。
3. 基本流程Blast基本流程如下:(1)将查询序列切成多个长度相等的片段;(2)将每个片段与数据库中所有序列进行比对,并计算得分;(3)根据得分排序,并选择最高得分的前N条结果返回。
4. 常用算法Blast有多种算法,其中最常用的是BLASTP、BLASTN、BLASTX、TBLASTN和TBLASTX。
(1)BLASTP:用于比对蛋白质序列与蛋白质数据库中的序列;(2)BLASTN:用于比对核酸序列与核酸数据库中的序列;(3)BLASTX:用于比对核酸序列的翻译产物与蛋白质数据库中的序列;(4)TBLASTN:用于比对蛋白质序列与核酸数据库中的翻译产物;(5)TBLASTX:用于比对核酸序列与核酸数据库中的翻译产物。
三、Clustal原理1. 基本概念Clustal全称为Cluster Analysis,是一种常用的多序列比对工具。
其基本思想是通过寻找多条序列之间最长的共同片段来确定它们之间的相似性程度。
2. 比对算法Clustal比对算法主要分为两步:预处理和多重比对。
blast使用指南Blast使用指南Blast(Basic Local Alignment Search Tool)是一种常用于生物信息学研究中的序列比对分析工具。
它可以根据输入的查询序列,在数据库中搜索相似序列,并给出比对结果。
本文将为大家提供一份Blast使用指南,帮助大家更好地使用Blast进行序列比对分析。
一、什么是Blast?Blast是一种基于局部比对算法的工具,它可以在大规模的数据库中快速搜索相似的序列。
通过比对查询序列和数据库中的序列,Blast 可以找到相似度较高的序列,从而推测它们之间的功能和结构的相似性。
二、Blast的使用步骤1. 准备查询序列在使用Blast之前,首先需要准备查询序列。
查询序列可以是DNA 序列或蛋白质序列,可以通过实验测序或从已有的数据库中获取。
确保查询序列的准确性和完整性非常重要,因为查询序列的质量将直接影响到Blast的结果。
2. 选择合适的Blast程序和数据库Blast有多个版本和程序可供选择,根据具体的研究目的和需求,选择合适的Blast程序和数据库非常重要。
常用的Blast程序包括Blastn(用于DNA序列比对)、Blastp(用于蛋白质序列比对)等。
数据库则可以选择NCBI的nr数据库、UniProt数据库等。
3. 运行Blast程序在选择好Blast程序和数据库后,可以通过命令行或图形界面来运行Blast程序。
对于初学者来说,推荐使用图形界面,因为图形界面更直观、易于操作。
在运行Blast程序时,需要输入查询序列文件和选择合适的参数设置,如比对算法、期望阈值、返回结果的数量等。
4. 解读Blast结果Blast运行完毕后,会生成一个结果文件。
这个结果文件包含了查询序列和数据库中相似序列的比对结果。
通过分析比对结果,可以了解到查询序列与数据库中序列的相似性程度、可能的功能和结构等信息。
需要注意的是,Blast结果并不是绝对准确的,需要结合实验数据和其他信息进行综合分析。
2003年3月内蒙古大学学报(自然科学版)M ar.2003第34卷第2期Acta Scientiarum Naturalium Univ ersitatis NeiM ongol Vol.34No.2 文章编号:1000-1638(2003)02-0179-09生物信息学工具BL AS T的使用简介吕 军1,3,张 颖3,冯立芹2,李 宏1(1.内蒙古大学理论物理与理论生物物理研究室,内蒙古呼和浩特010021;2.内蒙古民族大学物理系,内蒙古通辽028043;3.内蒙古工业大学物理教研室,内蒙古呼和浩特010062)摘要:从网上在线服务、电子邮件服务和本地运行三个方面介绍BL AS T的使用方法,目的是使大家尽快掌握它,使其成为理论生物学研究的有力工具.关键词:BL AS T;数据库;搜索中图分类号:Q617 文献标识码:A引 言 随着人类基因组计划(HGP)的进展,生物数据量迅速膨胀,海量的生物数据摆在生物信息学的工作者面前.生物信息学计算的核心是序列的比较,从而,比较基因组学、比较蛋白质组学成为后基因组时代的主要研究方向之一.比较的内容从序列的组分变化、寻找特殊的字段,到序列间字母的对应.比较的主要目的在于阐明序列间的同源(isogeny)关系,以及从已知序列去预测新序列的结构和功能.两个或多个符号序列按字母比较,尽可能确切地反映他们之间的相似和相异,称为序列的联配(a lig nment).核酸和蛋白质序列的联配的前提是,假定两个序列来自同一个祖先序列(“同源”),它们在演化的过程中由于变异的积累而成为不同的序列.近年来,进行序列联配分析的工具软件发展了很多,其中,尤以BLAST和FAST A使用最为频繁,一般认为,BLAS T运行速度快,对蛋白质序列的搜寻更为有效,FASTA速度较慢,对核酸序列更为敏感.BLAST是“基本局域联配搜索工具”(Basic Local Alig nment Search Tool)的字头缩写,是最常用的比较核酸和蛋白质同源性的比较工具.现在,利用BLAST对数据库进行搜索已成为生物信息学工作者的经常.因为BLAST和FAS TA的功能相近,所以,本文以BLAS T为例从三个方面来分别介绍BLAST的使用方法.关于BLAST的算法描述可见文献〔1〕和〔2〕.1 网上在线服务 BLAST是运行速度甚快的数据库搜索程序,许多生物信息中心都有专门运行BLAST的服务器.主要的BLAST服务器网址如下:http://w w w.ncbi.nlm.nih.g ov/blast/(运行BLASTR2.0,美国,维护GenBank)http://w w (运行W U-BLAST2,欧洲,维护EM BL数据库)http://w w w.blast.geno me.ad.jp/(运行BLAST2.0,日本)(运行BLASTR2.0,中国,有ncbi和ebi的镜像)收稿日期:2002-05-17基金项目:国家自然科学基金(10147204)资助项目,内蒙古自然科学基金(2001301)资助项目作者简介:吕军(1973~),男,内蒙古乌拉特前旗人,讲师,硕士.各服务器的BLAS T 搜索界面大同小异,下面我们以CBI(北京大学生物信息中心)的BLAS T 服务器为例,分步骤来介绍BLAST 的在线搜索方法.第一步:首先以http :// 登录CBI 的BLAS T 服务器,其界面如图1,这时可以选择所要进行的搜索方式.主要的搜索方式列在表1中.其中,BLAST 2Sequences 只针对两条序列的比对.从表1中可以看出,在BLAST 前面加T 表示要求进行翻译,后面加N 、P 分别表示核酸和蛋白质库.X 则表示某种交叉比较.图1 CBI 的BL A ST 程序选择界面Fig.1 H o me Pag e of Pro g ram o f BL A ST o f CBI表1 BLAST 程序Table 1 Programs of BLAST Prog ra ms Query Sequences Sea rch Data Bases BL A ST N Nucleotide N ucleotide BL AS T P Pro tein Pro tein BL A STX Nucleotide Pro tein T BL A ST N Pro tein N ucleotide T BL AST X NucleotideN ucleotideBL A ST 2Sequences 第二步:根据需要选择一种搜索方式后,进入下一层界面,如图2(以BLASTN 为例).这就是BLAS T 的主界面,下面我们逐一介绍一下BLAS T 的主界面中的各选项.图2 BL A STN 查询主界面Fig .2 Quer y Hom e Pag e o f BL A ST NA.首先是选择数据库 核酸序列数据库和蛋白质序列主要数据库分别列在表2中.对数据库的选择可根据查询的具体要求做出相应的选择.缺省数据库为nr.180内蒙古大学学报(自然科学版)2003年表2 蛋白和核酸数据库Table 2 Pept ide and Nucleotide Sequence DatabasesPeptide Sequence Databasesnr All no n-redundant GenBa nk CD S t ransla tions +PDB +SwissPr ot +PI RmonthAll new or revised GenBa nk CD S tra nsla tio n +PDB +Sw iss Pro t +PIR released in the last 30days .Swisspro t The last major release of the SW I SS-PRO T pro tein sequence database (no upda tes)y ea st Yeast (Saccharo myces cerevisiae )pro tein sequences.E .co li E .co li geno mic CDS tra nslatio nsPdbSequences deriv ed fr om the 3-dimensional structur e Br oo khav en Pro tein Da ta Ba nkPat Pro tein sequences deriv ed fro m the Pa tent divisio n o f G enBank N ucleo tide Sequence Da ta ba sesnr All N on -redunda nt GenBa nk +EM BL +DDB J +PDB sequences (but no EST ,ST S ,G SS ,or HT GS sequences)est N o n-redundant Database of GenBank +EM BL+DDBJ EST Div isionssts N o n -redundant Database of GenBank +EM BL +DDBJ ST S Div isions h tg s H ig h Thro ughput Genomic SequencesgssGeno me Surv ey Sequence ,includes sing le -pass g eno mic data ,ex o n -tr apped sequences ,a nd Alu PCR sequences.B .输入FAST A 格式的要查询序列 需要查询的序列可以通过“查询序列输入文本框”提交,也可以将要查询的序列做成FAST A 格式的文件通过“查询序列文件载入文本框”提交.这里允许同时提交多个序列.要求需要查询的序列必须以FAS TA 格式录入.FASTA 格式以“>”开头,每行不超过80个字符(包括说明行).最好每行低于60个字符.FAST A 格式支持的核酸符号和氨基酸符号分别列在表3中.表3 FASTA 格式所支持的核酸符号和氨基酸符号Table 3 The nucleic acid codes and amino acid codes supported by FASTAThe nucleic acid codes suppo r ted a re A adeno sine M A C (a mino )U uridine D G A T C cytidine S G C (stro ng )R G A (purine )H A C T G guanineWA T (weak)Y T C (pyrimidine)V G C A T thymidineB G T CKG T (keto )NA G C T (a ny )*ga p o f indetermina te leng thThe amino acid co des suppo rted ar e A a la nine G g lycine N a spar agine U selenocy steine B a spar tate o r asparag ine H histidine P pro line V v aline C cystine I isoleucine Q glutamine Wtr yptophanD a spar tate K lysine R a rginine Y tyr osineE g lutama te L leucineS serine Z g lutama te or glutamine F phe ny lalanine M me thionineTth reo nineXany*tr anslatio n stop-ga p o f inde termina teC.过滤程序的选择缺省为低复杂度,过滤程序可以滤掉序列中的一些“低复杂度”区域,否则象Poly (A)、Poly (T)这样的片段会导致高分联配,漏掉真正的编码区.一般选取缺省值即可.BLASTN 只能选用或不用DU ST 过滤程序,其他可选用过滤程序为SEG 、XN U 或其组合.对于这些过滤程序的描述可参见〔3〕等文献.D.期望值E 的选择181第2期吕军等 生物信息学工具BLAS T 的使用简介期望值E是一个统计显著性指标,是假定所提交的序列和库中的全部序列都是随机序列,所期望的符合数目.只有搜索到比期望值小的符合序列,才作为结果返回.缺省为10.E.联配矩阵的选择连配打分矩阵的选择的一般原则见表 4.F.交叉搜索时遗传密码表的选择和移框的选择(仅对BLASTX)G.高级选项高级选项的参数及其缺省值得设置见表5.高级选项的使用可以增加查询的灵活性,建议大家在对BLAST比较熟悉时,一定去使用这些选项.表4 打分矩阵的选择原则Table4 C hoice principle of substitut ion matrixQ ue ry leng th Substitutio n matrix <35P AM-3035-50P AM-7050-85BL O SU M-80>85BL O SU M-62表5 BLASTN和BLASTP、BLASTX、TBLASTN高级选项Table5 Advanced Options of BLASTN,BLASTP,BLASTX and TBLASTN BL A ST N Adv anced O ptio ns-G Cost to o pen a ga p[Intege r]default=5-E Cost to ex tend a g ap[Integ er]default=2-q Penalty for a mismatch in the bla st po rtion of run default=-3-r Rew ar d fo r a ma tch in th e blast por tio n o f r un defa ult=1-e Ex pecta tio n va lue(E)[Real]defa ult=10.0-W W ord size,default is11for blastn,3fo r o th er pro g rams.-v N umbe r o f o ne-line descriptio ns(V)[Integ er]defa ult=100-b N umbe r o f a lig nments to show(B)[Integ er]default=100BL A ST P,BL AST X,TBL A ST N Adv anced O ptio ns-G Cost to o pen a ga p[Intege r]default=11-E Cost to ex tend a g ap[Integ er]default=1-e Ex pecta tio n va lue(E)[Real]defa ult=10.0-W W ord size,default is11for blastn,3fo r o th er pro g rams.-v N umbe r o f o ne-line descriptio ns(V)[Integ er]defa ult=100-b N umbe r o f a lig nments to show(B)[Integ er]default=100H.返回结果的浏览形式I.返回符合序列简短说明的行数.缺省为100和50J.返回联配结果的颜色方案.共7种方案,缺省为无颜色方案K.清除查询序列和确定搜索第三步:分析返回结果.单击搜索按钮后,稍作等待便可有返回结果.返回结果主要包括以下四个部分,表10给出一个详细例子.A.标题(Header)A.1本次查询所使用的程序和其版本.A.2本程序的作者以及参考文献.A.3本次查询所搜索的数据库,搜索的序列数及字符数.A.4所提交的查询序列的信息.B.摘要(Summa ry)满足查询条件的有意义的联配结果的摘要信息.C.主要部分(Main)满足查询条件的有意义的联配结果详细信息.D.最后部分(finality)182内蒙古大学学报(自然科学版)2003年列出本次查询所使用的参数,以及一些计算出的参数.2 电子邮件查询服务 在线查询不方便时,比如受到上网机时的限制或所要提交的序列较长,可以通过电子邮件的方式进行BLAS T 搜索服务.因为是用电子邮件提交查询序列,故而没有上网费用的限制,所以最好提交国外网站(比如NCBI ),因为那里的数据库是最新最全的.下面我们就以NCBI 的电子邮件BLAS T 服务为例来演示如何通过电子邮件提交查询序列.我们发往N CBI 这样一封信: From :lujun8210@ Date :5Apr 200200:10:02(可选) To :blast @ Subject : PRO GRAM blastn DATALIB nr EX PEC T 0.75(可选) BEGIN >gi |6226515|ref |NC 001224.1|Saccharomy ces cerevisiae mitocho ndrion , complete g eno meT TCAT AAT TAAT T TT TT ATAT AT ATAT TA TAT TAT AAT ATT AATT T A ……其余参数均使用缺省值.返回结果与CBI 在线服务的返回结果基本相同,具体可参见表10.这里不再重复.3 本地运行 除在线BLAS T 搜索和E -M AIL 提交外,还可以将BLAST 下载到本地计算机上运行.下面我们分步骤来介绍如何在本地计算机上使用BLAS T 进行序列的比对.这对于我们的工作是十分有帮助的.第一步:下载一个单机用的DOS 版的BLAST 程序.可以到NCBI 下载(ftp ://ncbi .nlm .nih .g ov /blast /),也可以到谈杰的生物软件网下载(h ttp ://w w w.bio-so ).文件名为blastz.ex e,这是一个2.2版的BLAS T 程序,程序大小为7.3Mb.第二步:安装BLAST将blastz .ex e 拷贝到一指定目录(比如C :\Blast ,后面的演示均以此目录为准)后,运行blastz .ex e ,此时,在这一目录中生成12个应用程序、6个说明文件和一个data 文件夹.第三步:创建ncbi.ini 文件.在你的操作系统安装目录(如c :\w indow s)下创建一个名为ncbi.ini 的配置文件,在这个文件中写入下面两行代码,如果此文件存在,则修改其内容为下面两行代码: [NCBI] Data="path \data \" 比如,本例中在c :\window s \ncbi .ini 文件中写入下面两行代码: [NCBI ] Data=c :\blast\data因为在data 目录下存放有搜索必需的矩阵、密码表、参数表以及一些C 语言的脚本程序等重要信息,所以在搜索前要指定这些文件的存放路径.这一步做完之后,接下来要完成重要的一步,就是格式化数据库.第四步:格式化数据库.183第2期吕军等 生物信息学工具BLAS T 的使用简介184内蒙古大学学报(自然科学版)2003年首先要创建FASTA格式的数据库文件,然后用fo rm atdb程序将所创建的数据库文件格式化.下面我们详细介绍数据库的创建和格式化过程.A.创建数据库将所操作数据库以FAST A格式保存,可以自己创建,也可以到N CBI去下载,地址为:ftp:// /blast/db/.具体形式为:>gi|6319248|ref|N P009331.1|Yal069w pM IVNN T H V L TLPLYT TT TCHT HPHLY TDFTY AHGCYSIY HLKLTLL……....................................这里“>"是必需的,“>"之后是一些说明信息(说明可以省略),比如gi是NCBI数据库中序列的统一编号形式,gi后面跟“|”,“|”后面就是这个基因或蛋白的在NCBI的标识代码.具体标识代码含义见表6.包括说明在内,每行不超过80个字符,这是一个默认值.每个基因或蛋白均以“>”开头.将这个数据库文件以一定的文件名保存.比如创建一个核酸数据库以nt这个文件保存在“c:\blast\ database\nt\"下.表6 数据库名称与标识码Table6 Database Name and Identif ier SyntaxData base N ame Identifier Sy ntaxG enBank g b|accession|locusEM BL Data Libra ry emb|accessio n|locusD DBJ,DN A Database o f J apan dbj|accessio n|locusN BRF PIR pir||entr yPro tein Research Foundation pr f||na meSW ISS-PRO T sp|accessio n|entry na meBro okhav en Pro tein Data Bank pdb|entr y|chainPa tents pa t|countr y|numberG enInfo Backbone Id bbs|numberG ener al database identifier g nl|da taba se|identifie rN CBI Reference Sequence ref|a ccessio n|lo cusB.将所建好的数据库格式化启动DO S窗口,将路径指向BLAST应用程序所在目录,使用fo rmatdb命令对nt这个数据库进行格式化.fo rmatdb命令的语法格式为:fo rm atdb-i dtatbase-p F-o T本例中,可以如此应用fo rmatdb命令:c:\blast>fo rmatdb-i dtatbase\nt\nt-p F-o T其中一些主要参数的含义见表7.表7 f ormatdb命令的参数Table7 Parameters of f ormatdb commandPara meters sig nifica tio n-t Title for da ta ba se file[String]Optio na l-i Input file for for matting(this pa ramete r must be set)-l Log file name:O ptio nal defa ult=fo rma tdb.log-p T ype of file T-pr ot ein F-nucleo tide default=T-o Pa rse o ptionsT-Tr ue:Pa rse SeqId and cr ea te index es.F-False:Do not par se SeqId.Do no t cr ea te index es.[T/F]Optio na l default=F 执行完fo rm atdb命令后,在“c:\blast\database\nt\”下生成一系列文件,这些文件是进行数据库查询所必需的.第五步:进行序列比对和序列查询.完成以上步骤后就可以使用BLAST 进行序列的比对和查询了.A.两个序列之间的比对——bl2seq有时我们只需要对两个序列进行比对,此时就可以使用bl2seq 命令,使用bl2seq 命令不须要创建数据库,直接给定两条序列就可实现比对.具体语法格式为:bl2seq-i seq1-j seq2-p blast Pro gram-o out.Filebl2seq 命令还有很多参数,但最一般的是上面所列参数,根据所讨论问题的要求可具体选择不同的参数.查询参数的办法为,在提示符下直接键入bl 2seq ,不带任何参数即可,表8列出bl 2seq 命令的一些主要参数,注意参数的大小写.表8 bl 2seq 命令的参数Table 8 Parameters of bl 2seq command Pa ramete rssig nificatio n-i Fir st sequence [File In ]-j Second sequence [File In ]-p Prog r am na me :bla stp,blastn,blastx.For blastx 1st a rg ume nt sho uld be nucleo tide [String ];default =bla stp-o alig nm ent o utput file [File O ut ];default =stdout-M M a trix [String ];defa ult =BL O SUM 62-q Penalty for a nucleotide misma tch (blastn o nly );default =-3-r Rew ar d fo r a nucleo tide match (blastn o nly );default =1-e Ex pecta tio n va lue (E)[Real ];default =10.0-FFilter query sequence (DU ST w ith blastn,SEG w ith o ther s)[St ring ]default =T 举一个具体的例子,我们在“c :\blast da tabase \”目录下创建两个FASTA 格式的序列文件seq 1和seq 2,为了简单起见,我们把这两个文件内容作的相同.seq1:>gi |4001550|dbj |AB001390.1|AB001390Hepatitis C virus g ene for E2pro tein,hyperva riable re-gio n,pa rtial cds,clo ne :ACACACCC TCG TGAC AGGGGGGGseq2:>gi |4001550|dbj |AB 001390.1|AB 001390Hepatitis C virus g ene for E 2pro tein ,hyperva riable re-gio n ,pa rtial cds ,clo ne :ACACACCC TCG TGAC AGGGGGGG文件创建好之后,在DO S 窗口下输入以下命令行,输出文件名我们定义为seq12.c :\blast>bl2seq-i database\seq1-j da tabase\seq2-p bla stn -o da tabase\seq12-e 0.01命令执行后,我们察看输出文件seq12,如果-o 参数缺省,则查询结果在屏幕输出.seq12:Query :1cacaccctcg tg aca 15 |||||||||||||||Sbjct :1cacaccctcg tgaca 15 ............我们发现上面只比对了序列中的1-15个碱基,而16-22这7个碱基被滤掉了,因为这是连续7个G 的简单重复序列,如果不想滤掉它们,只须在bl2seq 的语句中加入参数-F,并且赋值F(假)即可,因缺省时-F 的值为T(真).即:185第2期吕军等 生物信息学工具BLAS T 的使用简介c:\blast>bl2seq-i database\seq1-j da tabase\seq2-p bla stn-o da tabase\seq12-e0.01-F F seq12:.................. Query:1cacaccctcg tgacaggg gg gg22|||||||||||||||||||||| Sbjct:1cacaccctcg tgacaggg gg gg22..................B.序列查询——blastall进行序列查询前,必须要有创建并格式化数据库的过程.前面的工作做好后,就可以利用blastall 命令进行序列的查询.具体语法格式为:blastall-p blastProg ram-d database-i Query File-o out.Query Fileblastall命令的部分参数列在表9中.寻求帮助时,直接键入blastall,不带参数就可以获得blastall命令的所有参数说明.注意参数的大小写区别.表9 blastall命令的参数Table9 Parameters of blastall commandPara meters sig nifica tio n-p Prog r am N ame[String]Input sho uld be one of"bla stp","blastn","blastx","tbla stn",o r"tblastx".-d Da ta base[String]default=nr-i Q uery File[File In]default=stdin-e Ex pecta tio n va lue(E)[Real]defa ult=10.0-o BL A ST repor t O utput File[File Out]Optio na l default=stdo ut-F Filter query sequence(DU ST w ith blastn,SEG w ith o ther s)[St ring]default=T-S Q uery stra nds to sear ch ag ainst da taba se(fo r blast[nx],a nd tblastx).3is bo th,1is to p,2is bo tto m [Integ er]default=3-T Produce HT M L output[T/F]default=F-l Rest rict sear ch o f da ta ba se to list of GI's[St ring]O ptio nal-U Use low er case filtering o f FA ST A sequence[T/F]O ptio nal defa ult=F 举一个例子.比如我们要在前面格式化好的数据库"c:\blast\da tabast\nt\nt"中搜索上例中的seq1这个序列.我们可以这样做:c:\blast>blastall-p blastn-d database\nt\nt-i database\seq1-o database\out.seq1-e0. 01-F F 输出文件为o ut.seq1,如果-o参数缺省,则查询结果在屏幕输出,具体结果见表10.表10 BLAST结果Table10 BLAST resultBL A ST N2.2.2[Dec-14-2001]Header Ref erence:Altschul,Stephe n F.,Thoma s L.M adden,Alejandro A.Schaffer,Jingh ui Zhang,Zheng Zhang,W ebb Miller,and Dav id J.Lipman(1997),"Gapped BL A ST and PSI-BL A ST:a new g eneration of pr otein database searchpro g rams",N ucleic Acids Res.25:3389-3402.Query=gi|4001550|dbj|AB001390.1|A B001390H epatitis C v irus gene fo rE2pr o tein,hyperv ariable regio n,pa rtia l cds,clo ne:A(22letter s)Da taba se:da ta ba se\nt\nt1386sequences;2,070,001to tal let ters186内蒙古大学学报(自然科学版)2003年续表10Sco r eE Sequences pro ducing sig nifica nt a lig nments :(bit s)V alue Summa rydbj |AB001409.1|AB001409Hepatitis C v irus g ene fo r E2pr otein,h (4)1e-006........................>dbj |AB001409.1|AB001409Hepa titis C virus g ene fo r E2pro tein,hy perv ariable regio n, pa rtia l cds ,clo ne 18A L eng th =81Sco r e =44.1bits (22),Ex pect =1e -006Identities =22/22(100%)M ainStrand =Plus /PlusQ uery:1cacaccctcg tg acagg gg g gg 22 ||||||||||||||||||||||Sbjct:1cacaccc tcg tg aca gg gg gg g 22 ........................La mbda K H fina lity1.370.7111.31Gapped..................... 上面简单描述了BLAST 的三个方面的使用方法,当然其中还有很多细节的东西本文没有涉及到,这些细节还需读者在应用BLAST 的过程中慢慢捉摸和体会,同时读者可以参见文献〔4,5,6〕.本文能起到抛砖引玉的作用也就达到了文章的目的.有了本文的介绍,再借助一些帮助文件,相信大家一定能够很快熟悉并掌握BLAS T 的用法,使之成为我们科研工作中方便的工具.参考文献:[1] Altschul S F ,Gish W ,M iller W ,et al .Ba sic loca l alig nm ent sea rch too l [J ].J .Mol .Biol .,1990,215:403~412.[2] Altschul S F ,M adden T L ,Schaffer A A ,et al .Gapped BL A ST and P SI BL AS T :a new ge ner atio n of pro teindatabase search pro g rams [J].N ucl .Acids Res .,1997,25:3389~3402.[3] W o ot to n J C,Federhen S.Statistics of local complex ity in amino acid sequences and sequence databas es [J].Com-puters &Chemistry ,1993,17:149~163.[4] 郝柏林,张淑誉.生物信息学手册[M ].上海:上海科学技术出版社,2000.10,184~210.[5] 赵南明,周海梦.生物物理学[M ].北京:高等教育出版社,2000.7,209~228.[6] 贺林.解码生命—人类基因组计划和后基因组计划[M ].北京:科学出版社,2000.4,421~426.A Brief Introduction of th e Bioinfo rmatics Tool BlastLU Jun 1,3,ZHANG Ying 3,FEN G Li -qing 2,LI Hong1(boratory of The oretical Physics and B iology ,NeiMongol University ,Hohhot 010021,P RC ;2.Department of Physics ,NeiMongol National University ,Tongliao 028043,P RC ;3.Teac hing and Researc h Section of Physics ,N eiMongol Polytechnic University ,Hohhot 010062,P RC ) Abstract :The usag e o f Blast is introduced by o n -line service ,E -mail service and local running respectiv ely ,in o rder to make ev erybo dy master it as soo n as possible,and to make it become a va luable tool in studying theo retical biolog y.Key words :BLAST ;database ;search187第2期吕军等 生物信息学工具BLAS T 的使用简介。
实验三数据库搜索—BLAST1. Nucleotide BLAST在Nucleotide中输入登录号搜索人类MAPK9(NM_139069.2)基因,send to 为coding sequences,作为Query 序列,或者下载complete sequences,在Blastn 中限制序列搜索范围为272-1420(编码区)。
分别用megablast, discontiguous megablast 和blastn 进行搜索。
这三个搜索的参数不同之处,主要体现在单词单位,megablast的单词单位默认为28,可选范围从16-256,discontiguous megablast的单词单位默认为11,可选为11和12,blastn单词单位默认为11,可选范围为7,11和15。
Megablast 可以快速搜索到与query 高度相似的序列;discontiguous megablast用于寻找与query 高度相似的序列; blastn则用于寻找与query 有一定相似度的序列。
单词单位越小,敏感度越高,也就是说,Megablast敏感度最差,discontiguous megablast 居中,blastn 最高。
Megablast的搜索速度最快,discontiguous megablast居中,blastn最差。
三个搜索所搜索到的相似序列的数量,相似性范围和分值范围都有很大差异,具体截取30bp的片段进行blastn搜索,默认参数设置如下图:搜索后,实际参数如下图,主要对word size, expect value进行了调整,这是因为我们了选中automatically adjust parameters for short input sequences,在所搜索的片段长度比较小时,数据库中随机情况下找到高度相似甚至相同的局部比对(HSPs)的可能性非常高,系统自动将word size 调小,提高敏感度,而将E-value 调大,确保有搜索结果出现。
blast+ 参数
BLAST+是一组用于生物信息学中的序列比对搜索工具的统称,包括BLASTN、BLASTP、BLASTX、TBLASTN和TBLASTX等。
这些工具用于在数据库中搜索与给定序列相似的序列,并返回匹配的结果。
BLAST+参数是用于配置BLAST+工具的各种选项和参数的集合。
这些参数可以影响搜索的敏感度、搜索范围和结果的显示方式等。
以下是一些常用的BLAST+参数:
1.-db:指定搜索的数据库文件。
2.-query:指定要进行搜索的输入序列文件。
3.-out:指定输出结果的输出文件名。
4.-evalue:设置预期的E值(Expect value),用于筛选低质量的匹配结果。
5.-gapopen:设置打开一个间隙的惩罚值。
6.-gapextend:设置扩展一个间隙的惩罚值。
7.-matrix:指定用于比对的替代矩阵文件。
8.-num_descriptions:限制显示的匹配序列的描述的数量。
9.-num_alignments:限制显示的匹配序列的数量。
10.-seg:指定用于局部序列比对的可变参数。
这些参数可以根据需要进行组合,以适应不同的搜索需求和场景。
通过调整这些参数,用户可以获得更加准确和全面的序列比对结果。
总结来说,BLAST+参数是指用于配置BLAST+工具的各种选项和参数,它们可以影响搜索的敏感度、搜索范围和结果的显示方式等。
通过合理地选择和调整这些参数,用户可以获得满意的序列比对结果。
生物信息学分析工具的操作指南与使用技巧近年来,随着生物学研究的向深度学习和大数据方向转变,生物信息学分析工具越来越重要。
这些工具能够处理和解读庞大的生物信息数据,从而提供对基因、蛋白质和其他生物分子功能的深入了解。
为了帮助研究者更好地应用这些工具,本文将提供生物信息学分析工具的操作指南与使用技巧。
一、 BLASTBLAST(Basic Local Alignment Search Tool)是最常用的生物信息学工具之一,用于比对基因或蛋白质序列并寻找相似性。
以下是使用BLAST的操作指南:1. 登录NCBI(National Center for Biotechnology Information)网站,选择"BLAST"选项卡。
2. 选择合适的BLAST程序,如nucleotide BLAST(用于比对核苷酸序列)或protein BLAST(用于比对蛋白质序列)。
3. 输入待比对的序列或上传序列文件。
4. 选择适当的数据库进行比对。
例如,对于人类基因,可以选择"Human genome"数据库。
5. 调整BLAST参数,如期望阈值(E-value)和比对长度,以优化结果。
6. 提交任务并等待结果。
BLAST将返回比对结果和相似性分数。
使用技巧:- 选择正确的数据库,以确保比对结果具有生物学相关性。
- 调整参数以满足特定的研究需求,如提高灵敏度或选择严格的相似性阈值。
- 分析比对结果时,关注较高的BLAST分数和较低的E-value,以确定最相关的序列。
二、DNA序列编辑器DNA序列编辑器是生物信息学研究中常用的工具,用于编辑、操作和分析DNA序列。
以下是使用DNA序列编辑器的操作指南:1. 下载和安装合适的DNA序列编辑器,如ApE(A plasmid Editor)或SnapGene。
2. 打开编辑器并创建新项目。
3. 在序列窗口中输入或粘贴DNA序列。
一、关于BLAST简述BLAST搜索的算法思想。
答:BLAST是一种局部最优比对搜索算法,将所查询的序列打断成许多小序列片段,然后小序列逐步与数据库中的序列进行比对,这些小片段被叫做字〞word〞;当一定长度的的字〔W〕与检索序列的比对达到一个指定的最低分〔T〕后,初始比对就结束了;一个序列的匹配度由各部分匹配分数的总和决定,获得高分的序列叫做高分匹配片段〔HSP〕,程序将最好的HSP双向扩展进行比对,直到序列结束或者不再具有生物学显著性,最后所得到的序列是那些在整体上具有最高分的序列,即,最高分匹配片段〔MSP〕,这样,BLAST 既保持了整体的运算速度,也维持了比对的精度。
BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?答:blastn是将给定的核酸序列与核酸数据库中的序列进行比较;Blastp是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系;Blastx将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和EST很有用;Tblastn将给定的氨基酸序列与核酸数据库中的序列〔双链〕按不同的阅读框进行比对,对于寻找数据库中序列没有标注的新编码区很有用;Tblastx只在特殊情况下使用,它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对BLAST中,E值和P值分别是什么,它们有什么意义?•答:BLAST中使用的统计值有概率p值和期望e值。
• E期望值(E-value)这个数值表示你仅仅因为随机性造成获得这一比对结果的可能次数。
这一数值越接近零,发生这一事件的可能性越小。
从搜索的角度看,E值越小,比对结果越显著。
默认值为10,表示比对结果中将有10个匹配序列是由随机产生,如果比对的统计显著性值(E值)小于该值(10),则该比对结果将被检出,换句话说,比较低的E值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。
blast生物信息学名词解释
嘿,你知道什么是 blast 吗?这可真是个超级重要的生物信息学名
词啊!blast 就像是一把神奇的钥匙,能打开生物信息世界的大门。
比
如说,当你面对海量的基因序列,就像置身于一个巨大的基因海洋中,blast 就是那艘能带你航行其中的船(这就好像在茫茫大海中找到正确
的航向一样)。
想象一下,研究人员们每天都在和各种基因数据打交道,那可真是
一团乱麻啊!这时候,blast 闪亮登场啦!它能快速地在这些数据中找
到相似的部分。
你看,就好比你在一堆拼图中迅速找到能拼在一起的
那几块(是不是很厉害呀)!
有一次,我和我的生物学家朋友聊天,他就特别兴奋地跟我说:“哎呀,blast 可太好用啦,没有它,我的研究都不知道该怎么进行下去!”我当时就很好奇,问他:“blast 到底是怎么做到的呀?”他耐心地
给我解释说,blast 会把你要查询的序列和数据库中的序列进行比对,
然后告诉你它们之间的相似程度。
哇塞,这听起来就好酷啊!
blast 还能帮助我们发现新的基因功能呢!就好像你在一个满是宝藏
的山洞里,blast 就是那盏能照亮宝藏的灯(是不是很神奇呢)。
它能
让我们找到那些隐藏在数据深处的秘密。
在生物信息学的领域里,blast 真的是不可或缺的工具。
它就像是一
个超级英雄,默默地守护着生物研究的世界,帮助科学家们解开一个
又一个的谜题。
所以呀,blast 可不仅仅是一个名词,它更是生物信息学的灵魂所在啊!我觉得,blast 就是生物信息学中最闪亮的那颗星,没有之一!你难道不这么认为吗?。
一前言在生物信息学中,Blast是一个序列相似性搜索的程序包,其中包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。
比如说查询的序列为核酸,查询数据库亦为核酸序列数据库,那么就应该选择blastn程序。
下面主要就核酸和蛋白质在BLAST中的比对过程、结果分析做出说明。
二本论2.1专题实践目的通过该专题实践,进一步了解BLSAT在生物信息学中的应用,加深对BLAST的认识,熟悉BLAST中序列比对的过程并且掌握部分分析结果的意义。
2.2专题实践任务DNA序列blast∙登录NCBI:/Blast.cgi∙从10.186.32.182服务器fasta文件夹下载DNA序列文件(任选一个),另存为本地文件。
∙打开文件,分析文件内容。
∙复制粘贴氨基酸序列到 Enter Query Sequence对话框∙选择数据库∙提交BLAST∙分析返回结果蛋白质序列blast∙登录NCBI:/Blast.cgi∙从10.186.32.182服务器fasta文件夹下载蛋白质序列文件(任选一个或几个文件),另存为本地文件。
∙打开文件,分析文件内容。
∙复制粘贴氨基酸序列到 Enter Query Sequence对话框∙选择数据库∙提交BLAST∙分析返回结果2.3 DNA序列Blast2.3.1选取DNA序列:>11466 TGGCCTCCTGCCCTTCCTGGAGGGAGATGCGCTCCCTGGAGCTGCTGACTAGGTGGAAGC AGACTGGCTCCTTCAGTGGGTAGGCCAGCCTGCCTGTCTCCCTAGCCCAGTCCCACCGTG CTGGCCTCAGTGGTGGAGGCAGGCATGGAGCCTTGGAGGAACC该DNA序列为人类的一段DNA。
打开NCBI网站点击Basic BLAST 部分的nucleotide blast 链接到一个新的页面。
将上面的DNA序列粘贴到对话框中:2.3.2参数设置:在最上面有这样几个选项其中有blastn、blastp、blastx、tblastn、tblastx几个选择,分别代表了不同的搜索数据库,例如blastx,是把核酸序列翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。
实验三数据库搜索—BLAST
1. Nucleotide BLAST
在Nucleotide中输入登录号搜索人类MAPK9(NM_139069.2)基因,send to 为coding sequences,作为Query 序列,或者下载complete sequences,在Blastn 中限制序列搜索范围为272-1420(编码区)。
分别用megablast, discontiguous megablast 和 blastn 进行搜索。
这三个搜索的参数不同之处,主要体现在单词单位,megablast的单词单位默认为28,可选范围从16-256, discontiguous megablast的单词单位默认为11,可选为11和12, blastn单词单位默认为11,可选范围为7,11和15。
Megablast 可以快速搜索到与query 高度相似的序列;discontiguous megablast用于寻找与 query 高度相似的序列; blastn则用于寻找与 query 有一定相似度的序列。
单词单位越小,敏感度越高,也就是说,Megablast敏感度最差,discontiguous megablast 居中,blastn 最高。
Megablast的搜索速度最快,discontiguous megablast居中,blastn最差。
三个搜索所搜索到的相似序列的数量,相似性范围和分值范围都有很大差异,具
Methods Number Identity(%)Max score Megablast154172-10073.1-2122 discontiguous megablast652763-10044.6-2073 blastn116676310044.6-2073
截取30bp的片段进行blastn搜索,默认参数设置如下图:
搜索后,实际参数如下图,主要对word size, expect value进行了调整,这是因为我们了选中automatically adjust parameters for short input sequences,在所搜索的片段长度比较小时,数据库中随机情况下找到高度相似甚至相同的局部比对(HSPs)的可能性非常高,系统自动将 word size 调小,
提高敏感度,而将 E-value 调大,确保有搜索结果出现。
2. Protein BLAST
2.1第一个例子:
以人的 retinol binding protein 4 (NP_006735)作为 query搜索蛋白库,database选择RefSeq-protein数据库,organism选择细菌(Bacteria (taxid:2)),Blastp得到549条相似序列。
分别用 BLASTP, PSI-BLAST,
Methods Number Identity(%)Max score
blastp54922-3935.7-54.1
PSI-BLAST
PHI-BLAST
DELTA-BLAST
2.2第二个例子
a 以人的血红蛋白 beta 链(NP_000509)作为 query, 使用默认参数搜索数据库(nr)搜索,共得到1443条序列,max score分值范围50.4-301,identity 范围41-100%。
b数据库更换为 RefSeq-Protein,organism设置为plants (taxid:3193),搜索结果为No significant similarity found. For reasons why,click here,表明没有搜索到同源序列。
c 仅将wor
d size调为从6调为2,提高搜索敏感度,搜索到分值在32.3-37.4的56条序列,idetity范围31-38%。
仅将评分矩阵从默认的 BLOSUM62 换成BLOSUM45,搜索到分值在31.8-33.9的9条序列,idetity范围23-37%。
从两个参数调整的搜索结果看,word size更好的提高了搜索敏感度。
d若是使用PSI-BLAST,第一轮搜索到51条序列,选择 leghemoglobin构建矩阵,进行第二轮搜索,第二轮搜索到260条序列,且max score明显升高,范围47.4-149,第三轮266条,经7轮搜索,共得到268条序列,分值范,45.5-275,
identity范围13-22%。
使用敏感度更高的搜索算法DELTA-BLAST,第一轮得到265条序列,去掉非同源序列,进行第二轮搜索,得到267条,第三轮就得到268条,分值范围44-275,identity范围12-22%。
从四种提高搜索敏感度的方法所得到的结果可以看出,DELTA-BLAST和PSI-BLAST敏感度较高,都搜索到268条序列,而DELTA-BLAST在第一轮搜到几乎所有的同源序列,PSI-BLAST经过6轮迭代搜索,才得到所有序列。
减小word size和更换小的BLOSUM矩阵,分别搜索到56和9条序列,与迭代搜索敏感度相差甚远。
2.3分别以MAPK9(NM_139069.2)及其编码的蛋白序列(NP_620708.1)为query,搜索核酸和蛋白数据库,数据库分别限定为refseq-rna和refseq-protein,organism分别限定为Bacillus sp. 10405 (taxid:1423)和Bacillus sp. 2479 (taxid:1396)。
以MAPK9(NM_139069.2)为query,搜索到303条序列,主要是分布在Bacillus cereus中。
而以其编码的蛋白序列(NP_620708.1)为query,搜索到313条序列,主要是分布在Bacillus cereus中,蛋白序列搜索的敏感性要高于核酸序列搜索的敏感性。
通过调整搜索参数,可以提高搜索的敏感性,当单词单位调为2时,可以搜索到319条序列,也是分布在Bacillus,Bacillus cereus中。
当矩阵从默认的BLOSUM62 换成 BLOSUM45,相似序列也是分布在Bacillus,Bacillus cereus 中,但是搜索到序列条数有所下降,仅313条。
使用敏感性更高的方法,PSI-BLAST经过7轮迭代搜索不再出现新序列,共得到573条序列,分别在Bacillus,Bacillus cereus和Bacillus cereus group 中,DELTA-BLAST经4轮迭代搜索得到573条序列,分别在Bacillus,Bacillus cereus和Bacillus cereus group中。
PSI-BLAST搜索,第一轮会出现假阳性,经过筛选,以后每轮的假阳性会越来越少。
而DELTA-BLAST搜索第一轮出现假阳性的几率已经非常小。
2.4 在进行搜索时,发现QuickBLASTP速度确实比blastp 搜索速度快,用QuickBLASTP搜索nr 蛋白质数据库的MAPK9(NP_620708.1)在芽孢杆菌中的相似序列时,结果没有搜索到序列,而blastp搜索到413条序列。
说明blastp 搜索到搜索到的序列与目标序列的相似性均在50%以下。
3. Translated BLAST
以MAPK9(NM_139069.2)及其编码的蛋白序列(NP_620708.1)为query,分别用blastn,blastp,blastx, tblastx和 tblastn 搜索核酸和蛋白数据库,
数据库分别限定为refseq-rna和refseq-protein,organism限定为Bacillus。