上机实习四:BLAST序列相似性搜索工具的使用
- 格式:ppt
- 大小:1.74 MB
- 文档页数:96
NCBI在线BLAST使用方法与结果详解BLAST(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。
BLAST程序能迅速与公开数据库进行相似性序列比较。
BLAST结果中的得分是对一种对相似性的统计说明。
BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。
Blast中常用的程序介绍:1、BLASTP是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
2、BLASTX是核酸序列到蛋白库中的一种查询。
先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
3、BLASTN是核酸序列到核酸库中的一种查询。
库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
4、TBLASTN是蛋白序列到核酸库中的一种查询。
与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
5、TBLASTX是核酸序列到核酸库中的一种查询。
此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。
下面是具体操作方法1,进入在线BLAST界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。
不同的blast程序上面已经有了介绍。
这里以常用的核酸库作为例子。
2,粘贴fasta格式的序列。
选择一个要比对的数据库。
关于数据库的说明请看NCBI在线blast数据库的简要说明。
一般的话参数默认。
3,blast参数的设置。
注意显示的最大的结果数跟E值,E值是比较重要的。
筛选的标准。
最后会说明一下。
4,注意一下你输入的序列长度。
注意一下比对的数据库的说明。
5,blast结果的图形显示。
没啥好说的。
6,blast结果的描述区域。
blast应用实例Blast是一种常用的生物信息学工具,用于比对和分析生物序列。
它可以将一个或多个查询序列与数据库中的目标序列进行比对,通过比对结果提供有关序列相似性、保守区域和功能注释的信息。
以下是Blast应用的一些实例:1.从NCBI数据库搜索相似序列:Blast可以用于从NCBI的数据库中搜索与给定序列相似的序列。
例如,如果我们有一个未知的蛋白质序列,我们可以使用Blast将其比对到NCBI的非冗余蛋白质数据库上,以找到与之相似的蛋白质序列。
这对于鉴定新的蛋白质家族、推断功能等非常有用。
2.基因注释:Blast可以用于对新的基因序列进行功能注释。
例如,通过比对一个未知的DNA序列到已知的基因组序列数据库,我们可以获得对应的基因区域、编码蛋白质以及可能的功能信息。
这对于基因组学研究和药物研发很重要。
3.遗传多样性分析:Blast也可以用于研究不同物种或个体之间的遗传差异。
通过比对DNA或RNA序列,可以鉴定不同物种或个体之间的变异位点。
这对于研究进化、种群遗传学和物种鉴定具有重要意义。
4.病原体识别:Blast可以用于快速识别和鉴定病原体。
通过比对未知的病原体序列到已知的病原体数据库,可以确定其种类和亚型。
这对于疾病的诊断和流行病学研究非常有帮助。
5.系统发育分析:Blast在系统发育学中也被广泛应用。
通过比对多个物种的DNA或蛋白质序列,可以构建物种间的进化关系树。
这对于研究生物的进化历史和亲缘关系具有重要意义。
6.基因工程:Blast可以用于在已知的基因库中寻找与目标序列相似的基因。
这对于基因工程和生物治疗的设计和优化非常有用。
通过比对获取相关蛋白质、启动子、调控序列等信息,可以进行目标基因的定向改造和调节。
7.基因家族研究:Blast可以用于鉴定和研究特定基因家族。
通过比对已知基因家族的代表性成员,可以找到其他类似的基因序列。
这对于研究基因家族的进化、功能和调控具有重要意义。
8.转录因子结合位点预测:Blast可以用于识别和预测转录因子结合位点。
实用生物信息技术课程第4次作业BLAST数据库相似性搜索姓名________ 学号______________ 组号_____ 日期________年___月___日1.以人血红蛋白beta亚基(HBB_HUMAN)为检测序列,搜索Swiss-Prot数据库,找出灵长目动物(Primates)中与HBB_HUMAN序列相似性高于90%(Identity>90%)的beta珠蛋白(beta globin)。
2.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用BlastP搜索Swiss-Prot数据库,改变种子序列字长(Word size)和计分矩阵(Scoring matrix),找出人珠蛋白家族12个成员。
3.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用PSI-Blast搜索Swiss-Prot数据库,找出人珠蛋白家族成员脑红蛋白(Neuroglobin)。
4.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用DELTA-Blast搜索Swiss-Prot数据库,找出人珠蛋白家族成员脑红蛋白(Neuroglobin)。
5.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用tBlastN搜索RefSeq数据库中人珠蛋白家族mRNA序列,提取其编码区序列,进行多序列比对,分析结果。
6.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,搜索RefSeq数据库中人、小鼠和大鼠三个物种珠蛋白家族mRNA序列,提取其编码区序列,进行多序列比对,分析结果。
7.查阅Blast网站帮助文档和相关文献,结合Blast算法,归纳总结Blast数据库相似性搜索的用法8.结合本人课题研究中的实例,说明Blast具体应用。
9.本地BLAST(选做题)1)下载玉米转录因子蛋白质序列和编码区核苷酸序列数据,构建本地BLAST数据库。
2)以拟南芥转录因子SPL3蛋白质序列为检索序列,用BlastP搜索玉米转录因子蛋白质序列中相似序列,用tBlastN搜索玉米转录因子编码区序列中相似序列,分析结果。
BLAST(序列相似性快速搜索工具)
1. 什么是BLAST?
•BLAST的全称是Basic Local Alignment Search T ool(基本的局部比对搜索工具),基于一种局部最优的比对策略。
•BLAST是生命科学研究中常用的一套在核苷酸数据库或蛋白质数据库中进行序列相似性比对的一套分析工具
•BLAST算法是启发式算法。
首先将query序列打断成子片段,称之为seed words,然后将seed与预先索引好的序列进行比对,选择seed连续打分较高的位置采用动态规划算法进行延伸,延伸过程也会进行打分,当打分低于某一限度这一延伸过程就会被终止抛弃,最后产生了一系列的高得分序列。
最后还要使用E-value对其显著性进行评估,选出比对结果最好的序列。
•BLAST分为在线BLAST和本地化BLAST
IMAGE.png
2. BLAST程序类型
BLAST实际上是综合在一起的一组工具
的统称,它不仅可用于直接对蛋白质数据库和
核酸数据库进行搜索,而且可以将待搜索的核
酸序列翻译成蛋白质序列后再进行搜索,或者
反之,以提高搜索效率。
因此BLAST可以分
为 BLASTp、 BLASTn、 BLASTx、 tBLASTn、
tBLASTx。
IMAGE.jpg
IMAGE.png
3.BLAST 比对结果解读
实际应用中主要看E-value(E值越小越好),同时要求Score大于一定值。
图片来自MOOC。
BLAST序列相似性检索<zt>序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索,找出与之相似的序列,从而评判新测定的序列是重复别人的工作,还是在前人的基础上有所创新,或是发现了新的序列。
现在用于序列类似性检索的软件很多,下面主要介绍GenBank的序列类似性检索工具棗BLAST。
1. BLAST简介BLAST是Basic Local Alignment Search Tool的英文缩写,意即碱基局部对准检索工具,是一种序列类似性检索工具。
它采用统计学记分系统,能将真正配对的序列同随机产生的干扰序列区别开来;同时采用启发式算法系统,即采用的是局部对准算法(Local Alignment Algorithm),而不是全序列对准算法(Global Alignment Algorithm)。
全序列对准算法是在检索结果中两个被比较序列所有片断均类似;而局部对准算法是找出两个被比较序列的“最类似”片断,并得出可能只包含两个序列的某个部分的对准结果。
在BLAST的基础上,NCBI又开发了BLAST 2.0、Gapped BLAST和PSI-BLAST。
BLAST 2.0•是一种新的BLAST 检索工具,它对BLAST作了改进,运行速度更快,灵敏度更高,同时具有Gapped BLAST和PSI-BLAST两种软件的新功能。
Gapped BLAST允许在对准的序列中引入空位(•碱基缺失或插入),引入“空位”(Gaps)意味着在比较两个相关序列时不会出现中断(Break)现象。
这些空位对准的记分系统更能反映相关序列的类似程度。
PSI-BLAST的全称是Position-Specific •Iterated BLAST,意即特殊位置重复BLAST,它提供了自动、易用的概貌(Profile)检索,是查找序列同源(Sequence Homologues)的有效方法。
目前,PSI-BLAST•仅用于比较蛋白质查询序列与蛋白质数据库中的序列的类似程度。
实习 4 :BLAST相似序列的数据库搜索学号20090**** 姓名****** 专业年级生命生技****实验时间2012.6.19 提交报告时间2012.6.20实验目的:学习使用BLAST在数据库中搜索相似序列实验内容:使用NCBI上面的BLAST程序进行相似性序列搜索:1.把核酸序列利用BLASTN搜索相似核酸序列;2.把蛋白质序列对应的蛋白质利用BLASTP搜索相似蛋白质序列;3.把核酸序列利用BLAST搜索相似蛋白质序列并与BLASTP比较,体会差异:4.把蛋白质序列利用TBLASTN搜索相似核酸序列并与BLASTN比较,体会差异:5.把核酸序列利用TBLASTX搜索相似核酸序列并与BLASTN比较,体会差异。
作业:1. 找一条你感兴趣的核酸序列(可以是前面搜索到的同源核酸序列中任意一条),通过BLASTN搜索NR数据库,说明你的参数如何设置,分析搜索结果包含哪些信息。
答:使用的序列为:智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA。
Algorithm parameters设置如下:参数:Enter Query Sequence——NM_001185098Choose Search Set——Database: Nucleoctide collection(nr); Exclude: √Models(XM/XP),√Uncultured/environmental ample sequencesProgram Selection——Optimize fot: Highly similar sequences展开“Algorithm parameters”,依次设置:General Parameters——Max target sequence:100; Short queries:√; Expect threshold:10;Word size:28; Max matches in a query range:0Scoring Parameters——Matrix/Mismatch Scores:1,-2; Gap Costs: LinearFilters and Masking——Filter: √Low complexity regions; √Mask: mask for lookup table only搜索结果分析:使用智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA搜索NR数据库,搜索出100条符合条件的序列,序列来自的物种包括了Homo sapiens,Pan troglodytes,Gorilla gorilla,Pongo abelii,Pongo pygmaeus,Mus musculus等,其中根据得分高低排列,前7条序列如下所示:NM_001185098.1 Homo sapiens insulin (INS), transcript variant 3, mRNANM_001185097.1 Homo sapiens insulin (INS), transcript variant 2, mRNANM_000207.2 Homo sapiens insulin (INS), transcript variant 1, mRNANG_007114.1 Homo sapiens insulin (INS), RefSeqGene on chromosomeAC132217.15 Homo sapiens chromosome 11, clone RP11-889I17, complete sequenceBC005255.1 Homo sapiens insulin, mRNAJ00265.1 Human insulin gene, complete cds上述序列的“Max ident”均为100%或99%,且E-Value值很低,可见搜索出来的序列与QUERY序列匹配的相似度很高。
实验二序列相似性搜索软件—BLAST的使用一、实验目的:掌握序列相似性查询工具—BLAST使用方法和技巧,理解与序列相似性查询相关的几个基本概念。
二、实验原理:BLAST是基本的局部对位排列搜索工具,它通过搜索序列数据库来找出最优的无空位局部对比,从数据库中找出与查询序列的某些子序列相似的子序列。
三、实验器材:计算机,NCBI、EMBL生物信息学数据库的核苷酸序列、BLAST序列相似性搜索软件。
四、实验内容:应用上次或本次实验查找到的不同物种的不同基因组的核苷酸序列,在NCBI数据库中进行核苷酸序列的BLAST相似性搜索。
五、实验步骤:1、打开NCBI网站的主页,然后点击网页左侧工具栏中的Sequence analysis项,进入到序列分析的主页面。
2、然后点击序列分析工具栏中的BLAST选项,进入相似性搜索的界面,然后选择核苷酸序列搜索软件BLASTn。
3、在进入核苷酸序列相似性搜索的界面后,在界面上Enter Query Sequence后面的方框中输入需要进行相似性搜索的序列,然后点击BLAST检索按钮,就可以进行搜索。
4、在进入搜索结果的界面后,就可以得到搜索结果的可视化图像和搜索得到的相关序列。
六、实验要求:每个组每个同学至少用4条核苷酸序列进行BLAST相似性搜索。
将相似性搜索结果中的可视化图像和搜索的相关序列拷贝下来作为实验内容。
七、实验结果:例1:(物种名、基因名)实验结果:1. (冬虫夏草,18S-ITS1-5.8S-ITS2-28S)Legend for links to other resources:UniGene GEO Gene Structure Map Viewer PubChem BioAssaySequences producing significant alignments:Accession DescriptionMaxscore TotalscoreQuerycoverageEvalueMaxidentLinksHQ918290.1Paecilomyces sinensis 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomalRNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partial sequence11221122 98% 0.0 100%Sequences producing significant alignments:Accession DescriptionMaxscore TotalscoreQuerycoverageEvalueMaxidentLinksHM135164.1Paecilomyces sp. SJL0906 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomalRNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partial sequence10811081 98% 0.0 97%AB044644.1 Paecilomyces sp. 97014 gene for 18S rRNA, ITS1, 5.8S rRNA, ITS2, 26S rRNA, partial and complete sequence 10771077 98% 0.0 97%AY491998.1Paecilomyces sp. NSP-2003 18S ribosomal RNA gene, partial sequence; intern al transcribed spacer 1, 5.8S ribosomalRNA gene, and internal transcribed spacer 2, complete sequence; and 26S ribosomal RNA gene, partial sequence10381038 96% 0.0 97% 2. (枯草杆菌,16s)Distribution of 107 Blast Hits on the Query SequenceLegend for links to other resources: UniGene GEO Gene Structure Map Viewer PubChem BioAssaySequences producing significant alignments:Accession Description Max score Total score Q uery coverage E value Max ident Links HQ731481.1 Bacillus subtilis strain G1 16S ribosomal RNA gene, partial sequence 15161516 100% 0.0 100%HQ232423.1 Bacillus tequilensis strain A-21 16S ribosomal RNA gene, partial sequence 15161516 100% 0.0 100%HQ687501.1 Bacillus subtilis strain KJB06-35 16S ribosomal RNA gene, partial sequence 15161516 100% 0.0 100%HQ625387.1 Bacillus subtilis subsp. spizizenii strain RRLKE2 16S ribosomal RNA gene, partial sequence 15161516 100% 0.0 100%HQ327126.1 Bacillus subtilis strain TP-Snow-C17 16S ribosomal RNA gene, partial sequence 15161516 100% 0.0 100%3. (松材线虫,18S-ITS1-5.8S-ITS2-28S)Distribution of 120 Blast Hits on the Query SequenceLegend for links to other resources: UniGene GEO Gene Structure Map Viewer PubChem BioAssaySequences producing significant alignments:Accession DescriptionMaxscore TotalscoreQuerycoverageEvalueMaxidentLinksJF317234.1Bursaphelenchus xylophilus isolate 121AD 18S ribosomal RNA gene, partial sequence; internal transcribed spacer1, 5.8S ribosomal RNA gene, and internal transcr ibed spacer 2, complete sequence; and 28S ribosomal RNA gene,partial sequence16621662 100% 0.0 100%JF317232.1Bursaphelenchus xylophilus isolate 4049 18S ribosomal RNA gene, partial sequence; internal transcribed spacer1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene,partial sequence16621662 100% 0.0 100%JF317233.1Bursaphelenchus xylophilus isolate 39906 18S ribosomal RNA gene, partial sequence; internal tr anscribed spacer1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene,partial sequence16271627 100% 0.0 99%EU259322.1Bursaphelenchus xylophilus strain XM_1 18S ribosomal RNA gene,partial sequence; internal transcribed spacer 1,5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partialsequence16271627 100% 0.0 99%AM157747.1Bursaphelenchus xylophilus 18S rRNA gene (partial), ITS1, 5.8S rRNA gene, ITS2 and 28S rRNA gene (partial), strainPT1w16181618 100% 0.0 98%JF317229.1Bursaphelenchus xylophilus isolate CA 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1,5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partialsequence16061606 100% 0.0 98%4. (蛹虫草,18S-ITS1-5.8S-ITS2-28S)Distribution of 100 Blast Hits on the Query SequenceLegend for links to other resources:UniGene GEO Gene Structure Map Viewer PubChem BioAssaySequences producing significant alignments:Accession DescriptionMaxscore TotalscoreQuerycoverageEvalueMaxidentLinksHM135161.1Cordyceps militaris strain JM0807 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8Sribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partialsequence10671067 100% 0.0 100%AB070375.2Cordyceps militaris genes for 18S rRNA, ITS1, 5.8S rRNA, ITS2, 28S rRNA, partial and complete sequence, strain:IFO3037710611061 100% 0.0 99%EU273506.1Cordyceps militaris isolate XSD-27 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8Sribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosom al RNA gene, partialsequence10581058 100% 0.0 99%AB233336.1Cordyceps militaris genes for 18S ribosomal RNA, internal transcribed spacer 1, 5.8S ribosomal RNA, internaltranscribed spacer 2, 28S ribosomal RNA, partial and complete sequence, strain: BCMU CM1610581058 100% 0.0 99% AB070374.2Cordyceps militaris genes for 18S rRNA, ITS1, 5.8S rRNA, ITS2, 28S rRNA, partial and complete sequence, strain:IFO978710581058 100% 0.0 99% AB027379.1 Cordyceps militaris genes for 18S rRNA, ITS1, 5.8S rRNA, ITS2, 28S rRNA, partial and complete sequence 10581058 100% 0.0 99%。
BLAST (Basic Local Alignment Search Tool)NCBI采用的一套对蛋白质数据库或DNA数据库中进行相似性比较的分析工具(当然很多其它生物学数据库都提供了BLAST检索入口)。
您只需提交您的序列,通过BLAST查询就顷刻间从公开数据库中无数的的序列里找到相似序列。
BLAST结果中的得分是对一种对相似性的统计说明。
BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。
如果您想进一步了解BLAST算法,您可以参考NCBI的BLAST Course ,该页有BLAST算法的介绍。
BLAST功能是什么?BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。
BLAST还能发现具有缺口的能比对上的序列。
BLAST是基于Altschul等人在J.Mol.Biol上发表的方法(J.Mol.Biol.215:403-410(1990)),在序列数据库中对查询序列进行同源性比对工作。
从最初的BLAST发展到现在NCBI提供的BLAST2.0,已将有缺口的比对序列也考虑在内了。
BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。
所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。
GCG及EMBOSS等软件包中包含有五种BLAST:1、BLASTP是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
2、BLASTX是核酸序列到蛋白库中的一种查询。
先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
3、BLASTN是核酸序列到核酸库中的一种查询。
库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
BLASTP(Basic Local Alignment Search Tool,简称BLAST)是一种在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。
它可以迅速与公开数据库进行相似性序列比较,结果中的得分是对一种对相似性的统计说明。
BLASTP的使用方法如下:
1. 输入需要检测的蛋白质序列,可以使用单字母简写。
2. 输入两个数值,以确定检测范围。
若全部比对则不需输入。
3. 输入此次检测的标题名称。
4. 一些基本设定,比如比对结果的格式等。
5. 点击“BLAST”开始工作。
6. 查看比对结果,包括比对的两个序列的信息、比对得分、E值、长度、标识号等。
请注意,对于一些高级参数,您可能需要参考NCBI的官方指南或咨询专业人员以获取更详细的信息。
此外,为了获得更好的比对结果,您可能需要优化您的数据库和查询序列,或者尝试使用不同的BLAST参数和设置。
序列相似性检索工具BLAST的使用和检索
宋凌云
【期刊名称】《情报探索》
【年(卷),期】2008(000)004
【摘要】介绍了局部序列对齐检索工具中的BLAST系统的使用和检索,以及BLAST程序的功能、进入途径、页面结构、检索方法、结果组成分析等方面.【总页数】2页(P74-75)
【作者】宋凌云
【作者单位】遵义医学院珠海校区图书馆,广东珠海,519041
【正文语种】中文
【中图分类】G35
【相关文献】
1.BLAST序列比对与生物医学文献检索 [J], 丁六松;张宇伟
2.基于离散余弦变换的时间序列相似性检索 [J], 刘端阳;张瑞强
3.医学文献检索与检索工具书的使用技巧 [J], 范文田
4.检索工具在互联网教育资源检索中的使用 [J], 王小辉
5.BLAST调整和干预对生物序列检索质量和效率的影响 [J], 李世超;梁韶;贾星航;黄利
因版权原因,仅展示原文概要,查看原文内容请购买。