BLAST数据库相似性搜索
- 格式:doc
- 大小:32.50 KB
- 文档页数:1
blast应用实例Blast是一种常用的生物信息学工具,用于比对和分析生物序列。
它可以将一个或多个查询序列与数据库中的目标序列进行比对,通过比对结果提供有关序列相似性、保守区域和功能注释的信息。
以下是Blast应用的一些实例:1.从NCBI数据库搜索相似序列:Blast可以用于从NCBI的数据库中搜索与给定序列相似的序列。
例如,如果我们有一个未知的蛋白质序列,我们可以使用Blast将其比对到NCBI的非冗余蛋白质数据库上,以找到与之相似的蛋白质序列。
这对于鉴定新的蛋白质家族、推断功能等非常有用。
2.基因注释:Blast可以用于对新的基因序列进行功能注释。
例如,通过比对一个未知的DNA序列到已知的基因组序列数据库,我们可以获得对应的基因区域、编码蛋白质以及可能的功能信息。
这对于基因组学研究和药物研发很重要。
3.遗传多样性分析:Blast也可以用于研究不同物种或个体之间的遗传差异。
通过比对DNA或RNA序列,可以鉴定不同物种或个体之间的变异位点。
这对于研究进化、种群遗传学和物种鉴定具有重要意义。
4.病原体识别:Blast可以用于快速识别和鉴定病原体。
通过比对未知的病原体序列到已知的病原体数据库,可以确定其种类和亚型。
这对于疾病的诊断和流行病学研究非常有帮助。
5.系统发育分析:Blast在系统发育学中也被广泛应用。
通过比对多个物种的DNA或蛋白质序列,可以构建物种间的进化关系树。
这对于研究生物的进化历史和亲缘关系具有重要意义。
6.基因工程:Blast可以用于在已知的基因库中寻找与目标序列相似的基因。
这对于基因工程和生物治疗的设计和优化非常有用。
通过比对获取相关蛋白质、启动子、调控序列等信息,可以进行目标基因的定向改造和调节。
7.基因家族研究:Blast可以用于鉴定和研究特定基因家族。
通过比对已知基因家族的代表性成员,可以找到其他类似的基因序列。
这对于研究基因家族的进化、功能和调控具有重要意义。
8.转录因子结合位点预测:Blast可以用于识别和预测转录因子结合位点。
实习 4 :BLAST相似序列的数据库搜索学号20090**** 姓名****** 专业年级生命生技****实验时间2012.6.19 提交报告时间2012.6.20实验目的:学习使用BLAST在数据库中搜索相似序列实验内容:使用NCBI上面的BLAST程序进行相似性序列搜索:1.把核酸序列利用BLASTN搜索相似核酸序列;2.把蛋白质序列对应的蛋白质利用BLASTP搜索相似蛋白质序列;3.把核酸序列利用BLAST搜索相似蛋白质序列并与BLASTP比较,体会差异:4.把蛋白质序列利用TBLASTN搜索相似核酸序列并与BLASTN比较,体会差异:5.把核酸序列利用TBLASTX搜索相似核酸序列并与BLASTN比较,体会差异。
作业:1. 找一条你感兴趣的核酸序列(可以是前面搜索到的同源核酸序列中任意一条),通过BLASTN搜索NR数据库,说明你的参数如何设置,分析搜索结果包含哪些信息。
答:使用的序列为:智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA。
Algorithm parameters设置如下:参数:Enter Query Sequence——NM_001185098Choose Search Set——Database: Nucleoctide collection(nr); Exclude: √Models(XM/XP),√Uncultured/environmental ample sequencesProgram Selection——Optimize fot: Highly similar sequences展开“Algorithm parameters”,依次设置:General Parameters——Max target sequence:100; Short queries:√; Expect threshold:10;Word size:28; Max matches in a query range:0Scoring Parameters——Matrix/Mismatch Scores:1,-2; Gap Costs: LinearFilters and Masking——Filter: √Low complexity regions; √Mask: mask for lookup table only搜索结果分析:使用智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA搜索NR数据库,搜索出100条符合条件的序列,序列来自的物种包括了Homo sapiens,Pan troglodytes,Gorilla gorilla,Pongo abelii,Pongo pygmaeus,Mus musculus等,其中根据得分高低排列,前7条序列如下所示:NM_001185098.1 Homo sapiens insulin (INS), transcript variant 3, mRNANM_001185097.1 Homo sapiens insulin (INS), transcript variant 2, mRNANM_000207.2 Homo sapiens insulin (INS), transcript variant 1, mRNANG_007114.1 Homo sapiens insulin (INS), RefSeqGene on chromosomeAC132217.15 Homo sapiens chromosome 11, clone RP11-889I17, complete sequenceBC005255.1 Homo sapiens insulin, mRNAJ00265.1 Human insulin gene, complete cds上述序列的“Max ident”均为100%或99%,且E-Value值很低,可见搜索出来的序列与QUERY序列匹配的相似度很高。
实用生物信息技术课程第4次作业BLAST数据库相似性搜索姓名________ 学号______________ 组号_____ 日期________年___月___日1.以人血红蛋白beta亚基(HBB_HUMAN)为检测序列,搜索Swiss-Prot数据库,找出灵长目动物(Primates)中与HBB_HUMAN序列相似性高于90%(Identity>90%)的beta珠蛋白(beta globin)。
2.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用BlastP搜索Swiss-Prot数据库,改变种子序列字长(Word size)和计分矩阵(Scoring matrix),找出人珠蛋白家族12个成员。
3.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用PSI-Blast搜索Swiss-Prot数据库,找出人珠蛋白家族成员脑红蛋白(Neuroglobin)。
4.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用DELTA-Blast搜索Swiss-Prot数据库,找出人珠蛋白家族成员脑红蛋白(Neuroglobin)。
5.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用tBlastN搜索RefSeq数据库中人珠蛋白家族mRNA序列,提取其编码区序列,进行多序列比对,分析结果。
6.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,搜索RefSeq数据库中人、小鼠和大鼠三个物种珠蛋白家族mRNA序列,提取其编码区序列,进行多序列比对,分析结果。
7.查阅Blast网站帮助文档和相关文献,结合Blast算法,归纳总结Blast数据库相似性搜索的用法8.结合本人课题研究中的实例,说明Blast具体应用。
9.本地BLAST(选做题)1)下载玉米转录因子蛋白质序列和编码区核苷酸序列数据,构建本地BLAST数据库。
2)以拟南芥转录因子SPL3蛋白质序列为检索序列,用BlastP搜索玉米转录因子蛋白质序列中相似序列,用tBlastN搜索玉米转录因子编码区序列中相似序列,分析结果。
BLAST(序列相似性快速搜索工具)
1. 什么是BLAST?
•BLAST的全称是Basic Local Alignment Search T ool(基本的局部比对搜索工具),基于一种局部最优的比对策略。
•BLAST是生命科学研究中常用的一套在核苷酸数据库或蛋白质数据库中进行序列相似性比对的一套分析工具
•BLAST算法是启发式算法。
首先将query序列打断成子片段,称之为seed words,然后将seed与预先索引好的序列进行比对,选择seed连续打分较高的位置采用动态规划算法进行延伸,延伸过程也会进行打分,当打分低于某一限度这一延伸过程就会被终止抛弃,最后产生了一系列的高得分序列。
最后还要使用E-value对其显著性进行评估,选出比对结果最好的序列。
•BLAST分为在线BLAST和本地化BLAST
IMAGE.png
2. BLAST程序类型
BLAST实际上是综合在一起的一组工具
的统称,它不仅可用于直接对蛋白质数据库和
核酸数据库进行搜索,而且可以将待搜索的核
酸序列翻译成蛋白质序列后再进行搜索,或者
反之,以提高搜索效率。
因此BLAST可以分
为 BLASTp、 BLASTn、 BLASTx、 tBLASTn、
tBLASTx。
IMAGE.jpg
IMAGE.png
3.BLAST 比对结果解读
实际应用中主要看E-value(E值越小越好),同时要求Score大于一定值。
图片来自MOOC。
blast分类及特点BLAST是“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的缩写,是由美国国立生物技术信息中心(NCBI)开发的一个基于序列相似性的数据库搜索程序,是目前最常用的数据库搜索程序。
BLAST实际上是综合在一起的一组工具的统称,它不仅可用于直接对核酸序列数据库和蛋白质序列数据库进行搜索,而且可以将带搜索的核酸序列翻译成蛋白质序列后再进行搜索,或反之,以提高搜索效率。
BLAST的分类主要有以下几种:1. 标准BLAST:包括Blastn、Blastp、Blastx、tBlastn、tBlastx。
2. PSI-BLAST:PSI-BLAST(Position-Specific Iterated BLAST,位点特异性迭代BLAST)的特色是每次用位置特异权重矩阵(Position-Specific Scoring Matrix,PSSM)搜索数据库后再利用搜索的结果重新构建PSSM,然后用新的PSSM再次搜索数据库,如此反复(iteration)直至没有新的结果产生为止。
3. PHI-BLAST:PHI-BLAST(Pattern-Hit Initiated BLAST,模式识别BLAST)能找到与输入序列相似的并符合某种特定模式(Pattern)的序列,这种序列特征模式可能代表某个翻译后修饰的发生位点,也可以代表一个酶的活性位点,或者一个蛋白质家族的结构域、功能域。
此外,BLAST还有以下特点:1. BLAST基本原理很简单,它的要点是片段对的概念。
所谓片段对是指两个给定序列中的一对子序列,它们的长度相等且可形成无空位的完全匹配。
2. BLAST从头至尾将两条序列扫描一遍并找出所有片段对,并在允许的阈值范围内对片段对进行延伸,最终找出高分值片段对(high-scoring pairs, HSPs)。
这样的计算复杂度是n的一次方(n是序列的长度)。
BAST数据库相似性搜索姓名陈耿佳学号 1301214752 组号 G01C1.以人血红蛋白beta亚基(HBB_HUMAN)为检测序列,搜索Swiss-Prot数据库中所有哺乳动物的血红蛋白,找出前10个高分匹配,列表说明搜索结果。
程序:blastp 参数:默认数据库:Swiss-Prot Organism:mammalsNo. Accession Name Species TotalscoreQuerycoverE value Ident1 P68871.2 HBB_HUMAN Homosapiens 301100% 5e-105 100%2 P02024.2 HBB_GORGO Gorillagorilla gorilla 300100% 2e-104 99%3 P02025.1 HBB_HYLLA Hylobateslar 29499% 3e-102 99%4 P02032.1 HBB_SEMEN Semnopithecusentellus 29199% 2e-101 97%5 P19885.2 HBB_COLPO Colobuspolykomos 291100% 4e-101 96%6 Q6WN22.3HBB_ATEPA Atelespaniscus 290100% 1e-100 96%7 P68232.2 HBB_ATEGE Atelesgeoffroyi 289100% 2e-100 96%8 P68222.2 HBB_MACFU Macacafuscata fuscata 289100% 2e-100 95%9 Q6WN27.3HBB_PITPI Pitheciapithecia 289100% 3e-100 96%10 Q6WN25.3HBB_LAGLA Lagothrixlagotricha 289100% 3e-100 96% 2.以大鼠血红蛋白alpha亚基(HBA_RAT)为检测序列,用BlastP、PSI-Blast和DELAT-Blast分别搜索RefSeq数据库中珠蛋白家族成员(注意选择适当的计分矩阵、设置适当的E 值)。
blast使用指南Blast使用指南Blast(Basic Local Alignment Search Tool)是一种常用于生物信息学研究中的序列比对分析工具。
它可以根据输入的查询序列,在数据库中搜索相似序列,并给出比对结果。
本文将为大家提供一份Blast使用指南,帮助大家更好地使用Blast进行序列比对分析。
一、什么是Blast?Blast是一种基于局部比对算法的工具,它可以在大规模的数据库中快速搜索相似的序列。
通过比对查询序列和数据库中的序列,Blast 可以找到相似度较高的序列,从而推测它们之间的功能和结构的相似性。
二、Blast的使用步骤1. 准备查询序列在使用Blast之前,首先需要准备查询序列。
查询序列可以是DNA 序列或蛋白质序列,可以通过实验测序或从已有的数据库中获取。
确保查询序列的准确性和完整性非常重要,因为查询序列的质量将直接影响到Blast的结果。
2. 选择合适的Blast程序和数据库Blast有多个版本和程序可供选择,根据具体的研究目的和需求,选择合适的Blast程序和数据库非常重要。
常用的Blast程序包括Blastn(用于DNA序列比对)、Blastp(用于蛋白质序列比对)等。
数据库则可以选择NCBI的nr数据库、UniProt数据库等。
3. 运行Blast程序在选择好Blast程序和数据库后,可以通过命令行或图形界面来运行Blast程序。
对于初学者来说,推荐使用图形界面,因为图形界面更直观、易于操作。
在运行Blast程序时,需要输入查询序列文件和选择合适的参数设置,如比对算法、期望阈值、返回结果的数量等。
4. 解读Blast结果Blast运行完毕后,会生成一个结果文件。
这个结果文件包含了查询序列和数据库中相似序列的比对结果。
通过分析比对结果,可以了解到查询序列与数据库中序列的相似性程度、可能的功能和结构等信息。
需要注意的是,Blast结果并不是绝对准确的,需要结合实验数据和其他信息进行综合分析。
BLAST数据库相似性搜索
姓名________ 学号______________ 组号_____ 日期________年___月___日
1.以人血红蛋白beta亚基(HBB_HUMAN)为检测序列,搜索Swiss-Prot数据库,找出
灵长目动物(Primates)中与HBB_HUMAN序列相似性高于90%(Identity>90%)的beta珠蛋白(beta globin)。
2.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用BlastP搜索Swiss-Prot数据
库,改变种子序列字长(Word size)和计分矩阵(Scoring matrix),找出人珠蛋白家族12个成员。
3.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用PSI-Blast搜索Swiss-Prot
数据库,找出人珠蛋白家族成员脑红蛋白(Neuroglobin)。
4.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用DELTA-Blast搜索Swiss-Prot
数据库,找出人珠蛋白家族成员脑红蛋白(Neuroglobin)。
5.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用tBlastN搜索RefSeq数据
库中人珠蛋白家族mRNA序列,提取其编码区序列,进行多序列比对,分析结果。
6.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,搜索RefSeq数据库中人、小
鼠和大鼠三个物种珠蛋白家族mRNA序列,提取其编码区序列,进行多序列比对,分析结果。
7.查阅Blast网站帮助文档和相关文献,结合Blast算法,归纳总结Blast数据库相似性搜
索的用法
8.结合本人课题研究中的实例,说明Blast具体应用。
9.本地BLAST(选做题)
1)下载玉米转录因子蛋白质序列和编码区核苷酸序列数据,构建本地BLAST数据库。
2)以拟南芥转录因子SPL3蛋白质序列为检索序列,用BlastP搜索玉米转录因子蛋白
质序列中相似序列,用tBlastN搜索玉米转录因子编码区序列中相似序列,分析结
果。
3)以拟南芥转录因子SPL3编码区序列为检索序列,用BlastN搜索玉米转录因子编码
区序列中相似序列,用BlastX搜索玉米转录因子蛋白质序列中相似序列,分析结
果。