03-BLAST(生物信息学国外教程2010版)
- 格式:ppt
- 大小:6.23 MB
- 文档页数:123
南方医科大学实验报告姓名学号专业年级基础学院生物信息学教研室题目BLAST 日期实验者实验者一、实验目的一、实验目的1,了解BLAST算法原理算法原理2,掌握BLAST参数设定的意义参数设定的意义3,利用BLAST解决生物学问题,如寻找给定序列(DNA或者蛋白质)的同源序列。
或者蛋白质)的同源序列。
二、实验器材二、实验器材电脑电脑三、方法与步骤三、方法与步骤)或者用自己的序列。
给定人蛋白RBP4(NP_006735)或者用自己的序列。
1 限定物种为人(Homo sapiens ),在参考序列数据库中搜索,列出结果(具体比对不列)。
1)进入BLAST主页主页/Blast.cgi2)限定物种为人Homo sapiens 3)在参考序列数据库中搜索在参考序列数据库中搜索4)CLICK BLAST 2 分别限定物种为Mus musculus ,Rattus norvegicus ,Drosophila melanogaster ,Bos taurus ,Danio rerio,各列出E值最小的两条序列。
值最小的两条序列。
1)选择物种选择物种3)输入序列,选择数据库和BALST程序,点击BLAST 4)E值最小的两个序列值最小的两个序列5)其余物种依次重复其余物种依次重复四、结果与讨论四、结果与讨论限定物种为人(Homo sapiens ),在参考序列数据库中搜索,列出结果(具体比对不列)。
分别限定物种为Mus musculus ,Rattus norvegicus ,Drosophila melanogaster ,Bos taurus ,Danio rerio,各列出E值最小的两条序列。
值最小的两条序列。
Mus musculus Rattus norvegicus Drosophila melanogaster Bos taurus Danio rerio 。
BLAST使用方法一、BLAST的安装和准备工作2.获取待比对的序列文件,可以是FASTA格式的DNA或蛋白质序列。
二、BLAST的常用参数和选项1. Program:指定使用哪种BLAST程序(如BLASTn、BLASTp等)。
2. Database:指定使用哪个数据库进行比对。
3. Query:指定待比对的序列文件。
4. E-value:期望值。
一种描述比对结果误差率的指标,值越小表示结果越可信。
通常情况下,E-value小于0.01被认为是显著结果。
5. Word size:BLAST在比对时使用的核心词的长度。
长度越大表示查全率(sensitivity)越高,但速度会减慢。
6. Gap open:允许在比对过程中插入空位(如插入一个碱基)。
Gap open参数定义了开放一个空位的惩罚分数。
7. Gap extension:允许空位的延伸。
Gap extension参数定义了延伸一个空位的惩罚分数。
三、使用BLAST进行比对1.命令行方式:-打开命令行界面,并定位到BLAST软件的安装目录。
- 输入命令,指定BLAST程序、数据库、查询文件和其他参数。
例如:blastn -db nt -query query.fasta -out output.txt -evalue 0.01-运行命令,BLAST将开始进行比对并生成结果文件。
2.网页方式(以NCBIBLAST为例):- 打开NCBI网站的BLAST页面()。
-选择需要使用的BLAST程序(如BLASTn、BLASTp等)。
-上传待比对的序列文件,或者粘贴序列文本到输入框中。
-选择适当的数据库和其他参数。
-点击“BLAST”按钮,等待比对完成。
四、解读BLAST结果1. E-value:表示在随机比对中获得与查询序列相似度更高的结果的期望概率。
E-value越小表示比对结果越显著。
2. Bitscore:用于表示比对结果的质量。
Bitscore越高表示比对结果越可信。
实验三数据库搜索—BLAST1. Nucleotide BLAST在Nucleotide中输入登录号搜索人类MAPK9(NM_139069.2)基因,send to 为coding sequences,作为Query 序列,或者下载complete sequences,在Blastn 中限制序列搜索范围为272-1420(编码区)。
分别用megablast, discontiguous megablast 和 blastn 进行搜索。
这三个搜索的参数不同之处,主要体现在单词单位,megablast的单词单位默认为28,可选范围从16-256, discontiguous megablast的单词单位默认为11,可选为11和12, blastn单词单位默认为11,可选范围为7,11和15。
Megablast 可以快速搜索到与query 高度相似的序列;discontiguous megablast用于寻找与 query 高度相似的序列; blastn则用于寻找与 query 有一定相似度的序列。
单词单位越小,敏感度越高,也就是说,Megablast敏感度最差,discontiguous megablast 居中,blastn 最高。
Megablast的搜索速度最快,discontiguous megablast居中,blastn最差。
三个搜索所搜索到的相似序列的数量,相似性范围和分值范围都有很大差异,具Methods Number Identity(%)Max score Megablast154172-10073.1-2122 discontiguous megablast652763-10044.6-2073 blastn116676310044.6-2073截取30bp的片段进行blastn搜索,默认参数设置如下图:搜索后,实际参数如下图,主要对word size, expect value进行了调整,这是因为我们了选中automatically adjust parameters for short input sequences,在所搜索的片段长度比较小时,数据库中随机情况下找到高度相似甚至相同的局部比对(HSPs)的可能性非常高,系统自动将 word size 调小,提高敏感度,而将 E-value 调大,确保有搜索结果出现。
BLAST种类及使用方法BLAST(Basic Local Alignment Search Tool)是一种广泛使用的序列比对算法,可用于比较DNA,RNA或蛋白质序列的相似性。
它是生物信息学领域中最常用的工具之一,可以帮助研究人员识别新的序列,注释基因功能,鉴定物种间的进化关系等。
1.BLASTN:BLASTN用于比对DNA序列。
它可以将一个查询DNA序列与已知的DNA序列数据库进行比较,找到相似的序列。
BLASTN通常用于物种鉴定、基因组注释和寻找同源基因等方面的研究。
2.BLASTP:BLASTP用于比对蛋白质序列。
它可以将一个查询蛋白质序列与已知的蛋白质数据库进行比较,找到相似的蛋白质序列。
BLASTP 通常用于寻找同源蛋白质,预测蛋白质功能和结构,以及识别蛋白质家族等方面的研究。
3.BLASTX:BLASTX用于比对DNA序列与蛋白质数据库的比对。
它通过将DNA序列翻译成蛋白质序列,然后与已知的蛋白质数据库进行比对,找到相似的蛋白质序列。
BLASTX通常用于从未知的DNA序列中预测蛋白质编码区域,注释基因功能等方面的研究。
4. TBlastN:TBlastN用于比对蛋白质序列与DNA数据库的比对。
与BLASTX相反,TBlastN将已知的蛋白质序列与DNA数据库进行比对,找到相似的DNA序列。
TBlastN通常用于寻找蛋白质在基因组中的编码区域,确定启动子和转录因子结合位点等方面的研究。
5. TBlastX:TBlastX用于比对转录本与转录本数据库的比对。
它可以将一个查询转录本序列与已知的转录本数据库进行比对,找到相似的转录本。
TBlastX通常用于寻找新的转录本和预测基因表达模式等方面的研究。
使用BLAST有以下几个步骤:1.准备查询序列:将待比对的DNA、RNA或蛋白质序列准备成文本文件,确保序列格式正确,并确保序列长度适合比对任务。
2. 选择数据库:根据研究需求,选择适当的数据库。