序列相似性搜索
- 格式:ppt
- 大小:3.42 MB
- 文档页数:40
生物信息学中的相似序列搜索算法研究序言生物信息学在生物学中扮演着重要的角色,通过基因、蛋白质、氨基酸等大量数据分析,被广泛应用于许多领域,包括分子生物学、代谢组学以及人类病理学等。
为了更好地分析这些数据,生物信息学家们需要应对大规模的生物序列数据并提取有关其中信息的算法。
本文将着重讨论在生物信息学中常用的相似序列搜索算法。
一、概述相似序列搜索算法是一种在生物信息学中非常重要的工具,用于在大量的序列数据中寻找相似的序列。
例如,在基因组测序中,基因组往往很大,所以需要找到其中与已知基因或蛋白质相似的序列。
相似序列搜索算法在这种情况下能够快速找到匹配项。
二、BLAST算法BLAST(基本局部序列比对搜索工具)是生物信息学领域中最常用的相似序列搜索算法。
BLAST算法可以快速在序列数据库中查找与查询序列相匹配的序列。
BLAST算法实现了多种局部序列比对算法,如肋骨结构比对(ribosomal S1 RNA匹配比对),LD periodicity比对(Leucine-rich repeat蛋白质匹配比对)以及Gapped Local Alignment和Smith-Waterman比对等。
BLAST算法基于一种快速搜索比对算法,即块搜索算法,这种算法使用了某些方法来缩小与查询序列可能匹配的序列空间,这有助于算法的快速运行。
BLAST算法通过提高搜寻速度,提升了生物研究的效率。
三、HMMER算法HMMER(隐马尔科夫模型比对搜索工具)是另一种常见的相似序列搜索算法,主要用于清晰比对和隐式匹配。
HMMER算法使用隐马尔科夫模型来比对不同的序列,这种算法可以计算出不同序列之间的相对分数。
例如,HMMER算法可以用于比对蛋白质序列,然后提供这些蛋白质的相对结构的预测。
这些结构可以被用于判断物种之间的相关性,或者将蛋白质与不同的化合物进行比对。
四、Smith-Waterman算法Smith-Waterman算法是另一种常见的相似序列搜索算法。
实验二:序列查询(Entrez)、BLAST序列相似性搜索实验目的:1.学会用Entrez系统查找目标序列2.学会使用BLAST在数据库中搜索相似序列3.学会分析数据库搜索结果实验内容:一、EntrezEntrez是一个由NCBI创建并维护的基于Web界面的综合生物信息数据库检索系统。
用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。
网址:/Entrez/(或在NCBI主页默认All Databases时点击搜索框右边的Search进入)。
如Figure 2.1所示:Figure 2.1 entrez 检索系统子数据库点击搜索框右边的help按钮,即可进入Entrez帮助页面。
在搜索栏输入你要查找的关键词,点击“GO”即可开始搜索。
如果输入多个关键词,它们之间默认的是“与”(AND)的关系。
Tips:搜索的关键词可以是一个单词,短语,句子,数据库的识别号,基因名字等等,但必须明确,不能是“gene”, “protein”等没有明确指向的词语。
但“transcription factor”这样有一定范围的词是可以接受的。
可以用你感兴趣的领域的专业术语,也可以是非专业术语,比如:h1n1,lung cancer,albinism; subtilism, peroxidase, myoglobin。
输入关键词,点击“GO”之后,每个数据库图标前方出现了数字,代表的是在相对应的数据库里搜索到的条目数。
点击进入对应的数据库,可以查看搜索到的条目。
如果在数据库图标前面为灰色,显示“none”,说明在对应的数据库里没有搜索到任何结果。
也可以直接通过NCBI任一页面上的搜索栏进行Entrez搜索。
点击“search”后面的下拉菜单,选择数据库,在下面的文本框里输入关键词,点击“Search”即可(Figure 2.2)。
BLAST数据库相似性搜索姓名________ 学号______________ 组号_____ 日期________年___月___日1.以人血红蛋白beta亚基(HBB_HUMAN)为检测序列,搜索Swiss-Prot数据库,找出灵长目动物(Primates)中与HBB_HUMAN序列相似性高于90%(Identity>90%)的beta珠蛋白(beta globin)。
2.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用BlastP搜索Swiss-Prot数据库,改变种子序列字长(Word size)和计分矩阵(Scoring matrix),找出人珠蛋白家族12个成员。
3.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用PSI-Blast搜索Swiss-Prot数据库,找出人珠蛋白家族成员脑红蛋白(Neuroglobin)。
4.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用DELTA-Blast搜索Swiss-Prot数据库,找出人珠蛋白家族成员脑红蛋白(Neuroglobin)。
5.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用tBlastN搜索RefSeq数据库中人珠蛋白家族mRNA序列,提取其编码区序列,进行多序列比对,分析结果。
6.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,搜索RefSeq数据库中人、小鼠和大鼠三个物种珠蛋白家族mRNA序列,提取其编码区序列,进行多序列比对,分析结果。
7.查阅Blast网站帮助文档和相关文献,结合Blast算法,归纳总结Blast数据库相似性搜索的用法8.结合本人课题研究中的实例,说明Blast具体应用。
9.本地BLAST(选做题)1)下载玉米转录因子蛋白质序列和编码区核苷酸序列数据,构建本地BLAST数据库。
2)以拟南芥转录因子SPL3蛋白质序列为检索序列,用BlastP搜索玉米转录因子蛋白质序列中相似序列,用tBlastN搜索玉米转录因子编码区序列中相似序列,分析结果。
blast分类及特点BLAST是“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的缩写,是由美国国立生物技术信息中心(NCBI)开发的一个基于序列相似性的数据库搜索程序,是目前最常用的数据库搜索程序。
BLAST实际上是综合在一起的一组工具的统称,它不仅可用于直接对核酸序列数据库和蛋白质序列数据库进行搜索,而且可以将带搜索的核酸序列翻译成蛋白质序列后再进行搜索,或反之,以提高搜索效率。
BLAST的分类主要有以下几种:1. 标准BLAST:包括Blastn、Blastp、Blastx、tBlastn、tBlastx。
2. PSI-BLAST:PSI-BLAST(Position-Specific Iterated BLAST,位点特异性迭代BLAST)的特色是每次用位置特异权重矩阵(Position-Specific Scoring Matrix,PSSM)搜索数据库后再利用搜索的结果重新构建PSSM,然后用新的PSSM再次搜索数据库,如此反复(iteration)直至没有新的结果产生为止。
3. PHI-BLAST:PHI-BLAST(Pattern-Hit Initiated BLAST,模式识别BLAST)能找到与输入序列相似的并符合某种特定模式(Pattern)的序列,这种序列特征模式可能代表某个翻译后修饰的发生位点,也可以代表一个酶的活性位点,或者一个蛋白质家族的结构域、功能域。
此外,BLAST还有以下特点:1. BLAST基本原理很简单,它的要点是片段对的概念。
所谓片段对是指两个给定序列中的一对子序列,它们的长度相等且可形成无空位的完全匹配。
2. BLAST从头至尾将两条序列扫描一遍并找出所有片段对,并在允许的阈值范围内对片段对进行延伸,最终找出高分值片段对(high-scoring pairs, HSPs)。
这样的计算复杂度是n的一次方(n是序列的长度)。
实验二:序列查询(Entrez)、BLAST序列相似性搜索实验目的:1.学会用Entrez系统查找目标序列2.学会使用BLAST在数据库中搜索相似序列3.学会分析数据库搜索结果实验内容:一、EntrezEntrez是一个由NCBI创建并维护的基于Web界面的综合生物信息数据库检索系统。
用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。
网址:/Entrez/(或在NCBI主页默认All Databases时点击搜索框右边的Search进入)。
如Figure 2.1所示:Figure 2.1 entrez 检索系统子数据库点击搜索框右边的help按钮,即可进入Entrez帮助页面。
在搜索栏输入你要查找的关键词,点击“GO”即可开始搜索。
如果输入多个关键词,它们之间默认的是“与”(AND)的关系。
Tips:搜索的关键词可以是一个单词,短语,句子,数据库的识别号,基因名字等等,但必须明确,不能是“gene”, “protein”等没有明确指向的词语。
但“transcription factor”这样有一定范围的词是可以接受的。
可以用你感兴趣的领域的专业术语,也可以是非专业术语,比如:h1n1,lung cancer,albinism; subtilism, peroxidase, myoglobin。
输入关键词,点击“GO”之后,每个数据库图标前方出现了数字,代表的是在相对应的数据库里搜索到的条目数。
点击进入对应的数据库,可以查看搜索到的条目。
如果在数据库图标前面为灰色,显示“none”,说明在对应的数据库里没有搜索到任何结果。
也可以直接通过NCBI任一页面上的搜索栏进行Entrez搜索。
点击“search”后面的下拉菜单,选择数据库,在下面的文本框里输入关键词,点击“Search”即可(Figure 2.2)。