序列相似性搜索
- 格式:ppt
- 大小:3.42 MB
- 文档页数:40
生物信息学中的相似序列搜索算法研究序言生物信息学在生物学中扮演着重要的角色,通过基因、蛋白质、氨基酸等大量数据分析,被广泛应用于许多领域,包括分子生物学、代谢组学以及人类病理学等。
为了更好地分析这些数据,生物信息学家们需要应对大规模的生物序列数据并提取有关其中信息的算法。
本文将着重讨论在生物信息学中常用的相似序列搜索算法。
一、概述相似序列搜索算法是一种在生物信息学中非常重要的工具,用于在大量的序列数据中寻找相似的序列。
例如,在基因组测序中,基因组往往很大,所以需要找到其中与已知基因或蛋白质相似的序列。
相似序列搜索算法在这种情况下能够快速找到匹配项。
二、BLAST算法BLAST(基本局部序列比对搜索工具)是生物信息学领域中最常用的相似序列搜索算法。
BLAST算法可以快速在序列数据库中查找与查询序列相匹配的序列。
BLAST算法实现了多种局部序列比对算法,如肋骨结构比对(ribosomal S1 RNA匹配比对),LD periodicity比对(Leucine-rich repeat蛋白质匹配比对)以及Gapped Local Alignment和Smith-Waterman比对等。
BLAST算法基于一种快速搜索比对算法,即块搜索算法,这种算法使用了某些方法来缩小与查询序列可能匹配的序列空间,这有助于算法的快速运行。
BLAST算法通过提高搜寻速度,提升了生物研究的效率。
三、HMMER算法HMMER(隐马尔科夫模型比对搜索工具)是另一种常见的相似序列搜索算法,主要用于清晰比对和隐式匹配。
HMMER算法使用隐马尔科夫模型来比对不同的序列,这种算法可以计算出不同序列之间的相对分数。
例如,HMMER算法可以用于比对蛋白质序列,然后提供这些蛋白质的相对结构的预测。
这些结构可以被用于判断物种之间的相关性,或者将蛋白质与不同的化合物进行比对。
四、Smith-Waterman算法Smith-Waterman算法是另一种常见的相似序列搜索算法。
实验二:序列查询(Entrez)、BLAST序列相似性搜索实验目的:1.学会用Entrez系统查找目标序列2.学会使用BLAST在数据库中搜索相似序列3.学会分析数据库搜索结果实验内容:一、EntrezEntrez是一个由NCBI创建并维护的基于Web界面的综合生物信息数据库检索系统。
用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。
网址:/Entrez/(或在NCBI主页默认All Databases时点击搜索框右边的Search进入)。
如Figure 2.1所示:Figure 2.1 entrez 检索系统子数据库点击搜索框右边的help按钮,即可进入Entrez帮助页面。
在搜索栏输入你要查找的关键词,点击“GO”即可开始搜索。
如果输入多个关键词,它们之间默认的是“与”(AND)的关系。
Tips:搜索的关键词可以是一个单词,短语,句子,数据库的识别号,基因名字等等,但必须明确,不能是“gene”, “protein”等没有明确指向的词语。
但“transcription factor”这样有一定范围的词是可以接受的。
可以用你感兴趣的领域的专业术语,也可以是非专业术语,比如:h1n1,lung cancer,albinism; subtilism, peroxidase, myoglobin。
输入关键词,点击“GO”之后,每个数据库图标前方出现了数字,代表的是在相对应的数据库里搜索到的条目数。
点击进入对应的数据库,可以查看搜索到的条目。
如果在数据库图标前面为灰色,显示“none”,说明在对应的数据库里没有搜索到任何结果。
也可以直接通过NCBI任一页面上的搜索栏进行Entrez搜索。
点击“search”后面的下拉菜单,选择数据库,在下面的文本框里输入关键词,点击“Search”即可(Figure 2.2)。
BLAST数据库相似性搜索姓名________ 学号______________ 组号_____ 日期________年___月___日1.以人血红蛋白beta亚基(HBB_HUMAN)为检测序列,搜索Swiss-Prot数据库,找出灵长目动物(Primates)中与HBB_HUMAN序列相似性高于90%(Identity>90%)的beta珠蛋白(beta globin)。
2.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用BlastP搜索Swiss-Prot数据库,改变种子序列字长(Word size)和计分矩阵(Scoring matrix),找出人珠蛋白家族12个成员。
3.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用PSI-Blast搜索Swiss-Prot数据库,找出人珠蛋白家族成员脑红蛋白(Neuroglobin)。
4.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用DELTA-Blast搜索Swiss-Prot数据库,找出人珠蛋白家族成员脑红蛋白(Neuroglobin)。
5.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用tBlastN搜索RefSeq数据库中人珠蛋白家族mRNA序列,提取其编码区序列,进行多序列比对,分析结果。
6.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,搜索RefSeq数据库中人、小鼠和大鼠三个物种珠蛋白家族mRNA序列,提取其编码区序列,进行多序列比对,分析结果。
7.查阅Blast网站帮助文档和相关文献,结合Blast算法,归纳总结Blast数据库相似性搜索的用法8.结合本人课题研究中的实例,说明Blast具体应用。
9.本地BLAST(选做题)1)下载玉米转录因子蛋白质序列和编码区核苷酸序列数据,构建本地BLAST数据库。
2)以拟南芥转录因子SPL3蛋白质序列为检索序列,用BlastP搜索玉米转录因子蛋白质序列中相似序列,用tBlastN搜索玉米转录因子编码区序列中相似序列,分析结果。
blast分类及特点BLAST是“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的缩写,是由美国国立生物技术信息中心(NCBI)开发的一个基于序列相似性的数据库搜索程序,是目前最常用的数据库搜索程序。
BLAST实际上是综合在一起的一组工具的统称,它不仅可用于直接对核酸序列数据库和蛋白质序列数据库进行搜索,而且可以将带搜索的核酸序列翻译成蛋白质序列后再进行搜索,或反之,以提高搜索效率。
BLAST的分类主要有以下几种:1. 标准BLAST:包括Blastn、Blastp、Blastx、tBlastn、tBlastx。
2. PSI-BLAST:PSI-BLAST(Position-Specific Iterated BLAST,位点特异性迭代BLAST)的特色是每次用位置特异权重矩阵(Position-Specific Scoring Matrix,PSSM)搜索数据库后再利用搜索的结果重新构建PSSM,然后用新的PSSM再次搜索数据库,如此反复(iteration)直至没有新的结果产生为止。
3. PHI-BLAST:PHI-BLAST(Pattern-Hit Initiated BLAST,模式识别BLAST)能找到与输入序列相似的并符合某种特定模式(Pattern)的序列,这种序列特征模式可能代表某个翻译后修饰的发生位点,也可以代表一个酶的活性位点,或者一个蛋白质家族的结构域、功能域。
此外,BLAST还有以下特点:1. BLAST基本原理很简单,它的要点是片段对的概念。
所谓片段对是指两个给定序列中的一对子序列,它们的长度相等且可形成无空位的完全匹配。
2. BLAST从头至尾将两条序列扫描一遍并找出所有片段对,并在允许的阈值范围内对片段对进行延伸,最终找出高分值片段对(high-scoring pairs, HSPs)。
这样的计算复杂度是n的一次方(n是序列的长度)。
实验二:序列查询(Entrez)、BLAST序列相似性搜索实验目的:1.学会用Entrez系统查找目标序列2.学会使用BLAST在数据库中搜索相似序列3.学会分析数据库搜索结果实验内容:一、EntrezEntrez是一个由NCBI创建并维护的基于Web界面的综合生物信息数据库检索系统。
用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。
网址:/Entrez/(或在NCBI主页默认All Databases时点击搜索框右边的Search进入)。
如Figure 2.1所示:Figure 2.1 entrez 检索系统子数据库点击搜索框右边的help按钮,即可进入Entrez帮助页面。
在搜索栏输入你要查找的关键词,点击“GO”即可开始搜索。
如果输入多个关键词,它们之间默认的是“与”(AND)的关系。
Tips:搜索的关键词可以是一个单词,短语,句子,数据库的识别号,基因名字等等,但必须明确,不能是“gene”, “protein”等没有明确指向的词语。
但“transcription factor”这样有一定范围的词是可以接受的。
可以用你感兴趣的领域的专业术语,也可以是非专业术语,比如:h1n1,lung cancer,albinism; subtilism, peroxidase, myoglobin。
输入关键词,点击“GO”之后,每个数据库图标前方出现了数字,代表的是在相对应的数据库里搜索到的条目数。
点击进入对应的数据库,可以查看搜索到的条目。
如果在数据库图标前面为灰色,显示“none”,说明在对应的数据库里没有搜索到任何结果。
也可以直接通过NCBI任一页面上的搜索栏进行Entrez搜索。
点击“search”后面的下拉菜单,选择数据库,在下面的文本框里输入关键词,点击“Search”即可(Figure 2.2)。
ncbi blast的功能和种类
x
NCBI BLAST 功能和种类
NCBI BLAST(全称:Basic Local Alignment Search Tool)是一款基于局部比对的序列搜索工具,是世界上使用最广泛的DNA/RNA 序列相似性搜索软件。
它的有效计算能力非常强大,搜索数据量大,可以快速准确的实现序列匹配和比对。
NCBI BLAST 的功能:
1、提供快速灵活的局部序列比对
2、提供可靠的序列相似性分析结果
3、不仅可以搜索和比对较长序列,也可以搜索和比对较短序列
4、搜索非常大的数据库,比如NCBI的nr数据库
5、支持多种输入格式,比如FASTA、Genbank、EMBL、UniProt 等
6、支持多种输出格式,比如HTML、ASN.1、GFF3、FASTA等
NCBI BLAST 已知有四种类型:
1、核苷酸序列比对:BLASTN和TBLASTN;
2、氨基酸序列比对:BLASTP、BLASTX、TBLASTX和 TBLASTN;
3、BLAT:只能在特定的物种组织中比对序列;
4、序列排序:megaBLAST可以对大量序列进行排序,提高搜索效率;
NCBI BLAST是一种强大而灵活的工具,可以帮助生物学家们快
速、准确地搜索和比对序列,并获得可信的结果。
核酸序列比对算法及相似性搜索实践核酸序列比对算法是生物信息学中的重要技术之一,它能够对两个或多个核酸序列进行比较,以求得它们之间的相似性和差异。
在生物学研究中,核酸序列比对算法被广泛应用于基因识别、物种分类、突变检测等领域。
本文将介绍常用的核酸序列比对算法,并结合实践案例展示其应用。
1. 序列比对算法概述核酸序列比对算法的目标是在两个或多个序列中找出相同或相似的片段。
根据比对的目的和序列特点,可以选择不同的算法。
以下是几个常用的核酸序列比对算法:1.1 基于Hash的序列比对算法基于Hash的序列比对算法通过构建序列的Hash表来快速搜索相同的片段。
它能够在很短的时间内找到相同的序列片段,但对于相似性较高的序列比对效果较差。
1.2 Smith-Waterman算法Smith-Waterman算法是一种动态规划算法,能够找到两个序列中最大的局部比对得分。
它通过计算得分矩阵并回溯最优比对路径,来确定最佳的比对结果。
Smith-Waterman算法可用于发现两个序列中的差异、寻找序列间的变异和插入缺失序列等。
1.3 Needleman-Wunsch算法Needleman-Wunsch算法是一种全局比对算法,能够找到两个序列之间的最佳全局比对。
它通过计算得分矩阵并回溯最优比对路径,来确定最佳的全局比对结果。
Needleman-Wunsch算法广泛应用于物种进化树的构建和序列同源性分析等。
1.4 BLAST算法BLAST算法(Basic Local Alignment Search Tool)是一种快速的序列比对算法,能够在大规模数据库中搜索相似的序列。
它通过构建索引和预计算,将待比对序列与数据库中的序列进行局部比对,从而快速找到相似的序列。
BLAST算法被广泛应用于基因组注释、蛋白质结构预测等领域。
2. 核酸序列相似性搜索实践案例为了展示核酸序列比对算法的应用,以下是一个实践案例。
在某次研究中,科研人员需要比对一组已知基因组的核酸序列与新发现的未知基因组中的核酸序列,以寻找可能的突变和变异。
一、名词辨析(每题5分,共20分)1、基因与基因组:Gene 基因:遗传功能的单位。
它是一种DNA序列,在有些病毒中则是一种RNA 序列,它编码功能性蛋白质或RNA分子。
Genome 基因组:染色体组,一个生物体、细胞器或病毒的整套基因;例如,细胞核基因组,叶绿体基因组,噬菌体基因组。
2、相似性与同源性:所谓同源序列,简单地说,是指从某一共同祖先经趋异进化而形成的不同序列。
同源性可以用来描述染色体—“同源染色体”、基因—“同源基因”和基因组的一个片断—“同源片断”必须指出,相似性(similarity)和同源性(homology)是两个完全不同的概念。
相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
相似性本身的含义,并不要求与进化起源是否同一、与亲缘关系的远近、甚至于结构与功能有什么联系。
3、CDS与cDNA:cDNA序列:互补DNA序列,指的是mRNA为在逆转录酶的作用下将形成DNA 的过程。
CDS序列:编码序列,从起始密码子到终止密码子的所有序列。
4、数据库搜索和数据库查询:数据库查询:对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找(又称数据库检索)。
数据库搜索:通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。
搜索对象不是数据库的注释信息,而是序列信息。
二、判断题(20分)1、生物信息学可以理解为生命科学中的信息科学。
(√)2、DNA分子和蛋白质分子都含有进化信息。
(√)3、目前生命科学研究的重点和突破点的已完全转移到生物信息学上,已不需要实验做支撑。
(×)4、生物信息学的发展大致经历了三个阶段:前基因组时代、基因组时代和后基因组时代。
(√)5、基因组与蛋白质组一样,都处于动态变化之中。
(×)6、蛋白质三维结构都是静态的,在行使功能的过程中其结构不会改变。
(×)7、生物信息学中研究的生物大分子主要是脂类和多糖。
实验二数据库相似性搜索与序列比对实验原理:数据库相似性搜索以两两序列比对为基础,将感兴趣的基因序列与序列数据库中的每个序列进行比较,鉴别出相似的序列。
搜索结果显示出与最佳匹配序列的对位排列及匹配记分。
序列数据库搜索对发现基因的功能非常有效。
FASTA和BLAST是两个著名的用于数据库相似性搜索的软件包。
其中BLAST(Basic Local A1ignment Search Tool)基于局部比对的搜索工具,是一种启发式搜索算法服务软件,包括BLASTP,BLASTN,BLASTX,TBLASTN 和TBLASTX程序。
实验目的与要求:学习数据库相似性检索和序列比对的程序的使用,能够理解程序给出的结果,从中获取有关功能和结构的信息。
(1)要求学生运用已经学习过的数据库检索方法在数据库中检索特定的基因(2)掌握数据库相似性搜索工具BLAST的基本比对方法,参数设置及结果分析(3)掌握核酸和蛋白质两序列比对方法、参数设置及结果分析实验材料:未知核酸序列;未知氨基酸序列;SOD基因工具软件:(1)数据库检索工具ENTREZ(2)数据库相似性搜索工具BLAST (/blast)(3)两序列比对工具Align two sequences (bl2seq)一、利用BLAST中的Special类下的Align two sequences (bl2seq) 比较人与老鼠的SOD 基因蛋白质序列的相似性程度(1)利用NCBI的ENTREZ检索蛋白质数据库获得人AAB27818.1和老鼠3GTT_E的SOD 基因氨基酸序列或者登录号(SOD分为SOD1或SOD2等,注意检索时选择完全相同的SOD基因)(2)进入NCBI 的BLAST 网页,选择Specialized BLAST下的Align two sequences(bl2seq)程序进行两序列比对(3)选择blastp子程序,将序列或登录号分别粘贴到序列框中(4)其他选项采用默认的设置,运行程序(5)分析结果,并回答以下问题在NCBI的ENTREZ检索中使用的关键词是什么?Human and sod mouse and sod人和老鼠的SOD 基因的蛋白质序列的登录号分别是?人AAB27818.1和老鼠3GTT_E两序列比对得到的一致性百分比和相似性百分比分别为多少?Identities127/153(83%)Positives135/153(88%)两序列比对结果中哪些区域出现了gap?Gaps0/153(0%)二、利用SPECIELIZED BLAST的Conserved Domain进行蛋白质保守结构域分析(1)进入NCBI 的BLAST 网页(2)选择Specialized BLAST下的Conserved Domain超链接进入(3)在Cazy数据库查找一个糖苷水解酶Glycoside Hydrolases(GH+学号),获得其蛋白质序列或蛋白质序列的Genbank登录号AEK59386.1(4)将糖苷水解酶的登录号或蛋白质输入到Conserved Domain页面的输入框内(5) 参数选择默认即可,点击submit提交进行分析(6)阅读得到的结果,点击各HIT的超链接了解找到的结构域的功能(7)将结构域图形和表格记录在实验报告中三、利用BLAST在数据库中搜索不同物种的同源基因Actinosynnema mirum DSM 43827, complete genome(1)利用文献检索工具检索Clostridium thermocellum嗜热梭菌与其纤维素降解功能相关的基因,例如糖苷水解酶Glycoside Hydrolases(GH+学号)或多糖裂解酶Polysaccharide Lyases(PLs)或碳水化合物酯酶Carbohydrate Esterases (CEs)等(2)利用NCBI的ENTREZ检索该基因获得其核酸序列AB125373或者利用(二)中的蛋白质登录号在ncbi数据库中通过related information链接到核酸数据库,获得该基因的核酸登录号或序列(3)利用BLASTn进行数据库相似性搜索搜索其他微生物中的同源基因(4)分析BLAST结果,并回答以下问题检索获得基因名称是?chi19-1该基因的登录号是多少?AB125373进行BLASTn搜索的数据库选项为?nr请列举3-5个具有该基因的同源基因的其他微生物及其同源基因的登录号?Streptomyces griseus subsp. griseus NBRC 13350 DNA, complete genomeAP009493.1Streptomyces griseus gene for chitinase C, complete cds AB009289.1Amycolatopsismediterranei U32, complete genomeCP002000.1Amycolatopsis mediterranei RB, complete genomeCP003777.1Streptomyces sp. Mg1, complete genome CP011664.1。
面向生物信息学的序列相似性搜索算法研究序列相似性搜索算法在生物信息学研究中具有重要的应用价值。
直接将生物序列全部比对的复杂度很大,因此需要一些列较为精确、高效且适应性强的搜索算法。
一、相似性搜索算法简介序列相似性搜索算法是将两个生物序列进行比对,找出其中相似区域的算法。
其可以通过基于词语的方法、像滑动窗口、前缀树和哈希等方法进行搜索。
Bowtie算法是一种常用的基于词语的算法。
其可以在快速比对基因组来自DNA测序的短读(Reads)时得到高效的应用。
由于比对是一个重复性很高的过程,因此许多算法都采用了索引的策略。
而代码之家保障后继代码高效可维护性可以节省coder大量的时间成本。
二、基于编辑距离的算法编辑距离指的是两个序列之间由一个变为另一个所需的最少编辑操作次数。
编辑操作包括插入一个字符、删除一个字符或将一个字符替换为另一个字符。
常用的基于编辑距离的算法有Smith-Waterman算法和Needleman-Wunsch算法。
这两种算法同属动态规划算法,可以用来发现两个序列的局部相似区域和全局相似区域,不过Smith-Waterman算法是针对局部相似性而设计,而Needleman-Wunsch算法能够用于全局比对。
三、BLAST算法BLAST算法是一种比对算法家族,能够用于比对两个序列之间的相似度。
BLAST的全称是“Basic Local Alignment Search Tool”,大致意思是基于局部比对的搜索工具,而全称中fast意味着BLAST是一种快速算法。
BLAST算法通常分为基于蛋白质序列的BLASTP和基于核酸序列的BLASTN 两个版本。
BLAST算法通过对查询序列和库序列进行预处理,可以快速地检索数据库中与查询序列相似的序列。
BLAST算法速度快的同时,由于其使用了较少的匹配信息,可能会导致错误的比对结果。
因此在一些特定要求较高的任务中应该考虑使用其它算法。
四、结合多个算法的比对策略考虑到每个算法都有自身的优点和局限性,我们可以采用一些结合多个算法的比对策略。