序列比对基础与BLAST入门(打分矩阵)
- 格式:ppt
- 大小:936.00 KB
- 文档页数:55
NCBI中Blast可以用来进行序列比对、检验引物特异性Blast导航主页面主体包括三部分BLAST Assembled Genomes选择你要对比的物种,点击物种之后即可进入对比页面BasicBLAST包含5个常用的Blast,每一个都附有简单介绍SpecializedBLAST是一些特殊目的的Blast,如Primer-BLAST、IgBLAST根据需要做出选择本学期学习了最基本的核苷酸序列的比对点击BasicBLAST部分的nucleotide链接到一个新的页面,打开后的页面特征:大体上包括三个部分EnterQuerySequence部分可以让我们输入序列,其中的JobTitle部分可以为本次工作命一个名字ChooseSearchSet部分可以选择要与目的序列比对的物种或序列种类。
其中的EntrezQuery可以对比对结果进行适当的限制。
ProgramSelection部分可以选择本次对比的精确度,种内种间等等。
其次Blast按钮下面有一个“Algorithmparameters”算法参数,可设置参数。
点击Blast后,出现的页面大体上包括四个部分一."所询问和比对序列的简单信息1."询问序列的简单信息——名称、描述、分子类型、序列长度2."所比对数据库的名称、描述和所用程序二."GraphicSummary——blast结果图形显示相似度颜色图(黑、蓝、绿、粉红、红,相似度由低到高)三."Descriptions——blast结果描述区1."到其他数据库的链接2."描述以表格的形式呈现(以匹配分值从大到小排序)(1)Accession下程序比对的序列名称,点击相应的可以进入更为详细的mapviewer(2)Descriptions下是对所比对序列的简单描述接下来是5个结果数值:(3)Max score匹配分值,点击可进入第四部分相应序列的blast的详细比对结果(4)Total score总体分值(5)Query coverage覆盖率(6)E value——E(Expect)值,表示随机匹配的可能性。
如何运用BLAST进行序列比对、检验引物特异性序列比对,绝大多数战友都会想到BLAST,但BLAST的使用确实又是一个很大的难题,因为他的功能比较强悍,里面涉及到的知识比较多,而且比对结束后输出的结果参数(指标)又很多。
如果把BLAST的使用详细的都讲出来,我想我发帖发到明天也发不完,更何况我自己也不是完全懂得BLAST的使用。
所以我在这里也就“画龙点睛”——以比对核酸序列为例来给大家介绍一下BLAST的使用,也算是BLAST 的入门课程吧。
请看帖的战友好好体会,如果你用心看,在看帖完毕之后BLAST的基本使用(包括其他序列的比对)应该没有问题了。
一、打开BLAST页面,打开后如图所示:(缩略图,点击图片链接看原图)对上面这个页面进行一下必要的介绍:BLAST的这个页面主体部分(左面)包括了三部分:BLAST Assembled Genomes、Basic BLAST、Specialized BLAST。
相信大家可以看懂这三个短语的意思,我就不多说了;我要说的是,可以认为这是三种序列比对的方法,或者说是BLAST的三条途径。
第一部分BLAST Assembled Genomes就是让你选择你要比对的物种,点击相应物种之后即可进入比对页面。
第二部分Basic BLAST包含了5个常用的BLAST,每一个都附有简短的介绍。
第三部分Specialized BLAST是一些特殊目的的BLAST,如IgBLAST、SNP等等,这个时候你就需要在Specialized BLAST部分做出适当的选择了。
总之,这是一个导航页面,它的目的是让你根据自己的比对目的选择相应的BLAST 途径。
下面以最基本的核酸序列比对来谈一下BLAST的使用,期间我也会含沙射影的说一下其他序列比对的方法。
二、点击Basic BLAST部分的nucleotide blast链接到一个新的页面。
打开后如图所示:=" width=640 height=462 title="Click to iew full 2.JPG (849 X 613)" border=0 align=absmiddle> 介绍一下上述页面:Enter Query Sequence部分是让我们输入序列的,你可以直接把序列粘贴进去,也可以上传序列,还可以选择你要比对的序列的范围(留空就代表要比对你要输入的整个序列)。
生物信息学中的序列比对算法使用方法解析序列比对在生物信息学中是一项重要的技术,用于寻找DNA、RNA或蛋白质序列之间的相似性和差异性。
它是理解生物学结构和功能的基石之一。
在本文中,我们将解析生物信息学中常用的序列比对算法的使用方法。
序列比对算法主要分为全局比对和局部比对。
全局比对用于比较完整的序列,而局部比对则更适用于在序列中查找相似区域。
在这两个主要类别中,有几种经典的序列比对算法,包括Pairwise Sequence Alignment、BLAST、Smith-Waterman算法和Needleman-Wunsch算法等。
首先,我们来看Pairwise Sequence Alignment(两两序列比对)算法。
这个算法是基本的序列比对方法,通过比较两个序列中的每一个碱基、氨基酸或核苷酸,并根据其相似性和差异性对它们进行排列。
Pairwise Sequence Alignment算法使用动态规划的思想,通过计算匹配、替代和插入/删除的分数,来确定两个序列的最佳匹配方案。
在生物信息学中,常用的实现包括Needleman-Wunsch算法和Smith-Waterman算法。
Needleman-Wunsch算法是一种全局比对算法,用于比较两个序列的整个长度。
它是通过填充一个二维矩阵来计算最佳匹配路径的。
算法的核心思想是,通过评估每个格子的分数,根据路径选择的最佳分数进行全局比对。
这个算法不仅可以计算序列的相似性,还可以计算每个位置的分数,从而获得两个序列的对应二面的对应关系。
Smith-Waterman算法是一种局部比对算法,用于寻找两个序列中的最佳匹配片段(子序列)。
它与Needleman-Wunsch算法的计算思路相同,但不同之处在于允许负分数,这使得算法能够确定具有高分数的局部匹配片段。
通过动态规划计算,Smith-Waterman算法可以寻找到两个序列中的相似片段,并生成比对的结果。
另一种常用的序列比对算法是基本本地搜索工具(BLAST)。
序列比对,绝大多数战友都会想到BLAST,但BLAST的使用确实又是一个很大的难题,因为他的功能比较强悍,里面涉及到的知识比较多,而且比对结束后输出的结果参数(指标)又很多。
如果把BLAST的使用详细的都讲出来,我想我发帖发到明天也发不完,更何况我自己也不是完全懂得BLAST的使用。
所以我在这里也就“画龙点睛”——以比对核酸序列为例来给大家介绍一下BLAST的使用,也算是BLAST的入门课程吧。
请看帖的战友好好体会,如果你用心看,在看帖完毕之后BLAST的基本使用(包括其他序列的比对)应该没有问题了。
一、打开BLAST页面,http://www.ncbi.nlm.nih.go/BLAST/ 打开后如图所示:(缩略图,点击图片链接看原图)对上面这个页面进行一下必要的介绍:BLAST的这个页面主体部分(左面)包括了三部分:BLAST Assembled Genomes、Basic BLAST、Specialized BLAST。
相信大家可以看懂这三个短语的意思,我就不多说了;我要说的是,可以认为这是三种序列比对的方法,或者说是BLAST的三条途径。
第一部分BLAST Assembled Genomes就是让你选择你要比对的物种,点击相应物种之后即可进入比对页面。
第二部分Basic BLAST包含了5个常用的BLAST,每一个都附有简短的介绍。
第三部分Specialized BLAST是一些特殊目的的BLAST,如IgBLAST、SNP等等,这个时候你就需要在Specialized BLAST部分做出适当的选择了。
总之,这是一个导航页面,它的目的是让你根据自己的比对目的选择相应的BLAST途径。
下面以最基本的核酸序列比对来谈一下BLAST的使用,期间我也会含沙射影的说一下其他序列比对的方法。
二、点击Basic BLAST部分的nucleotide blast链接到一个新的页面。
打开后如图所示:screen.width-333)this.width=screen.width-333" width=640 height=462 title="Click to iew full 2.JPG (849 X 613)" border=0 align=absmiddle> 介绍一下上述页面:Enter Query Sequence部分是让我们输入序列的,你可以直接把序列粘贴进去,也可以上传序列,还可以选择你要比对的序列的范围(留空就代表要比对你要输入的整个序列)。
序列比对,绝大多数战友都会想到BLAST,但BLAST的使用确实又是一个很大的难题,因为他的功能比较强悍,里面涉及到的知识比较多,而且比对结束后输出的结果参数(指标)又很多。
如果把BLAST的使用详细的都讲出来,我想我发帖发到明天也发不完,更何况我自己也不是完全懂得BLAST的使用。
所以我在这里也就“画龙点睛”——以比对核酸序列为例来给大家介绍一下BLAST的使用,也算是BLAST的入门课程吧。
请看帖的战友好好体会,如果你用心看,在看帖完毕之后BLAST的基本使用(包括其他序列的比对)应该没有问题了。
一、打开BLAST页面,http://www.ncbi.nlm.nih.go/BLAST/ 打开后如图所示:(缩略图,点击图片链接看原图)对上面这个页面进行一下必要的介绍:BLAST的这个页面主体部分(左面)包括了三部分:BLAST Assembled Genomes、Basic BLAST、Specialized BLAST。
相信大家可以看懂这三个短语的意思,我就不多说了;我要说的是,可以认为这是三种序列比对的方法,或者说是BLAST的三条途径。
第一部分BLAST Assembled Genomes就是让你选择你要比对的物种,点击相应物种之后即可进入比对页面。
第二部分Basic BLAST包含了5个常用的BLAST,每一个都附有简短的介绍。
第三部分Specialized BLAST是一些特殊目的的BLAST,如IgBLAST、SNP等等,这个时候你就需要在Specialized BLAST部分做出适当的选择了。
总之,这是一个导航页面,它的目的是让你根据自己的比对目的选择相应的BLAST途径。
下面以最基本的核酸序列比对来谈一下BLAST的使用,期间我也会含沙射影的说一下其他序列比对的方法。
二、点击Basic BLAST部分的nucleotide blast链接到一个新的页面。
打开后如图所示:screen.width-333)this.width=screen.width-333" width=640 height=462 title="Click to iew full 2.JPG (849 X 613)" border=0 align=absmiddle> 介绍一下上述页面:Enter Query Sequence部分是让我们输入序列的,你可以直接把序列粘贴进去,也可以上传序列,还可以选择你要比对的序列的范围(留空就代表要比对你要输入的整个序列)。
Alignme nt: 序列比对。
将两个或多个序列排在一起,以达到最大一致性的过程(对于氨基酸序列是比较它们的保守性),这样可以评估序列间的相似性和同源性。
Algorit hm: 算法。
在计算机程序中包含的一种固定过程。
Bit score: 二进制。
二进制值S'源于统计性质被数量化的打分系统中产生的原始比对分数S。
由于二进制值相对于打分系统已经被标准化,它们常用于比较不同搜索之间的比对分数。
BLOSUM:模块替换矩阵。
在替换矩阵中,每个位置的打分是在相关蛋白局部比对模块中观察到的替换的频率而获得的。
每个矩阵被修改成一个特殊的进化距离。
例如,在BLOSUM62矩阵中,是使用一致性不超过62%的序列进行配对来获得打分值的。
一致性大于62%的序列在配对时用单个序列表示,以避免过于强调密切相关的家族成员。
Conserv ation:保守。
指氨基酸或DN A(普遍性较小)序列某个特殊位置上的改变,并不影响原始序列的物理化学性质。
Domain:结构域。
蛋白质在折叠时与其他部分相独立的一个不连续的部分,它有着自己独特的功能。
DUST: 一个低复杂性区段过滤程序。
E value: E值。
期望值。
在一个数据库中所搜索到的打分值等于或大于S的不同比对的个数。
E值越低,表明该打分值的显著性越好。
Filteri ng: 过滤,也叫掩蔽(masking)。
指对那么经常产生乱真的高分数的核苷酸或氨基酸序列区域进行隐藏的过程。
Gap: 空位。
在两条序列比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除。
为了避免在比对时出现太多的空位,可以在收入空位的同时,从比对的打分值中减去一个固定值(空位值)。
在多余的核苷酸或氨基酸周围引入空位时,也要对比对的打分值进行罚分。
序列比对,绝大多数战友都会想到BLAST,但BLAST的使用确实又是一个很大的难题,因为他的功能比较强悍,里面涉及到的知识比较多,而且比对结束后输出的结果参数(指标)又很多。
如果把BLAST的使用详细的都讲出来,我想我发帖发到明天也发不完,更何况我自己也不是完全懂得BLAST的使用。
所以我在这里也就“画龙点睛”——以比对核酸序列为例来给大家介绍一下BLAST的使用,也算是BLAST的入门课程吧。
请看帖的战友好好体会,如果你用心看,在看帖完毕之后BLAST的基本使用(包括其他序列的比对)应该没有问题了。
一、打开BLAST页面,http://www.ncbi.nlm.nih.go/BLAST/ 打开后如图所示:(缩略图,点击图片链接看原图)对上面这个页面进行一下必要的介绍:BLAST的这个页面主体部分(左面)包括了三部分:BLAST Assembled Genomes、Basic BLAST、Specialized BLAST。
相信大家可以看懂这三个短语的意思,我就不多说了;我要说的是,可以认为这是三种序列比对的方法,或者说是BLAST的三条途径。
第一部分BLAST Assembled Genomes就是让你选择你要比对的物种,点击相应物种之后即可进入比对页面。
第二部分Basic BLAST包含了5个常用的BLAST,每一个都附有简短的介绍。
第三部分Specialized BLAST是一些特殊目的的BLAST,如IgBLAST、SNP等等,这个时候你就需要在Specialized BLAST部分做出适当的选择了。
总之,这是一个导航页面,它的目的是让你根据自己的比对目的选择相应的BLAST途径。
下面以最基本的核酸序列比对来谈一下BLAST的使用,期间我也会含沙射影的说一下其他序列比对的方法。
二、点击Basic BLAST部分的nucleotide blast链接到一个新的页面。
打开后如图所示:screen.width-333)this.width=screen.width-333" width=640 height=462 title="Click to iew full 2.JPG (849 X 613)" border=0 align=absmiddle> 介绍一下上述页面:Enter Query Sequence部分是让我们输入序列的,你可以直接把序列粘贴进去,也可以上传序列,还可以选择你要比对的序列的范围(留空就代表要比对你要输入的整个序列)。
如何本地化进行blast序列比对1、基本概念相似性(Similarity)是指序列比对过程中用来描述检测序列和目标序列之间相同或相似碱基或氨基酸残基占全部比对碱基或氨基酸残基的比例的高低,属于量的判断。
同源性(Homology)是指从某一共同祖先经趋异进化而形成的不同序列。
只有当两个蛋白质在进化关系上具有共同的祖先时,才可称它们为同源的,属于质的判断。
相似性和同源性的关系当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。
总之不能把相似性和同源性混为一谈。
所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应避免使用。
序列相似性比较和同源性分析序列相似性分析:就是用来计算待研究序列与某序列之间的相似性程度,常用的软件包有BLAST、FASTA等;序列同源性分析:是将待研究与来自不同物种的序列中进行进化分析,以确定该序列与其它序列间的亲源关系。
常用的程序包有Phylip及Mega等进化分析软件;全局比对与局部比对全局比对寻找序列在全长范围内最佳比对。
常用算法如:Needleman-Wunsch algorithm(Needle)在线程序如: Needle局部比对寻找序列在局部区域的最高比对打分。
常用算法如:Smith-Waterman algorithm, blast,fasta等在线程序如: WaterNeedle及Water的在线程序也可以本地安装Emboss执行以上程序局部相似性比对的生物学基础蛋白质功能位点往往是由较短的序列片段组成的,尽管在序列的其它部位可能有插入、删除等突变,但这些关键的功能部位的序列往往具有相当大的保守性。
而局部比对往往比整体比对对这些功能区段具有更高的灵敏度,因此其结果更具生物学意义。
BLAST程序常用的两个评价指标Score:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大,结果越可信。