第三章序列对比与数据库搜索(下)

格式：ppt
大小：7.73 MB
文档页数：43

下载文档原格式

序列比对和数据库

序列比对和数据库搜索Gregory D.SchulerNationalCenterfor Biotechnology InformationNational Library of Medicine.National Institutes of HealthBethesda. Maryland引言在生物学的研究中,有一个常用的方法,就是通过比较分析获取有用的信息和知识。

达尔文正是研究比较了galapagos finches同其它一些物种的形态学特征，从而提出了自然选择学说。

今天，我们对基因和蛋白质序列进行比较，从本质上来讲是同达尔文一样，进行同样的分析，只不过更加精细，更加详尽。

在这个意义上，我们从核酸以及氨基酸的层次去分析序列的相同点和不同点，以期能够推测它们的结构、功能以及进化上的联系。

最常用的比较方法是序列比对，它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。

在这一章，我们只讨论一下双重比对，即只比较两个序列，至于较多的序列即多序列比对，将在第八章介绍。

七十年代以来，DNA测序方法的飞速发展，极大地引发了序列信息量的扩增，从而使可供比较的序列数量呈现爆炸式增长。

分子生物学家应该意识到，将未知序列同整个数据库中的已知序列进行比较分析已经成为他们手中一个强有力的研究手段。

在过去的三十年里，即使不提及计算机的应用，序列比较的各种算法也已经发展得越来越迅速，也越来越成熟，已经能够跟上序列数据库增长的步伐。

今天，我们已经拥有一些小的模式物种的基因组的全序列，还拥有人类基因序列的一些较大的样品，我们已经进入比较基因组时代，也就是说，对两个物种进行全基因组序列比较已经不再是一个梦想。

序列比对的进化基础进行序列比对的目的之一是让人们能够判断两个序列之间是否具有足够的相似性，从而判定二者之间是否具有同源性。

值得注意的是，相似性和同源性虽然在某种程度上具有一致性，但它们是完全不同的两个概念。

相似性是指一种很直接的数量关系，比如部分相同或相似的百分比或其它一些合适的度量，而同源性是指从一些数据中推断出的两个基因在进化上曾具有共同祖先的结论，它是质的判断。

课件第3讲序列比对与数据库搜索

两序列比对位置上的元素（核酸或氨基酸）大部分相同两序列比对位置上的元素（氨基酸）相似两序列来自一个共同的祖先序列

序列同源性

序列比较

• Dot matrix 分析 (intuitive) • 序列比对计算DP algorithm (exact) • Word or k-tuple (FASTA, BLAST) (heuristic)

words.
The main assumption in a word-based method assumes that related sequences are more likely to share several common Increasing the word size, enables searches to be performed faster, but reduces the sensitivity

矩阵名中的数字代表产生矩阵所用序列集的相似度
BLOSUM62 (lower part)
PAM矩阵和BLOSUM矩阵的比较

PAM矩阵的突变率来自一个明确的进化模型,该模型中氨基酸的替换可从近亲蛋白质的系统发生树分支得知,而远亲蛋白质的关系则可用外推过程建立模型，但BLOSUNM矩阵却是通过直接观测保守区域中氨基酸的替换几率建立的 PAM矩阵基于序列全局比对观测到的突变,包括了保守区域和可变区域,而BLOSUM矩阵仅基于高度保守的序列，不允许有空位的出现一般情况下PAM120矩阵和BLOSUM62矩阵是最好的选择

FASTA
找出高相似短序列
打分，精细匹配
拼接，去除不可能区段

序列比对与数据库搜索

Genomics and Bioinformatics 2011-2012, TMMU
Pairwise Sequence Alignment
Query: catcaactacaactccaaagacacccttacacccactaggatatcaacaa |||||||| |||| |||||| ||||| | ||||||||||||||||||||| Sbjct: catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaa
18
红岭创投
注册“红岭创投”P2P理财平台，请输入官方优惠码21253直接成为VIP会员 12%-18%固定收益
VIP会员100%本息担保
Genomics and Bioinformatics 2011-2012, TMMU
全局比对和局部比对
全局比对（Global Alignment）：
Genomics and Bioinformatics 2011-2012, TMMU
氨基酸打分矩阵：BLOSUM
BLOSUM：BLOcks SUbstitution Matrix
A R N D C Q E G H I L K M F P S T W Y V 4 -1 5 -2 0 6 -2 -2 1 6 0 -3 -3 -3 9 -1 1 0 0 -3 5 -1 0 0 2 -4 2 5 BLOSUM62打分矩阵 0 -2 0 -1 -3 -2 -2 6 -2 0 1 -1 -3 0 0 -2 8 -1 -3 -3 -3 -1 -3 -3 -4 -3 4 -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -1 2 0 -1 -1 1 1 -2 -1 -3 -2 5 -1 -2 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 A R N D C Q E G H I L K M F P S T W Y V

第三章序列比对

第三章序列比对1 序列比对的概念序列比对的定义是：根据特定的计分规则，两个或多个符号序列按位置比较后排列，尽可能反映序列间的相似性，这一过程称为序列比对。

2 序列比对的意义生物信息学形成早期的主要研究内容就是序列比对，而当时序列比对研究的课题主要是生物大分子的进化。

核酸序列与蛋白质序列的突变是经实验证明的生物学现象，而现代生物学认为正是这种生物大分子序列的不断变化形成了生物进化的分子基础。

即在地质年代早期的地球生物中的核酸、蛋白质等序列经过几十亿年的演变后，成为了现今极其多样化的生物大分子序列。

我们并不知道这些分子序列祖先演化的实际过程，但可以找到现存序列的相似性，根据相似性去推导演化的过程。

正是通过序列比对找出序列之间的相似性。

序列比对找到的是相似性，可用这相似性去进行同源性分析。

后文所讲到的分子系统发育分析，就是通过序列比对，再进行聚类分析，然后依据所得结果确定被测分子序列的亲缘关系，构建进化树。

序列比对的一个用途就是用于搜索相似序列。

当你获得一段DNA序列或氨基酸序列后，发现对它一无所知时，可以在核酸序列数据库中搜索关于这一序列的信息，一个有效的方法是采用比对算法在数据库中找到一系列与该序列有相似性的序列，并按相似程度由高到低排列。

现在应用的多个序列搜索软件的本质差异基本上是比对算法的差异，随着数据库规模的扩大，对快速搜索的要求越来越高，而优化比对算法是解决问题的方案之一。

在基因组测序中，序列比对更是有重要作用。

基因组测序一般要将若干个拷贝的长核酸序列打断成有重叠区域的许多小片断，测序仪对小片断进行测序，然后把已知碱基排列顺序的小片断用比对算法找到有重叠区的另外的片断，把它们边接起来还原成原来的长核酸序列，得到长核酸序列的碱基排列顺序。

序列比对还可以寻找序列中的特定位点。

当一个基因的某一位点发生突变时，它与原基因进行比对时就能发现这个位点，这在寻找致病基因时尤为重要。

同时，通过比对，可找出不同序列间一些保守性的区域，它们可能行使重要的功能。

12研究生第三章序列对比和数据库搜索

这个蛋白家族中的功能信息，而PHI用于
搜索蛋白基序；同样包括蛋白的完全匹
配的短序列搜索。
3、已翻译蛋白的BLAST搜索

包括[blastx],[tblastn],[tblastx]
程序
数据库
查询
简述可能找到具有远源进化关系的匹配序列适合寻找分值较高的匹配，不适合远源关系
blastp
蛋白质
Query: 61 CFENRKRQTSILIQKSGPC 79 CFENRK TSI IQ+ G C Sbjct: 61 CFENRKFGTSIRIQRRGLC 79

在残基-残基对比中，很明显，某些位置的氨基酸残基相对于其它位置的残基具有较高的保守性，这个信息揭示了某些残基对于一个蛋白质的结构和功能是极为重要的。如图3.1所示，处于活性位点的残基都是极为保守的，比如形成二硫键的半胱氨酸，参与电子传递的氨基酸残基以及决定底物特异性的氨基酸残基。这些保守的残基对于保持蛋白的结构与功能非常重要，另一方面，由于历史原因，某些保守位置对蛋白功能并无太大的重要性。
1、核酸数据库搜索

组合基因组检索；分为标准的核酸与核酸数据库搜索； MEGABLAST提供大量长序列的比较；完全匹配的短序列搜索；特殊搜索。
2、蛋白数据库搜索

分为标准的蛋白与蛋白数据库搜索；PSIand PHI-BLAST，其中PSI用于搜索证实
远源进化关系的存在与否和进一步获取
无法描述残基取代对结构和功能的不同
影响效果，缬氨酸对异亮氨酸的取代与
谷氨酸对异亮氨酸的取代应该给予不同
的打分。

因此如果用一个取代矩阵来描述氨基酸残基两两取代的分值会大大提高对比的敏感性和生物学意义。虽然针对不同的研究目标和对象应该构建适宜的取代矩阵，但国际上常用的取代矩阵有PAM和BLOSUM等，它们来源于不同的构建方法和不同的参数选择，包括 PAM250、BLOSUM62、BLOSUM90、 BLOSUM30等。对于不同的对象可以采用不同的取代矩阵以获得更多信息，例如对同源性较高的序列可以采用BLOSUM90矩阵，而对同源性较低的序列可采用BLOSUM30矩阵。

第三章序列比对

（BLOck SUbstitution Matrix，BLOSUM）
• 遗传密码矩阵
遗传密码矩阵通过计算一个氨基酸变成另一个氨基酸所需的密码子变化的数目而得到。通常为1 或 2，只有Met到Tyr为 3。
• 遗传密码矩阵 GCM矩阵
疏水矩阵
R
K
D
E
B
Z
S
N
Q
G
X
T
H
A
C
MP
V
L
I
Y
FWຫໍສະໝຸດ R 10 10• 当相似程度高于50%时，比较容易推测检测序列和目标序列可能是同源序列；而当相似性程度低于20%时，就难以确定是否具有同源性。
直系同源和旁系同源
直系同源（orthology）是指不同物种内的同源序列，它们来源于物种形成时的共同祖先基因。
旁系同源（paralogy）是指同一物种中，由于基因的复制而产生的几个同源基因。
将核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库
用检测序列蛋白质搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库
将核酸序列按6条链翻译成蛋白质序列后搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库
多结构域蛋白 (H1N1) 的BLAST检索
H1N1聚合酶序列
9
9
8
8
6
6
6
5
5
5
5
5
4
3
3
3
3
3
2
1
0
K 10 10
9
9
8
8
6
6
6
5
5
5
5
5

实验二_数据库相似性搜索与序列比对

实验二_数据库相似性搜索与序列比对实验二数据库相似性搜索与序列比对实验原理：数据库相似性搜索以两两序列比对为基础，将感兴趣的基因序列与序列数据库中的每个序列进行比较，鉴别出相似的序列。

搜索结果显示出与最佳匹配序列的对位排列及匹配记分。

序列数据库搜索对发现基因的功能非常有效。

fasta和blast是两个著名的用于数据库相似性搜索的软件包。

其中blast（basiclocala1ignmentsearchtool）基于局部比对的搜索工具，是一种启发式搜索算法服务软件，包括blastp，blastn，blastx，tblastn 和tblastx程序。

实验目的和要求：学习数据库相似性检索和序列比对的程序的使用，能够理解程序给出的结果，从中获取有关功能和结构的信息。

（1）要求学生使用所学的数据库检索方法检索数据库中的特定基因（2）掌握数据库相似性搜索工具blast的基本比对方法，参数设置及结果分析（3）掌握核酸和蛋白质序列的比对方法、参数设置和结果分析实验材料：未知核酸序列；未知氨基酸序列；SOD基因工具软件：（1）数据库检索工具Entrez一、利用blast中的special类下的aligntwosequences(bl2seq)比较人与老鼠的sod基因蛋白质序列的相似性程度（1）人类aab27818是通过NCBI 1的ntrez和小鼠3gtt_E的SOD基因氨基酸序列或登录号（SOD分为SOD1或SOD2等，检索时注意选择完全相同的SOD基因）搜索蛋白质数据库获得的。

（2）进入NCBI的blast网页，然后选择specializedlast下的align two sequences（bl2seq）程序来比较这两个序列（3）选择blastp子程序，将序列或登录号分别粘贴到序列框中（4）其他选项采用默认的设置，运行程序（5）分析结果，并回答以下问题NCBI的Entrez搜索中使用了哪些关键词？humanandsodmouseandsod人和小鼠SOD基因蛋白质序列的注册号是多少？人aab27818 1和鼠标3gtt_e两序列比对得到的一致性百分比和相似性百分比分别为多少？识别127/153（83%）阳性135/153（88%）两序列比对结果中哪些区域出现了gap?差距0/153（0%）二、利用specielizedblast的conserveddomain进行蛋白质保守结构域分析（1）进入ncbi的blast网页（2）选择specialize last to enter下的保守域超链接（3）在cazy数据库查找一个糖苷水解酶glycosidehydrolases（gh+学号），获得其蛋白质序列或蛋白质序列的genbank登录号aek59386.1（4）在保守域页面的输入框中输入糖苷水解酶的登录号或蛋白质（5），选择默认参数，点击提交进行提交分析（6）阅读得到的结果，点击各hit的超链接了解找到的结构域的功能（7）将结构域图形和表格记录在实验报告中三、利用blast在数据库中搜索不同物种的同源基因（1）利用文献检索工具检索clostridiumthermocellum嗜热梭菌与其纤维素降解功能相关的基因，例如糖苷水解酶glycosidehydrolases（gh+学号）或多糖裂解酶polysaccharidelyases(pls)或碳水化合物酯酶carbohydrateesterases(ces)等（2）利用ncbi的entrez检索该基因获得其核酸序列ab125373或者使用（2）中的蛋白质注册号通过NCBI数据库中的相关信息链接到核酸数据库，以获得基因的核酸注册号或序列（3）利用blastn进行数据库相似性搜索搜索其他微生物中的同源基因（4）分析blast结果，并回答以下问题检索获得基因名称是？chi19-1该基因的登录号是多少？ab125373进行blastn搜索的数据库选项为？nr请列出其他3-5种具有该基因及其同源基因的微生物的注册号？ap009493.1。

第三章序列比较

第三章序列比较序列比较是生物信息学中最基本、最重要的操作，通过序列比对可以发现生物序列中的功能、结构和进化的信息。

序列比较的根本任务是：通过比较生物分子序列，发现它们的相似性，找出序列之间共同的区域，同时辨别序列之间的差异。

在分子生物学中，DNA或蛋白质的相似性是多方面的，可能是核酸或氨基酸序列的相似，可能是结构的相似，也可能是功能的相似。

一个普遍的规律是序列决定结构，结构决定功能。

研究序列相似性的目的之一是，通过相似的序列得到相似的结构或相似的功能。

这种方法在大多数情况下是成功的，当然，也存在着这样的情况，即两条序列几乎没有相似之处，但分子却折叠成相同的空间形状，并具有相同的功能。

这里先不考虑空间结构或功能的相似性，仅研究序列的相似性。

研究序列相似性的另一个目的是通过序列的相似性，判别序列之间的同源性，推测序列之间的进化关系。

这里，将序列看成由基本字符组成的字符串，无论核酸序列还是蛋白质序列，都是特殊的字符串。

本章着重介绍通用的序列比较方法。

序列的相似性3.13.1序列的相似性序列的相似性可以是定量的数值，也可以是定性的描述。

相似度是一个数值，反映两条序列的相似程度。

关于两条序列之间的关系，有许多名词，如相同、相似、同源、同功、直向同源、共生同源等。

在进行序列比较时经常使用“同源”（homology）和“相似”（similarity）这两个概念，这是两个经常容易被混淆的不同概念。

两条序列同源是指它们具有共同的祖先。

在这个意义上，无所谓同源的程度，两条序列要么同源，要么不同源。

而相似则是有程度的差别，如两条序列的相似程度达到30%或60%。

一般来说，相似性很高的两条序列往往具有同源关系。

但也有例外，即两条序列的相似性很高，但它们可能并不是同源序列，这两条序列的相似性可能是由随机因素所产生的，这在进化上称为“趋同”（convergence），这样一对序列可称为同功序列。

直向同源（orthologous）序列是来自于不同的种属同源序列，而共生同源（paralogous）序列则是来自于同一种属的序列，它是由进化过程中的序列复制而产生的。

第三章序列两两比对

序列比对的方法
比对算法
比对算法，不管是全局比对还是局部比对，基本上是相似的，只是比对相似残基时最优化策略不同。所有比对算法都是基于以下三种方法的：点阵方法，动态规划方法和基于单词的方法。点阵法和动态规划算法在这章讲，而基于单词的方法将在下一章讲。
11
序列比对的方法
点阵方法
最基本的序列比对方法是点阵法，也叫点平面图法。这是一种在二维矩阵中比较两条序列的直观方法。待比较的两条序列被放在矩阵的横轴和纵轴上。我们通过扫描一条序列上的每一个残基与另一条序列的所有残基的相似性来比较两条序列。如果发现了一个残基匹配就在相应位置画一个点。而矩阵的其它位置保持空白。如果两条序列有大量的相似区域，就用直线沿着对角线将连续的点连接起来。如果对角线的中间出现断点，就表明有残基的插入和删除。矩阵中平行的对角线代表序列中的重复区域。
8
序
言
序列相似（similarity）与序列一致（identity）
第一种方法用如下公式计算序列一致度： I=[(Li*2)/(La+Lb)]*100 其中I是序列一致的百分比，Li是一致的残基数目，La和Lb分别是两条序列的长度。第二种方法利用如下公式计算序列的一致/相似度： I(S)%=Li(S)/La% 其中La是较短序列的长度。
20
序列比对的方法
动态规划方法
动态规划是一种通过匹配两条序列中所有可能的字符对来确定最优比对的方法。它和点阵法基本相似，就是也需要构造一个二维的矩阵。而它确是通过将点阵转换为记录序列间匹配和失配的得分矩阵来找最优比对的定量的方法。通过寻找矩阵中的最高分数集合来精确的找到最佳联配
21
序列比对的方法
Dotmatcher（bioweb.pasteur.fr/seqanal/interfaces/dotmatcher.html) Dottup(bioweb.pasteur.fr/seqanal/interfaces/dottup.html) Dothelix(www.genebee.msu.su/services/dhm/advanced.html) MatrixPlot(www.cbs.dtu.dk/service/MatrixPlot/ )

序列比对与数据库搜索汇总

总之，不能把相似性和同源性混为一谈。所谓“具有 50%同源性”，或“这些序列高度同源”等说法，都是不确切的，应该避免使用。
1.1 序列的相似性描述
➢定性的描述 ➢定量的数值
❖相似度 ❖距离
序列比较的基本操作是比对（Alignment）
两个序列的比对是寻找这两个序列中各个字符的一种一一对应关系，或字符的对比排列。分析序列同源性和相似性的过程。
相似性和同源性
数据库搜索的基础是序列的相似性比对，而寻找同源序列则是数据库搜索的主要目的之一。
所谓同源序列，简单地说，是指从某一共同祖先经趋异进化而形成的不同序列。同源性可以用来描述染色体—“同源染色体”、基因—“同源基因” 和基因组的一个片断—“同源片断”
必须指出，相似性(similarity)和同源性 (homology)是两个完全不同的概念。
第四章序列比较与数据库搜索
主讲：张宏西北农林科技大学农学院遗传教研组
第一节序列比对
❖ 序列比较的根本任务是：
寻找序列之间的相似性辨别序列之间的差异是进行序列相似性与同源性分析的一种研究方法
❖ 目的：
相似序列相似的结构，相似的功能判别序列之间的同源性推测序列之间的进化关系
局部相似性比对往往比整体比对具有更高的灵敏度，其结果更具生物学意义。
1.4 序列比对的经典算法
计算两条序列间的最适比对的经典算法： ➢算法：做任何事情都有一定的步骤。为解决一个问题而采取的
方法和步骤，就称为算法。
➢Needleman-Wunsch算法：整体比对算法，最佳比对
（两条蛋白质序列具有最多匹配残基）中包括了全部的最短匹配序列。
基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声，并且明确无误的指示出了两条序列间具有显著相似性的区域。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

4.2 BLAST 程序及其数据库名称和意义 1) BLAST 程序
BLAST 蛋白质数据库
BLAST 的核酸数据库
4.3 BLAST搜索格式
• BLAST搜索框中允许3种输入格式: FASTA 格式单纯序列输入格式标识符格式
FASTA格式
• FASTA格式第1行是描述行,第1个字符必须是">"字符;随后的行是序列本身,一般每行序列不要超过80 个字符,各行之间不允许有空行,回车符不会影响程序对序列连续性。序列由标准的IUB/IUPAC氨基酸和核酸代码代表;小写字符会全部转换成大写,序列可由基因库中调出,亦可输入。如:
行列比较
• 因申请者提交的要求不同,行列可有不同的输出形式,系统默认的是配对行列输出格式,即查询序列与数据库中匹配的序列垂直对应。
• 针对蛋白质查询而言,相同的残基排在二序列之间,用“+” 表示保守性残基
• 针对DNA而言,垂直线连接相同的碱基。空位部分代表查询序列与检索匹配序列不一致。
• 由于过滤作用,在低复杂区氨基酸查询序列可以包含Xs(核酸包含NS)。HPSs中可列出每个检索数据库中的多个行列。
第三章
序列对比和数据库搜索
(下)
4 BLAST程序简介
• BLAST是现在应用最广泛的序列相似性搜索工具, 相比FASTA有更多改进,速度更快。
• 它建立在严格的统计学基础之上。
• /blast/
BlAST 工具主页面
4.1 BLAST搜索主界面
• 1 qikdllvsss tdldttlviv naiyfkgmwk tafruedtre mpfhvtkqes kpvqmmcmm • 61 sfnvatlpae lmkilelpfa sgdlsmlvll pdevsdleri ektideklt ewtnpImek • 121 rrvkvylpqm kieelqnlts vlmalgmtdl fipsanltgi ssaesikhq avhgafmels • 181 edgemagst gviedikhsp eseqfradhp flflildnpt ntivyfgryw sp
结果总览图-----核酸
结果总览图-----蛋白质
显著性序列列表
最有显著性(同源性最高)的行排在最上面,其E值最低,排列行按E值增加排序,每行有4部分描述内容: ①数据序列标识符 ②对该序列简单描述 ③在每个数据库中搜索得到的分数 ④E值，点击序列标识符可以连接到 GenBank，点击分数可连接到对应的序列比较行
• 注意:3种输入格式输入时,蛋白质必须对应搜索蛋白质的程序,核酸必须对应搜索核酸的程序
5 同源性分析
•5.1 待检核酸序列与整个核酸序列库中的序列进行类比
• 以检索E-Cadherin部分序列为例: 打开BLAST搜索主页按以下选择: NCBI→BLAST→Nucleotide Nucleotid-nucleotide BLAST[blastn] 进入搜索界面,在"Search"框输入基因的标识符、单纯序列格式或 FASTA格式,并可限制序列的起点和终点,根据需要选择数据类型 (本例选nr),在高级选项中可进一步限定条件,设定好后点击BLAST
• BLAST 2.2.12, 具体功能包括:
(1)核酸数据库搜索：分为标准的核酸与核酸数据库搜索,MEGABLAST提供大量长序列的比较, 完全匹配的短序列的搜索。
（2)蛋白数据库搜索:分为标准的蛋白与蛋白数据库搜索；PSI-and PHI-BLAST,其中PSI用于搜索证实远源进化关系是否存在，进一步获取这个蛋白家族中的功能信息。而PHI用于搜索蛋白基序；同样包括蛋白的完全匹配的短序列搜索。
V valine(缬氨酸)
• H histidine(组氨酸)
W tryptophan(色氨酸〉
• I isoleucine(异亮氨酸)
Y tyrosine(酪氨酸)
• K lysine (赖氨酸)
Z glutamate or glutamine
• L leucine (亮氨酸)
X any(任何一种氨基酸)
对包含LCR的序列进行对比是不妥当的,因为这些序列不符合残基一残基序列守恒的模型。有些时候与功能相关的属性可能仅仅是周期性或组成结构,而没有任何特异的序列。
• 使用BLAST时,缺省情况下可以实行自动过滤。如果对比的序列中有LCR,查询序列中会出现不明确的字符串(在原序列中没有出现)。操作者可以使用BLAST程序来进行低复杂度区域的屏蔽。当一个低复杂度区域被屏蔽掉的序列作为查询序列被提交给数据库进行检索时,在BLAST对比输出结果中，可能也会包括一些被屏蔽的分段序列。这些过滤可以由BLAST程序完成。
标识符格式
• 通常只输入NCBI存取号、存取号版号或基因库中的标识符号,如: p01013、AAA68881.1、129295
• 亦可有NCBI中带有分隔竖线的序列标识符,如:
1 gcttgcggaa gtcagttcag actccagecc gctccagecc ggcccgaccc gaccgcaccc 61 ggcgcctgcc ctcgctcggc gtccccggcc ageeatgggc ccttggagec gcagectctc 121 ggcgctgctg ctgctgctgc aggtctcctc ttggctctgc caggagecgg ageectgcca 181 ccctggcttt gacgccgaga gctacacgtt cacggtgccc
PSI-BLAST 选项
4.6 低复杂度区域与重复元件
低复杂度区域
• 不管是蛋白还是核酸都包含一些特殊的区域--低复杂度区域 (LCRs),在进行序列数据库搜索时,这些区域可能会导致一些令人迷惑的结果。数据库中的蛋白质有一半以上拥有至少一个LCR。 LCRs的进化、功能和结构性质并不清楚。在DNA中,有许多种简单的重复,其中一些已经知道是高度多态性的,并且在作基因图谱时经常使用的。
4.5 PSI-BLAST程序简介
PSI-BLAST----位点特异性反复比较BLAST(蛋白质) PSI-BLAST的特色是每次用Profile搜索数据库后再利用搜索的结果重新构建Profile,然后用新的Profile再次搜索数据库,如此反复直至没有新的结果产生为止。PSI-BLAST 先用带空位的BLAST搜索数据库,将获得的序列通过多序列比较来构建第一个Profile。 PSI-BLAST自然地拓展了BLAST方法,能寻找蛋白质序列中的隐含模式,这种方法可以有效地找到很多序列差异较大，而结构功能相似的相关蛋白,甚至可以与一些结构比较方法如Threading媲美,在BLAST查询页面有选择项。也可以在FTP服务器上下载PSI--BLAST的独立程序。
按钮提交。提示提交成功,进一步点击Format 可看结果。
分别输入两个基因的标识符或FASTA格式的序列,碱基数不要超过150kb,可进一步限定条件,然后点击BLAST按钮即可提交等待结果。
选择FORMAT 按钮显示结果
4.3 蛋白质与蛋白质数据库或蛋白质两两比较
• (1)蛋白质与蛋白质数据库比较:选Protein BLAST中的Protein-Protein BLAST [blastp]与蛋白质数据库比较
• >gi|129295|splP01013|OVAX-CHICK GENE X PROTEIN (OVALBUMIN-
RE-LATED) QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVL LPDEVSDLERIEIKTINFEIKLTEJTNPNTMEIKRRVIKVYLPQMIKIEEIKYNVL MALGMTDLFIPSANLIBSQAVEHfGAFMELSEDGIEMAGSTGVIEDIHIK
蛋白质行列比较结果
核酸行列比较结果
参数E的意义
• 相关的参数值E代表随机比较分值不低于实际比较分值的概率。对于严格的比较， E值必须低于一定阈值，才能说明比较的结果具有足够的统计学显著性。
• 界定值在搜索设置,系统默认为10,搜索的严谨度越高,E值越小。若要比较短序列,获得更多的信息, 则可增加E值到1000或更高;或降低字符大小(W), 经验之法是查询序列至少是W的2倍，或禁止过滤功能的使用，或改变矩阵以优化搜索序列。
• 输入方法基本与核酸比较相同,存取号或序列内容必须是蛋白质库中的。
• (2)蛋白质的两两比较: 在Alignment View 中选 Pairwise , Matrix 选择比较矩阵(BLOSUM62)进行比较
• 序列输入格式同上。其输出搜索结果,进一步点击 C cystine(胱氨酸)
R arginine(精氨酸)
• D aspartate(天冬氨酸)
S serine(丝氨酸)
• E glutamate(谷氨酸盐)
T threonine(苏氨酸)
• F phenylalanine(苯丙氨酸)
U selenocysteine(晒代半胺氨酸)
• G glycine(甘氨酸)
• M methionine(蛋氨酸)
＊translation stop(翻译终止符)
• N asparagine(天冬酰胺)
-gap of indeterminate length
2.单纯序列数据输入格式
• 该格式无FASTA描述定义行,亦可是GenBank/GMPept中的单纯文本格式。如：
核酸表示字符:
符号含义
G
G
A
A
T
T
C
C
U
U

第三章序列对比与数据库搜索(下)

合集下载

序列比对和数据库

课件第3讲序列比对与数据库搜索

序列比对与数据库搜索

第三章序列比对

12研究生第三章序列对比和数据库搜索

第三章序列比对

实验二_数据库相似性搜索与序列比对

第三章序列比较

第三章序列两两比对

序列比对与数据库搜索汇总

文档推荐

最新文档

第三章序列对比与数据库搜索(下)

合集下载

序列比对和数据库

课件第3讲 序列比对与数据库搜索

序列比对与数据库搜索

第三章 序列比对

12研究生第三章 序列对比和数据库搜索

第三章序列比对

实验二_数据库相似性搜索与序列比对

第三章 序列比较

第三章 序列两两比对

序列比对与数据库搜索汇总

文档推荐

最新文档

课件第3讲序列比对与数据库搜索

第三章序列比对

12研究生第三章序列对比和数据库搜索

第三章序列比较

第三章序列两两比对