当前位置:文档之家› BIOINF_序列相似性和序列对比

BIOINF_序列相似性和序列对比

生物信息学的主要研究内容

常用数据库 在DNA序列方面有GenBank、EMBL和等 在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等 在蛋白质和其它生物大分子的结构方面有PDB等 在蛋白质结构分类方面有SCOP和CATH等 生物信息学的主要研究内容 1、序列比对(Alignment) 基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包BLAST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。 2、结构比对 基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。 3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一 从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建(Homology)和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。 4、计算机辅助基因识别(仅指蛋白质编码基因)。最重要的课题之一 基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。 5、非编码区分析和DNA语言研究,是最重要的课题之一 在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA 序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。 6、分子进化和比较基因组学,是最重要的课题之一 早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。 7、序列重叠群(Contigs)装配 一般来说,根据现行的测序技术,每次反应只能测出500或更多一些碱基对的序列,这就有一个把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明,这是一个NP-完备

生物信息学实验指导讲解

生物信息学实验指导 适用专业:生物技术与制药大类 生物技术 编写:解增言 生物信息学院 2014年9月

目录 实验1 在线BLAST同源序列查询 (3) 实验2 本地BLAST同源序列查询 (8) 实验3 利用ClustalX与MEGA进行多序列比对与分子系统发生树构建 (10) 实验4 利用RNAfold预测RNA二级结构 (14) 实验5 Pfam蛋白质结构域分析 (17) 实验6 利用PSSpred预测蛋白质二级结构 (19) 实验7 利用Cn3D和RasMol分析蛋白质三级结构 (21) 实验8 利用GO及EST数据分析基因功能 (24)

实验1 在线BLAST同源序列查询 一、实验目的 1.了解同源序列查询的原理和用途; 2.掌握利用NCBI在线BLAST工具查找同源序列的方法。 二、实验原理 在生物学种系发生理论中,若两个或多个结构具有相同的祖先,则称它们同源(homologous)。分子生物学中的同源指两条序列来自于一条共同的祖先序列。一般来说,相似超过一定程度的序列具有同源性。在生物信息学研究中,常用序列比对(alignment)来研究序列的同源性以及推测物种之间的关系。 最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域或位点,从而探索导致它们产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。 比对还是数据库搜索算法的基础,将查询序列与整个数据库]的所有序列进行比对,从数据库中获得与其最相似序列的已有的数据,能最快速的获得有关查询序列的大量有价值的参考信息,对于进一步分析其结构和功能都会有很大的帮助。近年来随着生物信息学数据大量积累和生物学知识的整理,通过比对方法可以有效地分析和预测一些新发现基因的功能。 序列两两比对 序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。在残基-残基比对中,可以明显看到序列中某些氨基酸残基比其它位置上的残基更保守,这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的,例如它们可能是酶的活性位点残基,形成二硫键的半胱氨酸残基,与配体结合部位的残基,与金属离子结合的残基,形成特定结构motif的残基等等。但并不是所有保守的残基都一定是结构功能重要的,可能它们只是由于历史的原因被保留下来,而不是由于进化压力而保留下来。因此,如果两个序列有显著的保守性,要确定二者具有共同的进化历史,进而认为二者有近似的结构和功能还需要更多实验和信息的支持。通过大量实验和序列比对的分析,一般认为蛋白质的结构和功能比序列具有更大的保守性,因此粗略的说,如果序列之间的相似性超过30%,它们就很可能是同源的。 早期的序列比对是全局的序列比较,但由于蛋白质具有的模块性质,可能由于外显子的交换而产生新蛋白质,因此局部比对会更加合理。通常用打分矩阵描述序列两两比对,两条序列分别作为矩阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数越高则说明两个残基越相似。因此,序列比对问题变成在矩阵里寻找最佳比对路径,目前最有效的方法是Needleman-Wunsch动态规划算法,在此基础上又改良产生了 Smith-Waterman算法和SIM算法。在 FASTA程序包中可以找到用动态规划算法进行序列比对的工具LALIGN,它能给出多个不相互交叉的最佳比对结果。

BLAST_核酸氨基酸序列相似性比较

BLAST 核酸/氨基酸序列相似性比较 Blast (Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLA ST结果中的得分是对一种对相似性的统计说明。 BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。如果您想进一步了解BLAST算法,您可以参考NCBI的BLAST Course ,该页有BLAST算法的介绍。 BLAST的功能 BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。BLAST还能发现具有缺口的能比对上的序列。 BLAST是基于Altschul等人在J.Mol.Biol上发表的方法(J.Mol.Biol.215:403-410(19 90)),在序列数据库中对查询序列进行同源性比对工作。从最初的BLAST发展到现在NC BI提供的BLAST2.0,已将有缺口的比对序列也考虑在内了。BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要 么都是蛋白数据库要么都是核酸数据库。 所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。 通常根据查询序列的类型(蛋白或核酸)来决定选用何种BLAST。假如是作核酸-核酸查询,有两种BLAST供选择,通常默认为BLASTN。如要用TBLASTX也可,但记住此时不考虑缺口。 BLAST适用于本地查询。可以下载公共数据库,对于该数据库的更新和维护是必不可少的。如果要直接到网上查询也可以(即NetBlast),但记住如果你认为自己的序列很有价值的话,还是谨慎为宜。 如何访问在线的BLAST功能服务? 您只要通过浏览器访问Blast主页(https://www.doczj.com/doc/552775978.html,/) 。所有的查询和分析都通过浏览器来完成,就象您在您的本地机上一样方便和快捷。 BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。 Blast中常用的程序介绍: 1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

生物信息学复习题及答案(陶士珩)

生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E 值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致 树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept, 折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、问答题 1)生物信息学与计算生物学有什么区别与联系? 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么?请列举3个以上NCBI 维护的数据库。 5)序列的相似性与同源性有什么区别与联系? 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途 什么? 7)简述BLAST搜索的算法。 8)什么是物种的标记序列? 9)什么是多序列比对过程的三个步骤? 10)简述构建进化树的步骤。 11)简述除权配对法(UPGMA)的算法思想。 12)简述邻接法(NJ)的算法思想。 13)简述最大简约法(MP)的算法思想。 14)简述最大似然法(ML)的算法思想。 15)UPGMA构树法不精确的原因是什么? 16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其 含义。 17)试述DNA序列分析的流程及代表性分析工具。 18)如何用BLAST发现新基因? 19)试述SCOP蛋白质分类方案。 20)试述SWISS-PROT中的数据来源。 21)TrEMBL哪两个部分? 22)试述PSI-BLAST 搜索的5个步骤。 三、操作与计算题 1)如何获取访问号为U49845的genbank文件?解释如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 2)利用Entrez检索系统,对核酸数据搜索,输入如下信息,将获得什

生物信息学中的序列比对算法

生物信息学中的序列比对算法 张永1,王瑞2 (1.南昌航空大学计算机学院,江西南昌330063;2.江西大宇职业技术学院,江西南昌330038) 摘要:生物信息学是以计算机为工具对生物信息进行储存、检索和分析的科学。序列比对是生物信息学中的一个基本问题,设计快速而有效的序列比对算法是生物信息学研究的一个重要内容,通过序列比较可以发现生物序列中的功能、结构和进化的信息,序列比较的基本操作是比对。本文介绍了序列比对算法的发展现状,描述了常用的各类序列比对算法,并分析了它们的优劣。 关键词:生物信息学;双序列比对;多序列比对 中图分类号:TP301文献标识码:A文章编号:1009-3044(2008)03-10181-04 SequenceAlignmentAlgorithmsinBioinformatics ZHANGYong1,WANGRui2 (1.SchoolofComputing,NanchangHangkongUniversity,Nanchang330063,China;2.JiangxiDayuVocationalInstitute,Nanchang330038,China) Abstract:Bioinformaticsisthesubjectofusingcomputertostore,retrieveandanalyzebiologicalinformation.Sequencealignmentisaba-sicprobleminBioinformatics,anditsmainresearchworkistodeveloprapidandeffectivesequencealignmentalgorithms.Wemaydiscov-erfunctional,structuralandevolutionaryinformationinbiologicalsequencesbysequencecomparing.Thispaperintroducesthedevelop-mentactualityofsequencealignmentalgorithms,describesvarietyofsequencealignmentalgorithmandanalysestheadvantagesanddisad-vantagesofthem. Keywords:Bioinformatics;PairwiseSequenceAlignment;MultipleSequenceAlignment 1引言 生物信息学是80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科,最初常被称为基因组信息学。生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学和蛋白组学两方面,具体说,是从核酸和蛋白质序列出发,分析序列中表达结构与功能的生物信息。 生物信息学的研究重点主要体现在基因组学和蛋白质学两方面,具体地说就是从核酸和蛋白质序列出发,分析序列中表达结构和功能的生物信息。生物信息学的基本任务是对各种生物分析序列进行分析,也就是研究新的计算机方法,从大量的序列信息中获取基因结构、功能和进化等知识。在从事分子生物学研究的几乎所有实验室中,对所获得的生物序列进行生物信息学分析已经成为下一步实验之前的一个标准操作。而在序列分析中,将未知序列同已知序列进行相似性比较是一种强有力的研究手段,从序列的片段测定,拼接,基因的表达分析,到RNA和蛋白质的结构功能预测,物种亲缘树的构建都需要进行生物分子序列的相似性比较。例如,有关病毒癌基因与细胞癌基因关系的研究,免疫分子相互识别与作用机制的研究,就大量采用了这类比较分析方法。这种相似性比较分析方法就称为系列比对(SequenceAlignment)。目前,国际互联网上提供了众多的序列比对分析软件。然而,不同的分析软件会得到不同的结果,同时所使用的参数在很大程度上影响到分析的结果。有时常常会由于采用了不合适的参数而丢失了弱的但却具有统计学显著性意义的主要信息,导致随后的实验研究走弯路。因此,生物信息学中的序列比对算法的研究具有非常重要的理论与实践意义。 序列比对问题根据同时进行比对的序列数目分为双序列比对和多序列比对。双序列比对有比较成熟的动态规划算法,而多序列比对目前还没有快速而又十分有效的方法。一般来说,评价生物序列比对算法的标准有两个:一为算法的运算速度,二为获得最佳比对结果的敏感性或准确性。人们虽已提出众多的多序列比对算法,但由于问题自身的计算复杂性,它还尚未得到彻底解决,是 收稿日期:2007-11-25 基金资助:南昌航空大学校自选(EC200706086) 作者简介:张永(1977-),男,硕士,辽宁铁岭人,南昌航空大学计算机学院讲师,研究方向:生物信息学、信息处理;王瑞(1977-),男,江西大宇职业技术学院外语系助教。

时间序列相似性度量

讨论一般时间序列相似的度量方式 1、概念: 时间序列的相似性度量是衡量两个时间序列的相似程度的方法。它是时间序列分类、聚类、异常发现等诸多数据挖掘问题的基础;也是时间序列挖掘的核心问题之一。 2、意义: 时间序列式进行序列查询、分类、预测的基本工作,寻求一种好的度量对提高挖掘任务的效率和准确性有着至关重要的意义。 3、影响因素: 两个序列是否相似,主要看它们的变化趋势是否一致。由于时间序列数据的复杂性特点,实际中不可能存在两条完全相同的时间序列,即使相似的时间序列往往也会呈现出各种各样的变化。所以,任何两个序列之间都存在着某种差异,影响这种差异的主要因素有: (1)噪声:现实的大多数时间序列数据都存在噪声,体现在图形上式指数据的曲线不光滑,即存在“毛刺”。 (2)振幅平移:即两条形态相似的时间序列分别绕高低不同的均值波动。(3)振幅伸缩:即两条时间序列的变化趋势相同,但其中一条时间序列在纵轴上似乎被拉伸或者压缩过一样,即两个序列的振幅不同。 (4)时间轴伸缩:是指两条时间序列的波形相似,但其中一条时间序列在时间轴上按比例伸缩。 (5)线性漂移:是指两条时间序列的波动节奏相似,但其中一条时间序列呈现线性递增或递减趋势。 (6)不连续性:是指两条时间序列整体的波动趋势相同,只是在别的时间点或段出现间断。

然而,在实际应用中情况要复杂得多,往往是以上多种因素交织在一起。时间序列的相似性并没有一个客观的定义,具有一定的个人偏好性,也就是说,不同的人或不同的应用场合对各种差异影响的重视程度是不一样的。给定两条时间序列 {}12,,....,n X x x x =和{}12=,,....m Y y y y ,相似性度量的问题就是在各种各样差异因素的影响下,寻求一个合适的相似性度量函数(),Sim X Y ,使得该函数能很好地反映时间序列数据的特点。 4、方法:目前时间序列相似性度量,最常用的有Minkowski 距离和动态时间弯曲。 一、Minkowski 距离 给定两条时间序列{}{}1 212....=....n n X x x x Y y y y =和 它们之间的Minkowski 距离如下: ()11,n p p i i i d X Y x y =??=- ???∑ Minkowski 距离是一种距离度量,因为它满足距离的三个条件: (1) 非负性:()(),0,,,0d X Y X Y d X Y ≥==当且仅当; (2) 对称性:()(),,;d X Y d Y X = (3) 三角不等式:()()(),,,d Y Z d X Y d X Z ≤+ 大多简单的相似性度量是Minkowski 距离及其它的变种,Minkowski 距离的优点是简单、直观且计算复杂度不高,与时间序列的长度成线性关系即序列长度的增加不会造成计算复杂程度的迅速提高。所以当训练集比较大时,Minkowski 距离比其他更有效。但是Minkowski 距离不支持时间序列的线性漂移和时间弯曲,且无法处理不等长的时间序列。

时间序列相似性度量的研究

《时间序列相似性度量的研究》读书笔记 一、文章主要内容 时间序列的相似性度量是时间序列数据挖掘研究中的一个重要问题,是进行序列查询、分类、预测的一项基础工作。寻求一种好的度量对提高挖掘任务的效率和准确性有着至关重要的意义。目前从事这方面的研究除了少许理论论述外,几乎都采用一种固定的方法,即提出具体要求并提供实验数据。然而,大多数实验方法不是使用范围有限就是侧重点不同。为了提供一个比较全面的实验验证,用INN分类算法进行了大量的时间序列交叉验证实验。重新评估了其中的弹性度量,并使用不同应用领域的28个时间序列数据集进行比较,结果表明,该方法具有更高的准确性。 二、文章重点内容 1、时间序列的相似性度量 时间序列的相似性度量是时间序列数据挖掘研究中的一个重要问题,能反映数据中基本的相似性,这一点为时间序列的相似性检索、分类、预测等尤其可取。因此合理的相似性度量能够提高数据挖掘的有效性和准确性。 目前时间序列相似性度量,最常用的有欧氏距离(ED)和动态时间弯曲(DTW)。其它许多度量及它们的扩展已被广泛引用到文献和用于便利查询处理和时间序列数据挖掘。本文根据降维和压缩的方法定义距离度量。保证约简后的距离小于或等于原数据的真实距离。即满足无漏报原则,就是要求数据表示满足条件:DF(q,s)≤D(q,s),其中:q是查询序列;s是数据集中的任意序列;是约简空间中的两序列距离;D是真实的两序列距离。 2、DTW DTW允许时间序列的延伸或压缩,查找结果要优于ED。而且可采用下界函数加速查找速度。带有动态窗口的时间弯曲s,不仅能提高计算效率而且能提高相似性测量精度。

另一组时间序列的相似性度量是在编辑距离概念的基础上形成的。它的思想是两个序列越相似,则将其中的一个序列通过插入、删除等操作变换成另一个序列所要做的功就越少。它们为时间序列的匹配定义了一系列操作及一个衡量这些操作所需的代价函数,事件序列间的相似距离就可以定义为将一个序列变换为另一个序列所需要操作的代价之和。然后,通过动态变换来计算编辑距离。最好的是LCSS,它利用最长公共子序列模型,适应设置的时间序列匹配字符的概念。阈值参数8已知,如果它们的距离少于£。说明两个时间序列的两个点是匹配的。EDR是基于编辑距离的另一个相似性度量.和LCSS相比,EDR也用了一个阈值参数8,参数的作用是量化一对点0或1之间的距离。EDR根据空白的长度增强数据率.分配两个匹配部分间的差距。ERP距离包括了DTW 和EDR的优点。通过连续变化的参考点计算两个时间序列差距的距离。实质上,如果两个点之间的距离太大,ERP简单使用这些点中的一个和参考点计算之间的距离值。最近,计算编辑距离的一种新方法在文献『9] 4、数据世系分类 按照数据世系包含的数据源类型不同,数据的世系可分为在不同数据源间的数据演化过程和相同数据源内部数据的演化过程,即模式级和实例级数据演化过程。 (1)模式级数据世系:异构数据源间的数据共享问题一直是数据集成的核心问题之一。不同模式的数据源间进行的数据演化过程是数据集成的关键部分,由于不知道数据的具体形式从而无法标注数据项的世系,只能利用模式级数据问的对应关系追踪数据在不同模式间的演化过程。 (2)实例级数据世系:用户通过查询所有可能的映射关系,找到模式级数据的世系,想要获取更细粒度的世系,还需要在某数据源内部考察数据的演化过程,即实例级数据的世系。和模式级数据的世系不同,实例级的数据项可以被显式地表达出来,通过对数据进行标注得到更细粒度的数据世系。 5、数据世系的应用 在科学数据管理、商业应用等领域,特别是在分布式环境下,数据世系的管理获得了一些成果,R. Bose将数据处理过程分为以下几种方式:基于脚本或程序运行的、基于查询的、基于工作流管理系统的和基于服务的方式。 下表是典型的世系研究项目:

核酸、氨基酸序列和蛋白质二级结构之间关系的探究

核酸、氨基酸序列和蛋白质二级结构之间关系的探究 马鹏,王联结 陕西科技大学生命科学与工程学院,陕西咸阳(712081) E-mail:04mapeng@https://www.doczj.com/doc/552775978.html, 摘要:核酸序列中是否存在蛋白质空间结构信息?根据通常情况下遗传密码表中密码子中间位的碱基配对时产生的氢键数目,尝试将20种氨基酸划分为两类,并用自编的计算机软件对蛋白质二级结构数据库中两类氨基酸的类聚现象进行了统计分析。结果表明,使用这种方法对氨基酸进行划分后,氨基酸残基具有较大概率与划入同一类的氨基酸残基相邻出现,并且这种聚集体对二级结构具有一定的偏好性。 关键词:核酸,氨基酸序列,二级结构,预测 1. 引言 过去的几十年中,出现了多种多样的蛋白质二级结构预测方法。其中一部分,也是最早出现的,后来出现低谷的研究方法是统计序列中氨基酸残基对结构的倾向性[1~3]。但近年来,通过氨基酸序列预测蛋白质二级结构的研究又有复苏。长期以来,人们也试图通过分析核酸序列找到蛋白质空间结构的信息,例如从氨基酸的密码子出发来研究序列和结构之间的关系[4~6]。对氨基酸残基聚集体的研究也有报道[3,7~9]。本文根据氨基酸密码子和反密码子配对时中间位碱基之间正常情况下形成的氢键数目(以下简称为氢键数法)的不同对氨基酸残基进行了重新分类,并对分类后可能在蛋白质序列中存在的类聚现象(同一类氨基酸残基的连续分布)做了初步研究。 2. 方法 2.1 氢键数方法 根据20种氨基酸三联密码子中间位的碱基在正常情况下能够形成的氢键数目为2或3的不同,将20种氨基酸分为两大类,其中:第一类氨基酸残基包括A、G、C、T、P、R、S和W;而第二类包括D、E、F、I、K、L、N、Q、V、H、Y和M。 2.2 数据库 选用DSSP数据库,并使用相似性小于25%的蛋白质选择列表,最后取得了923个非同源蛋白质数据。在DSSP二级结构8态分类到3态分类转换中借鉴前人工作采用如下划分:α螺旋h(H,G,I),β折叠e(E)和卷曲c(B,T,S,C)。将B结构划入卷曲中是因为它作为一个独立的连接键,很难被认为是一种规则结构[3]。再将3种二级结构按照其是否属于规则结构划为两大类:第一类为非规则结构(c);第二类为规则结构(h,e)。 2.3 统计方法 根据氢键数方法将氨基酸分类后,为了研究这种分类方法在蛋白质二级结构预测中的应用意义,我们进行了一些统计计算。早期观察表明,分类后某些氨基酸残基在一些蛋白质中具有类聚倾向。那么这种类聚是否在蛋白质中具有普遍性?在不考虑二级结构的情况下,对蛋白质中类聚出现概率的统计给这个问题做出了衡量。类聚的出现如果有相当大的可能性,对类聚和蛋白质二级结构之间对应关系的研究则是必要的。这种对应关系的研究包括两个方面:类聚中的残基是否具有特定的二级结构;具有特定二级结构的氨基酸残基是否处于特定的类聚中。 在不考虑二级结构情况下,统计出处于类聚的残基数量N,该数值与残基总数N t的比值P作为衡量类聚现象是否具有普遍性的统计量,表示一个氨基酸残基处于类聚的概率,有:P=N/N t

生物信息学考试复习

——古 A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 同源性:两个基因或蛋白质序列具有共同祖先的结论。13.

实验2 序列查询(Entrez)、BLAST序列相似性搜索

实验二:序列查询(Entrez)、BLAST序列相似性搜索 实验目的: 1.学会用Entrez系统查找目标序列 2.学会使用BLAST在数据库中搜索相似序列 3.学会分析数据库搜索结果 实验内容: 一、Entrez Entrez是一个由NCBI创建并维护的基于Web界面的综合生物信息数据库检索系统。用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。 网址:https://www.doczj.com/doc/552775978.html,/Entrez/(或在NCBI主页默认All Databases时点击搜索框右边的Search进入)。如Figure 2.1所示: Figure 2.1 entrez 检索系统子数据库 点击搜索框右边的help按钮,即可进入Entrez帮助页面。 在搜索栏输入你要查找的关键词,点击“GO”即可开始搜索。如果输入多个关键词,它们之间默认的是“与”(AND)的关系。 Tips:搜索的关键词可以是一个单词,短语,句子,数据库的识别号,基因名字等等,但必须明确,不能是“gene”, “protein”等没有明确指向的词语。但“transcription factor”这样有一定范围的词是可以接受的。可以用你感兴趣的领域的专业术语,也可以是非专业术语,比如:h1n1,lung cancer,albinism; subtilism, peroxidase, myoglobin。  输入关键词,点击“GO”之后,每个数据库图标前方出现了数字,代表的是在相对应的数据库里搜索到的条目数。点击进入对应的数据库,可以查看搜索到的条目。如果在数据库图标前面为灰色,显示“none”,说明在对应的数据库里没有搜索到任何结果。

生物信息学名词解释

名词解释: Consensus sequence:共有序列,指多种原核基因启动序列特定区域内,通常在转录起始点上游-10及-35区域存在一些相似序列。 1、FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 2、Similarity相似性:是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。 3、genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 4、模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。 5、查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。 6、打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。 7、空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 8、PDB:PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。 9、Prosite:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE 还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。 10、PIR:是一个集成了关于蛋白质功能预测数据的公共资源的数据库,其目的是支持基因组蛋白质研究。 11、SWLSS—MODE:是目前最著名的蛋白质三级结构预测服务器,建立在已知生物大分子结构基础上,利用同源建模的方法对未知序列的蛋白质三级结构进行预测。 12、空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。13、E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E 值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。 14、点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 15、多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。 16、MEGA:是一款免费的构树软件,它提供了序列比对、格式转换、数据修订、距离计

生物序列比对算法分析与比较

文章编号"#$$#%&’’()*$$’+$,%$*#’%$- 生物序列比对算法分析与比较 钟 诚#.宋 彬* )#/广西大学计算机与电子信息学院.广西南宁(,$$$’0*/中国科学技术大学计算机科学技术系.安徽合肥*,$$*&+ 摘要"序列比对是生物信息学的一个非常重要的操作/它可以预测生物序列的功能1结构和进化过程等/文中首先介绍双序列比对的基本算法0接着分析和比较多序列比对的四个常用模型和三类算法以及并行比对算法0最后.给出一些研究问题/ 关键词"生物信息学0双序列比对0多序列比对0精确算法0近似算法0启发式算法中图分类号"23,$#04-##文献标识码"5 生物信息学是一门综合数学1计算机科学和生物学的交叉学科6#7 / 生物信息学内涵非常丰富.其核心是基因组信息学.包括基因组信息的获取1处理1存储1分配和解释/基因组信息学的关键是8读懂9基因组的核苷酸顺序.即全部基因在染色体上的确切位置以及各:;5片段的功能0 在发现新基因信息之后模拟和预测蛋白质空间结构. 然后依据特定蛋白质的功能进行药物设计/生物序列中的信息在系统进化1生态守恒1疾病控制1病毒起源甚至<=>病毒统计和传播等的研究中是一个非常重要的基本工具6*7 .因此.序列比对是生物信息学的基础/序列比对分为全局比对)?@A B C @5@D E F G H F I +和局部比对)J A K C @5@D E F G H F I +/全局比对要求把一个序列中的所有符号和另一个序列中的所有符号进行匹配比较. 它描述整个序列的相似性/将两个序列进行比对就是双序列比对.它是比较两个生物序列相似性的重要工具/ 这个分析工具已经成功地运用到预测生物序列的结构1功能和进化例程中/随着生物医学中有更多的序列合成出来.人们开始用多序列比对来更好地研究生物序列/将多个序列进行比对就是多序列比对问题.它是一个将不等长的多个序列通过插入空格变成等长的过程.这些位 置上的空格代表着相比较的序列从共同的祖先通过插入L 删除操作的进化过程6,7 / 求解多序列比对问题的算法主要分为精确算法1近似算法和启发式算法三种/ #双序列比对 对于两个长度分别为M 的序列有*M N O M P )*M +Q )M Q +)M Q +R **M S T M 种比对情况.这是一个指数级复杂度的计算问题/#U &$年.;H H V @H G C F 和WX F Y K Z 基于动态规划方法6’7提出了第一个双序列比对算法6(7 #U -*年.?A I A Z 对其做了进一步的改进6[7/A @/*U .;A /, _H m I /.*$$’ ! 收稿日期"*$$’$’*#0修订日期"*$$’$-#& 基金项目"广西自然科学基金)桂科自$,,U $$-+0国家-[,计划)*$$#55###$’#+作者简介"钟诚)#U [’+. 男.广西桂平人.广西大学教授.博士/万方数据

有关信号卷积的相似性概念

有关信号卷积的相似性概念 02094025 陈亚杰 摘要 本文主要研究的是离散信号的相似性。本文阐述了信号卷积和信号相关的概念,通过比较,可以用信号卷积来判断信号的相关性即本文所说的相似性。本文还利用向量内积投影来说明相似性,最后用matlab 语言对本文提出的相似性进行仿真分析。 1.引言 卷积方法在信号与系统理论中占有重要地位。这里所要讨论的卷积积分是将输入信号分解为众多的冲激响应之和(这里是积分)。在LTI (Linear Time Invariant )系统中的零状态响应是激励与系统的冲击响应的卷积积分。为比较信号与另一延时信号之间的相似程度,需引入相关函数的概念。相关函数是鉴别信号的有力工具,被广泛应用于雷达回波的识别,通信同步信号的识别等领域。本文分四章讨论,第二章将给出所需要的数学工具的说明,并介绍本文方法。第三章给出实验仿真。最后一章是对本文的一个总结。 2.理论 在向量中为了表示两向量的相似性,可以用向量的内积来说明 设存在两个向量,分别为a,b.其在平面为: 两向量的相关性就看夹角的大小,如果两个向量平行说明两个向量最相似。如果两个信号垂直说明两个向量相似性差。用公式表示为:>=<=θ 我们只通过角度判断其相似性,但当角度一定,长度发生变化时他们的相似程度明显不一样,所以我们通过下面的公式计算。 ) ||,|max (|cos ||||)||,|max (|,2222b a b a b a b a R θ=><=

这样我们就可以将两个非零向量的相似程度给表示出来。 因为不存在信号幅度为负值的信号,所以信号的相似性我们定义其在[0,1]间取值,所以 |) ||,|m ax (|cos ||||||)||,|m ax (|,|2222b a b a b a b a R θ=><= 卷积与傅里叶变换有着密切的关系。利用一点性质,即两函数的傅里叶变换的乘积等于它们卷积后的傅里叶变换,能使傅里叶分析中许多问题的处理得到简化。一般而言,给定两函数f1(t),f2(t),则积分 为f1(t)和f2(t)的卷积,常表示为 f(t)=f1(t)*f2(t) 而dt t f t f dt t f t f R )()()()()(212112τττ+=-=?? ∞∞-∞∞- dt t f t f dt t f t f R )()()()()(12 1221τττ+=-=??∞∞-∞ ∞- 如果上式两个函数的积分存在,我们将其称为)(1t f 和)(2t f 的互相关函数。 由式可见,互相关函数是两信号之间的时间差τ的函数。其值越大表明这两信号经过时移τ之后的相似程度越大。其离散形式为: )()()()()(212112k f n k f n k f k f n R k k +=-=∑∑∞ ∞-∞∞ - )()()()()(121221k f n k f n k f k f n R k k +=-=∑∑∞∞ -∞∞- 由卷积的性质可知,上式可写为: )(*)()(2112t f t f R =τ, )(*)()(1221t f t f R =τ; )(*)()(2112k f k f n R =, )(*)()(1221k f k f n R =; ()()()()ττ-τ=?∞ ∞-d t f f t f *t f 2121

生物信息学分析方法

核酸和蛋白质序列分析 蛋白质, 核酸, 序列 关键词:核酸序列蛋白质序列分析软件 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(https://www.doczj.com/doc/552775978.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST (https://www.doczj.com/doc/552775978.html,/BLAST/)。以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。 (1)BLAST和FASTA FASTA(https://www.doczj.com/doc/552775978.html,/fasta33/)和BLAST (https://www.doczj.com/doc/552775978.html,/BLAST/)是目前运用较为广泛的相似性搜索工具。这两个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著

相关主题
文本预览
相关文档 最新文档