2019精选医学第二章、生物分子数据库.ppt
- 格式:ppt
- 大小:4.20 MB
- 文档页数:80
第4章生物分子数据库国际上已建立起许多公共生物分子数据库,包括基因组图谱数据库、核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库等。
这些数据库由专门的机构建立和维护,他们负责收集、组织、管理和发布生物分子数据,并提供数据检索和分析工具,向生物学研究人员提供大量有用的信息,最大限度地满足他们研究和应用的需要,为他们的研究服务。
4.1 引言建立生物分子数据库的动因是由于生物分子数据的高速增长,而另一方面也是为了满足分子生物学及相关领域研究人员迅速获得最新实验数据的要求。
生物分子信息分析已经成为分子生物学研究必备的一种方法。
如果说理论分析和算法模拟是生物信息学实验方法的话,那么来自于具体实验的原始数据和来自于数据库的数据则是生物信息学的实验材料。
数据库及其相关的分析软件是生物信息学研究和应用的重要基础,也是分子生物学研究必备的工具。
从数据库使用的角度来看,公共生物分子数据库应满足以下5个方面的主要需求:(1)时间性对于新发表的数据,应该能够在很短的时间内(几个小时至几天)通过国际互连网访问。
(2)注释对于每一个基本数据(如序列),应附加一致的、深层次的辅助说明信息。
(3)支撑数据在有些情况下,数据库使用者需要得到原始的实验数据,因而要提供访问原始数据的方法。
数据库中应包含原始数据,或者能够通过交叉索引访问实验数据库中的原始数据。
(4)数据质量必须保证数据库中数据的质量,数据库管理机构应对数据来源进行检查,并且关注数据库用户和专家提出的意见。
(5)集成性三种基本生物分子数据库(核酸序列、蛋白质序列、蛋白质结构)的集成对于用户来说是非常重要的。
对于数据库中的每一个数据对象,必须与其它数据库中的相关数据联系起来,这样可以从某些分子数据出发得到一系列的相关信息。
例如,从某个核酸序列出发,通过交叉索引,可进一步得到对应的基因、蛋白质序列、蛋白质结构,甚至得到蛋白质功能的信息。
分子生物学研究领域虽各有重点,但是研究对象之间存在着密切的联系,比如DNA序列与蛋白质序列之间的联系,基因调控信息与基因表达数据之间的联系。
第二章 分子数据库生物信息学涉及的数据库可大致分为二种:初级数据库和二级数据库。
初级数据库贮存原始的生物数据,如DNA序列,由晶体衍射(Crystallography)获得的蛋白质结构等。
二级数据是在初级数据库的基础上经加工和增加相关信息,使它们更便于特定专业人员的使用,如真核生物启动子序列库EPD和蛋白质一般结构或功能模体(motif)数据库PROSITE。
一个数据库记录(entry)一般由两部分组成:原始序列数据和描述这些数据生物学信息的注释(annotation)。
注释中包含的信息与相应的序列数据同样重要和有应用价值,这一点值得注意。
在基因组规模上的测序过程便产生了注释问题。
对于那些从自动测序仪中出来的序列,我们往往只知道它们来自何种细胞类型,而其它方面却知之甚少。
如果你在确定一段未知蛋白质序列的功能,发现一个与之匹配的序列,但该序列却没有任何有关功能的信息时,你的研究工作便很难为继了。
不同的数据库的注释质量差异很大,因为一个数据库往往要在数据的完整性和注释工作量之间寻找一个平衡点。
一些数据库提供的序列数据很广,但这必影响序列的注释;相反,一些数据库数据面较窄,但它提供了非常全面的注释。
数据库记录的注释工作是一个动态过程,新的发现不断被补充进去,所以,本书中用到的一些注释信息可能很快便被更新了。
在所有的生物信息数据库中总会有一小部分的记录(包括原始序列数据和注释)是不正确的,这是一个无法避免的事实。
第一节 初级数据库一.DNA数据库DNA序列构成了初级数据库的主体部分。
目前国际上有3个主要的DNA序列数据库(表 2.1):欧洲分子生物学实验室(European Molecular Biology Laboratory, EMBL)(位于英国剑桥),GenBank[美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI),该中心隶属于美国家医学图书馆,位于美国家卫生研究院(NIH)内]和日本DNA数据库(DNA Databank of Japan,DDBJ)。