分子生物学数据库
- 格式:ppt
- 大小:3.98 MB
- 文档页数:127
分子生物学数据库——计算生物学的摇篮1995年,嗜血杆菌的基因组DNA信息被破解,它具有1700感染基因,人类终于揭开了这一导致继流感之后第二大传染病的细菌的神秘面纱;随后在1996年,酵母基因组DNA全部的6300个基因被测序出来,为后续的研究提供了极大的方便;1998年,人类获得了第一个多细胞生物——线虫的基因组,了解到它含有19100个基因,其中1/3基因与哺乳动物的相似,这预示了我们可以将线虫当作一种模式生物;1999年,果蝇的基因组信息被破解,它有13600个基因,虽然果蝇的拥有的细胞数是线虫的1000被,体积也比线虫大,但是它具有的基因数却少于线虫,这暗示着染色体上有些区域的基因没有直接被翻译成蛋白质的,而有些基因却在转录和翻译过程中编码了多个蛋白质;2000年,荠菜的基因组DNA被测序出来,它有25500个基因,许多基因都具有重复序。
人类基因组计划启动与1990年,到2003年,99.9%的人类基因都被精确地绘图,这其中也含有大量的冗余序列。
在获得了如此多的核算信息后,大量的蛋白质信息也随之可以获得,蛋白的种类、二级或者三级结构、翻译后加工、蛋白质间的相互作用等等。
针对上面提到的大量信息,如果用传统的方法来收集、存储、分析,将会是一个浩大的工程,并且,在这旷日持久的工程中,很可能漏掉了许多重要的、未知的信息。
在美国最初提出人类基因组计划时,成立了一个由42位专家组成的生物信息研究小组,专门处理获得的相关信息。
随着信息的积累,生物学的发展,以及数学、物理、计算机科学的不断渗入,用计算机作为手段,参考数学、统计学、物理等学科的研究方式,将会大大降低人类的工作量,同时更系统,更全面,更快速,更准确的分析已有的数据。
在此背景下,计算生物学和生物信息学应运而生。
计算生物学和生物信息学都属于基于基因组学的交叉学科,二者之间没有一个严格的界限。
总的来讲,计算机生物学和信息生物学都是应用数学的和计算机的科学方法来处理分子生物学的问题,这些问题常常需要海量的数据,计算和分析。
第4章生物分子数据库国际上已建立起许多公共生物分子数据库,包括基因组图谱数据库、核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库等。
这些数据库由专门的机构建立和维护,他们负责收集、组织、管理和发布生物分子数据,并提供数据检索和分析工具,向生物学研究人员提供大量有用的信息,最大限度地满足他们研究和应用的需要,为他们的研究服务。
4.1 引言建立生物分子数据库的动因是由于生物分子数据的高速增长,而另一方面也是为了满足分子生物学及相关领域研究人员迅速获得最新实验数据的要求。
生物分子信息分析已经成为分子生物学研究必备的一种方法。
如果说理论分析和算法模拟是生物信息学实验方法的话,那么来自于具体实验的原始数据和来自于数据库的数据则是生物信息学的实验材料。
数据库及其相关的分析软件是生物信息学研究和应用的重要基础,也是分子生物学研究必备的工具。
从数据库使用的角度来看,公共生物分子数据库应满足以下5个方面的主要需求:(1)时间性对于新发表的数据,应该能够在很短的时间内(几个小时至几天)通过国际互连网访问。
(2)注释对于每一个基本数据(如序列),应附加一致的、深层次的辅助说明信息。
(3)支撑数据在有些情况下,数据库使用者需要得到原始的实验数据,因而要提供访问原始数据的方法。
数据库中应包含原始数据,或者能够通过交叉索引访问实验数据库中的原始数据。
(4)数据质量必须保证数据库中数据的质量,数据库管理机构应对数据来源进行检查,并且关注数据库用户和专家提出的意见。
(5)集成性三种基本生物分子数据库(核酸序列、蛋白质序列、蛋白质结构)的集成对于用户来说是非常重要的。
对于数据库中的每一个数据对象,必须与其它数据库中的相关数据联系起来,这样可以从某些分子数据出发得到一系列的相关信息。
例如,从某个核酸序列出发,通过交叉索引,可进一步得到对应的基因、蛋白质序列、蛋白质结构,甚至得到蛋白质功能的信息。
分子生物学研究领域虽各有重点,但是研究对象之间存在着密切的联系,比如DNA序列与蛋白质序列之间的联系,基因调控信息与基因表达数据之间的联系。
分子生物学相关数据库Entrez由NCBI开发的一个数据库检索系统,它综合了下述各大数据库的信息,包括核酸、蛋白以及Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。
因此,可以从一个序列查询到蛋白产物以及相关的结构、功能和文献信息,详见NCBI(美国国立生物技术信息中心) 简介。
EBI欧洲生物信息学研究所(European Bioinformatics Institute,EBI)是EMBL的分部,位于英国Hinxton 的Wellcome Trust Genome Campus。
EBI维护和发布的数据库:✓EMBL核酸数据库、欧洲原始核酸数据资源库✓SwissProt蛋白质序列数据库[与瑞士生物信息学协会(Swiss Institute for Bioinformatics,SIB)的Amos Bairroch合作]✓TrEMBL(SwissProt的附属数据库,由EMBL数据库编码序列翻译而来的蛋白质序列数据库)✓分子结构数据库(Molecular Structure Database,MSD)[与Brookhaven 国家实验室(纽约)的蛋白质三维结构数据库(Protein Data Bank,PDB)合作]✓放射杂交数据库(Radiation Hybrid database,RHdb)✓其他组织合作产生的分子生物学数据库:EBI还提供网络服务,通过互联网、其WEB界面和FTP服务器可以访问最新收集到的数据,同时也提供数据库和序列相似性的搜索工具。
核酸数据库:GenBankGenBank是NIH的基因序列数据库,由美国国立卫生研究院全国生物技术信息中心(NCBI)建立并维护,是所有公开的DNA序列的集合( Nucleic Acids Research 1998 Jan 1;26(1):1-7),GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献,是世界上的权威序列数据库。
生命科学中最常用的5个数据库介绍生命科学是一个庞大而复杂的学科,其中包含了关于生命现象的各种研究。
对于生命科学的研究,特别是在分子水平上进行的研究,需要大量的数据支持。
这些数据包括分子序列、蛋白质结构、代谢途径等等。
为了有效地管理这些数据,生命科学中广泛应用了各种数据库。
本文将介绍生命科学中最常用的5个数据库。
1. GenBankGenBank是全球最大的分子生物学数据库,包含了全球各地实验室提交的DNA和RNA序列。
它由美国国家生物技术信息中心(NCBI)维护。
GenBank包含了数十亿条序列记录,其中包括了不同物种的基因组、蛋白质序列、DNA和RNA序列等。
与DNA和RNA序列相关的信息包括序列长度、基序、带电的特殊域、结构域、转录因子结合位点以及其他数据。
GenBank还包含了元数据,如物种和菌株的信息、文献引用以及序列的提交日期。
2. PubMedPubMed是美国国家医学图书馆(NLM)维护的一个生命科学文献数据库,包括了生命科学、医学和健康相关的数百万篇论文。
PubMed提供了对文献的全文搜索和存储,使科学家在查找特定话题时更加方便。
除了搜索全文的功能,PubMed还提供了很多额外的服务,如翻译摘要、相关文章推荐、绘制图表等。
3. EnsemblEnsembl是一种数据库、搜索引擎和分析平台,专门用于处理各种生命科学的数据。
Ensembl已经成为了全球最大的基因组数据库之一,包含了人类、其他哺乳动物、鸟类、篮球、双子蝎、无脊椎动物等近700个物种的基因组信息。
Ensembl提供的数据包括生物序列、调控区域、基因家族、基因结构、基因组的变异和基因表达信息等。
4. Protein Data Bank (PDB)蛋白质数据银行(PDB)是一个三维蛋白结构数据库,由改华大学、美国罗格斯大学和欧洲生物信息研究所等机构共同维护。
PDB存储了全球各地实验室提交的蛋白质晶体结构和生化分析,包括了大多数已知的蛋白质家族和酶。
1995年,流感嗜血杆菌的基因组DNA信息被破解,它具有1738个ORF,其中包含1473个具有重要功能的基因。
人类终于揭开了这一导致继流感之后第二大传染病的细菌的神秘面纱;随后在1996年,酵母基因组DNA全部的6500个基因被测序出来,这是第一个完成测序的真核生物完整基因组;从1980年代中期开始的线虫基因组测序工作,于1998年完成,这是人类获得了第一个多细胞生物的基因组,了解到它含有19100个基因,并发现其中的1/3基因与哺乳动物的相似;2000年,果蝇的基因组信息被破解,它有13600个基因。
通过基因序列比对,发现289个与人类疾病有关的基因中的60%在果蝇中找到了相近的匹配序列。
这意味着果蝇将是一种很好的研究人类疾病的模式生物;2000年,拟南芥的基因组DNA被测序出来,它有1.16亿个碱基对,编码大约26000个基因。
2002年,由中国科学家主持并完成了水稻基因组测序任务,研究结果表明水稻基因组仅有约4.4亿碱基对,编码32000个基因。
启动于1990年的人类基因组计划,到2003年其99.9%的人类基因组序列都被精确地绘图。
在获得了如此多的核酸信息后,包括蛋白的种类、二级或者三级结构、翻译后加工、蛋白质间的相互作用等等蛋白质信息也可以随之获得。
面对如此大量的信息,如果用传统的方法来收集、存储、分析,将会是一个浩大的工程,并且,在这旷日持久的工程中,很可能漏掉了许多重要的、未知的信息。
随着信息的积累,生物学的发展,以及数学、物理、计算机科学的不断渗入,用计算机作为手段,参考数学、统计学、物理等学科的研究方式,将会大大降低人类的工作量,同时更系统,更全面,更快速,更准确的分析已有的数据。
在此背景下,生物信息学应运而生。
该学科应用数学的和计算机的科学方法来处理海量的生物学数据并进行计算和分析。
主要工作包括生物学信息的采集、储存、分析处理和可视化等方面。
第一章生物分子数据库如今,生物信息学已成为生命科学最为活跃的研究领域之一。
分子生物学信息中心及其数据库生物分子数据库可以分成一级数据库和二级数据库两大类:一级数据库:数据库中的数据直接来源于实验获得的原始资料,只经过简单的归类整理和注释。
二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
世界上主要的分子生物学信息中心与它们的数据库介绍:现阶段建立的分子数据库种类繁多,内容广泛;并且随着网络技术的普及,分子生物学信息系统大都实现了网络化;数据库中的信息量也呈爆炸性的增长;数据库的相关数据操作算法也不断增加。
随着分子生物学实验的高速增长和分子生物学及相关领域研究人员迅速获得最新实验数据,迫切需要建立一些生物分子的数据库。
1、欧洲分子生物学实验室EMBL欧洲分子生物学实验室EMBL(The European Molecular Biology Laboratory)于1974年由欧洲14个国家加上亚洲的以色列共同建立,包括一个核心实验室——德国的Heidelberg实验室,三个研究分部——德国的Hamburg,法国的Grenoble及英国的Hinxton。
由于有开发和创新的良好的学术氛围,已发展成欧洲最重要和核心的分子生物学基础研究机构。
其研究主要集中在以下几个方面:-生化实用技术质谱分析(Mass Spectrometry)等。
-细胞生物学(Cell Biology),研究细胞膜上蛋白和脂肪的分布系统,包括膜运输、微管网络、细胞核及细胞周期,焦点是Rab 蛋白。
-细胞生物物理(Cell Biophysics)重点是理论创新和实际应用的结合研究,尤其是光学显微镜的完善使用。
-分化(Differentiation)集中研究果蝇的早期发育。
-基因表达(Gene Expression),研究基因信息传递到蛋白质信息的过程,尤其是核糖体合成在整个细胞生命过程中的重要作用。
-结构生物学(Structure Biology),在过去9年中建立了cDNA 测序技术,生物计算,蛋白工程、晶体学、电子显微镜(EM)及核磁共振(NMR),研究分子是肌肉巨型蛋白分子Titin。
NCBI分子生物学数据库网络生物医学1. 引言生物医学研究的进展离不开大量的数据资源和分析工具的支持。
NCBI (National Center for Biotechnology Information) 是一个旨在促进生物信息学和分子生物学研究的重要组织。
它提供了多个分子生物学数据库,这些数据库存储了大量的生物信息学数据,并提供了丰富的分析工具,以帮助科学家进行生物医学研究。
本文将介绍一些常用的NCBI分子生物学数据库及其在网络生物医学研究中的应用。
2. NCBI基因数据库2.1 GenBankGenBank 是全球最大的基因序列数据库之一,它存储了大量的DNA和RNA序列数据。
研究者可以通过GenBank访问到已被发表的基因序列数据,以及一些未发表的序列数据。
这些数据对于研究基因功能、生物进化以及人类疾病等方面都非常重要。
2.2 RefSeqRefSeq (Reference Sequence) 是一个注释完整的、高质量的基因序列数据库。
与GenBank不同,RefSeq仅收录了经过验证且与蛋白质对应的基因序列,这使得研究者可以更加准确地进行基因结构和功能的研究。
RefSeq还提供了基因组、转录组和蛋白质序列的相关信息。
2.3 dbSNPdbSNP (database of Single Nucleotide Polymorphisms) 存储了人类和其他物种中的单核苷酸多态性数据。
这些多态性位点是基因组中常见的变异,对于人类疾病的研究和个体之间的遗传差异分析非常重要。
dbSNP收集了来自各种来源的单核苷酸多态性数据,包括人类单核苷酸多态性计划 (HapMap) 和千人基因组计划 (1000 Genomes Project)。
3. NCBI蛋白质数据库3.1 UniProtUniProt 是全球最大的蛋白质序列和注释数据库。
它整合了来自不同来源的蛋白质序列数据和相关的注释信息。
UniProt 提供了蛋白质序列、结构、功能、亚细胞定位和表达等方面的详细信息,帮助研究者理解蛋白质的结构和功能。