生物信息数据库
- 格式:doc
- 大小:108.00 KB
- 文档页数:4
生物信息学数据库分类整理汇总生物信息学数据库是存储和管理生物学领域的大量数据的重要工具和资源,对于生物信息学研究、基因组学、蛋白质组学、转录组学等领域的研究具有重要的意义。
本文将对生物信息学数据库进行分类整理和汇总,方便生物信息学研究者更好地使用和了解这些数据库。
1.基因组数据库:- GenBank:美国国家生物技术信息中心(NCBI)维护的基因序列数据库,包含已知基因的核酸序列。
- Ensembl:英国恩格斯尔基因组项目维护的一个综合性基因组数据库,包含多种物种的基因组数据。
- UCSC Genome Browser:加利福尼亚大学圣克鲁兹分校开发的一个基因组浏览器,提供多种物种的基因组序列和注释信息。
2.蛋白质数据库:- UniProt:一个综合性的蛋白质数据库,集成了多个蛋白质序列和注释信息资源。
- Protein Data Bank (PDB):存储大量已解析的蛋白质结构数据的数据库,提供原子级别的结构信息。
- Protein Information Resource (PIR):收集和整理蛋白质序列、结构和功能信息的数据库。
3.转录组数据库:- NCBI Gene Expression Omnibus (GEO):存储和共享大量的高通量基因表达数据的数据库。
- ArrayExpress:欧洲生物信息学研究所(EBI)开发的一个基因表达数据库,包含多种生物组织和疾病的表达数据。
4.疾病数据库:- Online Mendelian Inheritance in Man (OMIM):记录人类遗传疾病和相关基因的数据库。
- Orphanet:收集和整理罕见疾病和相关基因的数据库。
5.代谢组数据库:- Human Metabolome Database (HMDB):一个综合性的人类代谢物数据库,包括代谢产物的结构和功能信息。
- Kyoto Encyclopedia of Genes and Genomes (KEGG):包含多种生物体代谢途径的数据库。
生物信息学中的数据库和计算工具生物信息学是一门综合性学科,应用范围十分广泛。
生物信息学研究的是生物体内的遗传信息的获取、存储、分析和应用。
它结合了生物学、信息学、计算机科学、数学等多个学科,旨在解决生物大数据的存储、分析和挖掘问题。
本文将介绍生物信息学中的数据库和计算工具,以及它们在生物信息学中的应用。
一、生物信息学中的数据库生物信息学中的数据库是受到生物学家和计算机科学家制作和维护的存储和组织生物数据的资源。
这些数据库包括基因组、蛋白质、代谢、信号转导、基因表达谱等生物信息学数据库。
生物信息学中的数据库已经成为研究生物学的常规工具,研究人员可以通过分析数据库中的信息来更好地理解生物学现象。
1. 基因组数据库基因组数据库是生物信息学中最重要的数据库之一。
它存储了各种物种的基因组信息。
基因组数据库的应用包括基因预测、基因注释、基因功能鉴定、基因组进化分析等。
最知名的基因组数据库包括 GenBank、EMBL、Ensembl 等。
其中 GenBank 是最大的公共基因组数据库之一,它由美国国家生物技术信息中心(NCBI)维护。
2. 蛋白质数据库蛋白质数据库是存储蛋白质结构和序列信息的数据库。
其中,PDB是最著名的蛋白质数据库之一,它提供了大量的蛋白质三维结构的信息。
此外,UniProt 是另一重要的蛋白质数据库,它整合了多个独立的蛋白质数据库,提供了关于蛋白质序列、结构和功能的详细信息。
3. 引用数据库引用数据库存储了生物学家在论文、会议和其他出版物中发表的研究结果。
它们经常被生物信息学家用于构建生物信息学算法的基础,并分析特定领域的研究趋势。
PubMed 和 Web of Science 是引文数据库的代表性例子。
二、生物信息学中的计算工具随着数据量的增加和分析复杂度的提高,生物信息学中出现了大量的计算工具用于帮助生物科学家完成各种分析任务。
这些工具包括序列比对、序列拼接、批量序列处理、统计分析、数据可视化、机器学习等。
生物信息数据库的构建和管理研究随着生物学的逐步深入,越来越多的生物信息需要进行收集、整合和存储。
生物信息数据库的构建和管理成为了一个备受关注的领域。
它们不仅可以为科学研究提供重要的数据资料,同时也可以为学术交流和产业应用做出极大的贡献。
一、生物信息数据库的意义生物信息数据库是为研究生命科学而建立的集合性资料库,它是一个备受科学研究者和医学工作者欢迎的资源。
生物信息数据库可以用来存储和共享不同组织和实验室中的实验数据、观测结果和分析结果。
利用生物信息数据库,研究者们可以更方便的共享数据、访问信息,并且能够开展更高水平的数据挖掘和分析工作,从而推进生物学和医疗健康领域的变革和进步。
二、生物信息数据库构建的几个关键步骤生物信息数据库的构建是一个繁琐且复杂的过程。
具体来说,它包括了以下几个关键步骤:1、收集数据构建生物信息数据库的第一步是收集数据。
需要的数据可能来自于实验室、病理数据、临床测试数据或者电子医疗记录等不同的来源,需要考虑到收集到的数据是否有价值、可靠和完整,确保它们可以用于后续的数据分析和挖掘。
2、清理数据在收集数据之后,需要进行数据的清理。
数据清理的作用是去除错误、重复和缺少的数据,以确保数据的质量和完整性。
同时,还需要对数据进行转化,使其适合于不同的数据模型和数据存储结构。
3、建立数据库在数据清理之后,需要建立一个稳定可靠的数据库。
要确保数据库的数据模型、数据存储结构和扩展性能够与未来可能出现的需求相适应。
同时还需要考虑到数据库的性能需求和安全性。
4、填充数据库建立好数据库之后,需要将数据填充进去。
这个过程需要借助于数据导入和数据迁移工具,确保数据的顺利导入和转换。
在数据填充的过程中,还需要进行数据验证和数据校准,以确保数据的准确性和实用性。
5、实现数据分析与挖掘最后,需要实现数据库的数据分析和挖掘功能。
主要包括数据预处理、数据挖掘和数据可视化等方面。
这个过程需要借助于专业的数据分析工具和算法,确保数据分析和挖掘的准确性和结果可信度。
流行病学研究中的生物信息学数据库与资源应用随着科技的不断发展和进步,生物信息学在流行病学研究中的应用变得越来越重要。
生物信息学数据库和资源成为流行病学研究人员的重要工具,可以提供宝贵的数据和信息,帮助研究人员深入了解疾病的发生和传播机制。
本文将详细介绍流行病学研究中常用的生物信息学数据库和资源,以及它们的应用。
一、SNP数据库SNP(single nucleotide polymorphism)数据库是研究流行病学中最常用的数据库之一。
SNP是指基因组中的单个核苷酸变异,可用来研究人与人之间的遗传差异以及遗传变异与疾病之间的关系。
常见的SNP数据库包括dbSNP、HapMap和1000 Genome等。
这些数据库存储了大量的SNP信息,研究人员可通过检索和分析这些数据库中的数据,揭示SNP与疾病的相关性,为流行病学研究提供重要的依据。
二、基因表达数据库基因表达数据库存储了不同组织和细胞中的基因表达水平信息,对于分析疾病的遗传机制和发生发展过程起着重要作用。
常见的基因表达数据库包括Gene Expression Omnibus(GEO)和The Cancer Genome Atlas(TCGA)等。
研究人员可通过这些数据库获取基因在特定组织或疾病状态下的表达水平信息,进一步研究基因与疾病的关联性。
三、蛋白质数据库蛋白质数据库存储了大量的蛋白质序列和结构信息,对于研究疾病的发生机制和蛋白质功能起着重要作用。
常见的蛋白质数据库包括UniProt、Protein Data Bank(PDB)和STRING等。
研究人员可通过这些数据库获取蛋白质的序列、结构和功能信息,揭示蛋白质与疾病之间的关系,为流行病学研究提供有力支持。
四、基因组数据库基因组数据库存储了各种物种的基因组序列信息,为研究物种的遗传特性和基因功能提供了重要数据。
常见的基因组数据库包括GenBank、Ensembl和UCSC Genome Browser等。
生物信息学中常用的数据类型和数据库类型
在生物信息学中,常用的数据类型包括:
1. 基因组序列数据:包括DNA和RNA序列的原始数据,如FASTA格式或FASTQ格式。
2. 转录组数据:包括基因表达谱、剪接变异等,如RNA-seq数据。
3. 蛋白质序列数据:包括蛋白质的氨基酸序列,如UniProt数据库。
4. 基因组结构数据:包括基因位置、外显子、内含子等信息。
5. 遗传变异数据:包括SNP、INDEL、CNV等遗传变异信息。
6. 蛋白质结构数据:包括蛋白质的三维空间结构,如PDB数据库。
在生物信息学中,常用的数据库类型包括:
1. 基因组数据库:如NCBI GenBank、ENSEMBL等,存储基因组序列和注释信息。
2. 转录组数据库:如NCBI SRA、ENA等,存储RNA-seq和其他转录组数据。
3. 蛋白质数据库:如UniProt、Swiss-Prot等,存储蛋白质序列和注释信息。
4. 遗传变异数据库:如dbSNP、ClinVar等,存储遗传变异信息。
5. 蛋白质结构数据库:如PDB、CATH等,存储蛋白质的三维结构信息。
6. 功能注释数据库:如GO数据库、KEGG数据库等,存储基因和蛋白质的功能注释信息。
7. 互作数据库:如STRING数据库、BioGRID数据库等,存储基因和蛋白质之
间的相互作用信息。
常用的生物数据库(二)引言概述:生物数据库是生物信息学领域的重要工具,可以帮助研究人员存储、管理和共享生物数据。
本文将介绍常用的生物数据库(二),以便研究人员更好地利用这些资源进行生物学研究。
正文内容:一、蛋白质相互作用数据库1. STRING数据库:提供蛋白质相互作用预测和注释功能。
2. IntAct数据库:收集整理蛋白质相互作用数据,提供数据检索和分析工具。
3. BioGRID数据库:整合多种物种的蛋白质相互作用数据,并提供丰富的功能注释。
二、基因组数据库1. GenBank数据库:包含大量的序列数据,包括基因组、转录本和蛋白质序列等。
2. ENSEMBL数据库:集成了各种生物信息学工具,提供全面的基因组注释信息。
3. UCSC数据库:基于人类基因组构建的浏览器,提供详细的基因组注释和可视化功能。
三、表达谱数据库1. GEO数据库:收集了大量的基因表达谱数据,可进行数据检索和分析。
2. ArrayExpress数据库:包含了来自各种高通量技术的表达谱数据,提供数据下载和分析工具。
3. TCGA数据库:整合了多种癌症的基因表达数据,可进行差异表达和生存分析等研究。
四、突变数据库1. dbSNP数据库:记录了常见的单核苷酸多态性(SNP)数据,是研究遗传变异的重要资源。
2. COSMIC数据库:专注于癌症相关的突变数据,包含了大量的突变谱系和功能注释信息。
3. ClinVar数据库:整合了与人类疾病相关的遗传变异数据,提供临床相关的注释信息。
五、药物数据库1. DrugBank数据库:收录了大量的药物信息,包括结构、作用机制和药理学数据等。
2. PubChem数据库:提供了大量的小分子化合物数据,可进行化学结构搜索和药物筛选等研究。
3. ChEMBL数据库:整合了化合物活性数据和药物靶点信息,可用于药物发现和优化。
总结:生物数据库为生物学研究提供了丰富的数据资源和分析工具。
蛋白质相互作用数据库、基因组数据库、表达谱数据库、突变数据库和药物数据库是常用的生物数据库之一。
什么是生物信息学数据库
生物信息学数据库是指存储生物学和生物信息学数据的计算机化系统。
这些数据库包含了各种生物学数据,如基因组序列、蛋白质序列、代谢通路、基因表达数据、蛋白质结构、生物图像等。
这些数据可以通过计算机程序进行访问、搜索和分析,以帮助生物学家和生物信息学家进行研究和发现。
生物信息学数据库通常由多个子数据库组成,每个子数据库都包含特定类型的数据。
例如,基因组数据库包含各种生物的基因组序列,蛋白质数据库包含蛋白质序列和结构信息,代谢通路数据库包含代谢通路和代谢产物信息等。
此外,生物信息学数据库还可以用于对生物信息的收集、存储和管理的研究,包括国际基本的生物信息库和生物信息传输国际物联网系统的建立,生物信息数据库质量的评估与检测系统的建立,以及生物可视化系统和专家系统的建立等。
以上信息仅供参考,如有需要,建议查阅相关网站。
医疗研究中的生物信息学数据库与工具在现代医疗领域,生物信息学数据库与工具的应用已经变得越来越重要。
生物信息学数据库与工具是指用于存储、管理和分析生物学数据的软件系统和工具。
这些数据库和工具能够提供生物学研究人员和医学专业人员快速访问、挖掘和分析大规模的生物学数据,以便更好地理解和治疗疾病。
一、生物信息学数据库1. 基因组数据库基因组数据库是存储各种生物体基因组序列的集合。
其中,最著名的基因组数据库是基因组浏览器,如NCBI的GenBank和Ensembl。
这些数据库提供了大量的基因组序列、注释信息和相关的研究数据,为研究人员提供了基因组水平的信息。
2. 蛋白质数据库蛋白质数据库是用于存储蛋白质序列和结构的数据库。
蛋白质序列和结构数据的积累对于理解蛋白质的功能和特性至关重要。
常见的蛋白质数据库包括UniProt和PDB(蛋白数据银行),它们提供了全球各地研究人员所提交的海量蛋白质序列和结构信息。
3. 基因调控数据库基因调控数据库主要用于存储和分析基因调控元件(如启动子、增强子等)的序列和相关信息。
这些数据库对于理解基因的调控机制和功能方面起着重要的作用。
常见的基因调控数据库包括TRANSFAC、JASPAR和UCSC。
二、生物信息学工具1. 序列分析工具序列分析工具用于对DNA、RNA和蛋白质等生物序列进行分析和比对。
其中,最常用的序列比对工具是BLAST(基本局部序列比对工具)。
BLAST可以将输入的序列与已知序列数据库中的相似序列进行比对,快速找到相似序列和亲缘关系。
此外,还有如ClustalW、MUSCLE等多序列比对工具和MEME等序列模式分析工具。
2. 结构预测工具结构预测工具用于预测蛋白质的三维结构。
根据蛋白质序列,可以使用基于比较模型或折叠预测的方法进行蛋白质结构预测。
在比较模型方法中,SWISS-MODEL和Phyre2是常用的工具;而在折叠预测方法中,Rosetta和I-TASSER等被广泛使用。
1. GenbankGenbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。
它是由美国国立生物技术信息中心(NCBI)建立和维护的。
它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量EST序列和其它测序数据;以及与其它数据机构协作交换数据而来。
Genbank每天都会与欧洲分子生物学实验室(EMBL)的数据库,和日本的DNA数据库(DDBJ)交换数据,使这三个数据库的数据同步。
到1999年8月,Genbank 中收集的序列数量达到460万条,34亿个碱基,而且数据增长的速度还在不断加快。
Genbank 的数据可以从NCBI的FTP服务器上免费下载完整的库,或下载积累的新数据。
NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从NCBI的主页上找到这些服务。
Genbank库里的数据按来源于约55,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)。
每条Genbank数据记录包含了对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,以及序列本身。
序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等。
所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件。
(1)Genbank数据检索NCBI的数据库检索查询系统是Entrez。
Entrez是基于Web界面的综合生物信息数据库检索系统。
利用Entrez系统,用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。
Entrez提供了方便实用的检索服务,所有操作都可以在网络浏览器上完成。
生物大数据技术的生物信息学数据库查询方法生物大数据技术的快速发展为生物信息学领域带来了巨大的变革。
生物信息学数据库作为存储和管理生物学数据的重要工具,被广泛应用于生物大数据的分析和挖掘。
在这篇文章中,我将介绍几种常用的生物信息学数据库查询方法,帮助读者利用生物大数据技术更好地进行生物学研究。
首先,我们来讨论最常用的生物信息学数据库之一,基因组数据库。
基因组数据库包含了各种生物的基因组序列信息,如人类、小鼠、果蝇等。
要查询一个特定基因组的序列信息,最简单的方法是利用基因名或基因符号进行搜索。
将目标基因的名称或符号输入数据库的搜索栏,即可获得与该基因相关的详细信息,例如基因的序列、结构、功能等。
另一个常用的生物信息学数据库是序列数据库。
序列数据库存储了各种生物分子序列的信息,如DNA、RNA和蛋白质序列。
在进行DNA或蛋白质序列的查询时,一种常见的方法是使用序列相似性搜索工具,如BLAST(Basic Local Alignment Search Tool)。
BLAST可以比对查询序列与数据库中的序列,找出最相似的序列并计算相似度。
通过BLAST的结果,我们可以了解到查询序列在数据库中的分布情况、物种来源以及与其他序列的相似性。
另外,功能注释数据库也是生物信息学研究中重要的查询工具。
功能注释数据库存储了各种生物分子的功能和特征信息,如基因的功能、通路信息、蛋白质的结构、功能域等。
要查询一个基因或蛋白质的功能信息,可以使用功能注释数据库提供的工具和接口。
输入目标基因或蛋白质的名称或序列,即可获得与该生物分子相关的功能注释信息,例如其参与的通路、功能域和蛋白质结构等。
此外,还有一些特定领域的生物信息学数据库,如药物数据库、代谢通路数据库等。
这些数据库针对特定的生物学问题提供了更加专门化的查询方法和功能。
例如,药物数据库可以用于查询了解药物的化学结构、药理学特性以及在人体中的作用。
代谢通路数据库则可以帮助研究人员深入了解生物体内代谢通路的结构和功能。
生物信息学数据库的种类1.引言1.1 概述生物信息学数据库是由生物学和计算机科学相结合的一个重要领域。
随着高通量测序技术的快速发展, 生物学研究已经进入了“大数据”时代。
生物信息学数据库的出现, 解决了这些海量生物信息的存储和管理问题, 为生命科学研究提供了重要的工具和资源。
生物信息学数据库可以存储和管理各种类型的生物信息数据, 对于科学家和研究人员来说, 这些数据库包含了大量的基因组序列、蛋白质序列、基因表达数据等重要信息。
通过对这些数据的分析和挖掘, 科学家们可以更深入地研究生物体的组成、功能和进化等方面。
在当前的生物信息学数据库中, 可以根据数据类型进行分类。
常见的生物信息学数据库包括序列数据库、结构数据库、基因表达数据库、蛋白质互作数据库、药物数据库、多样性数据库、基因组数据库、疾病数据库和转录因子数据库等。
每种类型的数据库都有其独特的特点和应用领域。
随着生物学研究的不断深入和技术的不断进步, 生物信息学数据库也在不断发展。
未来的数据库将更加注重数据的互联互通, 提供更完整、准确和可靠的生物信息。
同时, 数据分析和挖掘的算法和工具也将不断更新和完善, 为科学家们的研究提供更加强大的支持。
总之, 生物信息学数据库是生物学研究中不可或缺的重要工具和资源。
通过这些数据库, 科学家们可以更加高效地存储、管理和分析生物信息,推动生命科学领域的发展。
未来, 随着生物学研究的不断进步, 生物信息学数据库将不断发展和完善, 为科学家们带来更多的可能性和突破。
1.2 文章结构本文将分为三个部分来详细介绍生物信息学数据库的种类。
首先,在引言部分,我们将提供对本文的概述,介绍生物信息学数据库的基本概念和作用,并说明文章的目的。
接下来,在正文部分,我们将详细介绍九种不同类型的生物信息学数据库,包括序列数据库、结构数据库、基因表达数据库、蛋白质互作数据库、药物数据库、多样性数据库、基因组数据库、疾病数据库和转录因子数据库。
生物信息数据库1生物信息数据库产生背景上个世纪60年代以来,随着核酸序列测定、蛋白质序列测定以及基因克隆和PCR技术的不断发展与完善,全世界各研究机构获得了大量的生物信息原始数据。
面对这些以指数方式增长的数据资源,传统的研究方式已经来不及迅速消化,因此有必要采用有效的方法将它们进行适当的储存、管理和维护,以便进一步分析、处理和利用,这就需要建立数据库即生物信息数据库[1]。
生物信息数据库是一切生物信息学工作的基础。
2生物信息数据库的特点2.1数据库种类的多样性。
生物信息学各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库,蛋白质序列数据库,蛋白质、核酸、多糖的三维结构数据库,基因组数据库,文献数据库和其他各类达数百种。
2.2数据库的更新和增长快。
数据库的更新周期越来越短,有些数据库每天更新。
数据的规模以指数形式增长。
2.3数据库的复杂性增加、层次加深。
许多数据库具有相关的内容和信息,数据库之间相互引用,如PDB就与文献库、酶学数据库、蛋白质二级数据库、蛋白质结构分类数据库、蛋白折叠库等十几种数据库交叉索引。
2.4数据库使用高度计算机化和网络化。
越来越多的生物信息学数据库与因特网联结,从而为分子生物学家利用这些信息资源提供了前所未有的机遇[2]。
2.5面向应用。
首先各个数据库除了提供数据之外,还提供许多分析工具,如核酸数据库提供的序列搜索、基因识别程序等。
此外,还在原始数据库的基础上开发了许多面向特殊应用的二级数据库,如蛋白质二级结构数据库等[3]。
3生物信息数据库的分类生物信息数据库种类繁多,归纳起来,大体可以分为5个大类:核酸序列数据库、基因组数据库、蛋白质序列数据库、生物大分子(主要是蛋白质)结构数据库以及以这4类数据库和文献资料为基础构建的二次数据库。
其中主要类型是序列数据库[4]。
来自基因组作图的基因组数据库、来自序列测定的序列数据库以及来自X-衍射和核磁共振结构测定的结构数据库是分子生物信息学的基本数据资源,通常称为基本数据库或初始数据库,也称一次数据库。
根据生命科学不同研究领域的实际需要,在一次数据库、实验数据和理论分析的基础上进行整理、归纳和注释,构建具有特殊生物学意义和专门用途的数据库即二次数据库, 也称专门数据库、专业数据库或专用数据库[2, 3, 5]。
3.1核酸序列数据库EMBL、GenBank和DDBJ是国际上三大主要核酸序列数据库。
EMBL是德国海德堡市的欧洲分子生物学实验室(European Molecular Biology Laboratory)1980年创建的,其名称也由此而来。
美国国家健康研究院(National Institurte of Health,简称NIH)也于1982年委托洛斯阿拉莫斯(Los Alamos)国家实验室建立GenBank,后移交给美国国立卫生研究院国家生物技术中心(National Center for Bio-technology Information—NCBI)。
DDBJ是日本静冈市的日本国立遗传学研究所于1986年创建的日本DNA数据库(DNA Database of Japan—DDBJ)。
1988年,EMBL、GenBank与DDBJ共同成立了国际核酸序列联合数据库中心,建立了合作关系。
根据协议,这三个数据库分别收集所在区域的有关实验室和测序机构所发布的核酸序列信息,并共享收集到的数据,每天交换各自数据库新建立的序列记录,以保证这三个数据库序列信息的完整性[2]。
3.2基因组数据库基因组数据库的主体是模式生物基因组数据库,其中最主要的是由世界各国的人类基因组研究中心、测序中心构建的各种人类基因组数据库。
小鼠、河豚鱼、拟南芥、水稻、线虫、果蝇、酵母、大肠杆菌等各种模式生物基因组数据库或基因组信息资源都可以在网上找到[2]。
3.3蛋白质序列数据库PIR和SWISS-PROT是创建最早、使用最为广泛的两个蛋白质数据库。
1984年,“蛋白质信息资源”(Protein Information Resource,简称PIR)计划正式启动,蛋白质序列数据库PIR也因此而诞生。
SWISS-PROT由瑞士日内瓦大学生化系A.Bairoch于1986年创建,目前由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,简称SIB)和欧洲生物信息学研究所(EBI)共同维护和管理。
其他主要的蛋白质序列数据库还有NRl3D、TrEMBL、GenPep、NRDB 和OWL等[2]。
3.4生物大分子结构数据库PDB是目前最主要的收集生物大分子(蛋白质、核酸和糖)三维结构的数据库,是通过X 射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。
它是由美国纽约Brookhaven国家实验室于1971年创建的。
蛋白质结构分类数据库,是三维结构数据库的重要组成部分。
蛋白质结构分类可以包括不同层次,如折叠类型、拓扑结构、家族、超家族、结构域、二级结构、超二级结构等。
已经上网的蛋白质分类数据库很多,主要有SCOP和CA TH[2]。
3.5生物信息二次数据库随着基因组研究的不断深入,越来越多基因的结构和功能得到阐明,已有大量的公共数据库系统可供研究者使用。
但在针对特定物种的生物信息学分类和分析方面仍有待进一步开发,这些公共数据库在内容、数据综合和检索途径上不一定能满足实际研究的需要,因此以基因组、序列和结构数据库为基础,结合文献资料,研究开发更具特色、更便于使用的二次数据库,或专用数据库信息系统,已经成了生物信息学研究的一个重要方面[2, 6]。
3.5.1基因组二次数据库网上有各类基因组二次数据库,法国巴斯德研究所构建的大肠杆菌基因组数据库就是基因组二次数据库的一个实例。
其他的此类数据库还有德国生物工程研究所开发的真核生物基因调控转录因子数据库TransFac、真核生物启动子数据库EPD(Eukaryotic Promoter Database)、克隆载体数据库Vector,密码子使用表数据库CUTG[2]、禾本科比较基因组数据库Gramene[7, 8]、棉花微卫星标记数据库CMD[9]。
3.5.2蛋白质二次数据库PROSITE(Protein Sites and Patterns Database)数据库是第一个蛋白质序列二次数据库,90年代初期开始构建,现由瑞士生物信息学研究所SIB维护。
蛋白质功能位点序列片段数据库PRINTS,同源蛋白家族数据库Pfam,同源蛋白结构域数据库Blocks等也属此类数据库[2]。
另外,以具有特殊功能的蛋白为基础构建的二次数据库有免疫球蛋白数据库Kabat,蛋白激酶数据库PKinase等。
以三维结构原子坐标为基础构建的数据库为结构分子生物学研究提供了有效的工具,如蛋白质二级结构构象参数数据库DSSP,已知空间结构的蛋白质家族数据FSSP,已知空间结构的蛋白质及其同源蛋白数据库HSSP等[2]。
3.5.3文献数据库及软件目录数据库Internet上有许多生物软件目录和档案库,其中最主要的站点是美国印地安那大学的IUBio生物学软件档案和欧洲生物信息研究所EBI维护的Biocatalog软件目录[10]。
3.5.4生物信息数据库集成系统生物信息数据库设计中出现了向整合发展的新潮流,如将多种图谱、数据整合到一个数据库中,在数据库中还提供众多的通向其他网络数据库的途径,以实现多功能、复合、开放的新型数据库系统。
集成化还包括将数据库与数据分析软件整合,在新型的数据库系统中提供丰富的数据分析软件,为研究者分析利用数据提供方便[2]。
SRS序列检索系统(Sequence Retrieval System)是EBI/EMBL在WWW服务器上开发的功能十分强大的序列数据库检索系统,能够检索45个核酸和蛋白质序列数据库、三维结构库、基因数据库及其他生物信息学数据库[11]。
NCBI提供的Entrez是另一个基于多种数据库可进行交叉检索的集成系统,2003年10月进行了改版,可同时进行多个数据库的跨库检索,也可根据需求选择一个或若干数据库以及数据库内的信息进行有机的链接,服务方式灵活多样,充分满足不同用户的需求[11, 12]。
3.5.5二次数据库的开发张荣志[6]等开发了棉花分子生物学数据库,搭建数据库的环境为利用Linux操作系统建立Web站点,选用Apache服务器和MySQL数据库,主要采用PHP实现动态数据交换。
该生物学数据库系统包括用户登录系统、数据库查询系统和数据库管理系统。
4生物信息数据库的利用4.1运用数据库搜索及序列比较利用生物信息学数据库对于许多新得到的序列,我们并不知道其相应的生物功能。
生物学研究人员能够通过搜索序列数据库找到与新序列同源的已知序列,并根据同源性推测新序列的生物功能。
搜索同源序列在一定程度上就是通过相似比较寻找相似序列的[5]。
4.2运用数据挖掘技术利用生物信息学数据库数据挖掘是一种从大型数据库或数据仓库中提取隐藏的预测性信息的新技术,它能开采出潜在的知识,找出最有价值的信息,指导商业行为或辅助科学研究。
目前,序列分析、基因表达、同源性研究、蛋白质结构预测以及药物设计等领域都为数据挖掘提供了广阔的研究空间,也显示出了数据挖掘在这些方面的发展潜力[5]。
5生物信息数据库发展状况5.1国际发展状况2000年以前,生物信息学研究处于起步阶段,发展较为缓慢,自进入2000年以后,生物信息学数据库研究进入了快速发展阶段。
研究结果主要发表在Nucleic Acids Research、Bioinformatics、BMC Bioinformatics等期刊上[13]。
生物信息学数据库的研制开发主要集中在发达的欧美国家,如美国、英国、法国等。
而巴西、希腊、南非等国家创建和维护的数据库很少。
另一方面,无论哪一个国家,其研发的数据库并未占绝对优势。
生物信息学数据库的更新频率与当前生物信息的增长极不相称,尚不能及时满足广大科研人员对生物信息的需求,有待进一步加快数据库的更新频率[4]。
5.2国内发展状况北京大学生物信息中心PKUCB于1997年建立EMBnet的中国节点,同时它也是亚太生物信息网APBionet的中国节点,现在可提供92个数据库的检索与利用,这对我国的生物信息学的发展起着非常重要的作用。
北京大学物理化学研究所于1996年建立了国内第一家生物信息学网络服务器。
中国科学院上海生命科学研究院生物信息中心网站维护我国的核酸序列公共数据库[10]。
但是与发达国家仍存在较大差距,我们应加快生物信息学数据库引进的力度,同时研制开发更多的数据库,加速国内信息网络建设,提供快捷、方便的数据库、软件和在线服务,促进我国生物信息学的发展[4]。