当前位置:文档之家› 生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库简述

内蒙古工业大学理学院呼和浩特孙利霞2010.1.5

摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。一个新手面对如此浩瀚的数据量往往无从下手。本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。

关键词:蛋白质;数据库

0 引言

随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。这些数据库是分子生物信息学的基本数据资源。上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。信息的传播储存甚为不便。随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。

本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术,为蛋白质研究的入门

者及对蛋白质感兴趣的人员的一个引导。

图1两大类蛋白质数据库

1建库方式的分类

蛋白质数据库种类繁多。一个的数据库记录通常包括两部分:原始数据和对这些数据进行的生物学意义的注释。以建库的方式而论,大致可以分为四类:

一、最基础的一级数据库。这些数据库一般是由国家或国际组织建设和维护的数据库。如EMBL,PDB等。这样的数据库的优点是完整,更新及时,并提供了一些较好的服务软件和平台计算条件。缺点是对于数据的创新性,精确性和准确性没有权威的评价,数据过多,重复,分类较粗。

二、二级数据库,(如图2)。二级数据库是在一级库德基础上,结合工作的需要将部分数据从一级库中取出,重新组合而成的特定数据库。这类数据库专一性强,数据量相对较少,但质量高。数据库结构设计精致。

三、专家库。这是一种特殊的二级库。与一般二级库不同之处在于它是经过有经验的专家进行人工校对标识之后建立的。这样的库质量很高,使用方便可靠,但是更新发展较为缓慢。这类库的典型代表是SWISS-PORT。[2]

图2 蛋白质二级结构数据库的逻辑结构

⎧⎫⎪⎪⎪⎪⎨⎬⎪⎪⎪⎪⎩⎭⎧⎫⎨⎬⎩⎭蛋白质功能位点数据库:Prosite 蛋白质序列指纹图谱数据库:Prints 以蛋白质序列数据库为基础构建的二级库同源蛋白质家族数据库:Pfam 同源蛋白质结构域数据库:Blocks 免疫球蛋白数据库:Kabat 蛋白质二级库以具有特殊功能的蛋白质为基础构建的二级库蛋白激酶数据库:Pkinase 蛋白质二级结构构象参数数据库DSSP 以三维结构原子坐标为基础构建的二级库已⎧⎫⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎬⎪⎪⎪⎪⎧⎫⎪⎪⎪⎪⎪⎪⎨⎬⎪⎪⎪⎪⎪⎩⎭⎪⎪⎪⎩

知空间结构的蛋白质家族数据库FSSP 已知空间结构的蛋白质及其同源蛋白质数据库HSSP

2 蛋白质序列数据库:UniProt 数据库

UniProt 属于蛋白质序列数据库。如今的蛋白质序列数据库中,有的收集实验测定的序列,有的收集根据DNA 序列等翻译预测的蛋白质序列,有的这两者都有收录。SWISS-PROT 、TrEMBL 、PIR 是曾经用的很广泛的蛋白质序列数据库。而今都并入了UniProt 中。

现在UniProt 有三个层次的数据库:UniParc (UniProt Archive )收录所有UniProt 数据库子库中的蛋白质序列,虽然很大,但是信息比较粗糙。既包括重复的序列也包括未加注释的序列;UniRef (UniProt Reference Clusters )是归纳UniProt 几个主要数据库并将重复的序列去除后的数据库。其中UniRef100是只去除完全重复的序列的数据库,UniRef90是去除相似性在90%以上的相似序列数据库;UinProtKB (UniProt Knowledgebase )是有详细注释并与其他数据库及文献有链接的数据库,分为UinProtKB/SWISS-PROT 与UinProtKB/TrEMBL 两部分。

2.1 SWISS-PROT

SWISS-PORT 是含有详细注释内容的蛋白质序列数据库。1987年由日内瓦大学医学生物化学系(Department of Medical Biochemistry of the University of Geneva )与EMBL 共同维护,现由EMBL 的分支机构EBI 进行维护。网址为:http://www.expasy.ch/sprot/sprot-top.html 。一般地,任何蛋白质序列数据的搜索和比较都应从SWISS-PORT 开始[3]。

2.2 TrEMBL (Translated EMBL)

EMBL是指实验室欧洲分子生物学实验室EMBL(The European Molecular Biology Laboratory),TrEMBL 是EMBL-DNA数据库中的核算序列翻译后产生的核酸序列数据库。EMBL-DNA数据库于1982年由EMBL建立,全球性的国际DNA数据库,近年来发展很快,可进行核苷酸序列检索及序列相似性查询。

传统的蛋白质序列数据库的一种来源是通过对核酸序列数据库中的核算按照密码子人工翻译后,再用实验核实。但是对于EMBL-DNA数据库中的核酸序列翻译进行核实远远落后EMBL-DNA数据库中数据量的发展。EMBL-DNA数据库中含有众多的由计算机直接分析得到的在SWISS-PORT数据库中并不存在的氨基酸序列。为了克服这一缺点,人们又开发了另一个数据库—EMBL核酸序列翻译数据库,即TrEMBL(Translated EMBL)。该数据库中包含了EMBL数据库中的所有编码序列的信息。网址为:http://www.expasy.ch/sprot/sprot-top.html。这是SWISS-PROT数据库的重要补充,但是其中的数据质量要有所保留。

TrEMBL是从EMBL库中的核酸序列翻译出来的氨基酸序列,它们已经完成自动注释。分为两部分:SP-TrEMBL的条目已经由专家人工分类并且赋予了SWISS-PORT库的索取号,但是还没有通过人工审读并最终收入SWISS-PORT。REM-TrEMBL(REMaining TrEMBL)包含了由于某种原因没有被收入到SWISS

-PORT的条目。

2.3 PIR数据库

蛋白质信息资源数据库PIR(Protein Information Resource)是在很多文献中都要简绍的一个蛋白质序列数据库,其主要目的是提供按同源性和分类学组织的综合性,非冗余数据库。不过目前它的大部分服务已经停止使用。1984年建成PIR数据库,在2005年其序列信息相应并入UniProt中的SWISS-PROT与TrEMBL中。

3蛋白质结构数据库

蛋白质结构的内容为被测定的蛋白质分子空间结构原子坐标,PDB数据库、SCOP数据库、CATH数据库是几个常用的交重要的蛋白质结构数据库。

3.1 PDB

蛋白质数据库(Protein databank, PDB)由美国自然科学基金会,能源部和国立卫生研究院共同投资建立。主要由X射线晶体衍射和核磁共振(NMR)测得的生物大分子三维结构所组成。用户可直接查询,调用和观察库中所收录的任何大分子三维结构。网址为:https://www.doczj.com/doc/0919492055.html,/pdb/。随着晶体衍射技术的不断改进,结构测定的速度和精度也逐步提高。90年代以来,随着多维核磁共振溶液构象测定方法的成熟,使那些难以结晶的蛋白质分子的结构测定成为可能。蛋白质分子结构数据库的数据量迅速上升。据2000年5月统计,PDB数据库中已经存放了1万2千多套原子坐标,其中大部分为蛋白质,包括多肽和病毒。此外,还有核酸、蛋白和核酸复合物以及少量多糖分子。近年来,核酸三维结构测定进展迅速。

PDB数据库以文本文件的方式存放数据,每个分子各用一个独立的文件。除了原子坐标外,还包括物种来源、化合物名称、结构递交以及有关文献等基本注释信息。此外,还给出分辨率、结构因子、温度系数、蛋白质主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。

每个PDB文件可能分割成一系列行,由行终止符终止。在记录文件中每行由80列组成。每条PDB记录末尾标志应该是行终止符。PDB文件中每行都是自我识别的。每行的前六列存放记录名称,左对齐空格补足.必须和规定的记录名称一致。PDB文件也可看成是各种记录类型的总和。每个记录类型包括一行或多行又被更深一层分成各字段。以下是PDB文件存储数据格式的一个完整简洁的说明:

一、标题部分

1 HEADER(分子类,公布日期、ID号)

2 OBSLTE (注明此ID号已改为新号)

3 TITLE(说明实验方法类型)

4 CA VEA T(可能的错误提示)

5 COMPND(化合物分子组成)

6 SOURCE(化合物来源)

7 KEYWDS(关键词)8 EXPDTA(测定结构所用的实验方法)

9 AUTHO(结构测定者)10 REVDA T(修订日期及相关内容)

11 SPRSDE(已撤销或更改的相关记录)12 JRNL(发表坐标集的文献)

13 REMARK:REMARK 1(有关文献)、REMARK 2(最大分辨率)、REMARK 3(用到的

程序和统计方法)、REMARK 4-999。

二、一级结构

1 DBREF(其他序列库的有关记录)

2 SEQADV ( PDB与其他记录的出入)

3 SEQRES(残基序列)

4 MODRES (对标准残基的修饰)

三、杂因子

1 HET (非标准残基)

2 HETNAM(非标准残基的名称)

3 HETSNY (非标准残基的同义字)

4 FORMOL(非标准残基的化学式)

四、二级结构

1 HELIX(螺旋)

2 SHEET(折叠片)

3 TURN(转角)

五、连接注释

1 SSBOND (二硫键)

2 LINK(残基间化学键)

3 HYDBND(氢键)

4 SLTBRG(盐桥)

5 CISPEP(顺式残基)

六、簿记

1 MASTER (版权拥有者)

2 END(文件结束)

另外,使用Rosmol程序可以利用PDB中的数据直接观察蛋白质的三维结构[3](如图3)。

图3 Rosmol 显示的蛋白质三维结构图

3.2 SCOP

SCOP(Structural Classification of Proteins Database)是收录蛋白质结构域的数据库。SCOP根据数据结构与进化关系用人工及计算机自动处理,将蛋白质空

间结构的组成部分结构域分为类(Class)、折叠(Folds),超家族(Superfamoly),家族(family)四个等级。其中按空间结构分出类与折叠。按进化关系分出超家族与家族。2004年SCOP有超过4万个蛋白质结构域,分为7类,800个折叠,1294个家族,2327个超家族。

3.3CATH

CATH 是收录蛋白质结构域的数据库。CATH根据结构与同源性将蛋白质结构域分为C(class)A(architecture)T(topology)H(homologous)S(sequence family)等几个层次。按空间结构分为C、A、T从层,按同源性分为H、S两层。2005年CATH中有3229个蛋白质结构域,分为4个C层、37个A层、813个T 层和1467个H层[4]。

4结语

由于时间仓促,本文在创新性方面略显单薄,并且没有对蛋白质二级库进行简绍。甚为遗憾。但资料收集整理颇为繁琐,仅以此文作为自己研一上半学期入门课程的一次总结和梳理。同时感谢胡老师的谆谆教导。

参考文献:

[1]李伍举,吴加令. 蛋白质功能位点预测. 生物化学与生物物理进展, 1993,

20:60~62

[2]赵国屏.生物信息学.北京:科学出版社,2002

[3]张成岗,贺福初.生物信息学方法与实践.北京:科学出版社,2002

[4]许忠能. 生物信息学. 北京:清华大学出版社,2008

生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库简述 内蒙古工业大学理学院呼和浩特孙利霞2010.1.5 摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。一个新手面对如此浩瀚的数据量往往无从下手。本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。 关键词:蛋白质;数据库 0 引言 随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。这些数据库是分子生物信息学的基本数据资源。上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。信息的传播储存甚为不便。随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。 本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术,为蛋白质研究的入门

生物信息学中的数据库资源及其应用

生物信息学中的数据库资源及其应用 摘要:伴随着生物信息学的发展,生物信息数据库日趋完善。现对生物信息学、数据库的建设及其应用情况进行了综述,并展望生物信息学的发展前景。关键词:生物信息学;数据库的建设及其应用 生物信息学(Bioinformatics)是80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科,最初常被称为基因组信息学。广义地说,生物信息学是一门采用计算机技术和信息论方法对蛋白质及其核酸序列等多种生物信息采集、加工、储存、传递、检索、分析和解读的科学,是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。美国人类基因组计划中[1],对基因组信息学有这样的定义:它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。这一定义包含着两方面的内容,一方面是发展有效的信息分析工具,构建适合于基因组研究的数据库,用于搜集,管理,使用人类基因组和模式生物基因组的巨量信息。另一方面是配合实验研究,确定约30亿个碱基对的人类基因组完整核苷酸顺序,找出全部约10万个人类基因在染色体上的位置以及包括基因在内的各种DNA片段的功能,也就是“读懂”人类基因组[2]。正如基因组信息学的定义所确定的,它的研究内容主要包含两个部分,一是基因组相关数据的收集与管理,另一个是基因组数据内涵的分析与解释,也就是遗传密码的破译。 生物信息学自产生以来大致经历了前基因组时代、基因组时代和后基因组时代三个发展阶段。前基因组时代的标志性工作包括生物数据库的建立、检索工具的开发以及DNA和蛋白质序列分析等;基因组时代的标志性工作包括基因识别与发现、网络数据库系统的建立和交互界面工具的开发等;后基因组时代的标志则是大规模基因组分析、蛋白质组分析以及各种数据的比较与整合。三个阶段虽无明显的界限,却真实地反映了整个研究重心的转移变化历程[3]。 1 生物信息学数据库简介 近年来随着大量生物学实验数据的积累,众多的生物学数据库也相继出现,它们各自按照一定的标准收集和处理生物学实验数据,并提供相关的数据查询、处理等服务。而数据库的类型则几乎覆盖了生命科学的各个领域[4]。国

基因及蛋白质数据库的构建与应用

基因及蛋白质数据库的构建与应用随着生命科学技术的不断发展和进步,基因及蛋白质数据库在科学研究和医学领域的作用愈发重要。本文将从数据库的构建、分类和应用三个方面进行讲解。 一、基因及蛋白质数据库的构建 构建基因及蛋白质数据库的过程主要包括以下几个步骤: 1. 采集、整理数据。 对于已经发表的基因及蛋白质相关的论文、文献资料和相关数据库信息等进行采集和整理,从而建立一个完整的信息资源库。 2. 数据库建立和优化。 根据采集的数据和相关技术要求,选择合适的数据库软件,进行数据库建立和优化,使它能够方便有效地存储和检索数据。 3. 数据录入、整合。 将采集的数据进行规范化处理,并将其录入到数据库中,实现数据的整合和统一管理。 4. 数据质量检查和维护。 对于数据进行质量检查、修正和维护,确保数据的可靠性和准确性。

二、基因及蛋白质数据库的分类 按照功能和数据类型的分类,基因及蛋白质数据库一般分为以下几种: 1. 基因结构和序列数据库。 包括生物物种基因组的测序结果、基因和基因间的区域序列、基因的功能等。 2. 蛋白质序列和结构数据库。 包括蛋白质序列、二级结构、比较模型、同源模型等信息。 3. 基因表达数据库。 主要包括基因表达调控、启动子、编码和序列间调控因素等信息。 4. 基因特定数据库。 如免疫学数据库、药物基因相互作用数据库等,为特定研究领域的数据提供了支持。 三、基因及蛋白质数据库的应用 基因及蛋白质数据库在许多领域中都有着重要的应用价值。 1. 科研领域。

利用基因及蛋白质数据库,研究人员可以快速获取和跟踪特定 基因或蛋白质的信息,挖掘并分析相关信息,进一步研究其功能 和调节机制,从而探索新的基因和蛋白质功能以及治疗某些疾病 的方法。 2. 医学领域。 基因及蛋白质数据库是研究疾病发生发展机制的重要工具。医 学研究人员可以通过基因及蛋白质数据库对特定基因或蛋白质进 行深入研究,了解其功能及其与疾病的关系,从而探索新的诊断、预防和治疗方法。 3. 生物制药领域。 利用基因及蛋白质数据库,生物制药公司可以根据蛋白质序列 的信息,选择合适的表达系统和生产工艺,生产出具有高效性、 高稳定性、高特异性的药物,从而有效提高药物的疗效和安全性。 综上所述,基因及蛋白质数据库在生命科学、医学和生物制药 领域中发挥着重要作用。未来的数据库建设和数据管理将更加注 重数据共享和协同研究,以便更好地促进科学的进步和医学的发展。

生命科学中最常用的5个数据库介绍

生命科学中最常用的5个数据库介绍生命科学是一个庞大而复杂的学科,其中包含了关于生命现象 的各种研究。对于生命科学的研究,特别是在分子水平上进行的 研究,需要大量的数据支持。这些数据包括分子序列、蛋白质结构、代谢途径等等。为了有效地管理这些数据,生命科学中广泛 应用了各种数据库。本文将介绍生命科学中最常用的5个数据库。 1. GenBank GenBank是全球最大的分子生物学数据库,包含了全球各地实 验室提交的DNA和RNA序列。它由美国国家生物技术信息中心(NCBI)维护。GenBank包含了数十亿条序列记录,其中包括了 不同物种的基因组、蛋白质序列、DNA和RNA序列等。与DNA 和RNA序列相关的信息包括序列长度、基序、带电的特殊域、结 构域、转录因子结合位点以及其他数据。GenBank还包含了元数据,如物种和菌株的信息、文献引用以及序列的提交日期。 2. PubMed

PubMed是美国国家医学图书馆(NLM)维护的一个生命科学 文献数据库,包括了生命科学、医学和健康相关的数百万篇论文。PubMed提供了对文献的全文搜索和存储,使科学家在查找特定话 题时更加方便。除了搜索全文的功能,PubMed还提供了很多额外 的服务,如翻译摘要、相关文章推荐、绘制图表等。 3. Ensembl Ensembl是一种数据库、搜索引擎和分析平台,专门用于处理 各种生命科学的数据。Ensembl已经成为了全球最大的基因组数据库之一,包含了人类、其他哺乳动物、鸟类、篮球、双子蝎、无 脊椎动物等近700个物种的基因组信息。Ensembl提供的数据包括生物序列、调控区域、基因家族、基因结构、基因组的变异和基 因表达信息等。 4. Protein Data Bank (PDB) 蛋白质数据银行(PDB)是一个三维蛋白结构数据库,由改华 大学、美国罗格斯大学和欧洲生物信息研究所等机构共同维护。PDB存储了全球各地实验室提交的蛋白质晶体结构和生化分析, 包括了大多数已知的蛋白质家族和酶。PDB中的蛋白质结构存储

蛋白质组学研究中常用的网站和数据库

蛋白质组学研究中常用的网站和数据库 蛋白质, 数据库, 研究 本帖引用网址:https://www.doczj.com/doc/0919492055.html,/thread-35586-1-1.html 一、蛋白质数据库1.UniProt (The Universal Protein Resource) 网址: https://www.doczj.com/doc/0919492055.html,/https://www.doczj.com/doc/0919492055.html,/uniprot/简介:由EBI(欧洲生物信息研究所)、PIR(蛋白信息资源)和SIB(瑞士生物信息研究所)合作建立而成,提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等,同时提供其他数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接。2.PIR(Protein Information Resource) 网址:https://www.doczj.com/doc/0919492055.html,/简介:致力于提供及时的、高质量、最广泛的注释,其下的数据库有iProClass、PIRSF、PIR-PSD、PIR-NREF、UniPort,与90多个生物数据库(蛋白家族、蛋白质功能、蛋白质网络、蛋白质互作、基因组等数据库)存在着交叉应用。3.BRENDA(enzyme database) 网址:https://www.doczj.com/doc/0919492055.html,简介:酶数据库,提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。4.CORUM(collection of experimentally verified mammalian protein complexes) 网址: http://mips.gsf.de/genre/proj/corum/index.html简介:哺乳动物蛋白复合物数据库,提供的数据包括蛋白复合物名称、亚基、功能、相关文献等5.CyBase(cyclic protein database) 网址:https://www.doczj.com/doc/0919492055.html,.au/cybase简介:环状蛋白数据库,提供环状蛋白的序列、结构等数据,提供环化蛋白预测服务。6.DB-PABP 网址:https://www.doczj.com/doc/0919492055.html,/DB_PABP/简介:聚阴离子结合蛋白数据库。聚阴离子结合蛋白与聚阴离子的互作在胞内定位、运输、蛋白质折叠等生命过程中起重要作用,此外许多与神经衰退疾病相关的蛋白质均为聚阴离子结合蛋白。该数据库提供已被鉴定的聚阴离子结合蛋白的数据,与NCBI蛋白数据库存在交叉应用。7.IUPHAR-DB 网址: https://www.doczj.com/doc/0919492055.html,简介:G蛋白偶联受体、离子通道数据库。提供这些蛋白的基因、功能、结构、配体、表达图谱、信号转导机制、多样性等数据。8.GLIDA 网址:http://pharminfo.pharm.kyoto-u.ac.jp/services/glida/简介:G蛋白偶联受体-配体数据库,提供G蛋白偶联受体-配体互作数据、配体数据、G蛋白偶联受体数据、同源受体关系网、保守识别区,为新药发现提供了支持。9.LOCATE 网址:https://www.doczj.com/doc/0919492055.html,.au/简介:哺乳动物蛋白质亚细胞定位数据库 10.InterPro 网址:https://www.doczj.com/doc/0919492055.html,/interpro/简介:蛋白质综合数据库,从大量的数据库中整合而成的包括蛋白质结构域、蛋白质家族、功能位点等信息的数据库。11.OKCAM 网址:https://www.doczj.com/doc/0919492055.html,简介:人体细胞粘附分子数据库。二、蛋白质组数据库1.GELBANK 网址:https://www.doczj.com/doc/0919492055.html,简介:提供全基因组的二维凝胶电泳图谱,搜集了已知基因组信息生物的蛋白质组二维凝胶电泳图。可通过描述相对分子质量、等电点和蛋白质序列信息进行快速检索。2.SWISS-2DPAGE 网址:

生物信息学数据库综述

生物信息学数据库综述 摘要本文对生物信息学常见的数据库进行了汇总。常见数据库分为三类:核酸序列数据库、蛋白质序列数据库、三维分子结构数据库。并分别对其中常见数据库进行了介绍。对于生物信息学数据库的现存问题也进行了论述。 关键词数据库;核酸序列数据库;蛋白质序列数据库;三维分子结构数据库; 随着生物信息的发展,生物信息学数据库的数量在不断的递增,内部结构也不断的复杂化,功能也越来越细化。根据数据的类型可以将数据库分为核酸序列数据库、蛋白质序列数据库三维分子结构数据库。本文将比较常见的数据进行了汇总。 1 核酸序列数据库 常用的核酸序列数据库有GenBank核酸序列数据库、EMBL核酸数据库、DDBJ数据库、GDBD等。 1.1GenBank Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(N CBI)建立和维护的。Genbank每天都会与欧洲分子生物学实验室(EM BL)的数据库,和日本的DNA 数据库(DDBJ)交换数据,使这三个数据库的数据同步。Genbank的数据可以从N CBI的FrP服务器上免费下载完整的库,或下载积累的新数据。N CBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从N CBI的主页上找到这些服务。Gel~ bank 库里的所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件 1.2 EM BL核酸序列数据库 EM BL 核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。该数据库由Oracal数据库系统管理维护,查询检索可以通过因特网上的序列提取系统(SRS)N务完成l 6J。向E M BL核酸序列数据库提交序列可以通过基于W eb的WEBI N工具,也可以用Sequi n 软件来完成。 1.3 DD BJ 数据库 D D BJ数据库创建于1984 年,由日本国立遗传学研究所遗传信息中心维护。它首先反映日本所产生的DNA数据,同时与Genbank、EMBL合作互通有无,同步更新,每年四版。日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库。可以使用其主页上提供的SAS工具进行数据检索和分析。可以用Sequin 软件向该数据库提交序列。 1 .4 G D B 人类基因组数据库(GD B)是人类基因图谱和疾病的数据库。GDB的目标是构建关于人类基因组图谱和测序。目前GDB中有:人类基因组区域(包括基因、克隆、amplimersPCR标记、断点breakpoint细胞遗传标记cytogenetic markers、

常用的生物数据库

转载)分子生物学相关数据库 综合数据库: Entrez 由NCBI开发的一个数据库检索系统,它综合了下述各大数据库的信息,包括核酸、蛋白以及Medline文摘数据库,在这三个数据库中建立了非常完善的联系。因此,可以从一个序列查询到蛋白产物以及相关的结构、功能和文献信息,详见NCBI(美国国立生物技术信息中心) 简介。 EBI 欧洲生物信息学研究所(European Bioinformatics Institute,EBI)是EMBL的分部,位于英国Hinxton的Wellcome Trust Genome Campus。 EBI维护和发布的数据库: üEMBL核酸数据库、欧洲原始核酸数据资源库 üSwissProt蛋白质序列数据库[与瑞士生物信息学协会(Swiss Institute for Bioinformatics,SIB)的Amos Bairroch合作] üTrEMBL(SwissProt的附属数据库,由EMBL数据库编码序列翻译而来的蛋白质序列数据库) ü分子结构数据库(Molecular Structure Database,MSD)[与Brookhaven 国家实验室(纽约)的蛋白质三维结构数据库(Protein Data Bank,PDB)合作] ü放射杂交数据库(Radiation Hybrid database,RHdb) ü其他组织合作产生的分子生物学数据库:EBI还提供网络服务,通过互联网、其WEB界面和FTP服务器可以访问最新收集到的数据,同时也提供数据库和序列相似性的搜索工具。 核酸数据库: GenBank GenBank是NIH的基因序列数据库,由美国国立卫生研究院全国生物技术信息中心(NCBI)建立并维护,是所有公开的DNA序列的集合( Nucleic Acids Research 1998 Jan 1;26(1):1-7),GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献,是世界上的权威序列数据库。GenBank每条数据包含对序列的精确描述,序列来源生物的科学名称及树状分类,以及特征数据栏,提供序列的蛋白编码区和具有特殊生物学意义的位点,如转录单位(transcription units)、突变或修饰位点(sites of mutationsormodifications)及重复序列(repeats),还提供特定序列编码的蛋白质序列。参考文献还给出其在MEDLINE上的特定标识号。 EMBL-EBI 欧洲分子生物学实验室(EuropeanMolecularBiology Laboratory)于1974年由欧洲14个国家加上亚洲的以色列共同发起建立,包括一个位于德国Heidelberg的核心实验室,及三个位于德国Hamburg,法国Grenoble及英国Hinxton的研究分部,是欧洲最重要和最核心的分子生物学基础研究和教育培训机构。. EMBL-DNA数据库于1982年由EMBL建立,为欧洲最主要的核酸序列数据库,与美国的

生物信息学常用数据资源介绍

生物信息学常用数据资源介绍 生物信息学是一门跨学科的学科,它将计算机科学与生物学有机地结合起来,为生命科学研究提供了新的方法和手段。在生物信息学中,数据资源是非常重要的,因为数据资源直接关系到生物信息学研究的深度和广度。本文将介绍生物信息学中常用的数据资源,包括基因组数据库、蛋白质数据库、序列数据库、文献数据库等。 1. 基因组数据库 基因组数据库是基因组信息的集大成者。基因组数据库收集了各种生物的基因组序列、基因注释、基因组结构等信息。常用的基因组数据库有:GenBank、EMBL、DDBJ、NCBI、Ensembl、UCSC Genome Browser 等。 2. 蛋白质数据库 蛋白质数据库是收集了各种生物的蛋白质序列、蛋白质结构、蛋白质功能等信息的数据库。常用的蛋白质数据库有:UniProt、PDB、Swiss-Prot、TrEMBL等。 3. 序列数据库 序列数据库主要收集了各种生物的核酸序列和蛋白质序列。常用的序列数据库有:NCBI GenBank、EMBL、DDBJ、RefSeq、UniProtKB 等。 4. 文献数据库 文献数据库主要收集了各种与生物学相关的学术文献,包括期刊论文、会议论文、书籍等。常用的文献数据库有:PubMed、Web of

Science、Google Scholar等。 总结 生物信息学中的数据资源非常丰富,为生物信息学研究提供了非常重要的数据支持。除了以上介绍的常用数据资源,还有很多其他的数据资源,例如代谢组数据库、蛋白质互作数据库等等。研究者可以根据自己的需要选择合适的数据资源,以便更好地开展生物信息学研究。

生物信息数据库简介

生物信息数据库简介 二级数据库简介 二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容;一级数据库与二级数据库之间并无明确的界限。(例如:GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特色) 1、基因组信息二级数据库 TransFac(真核生物基因转录调控因子数据库) 德国生物工程研究所开发维护,始建于1988年。包括顺式调控位点、基因、转录因子、细胞来源、分类和调控位点核苷酸分布6个子库。TransFac的网址: 2、蛋白质序列二级数据库 Prosite(蛋白质序列功能位点数据库) 始建于1990 年代初,由瑞典生物信息学研究所SIB 负责维护。基于对蛋白质家族中同源序列多重序列比对得到的保守区域,这些区域通常与生物学功能相关。数据库包括两个数据库文件:数据文件Prosite;说明文件PrositeDoc。Prosite的网址:/prosite/ 3、蛋白质结构二级数据库DSSP (Definition of Secondary Structure of Proteins) 蛋白质二级结构构象参数数据库DSSP的网址:http://www.cmbi.kun.nl/gv/dssp/

FSSP (Families of Structural Similar Proteins) 蛋白质家族数据库FSSP的网址:https://www.doczj.com/doc/0919492055.html,/dall/fssp/ HSSP(Homology Derived Secondary Structure of Proteins) 同源蛋白质数据库HSSP的网址:http://www.cmbi.kun.nl/gv/hssp/ 数据库格式简介 历史原因:没有完全统一的数据库格式;了解所用数据库格式的重要性一般由两部分组成:文字注释序列 不同数据库的序列格式在运行序列分析软件中遇到的首要问题就是如何通过不同的程序使用不同的序列格式。这些格式都是标准ASCII码文件,但在显示各种信息或序列本身的某些字符或字有所不同。下面将讨论几种常用的序列格式。1 GenBank 中DNA序列格式 2 EMBL序列格式7 GCG序列格式8 PIR/CODATA序列格式 3 SwissProt序列格式 4 FASTA序列格式 5 NBRF序列格式 6 Intelligenetics序列格式 9 Plain/ASCII.Staden序列格式10 ASN.1序列格式11 GDE 格式 1. GenBank中DNA序列格式GenBank中数据库(包括NCBI 核酸和蛋白质序列数据库)中条目格式如下:给出描述每一个序列的信息,包括文献参考、序列的功能信息、mRNA和编码区

生物信息学数据库分类整理汇总

生物信息学数据库分类整理汇总 1. Meta databases 元数据库,合并不同来源的相关数据以更新的或更加方便的形式提供新的数据,通俗的讲就是数据库的数据库,代表性的数据库主要有以下几个: ConsensusPathDB 网址:https://www.doczj.com/doc/0919492055.html,/描述:分子功能互作数据库,基于32个公共数据库,整合了人类蛋白质相互作用,遗传相互作用信号,代谢,基因调控和药物- 靶标相互作用的信息。 Entrez 网址: https://https://www.doczj.com/doc/0919492055.html,/Class/MLACourse/Modules/Entrez/complex_boolean.html描述:Entrez跨数据库全局查询搜索系统是一个联合搜索引擎或门户网站,允许用户在NCBI网站上搜索许多离散的健康科学数据库。 Neuroscience Information Framework 网址:https://https://www.doczj.com/doc/0919492055.html,//描述:整合了数百种神经科学相关资源,包括实验,临床和转化神经科学数据库,知识库,地图集和遗传/基因组资源等。 GeneCard 网址:https://https://www.doczj.com/doc/0919492055.html,/描述:自动整合125个数据库,包含基因组、转录组、蛋白组、遗传、临床和功能信息的庞大人基因组数据库。 Ensembl Genomes 网址:https://www.doczj.com/doc/0919492055.html,/描述:该项目由EMBL运营,提供细菌、原生生物、真菌、植物和无脊椎动物后生动物的基因组数据。 UCSC Genome 网址:https://www.doczj.com/doc/0919492055.html,描述:主要是动物基因组信息,基因组注释,基因组保守性和基因组共线性数据。 Human protein atlas 网址:https://www.doczj.com/doc/0919492055.html,/描述:人体蛋白在细胞、组织、病理条件下的表达 2. Model organism databases

分子生物学中常用数据库

分子生物学中常用数据库 综合数据库: 来源: https://www.doczj.com/doc/0919492055.html,/news/science/article/90048.html 生物信息学网址链接: http://www.bioinformatics.ca/links_directory/ Nucleic Acid Research Database Issue: https://www.doczj.com/doc/0919492055.html,/content/vol32/suppl_2/ 一、蛋白相关数据库蛋白质结构域预测工具 Esignal:https://www.doczj.com/doc/0919492055.html,/esignal/ 信号传导系统蛋白的结构域预测工具,凡是涉及到信号传导系统的蛋白用这个预测效果最佳 SignalP:http://www.cbs.dtu.dk/services/SignalP/

信号肽预测工具,适合定位于非胞质位置的蛋白质 Emotif:https://www.doczj.com/doc/0919492055.html,/emotif-search/ 结构域预测工具,由于其用motif电子学习的方法产生结构域模型,故预测效果比Prosite好 Ematrix:https://www.doczj.com/doc/0919492055.html,/ematrix/ 是用Matrix的方法创建的结构域数据库,可与emotif互相印证。其速度快,可快速搜索整个基因组 InterPro:https://www.doczj.com/doc/0919492055.html,/InterProScan/ EBI提供的服务,用图形的形式表示出搜索的结构域结果 TRRD:http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/ 转录因子结构域预测的最好数据库。但不会用 Protscale:https://www.doczj.com/doc/0919492055.html,/cgi-bin/protscale.pl

生物信息学中的蛋白质注释及数据库建立

生物信息学中的蛋白质注释及数据库建立 生物信息学在现代科学中扮演着越来越重要的角色,其广泛应用于基因组学、 蛋白质组学、代谢组学等领域。其中蛋白质注释是关键的一环,也是生物信息学中的热门研究方向之一。 蛋白质注释是指对经过基因组测序的生物样本中的蛋白质进行功能信息的提取 和解析的过程。它是将已知或未知的生物序列与已有或新建的数据库相比对,得到最全面且准确的生物信息的过程。目前,蛋白质注释的意义已经不仅仅是为了对蛋白质的功能进行解析,还可以为疾病的研究、新药开发和精准医疗提供有力的支持。 要实现蛋白质注释的目标,涉及大量的蛋白质信息的收集、整合和分析工作。 其中一个关键的环节就是建立蛋白质数据库。蛋白质数据库的建立是整个蛋白质组学数据分析工作的基础,也是保证分析结果准确性和可靠性的重要保障。 构建蛋白质数据库需要考虑到以下几个方面: 1. 数据来源 建立蛋白质数据库需要进行蛋白质数据的收集、提取和整合。这样的数据可以 来自不同的蛋白质组学项目、数据仓库以及文献资料库等多个来源。数据来源的选择对最后的数据质量和准确性起着至关重要的作用,因此在选择数据来源时需要考虑数据来源的权威性和可靠性。 2. 数据清理 由于数据来源的不同,导致蛋白质数据存在着差异,例如,有些蛋白质是重读的、多次记录的或是表达不清楚的。因此,在建立蛋白质数据库之前,需要对数据进行清洗,去除无效、重复和错误的数据,保证数据的准确性和一致性。 3. 数据组织

蛋白质注释需要构建大规模的生物信息数据库,这意味着需要对海量的蛋白质 数据进行组织和分类。通常,蛋白质数据库的组织方式有层次结构、关系数据库、文本数据库等多种方式,需要选择最适合本次研究的方法进行构建。 4. 数据更新 蛋白质数据库是一个动态的过程,随着科学技术的进步,新的数据会不断产生。因此,对于蛋白质数据库的管理者来说,需要确保数据库处于最新状态,并且及时更新数据库中的数据。数据更新对于蛋白质注释的准确性和可靠性也有着至关重要的作用。 总之,蛋白质注释和数据库建立都是复杂而繁琐的工作,但是将其整合起来, 就可以构建一个完整的、可靠的、动态的生物信息资源平台。通过对蛋白质注释和数据库建立的深入了解,我们可以应用这些知识,深入探索生物世界的奥秘,为人类更好的生活做出贡献。

生物信息学数据库

生物信息学数据库 生物信息学数据库是为生物学研究者提供可靠且有组织的基因组、蛋白质、代谢组等生物学数据的资源。它们收集和整理了来自不同生物学领域的信息,为研究人员提供了有力的工具和数据。本文将介绍生物信息学数据库的概述、特点以及在现代生物学研究中的重要性。 一、概述 生物信息学数据库是为了存储、管理和共享生物学数据而创建的在线资源。它们被广泛应用于基因组学、蛋白质组学、转录组学、代谢组学等生物信息学研究领域。这些数据库通常包含基因序列、蛋白质结构、基因表达、生物通路、突变信息等多种类型的生物数据。这些数据由专家和研究人员共同整理和维护,以提供高质量和准确性的信息。 二、特点 1. 多样性:生物信息学数据库涵盖了许多生物学领域的数据,包括基因组、蛋白质组、代谢组等。这些数据有助于研究者深入了解不同的生物学过程和机制。 2. 综合性:生物信息学数据库将多个数据集整合在一起,使研究人员能够在一个平台上访问和分析多种类型的数据。 3. 可访问性:大多数生物信息学数据库都是免费的,并且提供用户友好的界面和搜索功能,使用户能够轻松获取所需的数据。

4. 数据共享:生物信息学数据库促进了科研界的合作与分享。研究 人员可以将他们的数据提交到数据库中,与其他科研人员共享,并迅 速获得反馈和合作机会。 三、重要性 生物信息学数据库在现代生物学研究中发挥着重要的作用: 1. 提供参考:生物信息学数据库为研究人员提供了基因组、蛋白质、代谢组等方面的大量数据,研究人员可以通过对这些数据进行分析和 比对来研究生命科学中的各种生物过程。 2. 解释实验结果:研究人员可以将他们的实验数据与数据库中的数 据进行比较,从而获得更多关于基因功能、蛋白质结构以及生物通路 等方面的信息。 3. 预测生物功能:通过对数据库中的数据进行挖掘和分析,研究人 员可以预测基因的功能、蛋白质的结构以及细胞信号通路的作用机制。 4. 研究生物进化:生物信息学数据库存储了大量物种的基因组数据,这使得研究人员能够研究不同物种之间的进化关系和基因家族的起源。 总结 生物信息学数据库是当今生物学研究中不可或缺的工具。它们提供 了丰富多样的生物学数据,方便研究人员进行数据挖掘、比对和预测,从而推动了科学的发展和创新。对于研究人员而言,熟练使用生物信 息学数据库已经成为一项必备的技能,以便更好地理解生物学中的复

常用生物数据库 外显子、内含子、mRNA、CDS

常用生物数据库 核酸序列数据库主要有GenBank, EMBL, DDBJ等. 蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D, TrEMBL等,蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等, 三维结构数据库有PDB, NDB, BioMagResBank, CCSD等, 蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP等,与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等, 文献数据库有Medline, Uncover等。

外显子、内含子、mRNA、CDS 1.DNA复制:以DNA为模板,在DNA聚合酶的催化作用下,将四种游离的dNTP按照碱基互补配对原则合成新链DNA 转录:以DNA为模版,在DNA指导的RNA聚合酶的作用下,将四种游离的NTP按照碱基互补配对的原则合成RNA 翻译:以mRNA为模板,在核糖体内合成蛋白质的过程 特点: 模板特点原料引物DNA复制双链DNA 合成的新链与模板链一模 四种dNTP 半保留复制需要 一样 四种NTP 半不连续转录不需要转录双链DNA 合成的新链除了把DNA上 的T改为U外,其他一样 翻译mRNA 3个碱基决定一个氨基酸20种游离 的氨基酸 2.mRNA(messenger RNA,信使RNA) 信使RNA是由DNA经hnRNA剪接而成,携带遗传信息的能指导蛋白合成的一类单链核糖核酸。 3. 基因DNA分为编码区和非编码区,编码区包含外显子和内含子,一般非编码区具有基因表达的调控功能,如启动子在非编码区。编码区则转录为mRNA并最终翻译成蛋白质。 外显子和内含子都被转录到mRNA前体hnRNA中,当hnRNA进行剪接变为成熟的mRNA 时,内含子被切除,而外显子保留。实际上真正编码蛋白质的是外显子,而内含子则无编码功能, 内含子存在于DNA中,在转录的过程中,DNA上的内含子也会被转录到前体RNA中,但前体RNA上的内含子会在RNA离开细胞核进行翻译前被切除。

生物信息学中的数据库构建和应用

生物信息学中的数据库构建和应用 生物信息学是一门众多学科交叉的学科,与生命科学、计算机科学和信息科学 等领域都有着密切的联系。在生物信息学中,构建和应用数据库是非常重要的内容之一。本文将就生物信息学中的数据库构建和应用进行详细的介绍和探讨。 一、数据库的概念 数据库是指按照一定规则组织起来的、可被计算机访问的、有组织的数据集合。在生物信息学中,数据库是用来存储和管理生物信息的一种技术手段。在生物信息学的研究中,生物学家和计算机科学家共同合作,通过建立数据库来存储和处理生物信息,进而为生物学研究提供数据支持。 二、数据库的种类 在生物信息学中,常见的数据库种类包括以下几种: 1. 基因组数据库:这类数据库主要用于存储和管理生物个体的基因组信息,如 人类基因组数据库(NCBI Genome Database)等。 2. 蛋白质数据库:这类数据库主要用于存储和管理蛋白质序列、结构、功能等 信息,如蛋白质数据银行(PDB)等。 3. 转录组数据库:这类数据库主要用于存储和管理生物的转录组信息,如基因 表达数据库(GEO)等。 4. 代谢组数据库:这类数据库主要用于存储和管理代谢组信息,如人类代谢组 数据库(HMDB)等。 5. 疾病基因组数据库:这类数据库主要用于存储和管理与疾病相关的基因组信息,如人类疾病基因组数据库(OMIM)等。 三、数据库的构建

实际上,我们需要对生物信息进行收集、整合、清洗、存储、查询与分析等一系列处理,才能获得有价值的生物信息。数据库的构建就是这样一个过程。具体而言,它包括以下步骤: 1. 数据采集:这个过程包括从生物实验中获取数据,并对数据的来源、实验设计、实验条件等信息进行详细记录。 2. 数据整合:对不同来源、不同形式的数据进行整合,将它们根据一定规则进行组织和管理,使之能够被计算机系统所识别和处理。 3. 数据预处理:对数据进行质量控制、数据清洗、归一化等处理,确保数据的合法性、准确性和一致性。 4. 数据存储:将预处理后的数据存储到数据库中,通常使用关系型数据库和非关系型数据库两种存储方式。 5. 数据查询:通过数据查询来检索数据库中的数据,根据特定的查询条件找到需要的数据。 6. 数据分析:对查询到的数据进行统计分析、机器学习、数据挖掘等方法,提取有用的生物信息。 四、数据库的应用 数据库在生物信息学中的应用主要包括以下几个方面: 1. 基因组学:基因组数据库可以用来存储整个生命体系的基因组信息,包括基因序列、基因位置、基因功能等信息。生物学家可以利用这些数据库来研究基因的进化、功能等问题。 2. 蛋白质学:蛋白质数据库可以用来存储蛋白质序列、结构、功能等信息。研究人员可以利用这些数据库来研究蛋白质的结构、功能、相互作用等问题。

蛋白质常用数据库一文看懂!

蛋白质常用数据库|一文看懂! 蛋白质数据库是指专门存储蛋白质相关信息的数据库。它们收集、整理和存储大量的蛋白质数据,包括蛋白质序列、结构、功能、互作关系、表达模式、疾病关联等信息。蛋白质数据库提供了对这些数据的检索、查询和分析功能,为科学研究人员、生物信息学家和药物研发人员等提供了重要的资源。 蛋白质数据库的内容通常来自于实验室实际测定的蛋白质数据,如蛋白质序列测定、结晶学、核磁共振、质谱等技术获得的数据。这些数据经过验证和标准化后,被整合到数据库中,使研究者能够方便地访问和利用这些数据进行各种研究工作。 下面是笔者总结的常用蛋白质数据库及网址,供大家参考。 ⓪BioXFinder:BioXFinder是国内第一个也是唯一一个生物数据库:收录50多万条高质量的、整合多个来源数据,手工注释的非冗余的蛋白质信息,包含蛋白质的基本信息、序列、序列特征、功能、名称和谱系、亚细胞定位、疾病与变异、翻译后修饰、表达、相互作用等信息。蛋白结构库:收录19多万条经过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质结构数据。包括蛋白3D结构、基本信息、实验数据、参考文献等。 ①UniProt:UniProt是一个综合性的蛋白质数据库,提供了大量蛋白质的序列、结构、功能、互作关系和注释信息。它整合了多个来源的数据,包括Swiss-Prot、TrEMBL和PIR数据库。 ②Protein Data Bank (PDB):PDB是存储蛋白质和其他生物大分子结构的数据库。它提供了实验确定的蛋白质结构的三维坐标数据,可用于结构生物学研究、药物设计和分子模拟等领域。 ③NCBI Protein:NCBI Protein是美国国家生物技术信息中心(NCBI)提供的蛋白质数据库,包含了大量的蛋白质序列数据,可以进行蛋白质的基本信息查询和比对分析。 ④Ensembl:Ensembl是一个综合性的基因组注释数据库,包含了多个物种的基因组序列、基因结构、转录本和蛋白质信息。它提供了基因组浏览器和分析工具,方便研究人员进行基因组研究和比较基因组学分析。 ⑤Swiss-Prot:Swiss-Prot是一个人工注释的蛋白质数据库,提供了高质量的蛋白质序列和注释信息。它包含了详细的蛋白质功能、结构域、修饰、亚细胞定位等注释,并提供了丰富的参考文献。 ⑥RefSeq:RefSeq是NCBI提供的一个综合性蛋白质和核酸序列数据库,包含了多个物种的参考序列。它提供了高质量的基因和蛋白质序列、注释信息和参考文献,可用于基因组学、遗传学和生物信息学研究。 ⑦STRING:STRING是一个蛋白质互作关系数据库,整合了多种数据源的蛋白质互作信息,包括实验验证的互作、计算预测的互作和文献报道的互作。它提供了蛋白质互作网络的可视化和分析工具,用于研究蛋白质相互作用网络和功能模块。 ⑧InterPro:InterPro是一个蛋白质家族和结构域注释数据库,整合了多个注释资源的信息。

生物信息学常用核酸蛋白数据库

(1)GenBank https://www.doczj.com/doc/0919492055.html,/ (2)dbEST (Database of Expressed Sequence Tags) https://www.doczj.com/doc/0919492055.html,/dbEST/index.html (3)UniGene 数据库 https://www.doczj.com/doc/0919492055.html,/UniGene/ (4)dbSTS (Database of Sequence Tagged Sites) https://www.doczj.com/doc/0919492055.html,/dbSTS/index.html (5)dbGSS (Database of Genome Survey Sequences) https://www.doczj.com/doc/0919492055.html,/dbGSS/index.html (6)HTG (High-Throughput Genomic Sequences) https://www.doczj.com/doc/0919492055.html,/HTGS/ (7)基因组数据库 https://www.doczj.com/doc/0919492055.html,/sites/entrez?db=genome (8)dbSNP (Database of Single Nucleotide Polymorphisms) 单核苷酸多态性数据库https://www.doczj.com/doc/0919492055.html,/sites/entrez?db=snp (9)EMBL (European Molecular Biology Laboratory) https://www.doczj.com/doc/0919492055.html,/embl (10)DDBJ (DNA Data Bank of Japan) http://www.ddbj.nig.ac.jp/Welcome-e.html 启动子(11)EPD (Eukaryotic Promoter Database) http://www.epd.isb-sib.ch/ 2、蛋白质数据库 https://www.doczj.com/doc/0919492055.html,/swissprot (2)TrEMBL (Translation of EMBL) https://www.doczj.com/doc/0919492055.html,/swissprot/ (3)PIR (Protein Information Resource) https://www.doczj.com/doc/0919492055.html, (4)PRF (Protein Research Foundation) http://www.prf.or.jp/en/os.html (5)PDBSTR (Re-Organized Protein Data Bank) http://www.genome.ad.jp (6)Prosite https://www.doczj.com/doc/0919492055.html,/prosite 3、结构数据库 (1)PDB (Protein Data Bank) https://www.doczj.com/doc/0919492055.html, (2)NDB(Nucleic Acid Database) https://www.doczj.com/doc/0919492055.html,/ (3)DNA-Binding Protein Database https://www.doczj.com/doc/0919492055.html,/ (4)SWISS-3D IMAGE http://www.expasy.ch/sw3d/

相关主题
文本预览
相关文档 最新文档