当前位置:文档之家› 整理(蛋白质序列数据库)

整理(蛋白质序列数据库)

整理(蛋白质序列数据库)
整理(蛋白质序列数据库)

蛋白质序列数据库

我们可以根据基因组序列预测新基因,预测编码区域,并推测其产物(即蛋白质)的序列。因此,随着基因组序列的不断增长,蛋白质序列也在不断增加。

PIR

历史上,蛋白质数据库的出现先于核酸数据库。在1960年左右,Dayhoff和其同事们搜集了当时所有已知的氨基酸序列,编著了《蛋白质序列与结构图册》。从这本图册中的数据,演化为后来的蛋白质信息资源数据库PIR(Protein Information Resource)。

PIR是由美国生物医学基金会NBRF(National Biomedical Research Foundation)于1984年建立的,其目的是帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PIR提供一个蛋白质序列数据库、相关数据库和辅助工具的集成系统,用户可以迅速查找、比较蛋白质序列,得到与蛋白质相关的众多信息。目前,PIR已经成为一个集成的生物信息数据源,支持基因组研究和蛋白质组研究。至2004年,PIR 有近30万个蛋白质的登录数据项,包括来自不同生物体的蛋白质序列。

除了蛋白质序列数据之外,PIR还包含以下信息:

(1)蛋白质名称、蛋白质的分类、蛋白质的来源;

(2)关于原始数据的参考文献;

(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;

(4)序列中相关的位点、功能区域。

对于数据库中的每一个登录项,有与其它数据库的交叉索引,包括到GenBank、EMBL、DDBJ、GDB、MELINE等数据库的索引。PIR中一个具体的登录项如图4.4所示。

PIR提供三种类型的检索服务。一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLA ST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。

目前,PIR包括三个子数据库,分别是蛋白质序列数据库PIR-PSD、蛋白质分类数据库iProClass以及非冗余的蛋白质参考资料数据库PIR-NREF。

SWISS-PROT

SWISS-PROT是由Geneva大学和欧洲生物信息学研究所(EBI)于1986年联合建立的,它是目前国际上权威的蛋白质序列数据库。SWISS-PROT 中的蛋白质序列是经过注释的。SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据。2004年3月的SW ISS-PROT 43.0 版本有146720序列登录项,包含摘自113719篇参考文献的54093154个氨基酸。

与其它蛋白质序列数据库相比较,SWISS-PROT有三个明显的特点:

(1)注释

在SWISS-PROT中,数据分为核心数据和注释两大类。对于数据库中的每一个序列登录项,核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)等,而注释包括:

①蛋白质的功能描述;

②翻译后修饰;

③域和功能位点,如钙结合区域、ATP结合位点等;

④蛋白质的二级结构;

⑤蛋白质的四级结构,如同构二聚体、异构三聚体等;

⑥与其它蛋白质的相似性;

⑦由于缺乏该蛋白质而引起的疾病;

⑧序列的矛盾、变化等。

(2)最小冗余

对于给定的蛋白质,许多数据库根据不同的文献报道设置分立的登录项,而在SWISS-PROT 中,尽量将相关的数据归并,降低数据库的冗余程度。如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。

(3)与其它数据库的连接

SWISS-PROT目前已经建立了与其它30多个相关数据库的交叉索引,即对于每一个SWISS-PROT的登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。例如,根据到蛋白质结构数据库的索引,用户不仅可以得到某个蛋白质的序列,还可以进一步得到其结构。现有的交叉索引有:到EMBL核酸序列数据库的索引,到PROSITE模式数据库的索引,到生物大分子结构数据库PDB的索引等。

与前面介绍的核酸序列数据库EMBL类似,每一个SWISS-PROT的条目用外在的ASCII 文件表示,两者主要差别在于特征表的不同。

用户可以通过网络将蛋白质序列数据提交给SWISS-PROT,或者对蛋白质数据进行修改。SWISS-PROT提供序列序列查询及相似蛋白质序列搜索工具

TrEMBL

大多数蛋白质序列不是直接由实验得到,而是通过DNA序列映射而得到的。TrEMBL是一

个计算机注释的蛋白质数据库,作为SWISS-PROT数据库的补充。该数据库主要包含从EMBL/ Genbank/DDBJ核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且,这些序列尚未集成到SWISS-PROT数据库中。

TrEMBL有两个部分,分别是SP-TrEMBL (SWISS-PROT TrEMBL)和REM-TrEMBL (REMaining TrEMBL)。SP-TrEMBL包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。这部分数据可以看成是SWISS-PROT数据库的预备队。REM-TrEMBL包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。如人工合成的蛋白质序列、申请专利的序列、伪基因对应的蛋白质序列等。

TrEMBL(16.0版,2001年3月)根据EMBL的核酸数据库(65.0版)建立,共有489620条序列,包括141347364个氨基酸。为了减少冗余,若根据核酸编码序列翻译的蛋白质序列已经出现在SWISS-PROT,则将对应的序列删除。TrEMBL数据库的26.0版(2004年3月)拥有1069649条蛋白质序列,总氨基酸长度达到335331748。

目前,欧洲生物信息学研究所EBI 将上述3个蛋白质数据库(即PIR 、SWISS-PROT和TrEMBL)统一起来,建立了一个蛋白质数据仓库UniProt(Universal Protein Resource,https://www.doczj.com/doc/694077039.html,/uniprot/index.html)。UniProt包含3个部分:(1)UniProt Knowledgebase (UniProt),这是蛋白质序列、功能、分类、交叉引用等信息存取中心;(2)UniProt Non-redundant Reference(UniRef)数据库,该数据库将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;(3)UniProt Archive(UniParc),是一个资源库,记录所有蛋白质序列的历史。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP 下载数据。

在生物学研究中,分子的结构是最重要的数据,它提供很多信息,包括生物分子的功能、作用机制、进化历史等。目前,国际上最主要的生物大分子结构数据库是PDB。

PDB

目前,国际上著名的生物大分子结构数据库是美国Brookhaven实验室的大分子结构数据库PDB(https://www.doczj.com/doc/694077039.html,/pdb/home/home.do)。PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,其中主要是蛋白质的三维结构,还包括核酸、糖类、蛋白质与核酸复合物的三维结构。截止2004年5月,PDB数据库已含有约25000个结构,其中90%是蛋白质的结构。对于每一个结构,包含名称、参考文献、序列、一级结构、二级结构和原子坐标等信息。

PDB中的每条记录有两种序列信息,一种是显式序列信息(explicit sequence),一种是隐式序列信息(implicit sequence)。在PDB文件中,以关键字SEQRES作为显式序列标记,以该关键字打头的每一行都是关于序列的信息。对于氨基酸残基,采用三字符的表示方式,这一点与其它序列数据库不一样。

PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。在实际应用中,PDB数据库应与结构模型显示软件结合起来。因为PDB的主要信息是三维结构,如果直接将三维结构信息以文本的形式返回给用户,用户将难以分析这些结构信息,实用的方法是,通过分子模型化软件,以图形方式显示三维结构。这样的软件在Internet网上有许多,如RasMol、ChemView 等,这些软件能够以各种各样的模型显示生物大分子的三维结构,如结构骨架模型、棒状模型、球棒模型、空间填充模型、带状模型等。此外,在PDB中还说明蛋白质某些特定部位的二级结构类型,如α螺旋和β折叠。

MMDB

分子模型MMDB(Molecular Modeling Database)是美国生物技术信息中心(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。该数据库实际上是生物大分子PDB的一个编辑版本,仅仅剔除PDB中理论计算的模型结构。MMDB 的3W地址为https://www.doczj.com/doc/694077039.html,/Structure/MMDB/mmdb.shtml。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,同时,还包括生物大分子之间关系的信息。此外,系统还提供生物大分子三维结构模型显示、结构分析和结构比较工具。MMDB采用ASN.1的记录格式,而非PDB格式。

蛋白质结构分类数据库SCOP

具有相似结构的蛋白质很可能具有共同的祖先。几乎对于任何一个蛋白质都能找到与其它一些具有相似结构的蛋白质,其中的一些蛋白质拥有一个共同的进化原始结构。这种关系对于了解蛋白质的进化和发展是非常关键的,同样对于分析基因组序列数据也是非常重要的。为了分析蛋白质序列与结构之间的关系,认识不同折叠结构的进化过程,需要研究蛋白质结构分类的方法,并建立结构分类数据库。

SCOP数据库(Structural Classification of Proteins,https://www.doczj.com/doc/694077039.html,/scop/)就是一个蛋白质结构分类数据库。SCOP 的目标是提供关于已知结构蛋白质之间的结构和进化关系的

SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的链接,序列,参考文献,结构的图像等。从目前的技术来看,很难借助于自动的序列和结构比较工具发现蛋白质之间的结构和进化关系,因此,SCOP的结构分类主要是通过人工来完成的,通过图形显示器观察和比较蛋白质结构,并借助于一些软件工具进行分析,如同源序列搜索工具。

可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次是家族、超家族和折叠,这些层次之间的界限在一定程度上是人为的。进化分类是保守的,只要对进化关系存在疑问,就在家族或超家族层次上建立一个新的分类。这样,有些研究人员倾向于着重研究分类树的高层,在这些层次上,结构相似的蛋白质聚类在一起。

具有明显进化关系的蛋白质聚集到一个家族中,这意味着两个蛋白质之间的等同氨基酸残基数超过30%。然而,在某些情况下,虽然两个蛋白质序列不相似,但它们具有相似的结构和相似的功能,表明属于同一个家族。例如,许多球蛋白虽然序列相同部分只达到15%,但确实形成一个家族。

超家族中的成员具有远源进化关系,具有共同的进化源。有些蛋白质,它们序列之间的相似性较低,序列等同部分短,但是结构和功能特征显示可能有一个共同的进化源,对于这些蛋白质将它们放入一个超家族中。

属于同一个折叠类的蛋白质具有相似的折叠结构。如果两个蛋白质具有相同的主要二级结构,并具有相同的拓扑连接,那么,这些蛋白质就具有共同的折叠。具有相同折叠的不同蛋白质,通常有不同大小和不同构象的外周二级结构元素及转向区域。在某些情况下,这些不同的外周区域可能构成完整结构的一半。按照相同折叠放入同一个折叠分类中的蛋白质可能没有共同的进化源,结构相似性可能缘由蛋白质倾向于形成一定堆积和一定拓扑结构的物理和化学特性。

SCOP首先从总体上将蛋白质进行分类,例如全α型,全β型,以平行折叠为主的α/β型,以反平行折叠为主的α+β型,详见图4.7。然后,再将属于同一结构类型的蛋白质按照折叠、超家族、家族层次组织起来。例如,SCOP 1.65版本有46456个全α型蛋白质,该结构类型下有179个折叠类(见图4.7)。在这179个折叠类中的第一个超家族是类球蛋白;类球蛋白又包含4个家族,其中第一个家族又包含5个结构域;每个结构域下面有很多蛋白质成员。

蛋白质二级结构数据库DSSP

DSSP(Database of Secondary Structure of Protein,http://swift.cmbi.ru.nl/gv/start/index.html)是一个二级结构推导数据库。对生物大分子数据库PDB中的任何一个蛋白质,根据其三维结构推导出对应的二级结构。因此,DSSP是一个二级数据库(相对于原始数据库)。这个数据库对研究蛋白质序列与蛋白质二级结构及空间结构的关系非常有用。

The DSSP program was designed by Wolfgang Kabsch and Chris Sander to standardize secondary structure assignment. DSSP is a database of secondary structure assignments (and much more) for all protein entries in the Protein Data Bank (PDB). DSSP is also the program that calculates DSSP entries from PDB entries. DSSP does not predict secondary structure.

除了二级结构以外,DSSP还包括蛋白质的几何特征及溶剂可及表面。

DSSP还包括一个实用程序,该程序根据给定的蛋白质的三维结构,计算一个蛋白质所对应的二级结构。DSSP 二级结构区分得比较细致,共分7种二级结构,其编码含义如下:H代表α螺旋,E代表β折叠,G和I分别代表3-螺旋和π螺旋,B代表孤立的β桥,T 代表氢键转折,S代表弯曲。图4.8是一个具体的蛋白质二级结构实例,其中上面一行代表蛋白质序列,下面一行是对于各个氨基酸残基所处二级结构的注释。

蛋白质同源序列比对数据库HSSP

HSSP(Homelogy-Derived Secondary Structure of Protein) 是一个蛋白质同源序列比对数据库(http://swift.cmbi.ru.nl/gv/hssp/ ),它也是一个二级数据库。对于一个蛋白质,HSSP组合三维结构数据和序列数据,其数据来源于PDB,或来源于其它蛋白质序列数据库,如SWISS-PROT。对于PDB中的每一个蛋白质,HSSP将与其同源的所有蛋白质序列进行比对,从而将相似序列的蛋白质聚集成结构同源的家族。如果家族成员中有一个已知三维结构,则可以推测家族其它成员的三维结构、二级结构或者折叠。所以,HSSP不仅是蛋白质家族序列比对数据库,同时该数据库隐含了二级结构和空间结构信息,这覆盖了SWISS-PROT中27%的蛋白质。

HSSP有助于分析蛋白质的保守区域,确定有意义的序列模式,研究蛋白质的进化关系,研究蛋白的折叠,也有助于蛋白质的分子设计。

对于PDB中的每一个蛋白质,HSSP含有下述信息:蛋白质序列,推导的二级结构,从SWISS-PROT选出的一系列同源序列的比对,序列统计特征图。此外,针对蛋白质多重序列比对的每一个位置,说明序列的变异性。

序列模式数据库PROSITE

PROSITE (https://www.doczj.com/doc/694077039.html,/)是由瑞士生物信息学研究所建立的一个蛋白质家族和保守区域数据库,也是国际上第一个序列模式数据库。该数据库包含重要的生物功能位点、序列模式以及可帮助识别蛋白质家族的统计特征,可以利用这些信息确定一条新序列究竟应该归属哪个已知的蛋白质家族。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。除了序列模式之外,

PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。PROSITE提供这方面的分析工具。

自然界虽然有众多的蛋白质,但是,对于大部分蛋白质,都可以根据序列的相似性将它们分配到不同的组中,从而形成为数不多的家族。属于同一家族的蛋白质一般起源于共同的祖先,具有相似的功能。但是,在有些情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要,在进化过程保留了与功能密切相关的保守区域,形成特定的序列模式。在研究蛋白质家族时可以发现,有些区域的序列在进化过程中比较保守,变化不大,这些区域通常对于蛋白质的结构和功能是非常关键的。分析一个家族中的蛋白质序列,可以发现家族或保守区域的特征,通过这样的特征,可以将家族成员与其它不相关的蛋白质区分开来。可以通过PROSITE 的搜索找到一条蛋白质序列中隐含的序列模式。

PROSITE 目前包含1千多个蛋白质家族或保守区域的模式或特征,同时,对于每一种模式都伴有蛋白质结构和功能的信息。

蛋白质指纹数据库PRINTS

另一个与蛋白质序列模式相关的数据库是蛋白质序列指纹图谱数据库PRINTS

(https://www.doczj.com/doc/694077039.html,/dbbrowser/PRINTS/index.php)。一个蛋白质指纹就是一组保守的序列模式,用于刻画蛋白质家族的特征。这些序列模式在蛋白质的一维多肽链上是不相邻的,但是,在三维空间中,它们可能紧密地结合在一起。与PROSITE的单个序列模式相比,利用蛋白质指纹可以更加灵活和合理地研究蛋白质结构与功能。

人类遗传数据库OMIM

OMIM (Online Mendelian Inheritance in Man)是关于人类基因和遗传疾病的分类数据库,由约翰霍普金斯大学开发。该数据库收集了已知的人类基因及由于这些基因突变或者缺失而导致的遗传疾病。OMIM主要的服务对象是医师、遗传疾病研究人员、生物医学专业高年级学生。在OMIM 中,可以按照基因搜索数据库,也可以按照遗传疾病搜索数据库。OMIM的网络服务器位于NCBI,每条记录引用的参考资料都有到Entrez系统的链接。OMIM网址是https://www.doczj.com/doc/694077039.html,:80/entrez/query.fcgi?db=OMIM。

OMIM的使用非常方便。查询程序根据输入到检索窗口的一个或几个词执行简单的查询,返回含有该词的文档的列表,用户可以在列表中选择一个或更多的记录查看其OMIM数据的全文。记录含有各种信息,如基因符号、病变的名称、对病变的描述(包括临床的,生物化学的,细胞遗传学的特征)、遗传模式上的细节(包括图谱信息)、临床的说明等,还有参考文献。用户也可以选择特定的染色体,浏览染色体上相关的基因及病变信息。

基因启动子数据库EPD

EPD(http://www.epd.isb-sib.ch/ )是真核基因启动子数据库,提供从EMBL中得到的真核基因的启动子序列,目标是帮助实验研究人员、生物信息学研究人员分析真核基因的转录信号。现有1500多个启动子序列数据,按照层次式方式组织数据。关于启动子的描述信息直接摘自科

学文献,因而相对独立于EMBL。

转录调控区域数据库TRRD

转录调控区域数据库TRRD是由俄罗斯科学院细胞和遗传学研究所建立的。TRRD是一个关于基因调控信息的集成数据库,该数据库搜集真核生物基因转录调控区域结构和功能的信息。每一个TRRD的条目对应于一个基因,包含特定基因各种结构和功能特性,如:转录因子结合位点(或者顺式作用元件)、启动子、影响基因转录水平的增强子和静默子、5’-端和3’-端扩展的转

录调控区域、基因表达调控模式、完整的基因表达调控系统等。TRRD6.0包括七个相关的数据表:

(1)基因描述表TRRDGENES,包含所有TRRD库基因的基本信息和调控单元信息,它是TRRD最主要的表,设有与其它表的链接;(2)控制区域表TRRDLCR,包含控制区域的定位;(3)调控区域表TRRDUNITS,包含启动子、增强子、静默子等;(4)转录因子结合位点表TRRDSITES,包括调控因子结合位点的详细信息;(5)转录因子表TRRDFACTORS,包括TRRD中与各个位点结合的调控因子的具体信息;(6)表达模式表TRRDEXP,包括对基因表达模式的具体描述;(7)实验来源表TRRDBIB,包括TRRD中所有注释涉及的参考文献。TRRD6.0有关于1167个基因的信息,包括5537个转录因子结合位点,1714个调控区域,5335个基因表达模式。TRRD主页提供了对这几个数据表的检索服务,同时提供可视化工具,其地址为

http://wwwmgs.bionet.nsc.ru/trrd/。

转录因子数据库TRANSFAC

TRANSFAC (https://www.doczj.com/doc/694077039.html,/)是一个真核基因顺式调控元件和反式作用因子数据库,数据搜集的对象从酵母到人类。TRANSFAC包括6类数据:SITE类数据是关于真核基因的不同调控位点信息,GENE类数据描述具有多个调控位点的基因信息,FACTOR类数据描述结合于这些位点的蛋白质因子信息,CELL类数据则说明蛋白质因子的细胞来源,CLASS类数据包含转录因子分类的基本信息,MATRIX数据以矩阵的形式定量描述结合位点核苷酸的统计分布。此外,还有几个与TRANSFAC密切相关的扩展库:PATHODB库收集了转录区域中可能导致病态的突变数据;S/MART DB收集了蛋白质结合位点的特征信息及作用于这些位点的蛋白质信息;TRANSPATH库用于描述与转录因子调控相关的信号传递的网络;CYTOMER库表现了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。

基因本体数据库GO

基因本体数据库GO(Gene Ontology, https://www.doczj.com/doc/694077039.html,/)是由基因本体学联盟开发的,其目标是建立关于基因和蛋白质描述以及知识的标准词汇,为今后实现各种与基因相关数据的统一、进行数据转换、开展数据挖掘提供一个标准。GO一共有3个结构化的网络,用于描述基因的产物,对基因进行注释。这3个网络分别从生物过程、细胞成分和分子功能对基因进行分类、定义和注释。

生物、医学文献数据库PubMed

PubMed(https://www.doczj.com/doc/694077039.html,/)是NCBI维护的生物学、医学文献引用数据库,提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。

目录数据库DBCat

DBCat(https://www.doczj.com/doc/694077039.html,biogen.fr/services/dbcat/)是一个生物信息数据库的目录数据库,或数据库的数据库。它收集了500多个生物信息学数据库的信息,并根据它们的应用领域对这些数据库进行分类,包括DNA、RNA、蛋白质、基因组、图谱、蛋白质结构、文献著作等基本类型,见表4.1。从该数据库出发,可以迅速找到生物信息学其它重要的数据库。DBCat数据库可以免费下载或在网络上检索查询。

表4.1 DBCat中分类数据库个数

数据对象数据库个数

DNA 87

RNA 29

蛋白质94

基因组58

图谱29

蛋白质结构18

文献43

其它153

除以上介绍的数据库之外,还有很多专门生物信息数据库,涉及生物学研究的各个领域。在实际应用中,可以根据需要检索不同的数据库。至于数据库的网址,可以通过公共的网站搜索系统查找,也可以通过专门的生物信息目录数据库(如DBCat)进行查找。另外,还可以根据数据库中的Internet链接,直接找到相关的数据库。

国内也有一部分公共数据库的镜像站点和自己开发的有特色的数据库,如设立在北京大学分子生物信息学中心(https://www.doczj.com/doc/694077039.html,/)的欧洲分子生物学网络EMBNet的中国节点和亚太生物信息学网络(APBioNet)中国节点。

PHD-蛋白质结构预测(PHD-PredictProtein)

PHD-PredictProtein服务主要是预测

?蛋白质的二级结构(Secondary structure)

?残基可溶性( Residue solvent accessibility)

?及跨膜螺旋区定位(Location of transmembrane helices)

另外有三个可选项:

?折叠方式识别(Fold recognition)

?跨膜螺旋区蛋白的拓扑学预测(prediction of topology for helical

transmembrane proteins)

?预测精确性评估(evaluation of prediction accuracy) PredictProtein蛋白质结构预测工作原理

1一级结构分析

?将预测序列与SWISS-PROT库中的蛋白质相比,筛选序列相似性序列;

?用MaxHom方法作多序列的一致性分析(multiple sequence alignment)。将此多序列一级性分析结果可用PHD方法作神经网络预测(neural network predictions),然后再作预测精确性的评估分析。

PHD预测方法有以下几个水平:

PHDsec:二级结构预测(secondary structrue prediction)有三种结构类如螺旋(helix),片状(strand)及其它精确性。

PHDacc:可溶性(solvent accessibility)预测,实际性与理论性相关性>0.5.

PHDhtm:跨膜螺旋区预测及拓扑学,精确度分剖为89%和>86%

2基于预测线程的折叠识别(Fold recognition by prediction-based threading)

二级结构及可溶性预测是将蛋白主序列与PDB库的序列作序阵一致性(alignment)分析,并探查较远的同源性,当然,结果可能不十分可靠。预测线程最低分(firsthit)仅30%准确度,当z-scores得分超过3.0时,较为可靠(精确度60%)

3 预测准确度估计

各个残基各个节段的预测得分都将返回给查询者:如三种状态整体准确性(overall three-state accuracy),单状态准确性(singe state accuracy),相关系数(correlation coefficeents),信息熵值( information entropy), 部分节段一致性( fractional segment overlap),以及整个二级结构内容及结构分类的准确度。

二、使用方法

1 email

?将序列发送到PredictProtein@EMBL-Heidelberg.DE

?有问题时与Predict-Help@EMBL-Heidelberg.DE联系

2 Web

?主页:http://www.embl-heidelbery,de/predictprotein/ptrdictprotein.html ?互动式查询(interactive request):

http://www.embl-heideberg.de/predictprotein/ppDoPred.html ?问题相关页:

http://www.embl-heidelberg.de/predictproteinsend-feedback.html

提交序列的格式可以为:

?单个序列

?MSF序阵格式

?PIR自由交换格式

?COLUMN格式

三、预测方法:

1MaxHom(Multiple sequence alignent)多序列一致性分析分两步进行,第一步按标准的动力学程序方法,将序列一个人递加到查询序列排成保守性相关序阵。第二步待所有SWISS-PROT数据库中的同源序列提取出来后,以代表序列(conservation profile) 为准重新作序阵的保守性分析。

2 PHDsec(Secondary structure ) 二级结构预测

运用神经网络运算预测二级结构。对三种类型如螺旋(helix)、片层(strand)和环(loop)进行运算,较其他序列单个信息估算的方法准确度出10%,序阵的统计分析准确度要高出6%。

此方法有三个特征:

?从多序阵一致性分析(multiple sequence alignments)提高进化分析上的准确性。

?通过行列平衡过程(a balanced training procedure)提高片层预测度。

?运用多水平系统(multi-level system )增强了对二级结构节段的准确预测。

3PHDacc(Solvent accessibility)可溶性预测神经网络运算方法(neural network method)

预测蛋白质氨基酸残基的可溶性,在一系列球蛋白预测的238个实例中,可溶性预测值与实际值相关系数为0.54。

预测方法中,目前同源模建预测是最好的,而自由预测方法是最差的。PHDacc预测的准确性,较比较性神经网络系统方法高出26个百分点。因为后者无多序阵一致性分析,采用的是三种状态掩埋态(buried)、中间态(intermediate)和暴露态(exposed)相比较的方法。

4 PHDhtm(Transmemberane helices) 跨膜螺旋区用神经网络系统预测膜融合蛋白的跨膜螺旋区,并过筛去多余的序列残基。对每个残基而言,准确性>95%.

5 PHDtopology(Refined prediction of transmemberane helices and topology)跨膜螺旋区及拓扑学完善化预测

在神经网络系统预测方法上,用动力学程序样运算法(dynamic programmign-like algorithm)加以完善

6 PHDthreader(Fold recognition by prediction-based threading)基于预测线程的折叠结构识别

这种新的基于预测的线程方法,可探查到远距离同源性(remote homology),序列间约有0--25%相同序列。主要是探查未知结构序列与已知折叠结构序列间二级结构和可溶性的相似区域(simiar motifs).对整个折叠结构间的相似性识别中,准确度期望值约60%,对较短同源性片段而言,30%准确度是最低限度z-scores得分超过3.0者更为可靠(准确度>60%).

蛋白质序列分析

蛋白质序列、性质、功能和结构分析 基于网络的蛋白质序列检索与核酸类似,从NCBI或利用SRS系统从EMBL 检索。 1、疏水性分析 ExPASy的ProtScale程序(https://www.doczj.com/doc/694077039.html,/cgi-bin/protscale.pl)可用来计算蛋白质的疏水性图谱。输入的数据可为蛋白质序列或SWISS-PROT数据库的序列接受号。也可用BioEdit、DNAMAN等软件进行分析。 2、跨膜区分析 蛋白质跨膜区域分析的网络资源有: TMPRED:https://www.doczj.com/doc/694077039.html,/software/TMPRED_form.html PHDhtm: http:www.embl-heidelberg.de/Services/sander/predictprotein/predictpro tein.html MEMSAT: ftp://https://www.doczj.com/doc/694077039.html, 3、前导肽和蛋白质定位 一般认为,蛋白质定位的信息存在于该蛋白自身结构中,并且通过与膜上特殊受体的相互作用得以表达。这就是信号肽假说的基础。这一假说认为,穿膜蛋白质是由mRNA编码的。在起始密码子后,有一段疏水性氨基酸序列的RNA片段,这个氨基酸序列就称为信号序列(signal sequence)。 蛋白质序列的信号肽分析可联网到http://genome.cbs.dtu.dk /services/SignalP/或其二版网址 http://genome.cbs.dtu.dk/services/SignalP-2.0/。该服务器也提供利用 e-mail进行批量蛋白质序列信号肽分析的方案 (http://genome.cbs.dtu.dk/services /SignalP/mailserver.html),e-mail 地址为signalp@ genome.cbs.dtu.dk。 蛋白质序列中含有的信号肽序列将有助于它们向细胞内特定区域的移动,如前导肽和面向特定细胞器的靶向肽。在线粒体蛋白质的跨膜运输过程中,通过线粒体膜的蛋白质在转运之前大多数以前体形式存在,它由成熟蛋白质和N端延伸出的一段前导肽或引肽(leader peptide)共同组成。迄今有40多种线粒体蛋白质前导肽的一级结构被阐明,它们约含有20~80个氨基酸残基,当前体蛋白跨膜时,前导肽被一种或两种多肽酶所水解转变成成熟蛋白质,同时失去继续跨膜能力。前导肽一般具有如下性质:①带正电荷的碱性氨基酸(特别是精氨酸)含量较丰富,它们分散于不带电荷的氨基酸序列中间;②缺失带负电荷的酸性

蛋白质结构分析原理及工具-文献综述

蛋白质结构分析原理及工具 (南京农业大学生命科学学院生命基地111班) 摘要:本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具,系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举,并没有对原理和方法做详细的介绍。文章还列举了蛋白质分析中常用的数据库。 关键词:蛋白质;结构预测;跨膜域;保守结构域 1 蛋白质相似性检测 蛋白质数据库。由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化后形成的同源序列称直系同源,它们通常具有相似的功能;由基因复制而来的序列称为旁系同源,它们通常有不同的功能[1]。因此,推测全新蛋白质功能的第一步是将它的序列与进化上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的特点。 表一常用蛋白质数据库 网址可能有更新 氨基酸替代模型。进化过程中,一种氨基酸残基会有向另一种氨基酸残基变化的倾向。氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵[2]、JTT模型[3]。 序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。成对序列相似性搜索通过搜索序列数据库从而找到与查询序列相似的序列。分为局部联配和全局联配。常用的局部联配工具有BLAST和SSEARCH,它们使用了Smith-Waterman 算法。全局联配工具有FASTA和GGSEARCH,基于Needleman-Wunsch算法。多序列相似性搜索常用于构建系统发育树,这里不阐述。表二列举了常用的成对序列相似性比对搜索工具

蛋白质数据库

生物芯片北京国家工程研究中心 湖南中药现代化药物筛选分中心 暨湖南涵春生物有限公司 常用数据库名录 1、蛋白质数据库 PPI - JCB 蛋白质与蛋白质相互作用网络 ?Swiss-Prot - 蛋白质序列注释数据库 ?Kabat - 免疫蛋白质序列数据库 ?PMD - 蛋白质突变数据库 ?InterPro - 蛋白质结构域和功能位点 ?PROSITE - 蛋白质位点和模型 ?BLOCKS - 生物序列分析数据库 ?Pfam - 蛋白质家族数据库 [镜像: St. Louis (USA), Sanger Institute, UK, Karolinska Institutet (Sweden)] ?PRINTS - 蛋白质 Motif 数据库 ?ProDom - 蛋白质结构域数据库 (自动产生) ?PROTOMAP - Swiss-Prot蛋白质自动分类系统 ?SBASE - SBASE 结构域预测数据库 ?SMART - 模式结构研究工具 ?STRING - 相互作用的蛋白质和基因的研究工具

?TIGRFAMs - TIGR 蛋白质家族数据库 ?BIND - 生物分子相互作用数据库 ?DIP - 蛋白质相互作用数据库 ?MINT - 分子相互作用数据库 ?HPRD - 人类蛋白质查询数据库 ?IntAct - EBI 蛋白质相互作用数据库 ?GRID - 相互作用综合数据库 ?PPI - JCB 蛋白质与蛋白质相互作用网络 2、蛋白质三级结构数据库 ?PDB - 蛋白质数据银行 ?BioMagResBank - 蛋白质、氨基酸和核苷酸的核磁共振数据库?SWISS-MODEL Repository - 自动产生蛋白质模型的数据库 ?ModBase - 蛋白质结构模型数据库 ?CATH - 蛋白质结构分类数据库 ?SCOP - 蛋白质结构分类 [镜像: USA | Israel | Singapore | Australia] ?Molecules To Go - PDB数据库查询 ?BMM Domain Server - 生物分子模型数据库 ?ReLiBase - 受体/配体复合物数据库 [镜像: USA] ?TOPS - 蛋白质拓扑图 ?CCDC - 剑桥晶体数据中心 (剑桥结构数据库 (CSD))

生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库简述 内蒙古工业大学理学院呼和浩特孙利霞 2010.1.5 摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。一个新手面对如此浩瀚的数据量往往无从下手。本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。 关键词:蛋白质;数据库 0 引言 随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。这些数据库是分子生物信息学的基本数据资源。上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。信息的传播储存甚为不便。随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。 本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术,为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。

蛋白常用数据库

搞蛋白质的童鞋们,甭要只查NCBI了~蛋白质相关数据库启蒙~ ★ 小木虫(金币+1):奖励一下,谢谢提供资源 qinhy:恭喜,您的帖子被版主审核为资源贴了,别人回复您的帖子对资源进行评价后,您就可以获得金币了理由:资源贴2011-11-26 16:56 本来是带图的,可是弄过来就变成米图了,附件里面一个是PDF版、一个是WORD版均是带图的,童鞋们看带图的可能比较方便点哦~ 基于蛋白质序列的蛋白质相互作用位点预测(闲谈版) 这个不是论文不是论文啊~~这个是应某某的要求帮他找的,所以都是用现成的免费的网站数据库做的预测分析。无论文为依托,无原理为根据,纯粹就是流连各大网站作个的闲谈。 1、用这些网站先查查你要研究的蛋白质的底细。 这些网站的数据库大多数是实验或者一些相关文献报道的数据的组成。 ★String http://string.embl.de/ 输入你要搜寻的蛋白,它就把这个蛋白相关的数据反映给你,分confidence、evidence的数据可信度参考,同时还具有actions选项,反应它们之间可能是激活/抑制的关系。按按+、-号可以扩大缩小关联蛋白的数量范围。 往下拉一点点就是数据,哈哈,我们都要看数据吃饭啊~~ 分析的数据源自Neighborhood、Fusion、Occurrence、Coexpression、Experiments Database、Textminin及Homology,表示点得证明有数据,根据各项数据给出综合评分。评分越高相互存在关系可能性越高。点击下方各项图标等详细看到各项数据内容。 设条件确定筛选范围。 ★DIP https://www.doczj.com/doc/694077039.html,/dip/Main.cgi 跟上面的大同小异的功能,装上它附带的软件可能操作性会好一点,不过我米有试过哦。倒是跟它有链接的几个数据库都很强大,大家可以点击看看。 ★BIND http://www.bind.ca 文献有介绍的网站,不过我不能理解为什么我注册就注不了……. 2、继续查,用这些网站将要研究的蛋白质的家庭背景,月收入也大起底。 这里的网站可能跟相互作用方面的关系不大,但是如果知道这些,可以对研究的蛋白有更深的了解。 ★PDB https://www.doczj.com/doc/694077039.html,/pdb/home/home.do 要查3D结构就往这里查~通常说的PDB号为文献号末4位。 ★PIR https://www.doczj.com/doc/694077039.html,/pirwww/index.shtml 在蛋白质方面如NCBI般强大的网站,去上面晃荡下吧,会有收获滴。 ★KEGG http://www.genome.jp/kegg/ 粉强大的一个网站,我只说说它的KEGG PA THW AY子项,能迅速掌握一个蛋白质的功能通路,对于小白的偶们来说,很有用,有木有。 3、正题正题,做完上面那些后,接着就是纯预测的成分。也因为如此,要找着这些网站是很悲催的一件事。就算你找着了,你不懂语言,不懂算法,到底结果的可靠性怎样,见人见智。 需要PDB号作分析: promate http://bioinfo.weizmann.ac.il/promate/

SWISS-MODEL_蛋白质结构预测教程

SWISS-MODEL 蛋白质结构预测 SWISS-MODEL是一项预测蛋白质三级结构的服务,它利用同源建模的方法实现对一段未知序列的三级结构的预测。该服务创建于1993年,开创了自动建模的先河,并且它是讫今为止应用最广泛的免费服务之一。 同源建模法预测蛋白质三级结构一般由四步完成: 1. 从待测蛋白质序列出发,搜索蛋白质结构数据库(如PDB,SWISS-PROT等),得到许多相似序列 (同源序列),选定其中一个(或几个)作为待测蛋白质序列的模板; 2. 待测蛋白质序列与选定的模板进行再次比对,插入各种可能的空位使两者的保守位置尽量对齐; 3. 建模:调整待测蛋白序列中主链各个原子的位置,产生与模板相同或相似的空间结构——待测蛋白 质空间结构模型; 4. 利用能量最小化原理,使待测蛋白质侧链基团处于能量最小的位置。 最后提供给用户的是经过如上四步(或重复其中某几步)后得到的蛋白质三级结构。 SWISS-MODEL工作模式 SWISS-MODEL服务器是以用户输入信息的最小化为目的设计的,即在最简单的情况下,用户仅提供一条目标蛋白的氨基酸序列。由于比较建模程序可以具有不同的复杂性,用户输入一些额外信息对建模程序的运行有时是有必要的,比如,选择不同的模板或者调整目标模板序列比对。该服务主要有以下三种方式: ?First Approach mode(简捷模式):这种模式提供一个简捷的用户介面:用户只需要输入一条氨基酸序列,服务器就会自动选择合适的模板。或者,用户也可以自己指定模板(最多5条),这些模板可以来自ExPDB 模板数据库(也可以是用户选择的含坐标参数的模板文件)。如果一条模板与提交的目标序列相似度大于25%,建模程序就会自动开始运行。但是,模板的可靠性会随着模板与目标序列之间的相似度的降低而降低,如果相似度不到50%往往就需要用手工来调整序列比对。这种模式只能进行大于25个残基的单链蛋白三维结构预测。 ?Alignment Interface(比对界面):这种模式要求用户提供两条已经比对好的序列,并指定哪一条是目标序列,哪一条是模板序列(模板序列应该对应于ExPDB模板数据库中一条已经知道其空间结构的蛋白序列)。服务器会依据用户提供的信息进行建模预测。 ?Project mode(工程模式):手工操作建模过程:该模式需要用户首先构建一个DeepView工程文件,这个工程文件包括模板的结构信息和目标序列与模板序列间的比对信息。这种模式让用户可以控制许多参数,例如:模板的选择,比对中的缺口位置等。此外,这个模式也可以用于“first approach mode简捷模式”输出结果的进一步加工完善。 此外,SWISS-MODEL还具有其他两种内容上的模式: ?Oligomer modeling(寡聚蛋白建模):对于具有四级结构的目标蛋白,SWISS-MODEL提供多聚模板的模式,用于多单体的蛋白质建模。这一模式弥补了简捷模式中只能提交单个目标序列,不能同时预测两条及以上目标序列的蛋白三维结构的不足。 ?GPCR mode(G蛋白偶联受体模式):是专门对7次跨膜G蛋白偶联受体的结构预测。

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件 2010-05-08 20:40 转载自布丁布果 最终编辑布丁布果 4月18日 蛋白质数据库及蛋白质序列分析 第一节、蛋白质数据库介绍 一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库,目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释。该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护。SWISS-PROT 的序列数量呈直线增长。2、TrEMBL数据库: SWISS-PROT的数据存在一个滞后问题,即把EMBL的DNA序列准确地翻译成蛋白质序列并进行注释需要时间。一大批含有开放阅读框(ORF) 的DNA序列尚未列入SWISS-PROT。为了解决这一问题,TrEMBL(Translated EMBL) 数据库被建立了起来。TrEMBL也是一个蛋白质数据库,它包括了所有EMBL库中的蛋白质编码区序列,提供了一个非常全面的蛋白质序列数据源,但这势必导致其注释质量的下降。 3、PIR数据库: PIR数据库的数据最初是由美国国家生物医学研究基金会(National Biomedical Research Foundation, NBRF)收集的蛋白质序列,主要翻译自GenBank的DNA序列。 1988年,美国的NBRF、日本的JIPID(the Japanese International Protein Sequence Database 日本国家蛋白质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息中心)合作,共同收集和维护PIR数据库。PIR根据注释程度(质量)分为4个等级。4、 ExPASy数据库: 目前,瑞士生物信息学研究所(Swiss Institute of Bioinformatics, SIB)创建了蛋白质分析专家系统(Expert protein analysis system, ExPASy )。涵盖了上述所有的数据库。网址:https://www.doczj.com/doc/694077039.html, 我国的北京大学生物信息中心(https://www.doczj.com/doc/694077039.html,) 设立了ExPASy的镜像(Mirror)。 主要蛋白质序列数据库的网址 SWISS-PROT https://www.doczj.com/doc/694077039.html,/sprot 或 https://www.doczj.com/doc/694077039.html,/expasy_urls.html TrEMBL https://www.doczj.com/doc/694077039.html,/sprot PIR https://www.doczj.com/doc/694077039.html,/pirwww MIPS——Munich Information Centre for Protein Sequences http://mips.gsf.de/ JIPID——the Japanese International Protein Sequence Database 已经和PIR合并 ExPASy https://www.doczj.com/doc/694077039.html, 二、蛋白质结构数据库 1、PDB数据库:

蛋白质相互作用数据库和分析方法

蛋白质相互作用数据库和分析方法 1. 蛋白质相互作用的数据库 蛋白质相互作用数据库见下表所示: 数据库名 说明 网址 BIND 生物分子相互作用数据库 http://bind.ca/ DIP 蛋白质相互作用数据库 https://www.doczj.com/doc/694077039.html,/ IntAct 蛋白质相互作用数据库 https://www.doczj.com/doc/694077039.html,/intact/index.html InterDom 结构域相互作用数据库 https://www.doczj.com/doc/694077039.html,.sg/ MINT 生物分子相互作用数据库 http://mint.bio.uniroma2.it/mint/ STRING 蛋白质相互作用网络数据库 http://string.embl.de/ HPRD 人类蛋白质参考数据库 https://www.doczj.com/doc/694077039.html,/ HPID 人类蛋白质相互作用数据库 http://wilab.inha.ac.kr/hpid/ MPPI 脯乳动物相互作用数据库 http://fantom21.gsc.riken.go.jp/PPI/ biogrid 蛋白和遗传相互作用数据,主要来自于酵母、线虫、果蝇和人 https://www.doczj.com/doc/694077039.html,/ PDZbase 包含PDZ 结构域的蛋白质相互作用数据库 https://www.doczj.com/doc/694077039.html,/services/pdz/start Reactome 生物学通路的辅助知识库 https://www.doczj.com/doc/694077039.html,/ 2. 蛋白质相互作用的预测方法 蛋白质相互作用的预测方法很非常多,以下作了简单的介绍 1) 系统发生谱 这个方法基于如下假定:功能相关的(functionally related)基因,在一组完全测序的基因组中预期同时存在或不存在,这种存在或不存在的模式(pattern)被称作系统发育谱;如果两个基因,它们的序列没有同源性,但它们的系统发育谱一致或相似.可以推断它们在功能上是相关的。

蛋白质结构预测在线软件

蛋白质预测分析网址集锦? 物理性质预测:? Compute PI/MW?? ?? SAPS?? 基于组成的蛋白质识别预测? AACompIdent???PROPSEARCH?? 二级结构和折叠类预测? nnpredict?? Predictprotein??? SSPRED?? 特殊结构或结构预测? COILS?? MacStripe?? 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。? 由NCBI检索蛋白质序列? 可联网到:“”进行检索。? 利用SRS系统从EMBL检索蛋白质序列? 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。? 通过EMAIL进行序列检索?

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。? 蛋白质基本性质分析? 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。? 疏水性分析? 位于ExPASy的ProtScale程序(?)可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。? 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如,bioedit,dnamana等。? 跨膜区分析? 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知

第三讲:Uniprot蛋白数据库及其他蛋白质分析工具

第三讲 Uniprot蛋白数据库及其他蛋白质 分析工具
2013/03/19

Uniprot数据库
? Uniprot(Universal?protein?resource)是蛋白 质序列的联合数据库。
– SIB:?Swiss?Institute?of?Bioinformatics – EBI:?European?Bioinformatics?Institute – PIR:?Protein?Information?Resource – 2002年三家联合形成了Uniprot

Swiss‐Prot
? 1986年建立 ? 低冗余度 ? 功能导向 ? 由Swiss?Institute?of?Bioinformatics?和EBI共同 建立并维护

TrEMBL
? TrEMBL=Translation?from?EMBL ? EBI建立并维护 ? 是一个自动数据库 ? 冗余度高,可信度低

UniprotKB
? 部分经过专家注释的数据库 ? 具有很高的可信度 ? 包括两部分UniprotKB/Swiss‐Prot和 UniprotKB/TrEMBL ? UniprotKB/Swiss‐Prot包括539,165条序列 ? UniprotKB/TrEMBL包括29,769,971?条序列 ? 具有非冗余性

Uniparc
? 非冗余性 ? 给予序列的特异性,非同一物种的相同序 列被认为是同一个蛋白质 ? 每一条序列被給予一个特异的编号

整理(蛋白质序列数据库)

蛋白质序列数据库 我们可以根据基因组序列预测新基因,预测编码区域,并推测其产物(即蛋白质)的序列。因此,随着基因组序列的不断增长,蛋白质序列也在不断增加。 PIR 历史上,蛋白质数据库的出现先于核酸数据库。在1960年左右,Dayhoff和其同事们搜集了当时所有已知的氨基酸序列,编著了《蛋白质序列与结构图册》。从这本图册中的数据,演化为后来的蛋白质信息资源数据库PIR(Protein Information Resource)。 PIR是由美国生物医学基金会NBRF(National Biomedical Research Foundation)于1984年建立的,其目的是帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PIR提供一个蛋白质序列数据库、相关数据库和辅助工具的集成系统,用户可以迅速查找、比较蛋白质序列,得到与蛋白质相关的众多信息。目前,PIR已经成为一个集成的生物信息数据源,支持基因组研究和蛋白质组研究。至2004年,PIR 有近30万个蛋白质的登录数据项,包括来自不同生物体的蛋白质序列。 除了蛋白质序列数据之外,PIR还包含以下信息: (1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等; (4)序列中相关的位点、功能区域。 对于数据库中的每一个登录项,有与其它数据库的交叉索引,包括到GenBank、EMBL、DDBJ、GDB、MELINE等数据库的索引。PIR中一个具体的登录项如图4.4所示。

蛋白质的功能域、结构及其药物设计----6

第六章 蛋白质的功能域、结构及其药物设计 随着人类基因组全序列测定的完成,预示着基因组研究从结构基因组(Structural Genomics)进入了功能基因组(Functional Genomics)研究时代。研究基因组功能当然首先要研究基因表达的模式。当前研究这一问题可以基于核酸技术,也可以基于蛋白质技术,即直接研究基因的表达产物。测定一个有机体的基因组所表达的全部蛋白质的设想是由Williams于1994年正式提出的,而“蛋白质组”(proteome)一词是Wilkins于1995年首次提出。蛋白质组是指由一个细胞或组织的基因组所表达的全部相应的蛋白质。蛋白质组与基因组相对应,均是一个整体概念,但是两者又有根本的不同:一个有机体只有一个确定的基因组,组成该有机体的所有不同细胞都共享有一个基因组;但是,基因组内各个基因表达的条件、时间和部位等不同,因而它们的表达产物(蛋白质)也随条件、时间和部位的不同而有所不同。因此,蛋白质组又是一个动态的概念。由于以上原因,再加上由于基因剪接,蛋白质翻译后修饰和蛋白质剪接,基因遗传信息的表达规律更趋复杂,不再是经典的一个基因一个蛋白的对应关系,而是一个基因可以表达的蛋白质数目大于一。由此可见,蛋白质组研究是一项复杂而艰巨的任务。 蛋白质结构与功能的研究已有相当长的历史,由于其复杂性,对其结构与功能的预测不论是方法论还是基础理论方面均较复杂。统计学方法曾被成功地应用于蛋白质二级结构预测中,如Chou和Fasman提出的经验参数法便是最突出的例子。 该方法统计分析了各种氨基酸的二级结构分布特征,得出相应参数(P а,P β 和P t )并 用于预测。本章将简要介绍蛋白质结构与功能预测的生物信息学途径。 第一节 蛋白质功能预测 一、根据序列预测功能的一般过程 如果序列重叠群(contig)包含有蛋白质编码区,则接下来的分析任务是确定表达产物——蛋白质的功能。蛋白质的许多特性可直接从序列上分析获得,如疏水性,它可以用于预测序列是否跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。但是,总的来说,我们根据序列预测蛋白质功能的唯一方法是通过数据库搜寻,比较该蛋白是否与已知功能的蛋白质相似。有2条主要途径可以进行上述的比较分析: ①比较未知蛋白序列与已知蛋白质序列的相似性; ②查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。 图6.1给出了根据序列预测蛋白质功能的大致过程。由于涉及数条技术路线,所得出的分析结果并不会总是相一致。一般来说,数据库相似性搜索获得的结果最为可靠,而来自PROSITE的结果相对不可靠。

UniProt:蛋白质的全信息数据库

Nucleic Acids Research, 2004, Vol. 32, Database issue D115-D119? 2004 Oxford University Press UniProt:蛋白质的全信息数据库 摘要 为了给科学界提供一个专门,集中,权威的蛋白质序列和功能的信息资源,瑞士-Prot,TrEMBL 和PIR蛋白质数据库已经合作组成了蛋白质的全信息数据库 (UniProt)。我们的目的是用广泛的对照和询问接口来提供一个全面的,分类完全的,丰富并且准确的蛋白质序列信息。中心数据库将有两个部分:符合熟悉的瑞士-Prot(完全手工操作入口)和TrEMBL(使用丰富的自动化的分类,注释和广泛的对照)。为方便序列查寻,UniProt也提供几个无冗余的序列数据库。 UniProt NREF(UniRef)数据库为高效率的搜寻提供适当的蛋白质的全信息数据库的代表性的子集。全面的UniProt 档案(UniParc)每天从很多公共来源数据库更新。 数据库那些UniProt接口可在线访问(https://www.doczj.com/doc/694077039.html,)或者以几个形式下载(ftp://https://www.doczj.com/doc/694077039.html,/pub)。我们鼓励科学界人士向UniProt 提供数据。 介绍 近来,瑞士-Prot + TrEMBL和PIR-PSD如同蛋白质数据库不同的序列信息覆盖面和注释优势共存。 2002年,在生物信息科学(SIB)的瑞士研究所和欧洲生物信息科学研究所的瑞士-Prot + TrEMBL 组 (EBI)和蛋白质信息资源(PIR)组织在乔治敦大学医学中心和国家生物医学的研究基金会联合协作。新联合的组织的主要任务是通过建立一个综合,详细分类,丰富并且准确注释蛋白质序列的优质的数据库和广泛序列对比和询问服务的到科学团体免费接口

蛋白质数据库应用swiss-port和PPD

摘要 本文对SWISS-PROT和PDB两个数据库进行了简要介绍以及如何进行序列的单个下载和批量下载进行了说明。 关键词:SWISS-PROT PDB 下载

ABSTRACT In this paper,I make a brief introduction about SWISS-PROT and PDB and how to make a single download and batch download about sequence. Key words:SWISS-PROT PDB download

摘要 0 ABSTRACT (1) 一Swiss-Port的使用方法 (4) 1.1网站简介 (4) 1.2数据下载: (5) 二 PDB的使用方法 (5) 2.1网站简介 (5) 2.2数据下载 (9)

一Swiss-Port的使用方法 SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。Swiss-Port的网址为http://www.expasy.ch/sprot。 1.1网站简介 打开网站后可以找到如下所示部分: 在处可以查询序列。点击后会有如下界面: 在输入区输入序列:MQIFVKTLTGKTITLEVEPSDTIENVKAKIQDKEGIPPDQQRLIFAGKQLEDGRTLSDYNIQKESTLHL VLRLRGG,点击按钮可以进行查找(查找时还可以在其下方进行一系列的筛选条件控制)。 查询后会看到如下界面,在这里可以看到你进行查询的时间,查询所用时间,

蛋白质分析相关数据库及网站

表1蛋白质相互作用分析相关数据库及网站 蛋白质序列分析和结构预测 【实验目的】 1、掌握蛋白质序列检索的操作方法; 2、熟悉蛋白质基本性质分析; 3、熟悉基于序列同源性分析的蛋白质功能预测,了解基于motif、结构位点、结构功能域数据库的蛋白质功能预测; 4、了解蛋白质结构预测。 【实验内容】 1、使用Entrez或SRS信息查询系统检索人脂联素(adiponectin)蛋白质序列; 2、使用BioEdit软件对上述蛋白质序列进行分子质量、氨基酸组成、和疏水性等基本性质分析; 3、对人脂联素蛋白质序列进行基于NCBI/Blast软件的蛋白质同源性分析; 4、对人脂联素蛋白质序列进行motif结构分析; 5、对人脂联素蛋白质序列进行二级结构和三维结构预测。 【实验方法】 1、人脂联素蛋白质序列的检索:

(1)调用Internet浏览器并在其地址栏输入Entrez网址(https://www.doczj.com/doc/694077039.html,/Entrez); (2)在Search后的选择栏中选择protein; (3)在输入栏输入homo sapiens adiponectin; (4)点击go后显示序列接受号及序列名称; (5)点击序列接受号NP_004788 (adiponectin precursor;adipose most abundant gene transcript 1 [Homo sapiens])后显示序列详细信息; (6)将序列转为FASTA格式保存(参考上述步骤使用SRS信息查询系统检索人脂联素蛋白质序列); 2、使用BioEdit软件对人脂联素蛋白质序列进行分子质量、氨基酸组成和疏水性等基本性质分析: 打开BioEdit软件→将人脂联素蛋白质序列的FASTA格式序列输入分析框→点击左侧序列说明框中的序列说明→点击sequence栏→选择protein→点击Amino Acid Composition→查看该蛋白质分子质量和氨基酸组成;或者选择protein后,点击Kyte & Doolittle Mean Hydrophobicity Profile→查看该蛋白质分子疏水性水平; 3、人脂联素蛋白质序列的蛋白质同源性分析: (1)进入NCBI/Blast网页; (2)选择Protein-protein BLAST (blastp); (3)将FASTA格式序列贴入输入栏; (4)点击BLAST; (5)查看与之同源的蛋白质; 4、人脂联素蛋白质序列的motif结构分析: (1)进入http://hits.isb-sib.ch/cgi-bin/PFSCAN网页; (2)将人脂联素蛋白质序列的FASTA格式序列贴入输入栏; (3)点击Scan; (4)查看分析结果(注意Prosite Profile中的motif information); 5、人脂联素蛋白质序列的二级结构预测: (1)进入下列蛋白结构预测服务器网址http://www.embl-heidelberg.de/predictprotein//predictprotein.html

蛋白质结构预测网址

蛋白质结构预测网址 物理性质预测: Compute PI/MW Peptidemass TGREASE SAPS 基于组成的蛋白质识别预测 AACompIdent PROPSEARCH 二级结构和折叠类预测 nnpredict Predictprotein SSPRED 特殊结构或结构预测 COILS MacStripe 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。 由NCBI检索蛋白质序列 可联网到:“”进行检索。 利用SRS系统从EMBL检索蛋白质序列 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。 通过EMAIL进行序列检索 当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。 蛋白质基本性质分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。 疏水性分析 位于ExPASy的ProtScale程序()可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如, bioedit,dnamana等。 跨膜区分析 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库,可通过匿名FTP获得(),参见表一

蛋白质序列分析常用网站-2018.8

蛋白质序列分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。 基本理化性质分析:https://https://www.doczj.com/doc/694077039.html,/protparam/ 信号肽预测:http://www.cbs.dtu.dk/services/SignalP/ 在生物内,蛋白质的合成场所与功能场所常被一层或多层细胞膜所隔开,这样就涉及到蛋白质的转运。合成的蛋白质只有准确地定向运行才能保证生命活动的正常进行。一般来说,蛋白质的定位的信息存在于该蛋白质自身结构中,并通过与膜上特殊的受体相互作用而得以表达。在起始密码子之后,有一段编码疏水性氨基酸序列的RNA片段,这个氨基酸序列就这个氨基酸序列就是信号肽序列。含有信号肽的蛋白质一般都是分泌到细胞外,可能作为重要的细胞因子起作用,从而具有潜在的应用价值。 糖基化位点预测:http://www.cbs.dtu.dk/services/Net NGlyc/ 跨膜区分析:TMORED 蛋白质序列含有跨膜区提示它可能作为膜受体起作用,也可能是定位于膜的锚定蛋白或者离子通道蛋白等,从而,含有跨膜区的蛋白质往往和细胞的功能状态密切相关。 蛋白酶的结构功能进行预测和分析:http://smart.embl-heidelberg.de/ 同源建模分析:https://www.doczj.com/doc/694077039.html,//SWISS-MODEL.html 二级结构及折叠类预测:Predictprotein 特殊结构或结构预测:COILS MacStripe 疏水性分析:ExPASy的ProtScale 基于序列同源性分析的蛋白质功能预测: 至少有80个氨基酸长度范围内具有25%以上序列一致性才提示可能的显著性意义。类似于核酸序列同源性分析,用户直接将待分析的蛋白质序列输入NCBI/BLAST(https://www.doczj.com/doc/694077039.html,/blast),选择程序BLASTP就可网上分析。 基于motif、结构位点、结构功能域数据库的蛋白质功能预测 蛋白质的磷酸化与糖基化对蛋白质的功能影响很大,所以对其的分析也是生物信息学的一个部分。同时,分子进化方面的研究表明,蛋白质的不同区域具有

蛋白数据库汇总

3.1蛋白质数据库及蛋白质序列分析 生物信息学2010-12-21 11:09:05 阅读29 评论0 字号:大中小订阅https://www.doczj.com/doc/694077039.html,/blog/cns!73F6908582B81E1B!456.entry 3.1蛋白质数据库及蛋白质序列分析 第一节、蛋白质数据库介绍 一、蛋白质一级数据库

三、蛋白质二级结构预测网站(数据库)

常与生物学功能相关。

说,我们要建立多个序列之间的关系,这样才能揭示整列比对在阐明一组相关序列的重要生物学模式方面起着 列之间的相似性关系, 序列比对一样,多序列比对的方法建立在某个数学或生 样, 型在多大程度上反映了序列之间的相似性关系以及它们

甘氨酸 我们称比对后序列中残基的位置为相对位置。 置相同,而每个残基的绝对位置不同,因为它们来自不是经过比对后的位置,也就比对过程赋予它的属性。 列比对所需要的计算时间和内存空间与这两个序列的长两个序列长度的乘积, 三序列比对则可以理解为将双序列比对的两维空间扩展面上增加一条坐标轴。这样算法复杂性就变成了 第三条序列的长度。

行少量的较短的序列的比对 出的( 阵来进行序列的比对不太现实, 法,以降低运算复杂度。 程中, 性分数值将它们分成若干组,并在每组之间进行比对,相似性分数值继续分组比对,直到得到最终比对结果。较高的序列先进行比对,而距离较远的序列添加在后面Clusal ),根据对亲缘关系较近的序列间空位情况,确定如何在亲缘关系较远的序列之间插入空位。同样,相似性较高的序列比对结果中的残基突变信息,可用于 是免费软件,很容易从互联网上下载,和其它软件一起,广 本身定义的格式。 GCG 照特定的格式输出,并且在一定程度上反映它们之间的相似性。多序列比对结果所提供的信息对于提高数据库搜索灵敏度也具有很大帮助。因此, 计算机程序将一次数据库按家族分类;另外一些则是通过手工或自动方法 它将大量具有结构相似性的序列归为一类,比如各种不同种类动物的转铁蛋白的基因 列比对信息,开头是一些注释信息,然后给出了比对序列的名字,再下是 对于一个未知的蛋白质序列在该序列可以看看PRINTS数据库关于TRANSFERRIN的 据库在自动比对的基础上进行了手工编辑,查寻PRIN TRANSFERRIN这一类的比对信息,结果可以用模体(用点击链接调用JAVA APPLET进行图形显示,下图是列比对的局部图形,可见PRINTS数据库中TRANSFE 比对形成。

相关主题
文本预览
相关文档 最新文档