整理(蛋白质序列数据库)
- 格式:doc
- 大小:474.00 KB
- 文档页数:15
蛋⽩质分析相关数据库及⽹站表1蛋⽩质相互作⽤分析相关数据库及⽹站蛋⽩质序列分析和结构预测【实验⽬的】1、掌握蛋⽩质序列检索的操作⽅法;2、熟悉蛋⽩质基本性质分析;3、熟悉基于序列同源性分析的蛋⽩质功能预测,了解基于motif、结构位点、结构功能域数据库的蛋⽩质功能预测;4、了解蛋⽩质结构预测。
【实验内容】1、使⽤Entrez或SRS信息查询系统检索⼈脂联素(adiponectin)蛋⽩质序列;2、使⽤BioEdit软件对上述蛋⽩质序列进⾏分⼦质量、氨基酸组成、和疏⽔性等基本性质分析;3、对⼈脂联素蛋⽩质序列进⾏基于NCBI/Blast软件的蛋⽩质同源性分析;4、对⼈脂联素蛋⽩质序列进⾏motif结构分析;5、对⼈脂联素蛋⽩质序列进⾏⼆级结构和三维结构预测。
【实验⽅法】1、⼈脂联素蛋⽩质序列的检索:(1)调⽤Internet浏览器并在其地址栏输⼊Entrez⽹址(/doc/9364f7ae783e0912a3162a12.html/Entrez);(2)在Search后的选择栏中选择protein;(3)在输⼊栏输⼊homo sapiens adiponectin;(4)点击go后显⽰序列接受号及序列名称;(5)点击序列接受号NP_004788 (adiponectin precursor;adipose most abundant gene transcript 1 [Homo sapiens])后显⽰序列详细信息;(6)将序列转为FASTA格式保存(参考上述步骤使⽤SRS信息查询系统检索⼈脂联素蛋⽩质序列);2、使⽤BioEdit软件对⼈脂联素蛋⽩质序列进⾏分⼦质量、氨基酸组成和疏⽔性等基本性质分析:打开BioEdit软件→将⼈脂联素蛋⽩质序列的FASTA格式序列输⼊分析框→点击左侧序列说明框中的序列说明→点击sequence 栏→选择protein→点击Amino Acid Composition→查看该蛋⽩质分⼦质量和氨基酸组成;或者选择protein后,点击Kyte & Doolittle Mean Hydrophobicity Profile→查看该蛋⽩质分⼦疏⽔性⽔平;3、⼈脂联素蛋⽩质序列的蛋⽩质同源性分析:(1)进⼊NCBI/Blast⽹页;(2)选择Protein-protein BLAST (blastp);(3)将FASTA格式序列贴⼊输⼊栏;(4)点击BLAST;(5)查看与之同源的蛋⽩质;4、⼈脂联素蛋⽩质序列的motif结构分析:(1)进⼊http://hits.isb-sib.ch/cgi-bin/PFSCAN⽹页;(2)将⼈脂联素蛋⽩质序列的FASTA格式序列贴⼊输⼊栏;(3)点击Scan;(4)查看分析结果(注意Prosite Profile中的motif information);5、⼈脂联素蛋⽩质序列的⼆级结构预测:(1)进⼊下列蛋⽩结构预测服务器⽹址http://www.embl-heidelberg.de/predictprotein//predictprotein.html(The PredictProtein Server);(2)在You can栏点击default;(3)填写email地址和序列名称;(4)将⼈脂联素蛋⽩质序列的FASTA格式序列贴⼊输⼊栏点击Submit;(5)从email信箱查看分析结果;6、⼈脂联素蛋⽩质序列的三维结构预测:(1)进⼊/doc/9364f7ae783e0912a3162a12.html /swissmod/SWISS-MODEL.html (SwissModel First Approach Mode)⽹页;(2)填写email地址、姓名和序列名称;(3)将⼈脂联素蛋⽩质序列的FASTA格式序列贴⼊输⼊栏;(4)点击Send Request;(5)从email信箱查看分析结果(注:需下载软件⼊rasmol查看三维图象)。
生物信息研究中常用蛋白质数据库简述内蒙古工业大学理学院呼和浩特孙利霞2010.1.5摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。
尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。
随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。
一个新手面对如此浩瀚的数据量往往无从下手。
本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。
关键词:蛋白质;数据库0 引言随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。
蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。
蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。
这些数据库是分子生物信息学的基本数据资源。
上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。
信息的传播储存甚为不便。
随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。
进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。
伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。
但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。
本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。
同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术,为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。
ncbi使用方法(原创版4篇)《ncbi使用方法》篇1CBI(National Center for Biotechnology Information)是美国国家生物技术信息中心的缩写,它提供了许多生物学和生命科学相关的数据库和工具。
以下是使用NCBI 的一些基本方法:1. 核酸序列数据库(Nucleotide Sequence Database):在NCBI 主页上,可以选择核酸序列数据库,输入序列名称或序列号,然后点击“Search”按钮即可查询序列信息。
2. 蛋白质序列数据库(Protein Sequence Database):在NCBI 主页上,可以选择蛋白质序列数据库,输入蛋白质名称或蛋白质号,然后点击“Search”按钮即可查询蛋白质信息。
3. 基因组数据库(Genome Database):在NCBI 主页上,可以选择基因组数据库,输入基因组名称或基因组号,然后点击“Search”按钮即可查询基因组信息。
4. 代谢通路数据库(Metabolic Pathway Database):在NCBI 主页上,可以选择代谢通路数据库,输入代谢通路名称或代谢通路号,然后点击“Search”按钮即可查询代谢通路信息。
5. 生物投影数据库(BioProject Database):在NCBI 主页上,可以选择生物投影数据库,输入生物投影名称或生物投影号,然后点击“Search”按钮即可查询生物投影信息。
6. 序列比对工具(Sequence Alignment Tool):NCBI 提供了一款名为“Clustal Omega”的序列比对工具,可以在NCBI 主页上使用该工具进行序列比对。
7. 基因表达数据库(Gene Expression Database):NCBI 提供了一款名为“GEO”的基因表达数据库,可以在NCBI 主页上查询基因表达数据。
8. 蛋白质结构数据库(Protein Structure Database):NCBI 提供了一款名为“RCSB PDB”的蛋白质结构数据库,可以在NCBI 主页上查询蛋白质结构信息。
生物芯片北京国家工程研究中心湖南中药现代化药物筛选分中心暨湖南涵春生物有限公司常用数据库名录1、蛋白质数据库PPI - JCB 蛋白质与蛋白质相互作用网络•Swiss-Prot - 蛋白质序列注释数据库•Kabat - 免疫蛋白质序列数据库•PMD - 蛋白质突变数据库•InterPro - 蛋白质结构域和功能位点•PROSITE - 蛋白质位点和模型•BLOCKS - 生物序列分析数据库•Pfam - 蛋白质家族数据库 [镜像: St. Louis (USA), Sanger Institute, UK, Karolinska Institutet (Sweden)] •PRINTS - 蛋白质 Motif 数据库•ProDom - 蛋白质结构域数据库 (自动产生)•PROTOMAP - Swiss-Prot蛋白质自动分类系统•SBASE - SBASE 结构域预测数据库•SMART - 模式结构研究工具•STRING - 相互作用的蛋白质和基因的研究工具•TIGRFAMs - TIGR 蛋白质家族数据库•BIND - 生物分子相互作用数据库•DIP - 蛋白质相互作用数据库•MINT - 分子相互作用数据库•HPRD - 人类蛋白质查询数据库•IntAct - EBI 蛋白质相互作用数据库•GRID - 相互作用综合数据库•PPI - JCB 蛋白质与蛋白质相互作用网络2、蛋白质三级结构数据库•PDB - 蛋白质数据银行•BioMagResBank - 蛋白质、氨基酸和核苷酸的核磁共振数据库•SWISS-MODEL Repository - 自动产生蛋白质模型的数据库•ModBase - 蛋白质结构模型数据库•CATH - 蛋白质结构分类数据库•SCOP - 蛋白质结构分类 [镜像: USA | Israel | Singapore | Australia]•Molecules To Go - PDB数据库查询•BMM Domain Server - 生物分子模型数据库•ReLiBase - 受体/配体复合物数据库 [镜像: USA]•TOPS - 蛋白质拓扑图•CCDC - 剑桥晶体数据中心 (剑桥结构数据库 (CSD))•HSSP - 蛋白质二级结构数据库•MutaProt - PDB数据库中点突变的比较•SWISS-3DIMAGE - 蛋白质和其他生物分子的三维图像•BioImage - 生物图像数据库 (包含生物大分子图像) 3、蛋白质组数据库和链接•2-D胶数据库以及与2-D胶相关的数据库•蛋白质组链接4、与核酸相关的数据库•EMBL - EMBL核酸序列数据库 (EBI)•Genbank - GenBank核酸序列数据库 (NCBI)•DDBJ - 日本DNA数据库•dbEST - dbEST(表达序列标签)数据库 (NCBI)•dbSTS - dbSTS(序列标签位点)数据库 (NCBI)•AsDb - 异常剪切数据库•ACUTS - DNA非转录保守序列数据库•密码子数据库•EPD - 真核生物启动子数据库•HOVERGEN - 颈椎动物同源基因数据库•IMGT - 免疫遗传学数据库 [镜像: EBI]•ISIS - 内含子序列信息•RDP - 核糖体数据库•gRNAs db - gRNA数据库•PLACE - 植物DNA顺势调控元件数据库•PlantCARE - 植物中DNA顺势调控组件数据库•ssu rRNA - 欧洲核糖体RNA数据库-小核糖体•lsu rRNA - 欧洲核糖体RNA数据库-大核糖体•5S rRNA - 5S核糖体RNA数据库•tmRNA Website - tmRNA站点•tmRDB - tmRNA数据库•tRNA - tRNA剪切( Bayreuth大学)•uRNA db•RNA editing - RNA剪切位点•RNAmod db - RNA修饰数据库•TelDB - 多介质端粒数据库•MPDB - 分子探针数据库•VectorDB - 载体序列数据库5、糖类•FCCA - 糖类论坛•GlycoSuiteDB - 多聚糖数据库•Monosacharide browser - Space filling Fischer projection for monosaccharides•Thorkild's lectin page - 凝集素通道6、特殊物种数据库:人类:•OMIM - 孟德尔遗传在线--人类•GENATLAS - 人类基因图集•GeneClinics - 医学基因学库•GDB - 基因组数据库•GeneCards - 人类基因整合信息数据库•UDB - 人类基因图谱数据库•Ensembl人类基因组浏览器•UCSC人类基因组工作草图•TIGR HGI - TIGR人类基因组索引•Hs UniGene - GenBank中的人类转录本•STACK - 序列标签比对• - 人类基因预测•GenLink - 人类基因组资源数据库•GeneLynx - 人类基因组•HUGE - 人类未知基因-大型蛋白质反转录得到的cDNA (KIAA...)•HUNT - 人类异常转录本•CGAP - 癌症基因组解剖学•MGC - 哺乳动物基因•SCDb - 干细胞数据库•Homophila - 人类疾病基因与果蝇基因对比数据库•Human Protein Atlas - 人类正常组织蛋白质与癌细胞蛋白质表达与位点的比较•Chr at Rutgers - Rutgers的人类染色体信息•Chr at Sanger - Sanger Center的人类染色体信息•Chr Swiss-Prot list - Swiss-Prot的染色体信息脊椎动物:•OMIA - 孟德尔遗传在线--动物•MGI - 小鼠基因组学信息 [镜像: Australia]•Ensembl小鼠基因组浏览器•TIGR MGI - TIGR小鼠基因索引•Mm UniGene - GenBank 中的小鼠转录本(EST clusters) •MGC - 哺乳动物基因•Mouse gene knockouts db - 小鼠基因敲除数据库•RGD - 大鼠基因组数据库•RatMAP - 大鼠基因组数据库•TIGR RGI - TIGR大鼠基因组数据库•Rn Unigene - GenBank 中的大鼠转录本(EST clusters) •BOVMAP - 牛基因数据库 (法国)•DGP - 狗基因数据库•MIS - 孟德尔遗传--羊•Ark-Cat - 猫基因组数据库•Ark-Chicken - 鸡基因组数据库•Ark-Cow - 奶牛基因组数据库•Ark-Deer - 鹿基因组数据库•Ark-Horse - 马基因组数据库•Ark-Pig - 猪基因组数据库•Ark-Sheep - 绵羊基因组数据库•Ark-Turkey - 火鸡基因组数据库•FishBase -鱼类综合信息系统•Fugu genome project - 河豚基因组•Fugu - HGMP 河豚数据•- Ensembl 河豚基因组浏览器•Medakafish - Mekada fish (Oryzias latipes) server •Ark-Tilapia - 罗飞鱼基因组数据库•Ark-Salmon - 大马哈鱼基因组数据库•The fish net - 斑马鱼基因组数据库•Ensembl斑马鱼基因组浏览器线粒体和叶绿体:•GOBASE - 细胞器基因组数据库•MitoDat - 孟德尔遗传和线粒体数据库• C.caldarium - 蓝藻纲PK1菌株叶绿体基因组昆虫•Drosophila Swiss-Prot list - Swiss-Prot中的果蝇链接•FlyBase - 果蝇遗传数据库和分子数据库•BDGP - Berkeley果蝇基因组项目•FlyView - 果蝇图像数据库•Homophila - 人类疾病与果蝇基因对照数据库•蚊子基因组学•AnoDB - 疟蚊数据库•Ensembl蚊子基因组浏览器7、人类突变数据库•HGMD - 人类基因突变数据库•SVD - EBI序列变异数据库•GeneDis - 人类遗传病数据库8、特殊基因和蛋白质数据库•Allergens in Swiss-Prot - Swiss-Prot中过敏反应的命名与索引•Allergome - 过敏症反应分子数据库•Aminoacyl-tRNA synthetases in Swiss-Prot - Swiss-Prot 中氨基化tRNA合成酶列表9、转录后修饰数据库•DSDBASE - 二硫化物数据库 (数据来源于三级结构数据库) •GlycoSuiteDB - 多聚糖结构数据库•LIPID MAPS - 脂类代谢及路径10、系统发生学数据库•COG - 全基因组中编码的蛋白质的系统发生学分类方法•EGO - 真核生物基因分类方法•InParanoid - 真核生物分类11、芯片数据库•ArrayExpress - EBI中芯片数据•ExpressDB - 酵母菌和大肠杆菌表达数据库•GeneX - 基因表达工程12、专利数据库•DPD - DNA专利数据库•Ag Patents - USDA收录的农业工艺专利•Esp@cenet - 欧洲专利事务所专利信息数据库 (世界范围内)13、参考文献(目录数据库)•PubMed Medline server - PubMed查询•AGRICOLA - NAL农业查询数据库•Article@INIST - 科技信息数据库•Korean Journals Abstract db - 韩国杂志摘要数据库•SeqAnalRef - 序列分析文献14、字典, 读物, 课程 ,命名法•BioABACUS - 缩写词•BioTech's life science dictionary生物科技及生命科学字典•DCB - 细胞生物学字典(Julian Dow编写)15、生物软件数据库及目录•CLC Free Workbench - 可在Linux, MacOS X and Windows操作系统上运行的,对DNA、RNA和蛋白质进行算法分析的软件•CLC Protein Workbench - 可在Linux, MacOS X and Windows 操作系统上运行的,对DNA、RNA和蛋白质进行算法分析的软件•BioCatalog - EBI的生物目录16、生命科学资源•Biofind - 生物科技工业信息、评论及新闻•Bioinformatik.de - 生物信息学网页目录17、生物杂志和发行人•生物杂志主页:Swiss-Prot journals list - Swiss-Prot杂志列表• - 电子出版物目录• - 电子期刊目录18、发行人•Allen Press, Inc. - Allen出版社•AMA - 美国医学联合出版物•ACS - 美国化工协会出版物19、生物信息学杂志和通讯•BioInformer - EBI通讯•NCBI Newsletter -NCBI通讯•PDB Quaterly Newsletter - PDB通讯20、基因组通讯•Human Genome Project Information - 人类基因组计划•FGN - 真菌遗传学•Rice Genome Newsletter - 水稻基因组21、其他•IJC - 化学杂志•Plant Gene Register - 植物基因注册22、生物商业杂志•BioCentury - 生物世纪•BioWorld Online - 生物世界•Drug Discovery and Development - 药物发现和发展•GEN - 基因工程新闻23、综合性科学杂志•Nature•New Scientist•La Recherche•Science•Scientific American24、生物学研究机构•APS - 美国缩氨酸社区•ASCB - 美国细胞生物学社区•ASHG - 美国人类遗传学社区25、计算生物学服务器主页欧洲:•EBI - 欧洲生物信息学协会•EMBnet - 欧洲分子生物信息学网•EMBL - EMBL计算生物学机构美国和加拿大:•NCBI - 美国生物学信息中心•ABCC - NCI高级生物医学计算中心•ACGT - Oklahoma大学基因组技术中心亚洲•APBioNet - 亚太生物信息网•BIC-JNU - Jawaharlal Nehru大学生物信息学中心•DIC - Pune (印度)大学生物信息澳洲•APBioNet - 亚太生物信息网•ANGIS - 澳大利亚国家遗传信息服务中心•ANU - 澳大利亚国大学生物信息学研究组•APAF - 澳大利亚蛋白质组分析工具26、其他•HUJI - 耶路撒冷Hebrew大学基因组学和生物信息学服务中心•Weizmann Bioinfo/BCU - Weizmann计算生物学和生物信息学研究协会•SANBI - 南非生物信息学研究协会27、生物公司和制药公司•美国药物研究和制造商目录•Bioportfolio - 生物技术企业•Affymetrix, Inc. - Affymetrix公司28、生物信息公司•Aborygen•Accelrys, Inc•AlgoNomics NV t29、其他链接其他医学查询•HON - 基于网络的健康服务• - 药物网络指南•MedWeb - 医学链接其他科学查询•GPSDB - 基因和蛋白质同义词数据库•Chemcyclopedia Online - 商业化学试剂数据库。
质谱数据分析资源1 数据库(1)蛋白质序列数据库://sites/entrez?db=Protein/IPI/IPIhelp.html(2)实验数据:/pride/startBrowse.do/OPD///data.jspAdipose Proteome Database: http://proteome.biochem.mpg.de/adipoOrganellar Map Database: http://proteome.biochem.mpg.de/ormd/Body Fluid Database - Seminal: http://proteome.biochem.mpg.de/seminal/Body Fluid Database - Tear: http://proteome.biochem.mpg.de/tear/Body Fluid Database - Urinary: http://proteome.biochem.mpg.de/urine/Red Blood Cell Database: http://proteome.biochem.mpg.de/rbc/2 数据分析工具(1)蛋白质组专家系统:/tools/ 提供的工具链接:Aldente:利用PMF数据鉴定蛋白质,使用了Hough变换来处理图谱,对图谱进行再校正和异常值排除。
提供单机版下载。
FindMod:利用PMF数据鉴定蛋白质中存在的修饰,考虑的修饰是Swiss-Prot数据库中包含的注释。
FindPept:利用PMF数据鉴定蛋白质,处理非特异性酶切的数据,考虑了化学修饰,翻译后修饰等因素。
GlycoMod:利用PMF数据预测蛋白质中可能发生的糖基化修饰,鉴定糖肽。
Mascot:商业化的数据库搜索软件,提供PMF搜库,PFF搜库以及混合搜库的功能,网站有大量的背景知识介绍。
网址为:/。
PepMAPPER:PMF数据搜索软件。
生物信息学中常用的数据类型和数据库类型
在生物信息学中,常用的数据类型包括:
1. 基因组序列数据:包括DNA和RNA序列的原始数据,如FASTA格式或FASTQ格式。
2. 转录组数据:包括基因表达谱、剪接变异等,如RNA-seq数据。
3. 蛋白质序列数据:包括蛋白质的氨基酸序列,如UniProt数据库。
4. 基因组结构数据:包括基因位置、外显子、内含子等信息。
5. 遗传变异数据:包括SNP、INDEL、CNV等遗传变异信息。
6. 蛋白质结构数据:包括蛋白质的三维空间结构,如PDB数据库。
在生物信息学中,常用的数据库类型包括:
1. 基因组数据库:如NCBI GenBank、ENSEMBL等,存储基因组序列和注释信息。
2. 转录组数据库:如NCBI SRA、ENA等,存储RNA-seq和其他转录组数据。
3. 蛋白质数据库:如UniProt、Swiss-Prot等,存储蛋白质序列和注释信息。
4. 遗传变异数据库:如dbSNP、ClinVar等,存储遗传变异信息。
5. 蛋白质结构数据库:如PDB、CATH等,存储蛋白质的三维结构信息。
6. 功能注释数据库:如GO数据库、KEGG数据库等,存储基因和蛋白质的功能注释信息。
7. 互作数据库:如STRING数据库、BioGRID数据库等,存储基因和蛋白质之
间的相互作用信息。
蛋白质数据库1. PIR和PSDPIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库,可在这里下载。
这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,其中包括来自几十个完整基因组的蛋白质序列。
所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。
PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。
每季度都发行一次完整的数据库,每周可以得到更新部分。
PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。
PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
2. SWISS-PROTSWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。
数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。
SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。
利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。
SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。
3. PROSITEPROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。
蛋⽩质数据库
⼀、蛋⽩质数据库
》序列数据库:Uniprot (蛋⽩质序列和具有综合功能注释⽬录的中⼼资源库)
PIR (提供蛋⽩质序列数据和分析⼯具)
》结构数据库:PDB (实验测定的⽣物⼤分⼦三维结构)
MMDB
》模体及结构域数据库:PROSITE (蛋⽩质序列功能位点数据库)
Pfom (使⽤基于隐马模型的多序列⽐对对蛋⽩质进⾏家族分类) 》蛋⽩质分类数据库:SCOP (提供已知结构蛋⽩质间的结构和进化关系信息)
CAHT
HSSP
DSSP
⼆、蛋⽩质组数据库
》SWEISS PROT 2DE PAGE / neXtProt / PaxDb / PeptideAtlas / PRIDE
涉及不同⽣物、不同器官、组织、细胞的蛋⽩质图谱数据
三、蛋⽩质互作组数据库
》HPRD / DIP / INTERACT
四、综合型数据库
》ExPASy。
蛋白质序列数据库我们可以根据基因组序列预测新基因,预测编码区域,并推测其产物(即蛋白质)的序列。
因此,随着基因组序列的不断增长,蛋白质序列也在不断增加。
PIR历史上,蛋白质数据库的出现先于核酸数据库。
在1960年左右,Dayhoff和其同事们搜集了当时所有已知的氨基酸序列,编著了《蛋白质序列与结构图册》。
从这本图册中的数据,演化为后来的蛋白质信息资源数据库PIR(Protein Information Resource)。
PIR是由美国生物医学基金会NBRF(National Biomedical Research Foundation)于1984年建立的,其目的是帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。
它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。
所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。
PIR提供一个蛋白质序列数据库、相关数据库和辅助工具的集成系统,用户可以迅速查找、比较蛋白质序列,得到与蛋白质相关的众多信息。
目前,PIR已经成为一个集成的生物信息数据源,支持基因组研究和蛋白质组研究。
至2004年,PIR 有近30万个蛋白质的登录数据项,包括来自不同生物体的蛋白质序列。
除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。
对于数据库中的每一个登录项,有与其它数据库的交叉索引,包括到GenBank、EMBL、DDBJ、GDB、MELINE等数据库的索引。
PIR中一个具体的登录项如图4.4所示。
PIR提供三种类型的检索服务。
一是基于文本的交互式查询,用户通过关键字进行数据查询。
二是标准的序列相似性搜索,包括BLAST、FastA等。
三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。
目前,PIR包括三个子数据库,分别是蛋白质序列数据库PIR-PSD、蛋白质分类数据库iProClass以及非冗余的蛋白质参考资料数据库PIR-NREF。
SWISS-PROTSWISS-PROT是由Geneva大学和欧洲生物信息学研究所(EBI)于1986年联合建立的,它是目前国际上权威的蛋白质序列数据库。
SWISS-PROT 中的蛋白质序列是经过注释的。
SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据。
2004年3月的SWISS-PROT 43.0 版本有146720序列登录项,包含摘自113719篇参考文献的54093154个氨基酸。
与其它蛋白质序列数据库相比较,SWISS-PROT有三个明显的特点:(1)注释在SWISS-PROT中,数据分为核心数据和注释两大类。
对于数据库中的每一个序列登录项,核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)等,而注释包括:①蛋白质的功能描述;②翻译后修饰;③域和功能位点,如钙结合区域、ATP结合位点等;④蛋白质的二级结构;⑤蛋白质的四级结构,如同构二聚体、异构三聚体等;⑥与其它蛋白质的相似性;⑦由于缺乏该蛋白质而引起的疾病;⑧序列的矛盾、变化等。
(2)最小冗余对于给定的蛋白质,许多数据库根据不同的文献报道设置分立的登录项,而在SWISS-PROT 中,尽量将相关的数据归并,降低数据库的冗余程度。
如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。
(3)与其它数据库的连接SWISS-PROT目前已经建立了与其它30多个相关数据库的交叉索引,即对于每一个SWISS-PROT的登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。
例如,根据到蛋白质结构数据库的索引,用户不仅可以得到某个蛋白质的序列,还可以进一步得到其结构。
现有的交叉索引有:到EMBL核酸序列数据库的索引,到PROSITE模式数据库的索引,到生物大分子结构数据库PDB的索引等。
与前面介绍的核酸序列数据库EMBL类似,每一个SWISS-PROT的条目用外在的ASCII 文件表示,两者主要差别在于特征表的不同。
用户可以通过网络将蛋白质序列数据提交给SWISS-PROT,或者对蛋白质数据进行修改。
SWISS-PROT提供序列序列查询及相似蛋白质序列搜索工具TrEMBL大多数蛋白质序列不是直接由实验得到,而是通过DNA序列映射而得到的。
TrEMBL是一个计算机注释的蛋白质数据库,作为SWISS-PROT数据库的补充。
该数据库主要包含从EMBL/ Genbank/DDBJ核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且,这些序列尚未集成到SWISS-PROT数据库中。
TrEMBL有两个部分,分别是SP-TrEMBL (SWISS-PROT TrEMBL)和REM-TrEMBL (REMaining TrEMBL)。
SP-TrEMBL包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。
这部分数据可以看成是SWISS-PROT数据库的预备队。
REM-TrEMBL包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。
如人工合成的蛋白质序列、申请专利的序列、伪基因对应的蛋白质序列等。
TrEMBL(16.0版,2001年3月)根据EMBL的核酸数据库(65.0版)建立,共有489620条序列,包括141347364个氨基酸。
为了减少冗余,若根据核酸编码序列翻译的蛋白质序列已经出现在SWISS-PROT,则将对应的序列删除。
TrEMBL数据库的26.0版(2004年3月)拥有1069649条蛋白质序列,总氨基酸长度达到335331748。
目前,欧洲生物信息学研究所EBI 将上述3个蛋白质数据库(即PIR 、SWISS-PROT和TrEMBL)统一起来,建立了一个蛋白质数据仓库UniProt(Universal Protein Resource,/uniprot/index.html)。
UniProt包含3个部分:(1)UniProt Knowledgebase (UniProt),这是蛋白质序列、功能、分类、交叉引用等信息存取中心;(2)UniProt Non-redundant Reference(UniRef)数据库,该数据库将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;(3)UniProt Archive(UniParc),是一个资源库,记录所有蛋白质序列的历史。
用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP 下载数据。
在生物学研究中,分子的结构是最重要的数据,它提供很多信息,包括生物分子的功能、作用机制、进化历史等。
目前,国际上最主要的生物大分子结构数据库是PDB。
PDB目前,国际上著名的生物大分子结构数据库是美国Brookhaven实验室的大分子结构数据库PDB(/pdb/home/home.do)。
PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,其中主要是蛋白质的三维结构,还包括核酸、糖类、蛋白质与核酸复合物的三维结构。
截止2004年5月,PDB数据库已含有约25000个结构,其中90%是蛋白质的结构。
对于每一个结构,包含名称、参考文献、序列、一级结构、二级结构和原子坐标等信息。
PDB中的每条记录有两种序列信息,一种是显式序列信息(explicit sequence),一种是隐式序列信息(implicit sequence)。
在PDB文件中,以关键字SEQRES作为显式序列标记,以该关键字打头的每一行都是关于序列的信息。
对于氨基酸残基,采用三字符的表示方式,这一点与其它序列数据库不一样。
PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。
在实际应用中,PDB数据库应与结构模型显示软件结合起来。
因为PDB的主要信息是三维结构,如果直接将三维结构信息以文本的形式返回给用户,用户将难以分析这些结构信息,实用的方法是,通过分子模型化软件,以图形方式显示三维结构。
这样的软件在Internet网上有许多,如RasMol、ChemView 等,这些软件能够以各种各样的模型显示生物大分子的三维结构,如结构骨架模型、棒状模型、球棒模型、空间填充模型、带状模型等。
此外,在PDB中还说明蛋白质某些特定部位的二级结构类型,如α螺旋和β折叠。
MMDB分子模型MMDB(Molecular Modeling Database)是美国生物技术信息中心(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。
该数据库实际上是生物大分子PDB的一个编辑版本,仅仅剔除PDB中理论计算的模型结构。
MMDB 的3W地址为/Structure/MMDB/mmdb.shtml。
与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,同时,还包括生物大分子之间关系的信息。
此外,系统还提供生物大分子三维结构模型显示、结构分析和结构比较工具。
MMDB采用ASN.1的记录格式,而非PDB格式。
蛋白质结构分类数据库SCOP具有相似结构的蛋白质很可能具有共同的祖先。
几乎对于任何一个蛋白质都能找到与其它一些具有相似结构的蛋白质,其中的一些蛋白质拥有一个共同的进化原始结构。
这种关系对于了解蛋白质的进化和发展是非常关键的,同样对于分析基因组序列数据也是非常重要的。
为了分析蛋白质序列与结构之间的关系,认识不同折叠结构的进化过程,需要研究蛋白质结构分类的方法,并建立结构分类数据库。
SCOP数据库(Structural Classification of Proteins,/scop/)就是一个蛋白质结构分类数据库。
SCOP 的目标是提供关于已知结构蛋白质之间的结构和进化关系的SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的链接,序列,参考文献,结构的图像等。
从目前的技术来看,很难借助于自动的序列和结构比较工具发现蛋白质之间的结构和进化关系,因此,SCOP的结构分类主要是通过人工来完成的,通过图形显示器观察和比较蛋白质结构,并借助于一些软件工具进行分析,如同源序列搜索工具。