蛋白质结构数据库
- 格式:ppt
- 大小:3.84 MB
- 文档页数:41
生物学pdbPDB是指蛋白质数据银行,是一个全球性的计算生物学知识库,主要收集了生物大分子如蛋白质,核酸等的三维结构信息,是结构生物学研究的重要工具之一。
下面将为大家介绍生物学PDB。
一、 PDB的定义PDB,即Protein Data Bank,是由美国提供的国际性蛋白质结构数据库,也是生物分子结构的重要资源库之一。
所有收录的分子都是根据晶体学或核磁共振等技术测定的三维结构。
PDB目前由美国PDB,欧洲PDB以及日本PDB三个组织共同维护。
1. 结构生物学研究PDB中收集了全球范围内的各种生物分子的三维结构信息,为结构生物学研究提供了重要工具。
研究者可以通过PDB中的数据比对、建模、分析等手段,揭示生物分子的结构、功能、互作等重要信息,深入了解生命在分子水平上的规律性。
2. 新药研究PDB中收录了多个蛋白质的三维结构信息,这些蛋白质与常见疾病存在相关性。
通过研究蛋白质的结构,可以发现药物靶点蛋白的结构特征,确定有效的药物分子。
这为新药的设计及开发提供了可靠的基础。
PDB中收录的三维结构数据是生物信息学研究的重要资源。
利用PDB中的数据,可以对各种蛋白质的序列和结构进行比对和分析,挖掘出结构域、保守域、折叠域等重要的结构信息。
此外,还可以通过PDB中的数据进行生物网络分析,探索蛋白质相互作用及合成有机体的相关机制。
PDB record一般包含以下10个部分HEADER:记录的大标题,通常为分子名称。
OBSLTE:关于PDB ID的历史信息。
TITLE:分子的名称,可以包括其分类、来源、功能、序列等信息。
EXPDTA:记录分子的实验方法。
AUTHOR:分子的上传者、解析者的相关信息。
REMARK:记录实验、结构的相关信息详细信息。
DBREF: 记录当前分子在其他数据库中的编号、序列等信息。
SEQADV: 当分子序列中存在特异点时,该记录用于存储序列变异信息。
SEQRES:仅仅用于纪录实验所得分子的氨基酸残基顺序。
生物芯片北京国家工程研究中心湖南中药现代化药物筛选分中心暨湖南涵春生物有限公司常用数据库名录1、蛋白质数据库PPI - JCB 蛋白质与蛋白质相互作用网络•Swiss-Prot - 蛋白质序列注释数据库•Kabat - 免疫蛋白质序列数据库•PMD - 蛋白质突变数据库•InterPro - 蛋白质结构域和功能位点•PROSITE - 蛋白质位点和模型•BLOCKS - 生物序列分析数据库•Pfam - 蛋白质家族数据库 [镜像: St. Louis (USA), Sanger Institute, UK, Karolinska Institutet (Sweden)] •PRINTS - 蛋白质 Motif 数据库•ProDom - 蛋白质结构域数据库 (自动产生)•PROTOMAP - Swiss-Prot蛋白质自动分类系统•SBASE - SBASE 结构域预测数据库•SMART - 模式结构研究工具•STRING - 相互作用的蛋白质和基因的研究工具•TIGRFAMs - TIGR 蛋白质家族数据库•BIND - 生物分子相互作用数据库•DIP - 蛋白质相互作用数据库•MINT - 分子相互作用数据库•HPRD - 人类蛋白质查询数据库•IntAct - EBI 蛋白质相互作用数据库•GRID - 相互作用综合数据库•PPI - JCB 蛋白质与蛋白质相互作用网络2、蛋白质三级结构数据库•PDB - 蛋白质数据银行•BioMagResBank - 蛋白质、氨基酸和核苷酸的核磁共振数据库•SWISS-MODEL Repository - 自动产生蛋白质模型的数据库•ModBase - 蛋白质结构模型数据库•CATH - 蛋白质结构分类数据库•SCOP - 蛋白质结构分类 [镜像: USA | Israel | Singapore | Australia]•Molecules To Go - PDB数据库查询•BMM Domain Server - 生物分子模型数据库•ReLiBase - 受体/配体复合物数据库 [镜像: USA]•TOPS - 蛋白质拓扑图•CCDC - 剑桥晶体数据中心 (剑桥结构数据库 (CSD))•HSSP - 蛋白质二级结构数据库•MutaProt - PDB数据库中点突变的比较•SWISS-3DIMAGE - 蛋白质和其他生物分子的三维图像•BioImage - 生物图像数据库 (包含生物大分子图像) 3、蛋白质组数据库和链接•2-D胶数据库以及与2-D胶相关的数据库•蛋白质组链接4、与核酸相关的数据库•EMBL - EMBL核酸序列数据库 (EBI)•Genbank - GenBank核酸序列数据库 (NCBI)•DDBJ - 日本DNA数据库•dbEST - dbEST(表达序列标签)数据库 (NCBI)•dbSTS - dbSTS(序列标签位点)数据库 (NCBI)•AsDb - 异常剪切数据库•ACUTS - DNA非转录保守序列数据库•密码子数据库•EPD - 真核生物启动子数据库•HOVERGEN - 颈椎动物同源基因数据库•IMGT - 免疫遗传学数据库 [镜像: EBI]•ISIS - 内含子序列信息•RDP - 核糖体数据库•gRNAs db - gRNA数据库•PLACE - 植物DNA顺势调控元件数据库•PlantCARE - 植物中DNA顺势调控组件数据库•ssu rRNA - 欧洲核糖体RNA数据库-小核糖体•lsu rRNA - 欧洲核糖体RNA数据库-大核糖体•5S rRNA - 5S核糖体RNA数据库•tmRNA Website - tmRNA站点•tmRDB - tmRNA数据库•tRNA - tRNA剪切( Bayreuth大学)•uRNA db•RNA editing - RNA剪切位点•RNAmod db - RNA修饰数据库•TelDB - 多介质端粒数据库•MPDB - 分子探针数据库•VectorDB - 载体序列数据库5、糖类•FCCA - 糖类论坛•GlycoSuiteDB - 多聚糖数据库•Monosacharide browser - Space filling Fischer projection for monosaccharides•Thorkild's lectin page - 凝集素通道6、特殊物种数据库:人类:•OMIM - 孟德尔遗传在线--人类•GENATLAS - 人类基因图集•GeneClinics - 医学基因学库•GDB - 基因组数据库•GeneCards - 人类基因整合信息数据库•UDB - 人类基因图谱数据库•Ensembl人类基因组浏览器•UCSC人类基因组工作草图•TIGR HGI - TIGR人类基因组索引•Hs UniGene - GenBank中的人类转录本•STACK - 序列标签比对• - 人类基因预测•GenLink - 人类基因组资源数据库•GeneLynx - 人类基因组•HUGE - 人类未知基因-大型蛋白质反转录得到的cDNA (KIAA...)•HUNT - 人类异常转录本•CGAP - 癌症基因组解剖学•MGC - 哺乳动物基因•SCDb - 干细胞数据库•Homophila - 人类疾病基因与果蝇基因对比数据库•Human Protein Atlas - 人类正常组织蛋白质与癌细胞蛋白质表达与位点的比较•Chr at Rutgers - Rutgers的人类染色体信息•Chr at Sanger - Sanger Center的人类染色体信息•Chr Swiss-Prot list - Swiss-Prot的染色体信息脊椎动物:•OMIA - 孟德尔遗传在线--动物•MGI - 小鼠基因组学信息 [镜像: Australia]•Ensembl小鼠基因组浏览器•TIGR MGI - TIGR小鼠基因索引•Mm UniGene - GenBank 中的小鼠转录本(EST clusters) •MGC - 哺乳动物基因•Mouse gene knockouts db - 小鼠基因敲除数据库•RGD - 大鼠基因组数据库•RatMAP - 大鼠基因组数据库•TIGR RGI - TIGR大鼠基因组数据库•Rn Unigene - GenBank 中的大鼠转录本(EST clusters) •BOVMAP - 牛基因数据库 (法国)•DGP - 狗基因数据库•MIS - 孟德尔遗传--羊•Ark-Cat - 猫基因组数据库•Ark-Chicken - 鸡基因组数据库•Ark-Cow - 奶牛基因组数据库•Ark-Deer - 鹿基因组数据库•Ark-Horse - 马基因组数据库•Ark-Pig - 猪基因组数据库•Ark-Sheep - 绵羊基因组数据库•Ark-Turkey - 火鸡基因组数据库•FishBase -鱼类综合信息系统•Fugu genome project - 河豚基因组•Fugu - HGMP 河豚数据•- Ensembl 河豚基因组浏览器•Medakafish - Mekada fish (Oryzias latipes) server •Ark-Tilapia - 罗飞鱼基因组数据库•Ark-Salmon - 大马哈鱼基因组数据库•The fish net - 斑马鱼基因组数据库•Ensembl斑马鱼基因组浏览器线粒体和叶绿体:•GOBASE - 细胞器基因组数据库•MitoDat - 孟德尔遗传和线粒体数据库• C.caldarium - 蓝藻纲PK1菌株叶绿体基因组昆虫•Drosophila Swiss-Prot list - Swiss-Prot中的果蝇链接•FlyBase - 果蝇遗传数据库和分子数据库•BDGP - Berkeley果蝇基因组项目•FlyView - 果蝇图像数据库•Homophila - 人类疾病与果蝇基因对照数据库•蚊子基因组学•AnoDB - 疟蚊数据库•Ensembl蚊子基因组浏览器7、人类突变数据库•HGMD - 人类基因突变数据库•SVD - EBI序列变异数据库•GeneDis - 人类遗传病数据库8、特殊基因和蛋白质数据库•Allergens in Swiss-Prot - Swiss-Prot中过敏反应的命名与索引•Allergome - 过敏症反应分子数据库•Aminoacyl-tRNA synthetases in Swiss-Prot - Swiss-Prot 中氨基化tRNA合成酶列表9、转录后修饰数据库•DSDBASE - 二硫化物数据库 (数据来源于三级结构数据库) •GlycoSuiteDB - 多聚糖结构数据库•LIPID MAPS - 脂类代谢及路径10、系统发生学数据库•COG - 全基因组中编码的蛋白质的系统发生学分类方法•EGO - 真核生物基因分类方法•InParanoid - 真核生物分类11、芯片数据库•ArrayExpress - EBI中芯片数据•ExpressDB - 酵母菌和大肠杆菌表达数据库•GeneX - 基因表达工程12、专利数据库•DPD - DNA专利数据库•Ag Patents - USDA收录的农业工艺专利•Esp@cenet - 欧洲专利事务所专利信息数据库 (世界范围内)13、参考文献(目录数据库)•PubMed Medline server - PubMed查询•AGRICOLA - NAL农业查询数据库•Article@INIST - 科技信息数据库•Korean Journals Abstract db - 韩国杂志摘要数据库•SeqAnalRef - 序列分析文献14、字典, 读物, 课程 ,命名法•BioABACUS - 缩写词•BioTech's life science dictionary生物科技及生命科学字典•DCB - 细胞生物学字典(Julian Dow编写)15、生物软件数据库及目录•CLC Free Workbench - 可在Linux, MacOS X and Windows操作系统上运行的,对DNA、RNA和蛋白质进行算法分析的软件•CLC Protein Workbench - 可在Linux, MacOS X and Windows 操作系统上运行的,对DNA、RNA和蛋白质进行算法分析的软件•BioCatalog - EBI的生物目录16、生命科学资源•Biofind - 生物科技工业信息、评论及新闻•Bioinformatik.de - 生物信息学网页目录17、生物杂志和发行人•生物杂志主页:Swiss-Prot journals list - Swiss-Prot杂志列表• - 电子出版物目录• - 电子期刊目录18、发行人•Allen Press, Inc. - Allen出版社•AMA - 美国医学联合出版物•ACS - 美国化工协会出版物19、生物信息学杂志和通讯•BioInformer - EBI通讯•NCBI Newsletter -NCBI通讯•PDB Quaterly Newsletter - PDB通讯20、基因组通讯•Human Genome Project Information - 人类基因组计划•FGN - 真菌遗传学•Rice Genome Newsletter - 水稻基因组21、其他•IJC - 化学杂志•Plant Gene Register - 植物基因注册22、生物商业杂志•BioCentury - 生物世纪•BioWorld Online - 生物世界•Drug Discovery and Development - 药物发现和发展•GEN - 基因工程新闻23、综合性科学杂志•Nature•New Scientist•La Recherche•Science•Scientific American24、生物学研究机构•APS - 美国缩氨酸社区•ASCB - 美国细胞生物学社区•ASHG - 美国人类遗传学社区25、计算生物学服务器主页欧洲:•EBI - 欧洲生物信息学协会•EMBnet - 欧洲分子生物信息学网•EMBL - EMBL计算生物学机构美国和加拿大:•NCBI - 美国生物学信息中心•ABCC - NCI高级生物医学计算中心•ACGT - Oklahoma大学基因组技术中心亚洲•APBioNet - 亚太生物信息网•BIC-JNU - Jawaharlal Nehru大学生物信息学中心•DIC - Pune (印度)大学生物信息澳洲•APBioNet - 亚太生物信息网•ANGIS - 澳大利亚国家遗传信息服务中心•ANU - 澳大利亚国大学生物信息学研究组•APAF - 澳大利亚蛋白质组分析工具26、其他•HUJI - 耶路撒冷Hebrew大学基因组学和生物信息学服务中心•Weizmann Bioinfo/BCU - Weizmann计算生物学和生物信息学研究协会•SANBI - 南非生物信息学研究协会27、生物公司和制药公司•美国药物研究和制造商目录•Bioportfolio - 生物技术企业•Affymetrix, Inc. - Affymetrix公司28、生物信息公司•Aborygen•Accelrys, Inc•AlgoNomics NV t29、其他链接其他医学查询•HON - 基于网络的健康服务• - 药物网络指南•MedWeb - 医学链接其他科学查询•GPSDB - 基因和蛋白质同义词数据库•Chemcyclopedia Online - 商业化学试剂数据库。
引言:蛋白质数据是生物信息学领域中非常重要的资源之一,它提供了大量关于蛋白质序列、结构、功能以及相互作用等方面的信息。
本文旨在介绍如何使用蛋白质数据库,帮助用户更好地利用这一资源进行研究。
概述:蛋白质数据库是一个集成了许多蛋白质信息的在线资源,用户可以通过搜索、浏览、等方式获取所需的信息。
其中,常用的蛋白质数据库包括NCBI、UniProt、PDB等。
这些数据库提供了丰富的蛋白质数据,并且不断更新以满足用户需求。
正文内容:1.数据库搜索功能1.1.关键词搜索1.1.1.输入蛋白质名称1.1.2.输入序列片段1.1.3.输入关键词1.2.高级搜索选项1.2.1.提供更精确的搜索结果1.2.2.支持过滤和排序功能1.2.3.可以根据相关字段进行搜索2.数据库浏览功能2.1.蛋白质分类2.1.1.按物种分类2.1.2.按功能分类2.1.3.按家族分类2.2.数据表格浏览2.2.1.查看蛋白质基本信息2.2.2.查看蛋白质序列2.2.3.查看蛋白质结构2.3.数据图谱浏览2.3.1.查看蛋白质相互作用网络2.3.2.查看蛋白质结构域分布2.3.3.查看蛋白质功能注释3.数据库功能3.1.蛋白质序列数据3.1.1.全部序列3.1.2.特定物种的序列3.2.蛋白质结构数据3.2.1.已解析的蛋白质结构3.2.2.蛋白质结构预测结果3.3.蛋白质相互作用数据3.3.1.已验证的相互作用数据3.3.2.预测的相互作用数据4.数据库工具与资源4.1.序列比对工具4.1.1.BLAST4.1.2.PSIBLAST4.2.结构预测工具4.2.1.SWISSMODEL4.2.2.Phyre24.3.功能注释资源4.3.1.GeneOntology4.3.2.InterPro4.4.数据库交互接口4.4.1.提供API接口4.4.2.支持数据提交与5.数据库更新与维护5.1.数据更新频率5.2.数据质量保证5.3.用户反馈与支持5.4.数据库版本与历史记录总结:蛋白质数据库为研究人员提供了丰富的蛋白质信息资源,通过搜索、浏览、等功能,用户可以轻松地获取需要的数据。
SMART:蛋⽩质结构域数据库SMART是蛋⽩结构域的数据库,该数据库最新版本为v8,收录了1300多个蛋⽩结构域信息,覆盖了来⾃uniprot, ensembl等多个数据库的蛋⽩。
官⽹如下http://smart.embl-heidelberg.de/该数据库有以下两种模式1. normal2. genomicnormal模式下包含了所有uniprot, ensembl的蛋⽩质信息,这些蛋⽩序列是存在冗余的,genomic模式下只包含了拥有完整蛋⽩质组的物种的信息。
两种模式可以通过SETUP菜单进⾏切换,通过颜⾊可以辨别所处的模式,⽰意如下通过右上⾓的Search SMART按钮,可以检索该数据库,⽀持以下蛋⽩名称和domain两种检索⽅式。
输⼊uniprot或者ensembl 数据库中的蛋⽩ID进⾏检索,⽰例如下,根据uniprot数据库中的蛋⽩ID C1S_HUMAN进⾏检索http://smart.embl-heidelberg.de/smart/show_motifs.pl?ID=C1S_HUMAN检索页⾯包含如下结果1. domian 结构图从图中,可以看出,该蛋⽩质包括以下5种domain1. CUB2. EGF_CA3. CCP4. Tryp_SPc还提供了每个结构域的位置信息2. 蛋⽩质相互作⽤提供了来⾃STRING数据库的蛋⽩相互作⽤信息,⽰意如下3. pathway 信息提供了Metabolic pathway 和 Kegg pathway 两个数据库的通路注释信息,⽰意如下4. orthology group 注释提供了来⾃eggNOG数据库的注释信息,⽰意如下5. 转录后修饰提供了来⾃PTM数据库的转录后修饰信息,⽰意如下按照domain进⾏检索,⽰例如下,根据domian名称CUB进⾏检索。
对于每个domain, 采⽤SM开头的编号唯⼀标识,同时提供了和其他数据库的关联信息,还⽀持下载多序列⽐对的结果。
一、蛋白质数据库1.UniProt (The Universal Protein Resource)网址://uniprot/简介:由EBI(欧洲生物信息研究所)、PIR(蛋白信息资源)和SIB(瑞士生物信息研究所)合作建立而成,提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等,同时提供其他数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接。
2.PIR(Protein Information Resource)网址:/简介:致力于提供及时的、高质量、最广泛的注释,其下的数据库有iProClass、PIRSF、PIR-PSD、PIR-NREF、UniPort,与90多个生物数据库(蛋白家族、蛋白质功能、蛋白质网络、蛋白质互作、基因组等数据库)存在着交叉应用。
3.BRENDA(enzyme database)网址:简介:酶数据库,提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。
4.CORUM(collection of experimentally verified mammalian protein complexes)网址:http://mips.gsf.de/genre/proj/corum/index.html简介:哺乳动物蛋白复合物数据库,提供的数据包括蛋白复合物名称、亚基、功能、相关文献等5.CyBase(cyclic protein database)网址:.au/cybase简介:环状蛋白数据库,提供环状蛋白的序列、结构等数据,提供环化蛋白预测服务。
6.DB-PABP网址:/DB_PABP/简介:聚阴离子结合蛋白数据库。
聚阴离子结合蛋白与聚阴离子的互作在胞内定位、运输、蛋白质折叠等生命过程中起重要作用,此外许多与神经衰退疾病相关的蛋白质均为聚阴离子结合蛋白。
蛋⽩质数据库
⼀、蛋⽩质数据库
》序列数据库:Uniprot (蛋⽩质序列和具有综合功能注释⽬录的中⼼资源库)
PIR (提供蛋⽩质序列数据和分析⼯具)
》结构数据库:PDB (实验测定的⽣物⼤分⼦三维结构)
MMDB
》模体及结构域数据库:PROSITE (蛋⽩质序列功能位点数据库)
Pfom (使⽤基于隐马模型的多序列⽐对对蛋⽩质进⾏家族分类) 》蛋⽩质分类数据库:SCOP (提供已知结构蛋⽩质间的结构和进化关系信息)
CAHT
HSSP
DSSP
⼆、蛋⽩质组数据库
》SWEISS PROT 2DE PAGE / neXtProt / PaxDb / PeptideAtlas / PRIDE
涉及不同⽣物、不同器官、组织、细胞的蛋⽩质图谱数据
三、蛋⽩质互作组数据库
》HPRD / DIP / INTERACT
四、综合型数据库
》ExPASy。
生命科学中最常用的5个数据库介绍生命科学是一个庞大而复杂的学科,其中包含了关于生命现象的各种研究。
对于生命科学的研究,特别是在分子水平上进行的研究,需要大量的数据支持。
这些数据包括分子序列、蛋白质结构、代谢途径等等。
为了有效地管理这些数据,生命科学中广泛应用了各种数据库。
本文将介绍生命科学中最常用的5个数据库。
1. GenBankGenBank是全球最大的分子生物学数据库,包含了全球各地实验室提交的DNA和RNA序列。
它由美国国家生物技术信息中心(NCBI)维护。
GenBank包含了数十亿条序列记录,其中包括了不同物种的基因组、蛋白质序列、DNA和RNA序列等。
与DNA和RNA序列相关的信息包括序列长度、基序、带电的特殊域、结构域、转录因子结合位点以及其他数据。
GenBank还包含了元数据,如物种和菌株的信息、文献引用以及序列的提交日期。
2. PubMedPubMed是美国国家医学图书馆(NLM)维护的一个生命科学文献数据库,包括了生命科学、医学和健康相关的数百万篇论文。
PubMed提供了对文献的全文搜索和存储,使科学家在查找特定话题时更加方便。
除了搜索全文的功能,PubMed还提供了很多额外的服务,如翻译摘要、相关文章推荐、绘制图表等。
3. EnsemblEnsembl是一种数据库、搜索引擎和分析平台,专门用于处理各种生命科学的数据。
Ensembl已经成为了全球最大的基因组数据库之一,包含了人类、其他哺乳动物、鸟类、篮球、双子蝎、无脊椎动物等近700个物种的基因组信息。
Ensembl提供的数据包括生物序列、调控区域、基因家族、基因结构、基因组的变异和基因表达信息等。
4. Protein Data Bank (PDB)蛋白质数据银行(PDB)是一个三维蛋白结构数据库,由改华大学、美国罗格斯大学和欧洲生物信息研究所等机构共同维护。
PDB存储了全球各地实验室提交的蛋白质晶体结构和生化分析,包括了大多数已知的蛋白质家族和酶。
蛋白质结构分类数据库SCOP蛋白质结构分类数据库(structural classification of protein,SCOP)是对已知结构蛋白分质进行分类的数据库,根据不同蛋白质的氨基酸组成及三级结构的相似性,详细描述已知结构蛋白间的功能及进化关系。
SCOP数据库的构建除了使用计算机程序外,主要依赖于人工验证。
SCOP数据库建立于1994年,由英国医学研究委员会(Medical Research Council,简称MRC)的分子生物学实验室和蛋白质工程研究中心开发和维护,可以通过MRC实验室的网络服务器查询,数据库中信息主要由Alexdi G Murzin和其同事每年更新。
目前SCOP数据库的最新版本是2009年2月23日发布的1.75版,在该版本中共含有38 221个已有结构的蛋白质以及110 800个蛋白质结构域,下表中为SCOP 数据库最新版本中详细的信息统计。
在SCOP数据库中,按照从简单到复杂的顺序对蛋白质进行分类,分类基于四个层次,位于分类层次顶部的是类(Class),之后依次为家族(Family),超家族(Supper family)、折叠类型(Fold)、蛋白质结构域(protein domain)、单个PDB蛋白质结构记录。
SCOP数据库可以通过其分级结构导航进行浏览,用关键字、PDB标志码查询,或通过一个蛋白质序列进行同源搜索。
在各个分类层次中,家族用来描述相近的蛋白质进化关系,其依据为序列相似性程度。
通常将相似性程度在30%以上的蛋白质归入同一家族,即它们之间有比较明确的进化关系。
当然这一指标也并非绝对。
某些情况下,尽管序列的相似性低于这一标准,例如某些球蛋白家族的序列相似性只有15%,也可以从结构和功能相似性推断它们来自共同祖先。
超家族用来描述远源的进化关系,如果序列相似性较低,但其结构和功能特性表明它们有共同的进化起源,则将其视作超家族。
折叠类型用来描述空间的几何关系,无论有无共同的进化起源,只要二级结构单元具有相同的排列和拓扑结构,即认为这些蛋白质具有相同的折叠方式。
SWISS-PROT或TrEMBL /sprotPIRMIPSJIPID已经和ExPASy 三、蛋白质二级结构预测网站(数据库)4始建于基于对蛋白质家族中同源序列多重序列比对得到的保守区域,这些区域通常与生物学功能相关。
数据库包括两个数据库文件:数据文件Prosite5蛋白质二级结构构象参数数据库DSSP6蛋白质家族数据库FSSP7同源蛋白质数据库HSSP在前面已经述说过了。
第二节、蛋白质序列分析方法一、多序列比对双序列比对是序列分析的基础。
序列之间的关系,生物学模式方面起着相当重要的作用。
多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相似性关系,法建立在某个数学或生物学模型之上。
因此,正如我们不能对双序列比对的结果得出果也没有绝对正确和绝对错误之分,相似性关系以及它们的生物学特征。
我们称比对前序列中残基的位置为绝对位置。
置Ⅰ相对位置。
显然,同一列中所有残基的相对位置相同,而每个残基的绝对位置不同,因为它们来自不同的序列。
绝对位置是序列本身固有的属性,也就比对过程赋予它的属性。
算法复杂性多序列比对的计算量相当可观,时间和内存空间与这两个序列的长度有关,或者说正比于这两个序列长度的乘积,用(的两维空间扩展到三维,即在原有二维平面上增加一条坐标轴。
这样算法复杂性就变成了(例如,如果用某种颜色表示一组高度保守的残基,则某个序列的某一位点发生突变时,则由于颜色不同,就可以很快找出。
颜色的选择可以根据主观愿望和喜好,但最好和常规方法一致。
用来构筑三维模型的按时氨基酸残基组件和三维分子图形软件所用的颜色分类方法,比较容易为大家接受(表2)。
多序列比对程序的另一个重要用途是定量估计序列间的关系,关系。
关系。
相似性值低于预料值,那么有可能是序列间亲缘关系较远,也可能是比对中有错误之处2同步法实质是把给定的所有序列同时进行比对,而不是两两比对或分组进行比对。
其基本思想是将一个二维的动态规划矩阵扩展到三维或多维。
蛋白质常用数据库|一文看懂!蛋白质数据库是指专门存储蛋白质相关信息的数据库。
它们收集、整理和存储大量的蛋白质数据,包括蛋白质序列、结构、功能、互作关系、表达模式、疾病关联等信息。
蛋白质数据库提供了对这些数据的检索、查询和分析功能,为科学研究人员、生物信息学家和药物研发人员等提供了重要的资源。
蛋白质数据库的内容通常来自于实验室实际测定的蛋白质数据,如蛋白质序列测定、结晶学、核磁共振、质谱等技术获得的数据。
这些数据经过验证和标准化后,被整合到数据库中,使研究者能够方便地访问和利用这些数据进行各种研究工作。
下面是笔者总结的常用蛋白质数据库及网址,供大家参考。
⓪BioXFinder:BioXFinder是国内第一个也是唯一一个生物数据库:收录50多万条高质量的、整合多个来源数据,手工注释的非冗余的蛋白质信息,包含蛋白质的基本信息、序列、序列特征、功能、名称和谱系、亚细胞定位、疾病与变异、翻译后修饰、表达、相互作用等信息。
蛋白结构库:收录19多万条经过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质结构数据。
包括蛋白3D结构、基本信息、实验数据、参考文献等。
①UniProt:UniProt是一个综合性的蛋白质数据库,提供了大量蛋白质的序列、结构、功能、互作关系和注释信息。
它整合了多个来源的数据,包括Swiss-Prot、TrEMBL和PIR数据库。
②Protein Data Bank (PDB):PDB是存储蛋白质和其他生物大分子结构的数据库。
它提供了实验确定的蛋白质结构的三维坐标数据,可用于结构生物学研究、药物设计和分子模拟等领域。
③NCBI Protein:NCBI Protein是美国国家生物技术信息中心(NCBI)提供的蛋白质数据库,包含了大量的蛋白质序列数据,可以进行蛋白质的基本信息查询和比对分析。
④Ensembl:Ensembl是一个综合性的基因组注释数据库,包含了多个物种的基因组序列、基因结构、转录本和蛋白质信息。
pdb数据库名词解释
PDB(Protein Data Bank) 是一个蛋白质数据库,它包含了世界上大部分已知蛋白质的三维结构数据。
这些数据是由 X 光晶体衍射、NMR 等技术手段获得的,包括蛋白质分子的原子坐标、空间结构等信息。
PDB 数据库是一个关键性的资源,对于结构生物学、药物设计等领域具有重要的意义。
PDB 数据库所使用的文件格式称为“.pdb”,是一种二进制文件格式。
在 PDB 文件中,蛋白质分子的原子坐标、空间结构等信息被存储在文件的头部信息部分,而其它相关信息,如蛋白质序列、注释等则存储在文件的数据部分。
PDB 数据库的用法有多种,用户可以根据自身需求使用 PDB 数据库中的数据,例如通过查询蛋白质序列、结构信息等方式来研究蛋白质分子的结构与功能。
此外,PDB 数据库还支持用户自定义注释、模型等操作,用户可以通过这些操作来提高自己的研究水平。
需要注意的是,PDB 数据库中的数据一般是收费的,但也有一些免费的数据可以使用。
同时,由于 PDB 数据库中的数据量庞大,用户需要根据自己的需求来有选择地使用,以免浪费不必要的资源。
scop2数据库一般应用方法SCOP2数据库是结构分类蛋白质的数据库,它为了方便对蛋白质的分类和归纳所做的工具。
它的出现为蛋白质分子的结构分类提供了更加准确、可靠、高效的工具和方法。
本篇文章将详细介绍SCOP2数据库的应用方法,包括数据库的获取、使用说明和应用案例。
一、获取SCOP2数据库SCOP2数据库可以通过以下两种方式获得:1.从SCOP2的官方网站下载2.通过PDB数据库的API获取PDB数据库可以通过API获取相关的蛋白质信息和结构,包括蛋白质的序列、拓扑结构、旋转、平移等信息。
通过API获取的数据可以通过相关工具提取出归属分类和分类编号。
二、使用说明1.分类SCOP2数据库中的蛋白质分类可分为五个层级,分别是:超级王国、王国、领域、蛋白质超家族和蛋白质家族。
对于每个层级,都有相关的分类编号。
超级王国:提供了最高级别的生物分类,包括了细菌、古菌、真核生物等。
超级王国采用大写字母“K”来表示。
王国:王国提供了更详细的分类,例如真菌、动物、植物等。
王国采用数字“1-9”来表示。
领域:对应了基本分类单位,例如动物领域下面包含了哺乳类和鸟类两个子领域。
领域采用小写字母“d”和两位数字来表示。
蛋白质超家族:蛋白质超家族是结构相似、但互相并非很密切相关的蛋白质的集合。
超家族采用字母“sf”的缩写。
蛋白质家族:蛋白质家族是结构和序列都非常相似的蛋白质集合。
蛋白质家族采用字母“fa”的缩写。
2.查询用户可以通过输入分类编号或者相应的蛋白质序列信息来查询SCOP2数据库。
查询结果将呈现相关分类信息和结构拓扑图。
3.可视化工具SCOP2数据库提供了相应的可视化工具,可以帮助用户更加直观地理解蛋白质分类和结构。
主要包括一下几个工具:(1)HHsearchHHsearch是SCOP2数据库的搜索引擎,可以用于在数据库中搜索相似的蛋白质结构。
HHsearch提供了多种搜索参数,用户可根据需要进行调整。
(2)UCSF ChimeraUCSF Chimera是一款结构可视化工具,可以将蛋白质的三维结构进行可视化,支持多种投影模式和可视化效果。
rcsb pdb 蛋白选择RCBS PDB(Protein Data Bank)是一个全球范围内的蛋白质结构数据库,存储了大量的已解析蛋白质结构数据。
这个数据库对于研究和理解蛋白质结构和功能至关重要。
在选择合适的蛋白质进行研究时,我们可以考虑以下几个因素:1. 科学研究的目标和问题:首先,我们需要确定研究的具体目标和问题。
不同的研究目标和问题需要选择不同类型的蛋白质。
例如,如果我们想研究某个疾病相关的蛋白质结构和功能,就可以选择该疾病相关的蛋白质进行研究。
2. 蛋白质的结构类别:蛋白质可以分为许多不同的结构类别,如酶、激素、细胞骨架蛋白等。
不同类别的蛋白质在结构和功能上存在差异,因此选择适合自己研究的蛋白质类别非常重要。
3. 已有的相关研究和文献:在选择蛋白质进行研究时,我们可以查阅已有的相关研究和文献。
这些研究和文献可以帮助我们了解已经研究的蛋白质和相关领域的现状,以便我们在选择研究蛋白质时能够避免重复已有的工作。
4. 数据库的可用性和质量:我们还需要考虑数据库中已有的蛋白质数据的可用性和质量。
RCBS PDB是一个公开的数据库,提供了大量的蛋白质结构数据。
我们可以通过检索和筛选数据库中的蛋白质数据,选择适合自己研究的蛋白质。
在选择蛋白质后,我们可以利用RCBS PDB提供的工具和资源进行进一步研究。
RCBS PDB提供了各种各样的工具和资源,如蛋白质结构可视化工具、二级结构预测工具、蛋白质序列搜索等。
这些工具和资源可以帮助我们分析和理解选择的蛋白质的结构和功能。
总之,选择合适的蛋白质进行研究是科学研究的重要一步。
在选择蛋白质时,我们需要考虑研究目标、蛋白质的结构类别、已有的相关研究和文献以及数据库的可用性和质量等因素。
选择合适的蛋白质后,我们可以利用RCBS PDB提供的工具和资源进行进一步研究。
这样,我们就可以更加深入地理解蛋白质的结构和功能。
一、PDB数据库中查找蛋白质结构数据
1./pdb/home/home.do
2. 查找蛋白质结构,在检索框输入关键字或名称。
输入内容:比如2DC3
二. 在线观看三维数据结构
4. 选择3D view,可视化蛋白三维结构视图呈现。
由于是远程计算机服务器进行图型构建,且数据量较大,需要较长的时间才能在窗口显示。
5.蛋白结构显示的参数设定:
自定义设定
脚本选项:
二、下载三维数据文件
1. 在查询结果窗口的右边找到以下图型。
如图:选择Download Files。
2.确定下载的文件类型,一般根据你要使用蛋白质结构数据而定。
选择PDB File(Text).
3. 用写字板打开PDB文件,可以看到蛋白质数据库文件实质也是文本文件。
4. 下载Pymol,并安装。
点DOWNLOAD进入下载,选择windows版本,并安装(需要pay money)。
或到此网站下载:/~gohlke/pythonlibs/#pymol
选择win32,1.7.1.1版本。
并安装,需要python编程软件的支持,可从360软件管件直接安装。
安装如图:
使用详情参见教程,注意打开程序需要找到python的安装目录:C:\Python27\PyMOL,找到PyMOL.exe文件,双击启动程序。
打开2DC3.pdb
或使用RasMol软件进行三维视图分析,步骤同上。