蛋白质功能-结构-相互作用预测网站工具合集
- 格式:doc
- 大小:99.50 KB
- 文档页数:6
生物芯片北京国家工程研究中心湖南中药现代化药物筛选分中心暨湖南涵春生物有限公司常用数据库名录1、蛋白质数据库PPI - JCB 蛋白质与蛋白质相互作用网络•Swiss-Prot - 蛋白质序列注释数据库•Kabat - 免疫蛋白质序列数据库•PMD - 蛋白质突变数据库•InterPro - 蛋白质结构域和功能位点•PROSITE - 蛋白质位点和模型•BLOCKS - 生物序列分析数据库•Pfam - 蛋白质家族数据库 [镜像: St. Louis (USA), Sanger Institute, UK, Karolinska Institutet (Sweden)] •PRINTS - 蛋白质 Motif 数据库•ProDom - 蛋白质结构域数据库 (自动产生)•PROTOMAP - Swiss-Prot蛋白质自动分类系统•SBASE - SBASE 结构域预测数据库•SMART - 模式结构研究工具•STRING - 相互作用的蛋白质和基因的研究工具•TIGRFAMs - TIGR 蛋白质家族数据库•BIND - 生物分子相互作用数据库•DIP - 蛋白质相互作用数据库•MINT - 分子相互作用数据库•HPRD - 人类蛋白质查询数据库•IntAct - EBI 蛋白质相互作用数据库•GRID - 相互作用综合数据库•PPI - JCB 蛋白质与蛋白质相互作用网络2、蛋白质三级结构数据库•PDB - 蛋白质数据银行•BioMagResBank - 蛋白质、氨基酸和核苷酸的核磁共振数据库•SWISS-MODEL Repository - 自动产生蛋白质模型的数据库•ModBase - 蛋白质结构模型数据库•CATH - 蛋白质结构分类数据库•SCOP - 蛋白质结构分类 [镜像: USA | Israel | Singapore | Australia]•Molecules To Go - PDB数据库查询•BMM Domain Server - 生物分子模型数据库•ReLiBase - 受体/配体复合物数据库 [镜像: USA]•TOPS - 蛋白质拓扑图•CCDC - 剑桥晶体数据中心 (剑桥结构数据库 (CSD))•HSSP - 蛋白质二级结构数据库•MutaProt - PDB数据库中点突变的比较•SWISS-3DIMAGE - 蛋白质和其他生物分子的三维图像•BioImage - 生物图像数据库 (包含生物大分子图像) 3、蛋白质组数据库和链接•2-D胶数据库以及与2-D胶相关的数据库•蛋白质组链接4、与核酸相关的数据库•EMBL - EMBL核酸序列数据库 (EBI)•Genbank - GenBank核酸序列数据库 (NCBI)•DDBJ - 日本DNA数据库•dbEST - dbEST(表达序列标签)数据库 (NCBI)•dbSTS - dbSTS(序列标签位点)数据库 (NCBI)•AsDb - 异常剪切数据库•ACUTS - DNA非转录保守序列数据库•密码子数据库•EPD - 真核生物启动子数据库•HOVERGEN - 颈椎动物同源基因数据库•IMGT - 免疫遗传学数据库 [镜像: EBI]•ISIS - 内含子序列信息•RDP - 核糖体数据库•gRNAs db - gRNA数据库•PLACE - 植物DNA顺势调控元件数据库•PlantCARE - 植物中DNA顺势调控组件数据库•ssu rRNA - 欧洲核糖体RNA数据库-小核糖体•lsu rRNA - 欧洲核糖体RNA数据库-大核糖体•5S rRNA - 5S核糖体RNA数据库•tmRNA Website - tmRNA站点•tmRDB - tmRNA数据库•tRNA - tRNA剪切( Bayreuth大学)•uRNA db•RNA editing - RNA剪切位点•RNAmod db - RNA修饰数据库•TelDB - 多介质端粒数据库•MPDB - 分子探针数据库•VectorDB - 载体序列数据库5、糖类•FCCA - 糖类论坛•GlycoSuiteDB - 多聚糖数据库•Monosacharide browser - Space filling Fischer projection for monosaccharides•Thorkild's lectin page - 凝集素通道6、特殊物种数据库:人类:•OMIM - 孟德尔遗传在线--人类•GENATLAS - 人类基因图集•GeneClinics - 医学基因学库•GDB - 基因组数据库•GeneCards - 人类基因整合信息数据库•UDB - 人类基因图谱数据库•Ensembl人类基因组浏览器•UCSC人类基因组工作草图•TIGR HGI - TIGR人类基因组索引•Hs UniGene - GenBank中的人类转录本•STACK - 序列标签比对• - 人类基因预测•GenLink - 人类基因组资源数据库•GeneLynx - 人类基因组•HUGE - 人类未知基因-大型蛋白质反转录得到的cDNA (KIAA...)•HUNT - 人类异常转录本•CGAP - 癌症基因组解剖学•MGC - 哺乳动物基因•SCDb - 干细胞数据库•Homophila - 人类疾病基因与果蝇基因对比数据库•Human Protein Atlas - 人类正常组织蛋白质与癌细胞蛋白质表达与位点的比较•Chr at Rutgers - Rutgers的人类染色体信息•Chr at Sanger - Sanger Center的人类染色体信息•Chr Swiss-Prot list - Swiss-Prot的染色体信息脊椎动物:•OMIA - 孟德尔遗传在线--动物•MGI - 小鼠基因组学信息 [镜像: Australia]•Ensembl小鼠基因组浏览器•TIGR MGI - TIGR小鼠基因索引•Mm UniGene - GenBank 中的小鼠转录本(EST clusters) •MGC - 哺乳动物基因•Mouse gene knockouts db - 小鼠基因敲除数据库•RGD - 大鼠基因组数据库•RatMAP - 大鼠基因组数据库•TIGR RGI - TIGR大鼠基因组数据库•Rn Unigene - GenBank 中的大鼠转录本(EST clusters) •BOVMAP - 牛基因数据库 (法国)•DGP - 狗基因数据库•MIS - 孟德尔遗传--羊•Ark-Cat - 猫基因组数据库•Ark-Chicken - 鸡基因组数据库•Ark-Cow - 奶牛基因组数据库•Ark-Deer - 鹿基因组数据库•Ark-Horse - 马基因组数据库•Ark-Pig - 猪基因组数据库•Ark-Sheep - 绵羊基因组数据库•Ark-Turkey - 火鸡基因组数据库•FishBase -鱼类综合信息系统•Fugu genome project - 河豚基因组•Fugu - HGMP 河豚数据•- Ensembl 河豚基因组浏览器•Medakafish - Mekada fish (Oryzias latipes) server •Ark-Tilapia - 罗飞鱼基因组数据库•Ark-Salmon - 大马哈鱼基因组数据库•The fish net - 斑马鱼基因组数据库•Ensembl斑马鱼基因组浏览器线粒体和叶绿体:•GOBASE - 细胞器基因组数据库•MitoDat - 孟德尔遗传和线粒体数据库• C.caldarium - 蓝藻纲PK1菌株叶绿体基因组昆虫•Drosophila Swiss-Prot list - Swiss-Prot中的果蝇链接•FlyBase - 果蝇遗传数据库和分子数据库•BDGP - Berkeley果蝇基因组项目•FlyView - 果蝇图像数据库•Homophila - 人类疾病与果蝇基因对照数据库•蚊子基因组学•AnoDB - 疟蚊数据库•Ensembl蚊子基因组浏览器7、人类突变数据库•HGMD - 人类基因突变数据库•SVD - EBI序列变异数据库•GeneDis - 人类遗传病数据库8、特殊基因和蛋白质数据库•Allergens in Swiss-Prot - Swiss-Prot中过敏反应的命名与索引•Allergome - 过敏症反应分子数据库•Aminoacyl-tRNA synthetases in Swiss-Prot - Swiss-Prot 中氨基化tRNA合成酶列表9、转录后修饰数据库•DSDBASE - 二硫化物数据库 (数据来源于三级结构数据库) •GlycoSuiteDB - 多聚糖结构数据库•LIPID MAPS - 脂类代谢及路径10、系统发生学数据库•COG - 全基因组中编码的蛋白质的系统发生学分类方法•EGO - 真核生物基因分类方法•InParanoid - 真核生物分类11、芯片数据库•ArrayExpress - EBI中芯片数据•ExpressDB - 酵母菌和大肠杆菌表达数据库•GeneX - 基因表达工程12、专利数据库•DPD - DNA专利数据库•Ag Patents - USDA收录的农业工艺专利•Esp@cenet - 欧洲专利事务所专利信息数据库 (世界范围内)13、参考文献(目录数据库)•PubMed Medline server - PubMed查询•AGRICOLA - NAL农业查询数据库•Article@INIST - 科技信息数据库•Korean Journals Abstract db - 韩国杂志摘要数据库•SeqAnalRef - 序列分析文献14、字典, 读物, 课程 ,命名法•BioABACUS - 缩写词•BioTech's life science dictionary生物科技及生命科学字典•DCB - 细胞生物学字典(Julian Dow编写)15、生物软件数据库及目录•CLC Free Workbench - 可在Linux, MacOS X and Windows操作系统上运行的,对DNA、RNA和蛋白质进行算法分析的软件•CLC Protein Workbench - 可在Linux, MacOS X and Windows 操作系统上运行的,对DNA、RNA和蛋白质进行算法分析的软件•BioCatalog - EBI的生物目录16、生命科学资源•Biofind - 生物科技工业信息、评论及新闻•Bioinformatik.de - 生物信息学网页目录17、生物杂志和发行人•生物杂志主页:Swiss-Prot journals list - Swiss-Prot杂志列表• - 电子出版物目录• - 电子期刊目录18、发行人•Allen Press, Inc. - Allen出版社•AMA - 美国医学联合出版物•ACS - 美国化工协会出版物19、生物信息学杂志和通讯•BioInformer - EBI通讯•NCBI Newsletter -NCBI通讯•PDB Quaterly Newsletter - PDB通讯20、基因组通讯•Human Genome Project Information - 人类基因组计划•FGN - 真菌遗传学•Rice Genome Newsletter - 水稻基因组21、其他•IJC - 化学杂志•Plant Gene Register - 植物基因注册22、生物商业杂志•BioCentury - 生物世纪•BioWorld Online - 生物世界•Drug Discovery and Development - 药物发现和发展•GEN - 基因工程新闻23、综合性科学杂志•Nature•New Scientist•La Recherche•Science•Scientific American24、生物学研究机构•APS - 美国缩氨酸社区•ASCB - 美国细胞生物学社区•ASHG - 美国人类遗传学社区25、计算生物学服务器主页欧洲:•EBI - 欧洲生物信息学协会•EMBnet - 欧洲分子生物信息学网•EMBL - EMBL计算生物学机构美国和加拿大:•NCBI - 美国生物学信息中心•ABCC - NCI高级生物医学计算中心•ACGT - Oklahoma大学基因组技术中心亚洲•APBioNet - 亚太生物信息网•BIC-JNU - Jawaharlal Nehru大学生物信息学中心•DIC - Pune (印度)大学生物信息澳洲•APBioNet - 亚太生物信息网•ANGIS - 澳大利亚国家遗传信息服务中心•ANU - 澳大利亚国大学生物信息学研究组•APAF - 澳大利亚蛋白质组分析工具26、其他•HUJI - 耶路撒冷Hebrew大学基因组学和生物信息学服务中心•Weizmann Bioinfo/BCU - Weizmann计算生物学和生物信息学研究协会•SANBI - 南非生物信息学研究协会27、生物公司和制药公司•美国药物研究和制造商目录•Bioportfolio - 生物技术企业•Affymetrix, Inc. - Affymetrix公司28、生物信息公司•Aborygen•Accelrys, Inc•AlgoNomics NV t29、其他链接其他医学查询•HON - 基于网络的健康服务• - 药物网络指南•MedWeb - 医学链接其他科学查询•GPSDB - 基因和蛋白质同义词数据库•Chemcyclopedia Online - 商业化学试剂数据库。
蛋白质组学蛋白质是生物体的重要组成部分,参与几乎所有生理和细胞代谢过程。
此外,与基因组学和转录组学比较,对一个细胞或组织中表达的所有蛋白质,及其修饰和相互作用的大规模研究称为蛋白质组学。
蛋白质组学通常被认为是在基因组学和转录组学之后,生物系统研究的下一步。
然而,蛋白质组的研究远比基因组学复杂,这是由于蛋白质内在的复杂特点,如蛋白质各种各样的翻译后修饰所决定的。
并且,研究基因组学的技术要比研究蛋白质组学的技术强得多,虽然在蛋白质组学研究中,质谱技术的研究已取得了一些进展。
尽管存在方法上的挑战,蛋白质组学正在迅速发展,并且对癌症的临床诊断和疾病治疗做出了重要贡献。
几项研究鉴定出了一些蛋白质在乳腺癌、卵巢癌、前列腺癌和食道癌中表达变化。
例如,通过蛋白质组学技术,人们可以在患者血液中明确鉴定出肿瘤标志物。
表1列出了更多的蛋白质组学技术用于研究癌症的例子。
另外,高尔基体功能复杂。
最新研究表明,它除了参与蛋白加工外,还能参与细胞分化及细胞间信号传导的过程,并在凋亡中扮演重要角色,其功能障碍也许和肿瘤的发生、发展有某种联系。
根据人类基因组研究,约1000多种人类高尔基体蛋白质中仅有500~600种得到了鉴定,建立一条关于高尔基体蛋白质组成的技术路线将有助于其功能的深入研究。
蛋白质组学是一种有效的研究方法,特别是随着亚细胞器蛋白质组学技术的迅猛发展,使高尔基体的全面研究变为可能。
因此研究人员希望能以胃癌细胞中的高尔基体为研究对象,通过亚细胞器蛋白质组学方法,建立胃癌细胞中高尔基体的蛋白质组方法学。
研究人员采用蔗糖密度梯度的超速离心方法分离纯化高尔基体,双向凝胶电泳(2-DE)分离高尔基体蛋白质,用ImageMaster 2D软件分析所得图谱,基质辅助激光解吸离子化飞行时间质谱(MALDI-TOF MS)鉴定蛋白质点等一系列亚细胞器蛋白质组学方法建立了胃癌细胞内高尔基体的蛋白图谱。
最后,人们根据分离出的纯度较高的高尔基体建立了分辨率和重复性均较好的双向电泳图谱,运用质谱技术鉴定出12个蛋白质,包括蛋白合成相关蛋白、膜融合蛋白、调节蛋白、凋亡相关蛋白、运输蛋白和细胞增殖分化相关蛋白。
蛋白质结构预测的方法与工具蛋白质结构是生物学研究中一个非常重要的领域,因为它对于蛋白质的功能和相互作用有着非常大的影响。
蛋白质结构预测是研究蛋白质学中的一个重要分支,其目的是通过计算机模拟和其他实验手段,预测蛋白质的三维结构。
本文将介绍一些常见的蛋白质结构预测方法和工具。
1. 能量函数蛋白质的三维结构由其氨基酸序列决定。
由于在氨基酸之间的相互作用非常复杂,将其精确地预测出来非常困难。
因此,实际上我们常常用一系列能量函数,来猜测最有可能的三维结构。
能量函数的基本思想是,通过计算预测结构与实验结果的对比来选择最有可能的结构。
能量函数可以预测统计力学方程、物理模型和知识库,用于描述蛋白质的相互作用。
能量函数的选择应当根据具体任务的不同于权衡,其准确度、完备性、计算量和鲁棒性各有不同。
2. 基于机器学习的方法机器学习是指从大量的数据中自动提取出模型,从而能够准确地预测未知数据的特点。
在蛋白质结构预测上,机器学习最成功的是基于神经网络的方法。
基于神经网络的方法,可以学习到从蛋白质的氨基酸序列到三维结构的直接映射,而不需要在蛋白质产生结构时太多的假设。
这种方法有非常高的准确度,并且需要的计算量很少。
3. 蛋白质结构预测工具现在有很多好用的蛋白质结构预测工具可以使用,其中一些工具是公共的,可以在互联网上免费使用。
这些工具使用多种预测方法,如用于序列对齐、模拟、统计建模等,来预测蛋白质的三维结构。
一些常用的工具包括I-TASSER、ROSETTA和PHYRE等。
不同的工具有不同的优缺点,应根据需要进行选择。
其中I-TASSER 最为广泛使用,而ROSETTA则更受科学家们喜爱。
总结:蛋白质结构预测是研究蛋白质学中的一个重要分支,它为我们提供了非常重要的信息,有助于我们更深入地理解生命中的分子结构和功能。
这里我们介绍了一些蛋白质结构预测的方法和工具。
通过不断学习和掌握这些方法和工具,我们将能够更好地运用它们来对现实中的生物学问题进行解决。
一、蛋白质数据库1.UniProt (The Universal Protein Resource)网址://uniprot/简介:由EBI(欧洲生物信息研究所)、PIR(蛋白信息资源)和SIB(瑞士生物信息研究所)合作建立而成,提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等,同时提供其他数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接。
2.PIR(Protein Information Resource)网址:/简介:致力于提供及时的、高质量、最广泛的注释,其下的数据库有iProClass、PIRSF、PIR-PSD、PIR-NREF、UniPort,与90多个生物数据库(蛋白家族、蛋白质功能、蛋白质网络、蛋白质互作、基因组等数据库)存在着交叉应用。
3.BRENDA(enzyme database)网址:简介:酶数据库,提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。
4.CORUM(collection of experimentally verified mammalian protein complexes)网址:http://mips.gsf.de/genre/proj/corum/index.html简介:哺乳动物蛋白复合物数据库,提供的数据包括蛋白复合物名称、亚基、功能、相关文献等5.CyBase(cyclic protein database)网址:.au/cybase简介:环状蛋白数据库,提供环状蛋白的序列、结构等数据,提供环化蛋白预测服务。
6.DB-PABP网址:/DB_PABP/简介:聚阴离子结合蛋白数据库。
聚阴离子结合蛋白与聚阴离子的互作在胞内定位、运输、蛋白质折叠等生命过程中起重要作用,此外许多与神经衰退疾病相关的蛋白质均为聚阴离子结合蛋白。
蛋白质结构预测在线软件随着计算机技术的发展,越来越多的蛋白质结构预测在线软件被开发出来,并且被广泛应用于生物学研究。
本文将介绍几个常用的蛋白质结构预测在线软件,并对它们的原理和优缺点进行分析。
首先,我要介绍的是PHYRE2、PHYRE2是一款基于比较模型的蛋白质结构预测软件,它通过将待预测的蛋白质序列与已知结构库中的蛋白质序列进行比对,从而预测目标蛋白质的结构。
PHYRE2具有高度自动化的特点,可以在较短的时间内进行大量的结构预测。
但是,PHYRE2的准确性和可靠性相对较低,因为它只依赖于已知结构的信息。
其次,我要介绍的是I-TASSER。
I-TASSER是一种基于碎片装配的蛋白质结构预测软件,它通过将目标蛋白质的序列分解为小的片段,然后通过模板和螺旋转角预测来重新组装这些片段,从而得到目标蛋白质的结构。
I-TASSER具有较高的准确性和可靠性,并且在多个蛋白质结构预测比赛中表现出色。
然而,I-TASSER的计算速度较慢,需要较长的时间来进行结构预测。
另外,我要介绍的是Rosetta。
Rosetta是一种基于物理学的蛋白质结构预测软件,它通过对蛋白质的能量进行优化来确定最稳定的结构。
Rosetta具有较高的准确性和可靠性,并且可以进行全原子级别的结构预测。
然而,由于Rosetta的计算复杂性较高,需要大量的计算资源来进行结构预测。
除了以上介绍的几种蛋白质结构预测在线软件,还有许多其他的软件可供选择,如PSIPRED、HHPred等。
这些软件在原理和性能上有所差异,但都能够对蛋白质的结构进行预测,并为生物学研究提供重要的参考信息。
总结起来,蛋白质结构预测是生物信息学领域的重要课题,需要借助计算机算法来进行预测。
目前有许多蛋白质结构预测在线软件可供选择,它们在原理、准确性、可靠性和计算速度等方面有所差异。
选择合适的软件进行蛋白质结构预测,将对生物学研究产生重要的影响。
蛋白质结构预测网址物理性质预测:Compute PI/MWPeptidemass TGREASESAPS基于组成的蛋白质识别预测AACompIdent PROPSEARCH二级结构和折叠类预测nnpredictPredictproteinSSPRED特殊结构或结构预测COILSMacStripe与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。
由NCBI检索蛋白质序列可联网到:“”进行检索。
利用SRS系统从EMBL检索蛋白质序列联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。
通过EMAIL进行序列检索当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。
蛋白质基本性质分析蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。
蛋白质的很多功能特征可直接由分析其序列而获得。
例如,疏水性图谱可通知来预测跨膜螺旋。
同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。
WEB中有很多此类资源用于帮助预测蛋白质的功能。
疏水性分析位于ExPASy的ProtScale程序()可被用来计算蛋白质的疏水性图谱。
该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。
输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。
需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。
进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如,bioedit,dnamana等。
跨膜区分析有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。
生物信息学工具的使用方法及研究进展生物信息学是一门多学科交叉的科学,它利用计算机和统计学方法处理和分析生物学的大规模数据,以揭示生物系统的结构和功能。
生物信息学工具是生物信息学研究的重要组成部分,可以帮助生物学家快速有效地分析和解释海量的生物学数据。
本文将介绍常用的生物信息学工具的使用方法,并总结生物信息学研究的最新进展。
1. BLAST(Basic Local Alignment Search Tool)BLAST是一种用于比对生物序列(DNA、RNA、蛋白质)的工具,它可以在数据库中查找相似的序列。
使用BLAST时,需要先将待比对的序列输入到软件中,选择相应的数据库,然后运行比对程序。
BLAST比对结果以E值、相似度等指标来评估,可以帮助生物学家识别出与已知序列相似的未知序列,从而推断它们的功能和进化关系。
2. DNAStarDNAStar是一款集成化的生物信息学软件套件,包含多个模块,可用于DNA和蛋白质序列分析、基因组测序和组装、基因预测、进化分析等。
使用DNAStar时,用户可以根据需要选择不同的模块进行分析和处理,例如SeqBuilder、Lasergene、GeneQuest等。
3. R语言和Bioconductor包R语言是一种功能强大的统计分析语言,被广泛应用于生物信息学领域。
Bioconductor是R语言的一个扩展包,提供了丰富的生物信息学分析工具和算法。
使用R语言和Bioconductor包,生物学家可以进行多样化的数据统计分析、绘图和可视化。
4. GalaxyGalaxy是一个开源的生物信息学工作流管理系统,它提供了一个用户友好的界面,可以帮助生物学家轻松实现不同生物信息学工具的集成、工作流的搭建和运行。
Galaxy支持许多生物信息学任务,例如序列比对、SNP分析、转录组学分析等。
用户只需在界面上选择相应的工具和参数,即可开始分析。
5. GeneMANIAGeneMANIA是一个基因功能预测工具,通过整合多种类型的基因和蛋白质相互作用、共表达和共局部化等数据,来预测目标基因的功能和相关基因。
蛋白质预测分析网址集锦2007/04/06 18:31物理性质预测:Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemass http://expaxy.hcuge.ch/sprot/peptide-mass.html TGREASE ftp:///pub/fasta/ SAPShttp://ulrec3.unil.ch/software/SAPS_form.html基于组成的蛋白质识别预测AACompIdent http://expaxy.hcuge.ch/ch2d/aacompi.html AACompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.embl-heidelberg.de/prs.html二级结构和折叠类预测nnpredict/~nomi/nnpredictPredictprotein http://www.embl-heidelberg.de/predictprotein/SOPMAhttp://www.ibcp.fr/predict.htmlSSPREDhttp://www.embl-heidelberg.de/sspred/ssprd_info.html特殊结构或结构预测COILS http://ulrec3.unil.ch/software/COILS_form.htmlMacStripe/matsudaira/macstripe.html与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。
由NCBI检索蛋白质序列可联网到:“:80/entrz/query.fcgi?db=protein”进行检索。
生物信息学中的基本工具和技巧介绍在生物学研究中,生物信息学是一门非常重要的学科,它运用计算机科学和统计学的基本原理和方法来分析和解释生物学数据。
生物信息学领域的基本工具和技巧为生物学家们提供了理解和研究基因组学、蛋白质组学、转录组学等各种生物学过程的关键工具。
在这篇文章中,我们将介绍生物信息学中的一些基本工具和技巧。
一、序列比对工具和技巧序列比对是生物信息学中最常用的任务之一,它用于比较两个或多个DNA、RNA或蛋白质序列的相似性和差异性。
常用的序列比对工具包括BLAST(Basic Local Alignment Search Tool)和Clustal Omega。
BLAST可以快速地在数据库中搜索具有相似序列的蛋白质或基因序列,并给出比对结果的置信度评分。
而Clustal Omega是一个用于多序列比对的工具,它能够对多个序列进行全局和局部比对,并输出结果中的进化关系树。
二、基因预测工具和技巧基因预测是生物信息学中的一项重要任务,它用于确定DNA序列中的基因位置和边界。
基因预测工具通过分析DNA序列中的开放阅读框架(ORFs)、启动子序列、剪接位点等特征来推断基因的位置和结构。
常用的基因预测工具包括GeneMark和Glimmer。
GeneMark利用统计模型和算法来识别真正的基因序列,而Glimmer则使用人工智能算法和非编码序列的统计特性来进行基因识别。
三、基因表达分析工具和技巧基因表达分析用于研究不同生物样本中基因表达的差异,它对于理解生物学过程中的基因调控机制非常关键。
常用的基因表达分析工具包括DESeq2和edgeR。
这些工具利用统计学方法来分析高通量测序数据,并找出差异表达的基因。
此外,表达量热图和通路富集分析也是常用的基因表达分析技巧,它们可以可视化差异表达基因的模式和功能富集情况。
四、蛋白质结构预测工具和技巧蛋白质结构预测是生物信息学中的一项重要任务,它用于预测蛋白质序列的三维结构,从而揭示蛋白质功能和相互作用。
蛋白质组学蛋白质是生物体的重要组成部分,参与几乎所有生理和细胞代谢过程。
此外,与基因组学和转录组学比较,对一个细胞或组织中表达的所有蛋白质,及其修饰和相互作用的大规模研究称为蛋白质组学。
蛋白质组学通常被认为是在基因组学和转录组学之后,生物系统研究的下一步。
然而,蛋白质组的研究远比基因组学复杂,这是由于蛋白质内在的复杂特点,如蛋白质各种各样的翻译后修饰所决定的。
并且,研究基因组学的技术要比研究蛋白质组学的技术强得多,虽然在蛋白质组学研究中,质谱技术的研究已取得了一些进展。
尽管存在方法上的挑战,蛋白质组学正在迅速发展,并且对癌症的临床诊断和疾病治疗做出了重要贡献。
几项研究鉴定出了一些蛋白质在乳腺癌、卵巢癌、前列腺癌和食道癌中表达变化。
例如,通过蛋白质组学技术,人们可以在患者血液中明确鉴定出肿瘤标志物。
表1列出了更多的蛋白质组学技术用于研究癌症的例子。
另外,高尔基体功能复杂。
最新研究表明,它除了参与蛋白加工外,还能参与细胞分化及细胞间信号传导的过程,并在凋亡中扮演重要角色,其功能障碍也许和肿瘤的发生、发展有某种联系。
根据人类基因组研究,约1000多种人类高尔基体蛋白质中仅有500~600种得到了鉴定,建立一条关于高尔基体蛋白质组成的技术路线将有助于其功能的深入研究。
蛋白质组学是一种有效的研究方法,特别是随着亚细胞器蛋白质组学技术的迅猛发展,使高尔基体的全面研究变为可能。
因此研究人员希望能以胃癌细胞中的高尔基体为研究对象,通过亚细胞器蛋白质组学方法,建立胃癌细胞中高尔基体的蛋白质组方法学。
研究人员采用蔗糖密度梯度的超速离心方法分离纯化高尔基体,双向凝胶电泳(2-DE)分离高尔基体蛋白质,用ImageMaster 2D软件分析所得图谱,基质辅助激光解吸离子化飞行时间质谱(MALDI-TOF MS)鉴定蛋白质点等一系列亚细胞器蛋白质组学方法建立了胃癌细胞内高尔基体的蛋白图谱。
最后,人们根据分离出的纯度较高的高尔基体建立了分辨率和重复性均较好的双向电泳图谱,运用质谱技术鉴定出12个蛋白质,包括蛋白合成相关蛋白、膜融合蛋白、调节蛋白、凋亡相关蛋白、运输蛋白和细胞增殖分化相关蛋白。
通过亚细胞器分离纯化、双向电泳的蛋白分离及MALDI-TOF MS蛋白鉴定分析,研究人员首次成功建立了胃癌细胞SGC7901中高尔基体的蛋白质组学技术路线。
3.1 蛋白质功能预测工具也许生物信息学方法在癌症研究中最常用的就是基因功能预测方法,但是这些数据库只存储了基因组的大约一半基因的功能。
为了在微阵列资料基础上完成功能性的富集分析,基因簇的功能注解是非常重要的。
近几年生物学家研发了一些基因功能预测的方法,这些方法旨在超越传统的BLAST搜索来预测基因的功能。
基因功能预测可以以氨基酸序列、三级结构、与之相互作用的配体、相互作用过程或基因的表达方式为基础。
其中最重要的是基于氨基酸序列的分析,因为这种方法适合于微阵列分析的全部基因。
在表3中,前三项列举了三种同源搜索方法。
FASTA方法虽然应用还不太广泛,但它要优于BLAST,或者至少相当。
FASTA程序是第一个使用的数据库相似性搜索程序。
为了达到较高的敏感程度,程序引用取代矩阵实行局部比对以获得最佳搜索。
美国弗吉尼亚大学可以提供这项程序的地方版本,当然数据库搜索结果依赖于要搜索的数据库序列。
如果最近的序列数据库版本在弗吉尼亚大学不能获得,那么就最好试一下京都大学(Kyoto University)的KEGG 站点。
PSI-BLAST(位点特异性反复BLAST)是BLAST的转化版本,PSI-BLAST的特色是每次用profile搜索数据库后再利用搜索的结果重新构建profile,然后用新的profile再次搜索数据库,如此反复直至没有新的结果产生为止。
PSI-BLAST先用带空位的BLAST搜索数据库,将获得的序列通过多序列比对来构建第一个profile。
PSI-BLAST自然地拓展了BLAST方法,能寻找蛋白质序列中的隐含模式,有研究表明这种方法可以有效地找到很多序列差异较大Pfam数据库(Protein families database of alignments and HMM, 蛋白质家族比对和HMM数据库)是基于HMM模型(隐马尔可夫模型)构建并拓展起来的。
它实际上是一个涵盖了生物蛋白质序列中常见结构域的序列及其相对应的隐马尔科夫模型的数据库,由英国的Sanger Institute维护。
Hmmpfam的工作原理简单来说,就是将用户所提交的查询序列在Pfam库中做比对计算,然后预测出查询序列中所隐含的结构域信息。
表4中描述的三个数据库资源——简单模块构架搜索工具(simple modular architecture research tool, SMART)、Motif 数据库(PROSITE)以及ELM是具有不同特点的数据模体数据库。
SMART储存有蛋白质家族的保守区域,可以作为每一个基因家族的特征标记。
SMART可以说是蛋白结构预测和功能分析的工具集合。
简单点说,SMART就是集合了一些工具,可以预测蛋白的一些二级结构,如跨膜区(Transmembrane segment)、复合螺旋区(coiled coil region)、信号肽(Signal peptide)和蛋白结构域(PFAM domain)等。
另一方面,PROSITE中的序列模体是一些重要的生物学位点,包括功能位点和容易被修饰的位点。
ELM是真核生物功能位点数据库。
3.2 蛋白质结构预测工具当候选基因被选择出来通过微阵列进行实验检测时,生物信息学蛋白质预测工具就对设计生物化学实验非常重要。
例如,一个基因预测的二级结构就对预测结构域很有益处,因为这对设计有限的蛋白质水解以鉴定基因的功能区域非常重要。
当今二级结构预测算法的准确率大约75%,足以达到平常预测的要求。
表4中列举了5种二级结构预测工具,它们都利用机器学习的技术来识别大家熟悉的二级结构,如α-螺旋和β-折叠。
机器学习就是要使计算机能模拟人的学习行为自动通过学习获取知识和技能,不断改善性能,实现自我完善。
机器学习研究的就是如何通过识别和利用现有知识来获取新知识和新技能。
PSI-PRED、PORTER、SABLE和PredictProtein seartificial利用人工神经网络(Artificial Neural Networks,简写为ANNs),而SAM-T02则利用HMM。
SABLE和PORTER 被认为是这个领域中最准确的预测工具,它们的准确率分别可以达到78.4%和79%。
尽管列表中的工具在蛋白质预测方面准确率还相对较低,但这些工具不仅能够预测二级结构,也能够预测其它结构信息,包括混乱区域、两个或两个以上的α螺旋组成的超螺旋结构区域、每个残基的可溶解程度以及要搜索序列的模体结构,所以他们可以用来“一步完成”蛋白质序列分析。
COILS通过序列中周期出现的疏水残基来预测蛋白质的卷曲螺旋。
卷曲螺旋是存在于多种天然蛋白质中的结构模式。
近年来,人们通过对天然蛋白质中的卷曲螺旋结构以及根据已有知识设计合成的卷曲螺旋结构的研究,已基本掌握了这类结构模式的特点,并将特异的卷曲螺旋结构应用于生化分析、工业和医药卫生等领域。
GlobPlot和PONDR是预测蛋白质固有无规则区域的工具,这些区域的天然构象中,没有稳定的蛋白质二级结构。
这些无规则区域的重要性最近才刚刚被人们发现,因为它们是很多重要的功能性位点,例如其它蛋白质和配体的结合区域位于球状蛋白质的结构域的外部,所以本质上是没有规则的[3]。
HMMTOP是预测蛋白序列的跨膜螺旋与拓扑结构工具,TMHMM是预测蛋白的跨膜螺旋工具。
它们都利用了HMM。
跨膜结构域预测是生物信息学在蛋白质结构预测中应用得最成功,HMMTOP预测的跨膜蛋白质98%的结构域和85%的拓扑结构是正确的。
且上述这两种工具是基于网络的,HMMTOP也提供本地拷贝[3]。
表5的后面列举了5种预测三级结构的工具。
预测蛋白质三级结构的方法在最近几十年中有了较大的改进,并且有些方法的准确率已经足以应用于实践[3]。
结构预测方法大致分为三类:(1) 同源性建模(homology modeling)方法:这类方法的理论依据是,如果两个蛋白质的序列比较相似,则其结构也有很大可能比较相似。
有实验表明,如果序列相似性高于75%,则可以使用这种方法进行粗略的预测。
这类方法的优点是准确度高,缺点是只能处理和模板库中蛋白质序列相似性较高的情况;(2) 从头计算(Ab initio或de novo)方法:这类方法的依据是热力学理论,即求蛋白质能量最小的状态。
生物学家和物理学家等认为从原理上讲这是影响蛋白质结构的本质因素。
然而由于巨大的计算量,这种方法并不实用,目前只能计算几个氨基酸形成的结构。
IBM 开发的Blue Gene 超级计算机就是要解决这个问题;(3) 穿线法(Threading或fold recognition):由于Ab Initio 方法目前只有理论上的意义,Homology方法受限于待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似性,因此对于其它大部分蛋白质来说,有必要寻求新的方法,于是Threading应运而生。
以上三种方法中,Ab Initio方法不依赖于已知结构,其余两种则需要已知结构的协助。
通常将蛋白质序列和其真实三级结构组织成模板库,待预测三级结构的蛋白质序列,则称之为查询序列(query sequence)。
SWISS-MODEL和HHPred 是基于网络的同源建模工具,HHPred软件也可以下载。
MODELLER是这一类型软件中应用最早和最广泛的软件。
MODELLER和SWISS-MODEL有同源建模数据库。
接下来三个工具FUGUE、Phyre 和SPARKS属于穿线法。
穿线法可在数据库中搜寻和待测蛋白结构非常匹配的模板蛋白质。
与同源建模法不同,穿线法中模板蛋白质和待测蛋白质明显的序列相似性并不是必要条件。
穿线法可以检测一个数据库中亲缘关系很远的蛋白质,Z-score作为一个统计学值,可以显示模板蛋白质和待测蛋白之间的匹配程度,当Z-score较低时,就意味着没有匹配搜索的结构[3]。
最后,Robetta工具属于从头计算法。
它利用从数据库收集的序列片段来组装模型,是一个自动化的蛋白质结构预测服务工具。
它由贝克实验室提供,用于非商业性质的从头计算和比较建模[3]。
3.3 蛋白质-蛋白质相互作用数据库表5列出了蛋白质之间相互作用(protein-protein interactions, PPI)的数据库。
在过去的几年中,有大规模实验开始研究蛋白质之间的相互作用,并且很多相关资源可以在互联网上得到。