当前位置：文档之家› 蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件蛋白质数据库及蛋白质序列分析第一节、蛋白质数据库介绍一、蛋白质一级数据库

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件 2010-05-08 20:40 转载自布丁布果最终编辑布丁布果 4月18日蛋白质数据库及蛋白质序列分析第一节、蛋白质数据库介绍一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库，目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列，这些序列经过检验和注释。该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护。SWISS-PROT 的序列数量呈直线增长。2、TrEMBL数据库： SWISS-PROT的数据存在一个滞后问题，即把EMBL的DNA序列准确地翻译成蛋白质序列并进行注释需要时间。一大批含有开放阅读框(ORF) 的DNA序列尚未列入SWISS-PROT。为了解决这一问题，TrEMBL(Translated EMBL) 数据库被建立了起来。TrEMBL也是一个蛋白质数据库，它包括了所有EMBL库中的蛋白质编码区序列，提供了一个非常全面的蛋白质序列数据源，但这势必导致其注释质量的下降。 3、PIR数据库： PIR数据库的数据最初是由美国国家生物医学研究基金会（National Biomedical Research Foundation, NBRF）收集的蛋白质序列，主要翻译自GenBank的DNA序列。 1988年，美国的NBRF、日本的JIPID（the Japanese International Protein Sequence Database 日本国家蛋白质信息数据库）、德国的MIPS（Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息中心）合作，共同收集和维护PIR数据库。PIR根据注释程度(质量)分为4个等级。4、 ExPASy数据库：目前，瑞士生物信息学研究所（Swiss Institute of Bioinformatics, SIB）创建了蛋白质分析专家系统（Expert protein analysis system, ExPASy ）。涵盖了上述所有的数据库。网址：https://www.doczj.com/doc/2d15794908.html, 我国的北京大学生物信息中心(https://www.doczj.com/doc/2d15794908.html,) 设立了ExPASy的镜像（Mirror）。主要蛋白质序列数据库的网址 SWISS-PROT https://www.doczj.com/doc/2d15794908.html,/sprot 或 https://www.doczj.com/doc/2d15794908.html,/expasy_urls.html TrEMBL https://www.doczj.com/doc/2d15794908.html,/sprot PIR https://www.doczj.com/doc/2d15794908.html,/pirwww MIPS——Munich Information Centre for Protein Sequences http://mips.gsf.de/ JIPID——the Japanese International Protein Sequence Database 已经和PIR合并 ExPASy https://www.doczj.com/doc/2d15794908.html, 二、蛋白质结构数据库 1、PDB数据库：

蛋白质结构预测在线软件

蛋白质预测在线分析常用软件推荐蛋白质预测分析网址集锦物理性质预测： Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemasshttp://expaxy.hcuge.ch/sprot/peptide-mass.html TGREASE ftp://https://www.doczj.com/doc/2d15794908.html,/pub/fasta/ SAPS http://ulrec3.unil.ch/software/SAPS_form.html 基于组成的蛋白质识别预测 AACompIdent http://expaxy.hcuge.ch ... htmlAACompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.e mbl-heidelberg.de/prs.html 二级结构和折叠类预测 nnpredict https://www.doczj.com/doc/2d15794908.html,/~nomi/nnpredict Predictprotein http://www.embl-heidel ... protein/SOPMA http://www.ibcp.fr/predict.html SSPRED http://www.embl-heidel ... prd_info.html 特殊结构或结构预测 COILS http://ulrec3.unil.ch/ ... ILS_form.html MacStripe https://www.doczj.com/doc/2d15794908.html,/ ... acstripe.html 与核酸序列一样，蛋白质序列的检索往往是进行相关分析的第一步，由于数据库和网络技校术的发展，蛋白序列的检索是十分方便，将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。由NCBI检索蛋白质序列可联网到：“http://www.ncbi.nlm.ni ... gi?db=protein”进行检索。利用SRS系统从EMBL检索蛋白质序列联网到：https://www.doczj.com/doc/2d15794908.html,/”，可利用EMBL的SRS系统进行蛋白质序列的检索。通过EMAIL进行序列检索当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时，可采用EMAIL方式进行序列检索。蛋白质基本性质分析蛋白质序列的基本性质分析是蛋白质序列分析的基本方面，一般包括蛋白质的氨基酸组成，分子质量，等电点，亲水性，和疏水性、信号肽，跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如，疏水性图谱可通知来预测跨膜螺旋。同时，也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标（其中最典型的

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件蛋白质数据库及蛋白质序列分析第一节、蛋白质数据库介绍一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库，目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列，这些序列经过检验和注释。该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护。SWISS-PROT的序列数量呈直线增长。 2、TrEMBL数据库： SWISS-PROT的数据存在一个滞后问题，即进行注释需要时间。一大批含有开放阅读了解决这一问题，TrEMBL(Translated E 白质数据库，它包括了所有EMBL库中的质序列数据源，但这势必导致其注释质量 3、PIR数据库： PIR数据库的数据最初是由美国国家生物医学研究基金会（National Biomedical Research Foundation, NBRF）收集的蛋白质序列，主要翻译自GenBank的DNA序列。 1988年，美国的NBRF、日本的JIPID（the Japanese International Protein Sequence Database日本国家蛋白质信息数据库）、德国的MIPS（Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息中心）合作，共同收集和维护PIR数据库。PIR根据注释程度(质量)分为4个等级。 4、 ExPASy数据库：目前，瑞士生物信息学研究所（Swiss I 质分析专家系统（Expert protein anal 据库。网址：https://www.doczj.com/doc/2d15794908.html, 我国的北京大学生物信息中心(www.cbi.

蛋白质结构预测在线软件

蛋白质预测分析网址集锦? 物理性质预测：? Compute PI/MW?? ?? SAPS?? 基于组成的蛋白质识别预测? AACompIdent???PROPSEARCH?? 二级结构和折叠类预测? nnpredict?? Predictprotein??? SSPRED?? 特殊结构或结构预测? COILS?? MacStripe?? 与核酸序列一样，蛋白质序列的检索往往是进行相关分析的第一步，由于数据库和网络技校术的发展，蛋白序列的检索是十分方便，将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。? 由NCBI检索蛋白质序列? 可联网到：“”进行检索。? 利用SRS系统从EMBL检索蛋白质序列? 联网到：”，可利用EMBL的SRS系统进行蛋白质序列的检索。? 通过EMAIL进行序列检索?

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时，可采用EMAIL方式进行序列检索。? 蛋白质基本性质分析? 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面，一般包括蛋白质的氨基酸组成，分子质量，等电点，亲水性，和疏水性、信号肽，跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如，疏水性图谱可通知来预测跨膜螺旋。同时，也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标（其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。? 疏水性分析? 位于ExPASy的ProtScale程序（?）可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性，并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小（n）该参数用于估计每种氨基酸残基的平均显示尺度。? 进行蛋白质的亲/疏水性分析时，也可用一些windows下的软件如，bioedit,dnamana等。? 跨膜区分析? 有多种预测跨膜螺旋的方法，最简单的是直接，观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域，但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知

蛋白质结构预测方法综述

蛋白质结构预测方法综述卜东波陈翔王志勇《计算机不能做什么？》是一本好书，其中文版序言也堪称佳构。在这篇十余页的短文中，马希文教授总结了使用计算机解决实际问题的三步曲，即首先进行形式化，将领域相关的实际问题抽象转化成一个数学问题；然后分析问题的可计算性；最后进行算法设计，分析算法的时间和空间复杂度，寻找最优算法。蛋白质空间结构预测是很有生物学意义的问题，迄今亦有很多的工作。有意思的是，其中一些典型工作恰恰是上述三步曲的绝好示例，本文即沿着这一路线作一总结，介绍于后。 1 背景知识生物细胞种有许多蛋白质（由20余种氨基酸所形成的长链），这些大分子对于完成生物功能是至关重要的。蛋白质的空间结构往往决定了其功能，因此，如何揭示蛋白质的结构是非常重要的工作。生物学界常常将蛋白质的结构分为4个层次：一级结构，也就是组成蛋白质的氨基酸序列；二级结构，即骨架原子间的相互作用形成的局部结构，比如alpha螺旋,beta片层和loop区等；三级结构，即二级结构在更大范围内的堆积形成的空间结构；四级结构主要描述不同亚基之间的相互作用。经过多年努力，结构测定的实验方法得到了很好的发展，比较常用的有核磁共振和X光晶体衍射两种。然而由于实验测定比较耗时和昂贵，对于某些不易结晶的蛋白质来说不适用。相比之下，测定蛋白质氨基酸序列则比较容易。因此如果能够从一级序列推断出空间结构则是非常有意义的工作。这也就是下面的蛋白质折叠问题： 1蛋白质折叠问题（Protein Folding Problem）输入: 蛋白质的氨基酸序列

输出: 蛋白质的空间结构蛋白质结构预测的可行性是有坚实依据的。因为一般而言，蛋白质的空间结构是由其一级结构确定的。生化实验表明：如果在体外无任何其他物质存在的条件下，使得蛋白质去折叠，然后复性，蛋白质将立刻重新折叠回原来的空间结构，整个过程在不到1秒种内即可完成。因此有理由认为对于大部分蛋白质而言，其空间结构信息已经完全蕴涵于氨基酸序列中。从物理学的角度讲，系统的稳定状态通常是能量最小的状态，这也是蛋白质预测工作的理论基础。 2 蛋白质结构预测方法蛋白质结构预测的方法可以分为三种：同源性（Homology ）方法：这类方法的理论依据是如果两个蛋白质的序列比较相似，则其结构也有很大可能比较相似。有工作表明，如果序列相似性高于75％，则可以使用这种方法进行粗略的预测。这类方法的优点是准确度高，缺点是只能处理和模板库中蛋白质序列相似性较高的情况。从头计算（Ab initio ）方法：这类方法的依据是热力学理论，即求蛋白质能量最小的状态。生物学家和物理学家等认为从原理上讲这是影响蛋白质结构的本质因素。然而由于巨大的计算量，这种方法并不实用，目前只能计算几个氨基酸形成的结构。IBM 开发的Blue Gene 超级计算机，就是要解决这个问题。穿线法(Threading )方法：由于Ab Initio 方法目前只有理论上的意义，Homology 方法受限于待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似性，对于其他大部分蛋白质来说，有必要寻求新的方法。Threading 就此应运而生。以上三种方法中，Ab Initio 方法不依赖于已知结构，其余两种则需要已知结构的协助。通常将蛋白质序列和其真实三级结构组织成模板库，待预测三级结构的蛋白质序列，则称之为查询序列(query sequence)。 3 蛋白质结构预测的Threading 方法 Threading 方法有三个代表性的工作：Eisenburg 基于环境串的工作、Xu Ying 的Prospetor 和Xu Jinbo 、Li Ming 的RAPTOR 。 Threading 的方法：首先取出一条模版和查询序列作序列比对(Alignment)，并将模版蛋白质与查询序列匹配上的残基的空间坐标赋给查询序列上相应的残基。比对的过程是在我们设计的一个能量函数指导下进行的。根据比对结果和得到的查询序列的空间坐标，通过我们设计的能量函数，得到一个能量值。将这个操作应用到所有的模版上，取能量值最低的那条模版产生的查询序列的空间坐标为我们的预测结果。需要指出的是，此处的能量函数却不再是热力学意义上的能量函数。它实质上是概率的负对数，即，我们用统计意义上的能量来代替真实的分子能量，这两者有大致相同的形式。 p E log ?=如果沿着马希文教授的观点看上述工作，则更有意思：Eisenburg 指出如果仅仅停留在简单地使用每个原子的空间坐标(x,y,z)来形式化表示蛋白质空间结构，则难以进一步深入研究。Eisenburg 创造性地使用环境串表示结构，从而将结构预测问题转化成序列串和环境串之间的比对问题；其后，Xu Ying 作了进一步发展，将蛋白质序列表示成一系列核（core ）组成的序列，Core 和Core 之间存在相互作用。因此结构就表示成Core 的空间坐标，以及Core 之间的相互作用。在这种表示方法的基础上，Xu Ying 开发了一种求最优匹配的动态规划算法，得到了很好的结果。但是由于其较高的复杂度，在Prospetor2上不得不作了一些简化；Xu Jinbo 和Li Ming 很漂亮地解决了这个问题，将求最优匹配的过程表示成一个整数规划问题，并且证明了一些常用

蛋白质结构预测

实习 5 ：蛋白质结构预测学号20090***** 姓名****** 专业年级生命生技**** 实验时间2012.6.21 提交报告时间2012.6.21 实验目的： 1.学会使用GOR和HNN方法预测蛋白质二级结构 2.学会使用SWISS-MODEL进行蛋白质高级结构预测实验内容： 1.分别用GOR和HNN方法预测蛋白质序列的二级结构，并对比异同性。 2.利用SWISS-MODEL进行蛋白质的三级结构预测，并对预测结果进行解释。作业： 1. 搜索一条你感兴趣的蛋白质序列，分别用GOR和HNN进行二级结构预测，解释预测结果，分析两个方法结果有何异同。答：所选用蛋白质序列为>>gi|390408302|gb|AFL70986.1| gag protein, partial [Human immunodeficiency virus] （1）GOR预测结果：图1 图1是每个氨基酸在序列中所处的状态，可以看出序列的二级结构预测结果为： 1到9位个氨基酸为无规卷曲，10到33位氨基酸为α螺旋,34到37位为β折叠，38到45位为无规卷曲，46到49位为α螺旋，50到53位为无规卷曲，54到65为α螺旋，66到72位为无规卷曲，73到95位为α螺旋，96到101位为无规卷曲，102到108为β折叠，109到115位为无规卷曲，117位为β折叠。图2 图2为各种结构在序列中所占的比例，其中Alpha helix占53.85%，Extended strand占11.11%，Random coil占35.04%，无他二级结构。

图3 图3为各个氨基酸在序列中的状态以及二级结构在全序列中二级结构分布情况。（2）HNN预测：图4 图4是每个氨基酸在序列中所处的状态，可以看出序列的二级结构预测结果为： 1到6位个氨基酸为无规卷曲，7到34位氨基酸为α螺旋,35到37位为β折叠，38位为α螺旋，39到44位为无规卷曲，45到49位为α螺旋，50到55位为无规卷曲，56到65为α螺旋，66到71位为无规卷曲，72到83位为α螺旋，84到86位为无规卷曲，87到95位为α螺旋，96到102为无规卷曲，103到108位为β折叠，108到117位为无规卷曲。图5 图5为各种结构在序列中所占的比例，其中Alpha helix占55.56%，Extended strand占7.69%，Random coil占36.75%，无他二级结构。

蛋白质结构预测网址

蛋白质结构预测网址物理性质预测： Compute PI/MW Peptidemass TGREASE SAPS 基于组成的蛋白质识别预测 AACompIdent PROPSEARCH 二级结构和折叠类预测 nnpredict Predictprotein SSPRED 特殊结构或结构预测 COILS MacStripe 与核酸序列一样，蛋白质序列的检索往往是进行相关分析的第一步，由于数据库和网络技校术的发展，蛋白序列的检索是十分方便，将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。由NCBI检索蛋白质序列可联网到：“”进行检索。利用SRS系统从EMBL检索蛋白质序列联网到：”，可利用EMBL的SRS系统进行蛋白质序列的检索。通过EMAIL进行序列检索当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时，可采用EMAIL方式进行序列检索。蛋白质基本性质分析蛋白质序列的基本性质分析是蛋白质序列分析的基本方面，一般包括蛋白质的氨基酸组成，分子质量，等电点，亲水性，和疏水性、信号肽，跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如，疏水性图谱可通知来预测跨膜螺旋。同时，也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标（其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。疏水性分析位于ExPASy的ProtScale程序（）可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性，并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小（n）该参数用于估计每种氨基酸残基的平均显示尺度。进行蛋白质的亲/疏水性分析时，也可用一些windows下的软件如， bioedit,dnamana等。跨膜区分析有多种预测跨膜螺旋的方法，最简单的是直接，观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域，但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库，可通过匿名FTP获得()，参见表一

蛋白质功能-结构-相互作用预测网站工具合集

蛋白质组学蛋白质是生物体的重要组成部分，参与几乎所有生理和细胞代谢过程。此外，与基因组学和转录组学比较，对一个细胞或组织中表达的所有蛋白质，及其修饰和相互作用的大规模研究称为蛋白质组学。蛋白质组学通常被认为是在基因组学和转录组学之后，生物系统研究的下一步。然而，蛋白质组的研究远比基因组学复杂，这是由于蛋白质内在的复杂特点，如蛋白质各种各样的翻译后修饰所决定的。并且，研究基因组学的技术要比研究蛋白质组学的技术强得多，虽然在蛋白质组学研究中，质谱技术的研究已取得了一些进展。尽管存在方法上的挑战，蛋白质组学正在迅速发展，并且对癌症的临床诊断和疾病治疗做出了重要贡献。几项研究鉴定出了一些蛋白质在乳腺癌、卵巢癌、前列腺癌和食道癌中表达变化。例如，通过蛋白质组学技术，人们可以在患者血液中明确鉴定出肿瘤标志物。表1列出了更多的蛋白质组学技术用于研究癌症的例子。另外，高尔基体功能复杂。最新研究表明，它除了参与蛋白加工外，还能参与细胞分化及细胞间信号传导的过程，并在凋亡中扮演重要角色，其功能障碍也许和肿瘤的发生、发展有某种联系。根据人类基因组研究，约1000多种人类高尔基体蛋白质中仅有500~600种得到了鉴定，建立一条关于高尔基体蛋白质组成的技术路线将有助于其功能的深入研究。蛋白质组学是一种有效的研究方法，特别是随着亚细胞器蛋白质组学技术的迅猛发展，使高尔基体的全面研究变为可能。因此研究人员希望能以胃癌细胞中的高尔基体为研究对象，通过亚细胞器蛋白质组学方法，建立胃癌细胞中高尔基体的蛋白质组方法学。研究人员采用蔗糖密度梯度的超速离心方法分离纯化高尔基体，双向凝胶电泳（2-DE）分离高尔基体蛋白质，用ImageMaster 2D软件分析所得图谱，基质辅助激光解吸离子化飞行时间质谱（MALDI-TOF MS）鉴定蛋白质点等一系列亚细胞器蛋白质组学方法建立了胃癌细胞内高尔基体的蛋白图谱。最后，人们根据分离出的纯度较高的高尔基体建立了分辨率和重复性均较好的双向电泳图谱，运用质谱技术鉴定出12个蛋白质，包括蛋白合成相关蛋白、膜融合蛋白、调节蛋白、凋亡相关蛋白、运输蛋白和细胞增殖分化相关蛋白。通过亚细胞器分离纯化、双向电泳的蛋白分离及MALDI-TOF MS蛋白鉴定分析，研究人员首次成功建立了胃癌细胞SGC7901中高尔基体的蛋白质组学技术路线。 3.1 蛋白质功能预测工具也许生物信息学方法在癌症研究中最常用的就是基因功能预测方法，但是这些数据库只存储了基因组的大约一半基因的功能。为了在微阵列资料基础上完成功能性的富集分析，基因簇的功能注解是非常重要的。近几年生物学家研发了一些基因功能预测的方法，这些方法旨在超越传统的BLAST搜索来预测基因的功能。基因功能预测可以以氨基酸序列、三级结构、与之相互作用的配体、相互作用过程或基因的表达方式为基础。其中最重要的是基于氨基酸序列的分析，因为这种方法适合于微阵列分析的全部基因。在表3中，前三项列举了三种同源搜索方法。FASTA方法虽然应用还不太广泛，但它要优于BLAST，或者至少相当。FASTA程序是第一个使用的数据库相似性搜索程序。为了达到较高的敏感程度，程序引用取代矩阵实行局部比对以获得最佳搜索。美国弗吉尼亚大学可以提供这项程序的地方版本，当然数据库搜索结果依赖于要搜索的数据库序列。如果最近的序列数据库版本在弗吉尼亚大学不能获得，那么就最好试一下京都大学（Kyoto University）的KEGG站点。PSI-BLAST（位点特异性反复BLAST）是BLAST的转化版本，PSI-BLAST的特色是每次用profile 搜索数据库后再利用搜索的结果重新构建profile，然后用新的profile再次搜索数据库，如此反复直至没有新的结果产生为止。PSI-BLAST先用带空位的BLAST搜索数据库，将获得的序列通过多序列比对来构建第一个pro自然地拓展了BLAST方法，能寻找蛋白质序列中的隐含模式，有研究表明这种方法可以有效地找到很多序列差异较大而

蛋白质结构与功能的关系

蛋白质结构与功能的关系专业：植物学摘要：蛋白质特定的功能都是由其特定的构象所决定的，各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化，必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化，可能导致蛋白质构象紊乱症，当然也能引起生物体对环境的适应性增强。而分子模拟技术为蛋白质的研究提供了一种崭新的手段。在理论上解决了结构预测和功能分析以及蛋白质工程实施方面所面临的难题。它在蛋白质的结构预测和模建工作中占有举足轻重的地位，实现了生物技术与计算机技术的完美结合。关键词：蛋白质的结构、功能；折叠/功能关系；蛋白质构象紊乱症；分子模拟技术；同源建模 RNase是由124个氨基酸残基组成的单肽链，分子中 8 个Cys的-SH构成4对二硫键，形成具有一定空间构象的蛋白质分子。在蛋白质变性剂和一些还原剂存在下，酶分子中的二硫键全部被还原，酶的空间结构破坏，肽链完全伸展，酶的催化活性完全丧失。当用透析的方法除去变性剂和巯基乙醇后，发现酶大部分活性恢复，所有的二硫键准确无误地恢复原来状态。若用其他的方法改变分子中二硫键的配对方式，酶完全丧失活性。这个实验表明，蛋白质的一级结构决定它的空间结构，而特定的空间结构是蛋白质具有生物活性的保证。前体与活性蛋白质一级结构的关系，由108个氨基酸残基构成的前胰岛素原，在合成的时候完全没有活性，当切去N-端的24个氨基酸信号肽，形成84个氨基酸的胰岛素原，胰岛素原也没活性，在包装分泌时，A、B链之间的33个氨基酸残基被切除，才形成具有活性的胰岛素。功能不同的蛋白质总是有着不同的序列；种属来源不同而功能相同的蛋白质的一级结构，可能有某些差异，但与功能相关的结构也总是相同。若一级结构变化，蛋白质的功能可能发生很大的变化。蛋白质特定的功能都是由其特定的构象所决定的，各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化，必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化，可能导致蛋白质构象紊乱症，当然也能引起生物体对环境的适应性增强。虽然蛋白质结构与生物功能的关系比序列与功能的关系更加紧密，但结构与功能的这种关联亦若隐若现，并不能排除折叠差别悬殊的蛋白质执行相似的功能，折叠相似的蛋白质执行差别悬殊功能的现象的存在。无奈，该领域仍不得不将100多年前Fisher提出的“锁一钥

蛋白质结构与功能的生物信息学研究汇总

实验名称：蛋白质结构与功能的生物信息学研究实验目的：1.掌握运用BLAST工具对指定蛋白质的氨基酸序列同源性搜索的方法。 2.掌握用不同的工具分析蛋白质的氨基酸序列的基本性质 3掌握蛋白质的氨基酸序列进行三维结构的分析 4.熟悉对蛋白质的氨基酸序列所代表蛋白的修饰情况、所参与的代谢途径、相互作用的蛋白，以及与疾病的相关性的分析。实验方法和流程：一、同源性搜索同源性从分子水平讲则是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。BLAST工具能对生物不同蛋白质的氨基酸序列或不同的基因的DNA序列极性比对，并从相应数据库中找到相同或相似序列。对指定的蛋白质的氨基酸序列进行同源性搜索步骤如下： ↓ 登录网址https://www.doczj.com/doc/2d15794908.html,/blast/ ↓ 输入序列后,运行blast工具 ↓ 序列比对的图形结果显示

序列比对的图形结果：用相似性区段（Hit）覆盖输入序列的范围判断两个序列的相似性。如果图形中包含低得分的颜色（主要是红色）区段，表明两序列的并非完全匹配。 ↓ 匹配序列列表及得分

各序列得分可选择不同的比对工具备注: Clustal是一款用来对()的软件。可以用来发现特征序列，进行蛋白分类，证明序列间的同源性，帮助预测新序列二级结构与三级结构，确定PCR引物，以及在分子进化分析方面均有很大帮助。Clustal包括Clustalx和Clustalw(前者是图形化界面版本后者是命令界面)，是生物信息学常用的多序列比对工具。该序列的比对结果有100条，按得分降序排列，其中最大得分2373，最小得分分为1195. ↓ 详细的比对序列的排列情况第一个匹配序列第一个序列的匹配率为100% Score表示打分矩阵计算出来的值，由搜索算法决定的，值越大说明匹配程度

蛋白质结构预测在线软件

蛋白质预测分析网址集锦物理性质预测： Compute PI/MW SAPS 基于组成的蛋白质识别预测 AACompIdent PROPSEARCH 二级结构和折叠类预测 nnpredict Predictprotein SSPRED 特殊结构或结构预测 COILS MacStripe 与核酸序列一样，蛋白质序列的检索往往是进行相关分析的第一步，由于数据库和网络技校术的发展，蛋白序列的检索是十分方便，将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。由NCBI检索蛋白质序列可联网到：“”进行检索。利用SRS系统从EMBL检索蛋白质序列联网到：”，可利用EMBL的SRS系统进行蛋白质序列的检索。通过EMAIL进行序列检索当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时，可采用EMAIL方式进行序列检索。蛋白质基本性质分析蛋白质序列的基本性质分析是蛋白质序列分析的基本方面，一般包括蛋白质的氨基酸组成，分子质量，等电点，亲水性，和疏水性、信号肽，跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如，疏水性图谱可通知来预测跨膜螺旋。同时，也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标（其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。疏水性分析位于ExPASy的ProtScale程序（）可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性，并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小（n）该参数用于估计每种氨基酸残基的平均显示尺度。进行蛋白质的亲/疏水性分析时，也可用一些windows下的软件如，bioedit,dnamana等。跨膜区分析有多种预测跨膜螺旋的方法，最简单的是直接，观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域，但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库，可通过匿名FTP获得(，参见表一

蛋白质结构及功能预测

物理性质预测 Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemass http://expaxy.hcuge.ch/sprot/peptide-mass.html TGREASE ftp://https://www.doczj.com/doc/2d15794908.html,/pub/fasta/ SAPS http://ulrec3.unil.ch/software/SAPS_form.html 基于组成的蛋白质识别预测 http://expaxy.hcuge.ch/ch2d/aacompi.html AACompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.embl-heidelberg.de/prs.html 二级结构和折叠类预测 https://www.doczj.com/doc/2d15794908.html,/~nomi/nnpredictPredictprotein http://www.embl-heidelberg.de/predictprotein/SOPMA http://www.ibcp.fr/predict.htmlSSPRED http://www.embl-heidelberg.de/sspred/ssprd_info.html 特殊结构或结构预测 http://ulrec3.unil.ch/software/COILS_form.htmlMacStripe https://www.doczj.com/doc/2d15794908.html,/matsudaira/macstripe.html 检索由NCBI检索蛋白质序列 https://www.doczj.com/doc/2d15794908.html,:80/entrz/query.fcgi?db=protein进行检索。利用SRS系统从EMBL检索蛋白质序列 https://www.doczj.com/doc/2d15794908.html,/可利用EMBL的SRS系统进行蛋白质序列的检索。通过EMAIL进行序列检索当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时，可采用EMAIL方式进行序列检索。疏水性分析位于ExPASy的ProtScale程序https://www.doczj.com/doc/2d15794908.html,/cgi-bin/protscale.pl可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性，并为每一种氨基酸输出

蛋白质结构预测在线软件

蛋白质结构预测在线软件 Company Document number：WUUT-WUUY-WBBGB-BWYTT-1982GT

蛋白质预测分析网址集锦？物理性质预测：？ Compute PI/MW？？ SAPS？基于组成的蛋白质识别预测？ AACompIdentPROPSEARCH？二级结构和折叠类预测？ nnpredict？ Predictprotein？ SSPRED？特殊结构或结构预测？ COILS？ MacStripe？与核酸序列一样，蛋白质序列的检索往往是进行相关分析的第一步，由于数据库和网络技校术的发展，蛋白序列的检索是十分方便，将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。？由NCBI检索蛋白质序列？可联网到：“”进行检索。？利用SRS系统从EMBL检索蛋白质序列？联网到：”，可利用EMBL的SRS系统进行蛋白质序列的检索。？通过EMAIL进行序列检索？

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时，可采用EMAIL方式进行序列检索。？蛋白质基本性质分析？蛋白质序列的基本性质分析是蛋白质序列分析的基本方面，一般包括蛋白质的氨基酸组成，分子质量，等电点，亲水性，和疏水性、信号肽，跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如，疏水性图谱可通知来预测跨膜螺旋。同时，也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标（其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。？疏水性分析？位于ExPASy的ProtScale程序（）可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性，并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小（n）该参数用于估计每种氨基酸残基的平均显示尺度。？进行蛋白质的亲/疏水性分析时，也可用一些windows下的软件如， bioedit,dnamana等。？跨膜区分析？有多种预测跨膜螺旋的方法，最简单的是直接，观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域，但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库，可通过匿名FTP获得(，参见表一？资源名称网址说明？

蛋白质的组成及特点

蛋白质的组成及特点蛋白质是由C(碳)、H(氢)、O(氧)、N(氮)组成，一般蛋白质可能还会含有P(磷)、S(硫)、Fe(铁)、Zn(锌)、Cu(铜)、B(硼)、Mn(锰)、I(碘)、Mo(钼)等。这些元素在蛋白质中的组成百分比约为：碳50% 氢7% 氧23% 氮16% 硫0~3% 其他微量。 (1)一切蛋白质都含N元素，且各种蛋白质的含氮量很接近，平均为16%; (2)蛋白质系数：任何生物样品中每1g元N的存在，就表示大约有100/16=6.25g蛋白质的存在，6.25常称为蛋白质常数整体结构蛋白质是以氨基酸为基本单位构成的生物高分子。蛋白质分子上氨基酸的序列和由此形成的立体结构构成了蛋白质结构的多样性。蛋白质具有一级、二级、三级、四级结构，蛋白质分子的结构决定了它的功能。一级结构(primary structure)：氨基酸残基在蛋白质肽链中的排列顺序称为蛋白质的一级结构，每种蛋白质都有唯一而确切的氨基酸序列。二级结构(secondary structure)：蛋白质分子中肽链并非直链状，而是按一定的规律卷曲(如α-螺旋结构)或折叠(如β-折叠结构)形成特定的空间结构，这是蛋白质的二级结

构。蛋白质的二级结构主要依靠肽链中氨基酸残基亚氨基(—NH—)上的氢原子和羰基上的氧原子之间形成的氢键而实现的。三级结构(tertiary structure)：在二级结构的基础上，肽链还按照一定的空间结构进一步形成更复杂的三级结构。肌红蛋白，血红蛋白等正是通过这种结构使其表面的空穴恰好容纳一个血红素分子。四级结构(quaternary structure)：具有三级结构的多肽链按一定空间排列方式结合在一起形成的聚集体结构称为蛋白质的四级结构。如血红蛋白由4个具有三级结构的多肽链构成，其中两个是α-链，另两个是β-链，其四级结构近似椭球形状。连接方法用约20种氨基酸作原料，在细胞质中的核糖体上，将氨基酸分子互相连接成肽链。一个氨基酸分子的氨基和另一个氨基酸分子的羧基，脱去一分子水而连接起来，这种结合方式叫做脱水缩合。通过缩合反应，在羧基和氨基之间形成的连接两个氨基酸分子的那个键叫做肽键。由肽键连接形成的化合物称为肽。检测方法分别向甲乙两支试管加入3毫升蛋清稀释液和清水，再依次向两支试管中加入双缩脲试剂A液和B液。观察甲乙两试管

蛋白质功能预测方法概述

蛋白质功能预测方法概述摘要: 蛋白质是生物体内最必需也是最通用的大分子，对它们功能的认识对于科学领域和农业领域的发展有着至关重要的作用。随着后基因组时代的发展，NCBI 数据库中迅速涌现出大量不明结构与功能的蛋白质序列，这些蛋白质序列甚至一跃成了研究的热点。近几十年来蛋白质功能预测的方法不断被完善。由最初的仅基于蛋白质序列或3D 结构信息的方法衍生出更多的基于序列相似性、基于结构基序、基于相互作用网络等新方法，这些新型方法采用新的算法、新的研究思路和技术手段，力求得到准确性与普遍性并存，能够被广泛应用的蛋白质功能预测方法。本文综述了近年来蛋白质功能预测的方法，并将这些研究方法分类归纳，各自阐明了每类方法的优缺点。关键词: 蛋白质功能预测方法，结构基序，相互作用网络，ESG An Overview protein function prediction methods Abstract: Protein is the most necessary and versatile macromolecules in vivo，researches on their functions are very important to the fields of science and the development of the agriculture． With the development of the post － genomic era，the NCBI database quickly emerges a large number of protein sequences of unknown structure and functions， which even become hot research Points． In the recent decades，protein function prediction methods have been more and more improved and developed． This article reviews the protein function prediction methods occured in recent years，All these methods were inducted and classicicated，and their advantages and disadvantages of each methods were illustrates respectively． Keywords: Protein Function Prediction Methods，Structal Motif， Interaction Networks，ESG 1 引言基因组学和蛋白质组学在过去十年的发展过程中产生了大规模的新的蛋白质序列和试验数据，科学家为了确定这些新序列的功能借助计算机手段进行了大量的研究［1 － 2］。在过去的二十年里，人们利用计算机技术对蛋白质功能进行预测的文章发表了上千篇之多( http: / /www． ncbi． nlm． nih． gov /pubmed) ，大部分是基于序列相似性、基于结构域、基于相互作用网络等方法预测，再利用生物学知识来进行解析。本文综合阐述了迄今为止蛋白质功能预测的分类，大致可分为四类: ( 1) 基于序列相似性预测方法; ( 2) 基于蛋白质相互作用网络预测方法;( 3) 基于结构相似性预测方法; ( 4) 其他预测方法。 2 蛋白质功能蛋白质功能对于客观环境很敏感: 给定的发挥作用的空间环境不同、规定的作用时间不同都可以使蛋白质所表现出来的功能是有差异性的。为了使功能预测的结果更加准确，Bork 等提出了一种蛋白质功能类型的分类［3］，按蛋白质发挥作用的平台不同将蛋白质功能分为分子功能，细胞功能和生理功能。很明显，这三个类型不是独立存在的，而是如图2 那样等级相关的。现如今在蛋白质功能预测中最常用的是GO 分类，Gene Ontology 分类从细胞组

蛋白质结构预测原理概述

蛋白质结构预测原理概述蛋白质结构预测技术已经有很多发展，但是基本原理未变，可以参考；基本操作也可以参考下文。摘自：阎隆飞,孙之荣主编，蛋白质分子结构，清华大学出版社，1999. 现在计算机互联网高速发展,已经成为遍布全球的一个网络,成为科学研究的有力工具,也是进行蛋白质结构和功能研究的重要工具。国际上一些著名的分子生物学实验室都在互联网上建立了蛋白质结构预测服务器。可以在互联网上进入这些服务器,利用这些服务器提供的软件进行蛋白质结构预测研究。下面以欧洲分子生物学实验室蛋白质结构预测服务器为例作一说明。 13.6.1欧洲分子生物学实验室蛋白质结构预测服务器 (1)该实验室提供的服务内容欧洲分子生物学实验室(EuropeanMolecular BiologyLabraroty,EMBL)提供的服务包括:①多序列联配的生成(MaxHom);②二级结构预测(PHDsec);③溶剂可及性的预测(PHDacc);④跨膜螺旋预测(PHDhtm);⑤跨膜蛋白拓扑结构预测( PHDtopology);⑥用基于预测的Threading方法进行折叠子识别(PHDthreader);⑦ 二级结构预测结果评估(EvalSec)。用Email或WWW方式访问该服务器,可完成以上7种功能。其Email或WWW地址如下: WWW.embl—heidelberg.de/predictprotein/predictprotein.html 把要预测序列发往PredictProtein@EMBL-Heidelberg.DE; 如有问题可以给Predict-Help@EMBL-Heidelberg.DE发电子邮件。 (2)结构预测步骤已知蛋白质一级序列的结构,预测步骤如下:①在序列库(SWISSPROT)中搜索同源序列;②用MaxHom程序进行多序列联配;③把多序列联配的结果作为基于profile 的神经网络预测方法的输入,进行结构预测。在交互验证实验中,其预测率如下:对水溶性球蛋白其三态预测率(螺旋、折叠和其他)大于72%[34,35];跨膜螺旋的两态(跨膜和非跨膜)预测率大于95%;优化后的跨膜螺旋和拓扑结构预测,螺旋预测率为89%左右,拓扑结构预测率大于86%[39]。基于Threading预测的折叠子识别方法(prediction-basedthreading)把二级结构和可及性预测结果与PDB数据库中各蛋白联配,找出同源蛋白,从而预测未知空间结构蛋白的折叠类型。预测准确率的评估数据包括:总体三态预测准确率、相关系数、信息熵、部分片段重叠、二级结构预测内容和结构类型[40]。下面介绍各种结构预测服务。 1)多序列联配的生成(MaxHom) MaxHom主要由两部分组成:①用一标准动力学程序把数据库中各序列与待预测序列进行联配。每联配一个序列后就编译生成profile,然后再联配下一个序列,如此反复联配编译,直到联配完所有同源序列。②当所有同源序列联配上去后,重新编译profile, 再次运行动力学程序,利用以上生成的profile一个一个序列地进行重新联配。