当前位置：文档之家› 蛋白质结构预测原理概述

蛋白质结构预测原理概述

蛋白质结构预测技术已经有很多发展，但是基本原理未变，可以参考；基本操作也可以参考下文。

摘自：阎隆飞,孙之荣主编，蛋白质分子结构，清华大学出版社，1999.

现在计算机互联网高速发展,已经成为遍布全球的一个网络,成为科学研究的有力工具,也是进行蛋白质结构和功能研究的重要工具。国际上一些著名的分子生物学实验室都

在互联网上建立了蛋白质结构预测服务器。可以在互联网上进入这些服务器,利用这些服

务器提供的软件进行蛋白质结构预测研究。

下面以欧洲分子生物学实验室蛋白质结构预测服务器为例作一说明。

13.6.1欧洲分子生物学实验室蛋白质结构预测服务器

(1)该实验室提供的服务内容

欧洲分子生物学实验室(EuropeanMolecular BiologyLabraroty,EMBL)提供的服

务包括:①多序列联配的生成(MaxHom);②二级结构预测(PHDsec);③溶剂可及

性的预测(PHDacc);④跨膜螺旋预测(PHDhtm);⑤跨膜蛋白拓扑结构预测( PHDtopology);⑥用基于预测的Threading方法进行折叠子识别(PHDthreader);⑦

二级结构预测结果评估(EvalSec)。

用Email或WWW方式访问该服务器,可完成以上7种功能。其Email或WWW地

址如下:

WWW.embl—heidelberg.de/predictprotein/predictprotein.html

把要预测序列发往PredictProtein@EMBL-Heidelberg.DE;

如有问题可以给Predict-Help@EMBL-Heidelberg.DE发电子邮件。

(2)结构预测步骤

已知蛋白质一级序列的结构,预测步骤如下:①在序列库(SWISSPROT)中搜索同

源序列;②用MaxHom程序进行多序列联配;③把多序列联配的结果作为基于profile

的神经网络预测方法的输入,进行结构预测。

在交互验证实验中,其预测率如下:对水溶性球蛋白其三态预测率(螺旋、折叠和其他)大于72%[34,35];跨膜螺旋的两态(跨膜和非跨膜)预测率大于95%;优化后的跨膜螺旋和拓扑结构预测,螺旋预测率为89%左右,拓扑结构预测率大于86%[39]。

基于Threading预测的折叠子识别方法(prediction-basedthreading)把二级结构和可及性预测结果与PDB数据库中各蛋白联配,找出同源蛋白,从而预测未知空间结构蛋白的折叠类型。预测准确率的评估数据包括:总体三态预测准确率、相关系数、信息熵、部分片段重叠、二级结构预测内容和结构类型[40]。

下面介绍各种结构预测服务。

1)多序列联配的生成(MaxHom)

MaxHom主要由两部分组成:①用一标准动力学程序把数据库中各序列与待预测

序列进行联配。每联配一个序列后就编译生成profile,然后再联配下一个序列,如此反复

联配编译,直到联配完所有同源序列。②当所有同源序列联配上去后,重新编译profile,

再次运行动力学程序,利用以上生成的profile一个一个序列地进行重新联配。

2)二级结构预测(PHDsec)

经过多序列联配后,再利用神经网络方法预测,平均三态预测率大于72%[34,35]。比单独用一个序列进行三态预测预测率高10%,比基于统计的联配信息方法至少高6%。

3)溶剂可及性预测(PHDacc)

这是一种神经网络预测方法。在238个球蛋白组成的数据库中,进行交互验证,相关系数为0.54[34,35]。其输出结果中把分子的相对可及性分成10类,它比只用3个输出态(包埋、中间、暴露)的类似神经网络方法和不用多序列联配的预测方法,预测率均提高26%。

4)跨膜螺旋预测(PHDhtm)

预测方法仍旧为神经网络方法。在本程序中,消除了该方法的常见缺点,即预测出的螺旋往往过长。消除方法是利用经验值进行剪切[40]。

5)跨膜螺旋和拓扑结构预测的优化(PHDtopology)

PHDhtm预测结果用一类似动力学程序的算法进行优化。预测结果再用于拓扑结构

预测,如蛋白质N端相对于膜的取向。此方法比所有其他方法都好[40]。

6)基于结构预测Threading的折叠子识别(PHDthreader)

本程序用一种新型的基于Threading结构预测的方法[41～52],可以搜索到同源性在10～25%的蛋白。其原理是搜索与未知空间结构的蛋白具有相似的二级结构和可及性MOTIF的已知空间折叠类型的蛋白。对于整个折叠子相似性的识别,其准确率在60%左

右。如果要把短的同源肽段也准确预测出来,其准确率在30%左右(简单序列联配的准确

率只有14%左右)。

7)二级结构预测的三态预测法SSPRED

SSPRED方法可以通过WWW网进行访问和使用。有两种使用方法。其一应用于单

序列蛋白的二级结构预测,另一种用于多序列拼接后的蛋白序列的二级结构预测。对于第一种情况,SSPRED服务器自动对SWISSPROT数据库进行同源搜索,从而生成多序列

拼接的文件输入格式。然后再进行相当于第二种情况的结构预测。其具体过程如下:

①SWISSPROT数据库的同源性搜索。利用基于Smith和Waterman共同开发的局部最

优相似的BLITZ服务器,对SWISSPROT数据库进行同源性搜索(如果只进行同源蛋白

搜索,可以按一定格式直接给如下地址发Email

:blitz@embl-Heidelberg.de)。

②从数据库中提取同源序列并存成PIR格式备用。

③利用由EMBL的Tompson/Higgins/Gibson

开发的ClustalW程序进行多序列拼接,拼接后生成msf文件格式,作为SSPRED服务器

的输入文件。

④运行SSPRED,进行结构预测。预测的结果将以Email的形式邮回。

SSPRED可以自动预测蛋白质的二级结构。

它由3个计算步骤组成:①PreferCal用

于对每一可能的残基交换确定取舍权重。②PreferPred用于在多序列联配的基础上预测

二级结构片段。③PreferEval用于估计二级结构预测的准确度。

8)二级结构特异性残基交换矩阵的构建

PreferCal程序的输入取自Pascarella和Argos(1992)构建的包含70多个蛋白质家

族的3D-Ali数据库。在进行残基交换矩阵计算时,跨膜蛋白由于其特殊性不在统计之列。每一3D-Ali数据文件对应一个具有独特折叠域的蛋白质家族。首先对每一蛋白质家族内的所有蛋白序列进行空间上的同源联配,再标识出序列各残基的二级结构状态。然后,从巨大的分子生物学数据库中找出那些三级结构虽未确定但具有50%以上相同残基的蛋

白序列,与以上结构序列进行联配。另外需指出的是3D-Ali数据库中的蛋白质家族,有的

只含有一个蛋白质,其余含有两个以上蛋白质。在对各二级结构类型计算残基交换矩阵时,只统计具有两个以上蛋白的蛋白家族。在多序列联配后,各残基已标识出其对应的二级结构态(螺旋标识为H,折叠标识为E,其余标识为C)。在每一匹配位置对每一可能的残基交换类型计算残基交换频率。每一可能的交换计数一次。然后对全部联配区进行总计,把结果输出成二级结构特异性的替换矩阵。很明显,该矩阵关于对角线对称。

二级结构片段的长度,螺旋最小为5个氨基酸残基,折叠最小为3个氨基酸残基,无

规卷曲最小为5个氨基酸残基。

9)二级结构预测

3个二级结构状态对应的残基交换矩阵构建出来后,就可以进行二级结构预测了。待预测的序列可以是单个蛋白质序列,也可以是多序列联配后的序列形式。对于单个蛋白序列,SSPRED会自动在蛋白序列库中搜索同源蛋白,并进行多序列联配,然后由PreferCal

计算出残基交换矩阵。

预测过程如下:每一种残基类型出现一次,就在其对应的联配位点上标记一次。对所

有可能的残基交换进行统计。自交换权重矩阵得到的交换值对3种二级结构状态和每一

联配位点统计总和。统计结果相加,并对每一结构类型在包含一定数目的连续联配位点的滑动窗口取平均。窗口中心定位于要预测的位置。对所有可能的联配窗口进行以上计算。在每一窗口中心,窗口对3种二级结构状态取平均值,三者中最高的即为预测状态(H、E

或C)。窗口长度从3个～13个残基,以步阶2个残基取不同值,直到达到最优预测效果。

参考文献

1.JohnsonMS,SrinivasanN,Sowdhamini R et al.CRC Crit Rev Biochem Mol Biol,1994,29:1

2.Orengo CA,Jones DT,Thornton J M.Nature,1994,372:631

3.MayACW,Blundell TL.Curr OpinBiotech.,1994,5:355

4.Sali A.Curr OpinBiotech.,1995,6:501

5.SrinivasanN,Blundell TL.ProteinEng.,1993,6:501

6.冯祖康,丁达夫.生物化学与生物物理学报,1995,27:173

7.赵善荣,唐斌,陈凯先.生物化学与生物物理进展,1996,23(5):422—426

8.TophamCM,McleodA,Eisenmenger F et al.J Mol Biol,1993,7:1412

9.Moult J,James MNG.Proteins,1986,1:146

10.SudarsanamS,DuBoseRF,MarchCJ et al.ProteinSci.,1995,7:1412

11.Koehl P,DelarueM.Nature Stru cBiol1995,2:163

12.HwangJ-K,LiaoW-F.ProteinEng.,1995,8:363

13.Sali A,PottertonL,YuanF et al.Proteins,1995,23:318

14.Sippl MJ.Curr OpinStrucBiol1995,5:229

15.ZhirongSun,Chun-TingZhang,Fei-hongWu,andLi-wei Peng,AVector ProjectionMethodfor Predicting Supersecondary Motifs,Journal of ProteinChemistry.1996,15(No)8:721—729

16.SunZR,RaoXQ,Peng LW&Xu Dong.Prediction of Protein Supersecondary Structures Based On Artificial Neural Network Method.Protein Engineering,1997,10(7):763—769

17.王彦力,来鲁华,韩玉真等.生物物理学报,1995,11:67

18.来鲁华等.蛋白质的结构预测与分子设计.北京:北京大学出版社,1993,49—61

19.Russell RB,andBartonGJ.Proteins.,1992,14:300—323

20.Havel TF,andSnowME.J.Mol.Biol,1991,217:1—7

21.Desmet J,Maeyer MD,Hazes B&Lasters I.Nature,1992,356:539—542

22.DunbrackRL,Karplus M.J.Mol.Biol,1993,230:543—574

23.Ponder J W,Richards FM.J.Mol.Biol.,1987,193:775—791

24.Summers NL,CarlsonWD,Karplus M.J.Mol.Biol,1987,196:175—198

25.SutcliffeMJ,Hazes FR,Blundell TL.Prot.Eng.,1987,1:385—392.

26.Collura V et al.Modeling of Protein Loops by Simulated Annealing.Protein Science,1993,2: 19:502—1510

27.Carlacci L,and Englander W.The Loop Problem in Proteins:A Monte Carlo Simulated Annealing Approach.Biopolymers,1993,33:1271—1286

28.Scarborough PE et al.Explorationof Subsite BindingSpecificity of Human Cathepsin D through Kinetics and Rule-based Molecular Modeling.Protein Science,1993,2:264—276

29.HobohmUet al.Seletctionof Representative Protein Data Sets.Protein Science,1992, 1:409—417

30.Bryant SH,andLawrence CE.An Empirical Energy Function for Threading Protein Sequence Through the Folding Motif.Proteins;Structure,Function and Genetics,1993,16:92—112

31.Colloch N,Etchebest C,Thoreau E,Henrisaat B,&Mornrn J https://www.doczj.com/doc/da2826719.html,parison of Three Algorithms for the Assignment of Secondary Structure in Proteins:The Advantage of a Consensus Assignment,ProteinEngineering1993,6(4):377—382

32.KabschW,Sander C.Dictionaryof Protein Secondary Structure:Pattern Recognition of Hydrogen-bonded and Geometrical Features,Biopolymers,1983,22:2577—2637

33.Pascarella S,Argos P.AD a ta bank Merging Related Protein Structures and Sequences, Protein Engineering,1992,5(2):121—137

34.Rost B,Sander C.Prediction of Protein Secondary Structure at Better Than70%Accuracy, J.Mol.Biol.,1993,232:584—599

35.Rost B,Sander https://www.doczj.com/doc/da2826719.html,biningEvolutionaryInformationandNeural Networks toPredict Protein SecondaryStructure,Proteins,1994,19:55—77

36.BoJ,GuoT,PengLW,Sun ZR.FoldingType-Specific SecondaryStructure Propensities of AminoAcids,Derivedfromα,β,α/βandα+βProteins of KnownStructures.Biopolymer

,1998,45

(1):35—49

37.Garnier J,OsguthorpeDJ,Robsonb,J.Mol.Biol.,1978,120:97—101

38.Gibrat J,Garnier J,RobsonB.J.Mol.Biol,1987,198:425—428

39.Rost B,Sander C,Conservation and Prediction of Solvent Accessibility in Protein Families. Proteins,1994,20:216—226

40.Rost Bet al.Predictionof Helical TransmembraneSegments at95%Accuracy.ProteinScience, 1995,(4):521—533

41.Jones DT,Taylor WR,ThorntonJ M,ANewApproachtoProteinFoldRecognition,Nature, 1992,358:86—89

42.BowieJ U,LuthyR,EisenbergD.AMethodtoIdentifyProteinSequences that FoldintoaKnown Three-dimensional Structure,Science,1991,253:164—170

43.Thomas P D.An Iterative Method for Extracting Energy-like Quantities from Protein Structures,

Proc.Natl.Acad.Sci.,1996,93:11628—11633

https://www.doczj.com/doc/da2826719.html,throp RH.Global Optimum Protein Threading with Gapped Alignment and Empirical Pair Score Functions,J.Mol.Biol,1996,255:641—665

45.Fischer D.Protein Fold Recognition Using Sequence-derived Predictions,ProteinSci.,1996,

5:947—955

46.DefayTR.Multiple Sequence Information for ThreadingAlgorithms,J.Mol.Biol.,1996,262: 314—323

47.Bryant SH.Evaluationof Threading Specificity and Accuray Proteins,Protein, 1996,26:172—185

48.Russell RB.Protein Fold Recognition by Mapping Predicted Secondary Structures,J.Mol. Biol,1996,259:349—365

49.Edwards YJK.Assessment of Protein Fold Predictions from Sequence Information:The Predicted

Alpha/beta Doubly Would Fold of the Von Willebr and Factor Type a Domain is Similar to its Crystal Structure,J.Mol.Biol.,1996,260:277—285

50.ChouKC.ANovel Approach to Predicting Protein Structure Classes ina(20-1)DA mino Acid CompositionSpace,Proteins,1995,21:319—344

51.ZhangCT,ZhangR.A new Criterion to Classify Globular Proteins Based on Their Secondary StructureContents.Bioinformatics,1998,14(10):1—9

52.Bryant SH.Evalution of Threading Specificity and Accuray Protein.Protein,1996, 26:172—185。

蛋白质结构分析原理及工具-文献综述

蛋白质结构分析原理及工具（南京农业大学生命科学学院生命基地111班）摘要：本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具，系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举，并没有对原理和方法做详细的介绍。文章还列举了蛋白质分析中常用的数据库。关键词：蛋白质；结构预测；跨膜域；保守结构域 1 蛋白质相似性检测蛋白质数据库。由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化后形成的同源序列称直系同源，它们通常具有相似的功能；由基因复制而来的序列称为旁系同源，它们通常有不同的功能[1]。因此，推测全新蛋白质功能的第一步是将它的序列与进化上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的特点。表一常用蛋白质数据库网址可能有更新氨基酸替代模型。进化过程中，一种氨基酸残基会有向另一种氨基酸残基变化的倾向。氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵[2]、JTT模型[3]。序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。成对序列相似性搜索通过搜索序列数据库从而找到与查询序列相似的序列。分为局部联配和全局联配。常用的局部联配工具有BLAST和SSEARCH，它们使用了Smith-Waterman 算法。全局联配工具有FASTA和GGSEARCH，基于Needleman-Wunsch算法。多序列相似性搜索常用于构建系统发育树，这里不阐述。表二列举了常用的成对序列相似性比对搜索工具

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件 2010-05-08 20:40 转载自布丁布果最终编辑布丁布果 4月18日蛋白质数据库及蛋白质序列分析第一节、蛋白质数据库介绍一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库，目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列，这些序列经过检验和注释。该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护。SWISS-PROT 的序列数量呈直线增长。2、TrEMBL数据库： SWISS-PROT的数据存在一个滞后问题，即把EMBL的DNA序列准确地翻译成蛋白质序列并进行注释需要时间。一大批含有开放阅读框(ORF) 的DNA序列尚未列入SWISS-PROT。为了解决这一问题，TrEMBL(Translated EMBL) 数据库被建立了起来。TrEMBL也是一个蛋白质数据库，它包括了所有EMBL库中的蛋白质编码区序列，提供了一个非常全面的蛋白质序列数据源，但这势必导致其注释质量的下降。 3、PIR数据库： PIR数据库的数据最初是由美国国家生物医学研究基金会（National Biomedical Research Foundation, NBRF）收集的蛋白质序列，主要翻译自GenBank的DNA序列。 1988年，美国的NBRF、日本的JIPID（the Japanese International Protein Sequence Database 日本国家蛋白质信息数据库）、德国的MIPS（Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息中心）合作，共同收集和维护PIR数据库。PIR根据注释程度(质量)分为4个等级。4、 ExPASy数据库：目前，瑞士生物信息学研究所（Swiss Institute of Bioinformatics, SIB）创建了蛋白质分析专家系统（Expert protein analysis system, ExPASy ）。涵盖了上述所有的数据库。网址：https://www.doczj.com/doc/da2826719.html, 我国的北京大学生物信息中心(https://www.doczj.com/doc/da2826719.html,) 设立了ExPASy的镜像（Mirror）。主要蛋白质序列数据库的网址 SWISS-PROT https://www.doczj.com/doc/da2826719.html,/sprot 或 https://www.doczj.com/doc/da2826719.html,/expasy_urls.html TrEMBL https://www.doczj.com/doc/da2826719.html,/sprot PIR https://www.doczj.com/doc/da2826719.html,/pirwww MIPS——Munich Information Centre for Protein Sequences http://mips.gsf.de/ JIPID——the Japanese International Protein Sequence Database 已经和PIR合并 ExPASy https://www.doczj.com/doc/da2826719.html, 二、蛋白质结构数据库 1、PDB数据库：

蛋白质结构预测在线软件

蛋白质预测在线分析常用软件推荐蛋白质预测分析网址集锦物理性质预测： Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemasshttp://expaxy.hcuge.ch/sprot/peptide-mass.html TGREASE ftp://https://www.doczj.com/doc/da2826719.html,/pub/fasta/ SAPS http://ulrec3.unil.ch/software/SAPS_form.html 基于组成的蛋白质识别预测 AACompIdent http://expaxy.hcuge.ch ... htmlAACompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.e mbl-heidelberg.de/prs.html 二级结构和折叠类预测 nnpredict https://www.doczj.com/doc/da2826719.html,/~nomi/nnpredict Predictprotein http://www.embl-heidel ... protein/SOPMA http://www.ibcp.fr/predict.html SSPRED http://www.embl-heidel ... prd_info.html 特殊结构或结构预测 COILS http://ulrec3.unil.ch/ ... ILS_form.html MacStripe https://www.doczj.com/doc/da2826719.html,/ ... acstripe.html 与核酸序列一样，蛋白质序列的检索往往是进行相关分析的第一步，由于数据库和网络技校术的发展，蛋白序列的检索是十分方便，将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。由NCBI检索蛋白质序列可联网到：“http://www.ncbi.nlm.ni ... gi?db=protein”进行检索。利用SRS系统从EMBL检索蛋白质序列联网到：https://www.doczj.com/doc/da2826719.html,/”，可利用EMBL的SRS系统进行蛋白质序列的检索。通过EMAIL进行序列检索当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时，可采用EMAIL方式进行序列检索。蛋白质基本性质分析蛋白质序列的基本性质分析是蛋白质序列分析的基本方面，一般包括蛋白质的氨基酸组成，分子质量，等电点，亲水性，和疏水性、信号肽，跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如，疏水性图谱可通知来预测跨膜螺旋。同时，也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标（其中最典型的

蛋白质提取与制备的原理和方法

蛋白质提取与制备的原理和方法蛋白质提取与制备蛋白质种类很多，性质上的差异很大，既或是同类蛋白质，因选用材料不同，使用方法差别也很大，且又处于不同的体系中，因此不可能有一个固定的程序适用各类蛋白质的分离。但多数分离工作中的关键部分基本手段还是共同的，大部分蛋白质均可溶于水、稀盐、稀酸或稀碱溶液中，少数与脂类结合的蛋白质溶于乙醇、丙酮及丁醇等有机溶剂中。因此可采用不同溶剂提取、分离及纯化蛋白质和酶。蛋白质与酶在不同溶剂中溶解度的差异，主要取决于蛋白分子中非极性疏水基团与极性亲水基团的比例，其次取决于这些基团的排列和偶极矩。故分子结构性质是不同蛋白质溶解差异的内因。温度、pH、离子强度等是影响蛋白质溶解度的外界条件。提取蛋白质时常根据这些内外因素综合加以利用。将细胞内蛋白质提取出来。并与其它不需要的物质分开。但动物材料中的蛋白质有些可溶性的形式存在于体液（如血浆、消化硫等）中，可以不必经过提取直接进行分离。蛋白质中的角蛋白、胶原及丝蛋白等不溶性蛋白质，只需要适当的溶剂洗去可溶性的伴随物，如脂类、糖类以及其他可溶性蛋白质，最后剩下的就是不溶性蛋白质。这些蛋白质经细胞破碎后，用水、稀盐酸及缓冲液等适当溶剂，将蛋白质溶解出来，再用离心法除去不溶物，即得粗提取液。水适用于白蛋白类蛋白质的抽提。如果抽提物的pH用适当缓冲液控制时，共稳定性及溶解度均能增加。如球蛋白类能溶于稀盐溶液中，脂蛋白可用稀的去垢剂溶液如十二烷基硫酸钠、洋地黄皂苷（Digitonin）溶液或有机溶剂来抽提。其它不溶于水的蛋白质通常用稀碱溶液抽提。蛋白质类别和溶解性质白蛋白和球蛋白: 溶于水及稀盐、稀酸、稀碱溶液，可被50%饱和度硫酸铵析出。真球蛋白: 一般在等电点时不溶于水，但加入少量的盐、酸、碱则可溶解。拟球蛋白: 溶于水，可为50%饱和度硫酸铵析出醇溶蛋白: 溶于70～80%乙醇中，不溶于水及无水乙醇壳蛋白: 在等电点不溶于水，也不溶于稀盐酸，易溶于稀酸、稀碱溶液精蛋白: 溶于水和稀酸，易在稀氨水中沉淀组蛋白: 溶于水和稀酸，易在稀氨水中沉淀硬蛋白质: 不溶于水、盐、稀酸及稀碱缀合蛋白(包括磷蛋白、粘蛋白、糖蛋白、核蛋白、脂蛋白、血红蛋白、金属蛋白、黄素蛋白和氮苯蛋白等) : 此类蛋白质溶解性质随蛋白质与非蛋白质结合部分的不同而异，除脂蛋白外，一般可溶于稀酸、稀碱及盐溶液中，脂蛋白如

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件蛋白质数据库及蛋白质序列分析第一节、蛋白质数据库介绍一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库，目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列，这些序列经过检验和注释。该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护。SWISS-PROT的序列数量呈直线增长。 2、TrEMBL数据库： SWISS-PROT的数据存在一个滞后问题，即进行注释需要时间。一大批含有开放阅读了解决这一问题，TrEMBL(Translated E 白质数据库，它包括了所有EMBL库中的质序列数据源，但这势必导致其注释质量 3、PIR数据库： PIR数据库的数据最初是由美国国家生物医学研究基金会（National Biomedical Research Foundation, NBRF）收集的蛋白质序列，主要翻译自GenBank的DNA序列。 1988年，美国的NBRF、日本的JIPID（the Japanese International Protein Sequence Database日本国家蛋白质信息数据库）、德国的MIPS（Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息中心）合作，共同收集和维护PIR数据库。PIR根据注释程度(质量)分为4个等级。 4、 ExPASy数据库：目前，瑞士生物信息学研究所（Swiss I 质分析专家系统（Expert protein anal 据库。网址：https://www.doczj.com/doc/da2826719.html, 我国的北京大学生物信息中心(www.cbi.

蛋白质结构预测在线软件

蛋白质预测分析网址集锦? 物理性质预测：? Compute PI/MW?? ?? SAPS?? 基于组成的蛋白质识别预测? AACompIdent???PROPSEARCH?? 二级结构和折叠类预测? nnpredict?? Predictprotein??? SSPRED?? 特殊结构或结构预测? COILS?? MacStripe?? 与核酸序列一样，蛋白质序列的检索往往是进行相关分析的第一步，由于数据库和网络技校术的发展，蛋白序列的检索是十分方便，将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。? 由NCBI检索蛋白质序列? 可联网到：“”进行检索。? 利用SRS系统从EMBL检索蛋白质序列? 联网到：”，可利用EMBL的SRS系统进行蛋白质序列的检索。? 通过EMAIL进行序列检索?

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时，可采用EMAIL方式进行序列检索。? 蛋白质基本性质分析? 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面，一般包括蛋白质的氨基酸组成，分子质量，等电点，亲水性，和疏水性、信号肽，跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如，疏水性图谱可通知来预测跨膜螺旋。同时，也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标（其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。? 疏水性分析? 位于ExPASy的ProtScale程序（?）可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性，并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小（n）该参数用于估计每种氨基酸残基的平均显示尺度。? 进行蛋白质的亲/疏水性分析时，也可用一些windows下的软件如，bioedit,dnamana等。? 跨膜区分析? 有多种预测跨膜螺旋的方法，最简单的是直接，观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域，但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知

蛋白质结构预测方法综述

蛋白质结构预测方法综述卜东波陈翔王志勇《计算机不能做什么？》是一本好书，其中文版序言也堪称佳构。在这篇十余页的短文中，马希文教授总结了使用计算机解决实际问题的三步曲，即首先进行形式化，将领域相关的实际问题抽象转化成一个数学问题；然后分析问题的可计算性；最后进行算法设计，分析算法的时间和空间复杂度，寻找最优算法。蛋白质空间结构预测是很有生物学意义的问题，迄今亦有很多的工作。有意思的是，其中一些典型工作恰恰是上述三步曲的绝好示例，本文即沿着这一路线作一总结，介绍于后。 1 背景知识生物细胞种有许多蛋白质（由20余种氨基酸所形成的长链），这些大分子对于完成生物功能是至关重要的。蛋白质的空间结构往往决定了其功能，因此，如何揭示蛋白质的结构是非常重要的工作。生物学界常常将蛋白质的结构分为4个层次：一级结构，也就是组成蛋白质的氨基酸序列；二级结构，即骨架原子间的相互作用形成的局部结构，比如alpha螺旋,beta片层和loop区等；三级结构，即二级结构在更大范围内的堆积形成的空间结构；四级结构主要描述不同亚基之间的相互作用。经过多年努力，结构测定的实验方法得到了很好的发展，比较常用的有核磁共振和X光晶体衍射两种。然而由于实验测定比较耗时和昂贵，对于某些不易结晶的蛋白质来说不适用。相比之下，测定蛋白质氨基酸序列则比较容易。因此如果能够从一级序列推断出空间结构则是非常有意义的工作。这也就是下面的蛋白质折叠问题： 1蛋白质折叠问题（Protein Folding Problem）输入: 蛋白质的氨基酸序列

输出: 蛋白质的空间结构蛋白质结构预测的可行性是有坚实依据的。因为一般而言，蛋白质的空间结构是由其一级结构确定的。生化实验表明：如果在体外无任何其他物质存在的条件下，使得蛋白质去折叠，然后复性，蛋白质将立刻重新折叠回原来的空间结构，整个过程在不到1秒种内即可完成。因此有理由认为对于大部分蛋白质而言，其空间结构信息已经完全蕴涵于氨基酸序列中。从物理学的角度讲，系统的稳定状态通常是能量最小的状态，这也是蛋白质预测工作的理论基础。 2 蛋白质结构预测方法蛋白质结构预测的方法可以分为三种：同源性（Homology ）方法：这类方法的理论依据是如果两个蛋白质的序列比较相似，则其结构也有很大可能比较相似。有工作表明，如果序列相似性高于75％，则可以使用这种方法进行粗略的预测。这类方法的优点是准确度高，缺点是只能处理和模板库中蛋白质序列相似性较高的情况。从头计算（Ab initio ）方法：这类方法的依据是热力学理论，即求蛋白质能量最小的状态。生物学家和物理学家等认为从原理上讲这是影响蛋白质结构的本质因素。然而由于巨大的计算量，这种方法并不实用，目前只能计算几个氨基酸形成的结构。IBM 开发的Blue Gene 超级计算机，就是要解决这个问题。穿线法(Threading )方法：由于Ab Initio 方法目前只有理论上的意义，Homology 方法受限于待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似性，对于其他大部分蛋白质来说，有必要寻求新的方法。Threading 就此应运而生。以上三种方法中，Ab Initio 方法不依赖于已知结构，其余两种则需要已知结构的协助。通常将蛋白质序列和其真实三级结构组织成模板库，待预测三级结构的蛋白质序列，则称之为查询序列(query sequence)。 3 蛋白质结构预测的Threading 方法 Threading 方法有三个代表性的工作：Eisenburg 基于环境串的工作、Xu Ying 的Prospetor 和Xu Jinbo 、Li Ming 的RAPTOR 。 Threading 的方法：首先取出一条模版和查询序列作序列比对(Alignment)，并将模版蛋白质与查询序列匹配上的残基的空间坐标赋给查询序列上相应的残基。比对的过程是在我们设计的一个能量函数指导下进行的。根据比对结果和得到的查询序列的空间坐标，通过我们设计的能量函数，得到一个能量值。将这个操作应用到所有的模版上，取能量值最低的那条模版产生的查询序列的空间坐标为我们的预测结果。需要指出的是，此处的能量函数却不再是热力学意义上的能量函数。它实质上是概率的负对数，即，我们用统计意义上的能量来代替真实的分子能量，这两者有大致相同的形式。 p E log ?=如果沿着马希文教授的观点看上述工作，则更有意思：Eisenburg 指出如果仅仅停留在简单地使用每个原子的空间坐标(x,y,z)来形式化表示蛋白质空间结构，则难以进一步深入研究。Eisenburg 创造性地使用环境串表示结构，从而将结构预测问题转化成序列串和环境串之间的比对问题；其后，Xu Ying 作了进一步发展，将蛋白质序列表示成一系列核（core ）组成的序列，Core 和Core 之间存在相互作用。因此结构就表示成Core 的空间坐标，以及Core 之间的相互作用。在这种表示方法的基础上，Xu Ying 开发了一种求最优匹配的动态规划算法，得到了很好的结果。但是由于其较高的复杂度，在Prospetor2上不得不作了一些简化；Xu Jinbo 和Li Ming 很漂亮地解决了这个问题，将求最优匹配的过程表示成一个整数规划问题，并且证明了一些常用

蛋白质结构预测

实习 5 ：蛋白质结构预测学号20090***** 姓名****** 专业年级生命生技**** 实验时间2012.6.21 提交报告时间2012.6.21 实验目的： 1.学会使用GOR和HNN方法预测蛋白质二级结构 2.学会使用SWISS-MODEL进行蛋白质高级结构预测实验内容： 1.分别用GOR和HNN方法预测蛋白质序列的二级结构，并对比异同性。 2.利用SWISS-MODEL进行蛋白质的三级结构预测，并对预测结果进行解释。作业： 1. 搜索一条你感兴趣的蛋白质序列，分别用GOR和HNN进行二级结构预测，解释预测结果，分析两个方法结果有何异同。答：所选用蛋白质序列为>>gi|390408302|gb|AFL70986.1| gag protein, partial [Human immunodeficiency virus] （1）GOR预测结果：图1 图1是每个氨基酸在序列中所处的状态，可以看出序列的二级结构预测结果为： 1到9位个氨基酸为无规卷曲，10到33位氨基酸为α螺旋,34到37位为β折叠，38到45位为无规卷曲，46到49位为α螺旋，50到53位为无规卷曲，54到65为α螺旋，66到72位为无规卷曲，73到95位为α螺旋，96到101位为无规卷曲，102到108为β折叠，109到115位为无规卷曲，117位为β折叠。图2 图2为各种结构在序列中所占的比例，其中Alpha helix占53.85%，Extended strand占11.11%，Random coil占35.04%，无他二级结构。

图3 图3为各个氨基酸在序列中的状态以及二级结构在全序列中二级结构分布情况。（2）HNN预测：图4 图4是每个氨基酸在序列中所处的状态，可以看出序列的二级结构预测结果为： 1到6位个氨基酸为无规卷曲，7到34位氨基酸为α螺旋,35到37位为β折叠，38位为α螺旋，39到44位为无规卷曲，45到49位为α螺旋，50到55位为无规卷曲，56到65为α螺旋，66到71位为无规卷曲，72到83位为α螺旋，84到86位为无规卷曲，87到95位为α螺旋，96到102为无规卷曲，103到108位为β折叠，108到117位为无规卷曲。图5 图5为各种结构在序列中所占的比例，其中Alpha helix占55.56%，Extended strand占7.69%，Random coil占36.75%，无他二级结构。

蛋白质结构预测网址

蛋白质结构预测网址物理性质预测： Compute PI/MW Peptidemass TGREASE SAPS 基于组成的蛋白质识别预测 AACompIdent PROPSEARCH 二级结构和折叠类预测 nnpredict Predictprotein SSPRED 特殊结构或结构预测 COILS MacStripe 与核酸序列一样，蛋白质序列的检索往往是进行相关分析的第一步，由于数据库和网络技校术的发展，蛋白序列的检索是十分方便，将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。由NCBI检索蛋白质序列可联网到：“”进行检索。利用SRS系统从EMBL检索蛋白质序列联网到：”，可利用EMBL的SRS系统进行蛋白质序列的检索。通过EMAIL进行序列检索当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时，可采用EMAIL方式进行序列检索。蛋白质基本性质分析蛋白质序列的基本性质分析是蛋白质序列分析的基本方面，一般包括蛋白质的氨基酸组成，分子质量，等电点，亲水性，和疏水性、信号肽，跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如，疏水性图谱可通知来预测跨膜螺旋。同时，也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标（其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。疏水性分析位于ExPASy的ProtScale程序（）可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性，并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小（n）该参数用于估计每种氨基酸残基的平均显示尺度。进行蛋白质的亲/疏水性分析时，也可用一些windows下的软件如， bioedit,dnamana等。跨膜区分析有多种预测跨膜螺旋的方法，最简单的是直接，观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域，但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库，可通过匿名FTP获得()，参见表一

蛋白质功能-结构-相互作用预测网站工具合集

蛋白质组学蛋白质是生物体的重要组成部分，参与几乎所有生理和细胞代谢过程。此外，与基因组学和转录组学比较，对一个细胞或组织中表达的所有蛋白质，及其修饰和相互作用的大规模研究称为蛋白质组学。蛋白质组学通常被认为是在基因组学和转录组学之后，生物系统研究的下一步。然而，蛋白质组的研究远比基因组学复杂，这是由于蛋白质内在的复杂特点，如蛋白质各种各样的翻译后修饰所决定的。并且，研究基因组学的技术要比研究蛋白质组学的技术强得多，虽然在蛋白质组学研究中，质谱技术的研究已取得了一些进展。尽管存在方法上的挑战，蛋白质组学正在迅速发展，并且对癌症的临床诊断和疾病治疗做出了重要贡献。几项研究鉴定出了一些蛋白质在乳腺癌、卵巢癌、前列腺癌和食道癌中表达变化。例如，通过蛋白质组学技术，人们可以在患者血液中明确鉴定出肿瘤标志物。表1列出了更多的蛋白质组学技术用于研究癌症的例子。另外，高尔基体功能复杂。最新研究表明，它除了参与蛋白加工外，还能参与细胞分化及细胞间信号传导的过程，并在凋亡中扮演重要角色，其功能障碍也许和肿瘤的发生、发展有某种联系。根据人类基因组研究，约1000多种人类高尔基体蛋白质中仅有500~600种得到了鉴定，建立一条关于高尔基体蛋白质组成的技术路线将有助于其功能的深入研究。蛋白质组学是一种有效的研究方法，特别是随着亚细胞器蛋白质组学技术的迅猛发展，使高尔基体的全面研究变为可能。因此研究人员希望能以胃癌细胞中的高尔基体为研究对象，通过亚细胞器蛋白质组学方法，建立胃癌细胞中高尔基体的蛋白质组方法学。研究人员采用蔗糖密度梯度的超速离心方法分离纯化高尔基体，双向凝胶电泳（2-DE）分离高尔基体蛋白质，用ImageMaster 2D软件分析所得图谱，基质辅助激光解吸离子化飞行时间质谱（MALDI-TOF MS）鉴定蛋白质点等一系列亚细胞器蛋白质组学方法建立了胃癌细胞内高尔基体的蛋白图谱。最后，人们根据分离出的纯度较高的高尔基体建立了分辨率和重复性均较好的双向电泳图谱，运用质谱技术鉴定出12个蛋白质，包括蛋白合成相关蛋白、膜融合蛋白、调节蛋白、凋亡相关蛋白、运输蛋白和细胞增殖分化相关蛋白。通过亚细胞器分离纯化、双向电泳的蛋白分离及MALDI-TOF MS蛋白鉴定分析，研究人员首次成功建立了胃癌细胞SGC7901中高尔基体的蛋白质组学技术路线。 3.1 蛋白质功能预测工具也许生物信息学方法在癌症研究中最常用的就是基因功能预测方法，但是这些数据库只存储了基因组的大约一半基因的功能。为了在微阵列资料基础上完成功能性的富集分析，基因簇的功能注解是非常重要的。近几年生物学家研发了一些基因功能预测的方法，这些方法旨在超越传统的BLAST搜索来预测基因的功能。基因功能预测可以以氨基酸序列、三级结构、与之相互作用的配体、相互作用过程或基因的表达方式为基础。其中最重要的是基于氨基酸序列的分析，因为这种方法适合于微阵列分析的全部基因。在表3中，前三项列举了三种同源搜索方法。FASTA方法虽然应用还不太广泛，但它要优于BLAST，或者至少相当。FASTA程序是第一个使用的数据库相似性搜索程序。为了达到较高的敏感程度，程序引用取代矩阵实行局部比对以获得最佳搜索。美国弗吉尼亚大学可以提供这项程序的地方版本，当然数据库搜索结果依赖于要搜索的数据库序列。如果最近的序列数据库版本在弗吉尼亚大学不能获得，那么就最好试一下京都大学（Kyoto University）的KEGG站点。PSI-BLAST（位点特异性反复BLAST）是BLAST的转化版本，PSI-BLAST的特色是每次用profile 搜索数据库后再利用搜索的结果重新构建profile，然后用新的profile再次搜索数据库，如此反复直至没有新的结果产生为止。PSI-BLAST先用带空位的BLAST搜索数据库，将获得的序列通过多序列比对来构建第一个profile。PSI-BLAST自然地拓展了BLAST方法，能寻找蛋白质序列中的隐含模式，有研究表明这种方法可以有效地找到很多序列差异较大而结构功能相似的相关蛋白，所以它比BLAST和FASTA有更好的敏感性。PSI-BLAST服务可以

蛋白质结构与功能的生物信息学研究

实验名称：蛋白质结构与功能的生物信息学研究实验目的：1.掌握运用BLAST工具对指定蛋白质的氨基酸序列同源性搜索的方法。 2.掌握用不同的工具分析蛋白质的氨基酸序列的基本性质 3掌握蛋白质的氨基酸序列进行三维结构的分析 4.熟悉对蛋白质的氨基酸序列所代表蛋白的修饰情况、所参与的代谢途径、相互作用的蛋白，以及与疾病的相关性的分析。实验方法和流程：一、同源性搜索同源性从分子水平讲则是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。BLAST工具能对生物不同蛋白质的氨基酸序列或不同的基因的DNA序列极性比对，并从相应数据库中找到相同或相似序列。对指定的蛋白质的氨基酸序列进行同源性搜索步骤如下： ↓ 登录网址https://www.doczj.com/doc/da2826719.html,/blast/ ↓ 输入序列后,运行blast工具 ↓ 序列比对的图形结果显示

序列比对的图形结果：用相似性区段（Hit）覆盖输入序列的范围判断两个序列的相似性。如果图形中包含低得分的颜色（主要是红色）区段，表明两序列的并非完全匹配。 ↓ 匹配序列列表及得分

各序列得分可选择不同的比对工具备注: Clustal是一款用来对()的软件。可以用来发现特征序列，进行蛋白分类，证明序列间的同源性，帮助预测新序列二级结构与三级结构，确定PCR引物，以及在分子进化分析方面均有很大帮助。Clustal包括Clustalx和Clustalw(前者是图形化界面版本后者是命令界面)，是生物信息学常用的多序列比对工具。该序列的比对结果有100条，按得分降序排列，其中最大得分2373，最小得分分为1195. ↓ 详细的比对序列的排列情况第一个匹配序列第一个序列的匹配率为100% Score表示打分矩阵计算出来的值，由搜索算法决定的，值越大说明匹配程度

蛋白质结构与功能的关系

蛋白质结构与功能的关系专业：植物学摘要：蛋白质特定的功能都是由其特定的构象所决定的，各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化，必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化，可能导致蛋白质构象紊乱症，当然也能引起生物体对环境的适应性增强。而分子模拟技术为蛋白质的研究提供了一种崭新的手段。在理论上解决了结构预测和功能分析以及蛋白质工程实施方面所面临的难题。它在蛋白质的结构预测和模建工作中占有举足轻重的地位，实现了生物技术与计算机技术的完美结合。关键词：蛋白质的结构、功能；折叠/功能关系；蛋白质构象紊乱症；分子模拟技术；同源建模 RNase是由124个氨基酸残基组成的单肽链，分子中 8 个Cys的-SH构成4对二硫键，形成具有一定空间构象的蛋白质分子。在蛋白质变性剂和一些还原剂存在下，酶分子中的二硫键全部被还原，酶的空间结构破坏，肽链完全伸展，酶的催化活性完全丧失。当用透析的方法除去变性剂和巯基乙醇后，发现酶大部分活性恢复，所有的二硫键准确无误地恢复原来状态。若用其他的方法改变分子中二硫键的配对方式，酶完全丧失活性。这个实验表明，蛋白质的一级结构决定它的空间结构，而特定的空间结构是蛋白质具有生物活性的保证。前体与活性蛋白质一级结构的关系，由108个氨基酸残基构成的前胰岛素原，在合成的时候完全没有活性，当切去N-端的24个氨基酸信号肽，形成84个氨基酸的胰岛素原，胰岛素原也没活性，在包装分泌时，A、B链之间的33个氨基酸残基被切除，才形成具有活性的胰岛素。功能不同的蛋白质总是有着不同的序列；种属来源不同而功能相同的蛋白质的一级结构，可能有某些差异，但与功能相关的结构也总是相同。若一级结构变化，蛋白质的功能可能发生很大的变化。蛋白质特定的功能都是由其特定的构象所决定的，各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化，必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化，可能导致蛋白质构象紊乱症，当然也能引起生物体对环境的适应性增强。虽然蛋白质结构与生物功能的关系比序列与功能的关系更加紧密，但结构与功能的这种关联亦若隐若现，并不能排除折叠差别悬殊的蛋白质执行相似的功能，折叠相似的蛋白质执行差别悬殊功能的现象的存在。无奈，该领域仍不得不将100多年前Fisher提出的“锁一钥

蛋白质结构与功能的关系

蛋白质结构与功能的关系（The relationship between protein structure and function）摘要蛋白质特定的功能都是由其特定的构象所决定的，各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化，必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化，可能导致蛋白质构象紊乱症，当然也能引起生物体对环境的适应性增强！现而今关于蛋白质功能研究还有待发展，一门新兴学科正在发展，血清蛋白组学，生物信息学等！本文仅就蛋白质结构与其功能关系进行粗略阐述。关键词：蛋白质结构；折叠/功能关系；蛋白质构象紊乱症；分子伴侣 Keywords：protein structure；fold／function relationship；protein conformational disorder；molecular chaperons 虽然蛋白质结构与生物功能的关系比序列与功能的关系更加紧密，但结构与功能的这种关联亦若隐若现，并不能排除折叠差别悬殊的蛋白质执行相似的功能，折叠相似的蛋白质执行差别悬殊功能的现象的存在。无奈，该领域仍不得不将100多年前Fisher提出的“锁一钥匙”模型(“lock—key”model)和50多年前Koshand提出的诱导契合模型(induce fitmodel)作为蛋白质实现功能的理论基础。这2个略显粗糙的模型只是认为蛋白质执行功能的部位局限在结构中的一个或几个小区域内，此类区域通常是蛋白质表面上的凹洞或裂隙。这种凹洞或裂隙被称为“活性部位(active site)”或“别构部位（fallosteric site）”，凹陷部位与配体分子在空间形状和静电上互补。此外，在酶的活性部位中还存在着几个作为催化基团(catalyticgroup)的氨基酸残基。对蛋白质未来的研究应从实验基本数据的归纳和统计入手，从原始的水平上发现蛋白质的潜藏机制【1】。蛋白质结构与功能关系的研究主要是以力求刻画蛋白质的3D结构的几何学为基础的。蛋白质结构既非规则的几何形，又非完全的无规线团(randomcoil)，而是有序(α一螺旋和β一折叠)与无序(线团或环域loop)的混合体。理解蛋白质3D结构的技巧是将结构简化，只保留某种几何特征或拓扑模式，并将其数字化。探求数字中所蕴含的规律，且根据这一规律将蛋白质进行分类，再将分类的结构与蛋白质的功能进行比较，以检验蛋白质抽象结构的合理性。如果一种对蛋白质结构的简化、比较和分类能与蛋自质的功能有较好地对应关系，那么这就是一种对蛋白质结构的有价值的理解。蛋白质结构中，多种弱力(氢键、范德华力、静电相互作用、疏水相互作用、堆积力等)和可逆的二硫键使多肽链折叠成特定的构象。从某种意义上说，共价键维系了蛋白质的一级结构；主链上的氢键维系了蛋白质的二级结构；而氨基酸侧链的相互作用和二硫桥维系着蛋白质的三级结构。亚基(subunit)内部的侧链相互作用是构象稳定的基础，蛋白质链之间的侧链的相互作用是亚基组装(四级结构)的基础，而蛋白质中侧链与配体基团问的相互作用是蛋白质行使功能的基础。牛胰核糖核酸酶(RNase)变性和复性的实验是蛋白质结构与功能关系的很好例证。蛋白质空间结构遭到破坏；，可导致蛋白质的理比性质和生物学性质的变化，这就是蛋白质变性。变性的蛋白质，只要其一级结构仍然完好，可在一定条件下恢复其空间结构，随之理化性质和生物学性质也可重现，这被称为复性。RNase是由124个氨基酸残基组成的一条肽链，分子中8个半胱氨酸的巯基构成4对二硫键，进而形成具有一定空间构象的活性蛋白质。天然RNase遇尿素和β巯基乙醇时发生变性，其分子中的氢键和4个二硫键解开，严密的空间结构遭破坏，丧失了生物学活性，但一级结构完整无损。若去除尿素和β巯基乙醇，RNase又可恢复其原有构象和生物学活性。RNase分子中的8个巯基若随机排列成二硫键可有105种方式。有活性的RNase只是其中的一种，复性时之所以选择了自

蛋白质结构与功能的生物信息学研究汇总

蛋白质结构预测在线软件

蛋白质预测分析网址集锦物理性质预测： Compute PI/MW SAPS 基于组成的蛋白质识别预测 AACompIdent PROPSEARCH 二级结构和折叠类预测 nnpredict Predictprotein SSPRED 特殊结构或结构预测 COILS MacStripe 与核酸序列一样，蛋白质序列的检索往往是进行相关分析的第一步，由于数据库和网络技校术的发展，蛋白序列的检索是十分方便，将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。由NCBI检索蛋白质序列可联网到：“”进行检索。利用SRS系统从EMBL检索蛋白质序列联网到：”，可利用EMBL的SRS系统进行蛋白质序列的检索。通过EMAIL进行序列检索当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时，可采用EMAIL方式进行序列检索。蛋白质基本性质分析蛋白质序列的基本性质分析是蛋白质序列分析的基本方面，一般包括蛋白质的氨基酸组成，分子质量，等电点，亲水性，和疏水性、信号肽，跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如，疏水性图谱可通知来预测跨膜螺旋。同时，也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标（其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。疏水性分析位于ExPASy的ProtScale程序（）可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性，并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小（n）该参数用于估计每种氨基酸残基的平均显示尺度。进行蛋白质的亲/疏水性分析时，也可用一些windows下的软件如，bioedit,dnamana等。跨膜区分析有多种预测跨膜螺旋的方法，最简单的是直接，观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域，但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库，可通过匿名FTP获得(，参见表一

蛋白质结构及功能预测

物理性质预测 Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemass http://expaxy.hcuge.ch/sprot/peptide-mass.html TGREASE ftp://https://www.doczj.com/doc/da2826719.html,/pub/fasta/ SAPS http://ulrec3.unil.ch/software/SAPS_form.html 基于组成的蛋白质识别预测 http://expaxy.hcuge.ch/ch2d/aacompi.html AACompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.embl-heidelberg.de/prs.html 二级结构和折叠类预测 https://www.doczj.com/doc/da2826719.html,/~nomi/nnpredictPredictprotein http://www.embl-heidelberg.de/predictprotein/SOPMA http://www.ibcp.fr/predict.htmlSSPRED http://www.embl-heidelberg.de/sspred/ssprd_info.html 特殊结构或结构预测 http://ulrec3.unil.ch/software/COILS_form.htmlMacStripe https://www.doczj.com/doc/da2826719.html,/matsudaira/macstripe.html 检索由NCBI检索蛋白质序列 https://www.doczj.com/doc/da2826719.html,:80/entrz/query.fcgi?db=protein进行检索。利用SRS系统从EMBL检索蛋白质序列 https://www.doczj.com/doc/da2826719.html,/可利用EMBL的SRS系统进行蛋白质序列的检索。通过EMAIL进行序列检索当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时，可采用EMAIL方式进行序列检索。疏水性分析位于ExPASy的ProtScale程序https://www.doczj.com/doc/da2826719.html,/cgi-bin/protscale.pl可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性，并为每一种氨基酸输出