当前位置:文档之家› 蛋白质结构预测

蛋白质结构预测

蛋白质结构预测
蛋白质结构预测

第7章蛋白质结构预测

一种生物体的基因组规定了所有构成该生物体的蛋白质,基因规定了蛋白质的氨基酸序列。虽然蛋白质由氨基酸的线性序列组成,但是它们只有折叠成特定的空间构象才能具有相应的活性和生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能,也有利于认识蛋白质是如何执行其功能的。确定蛋白质的结构对于生物学研究是非常重要的。目前,蛋白质序列数据库的数据积累的速度非常快,但是已知结构的蛋白质相对比较少。尽管蛋白质结构测定技术有了较为显著的进展,但是通过实验方法确定蛋白质结构的过程仍然非常复杂,代价较高,因此实验测定的蛋白质结构比已知的蛋白质序列要少得多。另一方面,随着DNA测序技术的发展,人类基因组及更多的模式生物基因组已被或将被完全测序,DNA序列数量将会急增,而由于DNA序列分析技术和基因识别方法的进步,我们可以从DNA推倒导出大量的蛋白质序列。这意味着已知序列的蛋白质数量和已测定结构的蛋白质数量(如蛋白质结构数据库PDB中的数据)的差距将会越来越大。人们希望产生蛋白质结构的速度能够跟上产生蛋白质序列的速度,或者减小两者的差距。那么如何缩小这种差距呢?不能完全依赖现有的结构测定技术,需要发展理论分析方法,这对蛋白质结构预测提出了极大的挑战。20世纪60年代后期,Anfinsen首先发现去折叠蛋白或者说变性(denatured)蛋白质在允许重新折叠的实验条件下可以重新折叠到原来的结构,这种天然结构(native structure)对于行使生物功能具有重要作用,大多数蛋白质只有在折叠成它们天然结构的时候才能具有完全的生物活性。自从Anfinsen提出蛋白质折叠的信息隐含在蛋白质的一级结构中,科学家们对蛋白质结构的预测进行了大量的研究,分子生物学家将有可能直接运用适当的算法从氨基酸序列出发,预测蛋白质的结构。本章主要着重介绍蛋白质二级结构及空间结构预测的方法。

7.1 引言

基因是生命的蓝图,蛋白质是生命的机器。来自于四种字符字母表(A,T(U),C,G)的核酸序列中蕴藏着生命的信息,而蛋白质则执行着生物体内各种重要的工作,如生物化学反应的催化、营养物质的输运、生长和分化控制、生物信号的识别和传递等工作。蛋白质序列由相应的核酸序列所决定,通过对基因的转录和翻译,将原来四字符的DNA序列,根据三联密码翻译成20字符的蛋白质氨基酸序列。

蛋白质具有不同的长度、不同的氨基酸排列和不同的空间结构,实验分析表明蛋白质能够形成特定的结构。蛋白质中相邻的氨基酸通过肽键形成一条伸展的链,肽链上的氨基酸残基形成局部的二级结构,各种二级结构组合形成完整的折叠结构。蛋白质分子很大,其折叠的空间结构会将一些区域包裹在内部,而将其它的区域暴露在外。在蛋白质的空间结构中,序列上相距比较远的氨基酸可能彼此接近。在水溶液中,肽链折叠成为特定的三维结构。主要的驱动力来自于氨基酸残基的疏水性,氨基酸残基的疏水性要求将氨基酸疏水片段放置于分子的内部。图7.1(a)是酪氨酸磷酸酶的蛋白质序列,图7.1(b)是对应的二级结构,其中H 代表螺旋,E 代表折叠,B表示β桥,G表示310螺旋,I表示π螺旋,T表示氢键转角,S代表转向,图7.1(c)显示的是该蛋白质的折叠结构。

研究蛋白质的结构意义重大,分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。研究蛋白质结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质(或其它分子)之间的相互作用,这无论是对于生物学还是对于医学和药学,都是非常重要的。对于未知功能或者新发现的蛋白质分子,通过结构分析,可以进行功能注释,指导设计进行功能确认的生物学实验。通过分析蛋白质的结构,确认功能单位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子及结构。

>1AAX:_ PROTEIN TYROSINE PHOSPHATASE 1B (321)MEMEKEFEQIDKSGSWAAIYQDIRHEASDFPCRVAKLPKNKNRNRYRDVSPFDHSRIKLH QEDNDYINASLIKMEEAQRSYILTQGPLPNTCGHFWEMVWEQKSRGVVMLNRVMEKGSLK CAQYWPQKEEKEMIFEDTNLKLTLISEDIKSYYTVRQLELENLTTQETREILHFHYTTWP DFGVPESPASFLNFLFKVRESGSLSPEHGPVVVHSSAGIGRSGTFCLADTCLLLMDKRKD PSSVDIKKVLLEMRKFRMGLIQTADQLRFSYLAVIEGAKFIMGDSSVQDQWKELSHEDLE PPPGHIPPPPRPPKRILEPHN

(a)

H=helix;B=residue in isolated beta bridge; E=extended beta strand; G=310 helix;

I=pi helix; T=hydrogen bonded turn; S=bend

(b)

(c)

图7.1 酪氨酸磷酸酶的序列及结构。(a)氨基酸序列;(b)二级结构;(c)空间结构。

生物信息学的一个基本观点是:分子的结构决定分子的性质和分子的功能。因此,生物大分子蛋白质的空间结构决定蛋白质的生物学功能。但是,蛋白质的空间结构又是由什么决定的呢?当一个蛋白质的空间结构被破坏以后,或者蛋白质解折叠,可以恢复其自然的折叠结构。大量的实验结果证明:蛋白质的结构由蛋白质序列所决定。虽然影响蛋白质空间结构的另一个因素是蛋白质分子所处的溶液环境,但是决定蛋白质结构的信息则是被编码于氨基酸序列之中。然而,这种编码是否能被破译呢?或者说是否能够直接从氨基酸序列预测出蛋白质的空间结构呢?

蛋白质结构预测的问题从数学上讲,是寻找一种从蛋白质的氨基酸线性序列到蛋白质所有原子三维坐标的一种映射。典型的蛋白质含有几百个氨基酸、上千个原子,而大蛋白质(如载脂蛋白)的氨基酸个数超过4500。所有可能的序列到结构的映射数随蛋白质氨基酸残基个数而呈指数增长,是天文数字。然而幸运的是,自然界实际存在的蛋白质是有限的,并且存在着大量的同源序列,可能的结构类型也不多,序列到结构的关系有一定的规律可循,因此蛋白质结构预测是可能的。

蛋白质结构预测主要有两大类方法。一类是理论分析方法或从头算方法(Ab initio),通过理论计算(如分子力学、分子动力学计算)进行结构预测。该类方法假设折叠后的蛋白质取能量最低的构象。从原则上来说,我们可以根据物理、化学原理,通过计算来进行结构预测。但是在实际中,这种方法往往不适合。主要有几个原因,一是自然的蛋白质结构和未折叠的蛋白质结构,两者之间的能量差非常小(1kcal/mol 数量级),二是蛋白质可能的构象空间庞大,针对蛋白质折叠的计算量非常大。另外,计算模型中力场参数的不准确性也是一个问题。

另一类蛋白质结构预测方法是统计的方法,该类方法对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构。映射模型可以是定性的,也可以是定量的。这是进行蛋白质结构预测较为成功的一类方法。这一类方法包括经验性方法、结构规律提取方法、同源模型化方法等。

所谓经验性方法就是根据一定序列形成一定结构的倾向进行结构预测,例如,根据不同氨基酸形成特定二级结构的倾向进行结构预测。通过对已知结构的蛋白质(如蛋白质结构数据库PDB、蛋白质二级结构数据库DSSP中的蛋白质)进行统计分析,发现各种氨基酸形成不同二级结构的倾向,形成一系列关于二级结构预测的规则。

与经验性方法相似的另一种办法是结构规律提取方法,这是更一般的方法。该方法从蛋白质结构数据库中提取关于蛋白质结构形成的一般性规则,指导建立未知结构的蛋白质的模型。有许多提取结构规律的方法,如通过视觉观察的方法,基于统计分析和序列多重比对的方法,利用人工神经网络提取规律的方法。

同源模型化方法通过同源序列分析或者模式匹配预测蛋白质的空间结构或者结构单元(如锌指结构、螺旋-转角-螺旋结构、DNA结合区域等)。其原理是基于下述事实:每一个自然蛋白质具有一个特定的结构,但许多不同的序列会采用同一个基本的折叠,也就是说,具有相似序列的蛋白质倾向于折叠成相似的空间结构。一对自然进化的蛋白质,如果它们的序列具有25~30%的等同部分或者更多,则可以假设这两个蛋白质折叠成相似的空间结构。这样,如果一个未知结构的蛋白质与一个已知结构的蛋白质具有足够的序列相似性,那么可以根据相似性原理给未知结构的蛋白质构造一个近似的三维模型。如果目标蛋白质序列的某一部分与已知结构的蛋白质的某一结构域区域相似,则可以认为目标蛋白质具有相同的结构域或者功能区域。在蛋白质结构预测方面,预测结果最可靠的方法是同源模型化方法。

蛋白质的同源性比较往往是借助于序列比对而进行的,通过序列比对可以发现蛋白质之间进化的关系。在蛋白质结构分析方面,通过序列比对可以发现序列保守模式或突变模式,这些序列模式中包含着非常有用的三维结构信息。利用同源模型化方法可以预测所有10~30%蛋白质的结构。然而,有许多具有相似结构的蛋白质是远程同源的,它们的等同序列不到25%。也就是说,具有相似空间结构的蛋白质序列等同程度可能小于25%。这些蛋白质的同源性不能被通过传统的序列比对方法所识别。如果按照一个未知序列搜索一个蛋白质序列数据库,并且搜索条件为序列等同程度小于25%的话,那么将会得到大量不相关的蛋白质。因此,搜索远程同源蛋白质就像在干草堆里寻找一根针。寻找远程同源蛋白质是一项困难的任务,处理这个困难任务的技术称为“线索(THREADING)技术”。对于一个未知结构的蛋白质,仅当我们找不到等同序列大于25%的已知结构的同源蛋白质时,才通过线索技术寻找已知结构的远程同源蛋白质,进而预测其结构。找到一个远程同源蛋白质后,利用远程同源建模方法来建立蛋白质的结构模型。

如果既没有找到一般的同源蛋白质,又没有找到远程同源蛋白质,那么如何进行结构预测呢?一种可行的办法就是充分利用现有数据库中的信息,包括二级结构和空间结构的信息,首先从蛋白

质序列预测其二级结构,然后再从二级结构出发,预测蛋白质的空间结构;或者采用从头算方法进行结构预测。

7.2 蛋白质二级结构预测

蛋白质的二级结构预测的基本依据是:每一段相邻的氨基酸残基具有形成一定二级结构的倾向。因此,进行二级结构预测需要通过统计和分析发现这些倾向或者规律,二级结构预测问题自然就成为模式分类和识别问题。蛋白质二级结构的组成规律性比较强,所有蛋白质中约85%的氨基酸残基处于三种基本二级结构状态(α螺旋、β折叠和转角),并且各种二级结构非均匀地分布在蛋白质中。在有些蛋白质中含有大量的α螺旋,如血红蛋白和肌红蛋白;而另外一些蛋白质中则不含或者仅含很少的α螺旋,如铁氧蛋白;有些蛋白质的二级结构以β折叠为主,如免疫球蛋白。二级结构预测的目标是判断每一段中心的残基是否处于α螺旋、β折叠、转角(或其它状态)之一的二级结构态,即三态。至今人们已经发展了几十种预测方法。

7.2.1 利用的信息及预测准确性

蛋白质二级结构的预测开始于20世纪60年代中期。二级结构预测的方法大体分为三代,第一代是基于单个氨基酸残基统计分析,从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。第二代预测方法是基于氨基酸片段的统计分析,使用大量的数据作为统计基础,统计的对象不再是单个氨基酸残基,而是氨基酸片段,片段的长度通常为11-21。片段体现了中心残基所处的环境。在预测中心残基的二级结构时,以残基在特定环境形成特定二级结构的倾向作为预测依据。这些算法可以归为几类:(1)基于统计信息;(2)基于物理化学性质;(3)基于序列模式;(4)基于多层神经网络;(5)基于图论;(5)基于多元统计;(6)基于机器学习的专家规则;(7)最邻近算法。第一代和第二代预测方法有共同的缺陷,它们对三态预测的准确率都小于70%,而对β折叠预测的准确率仅为28~48%,其主要原因是这些方法在进行二级结构预测时只利用局部信息,最多只用局部的20个残基的信息进行预测。二级结构预测的实验结果和晶体结构统计分析都表明,二级结构的形成并非完全由局域的序列片段决定,长程相互作用不容忽视。蛋白质的二级结构在一定程度上受远程残基的影响,尤其是β折叠。从理论上来说,局部信息仅包含二级结构信息的65%左右,因此,可以想象只用局部信息的二级结构预测方法,其准确率不会有太大的提高。二级结构预测的第三代方法运用蛋白质序列的长程信息和蛋白质序列的进化信息,使二级结构预测的准确程度有了比较大的提高,特别是对β折叠的预测准确率有较大的提高,预测结果与实验观察趋于一致。

一般75%的氨基酸残基可以被置换而不改变蛋白质的结构,然而有时改变几个关键的残基则可能导致破坏蛋白质的结构。这好像是两个矛盾的结论,但解释又非常简单。一个蛋白质在其进化过程中探查了每个位置上氨基酸可能的与不可能的变化,不可能变化的部分是进化保守区域。可变部分的变化不改变结构,而不可变部分的变化则改变蛋白质的结构,由此失去蛋白质原有的功能,因而也就难以延续下去。这些不可变部分体现了蛋白质功能对结构的特定要求。这样,从一个蛋白质家族中提取的残基替换模式高度反映了该家族特异的结构。通过序列的比对可以得到蛋白质序列的进化信息,得到蛋白质家族中的特定残基替换模式,此外,通过序列的比对也可以得到长程信息。目前,许多二级结构预测的算法都是基于序列比对的,通过序列比对可以计算出目标序列(待预测其二级结构的序列)中每个氨基酸的保守程度。对于二级结构三态(α,β,none)预测准确率首先达到70%的方法是基于统计的神经网络方法PHDsec。PHDsec利用通过多重序列比对得到的进化信息作为神经网络的输入,另外采用了一个全局的描述子,即所有氨基酸组成(20种氨基酸中每个所占的比例)作为蛋白质序列的全局信息。这类算法预测的准确率能达到70%至75%。

各种方法预测的准确率随蛋白质类型的不同而变化。例如,一种预测方法在某些情况下预测的准确率能够达到90%,而在最差的情况下仅达到50%,甚至更低。在实际应用中究竟使用那种方法,还需根据具体的情况。虽然二级结构预测的准确性有待提高,其预测结果仍然能提供许多结构信息,尤其是当一个蛋白质的真实结构尚未解出时更是如此。通过对多种方法预测结果的综合分析,再结合实验数据,往往可以提高预测的准确度。二级结构预测通常作为蛋白质空间结构预测的第一步。例如,二级结构预测是内部折叠、内部残基距离预测的基础。更进一步,二级结构预测可以作为其它工作的基础,例如,用于推测蛋白质的功能,预测蛋白质的结合位点等。

7.2.2 Chou-Fasman 方法

Chou-Fasman 方法是一种基于单个氨基酸残基统计的经验参数方法,由Chou 和Fasman 在20世纪70年代提出来。通过统计分析,获得的每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。

每种氨基酸残基出现在各种二级结构中倾向或者频率是不同的,例如Glu 主要出现在α螺旋中,Asp 和Gly 主要分布在转角中,Pro 也常出现在转角中,但是绝不会出现在α螺旋中。因此,可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测。另外,不同的多肽片段有形成不同二级结构的倾向。例如:肽链Ala(A)-Glu(E)-Leu(L)-Met(M) 倾向于形成α螺旋,而肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成α螺旋。

一个氨基酸残基的二级结构倾向性因子定义为

(i= α,β,t,c) (7-1)

式中下标i 表示二级结构态,如α螺旋、β折叠、转角、无规卷曲等;T i 是所有被统计残基处于二级结构态i 的比例;A i 是第A 种残基处于结构态i 的比例;P i 大于1.0表示该残基倾向于形成二级结构i ,小于1.0则表示倾向于形成其它二级结构。

通过对大量已知结构的蛋白质进行统计,为每个氨基酸残基确定其二级结构倾向性因子。在Chou-Fasman 方法中,这几个因子是P α、P β 和P t ,它们分别表示相应的残基形成α螺旋、β折叠和转角的倾向性。另外,每个氨基酸残基同时也有四个转角参数,f (i)、f (i+1)、f (i+2)和f (i+3)。这四个参数分别对应于每种残基出现在转角第一、第二、第三和第四位的频率,例如,脯氨酸约有30%出现在转角的第二位,然而出现在第三位的几率不足4%。表7.1中显示了Chou-Fasman 预测方法中所用到的各种参数,其中参数值P α、P β和P t 是分别在原有相应倾向性因子的基础上乘以100而得到的。

根据P α 和P β 的大小,可将20种氨基酸残基分类,如谷氨酸、丙氨酸是最强的螺旋形成残基,而缬氨酸、异亮氨酸则是最强的折叠形成残基。除各个参数之外,还有一些其它的统计经验,如,脯氨酸和甘氨酸最倾向于中断螺旋,而谷氨酸则通常倾向中断折叠。

表7.1 20种常见氨基酸的Chou-Fasman 参数。

氨基酸 P α P β P t

f (i) f (i+1) f (i+2) f (i+3) 丙氨酸(A )

精氨酸(R )

98 93 95 0.070 0.106 0.099 0.085 天冬酰胺(N )

67 89 156 0.161 0.083 0.191 0.091 天冬氨酸(D )

101 54 146 0.147 0.110 0.179 0.081 半胱氨酸(C )

70 119 119 0.149 0.050 0.117 0.128 谷氨酸(E )

151 37 74 0.056 0.060 0.077 0.064 谷氨酰胺(Q )

111 110 98 0.074 0.098 0.037 0.098 甘氨酸(G )

57 75 156 0.102 0.085 0.190 0.152 组氨酸(H )

100 87 95 0.140 0.047 0.093 0.054 异亮氨酸(I )

108 160 47 0.043 0.034 0.013 0.056 亮氨酸(L )

121 130 59 0.061 0.025 0.036 0.070 赖氨酸(K )

114 74 101 0.055 0.115 0.072 0.095 甲硫氨酸(M )

145 105 60 0.068 0.082 0.014 0.055 苯丙氨酸(F )

113 138 60 0.059 0.041 0.065 0.065 脯氨酸(P )

57 55 152 0.102 0.301 0.034 0.068 丝氨酸(S )

77 75 143 0.120 0.139 0.125 0.106 苏氨酸(T )

83 119 96 0.086 0.108 0.065 0.079 色氨酸(W )

108 137 96 0.077 0.013 0.064 0.167 酪氨酸(Y )

69 147 114 0.082 0.065 0.114 0.125 缬氨酸(V )

106 170 50 0.062 0.048 0.028 0.053

i i i T A P =

在统计得出氨基酸残基倾向性因子的基础上,Chou 和Fasman 提出了二级结构的经验规则,其基本思想是在序列中寻找规则二级结构的成核位点和终止位点。在具体预测二级结构的过程中,首先扫描待预测的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列片段,然后对于成核区域进行扩展,不断扩大成核区域,直到二级结构类型可能发生变化为止,最后得到的就是一段具有特定二级结构的连续区域。下面是4个简要的规则。

1. α螺旋规则

沿着蛋白质序列寻找α螺旋核,相邻的6个残基中如果有至少4个残基倾向于形成α螺

旋,即有4个残基对应的P α 〉100,则认为是螺旋核。然后从螺旋核向两端延伸,直至四肽片段P α 的平均值小于100为止。按上述方式找到的片段长度大于5,并且P α 的平均值大于P β 的平均值,那么这个片段的二级结构就被预测为α螺旋。此外,不容许Pro 在螺旋内部出现,但可出现在C 末端以及N 端的前三位,这也用于终止螺旋的延伸。

2. β折叠规则

如果相邻6个残基中若有4个倾向于形成β折叠,即有4个残基对应的P β 〉100,则认

为是折叠核。折叠核向两端延伸直至4个残基P β 的平均值小于100为止。若延伸后片段的P β 的平均值大于105,并且P β 的平均值大于P α 的平均值,则该片段被预测为β折叠。

3. 转角规则

转角的模型为四肽组合模型,要考虑每个位置上残基的组合概率,即特定残基在四肽模

型中各个位置的概率。在计算过程中,对于从第i 个残基开始的连续4个残基片段,将上述概率相乘,根据计算结果判断是否是转角。如果f (i)×f (i+1)×f (i+2)×f (i+3)大于7.5×10-5,四肽片段P t 的平均值大于100,并且P t 的均值同时大于P α 的均值以及P β 的均值,则可以预测这样连续的4个残基形成转角。

4. 重叠规则

假如预测出的螺旋区域和折叠区域存在重叠,则按照重叠区域P α 均值和P β 均值的相对

大小进行预测,若P α 的均值大于P β 的均值,则预测为螺旋;反之,预测为折叠。

Chou-Fasman 预测方法原理简单明了,二级结构参数的物理意义明确,该方法中二级结构的成核、延伸和终止规则基本上反映了真实蛋白质中二级结构形成的过程。该方法的预测准确率在50%左右。

7.2.3 GOR 方法

GOR 是一种基于信息论和贝叶斯统计学的方法,方法的名称以三个发明人姓名的第一个字母组合而成(Garnier, Osguthorpe, Robson )。信息论是于1950-1960期间发展起来的,其基本理论由Shannon 首先提出,主要针对解决信息传递和处理问题。

GOR 方法将蛋白质序列当作一连串的信息值来处理,该方法不仅考虑了被预测位置本身氨基酸残基种类的影响,而且考虑了相邻残基种类对该位置构象的影响。GOR 针对长度为17的残基窗进行二级结构预测。对序列中的每一个残基,GOR 方法将与它N 端紧邻的8个残基和C 端紧邻的8个残基与它放在一起进行考虑。与Chou-Fasman 方法一样,GOR 方法也是通过对已知二级结构的蛋白样本集进行分析,计算出中心残基的二级结构分别为螺旋、折叠和转角时每种氨基酸出现在窗口中各个位置的频率,从而产生一个17×20的得分矩阵。然后利用矩阵中的值来计算待预测的序列中每个残基形成螺旋、折叠或者转角的概率。GOR 方法是基于信息论来计算这些参数的,下面介绍GOR 方法的数学基础。

首先考虑两个事件S 和R 的条件概率P (S |R ),即在R 发生的条件下,S 发生的概率。定义信息为:

)](/)|(log[);(S P R S P R S I = (7-2)

若S 和R 无关,即 )()|(S P R S P = ,则0);(=R S I ;若R 的发生有利于S 的发生,即 )()|(S P R S P > , 则0);(>R S I ;如果R 的发生不利于S 的发生,则有)()|(S P R S P < ,0);(

使用对数的优点在于可将概率的乘积变为信息值的加和。在二级结构预测过程中,S 表示特殊

的二级结构类型,R 代表氨基酸残基,)|(R S P 就是残基R 处于二级结构类型S 的概率。P (S )是在统计过程中观察到二级结构类型S 的概率。

根据条件概率的定义:

(7-3)

P (S ,R )是同时观察到S 和R 的联合概率,而P (R )是R 的出现概率。对现有蛋白质序列数据库和二级结构数据库进行数学统计分析,很容易得到I (S ;R )。如果令N 为数据库中总的氨基酸残基的个数,f R 为残基R 的总个数,f S 为处于二级结构类型S 的残基总数,f S,R 为残基R 处于二级结构类型S 的总数,则:

(7-4)

R 处于二级结构类型S 的信息值按下式计算:

(7-5)

Robson 提出一种信息差的计算公式:

)/log()/log();'();();(',',S S R S R S f f f f R S I R S I R S I +=-=? (7-6)

这里,S ’ 表示除S 之外的其它所有二级结构类型。例如,如果S 代表α螺旋,则在三态情况下,S ’代表β折叠或者转角。公式(7-6)从正反两个方面给出关于氨基酸残基R 与二级结构S 关系的信息值。

若R 可分为两个较简单的事件R 1和R 2,则有:

)](/)|(log[)]|(/),|(log[)]

(/),|(log[),;();(11212121S P R S P R S P R R S P S P R R S P R R S I R S I +=== (7-7)

式中第一项表示在R 1发生的条件下,R 2对事件S 的影响,第二项则表示R 1对S 的影响。上式可改写为

);()|;();(112R S I R R S I R S I +=

(7-8)

同理,若R 可分解为一系列的简单事件R 1,R 2,…,R n ,则有

)

,,,|;()

,|;()|;();()|(121123121-++++=n n R R R R S I R R R S I R R S I R S I R S I (7-9)

这里,R 1,R 2,…,R n 代表蛋白质序列中一组连续的残基,预测的对象是中心残基,判断它处于什么样的构象态,其它残基作为环境。GOR 方法只考虑待预测残基及其两侧各8个残基。

最早期的GOR 方法采用了独立事件近似,即

);();();();(21n R S I R S I R S I R S I ?++?+?=? (7-10)

)(),()|(R P R S P R S P =N f S P N f R P N f R S P S R R S /)(/)(/),(,===)]

//()/log[();(,N f f f R S I S R R S =

后来的改进GOR 方法则考虑了中心残基R 1的影响,信息计算公式如下:

)|;()|;()|;();();(113121R R S I R R S I R R S I R S I R S I n ?++?+?+?=? (7-11)

通过统计,可以得出各种残基R 处于中心残基周围各位置i 时的信息值);(i R S I ?或)|;(1R R S I i ?,它们反应了周边残基对中心残基形成特定二级结构的影响。再通过近似公式(7-10)或(7-11),就可计算出);(R S I ?。对于一条肽链中任一位置残基r 的构象预测过程包括三个步骤:

(1)以r 为中心,取其左右两侧共17个残基作为计算的窗口(记为R );(2)取窗口内每个残基的信息值);(i R S I ?,并按照公式(7-10)或者公式(7-11)加和,得到);(R S I ?;(3)中心残基r 的二级结构预测为);(R S I ?最大的二级结构类型S 。

假定数据库中有1830个残基,780个处于螺旋态,1050个处于非螺旋态。库中共有390个丙氨酸(A ),有240个A 处于螺旋态,其余150个 A 处于非螺旋态。可得:

根据公式(7-6),有:

这里H 代表二级结构螺旋态,而H ’代表除H 以外的其它类型二级结构, I(?H;A) 就是丙氨酸A 处于中心位置时的螺旋信息值。

早期GOR 方法假设窗口内17个残基(包括中心残基及左右两侧各8个残基)是相互独立的,每个残基独立地影响中心残基的二级结构。在此基础上统计了75个蛋白质的结构,总共有12757个残基,所作统计结果为:螺旋29.7%,折叠19.7%,转角12.2%,无规卷曲38.3% 。根据所得到的信息值);(i R S I ?,发现有些残基的信息值中心对称,在窗口中心处其值取最大或者最小。例如,A 的螺旋信息值、I 的折叠信息值在窗口中心处取最大,这类残基越靠近窗口中心,中心残基就越容易形成特定二级结构;又如,G 螺旋信息值、L 的转角信息值在窗口中心处取最小,这类残基离窗口中心越近,中心残基形成特定构象的机会越小。有些残基的信息值是不对称的,在一端为正,而在另一端为负。有的残基在N 端为正,C 端为负,这类残基位于N 端时有利于中心残基形成特定构象,例如,E 对于螺旋支持程度属于这种情况;有的残基在N 端为负,C 端为正,当这类残基位于C 端时有利于中心残基形成特定构象,比如,K 对于螺旋的支持程度属于这种情况。

GOR 方法中的信息值构成了20种氨基酸出现在不同位置时的直接信息量表,根据该表和相关计算公式,就可以对一条肽链中任一位置残基的构象进行预测。GOR 方法的物理意义明确,数学上比较严格,但计算过程较为复杂。应用GOR 方法预测蛋白质的二级结构为螺旋、折叠或者转角的准确率大约为65%。20种常见氨基酸的疏水参数

7.2.4 基于氨基酸疏水性的预测方法

这种方法是一种用物理化学方法进行二级结构预测的方法,或称为立体化学方法。在蛋白质中,氨基酸的理化性质对蛋白质的二级结构影响较大,因此在进行结构预测时考虑氨基酸残基的物理化学性质,如疏水性、极性、侧链基团的大小等,根据氨基酸残基各方面的性质及残基之间的组合预测可能形成的二级结构。“疏水性”是氨基酸的一种重要性质,疏水性的氨基酸倾向于远离周围水分390/150390/2401830/10501830/780,','====A H A H H H f f f f 7650.0))

1830/780/()1830/1050log(())390/150/()390/240log(()/log(/log();(',',=+=+=?H H A H A H f f f f A H I )

子,将自己包埋进蛋白质的内部。这一趋势加上空间立体条件和其它一些因素决定了一个蛋白质最终折叠成的三维空间构象。20种氨基酸的疏水参数见表7.2,其中,高正值的氨基酸具有更大的疏水性,而低负值的氨基酸则更加亲水。

随着蛋白质结构数据的积累,人们开始注意到一些较简单的序列与结构关系。可以通过疏水氨基酸出现的周期性预测蛋白质的二级结构,利用各种氨基酸的疏水值定位蛋白质的疏水区域。Lim 等人很早就对α螺旋和β折叠归纳出了一套预测模式。例如α螺旋的轮状结构特征,轮的一侧通常处于蛋白质的疏水核心,另一侧则常处于亲水表面,如图7.2所示。因此,α螺旋中亲疏水氨基酸残基的出现位置也就有一定的规律性,亲水残基多出现在亲水侧面,而疏水残基则多出现在疏水侧面,反映在序列上就是一些特征的亲疏水残基间隔模式。

疏水性氨基酸的位置有助于推断蛋白质中二级结构的定位,通过显示疏水氨基酸的分布分析二级结构。例如,图7.2 利用HELICALWHEEL程序画出的蛋白质蜂毒素旋轮图。图中各个氨基酸沿螺旋排布,相邻氨基酸之间的旋转角度为100o。疏水性氨基酸L、I和V位于螺旋的一侧,而亲水性氨基酸则分布在另外一侧,显示这个螺旋的两亲特性。

根据蛋白质序列中疏水性氨基酸出现模式,可以预测局部的二级结构。例如,当我们在一段序列中发现第i、i+3、i+4位是疏水氨基酸时,这一片段就被可以预测为α螺旋;当我们发现第i、i+1、i+4位为疏水氨基酸时,这一片段也可以被预测为α螺旋。同样,对于β折叠,也存在着一些特征的亲疏水残基间隔模式,埋藏的β折叠通常由连续的疏水残基组成,一侧暴露的β折叠则通常具有亲水-疏水的两残基重复模式。不过,由于β折叠受结构环境的影响较大,序列的亲疏水模式不及α螺旋有规则。原则上,通过在序列中搜寻特殊的亲疏水残基间隔模式,就可以预测α螺旋和β折叠。

图7.2 利用HELICALWHEEL 程序画出的蛋白质蜂毒素的旋轮图。

代表疏水氨基酸

在Biou 等人提出的点模式方法中,将20种氨基酸残基分为亲水、疏水以及两性残基三类,用八残基片段表征亲疏水间隔模式。以一个二进制位代表一个残基,疏水为1,亲水为0,共八位。这样,八残基片段的亲疏水模式就可用1个0~255的数值来表示。α螺旋的特征模式对应的值为9,12,13,17,……,201,205,217,219,237;β折叠的特征模式则由连续的1或交替的01构成。在进行二级结构预测时,根据氨基酸片段计算点模式,如果点模式的值为α螺旋的特征数,则片段预测为α螺旋;若为β折叠的特征数,则片段预测为β折叠。其余的预测为无规则卷曲。这种方法的三态预测准确率为55%左右,其中对无规则卷曲预测过多,而对β折叠则预测不足。当序列长度小于50时,准确率较高。

上述方法定性描述序列片段的亲、疏水特征,通过特征模式识别来预测蛋白质的二级结构。另一种方法是直接计算序列片段的疏水性和疏水矩,并根据定量计算结果预测该片段对应的二级结构。序列片段疏水性计算的方法依赖于各个氨基酸残基疏水值。对于一条蛋白质序列,用一个滑动窗口扫描该序列,计算滑动窗口下各个氨基酸的平均疏水值H 和疏水矩H 。窗口的宽度是可以调整的,一般取9~15残基的窗口宽度,以获得较多的信息和较小的噪声干扰。平均疏水值H 的计算公式如下:

(7-12) 其中H i 是片段第i 残基的疏水值。疏水矩的计算公式如下:

(7-13)

其中S i 是α碳原子到侧链中心的单位矢量。

按照公式(7-12)的计算结果,画出整个蛋白质的疏水曲线,形成疏水性图。图7.3是人类视紫质蛋白的疏水图。与蛋白质疏水图相对应的是蛋白质的疏水矩图。通过分析这些图谱,可以帮助预测蛋白质的二级结构。

=?=n

i i H n H 11)

(1i n i i S H H ?=∑=

7.2.2.4 最邻近方法(Nearest Neighboring methods )

早期,由于数据的缺乏,预测方法多基于单条序列。随着序列和结构数据的增加,人们的研究转向同源序列分析,充分利用隐藏在同源序列中的结构信息,使得结构预测的准确率得到了较大的提高。同源分析的基础是序列比较,通过序列比较发现相似的序列,根据相似序列具有相似结构的原理,将相似序列(或者序列片段)所对应的二级结构作为预测的结果。在Levitt 等人建立的相似片段方法中,将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态,构建出待预测片段的二级结构。这一方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于30%的序列,则预测准确率可大大上升。另一种更为合理的方法是将待预测二级结构的蛋白质U 与多个已知结构的同源序列T i 进行多重比对,对于U 的每个残基位置,其构象态由多个同源序列对应位置的构象态决定,或取出现次数最多的构象态,或对各种可能的构象态给出得分值。

基于上述的策略,最邻近方法在预测二级结构方面包括两个过程,一是学习过程,二是预测过程。在学习阶段,用一个滑动窗口(例如长度为15)扫描已知结构的训练序列,序列个数为几百个,并且这些序列彼此之间的相似性很小。通过窗口扫描形成大量的短片段(称为训练片段),记录这些片段中心氨基酸残基的二级结构。在预测阶段,利用同样大小的窗口扫描给定的序列U ,将在每一个窗口位置下的序列片段U ’与上述训练片段相比较,找出50个最相似的训练片段。假设这些相似片段中心残基各种二级结构的出现频率分别为f α、f β 和f c ,用它们预测片段U ’中心残基的二级结构,可以取频率最高的构象态作为U ’中心残基的二级结构,或者直接以f α、f β 和f c ,反应U ’中心残基各种构象态可能的分布。根据处理过程的特点,最邻近方法又称为相似片段法。

7.2.5 人工神经网络方法

人工神经网络是一种复杂的信息处理模型。随着神经网络研究的兴起,科学家们也将神经网络用于生物信息学,其中包括二级结构的预测、蛋白质结构的分类、折叠方式的预测以及基因序列的分析等等。将神经网络用于二级结构预测的最早是由Qian 和Sejnowskit 提出的,他们受到神经网络在文字语言处理方面应用的启发,将蛋白质序列看作是由各种氨基酸字符组成的字符序列,将氨基酸残基片段作为输入的一串语言字符,二级结构即为对应的输出。神经网络可以有效地学习蛋白质二级结构形成的复杂规律或模式,提取更多的信息,并利用所掌握的信息进行预测。利用神经网络方法可以提高二级结构预测准确率。早期的神经网络方法能够得到63-65% 的二级结构预测准确图7.3 人类视紫质蛋白疏水图。

→ 氨基酸序列 → ← 疏水值 ←

4

3

2

1 0 -1 -

2 -

3 50 100 150 200 250 300

率,利用多序列比对的信息对二级结构预测的准确率能够达到70%。

用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层、隐含层以及输出层。每一层由若干神经元组成,输入层神经元与隐含层的神经元是完全连接的,即任何一个输入层神经元都与任何一个隐含层的神经元连接,在图7.4中用一个大箭头表示。同样,隐含层神经元与输出层的神经元也是完全连接的。输入层用于接收蛋白质窗口序列数据。沿蛋白质的氨基酸序列依次取一定大小的窗口,将窗口内的序列片段进行编码,窗口包括中心氨基酸残基及左右m个(共2m+1个)残基,每一个残基用21个神经元编码,因此,输入层共有21*(2m+1)个神经元。输出层有3个神经元,分别对应于窗口中心残基的H、E、C三态。输入层中编码一个残基的21个神经元只有一个处于激发状态,即设置为1,其余为0,对应于一种氨基酸残基。类似地,代表中心残基二级结构状态的输出单元的期望输出为1,其它两个单元为0。在这样一种神经网络模型中,隐含层的神经元是完成从氨基酸序列到蛋白质二级结构映射的关键,这种映射是非线性的。通过隐含层的信息处理,可以检测残基及所处环境与二级结构的复杂关系。隐含层的神经元个数一般从2个变化到几十个,隐含层的神经元越多,则神经网络对训练实例的记忆能力越强,但是神经网络的推广能力将越弱,对新蛋白质二级结构预测的准确率越低。因此,在实际应用中需要通过大量实验,选择合适的隐含层神经元个数。用于蛋白质二级结构预测的人工神经网络结构如图7.4所示,用21个神经元为每个残基编码(仅画出3个神经元)。在实际应用中,窗口的大小影响预测结果,Qian和Sejnowskit 实验结果表明窗口的大小取13个残基为佳。

神经网络通过神经元之间的连接存贮信息或知识,因此,神经网络学习的过程实际上是调整网络中各连接权值的过程。神经网络中各层之间的连接权值调整采用反向传播BP算法(相应的网络称为BP网)。在训练或学习过程中,将结构已知的蛋白质序列由输入层输入,不断调整神经网络神经元之间的连接权重及网络节点的偏置,直至实际输出与期望值差别最小为止。在训练过程的每一步,取一个窗口中的序列及窗口中心氨基酸所对应的二级结构作为已知的映射结果,调整网络映射行为,使之与已知映射关系相一致。训练完毕后,得到一个已确定参数并且可以进行结构预测的实际神经网络。

与前述其它方法相比,神经网络具有应用方便、计算能力强、预测准确率较高的特点,网络一旦训练完毕,就可以进行快速预测。

目前二级结构预测识别率不高的主要因素是许多预测方法没有使用足够的进化信息和全局信息。蛋白质序列家族中氨基酸的替换模式是高度特异的,如何利用这样的进化信息是二级结构预测的关键。这里介绍蛋白质二级结构预测软件系统PHDsec所使用的方法。

PHDsec的第一步工作是形成同源序列的多重对比排列。对于一个待预测的蛋白质,PHDsec首先

利用BLAST在SWISS-PROT数据库中搜索同源序列,然后再利用MaxHom程序将这些同源序列对比排列起来,并对每个比对的位置进行统计分析。

PHDsec的第二步工作是将得到的多重比对的统计结果送到一个神经网络中计算。这里的神经网络是一个多层的前馈网络,如图7.5所示。整个网络模型包括两个层次。第一层网络进行序列到结构的映射。对于第一层网络的输入包括两个部分,如图7.5(a)、( b) 所示。一部分是序列的局部信息,取自窗口内w(缺省值为13)个氨基酸残基,另一部分是来自整个序列的全局信息。首先,取多重序列比对的w列,如图7.5(a)所示,这里w=7;然后,计算序列局部统计数据以及序列全局数据。局部数据有24个,其中20个数据对应于20种氨基酸,1个数据对应于“空缺”氨基酸(这使得窗口位置可以在序列的两端,蛋白质的第一个或最后一个氨基酸都可以作为窗口的中心,不存在的部分用“空缺”符号代替),2个数据分别表示多重序列比对中该位置的插入(ins)和删除(del)的次数,1个数据表示该位置的保守程度(cons)。全局数据有32个,其中20个数据表示各种氨基酸所占百分比,表示蛋白质长度的数据有4个(分别对应与4个区间,见图7.5(b)),当前窗口到蛋白质N-端和C-端的距离分别有4个。第一层次网络的输出是窗口中心残基二级结构的状态,H代表螺旋,E代表折叠,L代表其它。

第二层次网络是一个结构到结构的映射,作用是对前一层网络的输出进行校正。第二层网络的输入主要是第一层网络的输出,同时还包括所有全局信息以及局部的保守信息(cons)。所有第二层网络的输入表示为:3(二级结构)+1(空缺)+1(cons)+32(全局数据)。第二层网络输出的含义与第一层网络的输出一样。

建立好系统的模型后(开始的时候系统仅仅是一个空壳),PHDsec对神经网络进行训练,通过训练教会神经网络如何正确地预测蛋白质二级结构。训练是一个反复的过程,要求神经网络至少能够正确处理训练数据。PHDsec的训练数据是随机选取的。

(a) (b)

输入层

E

L

第一层网络第二层网络

(c)

图7.5 PHDsec 模型:(a)由蛋白质家族得到的序列信息;(b)对一个窗口序

列进行多重比对得到的统计数据,作为神经网络的输入;(c)神经网络结构。

由于PHDsec在进行二级结构预测时采用序列多重比对的统计结果,而序列多重比对反映了蛋白质家族的共同特征,提取了结构保守的信息。序列多重比对结果也反映了在进化过程中,哪些部分的结构容易发生变化,而哪些部分的结构对蛋白质的功能非常重要,不能随意改变。这些信息对于蛋白质结构预测来说,是非常关键的。多重序列比对所携带的进化信息也暗示了蛋白质中长程相互作用:假设蛋白质中氨基酸残基i与残基i+100在三维空间中靠在一起,残基i可能的替换类型受到残基i+100理化特性的约束。这样的长程相互约束关系会反应在多重序列比对中。总之,利用多重序列比对的信息,可以提高二级结构预测的准确性。另外,PHDsec通过两层神经网络的体系,加强了预测结果的校正,由此提高了对β折叠结构预测的准确性。正因为这样,PHDsec预测的准确率比较高,对二级结构预测的准确率达到72%,而且还对序列上每个位点的预测可信度给予统计分析。PHDsec是第一个预测准确率超过70%二级结构预测方法,比基于单条序列的预测方法提高了近10个百分点。

7.2.7 综合方法

在实际进行蛋白质二级结构预测时,往往会综合应用各种分析方法和相关数据。综合方法不仅包括各种预测方法的综合,而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。

实际应用中最常见的综合方法是同时使用多个软件进行预测,通过分析各个软件的特点以及各个软件预测结果,最终形成二级结构一致性的预测结果。将序列比对与二级结构预测相结合也是一种常见的综合方法。

双重预测是另一类综合方法,该方法首先预测蛋白质的结构类型,然后根据不同结构类型蛋白质的二级结构形成规律预测新蛋白质的二级结构,并根据结构类型解释预测结果。这种方法若有光谱测定的二级结构含量作参考,则第一步分类结果更可靠。

就像α螺旋和β折叠片的位置可以预测出来一样,其它特定的结构或结构特征,如卷曲螺旋和跨膜区也可以预测出来。但这类预测的方法没有二级结构预测方法多,主要是由于这些结构或结构特征的折叠规律尚不十分清楚。尽管如此,若待预测序列在已知结构数据库中能搜索到相似蛋白,则可以提高预测的准确性。

早期人们建立的多种二级结构的预测方法,都是建立在假定蛋白质的二级结构主要是由局部氨基酸所决定,准确率都不超过65%。随着蛋白质进化信息、长程相互作用信息及全局信息的加入,蛋白质二级结构预测的准确率有了较大的提高。由于序列信息和结构信息的不断增长,通过统计得到的蛋白质序列与二级结构关系及规律更加全面,同时也由于预测方法的不断改进,使得蛋白质二级结构预测的准确率也在不断地提高,预测二级结构的准确率已经可以达到80%以上。一般认为,如果蛋白质二级结构预测准确率足够高的话,就可以基本准确地预测一个蛋白质分子的三维空间结构。但目前所取得的成果还难以达到这一目标。虽然二级结构的预测准确率还不能满足准确推测蛋白质分子三维空间结构的要求,但其预测结果仍能提供许多有用结构信息,尤其当蛋白质的结构尚未解出时更是如此。通过对多种预测结果的综合分析,再结合光谱实验数据,往往可以提高预测的准确度。由于二级结构预测很好地反映了局域序列片段的结构倾向性,因此在进行全新蛋白质设计时,常用二级结构预测的方法来设计二级结构单元。

7.2.8 氨基酸残基之间的距离

只要给出所有残基之间的距离,就可以利用距离几何或分子动力学方法构建蛋白质的三维结构,这是核磁共振NMR测定分子三维结构的一般方法。那么就蛋白质结构而言,是否能够得到残基之间的距离呢?显然,根据残基间氢键模式可以确定一部分螺旋和折叠的距离。因此成功的二级结构预测预示着可以得到一部分残基间的距离。然而需要注意的是这些距离仅仅是短程距离,是关于序列中相邻残基间的距离。若用距离几何的方法推测三维结构,还进一步得到关于长程距离的信息。目前预测长程距离的方法还比较少,有两个问题是这类方法所关心的重点,一是这些方法平均预测准确率是多少,二是是否所有主要的距离都被预测出来了?

7.3 RNA二级结构的预测

就核酸分子结构而言,DNA具有双螺旋结构,而RNA是单链结构。单链RNA的三维结构是由它的核苷酸序列决定的,这与蛋白质的结构由蛋白质的序列决定相类似。但是,RNA的结构并没有蛋

白质的结构那么复杂。

RNA 的结构可以分为三个层次,即一级结构、二级结构和空间结构。一级结构就是RNA 的序列。二级结构是通过碱基互补配对而形成的,碱基对之间的氢键以及它们形成的螺旋堆积力起着稳定结构的作用,降低自由能。RNA 的二级结构单元与蛋白质的二级结构单元很不一样。但在单链RNA 中,由于配对的碱基出现在单个RNA 分子中,因此就会形成碱基配对的茎区(stem region)。在RNA 链中,为了形成这种碱基配对需要反转链的方向,于是在反转处就会形成一个发夹环。如果RNA 链上有很少的碱基没有相对应的互补碱基,那么就会形成一个小的突出部分或者形成一个较大的环状区(loop ),即内环或者膨胀环。发夹环一般位于茎的末端,而内环或膨胀环使茎中断。图7.6是一个RNA 的二级结构示意图,其中包括茎、发夹环、内环、膨胀环连续碱基配对等。

当RNA 分子折叠时,有些碱基相互配对,形成螺旋区域或茎,这部分碱基具有负的自由能;而其它非互补的碱基处于自由态,形成单链或环,这部分碱基的自由能为正值。环区的存在使RNA 分子的自由能升高,结构的稳定性减弱。因此,预测RNA 二级结构的一种直接的方法是寻找最大数目的碱基配对。

通过确定常见RNA 二级结构单元的位置,我们能够比较好地预测出RNA 的结构。但是,伪结(pseudoknot)是RNA 二级结构预测中最难预测的一种二级结构。在形成伪结的地方,环状区域内的碱基与环状区域外的碱基相互配对。由于伪结的预测比较困难,因此许多早期的二级结构预测算法则完全不考虑伪结。这些算法是在忽略伪结区域存在的前提下预测其他二级结构单元的。

可以用点矩阵作图的方法来寻找最大配对。将RNA 的碱基序列顺序地排布在X 轴上,对于配对的碱基在Y 轴相同的位置打上点标记。设RNA 序列的长度为n ,根据序列建立一个n×n的矩阵R ,如果第i个碱基与第j个碱基配对(如A ?U 、G ?C ),则 R[i ,j]=1,否则为0。根据所得到的点矩阵图,可以找出最大配对。当然,这是一种非常简单粗糙的方法。

目前RNA 二级结构预测有两种主要的方法,一是基于序列比较的方法,另一种方法是能量最小化方法。基于序列比较的方法主要是通过多重序列比对,根据相似序列具有相似结构的原理进行二级结构预测。

能量最小化方法在预测RNA 分子二级结构时,试图对RNA 折叠的自由能进行最小化,进而搜索最稳定的结构。该方法通过各种能量优化方法或者分子动力学计算评价所有可能配对的能量,进而发现具有最小能量的结构。Zuker 的Mfold 程序是使用最多的程序包之一,它就是通过一系列的最近邻能量规则(nearest neighbor energy rules)来计算一个结构的能量。由于在这种方法中RNA 结构被分成了许多相互作用的区域来进行评估,而能量计算时仅仅计算那些被认为有可能产生相互作用的“邻居”碱基对之间的能量,因此这些规则被称为“最近邻”规则。最近邻能量规则认为:在标为环区的区域内的所有碱基都有相互作用的可能,因此在计算这个结构的能量时就必须考虑这一环区内的所有的碱基对的能量。但在不考虑会出现伪结时,由于环区外的碱基与环区内的任一碱基都不会构成碱基对,

因此在最近邻规则下就不考虑外区内的碱基和环区内的碱基之间的碱基对作用。图7.6 RNA 二级结构示意图

由于不需要考虑位于不同区的碱基间的相互作用,计算的速度就得到了比较大的提高。

由于不考虑伪结,可以假设RNA二级结构总的自由能是所有结构元素(配对碱基、环)的自由能的总和,并且各个结构元素的自由能相互独立。这意味着在计算RNA二级结构自由能的时候,只要分别计算各个结构元素的自由能,然后加和,形成总的自由能。通过实验可以确定各结构元素的自由能函数。典型的自由能函数包括两个连续碱基对s i与s j、s i+1与s j-1所形成的自由能,由碱基s i 和s j界定的发夹环的自由能,由两对碱基s i与s j、s i’与s j’所界定内环的自由能。

基于自由能的二级结构预测的目标就是搜索一个合适的构象,使得在这种构象下总的自由能最小。这是一个优化问题,对于这个问题可用动态规划技术解决。

RNA是一种重要的生物大分子。RNA是DNA和蛋白质之间的一个中间语言,因此RNA二级结构的准确预测对于了解基因调控和蛋白质产物的表达具有重要的作用。另外,已经发现许多RNA本身具有酶的催化特性。现在,这些具有酶的催化特性的RNA被称为核酶(ribozyme),它们在tRNA分子的剪接、核糖体的活性以及真核生物hnRNA的处理中具有一定的作用。同时,它们还具有其他一些功能。总而言之,认识RNA的结构对于了解RNA的功能及其作用机制是非常重要的。

7.4 蛋白质空间结构预测

生物信息学研究的一个主要目标是了解蛋白质序列与三维结构的关系,但是序列与结构之间的关系是非常复杂的。人们已经掌握了一些蛋白质序列与二级结构之间的关系,但是对于蛋白质序列与空间结构之间的关系了解得比较少。预测蛋白质的二级结构只是预测折叠蛋白的三维形状的第一步。一些结构不是很规则的环状区域与蛋白的二级结构单元共同堆砌成一个紧密的球状天然结构。生物化学研究中一个活跃领域就是了解引起蛋白折叠的各种力。在蛋白质折叠过程中一系列不同的力都起到了重要作用,包括静电力、氢键和范德华力。疏水作用是影响蛋白质结构的重要因素。半胱氨酸之间共价键的形成在决定蛋白构象中也起了决定性的作用。在一类称为伴侣蛋白的特殊蛋白质作用的情况下,蛋白折叠问题变得更复杂。伴侣蛋白通过一些未预知的方式改变蛋白质的结构,但这些改变方式是很重要的。

7.4.1 同源模型化方法

同源模型化方法是蛋白质三维结构预测的主要方法。对蛋白质数据库PDB分析可以得到这样的结论:任何一对蛋白质,如果两者的序列等同部分超过30%(序列比对长度大于80),则它们具有相似的三维结构,即两个蛋白质的基本折叠相同,只是在非螺旋和非折叠区域的一些细节部分有所不同。蛋白质的结构比蛋白质的序列更保守,如果两个蛋白质的氨基酸残基序列有50%相同,那么约有90%的 碳原子的位置偏差不超过3 ?。这是同源模型化方法在结构预测方面成功的保证。

同源模型化方法的主要思想是:对于一个未知结构的蛋白质,首先通过同源分析找到一个已知结构的同源蛋白质,然后,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。这里的前提是必须要有一个已知结构的同源蛋白质。这个工作可以通过搜索蛋白质结构数据库来完成,如搜索PDB。同源模型化方法是目前一种比较成功的蛋白质三维结构预测方法。从上述方法介绍也可以看出,因为预测新结构是借助于已知结构的模板而进行的,选择不同的同源的蛋白质,则可能得到不同的模板,因此最终得到的预测结果并不唯一。

假设待预测三维结构的目标蛋白质为U(Unknown),利用同源模型化方法建立结构模型的过程包括下述6个步骤:

(1)搜索结构模型的模板(T)。同源模型化方法假设两个同源的蛋白质具有相同的骨架。为待预测的蛋白质建立模型时,首先按照同源蛋白质的结构建立模板T。所谓模板是一个

已知结构的蛋白质,该蛋白质的与目标蛋白质U的序列非常相似。如果找不到这样的模

板,则无法运用同源模型法。

(2)序列比对。将目标蛋白质U的序列与模板蛋白质序列进行比对,使U的氨基酸残基与模板蛋白质的残基匹配。比对中允许插入和删除操作。

(3)建立骨架。将模板结构的坐标拷贝到目标U,仅拷贝匹配残基的坐标。在一般情况下,通过这一步建立目标蛋白质U的骨架。

(4)构建目标蛋白质的侧链。可以将模板相同残基的坐标直接作为目标蛋白质的残基坐标,但是对于不完全匹配的残基,其侧链构象是不同的,需要进一步预测。侧链坐标的预测

通常采用已知结构的经验数据,如ROTAMERS 数据库。ROTAMERS含有所有已知结构蛋白

质中的侧链取向,按下述过程来使用ROTAMER:从数据库中提取ROTAMER分布信息,取一

定长度的氨基酸片段(对于螺旋和折叠取7个残基,其它取5个残基);在U的骨架上

平移等长的片段,从ROTAMER库中找出那些中心氨基酸与平移片段中心相同的片段,并

且两者的局部骨架要求尽可能相同,在此基础上从数据库中取局部结构数据。

(5)构建目标蛋白质的环区。在第2步的序列比对中,可能加入空位,这些区域常常对应于二级结构元素之间的环区,对于环区需要另外建立模型。一般也是采用经验性方法,从

已知结构的蛋白质中寻找一个最优的环区,拷贝其结构数据。如果找不到相应的环区,

则需要用其它方法。

(6)优化模型。通过上述过程为目标蛋白质U建立了一个初步的结构模型,在这个模型中可能存在一些不相容的空间坐标,因此需要进行改进和优化,如利用分子力学、分子动力

学、模拟退火等方法进行结构优化。

当然,如果能够找到一系列与目标蛋白相近的蛋白质的结构,得到更多的结构模板,则能够提高预测的准确性。通过多重序列比对,发现目标序列中与所有模板结构高度保守的区域,同时也能发现保守性不高的区域。将模板结构叠加起来,找到结构上保守的区域,为要建立的模型形成一个核心,然后再按照上述方法构建目标蛋白质的结构模型。

对于具有60%等同部分的序列,用上述方法所建立的三维模型非常准确。若序列的等同部分超过60%,则预测结果将接近于实验得到的测试结果。一般如果序列的等同部分大于30%,则可以期望得到比较好的预测结果。当然,这种计算方法要占用大量的计算时间,主要是由于第4步的数据库搜索过程耗时较多。

如果序列的等同部分小于30%或更少,那么预测结果的准确性如何呢?随着U和T的相似度降低,比对这两个蛋白质序列所需插入的环(LOOPS)增多。为环区建立精确的三维模型意味着解决结构预测的问题。有许多具体的方法可用于为环区建立三维模型,其中最好的方法在一些情况下能够得到环区正确的取向。为环区建立三维模型的一种方法是分子动力学模拟。由于环区一般来说相对比较短,可以用分子动力学方法来模拟,但在动态模拟过程所需要的计算时间随着多肽链的残基数指数增长。

然而,即使序列等同部分下降到25%-30%,同源模型化方法也能产生出未知结构蛋白质整体折叠的粗糙模型。对于这样初始模型可以进行优化。常常用分子动力学技术进行优化,以提高精度。通过分子动力学的进一步模拟,往往能够得到较好的结果。

也可以用人工神经网络(如BP网)来预测同源蛋白质的空间结构。Bohr等人曾利用BP网预测同源蛋白质的折叠模式,该方法应用距离点矩阵表示蛋白质的结构,同源蛋白质的距离矩阵相似。沿水平轴和垂直轴画出蛋白质序列,如果两个氨基酸C 原子之间的距离小于指定的距离,则在矩阵对应位置打上点标记。与二级结构预测的神经网络方法相似,将一个窗口在蛋白质序列上移动,利用窗口内蛋白质序列、二级结构类型、反映空间结构信息的点距离矩阵作为神经网络的输入输出数据。其中在网络的输入层输入一个窗口内氨基酸序列信息,于中心氨基酸两侧分别取30 个氨基酸,窗口大小为61。网络的输出层有33个节点,其中30个节点对应于中心氨基酸前30 个氨基酸,其值为“0”或者“1”,这取决于该氨基酸与中心氨基酸的距离是否小于给定的值(如8?),这与点距离矩阵相对应。另外3个输出节点用于表示二级结构类型(螺旋、折叠、卷曲)。利用已知结构的同源蛋白质训练该网络,然后用训练好的网络对属于同一家族的蛋白质结构进行预测。该模型可以同时进行二级结构和空间结构的预测。

在实际研究中,对于蛋白质结构的分析和预测往往着眼于某些关键部位,或者功能区域。通过对蛋白质序列的分析可以发现,在一个蛋白质家族中,存在着保守的氨基酸序列片段,这些保守的序列片段称为氨基酸序列模式(motif)。在蛋白质家族进化的过程中,序列模式的变化被强制约束,以保证蛋白质的主要结构和功能不变。一个序列模式与蛋白质特定的局部空间结构相对应,分析序列模式与局部空间结构之间的关系有助于了解蛋白质的功能区域的结构,而详细地分析这些关键的结构部分,有助于我们认识蛋白质作用的机理、了解蛋白质与其它生物分子之间的相互作用,甚至为新药设计提供依据。

7.4.2 线索化方法(折叠识别方法)

在前一节已经提到,两个自然进化的蛋白质如果具有30%的等同序列,则它们是同源的蛋白质,具有基本相同的三维结构。那么,其余的是否就不是同源的呢?实际并非如此。在最新的蛋白质数据库PDB中,有上千对蛋白质具有同源的空间结构,但它们的序列等同部分小于25%,即远程同源。

许多结构相似的蛋白质都是远程同源的。对于这类蛋白质,很难通过序列比对找出它们之间的关系,必须设计新的分析方法。

对于一个未知结构的蛋白质(U),如果找到一个已知结构的远程同源蛋白质(T),那么可以根据T的结构模板通过远程同源模型化方法建立U的三维结构模型。一个成功的远程同源模型化方法要解决三个问题:(1)检测远程同源蛋白质(T);(2)U和T的序列必须被正确地比对或对比排列;(3)修改一般的同源模型化过程,以应用于相似度非常低的情况,即处理更多的环区,建立合理的三维结构模型。检测远程同源蛋白质是一个基本问题,而正确比对U和T的氨基酸序列则是更为复杂的问题。目前有许多方法声称能够解决第一个和第二个问题,其基本思想是:建立一个从U到已知结构T的线索,并通过一些基于环境或基于知识的势,评价序列与结构的适应性。至于最后建立三维结构模型则是非常困难的,这是因为建立模型的过程不能校正在序列比对阶段出现的错误。

现在,线索技术已成为蛋白质结构预测领域中最活跃的一块。在90年代发表的第一篇关于线索化方法的文章推动了线索化方法的深入研究。线索化的主要思想是利用氨基酸的结构倾向(如形成二级结构的倾向、疏水性、极性等),评价一个序列所对应的结构是否能够适配到一个给定的结构环境中。不久提出另一种不同的方法,即利用蛋白质数据库中丰富的信息,通过提取平均势场取出结构知识。利用势场监视特定氨基酸残基对之间的观察距离,而这些残基对具有特定的间隔(即两个残基之间的间隔的残基数)。直到1995年,许多线索化方法才开始用平均势场。有一种针对二级结构预测的线索化方法,该方法首先对未知结构的蛋白质序列预测其二级结构,然后在已知结构的数据库中提取该二级结构,最终根据标准的动态规划方法,通过序列比对比较从数据库中得到的和预测得到的二级结构。

由于不同平均势场刻画蛋白质不同的结构特征,正确的远程同源蛋白质很可能是所得到的查找结果之一。然而,目前还没有一个单独方法能够在一半以上的情况下检测到正确远程同源蛋白质。凡是经过大量测试、严格评估的方法,得到正确的远程同源蛋白质的几率小于40%。即使这样,其性能也远远好于传统的序列对比排列方法(在序列等同部分小于25%的情况下)。另外,各种结构预测实验的成功表明,在专家仔细筛选各种选择后,检测到远程同源蛋白质的可能性将会得到进一步地提高。

下面讨论蛋白质序列到蛋白质结构的线索化方法。建立序列到结构的线索的过程称为线索化,线索技术又称折叠识别技术。线索化或者折叠识别的目标是为目标蛋白质U寻找合适的蛋白质模板,这些模板蛋白质与U没有显著的序列相似性,但却是远程同源的。如果找到这样的模板,则将U的序列与模板的结构进行比对(sequence-structure alignment),即建立线索。在此基础上利用模板结构为蛋白质U建立结构模型。线索化是一个比预测三维结构更复杂的问题,是NP完全问题,需要采用近似求解方法或启发式求解方法。解决该问题的回报是非常高的,如果能够解决线索化问题,那么预测更多的蛋白质结构将成为可能。

对于不同的序列-结构匹配程度度量方法有不同的线索化方法,但是线索化方法一般有5个基本组成部分:(1)已知三维折叠结构的数据库;(2)一种适合于进行序列-结构比对的三维折叠信息的表示方法;(3)一个序列-结构匹配函数,该函数对匹配程度进行打分;(4)建立最优线索的策略,或者是进行序列-结构比对的策略;(5)一种评价序列-结构比对显著性的方法。

在线索技术中,假设存在有限数目的核心折叠(core folds)。核心折叠实际上是构成蛋白质空间形状的基本模式。线索技术的首要任务是建立核心折叠数据库,在预测蛋白质空间结构时将一个待预测结构的蛋白质序列与数据库中核心折叠进行比对,找出比对结果最好的核心折叠,作为构造待预测蛋白质结构模型的根据。

这里介绍一种基于序列与结构比对的最优线索化算法。令s1, s2,…, s n为蛋白质序列S的n个元素,C1, C2,…, C m为数据库中核心折叠C的m个核心区域。每一个核心区域由若干个氨基酸残基构成。令C ij为第i个核心区域第j个氨基酸位置。假设核心折叠C中所有重要的相互作用都体现在各个C ij之间的两两作用,利用图这样的数据结构来表示这些相互作用。用图中的顶点表示C ij,如果C ij和C i’j’之间存在相互作用,则在图中画一条从C ij所在顶点到C i’j’所在顶点的边。

设t是一个从序列到核心折叠的线索,那么t说明了序列S的哪些元素s i,s j,s k,…代表核心区域C1, C2,C3,…的起始位置。这实际上是一种从序列S到核心折叠C的比对,但是在这样的比对中序列元素内部没有空位,但是序列元素之间存在空位,这些空位将序列元素分割开来。

令λ代表核心折叠C中的环到序列S中空位的映射,显然λ是通过线索化而确定的。令f(t)是进行比对的得分函数,其定义如下:

f(t) = g1 (v,t) + g2 (u,v,t) + g3 (λ,t) (7-14)

其中g1 (v,t) 评价氨基酸残基v所处的位置;g2 (u,v,t) 评价残基u和v的相对位置,如果u和v 键合,则得分高;g3 (λ,t)评价环区,根据环区的大小进行打分。

完成上述概念定义之后,可以非常简单地描述线索化问题:对于给定的序列S和核心折叠C,选择一个线索t,使得f(t)的值最小,即寻找一个从S到C的最佳映射。虽然问题的描述非常简单,但是要解决这个问题却非常复杂,这是一个NP-完全问题。准确地求解需要巨大的运算量,在实际应用中只能采用近似或启发式的方法进行求解。如采用分支约束的方法,通过压缩搜索空间,提高算法的执行效率。

7.4.3 从头预测方法

在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,上述两种蛋白质结构预测的方法都不能用,这时只能采用从头预测方法(Ab initio,即(直接)仅仅根据序列本身来预测其结构。在1994年之前,还没有一个从头算方法能够预测蛋白质的空间结构。从那以后,人们陆续提出一些方法,表明了今后进一步研究可能的方向。有些研究小组运用距离几何方法得到了非常有希望的结果。将简化的力场与动态优化策略相结合,虽然得到的结果不算太精确,但很有意义,表明这样的工作非常有希望突破。

从头预测方法一般由下列3个部分组成:(1)一种蛋白质几何的表示方法。由于表示和处理所有原子和溶剂环境的计算开销非常大,因此需要对蛋白质和溶剂的表示形式作近似处理,例如,使用一个或少数几个原子代表一个氨基酸残基。(2)一种能量函数及其参数,或者一个合理的构象得分函数,以便计算各种构象的能量。通过对已知结构的蛋白质进行统计分析,可以确定蛋白质构象能量函数中的各个参数或者得分函数。(3)一种构象空间搜索技术。必须选择一个优化方法,以便对构象空间进行快速搜索,迅速找到与某一全局最小能量相对应的构象。其中,构象空间搜索和能量函数的建立是从头预测方法的关键。

7.4.3.1 蛋白质折叠的网格模型

限制蛋白骨架构象中可采取的自由度是在模拟过程中简化蛋白质的一种方法,其中一种限制是α碳原子只允许位于二维或三维格子(网格)的位置上。这种简化方法大大减少了一个蛋白质可以采取的构象数目。于是,对于一个中等大小的多肽链,我们可以对它的构象空间进行穷举搜索,直到找到能量全局最小的构象。而对于比较长的多肽链,简化的格子模型可以使非穷尽的搜索方法对所有可能的构象进行较大比例的取样,因此可以比较准确地估计出能量全局最小的构象。

H-P[疏水(hydrophobic)-极性(polar)] 模型是研究得最成熟的一种简单网格模型。H-P模型用一个固定半径的原子来表示蛋白质中每个氨基酸残基,从而进一步简化蛋白质结构。在这种表示方法中,原子被分为两种类型:疏水原子和极性原子。图7-7显示了一段较短的用二维和三维H-P模型表示的多肽链。按照惯例,N端的氨基酸位于坐标系统的原点,第二个氨基酸残基就位于坐标的(1,0)或(1,0,0)处。

通常我们认为疏水作用力是使蛋白质折叠成一个紧密球状结构的几种基础力之一。大多数蛋白质的天然结构都有一个疏水核心和一个与溶液相接触的表面,疏水核心中掩藏了疏水残基,使得它们与溶液相隔离,而与溶液相接触的表面大多或者全部由极性残基和带电残基组成。将蛋白质折叠成一个紧密结构以帮助疏水残基与溶液相分离的过程通常称为疏水折叠。膜蛋白却明显不同,这种蛋白具有一个或多个嵌入细胞膜的跨膜区,这些跨膜区的结构主要是螺旋结构。由于细胞膜大多由疏水的碳原子和氢原子组成,因此这些“表面”的螺旋结构实际上是与水分子分离的,它们大多由疏水氨基酸组成。

H-P 模型是基于疏水残基之间的接触来进行打分的。为了评价H-P 模型中一个特定的构象,我们要计算出网格中H 和H 接触的数目。在这里,除了多肽链一级结构中相邻的H 和H 接触外(由于多肽链一级结构中相邻的H 和H 接触在每一个可能的构象中都存在,因此为了简单起见这些H 和H 接触就被去除),其它每一个H 和H 的接触对能量的贡献都设为-1。最优的构象就是所有可能的构象中具有最多H 和H 接触的那个构象。一般来说,要获得最大的H 和H 接触的数目通常需要先形成一个疏水核心,这个疏水核心必须含有尽可能多的H 残基,同时要将P 残基转移至多肽链的表面。图7-7中的二维和三维构象的得分都是-3。

有了网格模型及构象能量计算方法,下一个任务就是搜索能量全局最小的构象。在设计搜索算法时,一个主要问题就是如何表示一个特定的构象。一个最简单的方法就是将第一个残基放在网格的(0,0)或(0,0,0)格点上,然后描述前面一个残基到下一个残基的移动方向。二维模型运用这种绝对方向表示法时,每一个位置上可选择的方向包括上、右、左和下(U 、R 、L 、D );而对于三维模型,每一个位置上可选择的方向包括上、右、左、下、后和前(U 、R 、L 、D 、B 、F )。通过这种绝对方向表示法,可以将图7-7中的二维构象表示成(R ,R ,D ,L ,D ,L ,U ,L ,U ,U ,R ),而图7-7中的三维构象可以表示成(R ,B ,U ,F ,L ,U ,R ,B ,L ,L ,F )。

相对方向表示法则利用每个氨基酸残基主链的转动方向来表示每个位置上的残基的方向,这种方法能够减少每个位置上可选择的方向数。这种情况下,对一个二维正方形的网格模型,第二个残基以后的每个残基位置上可选择的方向有三个,左、右和前(通常表示为L 、R 和F );对一个三维正方体的网格模型,每个残基位置上可选择的方向有左、右、前、上和下(L 、R 、F 、U 、D )。在这种表示方法中,我们不但要清楚当前的位置,同时还要清楚当前残基“面对”的方向。对于二维模型,第一个残基位于网格的(0,0)位上,它所面对的方向为右。也就是说,如果第一个移动方向是F ,那么第二个残基就应该位于网格的(1,0)位上。因此,图7-7中的二维构象用相对方向表示法可表示为(F ,F ,R ,R ,L ,R ,R ,L ,R ,F ,R )。对于三维模型,第一个残基位于网格的(0,0,0)位上,它所面对的方向为右。当我们沿着多肽链移动时,我们不但必须清楚当前残基面对的方向,同时还要清楚当前哪个方向应该看作是“上”。利用这种表示方法,图7-7中的三维构象可以表示为(F ,L ,U ,U ,R ,U ,U ,L ,L ,F ,L )。

使用上面两种基于方向的表示方法时,我们会遇到的一个关键问题就是一些构象中两个残基会出现在同一个位置上。比如,一个二维构象用相对(基于主链的转动)表示法表示时,如果它的起始四个残基表示为(L ,L ,L ,L ),那么这个构象就会有两个残基位于原点(0,0)上,从而导致残基碰撞(bump),或者说原子空间碰撞。在构象搜索时如果出现这种空间碰撞,我们可以采用多种方法来处理。最简单的一种方法就是为每一个具有碰撞的构象分配一个非常高的能量值。由于搜索算法是寻找低能量构象的,因此具有碰撞的构象在搜索时会被很快地剔除。不过,有些构象如果能够解决碰撞问题,它的能量就会比较小,因此这些构象可能会是有效构象。但是,如果采用上面的方法解决碰撞问题的话,搜索过程中就会把这些有效构象去除掉。

其它处理碰撞的方法包括在为构象打分之前先利用局部优化方法来解决碰撞,另外也可以使用其他在构象搜索过程中不会产生碰撞的表示法。优先排序表示法就是一种在构象搜索过程中不会产生碰撞的表示法。在优先排序法中,每个残基对应的方向并不是某一个方向,而是所有可能的方向的排列。比如,在二维模型中,某一个残基对应的方向可能会是{L ,F ,R}。{L ,F ,R}表示这个残基最可能对应的方向是左;但是,如果残基移向左侧构象中会出现碰撞,这时我们就会为这个残基选择下一个比较有可能的方向,即向前,最后一个可选择的方向为向右。使用这种表示法来表示构图7-7 一个12个含有残基的多肽链的 (a)二维和(b)三维H-P 模型表示。疏

水残基表示为黑色,极性残基表示为白色。

11 12

1 2 3

10

5 4

9 8

7 6 11 10 9 12 1 4 7 8 6 5 3 1 2

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件 2010-05-08 20:40 转载自布丁布果 最终编辑布丁布果 4月18日 蛋白质数据库及蛋白质序列分析 第一节、蛋白质数据库介绍 一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库,目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释。该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护。SWISS-PROT 的序列数量呈直线增长。2、TrEMBL数据库: SWISS-PROT的数据存在一个滞后问题,即把EMBL的DNA序列准确地翻译成蛋白质序列并进行注释需要时间。一大批含有开放阅读框(ORF) 的DNA序列尚未列入SWISS-PROT。为了解决这一问题,TrEMBL(Translated EMBL) 数据库被建立了起来。TrEMBL也是一个蛋白质数据库,它包括了所有EMBL库中的蛋白质编码区序列,提供了一个非常全面的蛋白质序列数据源,但这势必导致其注释质量的下降。 3、PIR数据库: PIR数据库的数据最初是由美国国家生物医学研究基金会(National Biomedical Research Foundation, NBRF)收集的蛋白质序列,主要翻译自GenBank的DNA序列。 1988年,美国的NBRF、日本的JIPID(the Japanese International Protein Sequence Database 日本国家蛋白质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息中心)合作,共同收集和维护PIR数据库。PIR根据注释程度(质量)分为4个等级。4、 ExPASy数据库: 目前,瑞士生物信息学研究所(Swiss Institute of Bioinformatics, SIB)创建了蛋白质分析专家系统(Expert protein analysis system, ExPASy )。涵盖了上述所有的数据库。网址:https://www.doczj.com/doc/737239807.html, 我国的北京大学生物信息中心(https://www.doczj.com/doc/737239807.html,) 设立了ExPASy的镜像(Mirror)。 主要蛋白质序列数据库的网址 SWISS-PROT https://www.doczj.com/doc/737239807.html,/sprot 或 https://www.doczj.com/doc/737239807.html,/expasy_urls.html TrEMBL https://www.doczj.com/doc/737239807.html,/sprot PIR https://www.doczj.com/doc/737239807.html,/pirwww MIPS——Munich Information Centre for Protein Sequences http://mips.gsf.de/ JIPID——the Japanese International Protein Sequence Database 已经和PIR合并 ExPASy https://www.doczj.com/doc/737239807.html, 二、蛋白质结构数据库 1、PDB数据库:

蛋白质结构预测在线软件

蛋白质预测在线分析常用软件推荐 蛋白质预测分析网址集锦 物理性质预测: Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemasshttp://expaxy.hcuge.ch/sprot/peptide-mass.html TGREASE ftp://https://www.doczj.com/doc/737239807.html,/pub/fasta/ SAPS http://ulrec3.unil.ch/software/SAPS_form.html 基于组成的蛋白质识别预测 AACompIdent http://expaxy.hcuge.ch ... htmlAACompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.e mbl-heidelberg.de/prs.html 二级结构和折叠类预测 nnpredict https://www.doczj.com/doc/737239807.html,/~nomi/nnpredict Predictprotein http://www.embl-heidel ... protein/SOPMA http://www.ibcp.fr/predict.html SSPRED http://www.embl-heidel ... prd_info.html 特殊结构或结构预测 COILS http://ulrec3.unil.ch/ ... ILS_form.html MacStripe https://www.doczj.com/doc/737239807.html,/ ... acstripe.html 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。 由NCBI检索蛋白质序列 可联网到:“http://www.ncbi.nlm.ni ... gi?db=protein”进行检索。 利用SRS系统从EMBL检索蛋白质序列 联网到:https://www.doczj.com/doc/737239807.html,/”,可利用EMBL的SRS系统进行蛋白质序列的检索。 通过EMAIL进行序列检索 当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。 蛋白质基本性质分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件蛋白质数据库及蛋白质序列分析 第一节、蛋白质数据库介绍 一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据 库,目前这二个数据库在EMBL和GenBank数据库上均建 立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序 列,这些序列经过检验和注释。该数据库主要由日内瓦大 学医学生物化学系和欧洲生物信息学研究所(EBI)合作维 护。SWISS-PROT的序列数量呈直线增长。 2、TrEMBL数据库: SWISS-PROT的数据存在一个滞后问题,即 进行注释需要时间。一大批含有开放阅读 了解决这一问题,TrEMBL(Translated E 白质数据库,它包括了所有EMBL库中的 质序列数据源,但这势必导致其注释质量 3、PIR数据库: PIR数据库的数据最初是由美国国家生物医学研究基金 会(National Biomedical Research Foundation, NBRF) 收集的蛋白质序列,主要翻译自GenBank的DNA序列。 1988年,美国的NBRF、日本的JIPID(the Japanese International Protein Sequence Database日本国家蛋 白质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息 中心)合作,共同收集和维护PIR数据库。PIR根据注释 程度(质量)分为4个等级。 4、 ExPASy数据库: 目前,瑞士生物信息学研究所(Swiss I 质分析专家系统(Expert protein anal 据库。 网址:https://www.doczj.com/doc/737239807.html, 我国的北京大学生物信息中心(www.cbi.

蛋白质结构预测在线软件

蛋白质预测分析网址集锦? 物理性质预测:? Compute PI/MW?? ?? SAPS?? 基于组成的蛋白质识别预测? AACompIdent???PROPSEARCH?? 二级结构和折叠类预测? nnpredict?? Predictprotein??? SSPRED?? 特殊结构或结构预测? COILS?? MacStripe?? 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。? 由NCBI检索蛋白质序列? 可联网到:“”进行检索。? 利用SRS系统从EMBL检索蛋白质序列? 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。? 通过EMAIL进行序列检索?

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。? 蛋白质基本性质分析? 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。? 疏水性分析? 位于ExPASy的ProtScale程序(?)可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。? 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如,bioedit,dnamana等。? 跨膜区分析? 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知

蛋白质结构预测方法综述

蛋白质结构预测方法综述 卜东波陈翔王志勇 《计算机不能做什么?》是一本好书,其中文版序言也堪称佳构。在这篇十余页的短文中,马希文教授总结了使用计算机解决实际问题的三步曲,即首先进行形式化,将领域相关的实际问题抽象转化成一个数学问题;然后分析问题的可计算性;最后进行算法设计,分析算法的时间和空间复杂度,寻找最优算法。 蛋白质空间结构预测是很有生物学意义的问题,迄今亦有很多的工作。有意思的是,其中一些典型工作恰恰是上述三步曲的绝好示例,本文即沿着这一路线作一总结,介绍于后。 1 背景知识 生物细胞种有许多蛋白质(由20余种氨基酸所形成的长链),这些大分子对于完成生物功能是至关重要的。蛋白质的空间结构往往决定了其功能,因此,如何揭示蛋白质的结构是非常重要的工作。 生物学界常常将蛋白质的结构分为4个层次:一级结构,也就是组成蛋白质的氨基酸序列;二级结构,即骨架原子间的相互作用形成的局部结构,比如alpha螺旋,beta片层和loop区等;三级结构,即二级结构在更大范围内的堆积形成的空间结构;四级结构主要描述不同亚基之间的相互作用。 经过多年努力,结构测定的实验方法得到了很好的发展,比较常用的有核磁共振和X光晶体衍射两种。然而由于实验测定比较耗时和昂贵,对于某些不易结晶的蛋白质来说不适用。相比之下,测定蛋白质氨基酸序列则比较容易。因此如果能够从一级序列推断出空间结构则是非常有意义的工作。这也就是下面的蛋白质折叠问题: 1蛋白质折叠问题(Protein Folding Problem) 输入: 蛋白质的氨基酸序列

输出: 蛋白质的空间结构 蛋白质结构预测的可行性是有坚实依据的。因为一般而言,蛋白质的空间结构是由其一级结构确定的。生化实验表明:如果在体外无任何其他物质存在的条件下,使得蛋白质去折叠,然后复性,蛋白质将立刻重新折叠回原来的空间结构,整个过程在不到1秒种内即可完成。因此有理由认为对于大部分蛋白质而言,其空间结构信息已经完全蕴涵于氨基酸序列中。从物理学的角度讲,系统的稳定状态通常是能量最小的状态,这也是蛋白质预测工作的理论基础。 2 蛋白质结构预测方法 蛋白质结构预测的方法可以分为三种: 同源性(Homology )方法:这类方法的理论依据是如果两个蛋白质的序列比较相似,则其结构也有很大可能比较相似。有工作表明,如果序列相似性高于75%,则可以使用这种方法进行粗略的预测。这类方法的优点是准确度高,缺点是只能处理和模板库中蛋白质序列相似性较高的情况。 从头计算(Ab initio ) 方法:这类方法的依据是热力学理论,即求蛋白质能量最小的状态。生物学家和物理学家等认为从原理上讲这是影响蛋白质结构的本质因素。然而由于巨大的计算量,这种方法并不实用,目前只能计算几个氨基酸形成的结构。IBM 开发的Blue Gene 超级计算机,就是要解决这个问题。 穿线法(Threading )方法:由于Ab Initio 方法目前只有理论上的意义,Homology 方法受限于待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似性,对于其他大部分蛋白质来说,有必要寻求新的方法。Threading 就此应运而生。 以上三种方法中,Ab Initio 方法不依赖于已知结构,其余两种则需要已知结构的协助。通常将蛋白质序列和其真实三级结构组织成模板库,待预测三级结构的蛋白质序列,则称之为查询序列(query sequence)。 3 蛋白质结构预测的Threading 方法 Threading 方法有三个代表性的工作:Eisenburg 基于环境串的工作、Xu Ying 的Prospetor 和Xu Jinbo 、Li Ming 的RAPTOR 。 Threading 的方法:首先取出一条模版和查询序列作序列比对(Alignment),并将模版蛋白质与查询序列匹配上的残基的空间坐标赋给查询序列上相应的残基。比对的过程是在我们设计的一个能量函数指导下进行的。根据比对结果和得到的查询序列的空间坐标,通过我们设计的能量函数,得到一个能量值。将这个操作应用到所有的模版上,取能量值最低的那条模版产生的查询序列的空间坐标为我们的预测结果。 需要指出的是,此处的能量函数却不再是热力学意义上的能量函数。它实质上是概率的负对数,即 ,我们用统计意义上的能量来代替真实的分子能量,这两者有大致相同的形式。 p E log ?=如果沿着马希文教授的观点看上述工作 ,则更有意思:Eisenburg 指出如果仅仅停留在简单地使用每个原子的空间坐标(x,y,z)来形式化表示蛋白质空间结构,则难以进一步深入研究。Eisenburg 创造性地使用环境串表示结构,从而将结构预测问题转化成序列串和环境串之间的比对问题;其后,Xu Ying 作了进一步发展,将蛋白质序列表示成一系列核(core )组成的序列,Core 和Core 之间存在相互作用。因此结构就表示成Core 的空间坐标,以及Core 之间的相互作用。在这种表示方法的基础上,Xu Ying 开发了一种求最优匹配的动态规划算法,得到了很好的结果。但是由于其较高的复杂度,在Prospetor2上不得不作了一些简化;Xu Jinbo 和Li Ming 很漂亮地解决了这个问题,将求最优匹配的过程表示成一个整数规划问题,并且证明了一些常用

蛋白质结构预测

实习 5 :蛋白质结构预测 学号20090***** 姓名****** 专业年级生命生技**** 实验时间2012.6.21 提交报告时间2012.6.21 实验目的: 1.学会使用GOR和HNN方法预测蛋白质二级结构 2.学会使用SWISS-MODEL进行蛋白质高级结构预测 实验内容: 1.分别用GOR和HNN方法预测蛋白质序列的二级结构,并对比异同性。 2.利用SWISS-MODEL进行蛋白质的三级结构预测,并对预测结果进行解释。 作业: 1. 搜索一条你感兴趣的蛋白质序列,分别用GOR和HNN进行二级结构预测,解释预测结果,分析两个方法结果有何异同。 答:所选用蛋白质序列为>>gi|390408302|gb|AFL70986.1| gag protein, partial [Human immunodeficiency virus] (1)GOR预测结果: 图1 图1是每个氨基酸在序列中所处的状态,可以看出序列的二级结构预测结果为: 1到9位个氨基酸为无规卷曲,10到33位氨基酸为α螺旋,34到37位为β折叠,38到45位为无规卷曲,46到49位为α螺旋,50到53位为无规卷曲,54到65为α螺旋,66到72位为无规卷曲,73到95位为α螺旋,96到101位为无规卷曲,102到108为β折叠,109到115位为无规卷曲,117位为β折叠。 图2 图2为各种结构在序列中所占的比例,其中Alpha helix占53.85%,Extended strand占11.11%,Random coil占35.04%,无他二级结构。

图3 图3为各个氨基酸在序列中的状态以及二级结构在全序列中二级结构分布情况。 (2)HNN预测: 图4 图4是每个氨基酸在序列中所处的状态,可以看出序列的二级结构预测结果为: 1到6位个氨基酸为无规卷曲,7到34位氨基酸为α螺旋,35到37位为β折叠,38位为α螺旋,39到44位为无规卷曲,45到49位为α螺旋,50到55位为无规卷曲,56到65为α螺旋,66到71位为无规卷曲,72到83位为α螺旋,84到86位为无规卷曲,87到95位为α螺旋,96到102为无规卷曲,103到108位为β折叠,108到117位为无规卷曲。 图5 图5为各种结构在序列中所占的比例,其中Alpha helix占55.56%,Extended strand占7.69%,Random coil占36.75%,无他二级结构。

蛋白质结构预测网址

蛋白质结构预测网址 物理性质预测: Compute PI/MW Peptidemass TGREASE SAPS 基于组成的蛋白质识别预测 AACompIdent PROPSEARCH 二级结构和折叠类预测 nnpredict Predictprotein SSPRED 特殊结构或结构预测 COILS MacStripe 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。 由NCBI检索蛋白质序列 可联网到:“”进行检索。 利用SRS系统从EMBL检索蛋白质序列 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。 通过EMAIL进行序列检索 当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。 蛋白质基本性质分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。 疏水性分析 位于ExPASy的ProtScale程序()可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如, bioedit,dnamana等。 跨膜区分析 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库,可通过匿名FTP获得(),参见表一

蛋白质功能-结构-相互作用预测网站工具合集

蛋白质组学 蛋白质是生物体的重要组成部分,参与几乎所有生理和细胞代谢过程。此外,与基因组学和转录组学比较,对一个细胞或组织中表达的所有蛋白质,及其修饰和相互作用的大规模研究称为蛋白质组学。 蛋白质组学通常被认为是在基因组学和转录组学之后,生物系统研究的下一步。然而,蛋白质组的研究远比基因组学复杂,这是由于蛋白质内在的复杂特点,如蛋白质各种各样的翻译后修饰所决定的。并且,研究基因组学的技术要比研究蛋白质组学的技术强得多,虽然在蛋白质组学研究中,质谱技术的研究已取得了一些进展。 尽管存在方法上的挑战,蛋白质组学正在迅速发展,并且对癌症的临床诊断和疾病治疗做出了重要贡献。几项研究鉴定出了一些蛋白质在乳腺癌、卵巢癌、前列腺癌和食道癌中表达变化。例如,通过蛋白质组学技术,人们可以在患者血液中明确鉴定出肿瘤标志物。表1列出了更多的蛋白质组学技术用于研究癌症的例子。 另外,高尔基体功能复杂。最新研究表明,它除了参与蛋白加工外,还能参与细胞分化及细胞间信号传导的过程,并在凋亡中扮演重要角色,其功能障碍也许和肿瘤的发生、发展有某种联系。根据人类基因组研究,约1000多种人类高尔基体蛋白质中仅有500~600种得到了鉴定,建立一条关于高尔基体蛋白质组成的技术路线将有助于其功能的深入研究。 蛋白质组学是一种有效的研究方法,特别是随着亚细胞器蛋白质组学技术的迅猛发展,使高尔基体的全面研究变为可能。因此研究人员希望能以胃癌细胞中的高尔基体为研究对象,通过亚细胞器蛋白质组学方法,建立胃癌细胞中高尔基体的蛋白质组方法学。 研究人员采用蔗糖密度梯度的超速离心方法分离纯化高尔基体,双向凝胶电泳(2-DE)分离高尔基体蛋白质,用ImageMaster 2D软件分析所得图谱,基质辅助激光解吸离子化飞行时间质谱(MALDI-TOF MS)鉴定蛋白质点等一系列亚细胞器蛋白质组学方法建立了胃癌细胞内高尔基体的蛋白图谱。 最后,人们根据分离出的纯度较高的高尔基体建立了分辨率和重复性均较好的双向电泳图谱,运用质谱技术鉴定出12个蛋白质,包括蛋白合成相关蛋白、膜融合蛋白、调节蛋白、凋亡相关蛋白、运输蛋白和细胞增殖分化相关蛋白。通过亚细胞器分离纯化、双向电泳的蛋白分离及MALDI-TOF MS蛋白鉴定分析,研究人员首次成功建立了胃癌细胞SGC7901中高尔基体的蛋白质组学技术路线。 3.1 蛋白质功能预测工具 也许生物信息学方法在癌症研究中最常用的就是基因功能预测方法,但是这些数据库只存储了基因组的大约一半基因的功能。为了在微阵列资料基础上完成功能性的富集分析,基因簇的功能注解是非常重要的。近几年生物学家研发了一些基因功能预测的方法,这些方法旨在超越传统的BLAST搜索来预测基因的功能。基因功能预测可以以氨基酸序列、三级结构、与之相互作用的配体、相互作用过程或基因的表达方式为基础。其中最重要的是基于氨基酸序列的分析,因为这种方法适合于微阵列分析的全部基因。 在表3中,前三项列举了三种同源搜索方法。FASTA方法虽然应用还不太广泛,但它要优于BLAST,或者至少相当。FASTA程序是第一个使用的数据库相似性搜索程序。为了达到较高的敏感程度,程序引用取代矩阵实行局部比对以获得最佳搜索。美国弗吉尼亚大学可以提供这项程序的地方版本,当然数据库搜索结果依赖于要搜索的数据库序列。如果最近的序列数据库版本在弗吉尼亚大学不能获得,那么就最好试一下京都大学(Kyoto University)的KEGG站点。PSI-BLAST(位点特异性反复BLAST)是BLAST的转化版本,PSI-BLAST的特色是每次用profile 搜索数据库后再利用搜索的结果重新构建profile,然后用新的profile再次搜索数据库,如此反复直至没有新的结果产生为止。PSI-BLAST先用带空位的BLAST搜索数据库,将获得的序列通过多序列比对来构建第一个profile。PSI-BLAST自然地拓展了BLAST方法,能寻找蛋白质序列中的隐含模式,有研究表明这种方法可以有效地找到很多序列差异较大而结构功能相似的相关蛋白,所以它比BLAST和FASTA有更好的敏感性。PSI-BLAST服务可以

蛋白质结构与功能的生物信息学研究

实验名称:蛋白质结构与功能的生物信息学研究 实验目的:1.掌握运用BLAST工具对指定蛋白质的氨基酸序列同源性搜索的方法。 2.掌握用不同的工具分析蛋白质的氨基酸序列的基本性质 3掌握蛋白质的氨基酸序列进行三维结构的分析 4.熟悉对蛋白质的氨基酸序列所代表蛋白的修饰情况、所参与的 代谢途径、相互作用的蛋白,以及与疾病的相关性的分析。实验方法和流程: 一、同源性搜索 同源性从分子水平讲则是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。BLAST工具能对生物不同蛋白质的氨基酸序列或不同的基因的DNA序列极性比对,并从相应数据库中找到相同或相似序列。对指定的蛋白质的氨基酸序列进行同源性搜索步骤如下: ↓ 登录网址https://www.doczj.com/doc/737239807.html,/blast/ ↓ 输入序列后,运行blast工具 ↓ 序列比对的图形结果显示

序列比对的图形结果:用相似性区段(Hit)覆盖输入序列的范围判断两个序列 的相似性。如果图形中包含低得分的颜色(主要是红色) 区段,表明两序列的并非完全匹配。 ↓ 匹配序列列表及得分

各序列得分 可选择不同的比对工具 备注: Clustal是一款用来对()的软件。可以用来发现特征序列,进行蛋白分类,证明序列间的同源性,帮助预测新序列二级结构与三级结构,确定PCR引物,以及 在分子进化分析方面均有很大帮助。Clustal包括Clustalx和Clustalw(前者是 图形化界面版本后者是命令界面),是生物信息学常用的多序列比对工具。 该序列的比对结果有100条,按得分降序排列,其中最大得分2373,最小得分 分为1195. ↓ 详细的比对序列的排列情况 第一个匹配 序列 第一个序列的匹配率为100% Score表示打分矩阵计算出来的值,由搜索算法决定的,值越大说明匹配程度

蛋白质结构与功能的关系

蛋白质结构与功能的关系 专业:植物学 摘要:蛋白质特定的功能都是由其特定的构象所决定的,各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化,必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化,可能导致蛋白质构象紊乱症,当然也能引起生物体对环境的适应性增强。而分子模拟技术为蛋白质的研究提供了一种崭新的手段。在理论上解决了结构预测和功能分析以及蛋白质工程实施方面所面临的难题。它在蛋白质的结构预测和模建工作中占有举足轻重的地位,实现了生物技术与计算机技术的完美结合。 关键词:蛋白质的结构、功能;折叠/功能关系;蛋白质构象紊乱症;分子模拟技术;同源建模 RNase是由124个氨基酸残基组成的单肽链,分子中 8 个Cys的-SH构成4对二硫键,形成具有一定空间构象的蛋白质分子。在蛋白质变性剂和一些还原剂存在下,酶分子中的二硫键全部被还原,酶的空间结构破坏,肽链完全伸展,酶的催化活性完全丧失。当用透析的方法除去变性剂和巯基乙醇后,发现酶大部分活性恢复,所有的二硫键准确无误地恢复原来状态。若用其他的方法改变分子中二硫键的配对方式,酶完全丧失活性。这个实验表明,蛋白质的一级结构决定它的空间结构,而特定的空间结构是蛋白质具有生物活性的保证。前体与活性蛋白质一级结构的关系,由108个氨基酸残基构成的前胰岛素原,在合成的时候完全没有活性,当切去N-端的24个氨基酸信号肽,形成84个氨基酸的胰岛素原,胰岛素原也没活性,在包装分泌时,A、B链之间的33个氨基酸残基被切除,才形成具有活性的胰岛素。 功能不同的蛋白质总是有着不同的序列;种属来源不同而功能相同的蛋白质的一级结构,可能有某些差异,但与功能相关的结构也总是相同。若一级结构变化,蛋白质的功能可能发生很大的变化。蛋白质特定的功能都是由其特定的构象所决定的,各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化,必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化,可能导致蛋白质构象紊乱症,当然也能引起生物体对环境的适应性增强。 虽然蛋白质结构与生物功能的关系比序列与功能的关系更加紧密,但结构与功能的这种关联亦若隐若现,并不能排除折叠差别悬殊的蛋白质执行相似的功能,折叠相似的蛋白质执行差别悬殊功能的现象的存在。无奈,该领域仍不得不将100多年前Fisher提出的“锁一钥

蛋白质结构与功能的关系

蛋白质结构与功能的关系 (The relationship between protein structure and function) 摘要蛋白质特定的功能都是由其特定的构象所决定的,各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化,必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化,可能导致蛋白质构象紊乱症,当然也能引起生物体对环境的适应性增强!现而今关于蛋白质功能研究还有待发展,一门新兴学科正在发展,血清蛋白组学,生物信息学等!本文仅就蛋白质结构与其功能关系进行粗略阐述。 关键词:蛋白质结构;折叠/功能关系;蛋白质构象紊乱症;分子伴侣 Keywords:protein structure;fold/function relationship;protein conformational disorder;molecular chaperons 虽然蛋白质结构与生物功能的关系比序列与功能的关系更加紧密,但结构与功能的这种关联亦若隐若现,并不能排除折叠差别悬殊的蛋白质执行相似的功能,折叠相似的蛋白质执行差别悬殊功能的现象的存在。无奈,该领域仍不得不将100多年前Fisher提出的“锁一钥匙”模型(“lock—key”model)和50多年前Koshand提出的诱导契合模型(induce fitmodel)作为蛋白质实现功能的理论基础。这2个略显粗糙的模型只是认为蛋白质执行功能的部位局限在结构中的一个或几个小区域内,此类区域通常是蛋白质表面上的凹洞或裂隙。这种凹洞或裂隙被称为“活性部位(active site)”或“别构部位(fallosteric site)”,凹陷部位与配体分子在空间形状和静电上互补。此外,在酶的活性部位中还存在着几个作为催化基团(catalyticgroup)的氨基酸残基。对蛋白质未来的研究应从实验基本数据的归纳和统计入手,从原始的水平上发现蛋白质的潜藏机制【1】。 蛋白质结构与功能关系的研究主要是以力求刻画蛋白质的3D结构的几何学为基础的。蛋白质结构既非规则的几何形,又非完全的无规线团(randomcoil),而是有序(α一螺旋和β一折叠)与无序(线团或环域loop)的混合体。理解蛋白质3D结构的技巧是将结构简化,只保留某种几何特征或拓扑模式,并将其数字化。探求数字中所蕴含的规律,且根据这一规律将蛋白质进行分类,再将分类的结构与蛋白质的功能进行比较,以检验蛋白质抽象结构的合理性。如果一种对蛋白质结构的简化、比较和分类能与蛋自质的功能有较好地对应关系,那么这就是一种对蛋白质结构的有价值的理解。蛋白质结构中,多种弱力(氢键、范德华力、静电相互作用、疏水相互作用、堆积力等)和可逆的二硫键使多肽链折叠成特定的构象。从某种意义上说,共价键维系了蛋白质的一级结构;主链上的氢键维系了蛋白质的二级结构;而氨基酸侧链的相互作用和二硫桥维系着蛋白质的三级结构。亚基(subunit)内部的侧链相互作用是构象稳定的基础,蛋白质链之间的侧链的相互作用是亚基组装(四级结构)的基础,而蛋白质中侧链与配体基团问的相互作用是蛋白质行使功能的基础。 牛胰核糖核酸酶(RNase)变性和复性的实验是蛋白质结构与功能关系的很好例证。蛋白质空间结构遭到破坏;,可导致蛋白质的理比性质和生物学性质的变化,这就是蛋白质变性。变性的蛋白质,只要其一级结构仍然完好,可在一定条件下恢复其空间结构,随之理化性质和生物学性质也可重现,这被称为复性。RNase是由124个氨基酸残基组成的一条肽链,分子中8个半胱氨酸的巯基构成4对二硫键,进而形成具有一定空间构象的活性蛋白质。天然RNase遇尿素和β巯基乙醇时发生变性,其分子中的氢键和4个二硫键解开,严密的空间结构遭破坏,丧失了生物学活性,但一级结构完整无损。若去除尿素和β巯基乙醇,RNase又可恢复其原有构象和生物学活性。RNase分子中的8个巯基若随机排列成二硫键可有105种方式。有活性的RNase只是其中的一种,复性时之所以选择了自

蛋白质结构与功能的生物信息学研究汇总

实验名称:蛋白质结构与功能的生物信息学研究实验目的:1.掌握运用BLAST工具对指定蛋白质的氨基酸序列同源性搜索 的方法。 2.掌握用不同的工具分析蛋白质的氨基酸序列的基本性质 3掌握蛋白质的氨基酸序列进行三维结构的分析 4.熟悉对蛋白质的氨基酸序列所代表蛋白的修饰情况、所参与的 代谢途径、相互作用的蛋白,以及与疾病的相关性的分析。 实验方法和流程: 一、同源性搜索 同源性从分子水平讲则是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。BLAST工具能对生物不同蛋白质的氨基酸序列或不同的基因的DNA序列极性比对,并从相应数据库中找到相同或相似序列。对 指定的蛋白质的氨基酸序列进行同源性搜索步骤如下: ↓ 登录网址https://www.doczj.com/doc/737239807.html,/blast/ ↓ 输入序列后,运行blast工具 ↓ 序列比对的图形结果显示

序列比对的图形结果:用相似性区段(Hit)覆盖输入序列的范围判断两个序列 的相似性。如果图形中包含低得分的颜色(主要是红色) 区段,表明两序列的并非完全匹配。 ↓ 匹配序列列表及得分

各序列得分 可选择不同的比对工具 备注: Clustal是一款用来对()的软件。可以用来发现特征序列,进行蛋白分类,证明 序列间的同源性,帮助预测新序列二级结构与三级结构,确定PCR引物,以及 在分子进化分析方面均有很大帮助。Clustal包括Clustalx和Clustalw(前者是图 形化界面版本后者是命令界面),是生物信息学常用的多序列比对工具。 该序列的比对结果有100条,按得分降序排列,其中最大得分2373,最小得分 分为1195. ↓ 详细的比对序列的排列情况 第一个匹配 序列 第一个序列的匹配率为100% Score表示打分矩阵计算出来的值,由搜索算法决定的,值越大说明匹配程度

蛋白质结构预测在线软件

蛋白质预测分析网址集锦 物理性质预测: Compute PI/MW SAPS 基于组成的蛋白质识别预测 AACompIdent PROPSEARCH 二级结构和折叠类预测 nnpredict Predictprotein SSPRED 特殊结构或结构预测 COILS MacStripe 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。 由NCBI检索蛋白质序列 可联网到:“”进行检索。 利用SRS系统从EMBL检索蛋白质序列 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。 通过EMAIL进行序列检索 当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。 蛋白质基本性质分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。 疏水性分析 位于ExPASy的ProtScale程序()可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如,bioedit,dnamana等。 跨膜区分析 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库,可通过匿名FTP获得(,参见表一

蛋白质结构及功能预测

物理性质预测 Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemass http://expaxy.hcuge.ch/sprot/peptide-mass.html TGREASE ftp://https://www.doczj.com/doc/737239807.html,/pub/fasta/ SAPS http://ulrec3.unil.ch/software/SAPS_form.html 基于组成的蛋白质识别预测 http://expaxy.hcuge.ch/ch2d/aacompi.html AACompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.embl-heidelberg.de/prs.html 二级结构和折叠类预测 https://www.doczj.com/doc/737239807.html,/~nomi/nnpredictPredictprotein http://www.embl-heidelberg.de/predictprotein/SOPMA http://www.ibcp.fr/predict.htmlSSPRED http://www.embl-heidelberg.de/sspred/ssprd_info.html 特殊结构或结构预测 http://ulrec3.unil.ch/software/COILS_form.htmlMacStripe https://www.doczj.com/doc/737239807.html,/matsudaira/macstripe.html 检索 由NCBI检索蛋白质序列 https://www.doczj.com/doc/737239807.html,:80/entrz/query.fcgi?db=protein进行检索。 利用SRS系统从EMBL检索蛋白质序列 https://www.doczj.com/doc/737239807.html,/可利用EMBL的SRS系统进行蛋白质序列的检索。 通过EMAIL进行序列检索 当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。 疏水性分析 位于ExPASy的ProtScale程序https://www.doczj.com/doc/737239807.html,/cgi-bin/protscale.pl可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出

蛋白质结构预测在线软件

蛋白质结构预测在线软 件 Company Document number:WUUT-WUUY-WBBGB-BWYTT-1982GT

蛋白质预测分析网址集锦? 物理性质预测:? Compute PI/MW? ? SAPS? 基于组成的蛋白质识别预测? AACompIdentPROPSEARCH? 二级结构和折叠类预测? nnpredict? Predictprotein? SSPRED? 特殊结构或结构预测? COILS? MacStripe? 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。? 由NCBI检索蛋白质序列? 可联网到:“”进行检索。? 利用SRS系统从EMBL检索蛋白质序列? 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。? 通过EMAIL进行序列检索?

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。? 蛋白质基本性质分析? 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。? 疏水性分析? 位于ExPASy的ProtScale程序()可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。? 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如, bioedit,dnamana等。? 跨膜区分析? 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库,可通过匿名FTP获得(,参见表一? 资源名称网址说明?

蛋白质的结构和功能的关系

蛋白质结构与功能的关系 摘要:蛋白质特定的功能都是由其特定的构象所决定的,各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化,必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化,可能导致蛋白质构象紊乱症,当然也能引起生物体对环境的适应性增强!现而今关于蛋白质功能研究还有待发展,一门新兴学科正在发展,血清蛋白组学,生物信息学等!本文仅就蛋白质结构与其功能关系进行粗略阐述。 关键词:蛋白质分子一级结构、空间结构、折叠/功能关系、蛋白质构象紊乱症;分子伴侣 正文: 1、蛋白质分子一级结构和功能的关系 蛋白质分子中关键活性部位氨基酸残基的改变,会影响其生理功能,甚至造成分子病(molecular disease)。例如镰状细胞贫血,就是由于血红蛋白分子中两个β亚基第6位正常的谷氨酸变异成了缬氨酸,从酸性氨基酸换成了中性支链氨基酸,降低了血红蛋白在红细胞中的溶解度,使它在红细胞中随血流至氧分压低的外周毛细血管时,容易凝聚并沉淀析出,从而造成红细胞破裂溶血和运氧功能的低下。 另一方面,在蛋白质结构和功能关系中,一些非关键部位氨基酸残基的改变或缺失,则不会影响蛋白质的生物活性。例如人、猪、牛、羊等哺乳动物胰岛素分子A链中8、9、10位和B链30位的氨基酸残基各不相同,有种族差异,但这并不影响它们都具有降低生物体血糖

浓度的共同生理功能。 蛋白质一级结构与功能间的关系十分复杂。不同生物中具有相似生理功能的蛋白质或同一种生物体内具有相似功能的蛋白质,其一级结构往往相似,但也有时可相差很大。如催化DNA复制的DNA聚合酶,细菌的和小鼠的就相差很大,具有明显的种族差异,可见生命现象十分复杂多样。 2、蛋白质分子空间结构和功能的关系 蛋白质分子空间结构和其性质及生理功能的关系也十分密切。不同的蛋白质,正因为具有不同的空间结构,因此具有不同的理化性质和生理功能。如指甲和毛发中的角蛋白,分子中含有大量的α-螺旋二级结构,因此性质稳定坚韧又富有弹性,这是和角蛋白的保护功能分不开的;而胶原蛋白的三股π螺旋平行再几股拧成缆绳样胶原微纤维结构,使其性质稳定而具有强大的抗张力作用 又如细胞质膜上一些蛋白质是离子通道,就是因为在其多肽链中的一些α-螺旋或β-折叠二级结构中,一侧多由亲水性氨基酸组成,而另一侧却多由疏水性氨基酸组成,因此是具有“两亲性”(amphipathic)的特点,几段α-螺旋或β-折叠的亲水侧之间就构成了离子通道,而其疏水侧,即通过疏水键将离子通道蛋白质固定在细胞质膜上。载脂蛋白也具有两亲性,既能与血浆中脂类结合,又使之溶解在血液中进行脂类的运输。 3、折叠/功能关系 体内各种蛋白质都有特殊的生理功能,这与空间构象有着密切的

相关主题
文本预览
相关文档 最新文档