当前位置:文档之家› 神经网络在蛋白质二级结构预测中的应用

神经网络在蛋白质二级结构预测中的应用

神经网络在蛋白质二级结构预测中的应用
神经网络在蛋白质二级结构预测中的应用

作者简介

王艳春(1972-),女,山东牟平人,在读硕士,讲师,从事生物图像处理及识别方面的研究。

收稿日期2006-05-12蛋白质是生物功能的主要体现者,也是生物细胞中最重要的有机物质之一。蛋白质由氨基酸组成,氨基酸的排列顺序构成了蛋白质的空间结构,而蛋白质的生物功能很大程度上取决于其空间结构。因此,蛋白质空间结构的确定是研究其生物功能的基础,而确定蛋白质空间结构与其功能间的关系,对改变天然蛋白质的功能或按实际需要设计具有特殊功能的人工蛋白质有着重要的指导作用。所以说,蛋白质结构预测意义重大。

目前,测定蛋白质结构的试验方法主要有X 射线晶体

衍射法和多维核磁共振技术[1]。X 射线晶体衍射法测定蛋白

质分子结构的前提是必须获得能对X 射线产生强衍射作用的晶体,而蛋白质晶体的表达、提纯和结晶不仅需要很长时间,而且在技术上也受到相当大的限制;高分辨率的多维核磁共振技术虽能够解决这些问题,但这种技术同样是昂贵和耗时的,其需要大量的高溶性蛋白质,并且严重受到蛋白质大小的限制(该方法只适用于测定小分子水溶性蛋白质的结构)。很显然,当前测定蛋白质结构的试验方法不能满足蛋白质结构测定的需要。因此,从理论上对一个已知序列蛋白质的空间结构进行预测是一个日益紧迫的重要问题。1961年,Anfinsen 等提出蛋白质序列决定其空间结构[2]。

并因该论断而获得诺贝尔奖,这为用理论方法预测蛋白质结构奠定了基础。到目前为止,理论预测蛋白质空间结构的方法主要分为2大类[3]。一类是分子动力学方法,该方法假定蛋白质分子在溶液中的天然构象处于热力学最稳定、能量最低的状态,考虑蛋白质分子中所有原子间的相互作用以及蛋白质分子与溶剂之间的相互作用,然后采用分子力学的能量极小化方法,计算出蛋白质分子的天然构象。但这种方法存在3个问题:①用于描述蛋白质———溶剂系统工程的力场和能量函数还处于半定量阶段;②数学上还没有办法解决能量极小化问题;③目前并没有证据证明蛋白质的天然构象就是全局自由能最小的构象。这表明该方法只有与其他能提供最初大致起始模型的方法结合才会有较高的使用价值。

另一类方法是基于经验的预测方法。该方法是通过对已知序列和结构的蛋白质进行研究和分析,找出两者之间的联系,总结出一定的经验规则用于其他蛋白质的结构预测。该方法已成功应用于同源蛋白质空间结构的预测。然而对于那些与已知结构的蛋白质之间不存在同源性或同源性很低的蛋白质来说,这种方法就很受限制。

因此,找到一种基于知识的预测方法将是理论预测蛋白质结构最切实可行的出发点。该方法应该能够从已经存在的数据库中提炼出蛋白质结构的普遍规则,然后应用这些规则来测定未知蛋白质的结构。目前已有许多方法被用于从结构数据库中提取这些规则,从结构的可视化到多元统计分析。最近,人工神经网络也被成功地应用到这个领域。人工神经网络都遵循大致相同的基本过程和步骤,并能

够实现蛋白质结构和序列之间的映射,能对结构进行分类以及从数据库中识别相似的结构特征。

1神经网络模型结构及工作原理

神经网络模型是一种由多个神经元以某种规则连接而成的层次网络结构。网络结构一般分为3层:最低层是输入层,中间层是隐含层,最顶层是输出层。在蛋白质的二级结构预测中,应用最多的神经网络模型是多层前馈神经网络,使用最广泛的算法是BP 算法(反向传播算法),因此这种模型又叫BP 神经网络。在这种网络模型中,信号是逐层前传的,不相邻间无联系。其主要思想是把整个学习过程分为3部分[4]:①输入模式从输入层经隐含层传向输出层的“模式顺传播”过程;②网络的希望输出与实际输出之差的误差信号由输出层经隐含层向输入层逐层修正连接权值的“误差逆传播”过程;③由“模式顺传播”和“误差逆传播”的反复交替进行的网络“记忆训练”,最终网络趋向收敛,即网络的全局误差趋向极小值的“学习收敛”过程。下面以典型的3层BP 网络为例,说明其工作步骤:

(1)初始化网络的权值矩阵W 和神经元阈值矩阵Θ为小的随机数矩阵。(2)提供学习样本,即输入向量Xn 和输出向量Yn (n=

1,2,3)。

(3)计算网络的实际输出及隐含层各神经元的输出。O pj =f (Σw ij I pi -θj )

O pj =f (Σw ij I pi -θk )

式中,f 为Sigmiod 函数,f (x )=1/[exp (-x )+1];I pi 为训练样本为p 时节点i 的输入;O pj 为训练样本为p 时隐含层第j 个节点的输出;O pk 为训练样本为p 时输出层第k 个节点的实际网络输出。

(4)计算误差对各层的影响。δpk =O pk (1-O pk )(Y pk -O pk )

δpj =O pj (1-O pj )

(Σδpk w pk )式中,δpk 和δpj 分别为输出层和隐含层反传误差信号;Y pk 为训练样本为p 时网络输出层节点k 的期望输出。

(5)修正权值和阈值。

w ji (n +1)=w ji (n )ηδpj O pj +α[w ji (n )-w ji (n -1

)]神经网络在蛋白质二级结构预测中的应用

王艳春,何东健

(西北农林科技大学信息工程学院,陕西杨凌712100)

摘要叙述了神经网络的结构和工作原理及其在蛋白质二级结构预测中的具体应用,并讨论了神经网络方法在蛋白质二级结构预测中存在的问题及应用前景。

关键词蛋白质二级结构;神经网络;正交编码;预测精度中图分类号Q617文献标识码A 文章编号0517-6611(2006)16-4172-03

安徽农业科学,Journal of Anhui Agri.Sci.2006,34(16):4172-4174,4188责任编辑陈娟责任校对范世群

θj(n+1)=θj(n)+ηδpj+α[θ(n)-θ(n-1)]

式中,η为学习率(一般取0.01~0.8);α为动量因子(一般取0.9左右)。

(6)计算网络输出误差。

E=1/2Σ(Y pk-O pk)2

(7)判断误差是否满足要求,若满足要求则转到(8),否则转到(3)。

(8)训练结束。

神经网络预测蛋白质二级结构的基本原理是:利用蛋白质数据库提供的足够已知结构的氨基酸序列作为神经网络的训练样本,对其进行有效的编码后,输入到网络(输入层接受的是蛋白质一级结构,输出层对应的是蛋白质二级结构),然后训练网络各层的连接权值和阈值,使得学习误差最小时(网络达到基本稳定),再取未知蛋白质序列进行预测。由于不同蛋白质的氨基酸序列长短不同,编码后的复杂程度也不一样,编码不能直接作为网络的输入信息。所以,将神经网络的输入层设计成一个沿着氨基酸序列滑动的窗口,窗口的位置是对称的,即预测是对窗口中间位置的氨基酸进行的,以保证上游和下游序列具有相同的长度。其结构如图1。

2编码方法

应用神经网络方法预测蛋白质二级结构时,首先要对氨基酸序列进行编码后才能作为神经网络的输入信息。

目前最常用的氨基酸编码方法是正交编码方式。它是用20位二进制数表示某一种氨基酸,也就是说每一种氨基酸都用20位二进制数来表示,并且满足不同氨基酸的编码向量的正交积(内积)为0。这种编码方式的优点是不引入任何单体间的代数相关,缺点是明显浪费资源。此外还有2种编码方法为分布编码和二阶编码。

3神经网络在蛋白质二级结构预测中的应用

最早将神经网络用于蛋白质二级结构预测的是Qian 和Sejnowski[5]。他们的网络结构为1个完全连接的单隐层网络;输入层使用的是1个长度为2m+1个氨基酸的局部输入窗口;输出层由3个单元组成,通过sigmiod型函数进行放大输出。经过正交编码后,Qian等用1个包含106个蛋白质结构的学习集训练神经网络,并测试与学习集里蛋白质无明显同源性的蛋白质序列的二级结构,其预测的准确度为64.3%。该方法虽存在过拟合的问题,但预测的准确度明显高于以往其他方法,说明利用神经网络方法进行蛋白质二级结构预测是可行的。

1990年,Kneller等对Qian等的工作做了改进[6]。他们首先在网络结构中融入了蛋白质一级结构的特征(序列的周期性);其次将蛋白质按结构归为4类;然后在此基础上用神经网络进行预测,结果对二级结构中的α全螺旋型、β全折叠型的预测准确度由原来的67%、64%提高到79%、70%,但对α/β混合型的预测准确度没有提高。1993年,德国的Rost等提出了PHD(Predictict Protein)方法[7]。该方法在Qian等的基础上引入了其他机器学习技术,包括早停、不同网络的整体平均以及为补偿大型低相似性数据偏差而使用的权重法。他们使用1个3层前馈神经网络作为模型的主要框架,训练集采用RS126蛋白质集合。预测前,他们用多重序列联配获得了更多的进化信息,使整个系统的预测准确度提高了6%~8%。1994年,Salamov等利用改进的神经网络和最近相邻法,将α-螺旋-β折叠和无规则卷曲对应的N端和C端的不同位置引入到罚分系统中,同时还减小了训练基数的限制数量,因此减少了计算时间,但在预测准确度方面并没有提高[8]。1999年,Solovyer等又将最近邻居法作了进一步改进,用一种可变的最近邻居法与神经网络结合,使预测准确度达到71.2%,该方法的最大优点在于不需要知道是否同源[9]。1996年,Riis等优化了神经网络学习算法,使用了一种权重共享技术对输入的氨基酸进行自适应编码,大大减少了输入层的维数[10]。他们还根据生物学意义对每一种二级结构类型分别设计了不同的网络,结合多重序列比对方法后,预测准确率可达71.3%。Riis等设计的方法使用了网络模型集和过滤技术,并把序列比对的方法和最大熵权重进行组合,避免了Qian等方法存在的过拟合问题。1998年,Jones提出了PSIPRED方法[11],该方法被认为是蛋白质二级结构预测的佼佼者。他用了1个基于精确位置得分矩阵的3层BP网络来预测蛋白质的二级结构,该得分矩阵由PSI-BLAST算法产生,改良了网络的输入,使预测准确率达到76.5%~78.5%。2004年, Zhang等将20种氨基酸根据其构象偏好分为3种类型,然后基于径向基函数神经网络(RBFNN),把该构象分类信息作为部分输入对二级结构进行预测,使得预测的准确度达到了74.28%[12]。

近几年来,蛋白质二级结构的预测方法层出不穷。许多人应用神经网络方法与其他算法相结合,推出新的算法以达到更高的准确度。2004年,Wu等提出了蛋白质二级结构混合预测方法[13],该方法将基于知识的PROSP方法与Jones 的PSIPRED方法相结合,预测时根据1个量化指标——

—全局匹配率将两种方法混合起来,该方法较PSIPRED方法在总体预测率上有所提高。2005年,Wu等又对算法进行了改进,提出了1个新的量化指标——

—局部匹配率,并且改进了预测的策略,预测时,综合PROSP方法和PSIPRED方法的结果决定其结构,使得预测的准确度有了很大提高[14]。

国内对蛋白质结构预测的研究起步较晚。但近年来,我国学者也在蛋白质二级结构预测方面做出了一定贡献。1996年,方慧生等通过对Madaline神经网络的深入研究,同时结合蛋白质一级结构输入输出编码的特性,对经典

一级结构

二级结构

输入窗口

输出层(3Units)

隐含层(30Units)

α-helixβ-sheet coil

输入层(357Units)

图1蛋白质二级结构预测中的神经网络

王艳春等神经网络在蛋白质二级结构预测中的应用

34卷16期4173

Madaline网络作了改进:删除了训练和预测过程中的部分乘法和加法运算以缩短训练学习和预测时间;并以非线性作用函数代替原来的线性作用函数以提高其预测准确度[15]。通过对31个蛋白质共5720个氨基酸残基的训练学习,预测了9个蛋白质(共1091个氨基酸残基)的二级结构,与经典Madaline网络相比,改进Madaline的训练学习速度提高了14倍;其平均准确度也由原来的60.61%提高到63.05%,且高于文献值的平均预测准确度。2003年,杨国慧等提出了基于概率模型的双向反馈神经网络的蛋白质二级结构预测方法,预测准确度达到了72.6%[3]。

针对标准BP算法应用时存在易出现局部极小值和收敛速度慢的缺点,马栋萍等将动量法和学习率自适应调整2种策略联合起来对标准BP算法进行改进[16]。该方法在反向传播的基础上,在调整权重和阈值的变化上加上一项正比于前次权重和阈值变化的值,并根据反向传播法来产生

新的权重和阈值变化;在算法的学习率上,采用了一种自适应学习速率。这种改进的BP算法不仅有效抑制了网络陷入局部极小、大大缩短了网络学习时间,而且能够很好的学习掌握蛋白质从一级结构到二级结构的信息,使得预测准确度从标准BP算法的68%左右提高到72.55%。

但是,利用简单的单神经网络预测蛋白质二级结构,不能得到较好的预测结果。为此,2004年,孙海军等采用了由7个单独的前向型BP神经网络并列组成的“多模神经网络”模型[1]。该模型用7个BP网络同时来处理数据,最后网络输出时把7个BP网络的3个二级结构状态预测值求和,用这个“和”来最终决定此次预测的结果。这样就可降低利用单神经网络进行二级结构预测时在2个二级结构预测值非常接近情况下造成的“误分类”的概率。该模型进行预测时,给多模神经网络引入了较多的生物进化信息:一方面引入了“profile”编码;另一方面引入了氨基酸之间的“距离”概念。用该模型对从36个蛋白质提取的4000个氨基酸进行了预测,预测的平均准确度为68.8903%。这说明用多模神经网络可以将单个BP网络的优点有机地结合起来,取长补短,能够大幅度提高蛋白质二级结构预测的准确率。2005年,景楠等采用了一种径向基函数神经网络来进行蛋白质二级结构的预测[17]。考虑到相邻残基之间的相关性对蛋白质二级结构十分重要,景楠等在利用径向基函数神经网络进行预测的基础上引入了级连径向基网络。其结构如图2所示。

图中第1层用于将输入的序列转化为结构,其中每1个子径向基网的结构和参数的选择都与未级连前是一样的;第2层以结构作为输入,对其进行精炼,输出仍然是结构。在预测的过程中,网络连接权值的学习修正采用BP算法。通过试验将第1层窗口宽度取为15,第2层父网的窗口宽度定选取为11,结果使预测准确度由未级连前的63.1%提高到68.8%。由于该网络是用径向基函数作为隐单元的“基”构成隐含层的空间,而径向基函数是1种局部分布的对中心点径向对称衰减非负的非线性函数,对输入信号将在局部产生响应。因此,该方法可大大加快学习速度并避免局部极小值问题,这表明基于径向基函数网络预测方法的可行性和有效性。

王龙会等从算法方面进行了改进,采用遗传算法和神经网络相结合的优化算法训练网络[18]。该算法首先给出t组

初始网络权值,利用BP算法训练网络得到t组权值,由该t 组权值所对应的上下限确定每个权值的取值区间,之后采用浮点数编码,生成基因群体,再用遗传算法进一步寻优。编码时采用5位编码方式,并且考虑距离对结构的影响,在每个输入窗口增加1个表示距离的输入单元。在给定E=0.01, err-goal=0.01,学习速率为0.02,交叉和变异概率分别为0.5和0.05,种群规模为60,最大迭代次数为200的情况下;其训练集和检验集的总体预测准确率分别为76.60%、64.78%。这表明,该模型较其他单一方法训练网络所得到的预测准确率有很大提高。

4展望

综上所述,神经网络理论非常适合应用于蛋白质二级结构的预测,在蛋白质二级结构预测研究中起着重要作用。从1988年Qian等首次将神经网络应用到蛋白质二级结构预测至今,神经网络的结构已从单隐层BP网络模型发展为多模神经网络模型,算法也从标准的BP算法发展为多种有效算法结合,预测准确度也逐渐提高。但神经网络本身还存在许多问题,主要有:①神经网络的拓扑结构不是十分合理,由于网络隐层结构的设计还没有一个严格的理论来指导,几乎所有文献都采用了试凑法或根据经验来确定隐层的结构,如隐层结点数,这就不可避免的使网络的结构带有盲目性和随机性;②由于BP算法是沿梯度下降的非线性优化,网络不可避免的容易陷入局部极小值;③当对网络进行训练时,都是随机给出初始权、阈值,经过反复调整后,获得稳定的权、阈值,而已有研究表明网络的学习结果对初始权向量异常敏感,不同的初始权向量值可能导致完全不同的结果。

因此,单一的BP神经网络对蛋白质二级结构的预测具有一定的局限性,使用融合理论实现蛋白质二级结构预测势在必行。为了提高预测准确度,一个主要问题是如何从训练数据中获得恰当的神经网络拓扑结构和权值参数,这可以通过引入遗传算法来实现。遗传算法是一种可用于对复杂系统进行优化的全局搜索算法,它可以把结构优化问题

(下转第4188页) P

S

S

P

S

P

S

P

P

S

S

P

S

P

S

P

S

P

S

S

S

S

P

P H E C

图2径向基函数神经网络模

(上接第4174页)

转化为生物进化过程,通过各种进化方式对解空间的不同区域进行并行搜索以获得结构优化的最优解。遗传算法优化神经网络主要包括3个方面:①连接权值的优化;②网络结构的优化;③学习规则的优化。

合理有效的编码技术也是提高蛋白质二级结构预测准确度的一个关键,因为不同的编码方案对预测输入窗口空间的复杂度、网络结构和学习的速率有很大影响。所以,只要有了合理有效的编码技术和网络拓扑结构,神经网络在蛋白质二级结构预测方面发挥的作用会越来越大,基于神经网络的蛋白质二级结构预测的准确度也一定会得到很大提高。不仅为蛋白质高级结构的预测提供直接依据;还可破译生命之谜,阐明遗传信息传递的全过程,使中心法则得到更完整的阐述,从而对生命过程中的各种现象有更深入的

参考文献

[1]孙海军,阮晓刚.用多模神经网络预测蛋白质二级结构[J].昆明理工

大学学报,2004,29(5):64-70.

[2]ANFINSEN C B.Principles that Govern the Folding of Protein

Chains[J].Science ,1973,181:223-230.

[3]杨国慧,周春光,胡成全,等.一种改进的Bayesian 网络模型用于蛋

白质二级结构预测[J].自然科学进展,2003(6):667-670.[4]王伟.人工神经网络原理———入门与应用[M].北京:北京航空航天

大学出版社,1995.

[5]QIAN N ,SEJNOWSKI T J.Prediction the secondary structure of

globular protein using neural network models[J].Mol Biol ,1988,202:865-884.

[6]KNELLER D G.,COHEN F https://www.doczj.com/doc/383967360.html,ngridge R.Improvements in protein

secondary structure prediction bu an enhanced neural network[J].J Mol Biol ,1990,214:171-182.

[7]ROST B ,SANDER C.Prediction of protein secondary structure at

better than 70%accuracy[J].J Mol Biol ,1993,232:584-599.

[8]SALAMOV A A ,SOLOVYEV V V.Prediction of protein secondary

structure by combining nearest -neighbor algorithms and multiple sequence alignments[J].J Mol Biol ,1995,247(1):11-15.

[9]SOLOVYEV V V ,SALAMOV A A.Protein secondary structure

prediction using local alignments[J].J Mol Biol.1997,268(1):31-6.[10]RIIS S K ,KROUGH A.Improving prediction of protein secondary

structure using neural networks and multiple sequence alignment [J].J Comput Biol ,1996(3):163-183.

[11]JONES D T.Protein secondary structure prediction based on

position -specific scoring matrics[J].J Mol Biol ,1999,292(2):195-202.

[12]GUANG Z Z ,HUANG D S ,ZHU Y P ,et al.Improving protein

secondary structure prediction by using the residue conformational classes[J].Pattern Recognition Letters ,2005,26:2346-2352.

[14]KUEN P W ,HSIN N L ,JIA M C ,et al.HYPROSPII :A knowledge -

based hybrid method for protein secondary structure prediction based on local prediction[J].BIOINFORMATICS ,2005,21(15):3227-3233.

[15]方慧生,相秉仁,安登魁.改进Madaline 学习算法预测蛋白质二

级结构[J].中国药科大学学报,1996,27(6):366-369.

[16]马栋萍,阮晓钢.基于改进BP 神经网络预测蛋白质二级结构[J].北

京联合大学学报:自然科学版,2005,19(2):70-73.

[17]景楠,周春光,夏斌.基于径向基函数蛋白质二级结构预测方法[J].

计算机工程与应用,2005,29:4-7.[18]王龙会,石峰.遗传神经网及其在蛋白质二级结构预测中的应用[J].数学杂志,2002,22(2):59-64.

蛋白质的二级结构

蛋白质的结构具有多种结构层次,包括一级结构和空间结构,空间结构又称为构象。空间结构包括二级结构、三级结构和四级结构。在二级与三级之间还存在超二级结构和结蛋白质的二级结构 构型:指一个不对称的化合物中不对称中心上的几个原子或基团的空间排布方式。如单糖的α-、β-构型,氨基酸的D-、L-构型。当从一种构型转换成另一种构型的时候,会牵涉及共价键的形成或破坏。 构象:指一个分子结构中的一切原子绕共价单键旋转时产生的不同空间排列方式。一种构象变成另一种构象不涉及共价键的形成或破坏。 蛋白质的二级结构 蛋白质的二级(Secondary)结构是指多肽链的主链本身在空间的排列、或规则的几何走向、旋转及折叠。它只涉及肽链主链的构象及链内或链间形成的氢键。氢键是稳定二级结构的主要作用力。 主要有α-螺旋、β-折叠、β-转角、自由回转。 二面角的概念 蛋白质中非键合原子之间的最小接触距离(A) 1.3 蛋白质的结构 (1)肽链空间构象的基本结构单位为肽平面或肽单位。 肽平面是指肽链中从一个Cα原子到另一个Cα原子之间的结构,共包含6个原子(Cα、C、O、N、H、 Cα),它们在空间共处于同一个平面。 (2)肽键上的原子呈反式构型 C=O与N-H p204 (3)肽键C-N键长0.132nm,比一般的C-N单键(0.147nm)短,比C=N双键(0.128nm)要长,具有部分双键的性质,不能旋转。 (二)蛋白质的构象 蛋白质多肽链空间折叠的限制因素:Pauling和Corey在利用X-射线衍射技术研究多肽链结构时发现: 1.肽键具有部分双键性质: 2.肽键不能自由旋转 3.组成肽键的四个原子和与之相连的两个α碳原子(Cα)都处于同一个平面内,此刚性结构的平 面叫肽平面(peptide plane)或酰胺平面(amide plane)。 4.二面角所决定的构象能否存在,主要取决于两个相邻肽单位中,非键合原子之间的接近有无阻碍。 1.α-螺旋及结构特点p207 螺旋的结构通常用“S N”来表示,S表示螺旋每旋转一圈所含的残基数,N表示形成氢键的C=O与H-N原子之间在主链上包含的原子数。又称为3.613螺旋,Φ= -57。,Ψ= -47。结构要点: 1.多肽链中的各个肽平面围绕同一轴旋转,形成螺旋结构,螺旋一周,沿轴上升的距离即螺距为0.54nm,含 3.6个氨基酸残基;两个氨基酸之间的距离为0.15nm; 2.肽链内形成氢键,氢键的取向几乎与轴平行,每个氨基酸残基的C=O氧与其后第四个氨基酸残基的N-H氢 形成氢键。 3.蛋白质中的α-螺旋几乎都是右手螺旋。 无规卷曲或自由回转(nonregular coil) p212 了解 指无一定规律的松散盘曲的肽链结构。 酶的功能部位常包含此构象,灵活易变。 纤维状蛋白 (了解) 纤维状蛋白质(fibrous protein)广泛地分布于脊椎和无脊椎动物体内,它是动物体的基本支架和外表保护成分,占脊椎动物体内蛋白质总量的一半或一半以上。 这类蛋白质外形呈纤维状或细棒状,分子轴比(长轴/短轴)大于10(小于10的为球状蛋白质)。分子是有规则的线型结构,这与其多肽链的有规则二级结构有关,而有规则的线型二级结构是它们的氨基酸顺序的规则性反映。 纤维状蛋白质的类型(了解) 纤维状蛋白质可分为不溶性(硬蛋白)和可溶性两类,前者有角蛋白、胶原蛋白和弹性蛋白等; 后者有肌球蛋白和纤维蛋白原等,但不包括微管(microtubule)和肌动蛋白细丝(actin filament),它们是球状蛋白质的长向聚集体(aggregate)。 角蛋白 Keratin(了解) 角蛋白广泛存在于动物的皮肤及皮肤的衍生物,如毛发、甲、角、鳞和羽等,属于结构蛋白。角蛋白中主要的是α-角蛋白。 α-角蛋白主要由α-螺旋构象的多肽链组成。一般是由三条右手α-螺旋肽链形成一个原纤维(向左缠绕),原纤维的肽链之间有二硫键交联以维持其稳定性 例如毛的纤维是由多个原纤维平行排列,并由氢键和二硫键作为交联键将它们聚集成不溶性的蛋白质。 α-角蛋白的伸缩性能很好,当α-角蛋白被过度拉伸时,则氢键被破坏而不能复原。此时α-角蛋白转变成β-折叠结构,称为β-角蛋白。 毛发的结构(了解)

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件 2010-05-08 20:40 转载自布丁布果 最终编辑布丁布果 4月18日 蛋白质数据库及蛋白质序列分析 第一节、蛋白质数据库介绍 一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库,目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释。该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护。SWISS-PROT 的序列数量呈直线增长。2、TrEMBL数据库: SWISS-PROT的数据存在一个滞后问题,即把EMBL的DNA序列准确地翻译成蛋白质序列并进行注释需要时间。一大批含有开放阅读框(ORF) 的DNA序列尚未列入SWISS-PROT。为了解决这一问题,TrEMBL(Translated EMBL) 数据库被建立了起来。TrEMBL也是一个蛋白质数据库,它包括了所有EMBL库中的蛋白质编码区序列,提供了一个非常全面的蛋白质序列数据源,但这势必导致其注释质量的下降。 3、PIR数据库: PIR数据库的数据最初是由美国国家生物医学研究基金会(National Biomedical Research Foundation, NBRF)收集的蛋白质序列,主要翻译自GenBank的DNA序列。 1988年,美国的NBRF、日本的JIPID(the Japanese International Protein Sequence Database 日本国家蛋白质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息中心)合作,共同收集和维护PIR数据库。PIR根据注释程度(质量)分为4个等级。4、 ExPASy数据库: 目前,瑞士生物信息学研究所(Swiss Institute of Bioinformatics, SIB)创建了蛋白质分析专家系统(Expert protein analysis system, ExPASy )。涵盖了上述所有的数据库。网址:https://www.doczj.com/doc/383967360.html, 我国的北京大学生物信息中心(https://www.doczj.com/doc/383967360.html,) 设立了ExPASy的镜像(Mirror)。 主要蛋白质序列数据库的网址 SWISS-PROT https://www.doczj.com/doc/383967360.html,/sprot 或 https://www.doczj.com/doc/383967360.html,/expasy_urls.html TrEMBL https://www.doczj.com/doc/383967360.html,/sprot PIR https://www.doczj.com/doc/383967360.html,/pirwww MIPS——Munich Information Centre for Protein Sequences http://mips.gsf.de/ JIPID——the Japanese International Protein Sequence Database 已经和PIR合并 ExPASy https://www.doczj.com/doc/383967360.html, 二、蛋白质结构数据库 1、PDB数据库:

蛋白质结构预测在线软件

蛋白质预测在线分析常用软件推荐 蛋白质预测分析网址集锦 物理性质预测: Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemasshttp://expaxy.hcuge.ch/sprot/peptide-mass.html TGREASE ftp://https://www.doczj.com/doc/383967360.html,/pub/fasta/ SAPS http://ulrec3.unil.ch/software/SAPS_form.html 基于组成的蛋白质识别预测 AACompIdent http://expaxy.hcuge.ch ... htmlAACompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.e mbl-heidelberg.de/prs.html 二级结构和折叠类预测 nnpredict https://www.doczj.com/doc/383967360.html,/~nomi/nnpredict Predictprotein http://www.embl-heidel ... protein/SOPMA http://www.ibcp.fr/predict.html SSPRED http://www.embl-heidel ... prd_info.html 特殊结构或结构预测 COILS http://ulrec3.unil.ch/ ... ILS_form.html MacStripe https://www.doczj.com/doc/383967360.html,/ ... acstripe.html 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。 由NCBI检索蛋白质序列 可联网到:“http://www.ncbi.nlm.ni ... gi?db=protein”进行检索。 利用SRS系统从EMBL检索蛋白质序列 联网到:https://www.doczj.com/doc/383967360.html,/”,可利用EMBL的SRS系统进行蛋白质序列的检索。 通过EMAIL进行序列检索 当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。 蛋白质基本性质分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的

蛋白质二级结构

蛋白质二级结构(secondary structure) 二级结构是指多肽链借助于氢键沿一维方向排列成具有周期性的结构的构象,是多肽链局部的空间结构(构象),主要有α-螺旋、β-折叠、β-转角等几种形式,它们是构成蛋白质高级结构的基本要素。 α-螺旋(α-helix)是蛋白质中最常见最典型含量最丰富的二级结构元件.在α螺旋中,每个螺旋周期包含 3.6 个氨基酸残基,残基侧链伸向外侧,同一肽链上的每个残基的酰胺氢原子和位于它后面的第4个残基上的羰基氧原子之间形成氢键。这种氢键大致与螺旋轴平行。一条多肽链呈α-螺旋构象的推动力就是所有肽键上的酰胺氢和羰基氧之间形成的链内氢键。在水环境中,肽键上的酰胺氢和羰基氧既能形成内部(α-螺旋内)的氢键,也能与水分子形成氢键。如果后者发生,多肽链呈现类似变性蛋白质那样的伸展构象。疏水环境对于氢键的形成没有影响,因此,更可能促进α-螺旋结构的形成。 四种不同的α-螺旋 β-折叠(β-sheet)也是一种重复性的结构,可分为平行式和反平行式两种类型,它们是通过肽链间或肽段间的氢键维系。可以把它们想象为由折叠的条状纸片侧向并排而成,每条纸片可看成是一条肽链, 称为β折叠股或β股(β-strand),肽主链沿纸条形成锯齿状,处于最伸展的构象,氢键主要在股间而不是股内。α-碳原子位于折叠线上,由于其四面体性质,连续的酰氨平面排列成折叠形式。需要注意的是在折叠片上的侧链都垂直于折叠片的平面,并交替的从平面上下二侧伸出。平行折叠片比反平行折叠片更规则且一般是大结构而反平行折叠片可以少到仅由两个β股组成。

在平行(A)和反平行(B)β-折叠片中氢键的排列 反向β-折叠

蛋白质分子自然构象和二级结构的计算分析及预测

蛋白质分子自然构象和二级结构的计算分析及预测本文是关于蛋白质分子的模拟计算,由两部分组成:一是计算蛋白质分子自然构象;一是蛋白质二级结构预测。对第一部分,提出了基于王朝更替策略的遗传算法来搜索蛋白质分子的自然构象。 二维toy模型是一种简化的蛋白质折叠的模型。随着环境的变化,一个王朝不能经久不衰,受这个的启发提出了王朝更替策略。 这个方法解决可能的早熟问题。为了测试这个方法,计算了蛋白质1AGT和1AHO,得到能量最小值分别为-20.8296、-21.0853,而这在文献中得到的最好结果是-19.6169和-15.1911,我们的值比文献中的值低了6-38%。 因此相信对应我们的最小自由能的构象是自然构象。在本文的第二部分,提出了基于氨基酸短序列的统计方法,用于预测蛋白质二级结构。 这是对基于单个氨基酸的传统统计方法的延伸。本文进行了大量的计算以确定最优短序列长度的选取,发现用3、4、5、6个氨基酸的短序列最好。 对于测试蛋白质组126 protein set、396 protein set、2180 protein set,得到的Q3二级结构预测准确度分别为89.9%、88.8%、89.2%,SOV准确度分别为84.3%、82.4%、84.1%。然后我们分析了新的蛋白质组153 protein set,这组蛋白质在PDB数据库中的发布日期晚于2007-11-15。 对这组新的蛋白质,本文计算结果的准确度Q3=73.7%、SOV=68.2%,好于常用的GORⅣ、GORⅤ、JPred这3个预测方法的平均结果Q3=69.7%、sov=66.9%。从计算结果看来所提出的短序列统计方法是一个很有希望的蛋白质二级结构预测方法。 随着已知蛋白质结构数据量的增加,这个方法的效果会更好。

蛋白质结构预测在线软件

蛋白质预测分析网址集锦? 物理性质预测:? Compute PI/MW?? ?? SAPS?? 基于组成的蛋白质识别预测? AACompIdent???PROPSEARCH?? 二级结构和折叠类预测? nnpredict?? Predictprotein??? SSPRED?? 特殊结构或结构预测? COILS?? MacStripe?? 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。? 由NCBI检索蛋白质序列? 可联网到:“”进行检索。? 利用SRS系统从EMBL检索蛋白质序列? 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。? 通过EMAIL进行序列检索?

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。? 蛋白质基本性质分析? 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。? 疏水性分析? 位于ExPASy的ProtScale程序(?)可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。? 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如,bioedit,dnamana等。? 跨膜区分析? 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知

蛋白质结构预测方法综述

蛋白质结构预测方法综述 卜东波陈翔王志勇 《计算机不能做什么?》是一本好书,其中文版序言也堪称佳构。在这篇十余页的短文中,马希文教授总结了使用计算机解决实际问题的三步曲,即首先进行形式化,将领域相关的实际问题抽象转化成一个数学问题;然后分析问题的可计算性;最后进行算法设计,分析算法的时间和空间复杂度,寻找最优算法。 蛋白质空间结构预测是很有生物学意义的问题,迄今亦有很多的工作。有意思的是,其中一些典型工作恰恰是上述三步曲的绝好示例,本文即沿着这一路线作一总结,介绍于后。 1 背景知识 生物细胞种有许多蛋白质(由20余种氨基酸所形成的长链),这些大分子对于完成生物功能是至关重要的。蛋白质的空间结构往往决定了其功能,因此,如何揭示蛋白质的结构是非常重要的工作。 生物学界常常将蛋白质的结构分为4个层次:一级结构,也就是组成蛋白质的氨基酸序列;二级结构,即骨架原子间的相互作用形成的局部结构,比如alpha螺旋,beta片层和loop区等;三级结构,即二级结构在更大范围内的堆积形成的空间结构;四级结构主要描述不同亚基之间的相互作用。 经过多年努力,结构测定的实验方法得到了很好的发展,比较常用的有核磁共振和X光晶体衍射两种。然而由于实验测定比较耗时和昂贵,对于某些不易结晶的蛋白质来说不适用。相比之下,测定蛋白质氨基酸序列则比较容易。因此如果能够从一级序列推断出空间结构则是非常有意义的工作。这也就是下面的蛋白质折叠问题: 1蛋白质折叠问题(Protein Folding Problem) 输入: 蛋白质的氨基酸序列

输出: 蛋白质的空间结构 蛋白质结构预测的可行性是有坚实依据的。因为一般而言,蛋白质的空间结构是由其一级结构确定的。生化实验表明:如果在体外无任何其他物质存在的条件下,使得蛋白质去折叠,然后复性,蛋白质将立刻重新折叠回原来的空间结构,整个过程在不到1秒种内即可完成。因此有理由认为对于大部分蛋白质而言,其空间结构信息已经完全蕴涵于氨基酸序列中。从物理学的角度讲,系统的稳定状态通常是能量最小的状态,这也是蛋白质预测工作的理论基础。 2 蛋白质结构预测方法 蛋白质结构预测的方法可以分为三种: 同源性(Homology )方法:这类方法的理论依据是如果两个蛋白质的序列比较相似,则其结构也有很大可能比较相似。有工作表明,如果序列相似性高于75%,则可以使用这种方法进行粗略的预测。这类方法的优点是准确度高,缺点是只能处理和模板库中蛋白质序列相似性较高的情况。 从头计算(Ab initio ) 方法:这类方法的依据是热力学理论,即求蛋白质能量最小的状态。生物学家和物理学家等认为从原理上讲这是影响蛋白质结构的本质因素。然而由于巨大的计算量,这种方法并不实用,目前只能计算几个氨基酸形成的结构。IBM 开发的Blue Gene 超级计算机,就是要解决这个问题。 穿线法(Threading )方法:由于Ab Initio 方法目前只有理论上的意义,Homology 方法受限于待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似性,对于其他大部分蛋白质来说,有必要寻求新的方法。Threading 就此应运而生。 以上三种方法中,Ab Initio 方法不依赖于已知结构,其余两种则需要已知结构的协助。通常将蛋白质序列和其真实三级结构组织成模板库,待预测三级结构的蛋白质序列,则称之为查询序列(query sequence)。 3 蛋白质结构预测的Threading 方法 Threading 方法有三个代表性的工作:Eisenburg 基于环境串的工作、Xu Ying 的Prospetor 和Xu Jinbo 、Li Ming 的RAPTOR 。 Threading 的方法:首先取出一条模版和查询序列作序列比对(Alignment),并将模版蛋白质与查询序列匹配上的残基的空间坐标赋给查询序列上相应的残基。比对的过程是在我们设计的一个能量函数指导下进行的。根据比对结果和得到的查询序列的空间坐标,通过我们设计的能量函数,得到一个能量值。将这个操作应用到所有的模版上,取能量值最低的那条模版产生的查询序列的空间坐标为我们的预测结果。 需要指出的是,此处的能量函数却不再是热力学意义上的能量函数。它实质上是概率的负对数,即 ,我们用统计意义上的能量来代替真实的分子能量,这两者有大致相同的形式。 p E log ?=如果沿着马希文教授的观点看上述工作 ,则更有意思:Eisenburg 指出如果仅仅停留在简单地使用每个原子的空间坐标(x,y,z)来形式化表示蛋白质空间结构,则难以进一步深入研究。Eisenburg 创造性地使用环境串表示结构,从而将结构预测问题转化成序列串和环境串之间的比对问题;其后,Xu Ying 作了进一步发展,将蛋白质序列表示成一系列核(core )组成的序列,Core 和Core 之间存在相互作用。因此结构就表示成Core 的空间坐标,以及Core 之间的相互作用。在这种表示方法的基础上,Xu Ying 开发了一种求最优匹配的动态规划算法,得到了很好的结果。但是由于其较高的复杂度,在Prospetor2上不得不作了一些简化;Xu Jinbo 和Li Ming 很漂亮地解决了这个问题,将求最优匹配的过程表示成一个整数规划问题,并且证明了一些常用

蛋白质结构预测

实习 5 :蛋白质结构预测 学号20090***** 姓名****** 专业年级生命生技**** 实验时间2012.6.21 提交报告时间2012.6.21 实验目的: 1.学会使用GOR和HNN方法预测蛋白质二级结构 2.学会使用SWISS-MODEL进行蛋白质高级结构预测 实验内容: 1.分别用GOR和HNN方法预测蛋白质序列的二级结构,并对比异同性。 2.利用SWISS-MODEL进行蛋白质的三级结构预测,并对预测结果进行解释。 作业: 1. 搜索一条你感兴趣的蛋白质序列,分别用GOR和HNN进行二级结构预测,解释预测结果,分析两个方法结果有何异同。 答:所选用蛋白质序列为>>gi|390408302|gb|AFL70986.1| gag protein, partial [Human immunodeficiency virus] (1)GOR预测结果: 图1 图1是每个氨基酸在序列中所处的状态,可以看出序列的二级结构预测结果为: 1到9位个氨基酸为无规卷曲,10到33位氨基酸为α螺旋,34到37位为β折叠,38到45位为无规卷曲,46到49位为α螺旋,50到53位为无规卷曲,54到65为α螺旋,66到72位为无规卷曲,73到95位为α螺旋,96到101位为无规卷曲,102到108为β折叠,109到115位为无规卷曲,117位为β折叠。 图2 图2为各种结构在序列中所占的比例,其中Alpha helix占53.85%,Extended strand占11.11%,Random coil占35.04%,无他二级结构。

图3 图3为各个氨基酸在序列中的状态以及二级结构在全序列中二级结构分布情况。 (2)HNN预测: 图4 图4是每个氨基酸在序列中所处的状态,可以看出序列的二级结构预测结果为: 1到6位个氨基酸为无规卷曲,7到34位氨基酸为α螺旋,35到37位为β折叠,38位为α螺旋,39到44位为无规卷曲,45到49位为α螺旋,50到55位为无规卷曲,56到65为α螺旋,66到71位为无规卷曲,72到83位为α螺旋,84到86位为无规卷曲,87到95位为α螺旋,96到102为无规卷曲,103到108位为β折叠,108到117位为无规卷曲。 图5 图5为各种结构在序列中所占的比例,其中Alpha helix占55.56%,Extended strand占7.69%,Random coil占36.75%,无他二级结构。

蛋白质结构预测网址

蛋白质结构预测网址 物理性质预测: Compute PI/MW Peptidemass TGREASE SAPS 基于组成的蛋白质识别预测 AACompIdent PROPSEARCH 二级结构和折叠类预测 nnpredict Predictprotein SSPRED 特殊结构或结构预测 COILS MacStripe 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。 由NCBI检索蛋白质序列 可联网到:“”进行检索。 利用SRS系统从EMBL检索蛋白质序列 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。 通过EMAIL进行序列检索 当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。 蛋白质基本性质分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。 疏水性分析 位于ExPASy的ProtScale程序()可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如, bioedit,dnamana等。 跨膜区分析 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库,可通过匿名FTP获得(),参见表一

蛋白质的二级结构主要有哪些类型

1.蛋白质的二级结构主要有哪些类型,其特点如何? 答:α-右手螺旋,β-折叠,无规卷曲,U型回折(β-转角) <1>α-右手螺旋 α-螺旋为右手螺旋,每一圈含有3.6个aa残基(或肽平面),每一圈高5.4?,即每一个aa 残基上升1.5?,旋转了100度,直径为5 ?,2个二面角(ф,ψ)=(-570,-480)。维持α-右手螺旋的力量是螺旋内氢键,它产生于一个肽平面的C=O与相邻一圈的在空间上邻近的另一个肽平面的N-H之间,它的方向平行于螺旋轴,每个氢键串起的长度为3.6个肽平面或3.6个aa残基,被氢键串起来的这个环上含有13个原子,故α-右手螺旋也被称为 3.613螺旋。Pro破坏α-螺旋。 <2>β-折叠 肽链在空间的走向为锯齿折叠状,二面角(ф,ψ)=(-119℃,+113℃)。维持β-折叠的力量是折叠间的氢键,它产生于一个肽平面的C=O与相邻肽链的在空间上邻近的另一个肽平面的N-H之间,两条肽链上的肽平面互相平行,有平行式和反平行式两种, <3>U型回折:也叫β-转角,肽链在某处回折1800所形成的结构。这个结构包括的长度为 4个aa残基,其中的第三个为Gly,稳定该结构的力量是第一和第四个aa残基之间形成的氢键。 <4>无规卷曲:无固定的走向,但也不是任意变动的,它的2个二面角(ф,ψ)有个变化 范围。论 述 04 蛋 白 质 简述蛋白质一级结构的分析方法。 第一步:前期准备,第二步:肽链的端点测定,第三步:每条肽链aa顺序的测定,第四步:二硫键位置的确定。 <1>第一步:前期准备 分离纯化蛋白质:纯度要达到97%以上。 蛋白质分子量的测定:用于判断分子的大小,估计肽链的数目,有渗透压法、凝胶电泳法(聚丙烯酰胺、SDS)、凝胶过滤法、超离心法等 aa组成的测定:用于最后核对,氨基酸自动分析仪。 肽链拆分:非共价键的如氢键、离子键、疏水键、范德华力4种,可用尿素或盐酸胍等有机溶液来拆分。共价键的仅二硫键1种,可用巯基乙醇、碘代乙酸、过甲酸来拆分。 <2>第二步:肽链的端点测定 N端测定:Sanger法,DNFB→DNP-肽→水解→乙醚萃取→层析鉴定。 Edman法,PITC→PTC-肽→PTH-aa→层析鉴定。 C端测定:肼解法。 <3>第三步:每条肽链aa顺序的测定 事先要将蛋白质打断成多肽甚至寡肽,再上机分析,而且要2套以上,便于以后拼接。 常用的工具酶和特异性试剂有: 胰蛋白酶:-(Arg、Lys)↓-。产物为C端Arg、Lys的肽链。 糜蛋白酶:表示为-(Trp、Tyr、Phe)↓-。 CNBr:-Met↓-。 <4>第四步:二硫键位置的确定 包括链内和链间二硫键的位置,用对角线电泳来测,这项工作在AA序测定完毕后进行。在肽链未拆分的情况下用胃蛋白酶水解之,可以得到被二硫键连着的多肽产物。先进行第一向电泳,将产物分开。再用巯基乙醇处理,将二硫键打断。最后进行第二向电泳,条件与第一向电泳完全相同。选取偏离对角线的样品(多肽或寡肽),它们就是含二硫键的片段,上机测aa顺序,根据已测出的蛋白质的aa顺序,把这些片段进行定位,就能找到二硫键的位置。

蛋白质结构预测在线软件

蛋白质结构预测在线软 件 Company Document number:WUUT-WUUY-WBBGB-BWYTT-1982GT

蛋白质预测分析网址集锦? 物理性质预测:? Compute PI/MW? ? SAPS? 基于组成的蛋白质识别预测? AACompIdentPROPSEARCH? 二级结构和折叠类预测? nnpredict? Predictprotein? SSPRED? 特殊结构或结构预测? COILS? MacStripe? 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。? 由NCBI检索蛋白质序列? 可联网到:“”进行检索。? 利用SRS系统从EMBL检索蛋白质序列? 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。? 通过EMAIL进行序列检索?

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。? 蛋白质基本性质分析? 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。? 疏水性分析? 位于ExPASy的ProtScale程序()可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。? 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如, bioedit,dnamana等。? 跨膜区分析? 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库,可通过匿名FTP获得(,参见表一? 资源名称网址说明?

蛋白质二级结构指定和功能分析

蛋白质二级结构指定和功能分析 蛋白质二级结构是指蛋白质骨架结构中有规律重复的构象。由蛋白质原子坐标正确地指定蛋白质二级结构是分析蛋白质结构与功能的基础,二级结构的指定对于蛋白质分类、蛋白质功能模体的发现以及理解蛋白质折叠机制有着重要的作用。 并且蛋白质二级结构信息广泛应用到蛋白质分子可视化、蛋白质比对以及蛋白质结构预测中。而目前蛋白质二级结构指定方法的一致性较差,因此,蛋白质二级结构指定仍然是结构生物信息学中一个比较活跃的课题。 目前有超过20种蛋白质二级结构指定方法,这些方法大体可以分为两大类:基于氢键和基于几何,不同方法指定结果之间的差异较大。对于蛋白质中最重要的二级结构之一的螺旋而言,这种差异可能是来源于已有的方法指定螺旋时并没有严格地遵循螺旋的几何特征:它们或者使用不能准确计算的氢键能量,或者使用没有准确范围的残基骨架二面角,或者使用的几何特征(如Cα原子之间距离与夹角)不足以定义一条完整的螺旋曲线。 DSSP(Define Secondary Structure of Proteins)是蛋白质二级结构指定领域比较公认的标准,DSSP是基于氢键的指定方法,它利用静电能量代替氢键能量并且通过近似计算得到氢原子坐标。蛋白质内部疏水环境的介电常数和蛋白质表面的介电常数差异很大,DSSP并没有考虑残基所处的环境而将介电常数作为一个定值,另外由于氢键模式会有交叉重叠(与多个残基形成氢键),因此DSSP会指定出一些在几何上明显异常与不规则的二级结构。 STRIDE(STRuctural IDEntification)可以看做是DSSP的改进,STRIDE统计了螺旋和片层残基骨架二面角在拉氏图上的分布,在指定时将具有异常骨架二面

蛋白质功能-结构-相互作用预测网站工具合集

蛋白质组学 蛋白质是生物体的重要组成部分,参与几乎所有生理和细胞代谢过程。此外,与基因组学和转录组学比较,对一个细胞或组织中表达的所有蛋白质,及其修饰和相互作用的大规模研究称为蛋白质组学。 蛋白质组学通常被认为是在基因组学和转录组学之后,生物系统研究的下一步。然而,蛋白质组的研究远比基因组学复杂,这是由于蛋白质内在的复杂特点,如蛋白质各种各样的翻译后修饰所决定的。并且,研究基因组学的技术要比研究蛋白质组学的技术强得多,虽然在蛋白质组学研究中,质谱技术的研究已取得了一些进展。 尽管存在方法上的挑战,蛋白质组学正在迅速发展,并且对癌症的临床诊断和疾病治疗做出了重要贡献。几项研究鉴定出了一些蛋白质在乳腺癌、卵巢癌、前列腺癌和食道癌中表达变化。例如,通过蛋白质组学技术,人们可以在患者血液中明确鉴定出肿瘤标志物。表1列出了更多的蛋白质组学技术用于研究癌症的例子。 另外,高尔基体功能复杂。最新研究表明,它除了参与蛋白加工外,还能参与细胞分化及细胞间信号传导的过程,并在凋亡中扮演重要角色,其功能障碍也许和肿瘤的发生、发展有某种联系。根据人类基因组研究,约1000多种人类高尔基体蛋白质中仅有500~600种得到了鉴定,建立一条关于高尔基体蛋白质组成的技术路线将有助于其功能的深入研究。 蛋白质组学是一种有效的研究方法,特别是随着亚细胞器蛋白质组学技术的迅猛发展,使高尔基体的全面研究变为可能。因此研究人员希望能以胃癌细胞中的高尔基体为研究对象,通过亚细胞器蛋白质组学方法,建立胃癌细胞中高尔基体的蛋白质组方法学。 研究人员采用蔗糖密度梯度的超速离心方法分离纯化高尔基体,双向凝胶电泳(2-DE)分离高尔基体蛋白质,用ImageMaster 2D软件分析所得图谱,基质辅助激光解吸离子化飞行时间质谱(MALDI-TOF MS)鉴定蛋白质点等一系列亚细胞器蛋白质组学方法建立了胃癌细胞内高尔基体的蛋白图谱。 最后,人们根据分离出的纯度较高的高尔基体建立了分辨率和重复性均较好的双向电泳图谱,运用质谱技术鉴定出12个蛋白质,包括蛋白合成相关蛋白、膜融合蛋白、调节蛋白、凋亡相关蛋白、运输蛋白和细胞增殖分化相关蛋白。通过亚细胞器分离纯化、双向电泳的蛋白分离及MALDI-TOF MS蛋白鉴定分析,研究人员首次成功建立了胃癌细胞SGC7901中高尔基体的蛋白质组学技术路线。 3.1 蛋白质功能预测工具 也许生物信息学方法在癌症研究中最常用的就是基因功能预测方法,但是这些数据库只存储了基因组的大约一半基因的功能。为了在微阵列资料基础上完成功能性的富集分析,基因簇的功能注解是非常重要的。近几年生物学家研发了一些基因功能预测的方法,这些方法旨在超越传统的BLAST搜索来预测基因的功能。基因功能预测可以以氨基酸序列、三级结构、与之相互作用的配体、相互作用过程或基因的表达方式为基础。其中最重要的是基于氨基酸序列的分析,因为这种方法适合于微阵列分析的全部基因。 在表3中,前三项列举了三种同源搜索方法。FASTA方法虽然应用还不太广泛,但它要优于BLAST,或者至少相当。FASTA程序是第一个使用的数据库相似性搜索程序。为了达到较高的敏感程度,程序引用取代矩阵实行局部比对以获得最佳搜索。美国弗吉尼亚大学可以提供这项程序的地方版本,当然数据库搜索结果依赖于要搜索的数据库序列。如果最近的序列数据库版本在弗吉尼亚大学不能获得,那么就最好试一下京都大学(Kyoto University)的KEGG站点。PSI-BLAST(位点特异性反复BLAST)是BLAST的转化版本,PSI-BLAST的特色是每次用profile 搜索数据库后再利用搜索的结果重新构建profile,然后用新的profile再次搜索数据库,如此反复直至没有新的结果产生为止。PSI-BLAST先用带空位的BLAST搜索数据库,将获得的序列通过多序列比对来构建第一个profile。PSI-BLAST自然地拓展了BLAST方法,能寻找蛋白质序列中的隐含模式,有研究表明这种方法可以有效地找到很多序列差异较大而结构功能相似的相关蛋白,所以它比BLAST和FASTA有更好的敏感性。PSI-BLAST服务可以

蛋白质结构与功能的生物信息学研究

实验名称:蛋白质结构与功能的生物信息学研究 实验目的:1.掌握运用BLAST工具对指定蛋白质的氨基酸序列同源性搜索的方法。 2.掌握用不同的工具分析蛋白质的氨基酸序列的基本性质 3掌握蛋白质的氨基酸序列进行三维结构的分析 4.熟悉对蛋白质的氨基酸序列所代表蛋白的修饰情况、所参与的 代谢途径、相互作用的蛋白,以及与疾病的相关性的分析。实验方法和流程: 一、同源性搜索 同源性从分子水平讲则是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。BLAST工具能对生物不同蛋白质的氨基酸序列或不同的基因的DNA序列极性比对,并从相应数据库中找到相同或相似序列。对指定的蛋白质的氨基酸序列进行同源性搜索步骤如下: ↓ 登录网址https://www.doczj.com/doc/383967360.html,/blast/ ↓ 输入序列后,运行blast工具 ↓ 序列比对的图形结果显示

序列比对的图形结果:用相似性区段(Hit)覆盖输入序列的范围判断两个序列 的相似性。如果图形中包含低得分的颜色(主要是红色) 区段,表明两序列的并非完全匹配。 ↓ 匹配序列列表及得分

各序列得分 可选择不同的比对工具 备注: Clustal是一款用来对()的软件。可以用来发现特征序列,进行蛋白分类,证明序列间的同源性,帮助预测新序列二级结构与三级结构,确定PCR引物,以及 在分子进化分析方面均有很大帮助。Clustal包括Clustalx和Clustalw(前者是 图形化界面版本后者是命令界面),是生物信息学常用的多序列比对工具。 该序列的比对结果有100条,按得分降序排列,其中最大得分2373,最小得分 分为1195. ↓ 详细的比对序列的排列情况 第一个匹配 序列 第一个序列的匹配率为100% Score表示打分矩阵计算出来的值,由搜索算法决定的,值越大说明匹配程度

蛋白质结构与功能的关系

蛋白质结构与功能的关系 (The relationship between protein structure and function) 摘要蛋白质特定的功能都是由其特定的构象所决定的,各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化,必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化,可能导致蛋白质构象紊乱症,当然也能引起生物体对环境的适应性增强!现而今关于蛋白质功能研究还有待发展,一门新兴学科正在发展,血清蛋白组学,生物信息学等!本文仅就蛋白质结构与其功能关系进行粗略阐述。 关键词:蛋白质结构;折叠/功能关系;蛋白质构象紊乱症;分子伴侣 Keywords:protein structure;fold/function relationship;protein conformational disorder;molecular chaperons 虽然蛋白质结构与生物功能的关系比序列与功能的关系更加紧密,但结构与功能的这种关联亦若隐若现,并不能排除折叠差别悬殊的蛋白质执行相似的功能,折叠相似的蛋白质执行差别悬殊功能的现象的存在。无奈,该领域仍不得不将100多年前Fisher提出的“锁一钥匙”模型(“lock—key”model)和50多年前Koshand提出的诱导契合模型(induce fitmodel)作为蛋白质实现功能的理论基础。这2个略显粗糙的模型只是认为蛋白质执行功能的部位局限在结构中的一个或几个小区域内,此类区域通常是蛋白质表面上的凹洞或裂隙。这种凹洞或裂隙被称为“活性部位(active site)”或“别构部位(fallosteric site)”,凹陷部位与配体分子在空间形状和静电上互补。此外,在酶的活性部位中还存在着几个作为催化基团(catalyticgroup)的氨基酸残基。对蛋白质未来的研究应从实验基本数据的归纳和统计入手,从原始的水平上发现蛋白质的潜藏机制【1】。 蛋白质结构与功能关系的研究主要是以力求刻画蛋白质的3D结构的几何学为基础的。蛋白质结构既非规则的几何形,又非完全的无规线团(randomcoil),而是有序(α一螺旋和β一折叠)与无序(线团或环域loop)的混合体。理解蛋白质3D结构的技巧是将结构简化,只保留某种几何特征或拓扑模式,并将其数字化。探求数字中所蕴含的规律,且根据这一规律将蛋白质进行分类,再将分类的结构与蛋白质的功能进行比较,以检验蛋白质抽象结构的合理性。如果一种对蛋白质结构的简化、比较和分类能与蛋自质的功能有较好地对应关系,那么这就是一种对蛋白质结构的有价值的理解。蛋白质结构中,多种弱力(氢键、范德华力、静电相互作用、疏水相互作用、堆积力等)和可逆的二硫键使多肽链折叠成特定的构象。从某种意义上说,共价键维系了蛋白质的一级结构;主链上的氢键维系了蛋白质的二级结构;而氨基酸侧链的相互作用和二硫桥维系着蛋白质的三级结构。亚基(subunit)内部的侧链相互作用是构象稳定的基础,蛋白质链之间的侧链的相互作用是亚基组装(四级结构)的基础,而蛋白质中侧链与配体基团问的相互作用是蛋白质行使功能的基础。 牛胰核糖核酸酶(RNase)变性和复性的实验是蛋白质结构与功能关系的很好例证。蛋白质空间结构遭到破坏;,可导致蛋白质的理比性质和生物学性质的变化,这就是蛋白质变性。变性的蛋白质,只要其一级结构仍然完好,可在一定条件下恢复其空间结构,随之理化性质和生物学性质也可重现,这被称为复性。RNase是由124个氨基酸残基组成的一条肽链,分子中8个半胱氨酸的巯基构成4对二硫键,进而形成具有一定空间构象的活性蛋白质。天然RNase遇尿素和β巯基乙醇时发生变性,其分子中的氢键和4个二硫键解开,严密的空间结构遭破坏,丧失了生物学活性,但一级结构完整无损。若去除尿素和β巯基乙醇,RNase又可恢复其原有构象和生物学活性。RNase分子中的8个巯基若随机排列成二硫键可有105种方式。有活性的RNase只是其中的一种,复性时之所以选择了自

相关主题
文本预览
相关文档 最新文档