当前位置:文档之家› 6 , 概率搜索和能量引导用于蛋白质结构从头预测中的偏向诱导采样

6 , 概率搜索和能量引导用于蛋白质结构从头预测中的偏向诱导采样

6 , 概率搜索和能量引导用于蛋白质结构从头预测中的偏向诱导采样
6 , 概率搜索和能量引导用于蛋白质结构从头预测中的偏向诱导采样

Probabilistic Search and Energy Guidance for

Biased Decoy Sampling in

Ab-initio Protein Structure Prediction

概率搜索和能量引导用于蛋白质结构从头预测中的偏向诱导采样Kevin Molloy, Sameh Saleh, and Amarda Shehu, Member, IEEE

Abstract—Adequate sampling of the conformational space is a central challenge in ab-initio protein structure prediction. In the absence of a template structure, a conformational search procedure guided by an energy function explores the conformational space, gathering an ensemble of low-energy decoy conformations. If the sampling is inadequate, the native structure may be missed altogether. Even if reproduced, a subsequent stage that selects a subset of decoys for further structural detail and energetic refinement may discard near-native decoys if they are high-energy or insufficiently represented in the ensemble. Sampling should produce a decoy ensemble that facilitates the subsequent selection of near-native decoys. In this paper, we investigate a robotics-inspired framework that allows directly measuring the role of energy in guiding sampling. Testing demonstrates that a soft energy bias steers sampling towards a diverse decoy ensemble less prone to exploiting energetic artifacts and thus more likely to facilitate retainment of near-native conformations by selection techniques. We employ two different energy functions, the Associative Memory Hamiltonian with Water (AMW) and Rosetta.Results show that enhanced sampling provides a rigorous testing of energy functions and exposes different deficiencies in them, thus promising to guide development of more accurate representations and energy functions.

Index Terms—Protein structure prediction, probabilistic conformational search, near-native conformations, energy bias.

摘要:在蛋白质结构从头预测中,足够的构象空间采样是一个核心的挑战。构象搜索程序在没有结构模板的情况下,由一个能量函数来引导其搜索构象空间,找到一个低能量的诱导构象集合。如果采样不足,天然态的结构就有可能全部丢失。即使重现,在后续阶段选择诱导构象的子集来进一步的对结构细节和能量进行优化,也可能由于它们是高能量或者不足以代表整个构象集合而丢失近天然态的诱导构象。采样应该产生一个诱导集合来促使后续的近天然态的诱导构象的选择。在这篇文章中,我们研究一个机器人启发式的框架,这个框架可以用来直接测试能量在引导采样的过程中所起的作用。测试表明:一个软能量偏向引导采样走向多样化的诱导集合,而不是倾向于开发高能量的人工产物,这样就更有可能通过选择的技术来保留近天然态的构象。我们采用了两个不同的能量函数,Associative Memory Hamiltonian with Water (AMW) 和Rosetta。Rosetta表明加强的采样提供了一个对于能量函数的严格测试,并且揭示了它们的不同的缺点,因此有希望用于引导产生更为精确的模型表示和能量函数。

索引词:蛋白质结构预测、概率构象空间搜索、近天然态构象、能量偏向

1 INTRODUCTION

1 介绍

AB-initio protein structure prediction or template-free modeling is by now recognized as one of the most difficult problems in computational structural biology[23], [49]. Ab-initio protocols are in principle more broadly applicable for protein structure prediction than homology-based methods that rely on the availability of homologs of known structure to reconstruct a template structure. In the absence of a template structure, ab-initio protocols rely on a conformational search procedure guided by some energy function to obtain an ensemble of low-energy (decoy) conformations. In a thermodynamics treatment [1], [27], the sought native structure of the target sequence is expected to be present among the lowest-energy decoys. There are many reasons why this treatment often fails to lead to the native structure [23].

目前,蛋白质结构从头预测或非模板模型方法被认为是计算结构生物学中最难的问题之一。大体而言,从头预测的方法比依赖于用已知同源结构来重建模板结构的同源建模方法有更广泛的应用。在没有结构模板的情况下,构象搜索程序由一个能量函数来引导其搜索构象空间,找到一个低能量的诱导构象集合。在热力学方法上,我们希望所找到的目标序列的天然结构出现在低能诱导构象中,但是有很多原因会导致这个方法在引导得到天然态结构时失败。

Despite the challenges, over the last years considerable advancements have been made, most notably recently by the well-known Quark [46] and Rosetta protocols [20].Key to these advancements has been the employment of the molecular fragment replacement technique [5], [7], [11]. The technique allows obtaining realistic decoy conformations by essentially assembling them with short structural blocks known as fragment configurations. These are extracted from known native structures of non-redundant sequences and are stored as φ, ψ, and ωbac kbone torsion angles in a library of fragment configurations [14]. The assembly is implemented in the context of a Metropolis Monte Carlo (MMC) trajectory, where an MC move replaces the configuration of a fragment selected at random over the currently-assembled decoy conformation with a configuration selected for that fragment from the library. The replacement is accepted if it satisfies the Metropolis criterion, resulting over time in low-energy decoys.

尽管这是个很大的挑战,在过去的几年中,也取得了一些相当大的进步。最值得一提的就是最近很知名的Quark和Rosetta方法。这些进步的关键在于应用了分子片段置换技术。这项技术的应用使得我们可以通过用一些称作片段结构的短的结构块来进行组装,以获得现实的诱导构象。这些片段结构是由以φ, ψ,ω

三个骨干二面角保存在片段结构库中的已知的非冗余序列的天然态结构获得的。这个组装实施在Metropolis Monte Carlo (MMC) 轨迹中,每实施一次MC扰动,用库中选择的一个片段结构来替换现有的诱导构象中随机选择的一个片段结构。如果这个替换符合MC准则,它将会被接受,并且随时间推移将得到低能诱导构象。

The predominant ab-initio protocol consists of generation of a large number of decoy conformations at low resolution through the molecular fragment replacement technique followed by energetic refinement of selected decoys at higher resolution [23]. Typically, decoys are end points of MMC trajectories initiated from extended or random conformations. Many global and local search strategies are proposed to enhance the sampling capability of the core MMC exploration in the low-resolution stage. Typical protocols employ simulated annealing or replica exchange to enhance sampling [7], [11], [4], [38], [35], [39], [24]. Work in [36] employs a different strategy that directly enforces conformational diversity through discretization layers of the search space.

从头预测方法主要是,通过分子片段置换技术,在高分辨率下对选择的诱导构象进行能量优化,从而在低分辨率生成大量的诱导构象。通常,诱导构象是由扩展的或者随机的构象开始的MMC轨迹的末端点。很多全局和局部的搜索策略提出了在低分辨率下提高核心MMC搜索的采样能力。通常的方法采用模拟退火或者副本交换的方法来加强采样。在文献[36]的工作中,采用了一种不同的策略,它通过对搜索空间的层进行离散化来直接加强构象的多样性。

The molecular fragment replacement technique is directly related to the ability of a conformational search procedure to enhance sampling. Employment of fragment configurations reduces the size and complexity of the search space. Fragment configurations also capture local propensities of amino-acid segments directly, allowing an energy function to focus on scoring instead longer-range interactions. While many studies focus on exploring the relationship between fragment length, size of ensuing conformational space, and accuracy [18],[15], fragment lengths typically employed by ab-initio protocols are in the 3?20 range [5], [46].

分子片段置换技术直接关系到构象空间搜索程序加强采样的能力。片段结构的应用减小了搜索空间的规模和复杂性。片段结构也能直接捕获氨基酸序列的局部性质,它允许能量函数去关注得分而不是远距离的相互作用。还有很多的研究关注于片段长度,构象空间的大小和精确度之间的关系,从头预测方法应用的片段长度通常在3-20个之间。

In addition to the molecular fragment replacement technique, these protocols employ low-resolution representational detail for sampled decoy conformations. The low resolution reduces the dimensionality of the search space thus controlling the computational demands of sampling many conformations. However, the energy functions capable of scoring low-resolution conformations typically contain many artifacts that result in associating low energies with conformations sometimes 4?8 ? away from the known native structure of a protein sequence [44], [4], [10], [38].

除了分子片段替换技术,这些方法采用低分辨率的采样诱导构象的代表性的细节。低分辨率减小了搜索空间的维数,因此许多构象控制采样的计算要求。但是能量函数对低分辨率构象的评分通常包含了很多人为地因素,这导致了得到的低能构象有时会与已知结构的蛋白序列有4?8 ? 的偏差。

Despite the employment of fragment configurations and low resolution, the efficiency and accuracy of abinitio protocols decrease with target size [17]. Many studies show that current protocols do not reliably scale to longer protein chains of more than 70 amino acids and topologies with many long-range contacts (often present in all β or α/β proteins) [15], [30], [31], [39]. It is currently unknown whether the thermodynamics treatment in ab-initio structure prediction protocols fails due to the quality of the fragment libraries, the sampling capability of the conformational search procedure, or a combination of the three [23], [15], [4], [10], [38].

尽管采用了片段结构和低分辨率,从头预测方法的效率和精确度都随着目标序列的长度的增大而降低。很多研究都表明现在的方法不能够可靠的预测长度超过70个氨基酸和包含很多远距离作用(通常出现在都是β折叠或者是α/β都有的蛋白质序列)的蛋白质序列。现在我们还不知道从头预测方法在蛋白质结构预测上的失败是由于热力学作用模型,片段库的质量问题,构象搜索程序的采样能力,还是它们三者的结合。

In this paper we do not focus on investigating the quality of fragment libraries but employ instead the most recent ones available in the Rosetta package [20]. Other studies have shown that, while the current quality of the Protein Data Bank (PDB) [2] allows putting together high-quality fragment libraries, different fragment lengths can be more effective for different protein topologies [15]. In this paper we employ fragments of length 9 and 3, constructed through the utilities available in the Rosetta package [20] as described in [13].

这篇文章中,我们不关注片段库质量的研究,而是采用最新的可用的Rosetta 包。另外很多的研究已经表明,目前已有的蛋白质数据库(PDB)可以建立起高

质量的片段库,不同的片段长度可以有效的对应不同的蛋白质拓扑结构。本文中我们采用的是Rosetta包中的可用的长度为9和3的片段。

In this paper, we investigate the interplay between low-resolution sampling and low-resolution energy functions. We do so in the context of a robotics-inspired framework with high sampling capability that allows directly investigating the role that energy should play in guiding sampling. Our investigation of the interplay between sampling and energy builds on several observations by other studies on the importance of enhanced sampling versus the accuracy of the energy function.

在这篇文章中,我们研究低分辨率采样和低分辨率能量函数之间的相互作用关系。我们研究一个有高采样能力的机器人启发式的框架,这个框架可以用来直接测试能量在引导采样的过程中所应该起的作用。我们的研究是建立在其他对增强采样的重要性和能量函数的准确性的相对关系的观察研究上的。

The generation of a decoy ensemble that contains near-native conformations, albeit at low resolution, is of primary importance in a blind prediction setting. If the sampling is inadequate, the region containing the native structure may be missed altogether. However, even if the native structure is reproduced by some decoy conformation(s), the energy function may not rank near-native conformations as having lowest energies. Indeed, this is common with many low-resolution energy functions and has been demonstrated by many studies [36], [44], [4], [10], [38]. For instance, work in [4] demonstrates that the Rosetta force field not only are weakly funneled (that is, many geometrically-dissimilar conformations can have comparable energies at low resolution.), but they can also lead optimization initiated at the native structure away from it [4]. Other studies show that significant deviations of as much as 4? can exist between the global minimum of even an all-atom energy function and the experimentally-available native structure [44].

尽管一个包含近天然态构象的诱导集合在低分辨率下产生,它仍是预测集合中最重要的。如果采样不足,天然态的结构就有可能全部丢失,即使天然态的结构可能被诱导构象重新产生,而能量函数有可能不对近天然态构象排名,也即它并不对应能量最低。的确,这在很多低分辨率能量函数中是普遍的,并且在很多研究中已有表明。例如,文献[4]中的工作表明,Rosetta的力场模型不仅仅是弱漏斗型的(也就是说,很多几何上不相似的构象可能在低分辨率下有相近的能量值。),而且它们可以导致开始优化的天然结构远离它。其他的研究表明,4?之大的偏差可以存在于一个全原子能量函数的全局极小点和实验测定的天然态结构之间。

Inaccuracies in a low-resolution energy function can lead a highly effective search or optimization technique to exploit artifacts of the energy function and so populate the decoy ensemble with very low-energy conformations of non-native topologies. In fact, the hallmark of an effective search procedure is often the presence of non-native conformations with much lower energies than the known native structure [10], [25], [24]. Even if the native structure is captured by some conformation(s) in the ensemble, the ensuing selection stage that picks a subset of decoys for further refinement may discard near-native conformations if they are high energy and/or insufficiently represented in the ensemble.

低分辨率能量函数的不精确性可以导致高效的搜索或者优化技术来利用能量函数的工件,这样,用低能的非天然态拓扑构象来填充诱导构象集。事实上,一个高效的搜索程序的标志常常是存在比已知天然结构能量更低的非天然构象。即使天然结构被集合中的一些构象所捕获,接下来的选择阶段中,用诱导构象集的子集来进一步优化的时候,近天然态的构象可能由于其高能量和(或)不具代表性而被丢失。

Effective selection of decoys for high-resolution refinement is a significant area of research [50]. The selection can be improved by building better low-resolution energy functions to score decoys. Since it is challenging to define such functions and find an energy threshold below which all the best decoys lie, the predominant strategy in selection techniques is to ignore energy altogether. Decoys are clustered by some measure of geometric similarity (predominantly, least Root Mean Squared Deviation–lRMSD), and the most populous or lowest-energy cluster of decoys is selected for further refinement [33], [3]. Other approaches employ distance matrices [12] or structural profiles extracted from contact matrices [45], take into account correlations between decoys [42], or filter decoys through NMR data [9], [37].

有效选择诱导构象来进行高分辨率优化是一个重要的研究领域。这种选择可以通过建立诱导构象的更好的低分辨率能量函数来提高。然而定义这样一个函数并且找到一个低于所有诱导构象的能量阈值是一件具有挑战性的事情,在选择策略上的主要技术是完全忽略能量。诱导构象可以通过一些几何相似性的方法来聚集(主要是最小均方误差lRMSD),大部分聚集的低能量诱导构象将被选择用来进行进一步的优化。其他的方法采用距离矩阵或者由相互作用矩阵得到的结构剖面,并且考虑诱导构象之间的相关性或者通过核磁共振数据来筛选诱导构象。

The appropriateness and success of the selection technique are closely tied to the conformational search procedure employed for the generation of decoys in the first place. For instance, density-based clustering relies on the

assumption that the sampled conformations are redundant; that is, the search procedure has sampled many geometrically-similar decoys. This is certainly the case when numerous independent MMC trajectories are launched to obtain decoys. Moreover, the extraction of the most populous rather than the lowest-energy cluster for refinement is based on the working assumption that the coarse-grained energy function may not preserve the depth of the native basin (the true global minimum) but may preserve its width [33], [5].

成功运用适当的选择技术与用来在第一步产生诱导构象的搜索程序是密切相关的。例如,基于浓度的聚集依赖于采样构象是冗余的这样一个假设;也就是说搜索程序采样到了许多几何相似的诱导构象。是这样的情况:推出众多独立MMC轨迹来获得诱导构象。此外,用来进一步优化的构象(而不是最低能量聚集)是基于一个假设的,即:粗粒度能量函数可能不会保留天然态区域的深度(真正的全局极小点),而可能保留其广度。

The predominant approach in many ab-initio protocols is to essentially rely on numerous and long MMC trajectories to simultaneously obtain a broad view of the energy surface and converge to a region near the native structure. Achieving both comes with great computational cost. Massively parallel architectures are sometimes employed to manage the cost [32]. Improving efficiency suggests sacrificing redundancy, which, if implemented improperly, may affect both the broad view of the energy surface and convergence to the native structure. In turn, it may render selection techniques that essentially exploit redundancy less effective. Sacrificing redundancy, however, brings the focus back onto the exploration method and its ability to enhance the sampling of near-native conformations.

很多从头预测方法的主要技术在于依靠大量长的MMC轨迹来模拟获得能量表面的广阔视野,并且收敛于近天然态结构的一个区域。实现这一点同时将付出巨大的计算代价。大规模并行体系结构有时被用来管理计算代价。提高效率意味着牺牲冗余度,如果实施不当,将会影响能量表面的广阔视野和到天然态结构的收敛性。反过来讲,这可能使选择技术在本质上利用冗余不那么有效。但是,牺牲冗余度将把问题重新带回到搜索方法和在近天然态构象处加强采样的能力。In this paper we propose to separate the objective of the low-resolution exploration into two subgoals. We first propose to obtain a broad, non-redundant view of the energy surface. We do so through a robotics-inspired exploration framework that is efficient and allows moreover investigating the role of energy bias in the sampling of non-redundant decoys beyond the Metropolis criterion. Unlike the predominant template, where numerous independent MMC trajectories implement energy bias locally

through the Metropolis criterion, our framework incorporates energy bias at a global level. Sampling is centralized into a tree search structure, whose branches are short MMC trajectories that employ molecular fragment replacement. Previous work by us on a particular realization of this framework has shown that biasing the growth of the tree allows effectively biasing sampling [36], [25]. Here we show that the framework allows obtaining a broad view of the energy surface in terms of diverse low-energy decoy conformations.

我们在这篇论文中提出,把低分辨率探测目标分离为两个子目标。首先要得到一个广阔的非冗余的能量表面景观,可以通过一个机器人启发式的探测框架来达到这个目的,这个框架是有效的,此外,这个框架可以表明能量偏向在采样非冗余诱导构象中所起的作用。与主要的模板不同,众多独立的MMC轨迹通过Metropolis准则实施局部的能量偏差,而我们的框架是把能量偏差在全局层面结合起来。采样点被集中到一个树的搜索结构中,这个树的分支即是使用分子片段置换的短MMC轨迹。在先前对于这个框架的特定的实现工作表明:偏压的成长树允许有效偏压抽样。这个框架允许依据多样的低能诱导构象来获得广阔的能量表面景观。

Different techniques are investigated to tune the strength of the energy bias in the framework and steer sampling towards a particular distribution of decoys. A soft energy bias lowering the average energy of a growing ensemble of decoys is shown most effective in obtaining a distribution that facilitates the subsequent selection of good-quality decoys. This setting guards against the framework exploring deep energy minima representative of non-native topologies that are artifacts of a given energy function. Energetic analysis of the decoy ensemble shows that soft rather than strong energy bias during the exploration allows retaining many near-native conformations even if a non-parametric energetic criterion is used for selection. Clustering of retained conformations shows that the ensemble obtained through a soft energy bias is structurally more diverse than when employing a strong energy bias.

不同的技术被研究用来调整框架中能量偏差的强度,并且控制特殊诱导构象分布的采样。软能量偏差降低了诱导构象集的平均能量,这表明获得分布的有效性,促进了随后高质量诱饵构象的选择。这个设置防范框架探索深层能量最小值代表非天然态拓扑结构构件的一个给定的能量函数。诱导集的能量分析表明,在搜索中,弱而不是强的能量偏差允许保留许多近天然态的构象,即使非参数能量判据用于选择。保留构象的聚集显示,通过弱能量获得集合比使用一个强能量偏差在结构上更加多样化。

We conduct our investigation in the context of two different well-known energy functions, the Associative Memory Hamiltonian with Water (AMW) and the Rosetta energy function. We have used AMW in our previous work to guide different search procedures [35], [36], [36], [24]. The Rosetta energy function is available to us from the Rosetta package [20]. While the ab-initio protocol in Rosetta employs a suite of energy functions in a hierarchical scheme, all these functions are scaled versions of the full Rosetta energy function of 10 terms. We employ the full function for the purpose of our analysis. A couple of observations can be drawn from analysis of our results. First, no energy function is the clear winner according to various metrics on a list of proteins of different lengths and topologies. However, while the AMW energy surface seems easier to explore and saturate, the Rosetta energy function seems more complex and benefits more from enhanced sampling.Higher-quality decoys closer to the known native structure can be obtained with the Rosetta energy function on proteins with β sheets, whereas AMW seems capable of providing similar quality on α proteins.

在这篇文章中,我们用两个非常著名的能量函数来实施研究,Associative Memory Hamiltonian with Water (AMW) 和Rosetta能量函数。先前的工作中我们曾使用AMW能量函数来引导不同的搜索程序。从Rosetta包中获得的Rosetta能量函数也是可以利用的。Rosetta中的从头预测方法应用了一系列能量函数的分级方案,所有的这些函数都是Rosetta函数的扩展版本。为了达到目的,我们使用了所有的函数。从结果分析中可以得出一些观察值。首先,由于不同长度和拓扑结构的蛋白质的多样的矩阵,没有哪一个能量函数有明显的优势。但是AMW能量函数的能量表面似乎更容易搜索和饱和,而Rosetta能量函数得益于增强采样,仿佛更为复杂。接近已知天然态结构的β折叠蛋白的高质量的诱导构象可以由Rosetta能量函数获得,而AMW能量函数可以有相似的质量在α螺旋蛋白。

Finally, we investigate possible convergence to a region near the native structure in the low-resolution stage. Since MMC trajectories are well-suited for convergence, we use them to optimize the non-redundant ensemble of low-energy decoys obtained with the robotics-inspired exploration framework. While the framework employs fragments of length 9 to efficiently obtain a broad view of a simplified energy surface, the MMC trajectories employ fragments of length 3 in order to further populate a more complex surface. Analysis shows that, while convergence is easily reached for some proteins, the energy function can steer the search away to other low-energy regions in some cases. In all proteins, the top 10 populous clusters identified through density-based clustering contain near-native conformations which can be

reliably used in a blind prediction setting for ab-initio structure prediction. However, many non-native topologies can be found populated sufficiently well among the top clusters. In a comparison of AMW to the Rosetta energy function, conformations closer to the native structure can be found among the top ten clusters when using the Rosetta energy function.

最后,我们研究了在低分辨率下,收敛到一个近天然态结构的区域的可能性。MMC轨迹能很好的收敛,我们可以使用MMC轨迹来优化由机器人启发式的搜索框架得到的非冗余的低能诱导构象集合。这个框架采用了长度为9的片段来有效的获得简化了的广阔的能量表面景观,MMC轨迹采用长度为3的片段为了进一步得到更为复杂的能量表面。分析表明,在某些情况下,对于某些蛋白质,当很快的收敛时候,能量函数可以引导搜索程度走向其他的低能量区域。对于所有蛋白质,最高的10个由基于浓度的聚类确定的集合,包含了近天然态的构象,它可以可靠的用于盲测和从头预测中。

The results presented in this paper make a first step into exploring the relationship between sampling and energy guidance in conformational search for ab-initio structure prediction. Taken together, the results suggest that search frameworks with enhanced sampling capability are important to better understand current deficiencies in ab-initio modeling to develop more accurate representations and energy functions. Our results confirm that the robotics-inspired search framework is promising in this direction and deserves further study.

这篇论文中表述的结果在研究蛋白质结构从头预测中采样和能量引导之间的关系上迈出了第一步。总的来说,结果表明:增强采样能力的搜索框架的是重要的,他可以更好地理解目前从头预测方法的缺陷以开发更精确的表示和能量函数。我们的结果证实机器人启发式的搜索框架在这个方向上是有前途的,值得进一步研究。

2 METHODS

2 方法

We first describe the main ingredients of the robotics-inspired framework employed to obtain a broad view of the energy surface. We then relate details on the representation employed and the energy functions investigated in this paper. The energy biasing techniques investigated to control the distribution of decoys during exploration are described next. Finally, we describe how MMC trajectories are employed to study convergence.

我们首先描述用来获得广阔的能量表面景观的机器人启发式框架的主要内容。其次把在这篇文章的研究中采用的代表构象的细节和能量函数联系起来。然后描述在搜索过程中研究的用来控制诱导构象分布的能量偏向技术。最后,我们将描述MMC轨迹是如何收敛的。

2.1 Obtaining a Broad View of the Energy Surface with a Robotics - inspired Sampling-based Framework

2.1 用基于采样的机器人启发式的框架获得广阔的能量表面景观

The robotics-inspired framework we investigate here for its ability to provide a broad view of the energy surface has been proposed by our group before [36]. Instead of launching independent long MMC trajectories, the framework integrates many short MMC trajectories into a tree search structure. The tree maintains the growing ensemble of decoys and so provides a discrete representation of the sampled conformational space. The short MMC trajectories employ molecular fragment replacement to efficiently obtain protein-like conformations. The tree search structure allows the framework to make decisions on the fly about which trajectories should be extended. This is an important feature, as it allows the framework to adapt its exploration and bias it away from regions of the conformational space and energy surface that are already well represented in the tree.

这里我们所研究的机器人启发式的框架用来得到广阔能量表面景观的能力在之前就被提出了。这个框架把很多短的MMC轨迹组合在一个树搜索结构中,而不是使用长的MMC轨迹。树保留了增长的诱导构象集合,所以它可以提供一个代表采样构象空间的描述。短MMC轨迹应用分子片段置换来高效的获得与蛋白相似的构象。树搜索结构允许框架来决定应该扩展的轨迹。这是一个重要的特性,因为它允许框架来调整其搜索并使其远离构象空间和能量表面区域,这一点已经很好的体现在树上了。

To bias its exploration, the framework employs two discretization layers that facilitate analysis of the explored conformational space and energy surface. The employment of discretization layers is inspired by sampling-based motion-planning work in robotics [41], [29], [47], [19], [43]. The first discretization is over energies of sampled conformations, and the second is over their geometries. A 1d grid is associated with energies of conformations in the tree. The issue of finding coordinates to efficiently group together structurally-similar conformations is resolved by employing coarse geometric features about a conformation (average distance from the centroid, average distance from the point farther from the centroid, and so on). These features allow associating a 3d grid with conformations in the tree. Probability

distribution functions can be defined over the discretization layers to bias the growth of the tree.

为了偏向其搜索,这个框架使用了两个离散的化层,便于分析搜索构象空间和能量表面。使用离散化的层结构是受机器人学中基于采样的运动规划启发的。第一层是采样构象的能量,第二层是几何结构。一个一维网格由构象的能量组织在树结构中。寻找可以高效的将结构相似的构象组织起来的坐标这一问题,通过应用构象粗糙的几何特性(到中心的平均距离,到里中心最远点的平均距离,等等)来解决。这些特性允许将构象的三维网格存放在树结构中。可以由离散化的层来定义概率分布函数以偏向树的增长。

Application of the framework in previous work has focused on expediting the process of biasing the search towards lowest-energy conformations and investigating different projection coordinates [36], [25], [26]. The 1d energy grid has been used to bias the selection towards conformations in lower energy levels (2 kcal/mol wide each) through the quadratic weight function ε)( )( )(+E ?E =l l l avg avg ω, where ε is a small value that ensures high-energy conformations have a nonzero probability of selection. A level l is selected with probability ∑∈''Layer )()/( l l l ωω. In this paper, we will refer to this probability

distribution as the QUAD distribution.Once an energy level is selected, a cell belonging to it in the 3d geometric projection grid can be selected according to another probability distribution. A second weight function nconfs] nsel) 1.0/[(1.0?+ where nsel records how often a cell is selected, and nconfs is the number of conformations projected to the cell. This function avoids cells that have been selected for expansion many times before and are already populated by many conformations. Once a cell is selected, any conformation in it can be selected at random for expansion; a short MMC trajectory from that conformation constitutes a new branch of the tree. This process is illustrated in Fig. 1.

框架在以前工作的应用都集中在偏置低能构象搜索程序的加速,研究不同的投影坐标。一维网格被用来偏向对低能量层(2 kcal/mol )构象的选择,通过使用一个二次权重函数ε)( )( )(+E ?E =l l l avg avg ω,这里ε是一个很小的值,用来保证高能量的构象不会被选择。能量层l 通过概率∑∈''Layer )()/( l l l ωω来选择。在这篇

论文中,我们将参考QUAD 分布作为概率分布。当一个层被选择了之后,在这个层中的三位几何投影网格的单元将由另一个概率分布来选择确定。第二个权重

函数为nconfs] nsel) 1.0/[(1.0

?+,nesl 记录单元被选择的频率,nconfs 是投影到

这个单元中的构象的数量。这个函数避免了选择之前已多次被选为扩张并已经有许多构象的单元。当一个单元被选择之后,其中的构象可以被随机的选择来进行扩展;被选择的构象的短的MMC轨迹将形成树的一个新的分支。这在图1中表明。

Fig. 1. An energy level is first selected as described. A second probability distribution function over all cells mapping to the selected energy level is then used to select a cell. The tree expands from a conformation selected uniformly at random over conformations mapping to the selected cell. Two coordinates instead of the 3 employed by the framework for the geometric projection layer are shown here for ease of visualization.

图1 如图描述,一个能量层被第一次选择,映射到所选层的所有单元将由第二个概率分布函数来选择出一个单元。树结构将由映射到所选单元的按规律或随机选择的构象来进行扩展。这个框架中,我们使用几何投影的两个坐标代替三个坐标来表示,这样将有利于可视化。

The probability distributions over the discretization of the energy surface and over the discretization of the conformational space are shown to help the framework quickly populate low-energy regions [36]. The framework has been shown to have higher sampling capability than a long MMC trajectory, and the combination of both discretization layers are shown to improve sampling over using one of them in isolation or none at all (when both layers are turned off, the tree degenerates to an MMC trajectory) [36]. Fragments of length 3 and the AMW energy function have been employed in previous work. On many proteins, the exploration has been found to approach the native structure within 5? [36], [25], [26].

概率分布的离散化的能量表面和构象空间的离散化,用来帮助框架快速填充低能量区域。这一框架比长MMC轨迹有更高的采样能力,两个层级的结合表明

使用其中之一或者不使用(当两层都不使用时树结构退化为MMC轨迹)都会提高采样能力。之前的工作中,我们在AMW能量函数中使用了长度为3的片段。对很多蛋白质来讲,搜索结果与天然态在5?的偏差之内。

The objective in previous work has been to demonstrate that the framework improves coverage of the conformational space over independently-running MMC trajectories.While QUAD biases the tree towards lower energies, employment of QUAD for the purpose of decoy generation risks exploiting minima that are artifacts of the energy function. However, the employment of probability distribution functions to ultimately control the distribution of sampled conformations make the framework particularly versatile for the purpose of decoy sampling and the study of deficiencies in ab-initio modeling. Here we show the first steps in this direction. We propose different probability distribution functions to implement the energy bias and show that one of them, corresponding to a soft energy bias, is better suited to obtain a broad non-redundant view of the energy surface through low-energy distinct decoys. We do so on two different state-of-the-art low-resolution energy functions and show that, while both allow capturing near-native conformations in the decoy ensemble, both are capable of associating very low scores with non-native decoys.We now detail the implementation of the energy bias.

先前的工作已经表明,这个框架相比独立的运行MMC轨迹,会提高构象空间的覆盖范围。然而,QUAD使树偏向低能量,使用QUAD达到产生诱导构象的目的会冒一个风险,这就是搜索人为构造的能量函数的极小点。但是,使用概率分布函数来最终控制采样构象的分布使得这个框架在诱导构象采样和发现从头预测模型的缺点上有特别的功能。这里,我们展示这个方向的第一步。我们提出不同的概率分布函数来实现能量偏向,并标明:其中一个,对应于一个弱能量偏向,更适合通过低能诱导构象获得广阔的非冗余的能量表面景观。我们在两个高质量的低分辨率能量函数做了测试,结果表明,在诱导构象集中,两个能量函数都能够捕获近天然态的构象,都能够组织非天然态的低分诱导构象。接下来我们实施能量偏向的具体细节。

2.1.1 Implementing Energy Bias

2.1.1 能量偏向的实施

The QUAD probability distribution function defined over weights ωdescribed above essentially implements a strong =l

l

E

l

)(

E?

)(

)(+

ε

avg

avg

energy bias that controls the growth of the tree through the expansion of

lowest-energy decoys to obtain even lower-energy decoys. Note that the geometric projection grid is employed as above in conjunction with the energy bias. This setting can be very greedy and lead the framework, despite the bias away from over-sampled cells in the conformational space, to deep energy minima that are artifacts of a given energy function. In contrast, one can ignore energy bias altogether. Essentially, all conformations can be treated as energetically equivalent and projected to the same energy level. Only the geometric projection grid and the probability distribution function defined on it (defined above over weights nconfs]

1.0/[(1.0?

+) can be employed. Let us

nsel)

refer to this probability distribution function as COV, as it essentially allows ignoring the energy surface and only steers the search to coverage of un-sampled regions of the conformational space.

ω定义的QUAD概率分布函数,基本由上面描述的权重ε

l

l

)(

=l

E

)(

)(+

E?

avg

avg

上实现了一个强大的能量偏差控制树的生长,通过最低诱导构象的扩张获得更低能量的诱导构象。注意,上面所采用的几何投影网格与能量偏向是相结合的。这个设置可以是很贪婪的,并且引导框架,尽管构象空间中的过采样单元与之偏离很远,能量进一步的最小化是人为给定的能量函数。与之相较,我们可以忽略所有能量偏向。其实,所有的构象都可以认为是相同能量的,且投影到相同能量层。只有几何投影网格和定义在它(nconfs]

+)上的概率分布函数可以

1.0/[(1.0?

nsel)

被使用。我们且把这个概率分布函数称为COV,因为它本质上允许忽略能量表面,并且仅仅引导搜索覆盖未采样的构象空间区域。

A new probability distribution function can be defined to implement a soft energy bias instead. As the tree and its conformational ensemble Ω gr ow, the mean (μΩ) and standard deviation (σΩ) can be updated over the energies of decoys. The mean tends to go lower over time, as the MMC trajectories that constitute the tree branches guide the tree towards lower energies through the Metropolis criterion. The energy level whose average energy is closest to a sample drawn from the Gaussian distribution (μΩ, σΩ) can be selected for expansions. The geometric projection grid is employed as above. We refer to this third realization of the framework as NORM. Unlike QUAD, NORM does not greedily bias the search tree towards the lowest-energy decoys. Instead, the tree slowly grows towards low-energy decoys and associates low probabilities of selection to energy levels on either tail of the energy distribution.

可以重新定义一个概率分布函数来实施一个弱能量偏向。当树和它的构象集Ω增长,平均(μΩ) 的和标准的误差(σΩ)可以用诱导构象的能量来更新。均值随时间趋向更低的能量,MMC轨迹构成了树枝,并通过Metropolis标准指导树走向

低能量。平均能量的能量水平接近高斯分布的抽样(μΩ,σΩ)可以选择扩展。采用如上所述的几何投影网格。我们将第三个实现框架作为NORM。与QUAD不同,NORM不贪婪地偏向搜索树最低诱导构象。树缓慢的向低能诱导构象趋近,低概率的选择能量层对能量分布的尾部。

2.2 Employed Representation and Energy Functions

2.2 使用代表构象和能量函数

2.2.1 Representational Detail

2.2.1 代表构象细节

As we focus only on the low-resolution stage in abinitio modeling, the representation of a conformation sacrifices some structural detail. When employing the AMW energy function, the representation reduces side chains to only the Cβ atom (with exception of glycine). When employing Rosetta energy function, the C atom is swapped for a centroid per side chain. Internally, two representations are maintained, one angular and another consisting of cartesian coordinates. The angular representation maintains only three backbone dihedral angles (φ, ψ, omega) per amino acid, as sampled from the fragment configuration library. This representation is essentially the idealized geometry model, which fixes bond lengths and angles to idealized (native) values (taken from CHARMM22 [6]). The conversion from backbone dihedral angles to atomic coordinates, necessary for calculation of an energy score, employs forward kinematics[48]. Cartesian coordinates are only calculated for the backbone N,C,Cα,O atoms and either the Cβatom for amino acids with side-chain heavy atoms when using AMW or the side-chain centroid pseudo-atom when using the Rosetta energy function.

在从头预测中,我们只关注低分辨率级别,使用代表构象牺牲了一些结构上的细节。当采用AMW能量函数时,代表构象只减少了Cβ原子(除去甘氨酸)的侧链。当采用Rosetta能量函数时,每条侧链的C原子被交换到质心位置。在内部,保留了两个代表构象,一些角度由笛卡儿坐标组成。像从片段结构库中采样那样,每一个氨基酸中只保留三个骨干二面角(φ, ψ, omega) 。这种表示方法本质上是理想化的表示模型,它与理想的(天然态)键长和键角相一致。采用正向运动学计算一个能量分数需要从骨干二面角到原子坐标的转变。当使用AMW能量函数或者在使用Rosetta能量函数的侧链中心伪原子时,笛卡尔坐标仅仅用来计算有侧链重原子氨基酸的骨干原子(N,C,Cα,O,Cβ)。

2.2.2 AMW Energy Function

2.2.2 AMW能量函数

This function, a modification of the low-resolution potential originally proposed in [28], has been used previously by us and others in the context of ab-initio structure prediction [34], [36], [25], [26], [35], [16]. AMW sums non-local terms (local interactions are kept at ideal values in the idealized geometry model): E AMW= E Lennard?Jones + E H?Bond + E contact + E burial +E water + E Rg. The E Lennard?Jones term is implemented after the 12-6 Lennard-Jones potential in AMBER9 [8] allowing a soft penetration of van derWaals spheres. The E H?Bond term allows modeling hydrogen bonds and is implemented as in [12]. The other terms, E contact, E burial, and E water, allow formation of non-local contacts, a hydrophobic core, and water-mediated interactions, and are implemented as in [30]. The E Rg favors collapse by penalizing conformations with radius of gyration significantly different from theoretically-calculated values [35].

AMW能量函数,是对最初在[28]中提出的低分辨率的修正。它已经被我们和其它文章在从头预测中多次采用。AMW对非局部作用求和(局部的作用保留在理想化的几何模型的理想化的值中),E AMW= E Lennard?Jones + E H?Bond + E contact + E burial +E water + E Rg 。E Lennard?Jones()允许范德瓦尔斯领域的渗透,E H?Bond允许模拟氢键作用([12]中实现)。E contact,E burial和E water,允许形成非局部作用,疏水内核,与水的作用([30]中实现)。E Rg趋近消失,通过用与理论计算值有很大偏差的回转半径惩罚构象。

2.2.3 Rosetta Energy Function

2.2.3 Rosetta能量函数

The Rosetta ab-initio protocol uses a suite of different scoring functions in a hierarchical scheme. A total of 6 different scoring functions are used in the low-resolution stage in Rosetta. These correspond to different assignments to the weights that measure the contribution of different local and non-local energy terms. What we refer to as the Rosetta energy function is a linear combination of all possible 10 energy terms, which measure repulsion, amino-acid propensities, residue environment, residue pair interactions, three terms measuring interactions between secondary structure elements, and three other terms measuring density and compactness of structure (cf. to Ref.

[33] for more details).

Rosetta从头预测方法在分级方案中使用了一系列不同的计分函数。在Rosetta的低分辨率级别一共使用了6个不同的计分函数。这些计分函数对应于不同的任务度量局部和非局部在能量上的贡献。我们认为Rosetta能量函数是所有可能的10个能量方面的线性组合,这些方面分别是:测量排斥,氨基酸倾向,残基环境,残基对相互作用,三方面测量二级结构元素之间的相互作用,另外的三

方面测量结构的密度和紧凑性。

The low-resolution stage in the Rosetta protocol consists of 4 different substages, each with different scoring functions. The first substage conducts 1-2 cycles of 2, 000 MMC moves each starting with an extended chain and using the score0 assignment. The only energy term modeled is a soft steric repulsion, and its purpose is to yield a random starting conformation. The second substage of 2, 000 MMC moves uses score1 to accumulate secondary structure. The third substage uses 5 cycles of 2, 000 MMC moves each with score2 followed by a cycle of 2, 000 MMC moves with score5; score2 includes terms to favor hydrophobic collapse and beta strand pairings, whereas score5 lacks these two terms to allow relaxation. The fourth and final substage consists of 3 cycles of 4, 000 MMC moves each and uses score3, which has all the possible energy terms except for hydrogen bonding. The ensuing selection analysis in preparation for side-chain packing and energetic refinement uses score4 to rank low-resolution conformations; score4 does not have any compaction or beta-strand pairing terms.

在Rosetta方法的低分辨率级别中包含了4中不同的亚阶,分别是不同的计分函数。第一个亚阶进行1 - 2周期的2000次MMC扰动,每次由长链开始,使用score0分配。唯一的能量模型是一个弱的空间排斥,它的目的是产生一个随机的构象。第二个亚阶实施2000次MMC扰动,使用score1来计算二级结构。第三个亚阶实施5个周期的2000次MMC扰动,每一次循环使用score5之后在用score2,score2包含了有利于疏水崩溃和β链配对的条款,而score5没有这样的约束而允许放松。第四和第五亚阶包括了3个周期的4000个MMC扰动,使用score3,它包含了除氢键之外的所有可能的能量方面。接下来的选择分析,准备包装侧链和能量细化,使用score4排名低分辨率的构象;score4没有任何压实或β链配对的条款。

In light of this intricate protocol of different scoring functions, what we refer to as the Rosetta energy function in the comparison analysis in this paper corresponds to score3, as this is the one that has the highest number of Rosetta energy terms in the low-resolution stage, and all other scoring function in the low-resolution stage can be viewed as a scaled variant of score3.

根据这个复杂的不同计分函数的方法,我们在这篇论文中依据score3来进行Rosetta能量函数的比对分析,因为这是一个使用最多的Rosett a能量方面在低分辨率的阶段,所有其他计分函数在低分辨率阶段可以被视为一种score3的变种。

2.3 Ensemble Analysis

2.3 集合分析

We now describe techniques to compare the three different realizations of the exploration framework implementing the different energy biases.

我们现在来描述比较三种不同的使用不同的能量偏向实现搜索框架的技术。

2.3.1 Energetic Reduction

2.3.1 能量减小

Reducing the ensemble Ω produced by the tree through an energetic criterion allows removing high-energy decoys added to the tree during the exploration. We employ a non-parametric threshold that discards any sampled conformation with energy higher than the mean.This threshold is not protein-dependent and reduces the size of the ensemble by about 50%. While discarding about half the ensemble may sacrifice a few decoys with low lRMSDs to the native structure, the majority of low-lRMSD decoys are generally maintained in the reduced ensemble ΩE. The results in section 3 show that more low-lRMSD conformations are maintained when reducing the ensemble produced through QUAD and NORM. This is expected, as these two probability distribution functions implement an energy bias, and near-native conformations, while not among the lowest energy decoys, are associated with low energies. The results in section 3 also show that more near-native conformations are retained when reducing the ensemble produced through NORM than QUAD, and this is particularly pronounced when using the AMW versus the Rosetta energy function.

通过一个能量标准来减小由树产生的集合Ω,这样可以去除一些在搜索中添加到树中的高能量诱构象。我们采用非参数阈值,丢弃任何能量高于平均值的采样构象。这个阈值并不是基于蛋白质的,它可以减小集合约50%。而丢弃的一半集合可能牺牲一些lRMSD值较小的接近天然结构诱导构象,大多数低lRMSD值的诱导构象一般会保留在减少的集合ΩE中。第三节中的结果表明,通过QUAD 和NORM,大多低lRMSD值的构象会被保留。这是所期望的,因为这两个概率分布函数实现能量的偏向,近天然态构象,虽然不是最低能量的诱导构象,但与低能量有关。第三节中的结果还表明,大多近天然态构象被保留在通过NORM和QUAD减少的集合中,这一点在使用AMW与Rosetta能量函数尤为明显。

2.3.2 Geometric Reduction

2.3.2 几何减少

The framework employs coarse projection coordinates to efficiently group together similar conformations and bias the search on the fly away from over sampled regions. Employing lRMSD-based (see section 3 for a description of

lRMSD) comparisons and clustering would provide more detail and accuracy, but it would not be efficient. However, lRMSD-based clustering can be performed on the energetically-reduced ensemble ΩE both to analyze and compare the diversity of decoys across the three realizations of the framework and to further reduce the ensemble to a subset of distinct regions from which exploration can resume at greater detail.

框架采用粗投影坐标有效组织相似构象,并偏向在过采样区域进行搜索。采用lRMSD(见第3节)比较和聚类将提供更多的细节和准确性,但效率不高。然而,基于lRMSD的集群可以在能量减小的集合ΩE上执行分析和比较的诱导构象的多样性,在三个框架的实现和进一步降低整体的一个子集,不同区域的搜索可以得到更详细的细节。

We utilize an adaption of the bisecting K-Means algorithm [40] on the ΩE ensemble. Medioids instead of centroids are chosen to represent clusters so as to avoid irregular local structures resulting from angle averaging [51]. Initially, a conformation is selected at random to serve as the representative of the first cluster that encompasses all conformations in the ensemble. The essential process in bisecting K-Means clustering is that a cluster is broken into two new ones if the minimum lRMSD from their cluster representative is above an threshold. Two random conformations are selected to serve as the representatives of the two new clusters. When conformations are reassigned, the representatives selected at random are replaced with the cluster medioids. The proximity of the conformations in each cluster is reevaluated. If the minimum lRMSD is above ? , the process begins anew (hence, bisecting). In the end, the medioids of the clusters are essentially a reduced representation of the ΩE ensemble and constitute the ΩE,C ensemble.

我们在ΩE上利用一个适应二等分的k - means算法。使用Medioids而不是选择质心代表集群以避免不规则角平均所导致的局部结构。最初,构象是随机选择的作为第一个集群包含所有构象的代表。角平分线的基本进程k - means聚类是一个集群分为两个新的如果最低lRMSD从集群代表超过一个阈值。随机选择两个构象作为两个新的集群的代表。构象重新分配时,随机选择的代表被集群medioids取代。每个集群中接近的构象会被重新评估。如果最小的lRMSD超过了?,这个过程将重新开始。最后,medioids的集群本质上是一个减小的表示ΩE 的集合代表,构成ΩE,C集合。

The bisecting K-Means algorithm is less susceptible to initialization issues and does not require a priori determining the number of clusters. It requires, however, setting the maximum intra-cluster distance. In this work, we analyze the effect of two different values, 3 and 5? on the diversity of the resulting ΩE,C

第九章蛋白质分解答案

第九章蛋白质分解答案 名词解释 1.必需氨基酸:指体内需要,但人体本身不能合成或合成速度不足以满足需要,必须由食物蛋白质提供的氨基酸。 2. 蛋白质的营养互补作用:把几种营养价值较低的蛋白质混合食用,使所含的必需氨基酸在组成上能相互补充,从而提高蛋白质营养价值的作用,称为蛋白质的营养互补作用。 3. 一碳单位:某些氨基酸在分解代谢中,可产生含有一个碳原子的有机基团,称为一碳单位错误!未找到引用源。或一碳基团。 4. 蛋白质腐败作用:肠道细菌对那些残余的蛋白质、多肽及未被吸收的氨基酸所起的分解作用,称为蛋白质的腐败作用 简答题 1. 尿素循环是维持血氨低浓度的关键。当肝功能严重损伤时,尿素循环发生障碍,血氨浓度升高,称为高氨血症。一般认为,氨进入脑组织,可与α-酮戊二酸结合成谷氨酸,谷氨酸又与氨进一步结合生成谷氨酰胺,从而使α-酮戊二酸和谷氨酸减少,导致三羧酸循环减弱,从而使脑组织中ATP减少。谷氨酸本身为神经递质,且是另一种神经递质γ-氨基丁酸(GABA)的前体,其减少亦会影响大脑的正常生理功能,严重时可出现昏迷,这就是肝昏迷的氨中毒学说。 2. 体内游离氨基酸构成氨基酸代谢池,代谢池的氨基酸由三种来源:①食物蛋白质消化吸收;②组织蛋白质分解;③体内合成非必需氨基酸。氨基酸的去路有:①合成组织蛋白质;②转变成多种由特殊生理功能的其它含氮化合物,如肾上腺素、黑色素、甲状腺激素、血红素、嘌呤和嘧啶等;③分解代谢。 3. 一碳单位的主要功能,是作为合成嘌呤核苷酸和嘧啶核苷酸的原料,在核酸的生物合成中起重要作用。故一碳单位代谢与细胞增殖、组织生长等过程密切相关。 一碳单位还参与体内许多甲基化反应过程,如卵磷脂的合成。 一碳单位代谢是将氨基酸分解代谢与核酸生物合成及其他代谢密切联系的纽带,对人体的生命活动有重要意义。

蛋白质结构与功能的关系94592

蛋白质结构与功能的关系 (The relationship between protein structure and function) 摘要蛋白质特定的功能都是由其特定的构象所决定的,各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化,必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化,可能导致蛋白质构象紊乱症,当然也能引起生物体对环境的适应性增强!现而今关于蛋白质功能研究还有待发展,一门新兴学科正在发展,血清蛋白组学,生物信息学等!本文仅就蛋白质结构与其功能关系进行粗略阐述。 关键词:蛋白质结构;折叠/功能关系;蛋白质构象紊乱症;分子伴侣 Keywords:protein structure;fold/function relationship;protein conformational disorder;molecular chaperons 虽然蛋白质结构与生物功能的关系比序列与功能的关系更加紧密,但结构与功能的这种关联亦若隐若现,并不能排除折叠差别悬殊的蛋白质执行相似的功能,折叠相似的蛋白质执行差别悬殊功能的现象的存在。无奈,该领域仍不得不将100多年前Fisher提出的“锁一钥匙”模型(“lock—key”model)和50多年前Koshand提出的诱导契合模型(induce fitmodel)作为蛋白质实现功能的理论基础。这2个略显粗糙的模型只是认为蛋白质执行功能的部位局限在结构中的一个或几个小区域内,此类区域通常是蛋白质表面上的凹洞或裂隙。这种凹洞或裂隙被称为“活性部位(active site)”或“别构部位(fallosteric site)”,凹陷部位与配体分子在空间形状和静电上互补。此外,在酶的活性部位中还存在着几个作为催化基团(catalyticgroup)的氨基酸残基。对蛋白质未来的研究应从实验基本数据的归纳和统计入手,从原始的水平上发现蛋白质的潜藏机制【1】。 蛋白质结构与功能关系的研究主要是以力求刻画蛋白质的3D结构的几何学为基础的。蛋白质结构既非规则的几何形,又非完全的无规线团(randomcoil),而是有序(α一螺旋和β一折叠)与无序(线团或环域loop)的混合体。理解蛋白质3D结构的技巧是将结构简化,只保留某种几何特征或拓扑模式,并将其数字化。探求数字中所蕴含的规律,且根据这一规律将蛋白质进行分类,再将分类的结构与蛋白质的功能进行比较,以检验蛋白质抽象结构的合理性。如果一种对蛋白质结构的简化、比较和分类能与蛋自质的功能有较好地对应关系,那么这就是一种对蛋白质结构的有价值的理解。蛋白质结构中,多种弱力(氢键、范德华力、静电相互作用、疏水相互作用、堆积力等)和可逆的二硫键使多肽链折叠成特定的构象。从某种意义上说,共价键维系了蛋白质的一级结构;主链上的氢键维系了蛋白质的二级结构;而氨基酸侧链的相互作用和二硫桥维系着蛋白质的三级结构。亚基(subunit)内部的侧链相互作用是构象稳定的基础,蛋白质链之间的侧链的相互作用是亚基组装(四级结构)的基础,而蛋白质中侧链与配体基团问的相互作用是蛋白质行使功能的基础。 牛胰核糖核酸酶(RNase)变性和复性的实验是蛋白质结构与功能关系的很好例证。蛋白质空间结构遭到破坏;,可导致蛋白质的理比性质和生物学性质的变化,这就是蛋白质变性。变性的蛋白质,只要其一级结构仍然完好,可在一定条件下恢复其空间结构,随之理化性质和生物学性质也可重现,这被称为复性。RNase是由124个氨基酸残基组成的一条肽链,分子中8个半胱氨酸的巯基构成4对二硫键,进而形成具有一定空间构象的活性蛋白质。天然RNase遇尿素和β巯基乙醇时发生变性,其分子中的氢键和4个二硫键解开,严密的空间结构遭破坏,丧失了生物学活性,但一级结构完整无损。若去除尿素和β巯基乙醇,RNase又可恢复其原有构象和生物学活性。RNase分子中的8个巯基若随机排列成二硫键可有105种方式。有活性的RNase只是其中的一种,复性时之所以选择了自

基于静态网络的蛋白质复合物预测方法综述

Software Engineering and Applications 软件工程与应用, 2018, 7(3), 151-159 Published Online June 2018 in Hans. https://www.doczj.com/doc/f81379167.html,/journal/sea https://https://www.doczj.com/doc/f81379167.html,/10.12677/sea.2018.73018 A Survey of Computational Methods for Protein Complexes Prediction Based on Static PPI Networks Yang Yu Software College, Shenyang Normal University, Shenyang Liaoning Received: Jun. 6th, 2018; accepted: Jun. 20th, 2018; published: Jun. 27th, 2018 Abstract Protein complexes are formed by interacting proteins and exhibit diverse biological functions. Protein complexes are predicted by computational methods from biological networks, which is not only important for understanding the mechanisms of biological activities and the pathogenesis of diseases, but also for making up the deficiencies of biological high-throughput experimental methods. In this paper, two types of prediction methods based on static network protein com-plexes are introduced and analyzed. Secondly, we discuss the deficiencies of protein complex al-gorithms and the challenges of this field. Keywords Protein-Protein Interaction Network, Clustering, Complex Prediction, Computational Methods 基于静态网络的蛋白质复合物预测方法综述 于杨 沈阳师范大学,软件学院,辽宁沈阳 收稿日期:2018年6月6日;录用日期:2018年6月20日;发布日期:2018年6月27日 摘要 蛋白质复合物通过相互作用蛋白质形成,表现出多样的生物功能。使用计算方法从生物网络中预测蛋白质复合物不仅对于理解生物活动的机制和疾病的发病机理具有重要意义,而且可以弥补生物高通量实验

第五章 蛋白质的共价结构-习题

第五章蛋白质的共价结构 一、选择题 ⒈关于蛋白质构象的下列描述,其中正确的是;() A、指手性碳原子上某一原子或基团的方位; B、指几何异构体中顺式或反式; C、指多肽链中 一切原子(基团)随α-碳原子旋转,盘曲而产生的空间排布;D、指原子或基团改变涉及共价键的断裂和生成;E、不涉及蛋白质分子中的次级键和共价键 ⒉蛋白质的一级结构指:() A、蛋白质所含氨基酸的种类和数目; B、蛋白质氨基酸的排列顺序; C、蛋白质分子多肽链的 折叠盘曲;D、包括A、B、和C;E、以上都不对 ⒊蛋白质一级结构和功能关系的特点是:() A、相同氨基酸组成的蛋白质功能一定相同; B、一级结构相近的蛋白质,其功能类似性越大; C、一级结构中任何氨基酸的改变,其生物活性立即丧失; D、不同生物来源的同种蛋白质,其 一级结构完全相同;E、一级结构中任何氨基酸残基的改变,都不会影响其功能 ⒋为了充分还原核糖核酸酶,除了应用巯基乙醇,还需要() A、过甲酸; B、尿素; C、调节pH到碱性; D、加热到50℃; ⒌如果要测定一个小肽的氨基酸顺序,下列试剂中选择一个你认为最合适的() A、茚三酮; B、CNBr; C、胰蛋白酶; D、PITC ⒍蛋白质与碱共热而水解,虽然这个过程会破坏一些氨基酸,但它却被常用来定量蛋白质中的() A、Ser; B、Cys; C、Thr; D、Trp ⒎双缩脲反应主要用来测定() A、DNA; B、RNA; C、胍基; D、肽 ⒏肽键在下列哪一个波长具有最大光吸收。() A、215nm; B、260nm; C、280nm; D、340nm; E、以上都不是。 ⒐有一多肽经酸水解后产生等摩尔的Lys,Gly和Ala。如果用胰蛋白酶水解该肽,仅发现有游离的 Gly和一中二肽。下列多肽的一级结构中,哪一个符合该肽的结构?() A、Gly-Lys-Ala-Lys-Gly-Ala; B、Ala- Lys-Gly; C、Lys- Gly-Ala; D、Gly-Lys-Ala; E、Ala- Gly-Lys ⒑测定小肽氨基酸序列的最好方法是:() A、2,4-二硝基氟苯法(FDNB); B、二甲基萘磺酰氯法(DNS-Cl法); C、氨肽酶法; D、苯 异硫氰酸酯法;E、羧肽酶法 二、判断是非 ⒈所有的蛋白质都具有催化活性。 ⒉构型的改变必须有共价键的断裂。 ⒊蛋白质多肽链主链骨架由NCCNCCNCCNCCNCC……方式组成。 ⒋蛋白质中所有的组成氨基酸均可以酸水解后用氨基酸自动分析仪定量测出。 ⒌用羧肽酶A水解一个肽发现从量上释放最快的是Leu,其次是Gly,根据此结果可断定此肽的C 端序列是-----Gly-Leu。 ⒍溴化氰能作用于多肽链中的甲硫氨酸键。 ⒎所有蛋白质的摩尔消光系数都是一样的。

蛋白质结构与功能的关系

蛋白质结构与功能的关系 蛋白质的结构包括一级结构、二级结构、三级结构、四级结构。 一级结构是蛋白质的一级结构指在蛋白质分子从N-端至C-端的氨基酸排列顺序。一级结构是蛋白质空间构象和特异生物学功能的基础,但不是决定蛋白质空间构象的唯一因素。 蛋白质的二级结构是指多肽链的主链骨架本身在空间上有规律的折叠和盘绕,它是由氨基酸残基非侧链基团之间的氢键决定的。常见的二级结构有α螺旋、三股螺旋、β折叠、β转角、β凸起和无规卷曲。α螺旋中肽链骨架围绕一个轴以螺旋的方式伸展,它可能是极性的、疏水的或两亲的。β折叠是肽链的一种相当伸展的结构,有平行和反平行两种。如果β股交替出现极性残基和非极性残基,那么就可以形成两亲的β折叠。β转角指伸展的肽链形成180°的U形回折结构而改变了肽链的方向。β凸起是由于β折叠股中额外插入一个氨基酸残基而形成的,它也能改变多肽链的走向。无规卷曲是在蛋白质分子中的一些极不规则的二级结构的总称。无规卷曲无固定走向,有时以环的形式存在,但不是任意变动的。从结构的稳定性上看,右手α螺旋>β折叠> U型回折>无规卷曲,但在功能上,酶与蛋白质的活性中心通常由无规卷曲充当,α右手螺旋和β折叠一般只起支持作用。 蛋白质的三级结构是指多肽链在二级结构的基础上,进一步盘绕、卷曲和折叠,形成主要通过氨基酸侧链以次级键以及二硫键维系的完整的三维结构。三级结构通常由模体和结构域组成。稳定三级结构的化学键包括氢键、疏水键、离子键、范德华力、金属配位键和二硫键。模体可用在一级结构上,特指具有特殊生化功能的序列模体,也可被用于功能模体或结构模体,相当于超二级结构。结构模体是结构域的组分,基本形式有αα、βαβ和βββ等。常见的模体包括:左手超螺旋、右手超螺旋、卷曲螺旋、螺旋束、α螺旋-环-α螺旋、Rossmann卷曲和希腊钥匙模体。结构域是在一个蛋白质分子内的相对独立的球状结构和/或功能模块,由若干个结构模体组成的相对独立的球形结构单位,它们通常是独自折叠形成的,与蛋白质的功能直接相关。一个结构域通常由一段连续的氨基酸序列组成。根据其占优势的二级结构元件的类型,结构域可分为五大类:α结构域、β结构域、α/β结构域、α+β 结构域、交联结构域。以上每一类结构域的二级结构元件可能有不同的组织方式,每一种组织就是一种结构模体。这些结构域都有疏水的核心,疏水核心是结构域稳定所必需的。 具有两条和两条以上多肽链的寡聚蛋白质或多聚蛋白质才会有四级结构。组成寡聚蛋白质或多聚蛋白质的每一个亚基都有自己的三级结构。蛋白质的四级结构内容包括亚基的种类、数目、空间排布以及亚基之间的相互作用。驱动四级结构形成或稳定四级结构的作用力包括

蛋白质的一级结构(共价结构)

1.蛋白质的一级结构(共价结构) 蛋白质的一级结构也称共价结构、主链结构。 1.蛋白质结构层次 一级结构(氨基酸顺序、共价结构、主链结构) ↓是指蛋白质分子中氨基酸残基的排列顺序 二级结构 ↓ 超二级结构 ↓ 构象(高级结构)结构域 ↓ 三级结构(球状结构) ↓ 四级结构(多亚基聚集体) 1.一级结构的要点 . 1.蛋白质测序的一般步骤 祥见 P116 (1)测定蛋白质分子中多肽链的数目。 (2)拆分蛋白质分子中的多肽链。 (3)测定多肽链的氨基酸组成。 (4)断裂链内二硫键。 (5)分析多肽链的N末端和C末端。 (6)多肽链部分裂解成肽段。 (7)测定各个肽段的氨基酸顺序 (8)确定肽段在多肽链中的顺序。 (9)确定多肽链中二硫键的位置。 1.蛋白质测序的基本策略 对于一个纯蛋白质,理想方法是从N端直接测至C端,但目前只能测60个N端氨基酸。 1.直接法(测蛋白质的序列) 两种以上特异性裂解法 N C A 法裂解 A1 A2 A3 A4 B 法裂解 B1 B2 B3 B4 用两种不同的裂解方法,产生两组切点不同的肽段,分离纯化每一个肽段,分离测定两个肽段的氨基酸序列,拼接成一条完整的肽链。

1. 间接法(测核酸序列推断氨基酸序列) 核酸测序,一次可测600-800bp 1. 测序前的准备工作 1. 蛋白质的纯度鉴定 纯度要求,97%以上,且均一,纯度鉴定方法。(两种以上才可靠) ⑴聚丙烯酰胺凝胶电泳(PAGE)要求一条带 ⑵DNS —cl (二甲氨基萘磺酰氯)法测N 端氨基酸 1. 测定分子量 用于估算氨基酸残基n= 方法:凝胶过滤法、沉降系数法 1. 确定亚基种类及数目 多亚基蛋白的亚基间有两种结合方式: ⑴非共价键结合 8mol/L 尿素,SDS SDS-PAGE 测分子量 ⑵二硫键结合 过甲酸氧化: —S —S —+HCOOOH → SO 3H β巯基乙醇还原: 举例:: 血红蛋白 (α2β2) (注意,人的血红蛋白α和β的N 端相同。) 分子量: M 拆亚基: M 1 、M 2 两条带 拆二硫键: M 1 、M 2 两条带 分子量关系: M = 2M 1 + 2M 2 1. 测定氨基酸组成 主要是酸水解,同时辅以碱水解。氨基酸分析仪自动进行。 确定肽链中各种a.a 出现的频率,便于选择裂解方法及试剂。 ①Trp 测定 对二甲基氨基苯甲醛 590nm 。 ②Cys 测定 5、5/一二硫代双(—2—硝基苯甲酸)DTNB ,412nm 1. 端基分析 ①N 端分析 DNS-cl 法:最常用,黄色荧光,灵敏度极高,DNS-多肽水解后的DNS-氨基酸不需要提取。 DNFB 法:Sanger 试剂,DNP-多肽,酸水解,黄色DNP-氨基酸,有机溶剂(乙酸乙酯) 抽提分离,纸层析、薄层层析、液相等 PITC 法:Edman 法,逐步切下。无色PTH-氨基酸,有机溶剂抽提,层析。 ②C 端分析 110mw

以多种蛋白为例阐述蛋白质结构与功能的关系

举例说明蛋白质结构和功能的关系 答: 1.蛋白质的一级结构与功能的关系 蛋白质的一级机构指:肽链中氨基酸残基(包括二硫键的位置)的排列顺序。一级结构是蛋白质空间机构的基础,包含分子所有的信息,且决定蛋白质高级结构与功能。 ①一级结构的变异与分子病 蛋白质一级结构是空间结构的基础,与蛋白质的功能密切相关,一级机构的改变,往往引起蛋白质功能的改变。 例如:镰刀形细胞贫血病 镰刀形细胞贫血病的血红蛋白(HbS)与正常人的血红蛋白(HbA)相比,发现,两种血红蛋白的差异仅仅来源于一个肽段的位置发生了变化,这个差异肽段是位于β链N端的一个八肽。在这个八肽中,β链N端第6位氨基酸发生了置换,HbA中的带电荷的谷氨酸残基在HbS中被置换成了非极性缬氨酸残基,即蛋白质的一级机构发生了变化。 ②序列的同源性 不同生物中执行相同或相似功能的蛋白质称为同源蛋白质,同源蛋白质的一级机构具有相似性,称为序列的同源性。最为典型的例子, 例如:细胞色素C(Cyt c) Cyt c是古老的蛋白质,是线粒体电子传递链中的组分,存在于从细菌到人的所有需氧生物中。通过比较Cyt c的序列可以反映不同种属生物的进化关系。亲缘越近的物种,Cyt c中氨基酸残基的差异越小。如人与黑猩猩的Cyt c完全一致,人与绵羊的Cyt c有10个残基不同,与植物之间相差更多。蛋白质的进化反映了生物的进化。 2.蛋白质空间结构与功能的关系 天然状态下,蛋白质的多肽链紧密折叠形成蛋白质特定的空间结构,称为蛋白质的天然构象或三维构象。三维构象与蛋白质的功能密切相关。 ①一级结构与高级结构的关系: 一级结构决定高级机构,当特定构象存在时,蛋白质表现出生物功能;当特定构象被破坏时,即使一级构象没有发生改变,蛋白质的生物学活性丧失。例如:牛胰核糖核苷酸酶A(RNase A)的变性与复性 当RNase A处于天然构象是,具有催化活性; 当RNase A处于去折叠状态时,二硫键被还原不具有催化活性;当RNase A恢复天然构象时,二硫键重新形成,活性恢复。 ②变构效应 变构效应:是寡聚蛋白质分子中亚基之间存在相互作用,这种相互作用通过亚基构象的改变来实现。蛋白质在执行功能是时,构象发生一定变化。 例如:肌红蛋白、血红蛋白与氧的结合 两种蛋白质有很多相同之处,结构相似表现出相似功能。这两钟蛋白质都含有血红素 辅基,都能与氧进行可逆结合,因此存在着氧合与脱氧的两种结构形式。但是肌红蛋白几乎在任何氧分压情况下都保持对氧分子的高亲和性。血红蛋白则不同,在氧分压较高时,血红蛋白几乎被氧完全饱和;而在氧分压较低时,血红蛋白与氧的亲和力降低,释放出携带的氧并转移给肌红蛋白。

蛋白质结构预测在线软件

蛋白质预测在线分析常用软件推荐 蛋白质预测分析网址集锦 物理性质预测: Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemasshttp://expaxy.hcuge.ch/sprot/peptide-mass.html TGREASE ftp://https://www.doczj.com/doc/f81379167.html,/pub/fasta/ SAPS http://ulrec3.unil.ch/software/SAPS_form.html 基于组成的蛋白质识别预测 AACompIdent http://expaxy.hcuge.ch ... htmlAACompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.e mbl-heidelberg.de/prs.html 二级结构和折叠类预测 nnpredict https://www.doczj.com/doc/f81379167.html,/~nomi/nnpredict Predictprotein http://www.embl-heidel ... protein/SOPMA http://www.ibcp.fr/predict.html SSPRED http://www.embl-heidel ... prd_info.html 特殊结构或结构预测 COILS http://ulrec3.unil.ch/ ... ILS_form.html MacStripe https://www.doczj.com/doc/f81379167.html,/ ... acstripe.html 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。 由NCBI检索蛋白质序列 可联网到:“http://www.ncbi.nlm.ni ... gi?db=protein”进行检索。 利用SRS系统从EMBL检索蛋白质序列 联网到:https://www.doczj.com/doc/f81379167.html,/”,可利用EMBL的SRS系统进行蛋白质序列的检索。 通过EMAIL进行序列检索 当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。 蛋白质基本性质分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件蛋白质数据库及蛋白质序列分析 第一节、蛋白质数据库介绍 一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据 库,目前这二个数据库在EMBL和GenBank数据库上均建 立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序 列,这些序列经过检验和注释。该数据库主要由日内瓦大 学医学生物化学系和欧洲生物信息学研究所(EBI)合作维 护。SWISS-PROT的序列数量呈直线增长。 2、TrEMBL数据库: SWISS-PROT的数据存在一个滞后问题,即 进行注释需要时间。一大批含有开放阅读 了解决这一问题,TrEMBL(Translated E 白质数据库,它包括了所有EMBL库中的 质序列数据源,但这势必导致其注释质量 3、PIR数据库: PIR数据库的数据最初是由美国国家生物医学研究基金 会(National Biomedical Research Foundation, NBRF) 收集的蛋白质序列,主要翻译自GenBank的DNA序列。 1988年,美国的NBRF、日本的JIPID(the Japanese International Protein Sequence Database日本国家蛋 白质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息 中心)合作,共同收集和维护PIR数据库。PIR根据注释 程度(质量)分为4个等级。 4、 ExPASy数据库: 目前,瑞士生物信息学研究所(Swiss I 质分析专家系统(Expert protein anal 据库。 网址:https://www.doczj.com/doc/f81379167.html, 我国的北京大学生物信息中心(www.cbi.

蛋白质的结构和功能的关系

蛋白质结构与功能的关系 摘要:蛋白质特定的功能都是由其特定的构象所决定的,各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化,必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化,可能导致蛋白质构象紊乱症,当然也能引起生物体对环境的适应性增强!现而今关于蛋白质功能研究还有待发展,一门新兴学科正在发展,血清蛋白组学,生物信息学等!本文仅就蛋白质结构与其功能关系进行粗略阐述。 关键词:蛋白质分子一级结构、空间结构、折叠/功能关系、蛋白质构象紊乱症;分子伴侣正文: 1、蛋白质分子一级结构和功能的关系 蛋白质分子中关键活性部位氨基酸残基的改变,会影响其生理功能,甚至造成分子病(molecular disease)。例如镰状细胞贫血,就是由于血红蛋白分子中两个β亚基第6位正常的谷氨酸变异成了缬氨酸,从酸性氨基酸换成了中性支链氨基酸,降低了血红蛋白在红细胞中的溶解度,使它在红细胞中随血流至氧分压低的外周毛细血管时,容易凝聚并沉淀析出,从而造成红细胞破裂溶血和运氧功能的低下。 另一方面,在蛋白质结构和功能关系中,一些非关键部位氨基酸残基的改变或缺失,则不会影响蛋白质的生物活性。例如人、猪、牛、羊等哺乳动物胰岛素分子A链中8、9、10位和B链30位的氨基酸残基各不相同,有种族差异,但这并不影响它们都具有降低生物体血糖浓度的共同生理功能。 蛋白质一级结构与功能间的关系十分复杂。不同生物中具有相似生理功能的蛋白质或同一种生物体内具有相似功能的蛋白质,其一级结构往往相似,但也有时可相差很大。如催化DNA 复制的DNA聚合酶,细菌的和小鼠的就相差很大,具有明显的种族差异,可见生命现象十分复杂多样。 2、蛋白质分子空间结构和功能的关系 蛋白质分子空间结构和其性质及生理功能的关系也十分密切。不同的蛋白质,正因为具有不同的空间结构,因此具有不同的理化性质和生理功能。如指甲和毛发中的角蛋白,分子中含有大量的α-螺旋二级结构,因此性质稳定坚韧又富有弹性,这是和角蛋白的保护功能分不开的;而胶原蛋白的三股π螺旋平行再几股拧成缆绳样胶原微纤维结构,使其性质稳定而具有强大的抗张力作用 又如细胞质膜上一些蛋白质是离子通道,就是因为在其多肽链中的一些α-螺旋或β-折叠二级结构中,一侧多由亲水性氨基酸组成,而另一侧却多由疏水性氨基酸组成,因此是具有“两亲性”(amphipathic)的特点,几段α-螺旋或β-折叠的亲水侧之间就构成了离子通道,而其疏水侧,即通过疏水键将离子通道蛋白质固定在细胞质膜上。载脂蛋白也具有两亲性,既能与血浆中脂类结合,又使之溶解在血液中进行脂类的运输。 3、折叠/功能关系 体内各种蛋白质都有特殊的生理功能,这与空间构象有着密切的关系。肌红蛋门和血红蛋白是阐述空间结构与功能关系的典型例子。肌红蛋门(Mb))和血红蛋白(Hb)都是含血红素辅基的结合蛋白质。Mb有一条肽链,经盘曲折折叠形成三级结构,整条肽链由A~H8段α螺旋盘曲折叠成为球状,疏水氨基酸侧链在分子内部,亲水氨基酸侧链在分子外部,形成亲水的球状蛋白,血红素辅基位于Mb分子内部的袋状空穴中。Hb有四条肽链,两条β链也有与Mb 相似的A~H8段α螺旋,有两条α链只有7段α螺旋。Hb与Mb的折叠方式相似,也都能与氧进行可逆的结合。Hb的一个亚基与氧结合后可引起构象变化,是另一个亚基更易于与氧结合,这种带氧的亚基协助不带氧的亚基去结合氧的现象称为协同效应。氧与Hb结合后可

蛋白质结构解析研究进展作业

《蛋白质结构解析研究进展》 一、蛋白质结构分类 人类对于进化的认识及蛋白质结构相似性比较的研究使蛋白质结构分类成为可能,而且近年来取得的研究进展表明,大部分蛋白质可以成功的分入到适当数目的家族中。目前国际上流行的蛋白质结构分类数据库基本上采取两种不同的思路,一种是数据库中储存所有结构两两比较的结果;第二种思路是致力于构建非常正式的分类体系。由于所有分类方法反映了各研究小组在探究这个重要领域的不同角度,所以这些方法是同等有效的。目前,被广泛应用的四种分类标准是:手工构造的层次分类数据库SCOP,全自动分类的MMDB和FSSP,和半手工半自动的CATH。 蛋白质结构自动分类问题可以被纳入机器学习的范畴,通过提取分析蛋白质结构的关键特征,构造算法来学习蕴含于大量已知结构和分类的数据中的专家经验知识,来实现对未知蛋白质结构的分类预测。目前,对蛋白质结构的不同层次分类,结果比较好的机器学习方法是:神经网络多层感知器、支持向量机和隐马尔可夫模型。支持向量机应用于分类问题最终归结于求解一个最优化问题。上世纪90 年代中期,隐马尔可夫模型与其他机器学习技术结合,高效地用于多重比对、数据挖掘和分类、结构分析和模式发现。多层感知器即误差反向传播神经网络,它是在各种人工神经网络模型中,在机器学习中应用最多且最成功的采用BP学习算法的分类器。 二、蛋白质结构的确定 蛋白质三维空间结构测定方法主要包括X射线晶体学分析、核磁共振波谱学技术和三维电镜重构,这三种方法都可以完整独立地在原子分辨水平上测定出蛋白质的三维空间结构。蛋白质数据库PDB中80%的蛋白质结构是由X射线衍射分析得到的,约15%的蛋白质结构是由核磁共振波谱学这种新的结构测定方法得到。 1、X射线晶体学

三种分析蛋白结构域的方法

三种分析蛋白结构域(Domains)的方法 1,SMART入门,蛋白结构和功能分析 SMART介绍 SMART (a Simple Modular Architecture Research Tool) allows the identification and annotation of genetically mobile domains and the analysis of domain architectures. More than 500 domain families found in signalling, extracellular and chromatin-associated proteins are detectable. These domains are extensively annotated with respect to phyletic distributions, functional class, tertiary structures and functionally important residues. Each domain found in a non-redundant protein database as well as search parameters and taxonomic information are stored in a relational database system. User interfaces to this database allow searches for proteins containing specific combinations of domains in defined taxa. For all the details, please refer to the publications on SMART. SMART(,可以说是蛋白结构预测和功能分析的工具集合。简单点说,就是集合了一些工具,可以预测蛋白的一些二级结构。如跨膜区(Transmembrane segments),复合螺旋区(coiled coil regions),信号肽(Signal peptides),蛋白结构域(PFAM domains)等。 SMART前该知道的 1,SMART有两种不同的模式:normal 或genomic 主要是用的数据库不一样。Normal SMART, 用的数据库 Swiss-Prot, SP-TrEMBL 和 stable Ensembl proteomes。Genomic SMART, 用全基因组序列。详细列表:,一些名词解释 进行时 可以直接用各个数据库蛋白的ID。如Uniprot/Ensembl??ID / Accession number (ACC)。或是直接蛋白序列。运行SMART也可选择signal peptides、PFAM domains等的预测,勾上就是。看下图 SMART结果 运行后的结果用图表表示。其实运行后的结果都有明确的解释。详细请看下面。

蛋白质结构预测在线软件

蛋白质预测分析网址集锦? 物理性质预测:? Compute PI/MW?? ?? SAPS?? 基于组成的蛋白质识别预测? AACompIdent???PROPSEARCH?? 二级结构和折叠类预测? nnpredict?? Predictprotein??? SSPRED?? 特殊结构或结构预测? COILS?? MacStripe?? 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。? 由NCBI检索蛋白质序列? 可联网到:“”进行检索。? 利用SRS系统从EMBL检索蛋白质序列? 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。? 通过EMAIL进行序列检索?

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。? 蛋白质基本性质分析? 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。? 疏水性分析? 位于ExPASy的ProtScale程序(?)可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。? 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如,bioedit,dnamana等。? 跨膜区分析? 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知

第1章 蛋白质结构与功能习题

第二章蛋白质的结构与功能 复习测试 (一)名词解释 1. 肽键 2. 结构域 3. 蛋白质的等电点 4. 蛋白质的沉淀 5. 蛋白质的凝固 (二)选择题 A型题: 1. 天然蛋白质中不存在的氨基酸是: A. 胱氨酸 B. 谷氨酸 C. 瓜氨酸 D. 蛋氨酸 E. 丝氨酸 2. 下列哪种氨基酸为非编码氨基酸: A. 半胱氨酸 B. 组氨酸 C. 鸟氨酸 D. 丝氨酸 E. 亮氨酸 3. 下列氨基酸中哪种氨基酸无 L型与D型氨基酸之分: A. 丙氨酸 B. 甘氨酸 C. 亮氨酸 D. 丝氨酸 E. 缬氨酸 4. 天然蛋白质中有遗传密码的氨基酸有: A. 8种 B. 61种 C. 12种 D. 20种 E. 64种 5. 测定100克生物样品中氮含量是2克,该样品中蛋白质含量大约为: A. 6.25% B. 12.5% C. 1% D. 2% E. 20% 6. 蛋白质分子中的肽键: A. 是一个氨基酸的α-氨基和另一个氨基酸的α-羧基形成的 B. 是由谷氨酸的γ-羧基与另一个氨基酸的α-氨基形成的 C. 氨基酸的各种氨基和各种羧基均可形成肽键 D. 是由赖氨酸的ε-氨基与另一分子氨基酸的α-羧基形成的 E. 以上都不是 7. 多肽链中主链骨架的组成是 A. –CNCCNCNCCNCNCCNC- B. –CCHNOCCHNOCCHNOC- C. –CCONHCCONHCCONHC- D. -CCNOHCCNOHCCNOHC- E. -CCHNOCCHNOCCHNOC- 8. 蛋白质的一级结构是指下面的哪一种情况: A. 氨基酸种类的数量 B. 分子中的各种化学键 C. 多肽链的形态和大小 D. 氨基酸残基的排列顺序 E. 分子中的共价键 9. 维持蛋白质分子一级结构的主要化学键是: A. 盐键 B. 氢键 C. 疏水键 D. 二硫键 E. 肽键 10. 蛋白质分子中α-螺旋构象的特点是: A. 肽键平面充分伸展 B. 靠盐键维持稳定 C. 螺旋方向与长轴垂直 D. 多为左手螺旋 E. 以上都不是 11. 下列哪种结构不属于蛋白质二级结构: A. α-螺旋 B. 双螺旋 C. β-片层 D. β-转角 E. 不规则卷曲

蛋白质结构预测方法综述

蛋白质结构预测方法综述 卜东波陈翔王志勇 《计算机不能做什么?》是一本好书,其中文版序言也堪称佳构。在这篇十余页的短文中,马希文教授总结了使用计算机解决实际问题的三步曲,即首先进行形式化,将领域相关的实际问题抽象转化成一个数学问题;然后分析问题的可计算性;最后进行算法设计,分析算法的时间和空间复杂度,寻找最优算法。 蛋白质空间结构预测是很有生物学意义的问题,迄今亦有很多的工作。有意思的是,其中一些典型工作恰恰是上述三步曲的绝好示例,本文即沿着这一路线作一总结,介绍于后。 1 背景知识 生物细胞种有许多蛋白质(由20余种氨基酸所形成的长链),这些大分子对于完成生物功能是至关重要的。蛋白质的空间结构往往决定了其功能,因此,如何揭示蛋白质的结构是非常重要的工作。 生物学界常常将蛋白质的结构分为4个层次:一级结构,也就是组成蛋白质的氨基酸序列;二级结构,即骨架原子间的相互作用形成的局部结构,比如alpha螺旋,beta片层和loop区等;三级结构,即二级结构在更大范围内的堆积形成的空间结构;四级结构主要描述不同亚基之间的相互作用。 经过多年努力,结构测定的实验方法得到了很好的发展,比较常用的有核磁共振和X光晶体衍射两种。然而由于实验测定比较耗时和昂贵,对于某些不易结晶的蛋白质来说不适用。相比之下,测定蛋白质氨基酸序列则比较容易。因此如果能够从一级序列推断出空间结构则是非常有意义的工作。这也就是下面的蛋白质折叠问题: 1蛋白质折叠问题(Protein Folding Problem) 输入: 蛋白质的氨基酸序列

输出: 蛋白质的空间结构 蛋白质结构预测的可行性是有坚实依据的。因为一般而言,蛋白质的空间结构是由其一级结构确定的。生化实验表明:如果在体外无任何其他物质存在的条件下,使得蛋白质去折叠,然后复性,蛋白质将立刻重新折叠回原来的空间结构,整个过程在不到1秒种内即可完成。因此有理由认为对于大部分蛋白质而言,其空间结构信息已经完全蕴涵于氨基酸序列中。从物理学的角度讲,系统的稳定状态通常是能量最小的状态,这也是蛋白质预测工作的理论基础。 2 蛋白质结构预测方法 蛋白质结构预测的方法可以分为三种: 同源性(Homology )方法:这类方法的理论依据是如果两个蛋白质的序列比较相似,则其结构也有很大可能比较相似。有工作表明,如果序列相似性高于75%,则可以使用这种方法进行粗略的预测。这类方法的优点是准确度高,缺点是只能处理和模板库中蛋白质序列相似性较高的情况。 从头计算(Ab initio ) 方法:这类方法的依据是热力学理论,即求蛋白质能量最小的状态。生物学家和物理学家等认为从原理上讲这是影响蛋白质结构的本质因素。然而由于巨大的计算量,这种方法并不实用,目前只能计算几个氨基酸形成的结构。IBM 开发的Blue Gene 超级计算机,就是要解决这个问题。 穿线法(Threading )方法:由于Ab Initio 方法目前只有理论上的意义,Homology 方法受限于待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似性,对于其他大部分蛋白质来说,有必要寻求新的方法。Threading 就此应运而生。 以上三种方法中,Ab Initio 方法不依赖于已知结构,其余两种则需要已知结构的协助。通常将蛋白质序列和其真实三级结构组织成模板库,待预测三级结构的蛋白质序列,则称之为查询序列(query sequence)。 3 蛋白质结构预测的Threading 方法 Threading 方法有三个代表性的工作:Eisenburg 基于环境串的工作、Xu Ying 的Prospetor 和Xu Jinbo 、Li Ming 的RAPTOR 。 Threading 的方法:首先取出一条模版和查询序列作序列比对(Alignment),并将模版蛋白质与查询序列匹配上的残基的空间坐标赋给查询序列上相应的残基。比对的过程是在我们设计的一个能量函数指导下进行的。根据比对结果和得到的查询序列的空间坐标,通过我们设计的能量函数,得到一个能量值。将这个操作应用到所有的模版上,取能量值最低的那条模版产生的查询序列的空间坐标为我们的预测结果。 需要指出的是,此处的能量函数却不再是热力学意义上的能量函数。它实质上是概率的负对数,即 ,我们用统计意义上的能量来代替真实的分子能量,这两者有大致相同的形式。 p E log ?=如果沿着马希文教授的观点看上述工作 ,则更有意思:Eisenburg 指出如果仅仅停留在简单地使用每个原子的空间坐标(x,y,z)来形式化表示蛋白质空间结构,则难以进一步深入研究。Eisenburg 创造性地使用环境串表示结构,从而将结构预测问题转化成序列串和环境串之间的比对问题;其后,Xu Ying 作了进一步发展,将蛋白质序列表示成一系列核(core )组成的序列,Core 和Core 之间存在相互作用。因此结构就表示成Core 的空间坐标,以及Core 之间的相互作用。在这种表示方法的基础上,Xu Ying 开发了一种求最优匹配的动态规划算法,得到了很好的结果。但是由于其较高的复杂度,在Prospetor2上不得不作了一些简化;Xu Jinbo 和Li Ming 很漂亮地解决了这个问题,将求最优匹配的过程表示成一个整数规划问题,并且证明了一些常用

蛋白质结构与功能关系

举例说明蛋白质的结构于其功能之间的关系。 1、蛋白质一级结构决定高级结构,高级结构决定生物功能。 2、在不同种属之间,有些 aa 发生变化,不影响他的生物功能,例如,胰岛素的种属差异十分明显,但不同种属间分离得到的胰岛素具有相同的将血糖作用,不同种属间胰分离得到的胰岛素具有相同的将血糖作用,不同种属间胰岛素的一级结构稍有不同,但功能相同,主要是不同种属间具有20个不变aa残基构成的保守区决定的。此外,还包括细胞色素c,肌红蛋白,血红蛋白等一级结构稍有不同,功能相似。 3、在不同种属之间,由于基因突变,有些 aa 发生微观变化就引起功能的明显变化。例如,人的镰刀状红细胞贫血病和地中海贫血病。人的血红蛋白 b 链中第 6 位 glu 被 val 代替,由一个 aa 的变化,导致红细胞呈镰刀状, 降低运氧能力一起细胞形态和功能的变化。力起细胞形态和功能的变化 4、总之,蛋白质一级结构中各 aa 贡献不同,不变残基在蛋白质高级结构和功能上起重要作用,可变残基发生改变,不引起功能变化。不变残基在功能上起作用,可变残基在蛋白质进化上起重要作用。 5、蛋白质高级结构与功能的高度统一,结构决定功能。如血红蛋白的变构效应。血红蛋白由 4 个亚基组成, 2 个 a 亚基 ,2 个 b 亚基,分子中的 a 亚基对氧的亲和力比 b 亚基大,能首先与第一个氧结合,导致 a 亚基构象发生变化,进而引起相邻的b 亚基的构象也发生变化进而引起相邻的 b 亚基的构象也发生变化,增强 b 亚基对氧的亲和力。由于导致整个血红蛋白分子构象发生改变,与氧的结合能力大大加强,在肺部充分利用氧,使氧分压不致过高,在血液流经组织内时,当第一个氧放出后,其余三个氧很快放出,供组织利用氧。

相关主题
文本预览
相关文档 最新文档