一种稳定蛋白质的全部原子结构预测和折叠模拟
- 格式:doc
- 大小:174.50 KB
- 文档页数:14
结构生物学中的蛋白质折叠及结构预测研究蛋白质是生命体中非常重要的分子,在维持生命活动中发挥着不可替代的作用。
它们分子结构不同,对生命体的功能也会有很大的不同。
而蛋白质在细胞中的活动需要其适应环境中的变化。
因此,我们很自然地关注蛋白质如何在细胞中的环境中折叠和成熟,和如何发挥正确的结构和功能。
这就涉及到某个领域——结构生物学中的蛋白质折叠及结构预测研究。
结构生物学是研究蛋白质、核酸及其复合物分子结构的学科。
在其研究领域中,蛋白质折叠及结构预测研究是一个非常重要的方向,也是被广泛研究的方向。
随着生物技术和计算机技术的发展,结构生物学领域中的蛋白质折叠及结构预测研究已经取得了很大的进展。
通过对蛋白质折叠及其结构的研究,我们可以更好地理解蛋白质的功能和生命体活动过程。
同时,对于蛋白质的折叠,也是合成人工蛋白的关键,这反过来也会用于医学和工业等领域。
蛋白质折叠是指蛋白质分子的简单线性氨基酸序列在适宜条件下成为独特的三维立体结构的过程。
即使是最简单的蛋白质分子,也需要弱相互作用力、分子快速构象转换才能在生命体内折叠成复杂的结构。
对于蛋白质而言,如何正确地折叠成去怎样的结构非常重要。
如果折叠成错误的结构,将会失去其正常的生命活动。
因此,研究蛋白质折叠机理和行为成为结构生物学中非常重要的研究方向。
一方面,蛋白质折叠研究的首要目标是揭示蛋白质折叠的机制。
另一方面,研究蛋白质结构预测则与计算机技术息息相关。
而正是这两种研究方向,为研究蛋白质折叠和结构预测打下了重要的基础。
目前,能够确定蛋白质结构的方法主要有两个:一个是NMR (核磁共振)技术,另一个是X-射线晶体结构分析技术。
这些技术可以帮助研究人员了解蛋白质的精确结构。
然而,由于谱峰分离的困难和晶体生长条件的限制,获得实验数据十分困难。
因此,预测蛋白质结构成为研究人员的目标之一。
然而,蛋白质的预测不易,这就需要计算机科学和生物技术协同工作。
目前,结构生物学中常用的结构预测方法是蛋白质折叠模拟。
蛋白质结构预测方法与薄膜蛋白折叠规律解析蛋白质是生命体内至关重要的分子,它们在细胞的结构和功能中起着关键作用。
蛋白质的结构与功能密切相关,因此理解蛋白质的结构对于揭示其功能和研究疾病的发生机制至关重要。
蛋白质结构预测是指通过计算和模拟的方法来预测蛋白质的三维空间结构。
由于蛋白质的结构复杂,传统实验方法往往耗时费力且成本较高。
为了解决这一问题,科学家们开发了一系列计算方法,以便更快速、准确地预测蛋白质的结构。
在蛋白质结构预测中,广泛应用的方法之一是贝叶斯网络。
贝叶斯网络是一种概率图模型,它通过建立节点之间的条件依赖关系来推断目标节点的状态。
在蛋白质结构预测中,可以将氨基酸序列看作目标节点,将结构中的各个残基看作条件节点,并通过传统实验数据和模拟数据来训练网络,从而得到蛋白质的结构信息。
另一种常用的蛋白质结构预测方法是基于比对和比较。
通过比对已知结构的蛋白质序列与待预测的蛋白质序列,利用序列之间的相似性来预测其结构。
这种方法通常适用于已知结构与待预测结构之间的相似度较高的情况。
然而,对于结构相似度较低的蛋白质,这种方法的预测精度可能会有限。
近年来,机器学习方法在蛋白质结构预测中也展现了巨大的潜力。
机器学习通过分析大量的蛋白质结构数据,并使用算法来识别和学习结构中的规律和模式。
通过训练模型,机器学习方法可以预测蛋白质的二级结构(α-螺旋、β-折叠等),以及蛋白质的整体结构。
除了蛋白质结构预测方法,解析薄膜蛋白的折叠规律也对相关领域的研究具有重要意义。
薄膜蛋白是一类特殊的蛋白质,其主要存在于细胞膜中,参与了细胞内外物质的传递和信号转导过程。
薄膜蛋白的折叠规律决定了它们在细胞膜中的位置和功能,因此对薄膜蛋白折叠规律的解析有助于深入理解细胞膜的结构和功能。
近年来,研究人员采用了多种方法来解析薄膜蛋白的折叠规律。
其中,实验方法和计算模拟方法是主要的研究手段。
实验方法包括X射线晶体学、核磁共振等,可以直接观察蛋白质的结构。
蛋白质结构预测方法总结蛋白质是生物体内最为重要的分子之一,其结构决定了功能和活性。
然而,实验性确定蛋白质的三维结构是一项复杂且昂贵的任务。
因此,研究人员发展了多种计算方法来预测蛋白质的结构。
本文将总结几种常见的蛋白质结构预测方法。
1. 基于比对的方法一种常用的蛋白质结构预测方法是基于比对。
这种方法使用已知结构的蛋白质作为模板,将目标蛋白质的序列与模板进行比对,从而预测其结构。
比对可以使用多种方法,如BLAST、PSI-BLAST和HHpred等。
这些方法根据序列之间的相似性来预测结构,通常适用于那些与已知结构相似的蛋白质。
2. 基于折叠的方法基于折叠的方法是通过在能量最小化的条件下预测蛋白质的结构。
这些方法利用原子间相互作用的物理性质来预测蛋白质的稳定结构。
其中,分子力学模拟是常用的方法之一,通过计算分子中原子的相互作用以及能量最小化来预测蛋白质的结构。
此外,还有蒙特卡洛模拟和分子动力学模拟等方法用于蛋白质结构的预测。
3. 基于碱基预测的方法基于碱基预测的方法是根据目标蛋白质的氨基酸序列来预测其结构。
这些方法利用氨基酸的特性,如溶解度、疏水性和电荷分布等,来推断蛋白质的结构。
在这种方法中,常用的技术包括人工神经网络和随机森林等。
4. 基于演化信息的方法基于演化信息的方法是利用多个序列的比较来预测蛋白质的结构。
这些方法假设在进化过程中,保守的残基通常对于结构和功能至关重要,因此可以通过比较不同蛋白质序列之间的保守性来预测其结构。
常用的技术包括多序列比对和物种树建构等。
5. 基于统计的方法基于统计的方法是从大量已知结构的蛋白质中提取统计学规律,以预测新蛋白质的结构。
在这种方法中,通过分析蛋白质的物理特性和氨基酸残基之间的相互作用,建立统计学模型,从而预测目标蛋白质的结构。
常见的方法包括聚类分析、SVM和隐马尔可夫模型等。
综上所述,蛋白质的结构预测是一项复杂而具有挑战性的任务。
虽然没有一种方法能够完美地预测蛋白质的结构,但结合不同的预测方法可以提高预测的准确性和可靠性。
蛋白质结构预测和模拟方法蛋白质是生物体内的重要组成部分,对生命活动具有关键作用。
在了解蛋白质功能和相互作用等方面的研究中,蛋白质结构的预测和模拟方法发挥着重要的作用。
本文将介绍蛋白质结构预测的主要方法和蛋白质结构模拟的常见方法。
1. 蛋白质结构预测方法1.1 基于序列的预测方法基于序列的预测方法是根据蛋白质的氨基酸序列推测其结构。
这一方法通过将目标蛋白质的序列与已知结构的蛋白质序列进行比对,从而预测目标蛋白质的结构。
具体方法包括序列比对、蛋白质家族数据库搜索以及机器学习等等。
1.2 基于结构模板的预测方法基于结构模板的预测方法是根据已知结构的蛋白质来预测目标蛋白质的结构。
这一方法通过找到与目标蛋白质具有相似结构的蛋白质,从而预测目标蛋白质的结构。
具体方法包括结构比对、结构模板库搜索以及融合多个结构模板等等。
1.3 基于物理力学的预测方法基于物理力学的预测方法是利用物理力学原理来预测蛋白质的结构。
这一方法通过模拟蛋白质分子内的原子间相互作用,从而预测蛋白质的结构。
具体方法包括分子力学、蒙特卡洛模拟以及分子动力学模拟等等。
2. 蛋白质结构模拟方法2.1 分子力学模拟分子力学模拟是通过计算蛋白质分子内原子之间的相互作用力,来模拟蛋白质的结构和动力学性质。
这一方法可以对蛋白质进行模拟,从而获得与实验结果相一致的结构信息。
2.2 蒙特卡洛模拟蒙特卡洛模拟是通过引入随机性的方法来模拟蛋白质分子的运动和结构。
这一方法通常基于能量最小化原则,通过随机调整蛋白质的构象从而获得可能的结构。
2.3 分子动力学模拟分子动力学模拟是通过数值计算方法,模拟蛋白质分子静态和动态特性的一种方法。
这一方法可以模拟蛋白质的结构和动力学性质,并研究蛋白质在时间和空间尺度上的变化。
3. 蛋白质结构预测和模拟的应用蛋白质结构预测和模拟的方法在生物科学研究中发挥着重要的作用。
首先,它们可以帮助科学家深入了解蛋白质的结构与功能之间的关系。
其次,蛋白质结构预测和模拟方法还可以用于研究蛋白质的折叠机制、稳定性以及相互作用等。
蛋白质结构预测方法及其应用前景引言:蛋白质是构成生物体的重要组成部分,它们在细胞内发挥着关键的功能。
了解蛋白质的结构对于理解其功能和参与药物开发具有重要意义。
然而,实验手段通常耗时、昂贵且可能有限,因此研究人员一直在寻求一种准确、高效的方法来预测蛋白质的结构。
本文将介绍几种常见的蛋白质结构预测方法,并探讨其在生物医学领域中的应用前景。
一、同源建模方法同源建模是一种基于相似蛋白质序列的结构预测方法。
它假设具有相似序列的蛋白质可能具有相似的结构,因此通过与已解析的蛋白质结构进行比较,可以推断出目标蛋白质的结构。
这种方法的优势在于准确性高、时间效率高,已被广泛应用于生物医学研究中。
例如,同源建模方法可以用于预测蛋白质-蛋白质相互作用,帮助研究人员理解蛋白质间的相互作用机制,有助于药物研发和疾病治疗。
二、蛋白质折叠动力学模拟蛋白质折叠动力学模拟是一种基于物理力学原理的结构预测方法。
它通过模拟蛋白质分子的运动过程,推测出最稳定的蛋白质结构。
这种方法的优势在于可以考虑蛋白质分子的动态过程,从而更好地预测其结构。
蛋白质折叠动力学模拟在酶的催化机制研究、蛋白质结构稳定性预测等方面具有广泛的应用前景。
三、基于机器学习的方法随着机器学习的快速发展,越来越多的研究人员开始将其应用于蛋白质结构预测中。
例如,基于深度学习的神经网络模型可以通过学习大量已知蛋白质结构的数据,来预测未知蛋白质的结构。
这种方法的优势在于可以自动从大量数据中提取特征,并学习蛋白质的结构模式。
基于机器学习的方法在蛋白质药物设计、蛋白质功能预测等领域有着广阔的应用前景。
四、蛋白质结构预测的应用前景蛋白质结构预测方法的不断发展,为生物医学领域带来了广泛的应用前景。
首先,结构预测可以帮助揭示蛋白质的功能机制,从而推动药物研发和疾病治疗。
其次,结构预测可以用于预测蛋白质-蛋白质或蛋白质-小分子/药物的相互作用,为药物设计和药效评估提供重要信息。
再者,结构预测还可以用于研究蛋白质折叠与稳定性,有助于理解蛋白质的功能和突变对其结构和功能的影响。
蛋白质结构预测与分子模拟技术蛋白质是生物体内起着关键作用的重要分子。
了解蛋白质的结构对于理解其功能与活性具有重要意义。
然而,实验方法在蛋白质结构预测方面存在一些限制,因此,科学家们开发了蛋白质结构预测与分子模拟技术,以解决这一难题。
蛋白质结构预测是通过计算机模拟和分析蛋白质序列之间的相互作用,以预测蛋白质的三维结构。
蛋白质的结构预测可以分为三个主要的级别:一级结构、二级结构和三级结构。
一级结构是指蛋白质的氨基酸序列,而二级结构描述了氨基酸残基之间的局部空间排列方式,三级结构则指蛋白质的整体立体构象。
一级结构预测是最基本的蛋白质结构预测方法,其目的是根据蛋白质的氨基酸序列来预测蛋白质的整体结构。
一级结构预测的方法主要有两种:模板比对方法和序列自由方法。
模板比对方法是根据已知结构的蛋白质序列来进行比对,并从中找到最相似的结构作为预测结果。
序列自由方法则基于统计学原理和算法对蛋白质的序列进行预测,常用的方法有神经网络和隐马尔可夫模型等。
二级结构预测是根据一级结构预测结果,来预测蛋白质中α-螺旋、β-折叠等二级结构元件的位置和类型。
二级结构预测方法主要基于序列间氨基酸位置的相似性以及统计规律,例如,Chou-Fasman算法就是常用的二级结构预测方法之一。
三级结构预测是预测蛋白质的整体立体构象。
在蛋白质的三级结构预测中,蛋白质的折叠速度和折叠路径是关键要素。
当蛋白质折叠成特定结构时,可以通过分子力学和分子动力学模拟来优化和采样蛋白质的构象。
分子力学模拟利用物理力学原理和数值计算方法,通过对原子和分子之间相互作用的描述,来模拟蛋白质的构象和性质。
分子动力学模拟则使用牛顿力学方程和随机动力学算法,模拟分子中原子运动的轨迹。
尽管蛋白质结构预测与分子模拟技术取得了一定的进展,但仍然存在挑战和限制。
由于蛋白质结构的复杂性和多样性,精确地预测和模拟蛋白质的结构仍然是一个困难的问题。
蛋白质的结构预测和分子模拟需要考虑许多因素,包括间断、环形化和溶液条件等因素。
蛋白质结构的预测和设计蛋白质是生命体内最基本的分子机器,它们完成了生命中几乎全部的功能。
然而,在理解蛋白质功能的基础上,我们面临的一个重要挑战是如何探究蛋白质的三维立体结构。
在人类基因组计划完成后,我们已经识别出了大约20,000种编码人类蛋白质的基因,但是仅有不到一半的蛋白质结构被解析。
因此,预测和设计蛋白质结构是当前生命科学领域内非常重要的研究方向。
一、蛋白质的结构预测蛋白质结构预测是通过计算机模拟来预测蛋白质的三维立体结构的过程。
它有助于了解蛋白质的功能和相互作用,并在药物开发、基因工程和分子演化等领域中发挥重要作用。
目前,主要有以下几种方法进行蛋白质结构预测。
1.同源建模同源建模是通过在已经解析的蛋白质结构库中搜索和比较已知的蛋白质结构进行预测的一种方法。
这种方法主要适用于已知序列与已知结构高度相似的蛋白质。
2.蒙特卡罗模拟蒙特卡罗模拟是通过在空间内采用随机数的方法来模拟蛋白质的折叠过程,以得到最稳定的蛋白质三维结构的一种方法。
3.基于物理性质的模拟基于物理性质的模拟是通过计算机模拟蛋白质原子在环境中的物理相互作用和动力学性质来预测蛋白质三维结构的一种方法。
这种方法通过物理模型计算蛋白质的能量最小值,以预测出最稳定的结构。
除了以上方法,还有一些基于机器学习算法、分子动力学模拟等技术的方法也被用于蛋白质结构预测。
但是,所有这些方法都存在重大局限性,如预测结果不准确、模型偏差过大等问题,限制了其在实际应用中的应用。
二、蛋白质的结构设计蛋白质结构设计是通过设计人工序列来实现有特定功能的蛋白质结构的过程。
它可以用于开发新型药物、分子传感器、嫩肤等领域。
经过近年来的探索和研究,已经发现了一些有效的蛋白质结构设计方法。
1.方法一该方法是将构建的蛋白质折叠成模型后,通过改变其氨基酸序列,以优化其折叠或使其保持特定的折叠状态。
重要的是,最好根据确定的目标蛋白质结构,为蛋白质设计完整的折叠拓扑和氨基酸序列。
蛋白质折叠和结构稳定的动力学模拟和计算方法蛋白质是生物体中最基本的分子之一,具有丰富的功能和结构多样性。
蛋白质的结构是其功能的基础,而蛋白质结构的稳定性则决定着生物分子在不同环境下的活性、可溶性、抗性和作用效率。
因此,蛋白质折叠和结构稳定成为了生物化学研究领域的重要课题。
蛋白质折叠和结构稳定的机制十分复杂。
通过氨基酸序列来推断一种蛋白质的三维结构,是一件困难的事情。
这种预测在遇到有序/无序结构相互渗透、折叠态和非折叠态之间快速变换的蛋白质时,尤其具有挑战性。
因此,研究蛋白质折叠的动力学和稳定性,需要借助计算机模拟和数学模型理论来辅助实验研究。
在此过程中,常用的模拟方法包括分子动力学 (MD)、蒙特卡罗 (MC)、格点模型、构象空间预测等。
而蛋白质结构的分析和探索,则常用的技术包括核磁共振、X射线晶体衍射、旋转扫描等。
这些技术能够帮助研究人员深入地理解蛋白质的结构和功能,回应生命科学领域中的重要问题。
分子动力学 (Molecular Dynamics) 是一种能够计算蛋白质动力学和稳定性的计算模拟方法和数学理论。
使用分子动力学计算分析蛋白质结构会涉及到许多方面的知识,包括化学物理、分子生物学、计算机科学等学科。
这种方法被广泛用于研究蛋白质的稳定性与结构动态之间的相互关系,在不同物理和化学条件下推断蛋白质的结构。
如何借助分子动力学建立适应条件的模型,是对算法优化的基础要求,而适应物理化学特性的技术和方法,则是监测结果并进行进一步实验和解释的必备工具。
在样本浓度,缩合态等因素影响下,蛋白质折叠、动力学和稳定性都会发生变化。
而此时,通过分子动力学方法,可模拟确定蛋白质放大了一个生物活性物质或抗生素时,这种变化所涉及到的蛋白质折叠过程,以及蛋白质的结构稳定性与溶解度和物理化学特性等的关系。
在这样的研究方向中,分子动力学方法被大量调研应用,逐步建立了分子动力学模拟在生物结构研究领域中的重要地位。
与此同时,蛋白质折叠模拟的还需要借助一些数学模型与技术手段。
蛋白质折叠的原理和蛋白质结构预测技术蛋白质是生命体中不可缺少的组成部分,它的重要性不言而喻。
蛋白质结构的研究是现代生物学的重要组成部分,而蛋白质折叠是蛋白质结构研究的核心问题。
本文将详细介绍蛋白质折叠的原理和蛋白质结构预测技术。
一、蛋白质折叠的原理蛋白质折叠是指蛋白质分子在自然条件下,经过一系列的非常规作用,使其原始的链状结构逐渐转变为稳定的立体结构过程。
在这个过程中,蛋白质分子在三维空间内呈现出复杂的空间构象,并形成一个独特的结构。
这个结构对蛋白质的生物学特性和功能具有至关重要的影响。
蛋白质折叠的过程有两个主要的结构:原生态结构和终态结构。
原生态结构指的是未折叠的蛋白质分子,它是一条线性的多肽链。
终态结构指的是折叠成为立体结构的蛋白质分子。
蛋白质折叠的过程涉及到三种主要的相互作用力:静电相互作用、氢键和疏水作用。
在蛋白质折叠的过程中,静电相互作用是指分子间带电的相互作用,这种作用力非常强;氢键是指气体和液体中最为普遍的化学反应之一,它在蛋白质分子中也有重要的作用;疏水作用是指由于氢键和其他相互作用力的存在,水和生物分子之间存在一定程度的亲疏性,这种亲水性和疏水性对生物分子折叠过程有至关重要的影响。
二、蛋白质结构预测技术蛋白质结构预测是一种利用计算机技术对蛋白质的结构进行模拟和预测的技术。
它是生物结构和机能研究中的重要分支之一。
目前,蛋白质结构预测技术已经成为生物结构和机能研究的重要手段之一。
蛋白质结构预测技术可以通过建立蛋白质结构模型来实现。
建立模型的过程中,需要考虑到蛋白质分子内部的各种相互作用力,以及其化学结构和特性等重要因素。
这些因素的考虑和计算需要大量的计算资源,因此,要建立一个完整的模型需要大量的计算资源和时间。
当前,蛋白质结构预测技术已经发展到了虚拟现实的水平。
研究人员可以通过计算机模拟来模拟出各种不同的蛋白质结构,从而实现对其物理和化学性质的深入研究。
这些模型可以用于生物结构和机能研究,以及开发针对蛋白质结构的新药物等领域。
研究案例——一种稳定蛋白质的全部原子结构预测和折叠模拟这段教程展示的是一个研究实例,像您演示如何重现下述文章中的研究工作:Simmerling, C., Strockbine, B., Roitberg, A.E., J. Am. Chem. Soc., 2002, 124, 11258-11259(/ja0273851)我们建议您在开始本教程前首先阅读上述文章,获得该蛋白的氨基酸序列及其他有用信息。
警告1: 本教程中的一些计算耗时很长,我使用了由16个1.3GHz cup的SGI Altix进行了27小时计算才完成整个工作,因此如果您没有足够的计算能力,我强烈建议您在重复本教程的过程中使用我为您提供的out文件,以使得您能够流畅地完成整个教程。
警告2: 如果您重复本教程,我们并不能保证您能够精确地重现我的计算结果,在计算过程中,不同结构的计算机会产生不同的近似误差,从而使得计算过程搜索的是相空间的不同部位,但是模拟的平均结果是大致相同的。
另外,尽管您完全重复了本教程也有可能无法获得论文中给出的结果,而且即便是我们自己也无法保证论文中的结果能够重现,这可能是因为我模拟的时间不够长,获取的仅仅是一个局部最小点,但是尽管如此,本教程的工作还是展示了蛋白折叠中一些有趣的行为。
背景这篇论文应用AMBER FF99力场和经典的全原子动力学对一个肽的折叠过程进行了模拟。
模拟的对象"trpcage"是一个由20个氨基酸构成的小肽,华盛顿大学的 Andersen已经对这个蛋白做过了结构优化,它是现在已知最小的能够显示两种不同折叠状态的蛋白,而且这个蛋白在室温下可以稳定存在。
该蛋白的小身量使得它成为模拟蛋白质折叠的绝嘉对象。
当最早的关于这个蛋白的折叠的计算结果出炉时,对这个蛋白结构的实验测定还没有完成,所以整个模拟过程是在没有实验数据作为指导的情况下完成的。
当蛋白的结构经由实验手段测定之后,人们惊喜地发现,计算机模拟的结果与实验测定的数值之间的RMSD值仅为1.4A。
AMBER教程8:研究案例——一种稳定蛋白质的全部原子结构预测和折叠模拟这段教程展示的是一个研究实例,像您演示如何重现下述文章中的研究工作:Simmerling, C., Strockbine, B., Roitberg, A.E., J. Am. Chem. Soc., 2002, 124, 11258-11259(/10.1021/ja0273851)我们建议您在开始本教程前首先阅读上述文章,获得该蛋白的氨基酸序列及其他有用信息。
警告1: 本教程中的一些计算耗时很长,我使用了由16个1.3GHz cup的SGI Altix进行了27小时计算才完成整个工作,因此如果您没有足够的计算能力,我强烈建议您在重复本教程的过程中使用我为您提供的out文件,以使得您能够流畅地完成整个教程。
警告2: 如果您重复本教程,我们并不能保证您能够精确地重现我的计算结果,在计算过程中,不同结构的计算机会产生不同的近似误差,从而使得计算过程搜索的是相空间的不同部位,但是模拟的平均结果是大致相同的。
另外,尽管您完全重复了本教程也有可能无法获得论文中给出的结果,而且即便是我们自己也无法保证论文中的结果能够重现,这可能是因为我模拟的时间不够长,获取的仅仅是一个局部最小点,但是尽管如此,本教程的工作还是展示了蛋白折叠中一些有趣的行为。
背景这篇论文应用AMBER FF99力场和经典的全原子动力学对一个肽的折叠过程进行了模拟。
模拟的对象"trpcage"是一个由20个氨基酸构成的小肽,华盛顿大学的Andersen已经对这个蛋白做过了结构优化,它是现在已知最小的能够显示两种不同折叠状态的蛋白,而且这个蛋白在室温下可以稳定存在。
该蛋白的小身量使得它成为模拟蛋白质折叠的绝嘉对象。
当最早的关于这个蛋白的折叠的计算结果出炉时,对这个蛋白结构的实验测定还没有完成,所以整个模拟过程是在没有实验数据作为指导的情况下完成的。
当蛋白的结构经由实验手段测定之后,人们惊喜地发现,计算机模拟的结果与实验测定的数值之间的RMSD值仅为1.4A。
考虑到整个模拟过程是从蛋白的一级结构开始并且完全没有同源蛋白作为参考,这样的一个计算结果是非常精确的。
本教程中,我们试图重复论文中的结果,计算的设定都与论文非常接近,只是由于计算能力的限制,在教程中我们只进行一个50ns级的模拟。
这已经足够重见蛋白质折叠的结果了。
在这里必须提醒的是,由于模拟过程的长度所限,在不同的计算机,或在处理器数量不同的情况下,计算的结果将会是不同的。
这是由分子动力学模拟的方法决定的,实施过程的细微变化或者浮点计算中舍入的变化都意味着由不同的计算机进行采样的动力学轨迹会随着时间的流逝发生不可预知的分化。
这并非误差或者程序的bug,也并不意味着某一个模拟过程比其他的过程更合理。
这仅仅意味着不同的模拟过程搜索的是相空间的不同区域,如果我们平均一下模拟的结果,或者运行更长时间的动力学过程,我们会在不同的机器上得到完全相同的结果,他们之间仅仅在过程上有所不同。
因而我们说在本教程中我们很难精确的再现论文中的结果,但是我们试图重新创造那个重要的结果,即用AMBER程序来预测一个20氨基酸的小蛋白的空间结构是可以完成的。
那么记住这一点,让我们开始吧第一步:构建起始结构在以往的教程中,我们要么有一个可用的晶体结构,要么可以通过程序生成一个已经初步优化的结构。
而在这个教程中我们要用的结构太复杂,没法通过手画的办法完成,同时我们也没有一个可用的PDB结构,因此我们就需要构建一个线形的肽链,非常幸运的是,在LEAP中有一个命令可以完成这个工作,就是sequence。
蛋白的一级结构序列在所列论文中可以查到,如下所示:下面使用sequence 命令来建立蛋白的起始结构(如需了解sequence 命令的详细情况可以在Leap中键入: help sequence). 注意:为了版面设计的需要,下面将命名分为三行显示,实际上您必须将所有内容在一行内输入,其间不能回车。
>TC5b = sequence { NASN LEU TYR ILE GLN TRP LEU LYSASP GLY GLY PRO SER SER GLY ARGPRO PRO PRO CSER }我们需要的起始结构就放在TC5b中我们可以使用edit命令来观察这个结构。
>edit TC5b现在我们获得了一个线形的蛋白质序列作为起始结构,但是在这个起始结构中很多原子是相互抵触的,所以在进行分子动力学模拟之前我们要对这个结构首先进行短时间的优化。
我们暂时将Unit中的这个结构存成一个.lib文件,这样在之后的操作中,我们只要调用这个lib就可以简单地取出起始结构,同时我们还要将这个结构存成一个PDB文件,以便直观地进行观察。
>saveoff TC5b TC5b_linear.lib>savepdb TC5b TC5b_linear.pdb(TC5b_linear.lib, TC5b_linear.pdb)第二步:创建prmtop和inpcrd文件我们已经有了起始结构,下一步的工作是创建prmtop以及inpcrd文件。
在进行这一步之前我们需要首先确认我们使用的参数和文献中报道的是一样的,在论文的第三段讲到:We initiated our simulations using only the trpcage TC5b2 amino acid sequence(N20LYIQWLKDGGPSSGRPPPS39), with an extended initial conformation built by the LEaP module of AMBER version 6.0.4 All molecular dynamics (MD) simulations were fully unrestrained and carried out in the canonical ensemble using the SANDER module, which we modified to improve performance on the Linux/Intel PC cluster that was used for all calculations. The ff99 force field5 was employed, with the exception of [phi/psi] dihedral parameters which were refit6 (see Supporting Information) to improve agreement with ab initio relative energies7 of alanine tetrapeptide conformations. Parameters were not fit to data for the trpcage. Solvation effects were incorporated using the Generalized Born model,8 as implemented9 in AMBER.Input Files: TC5b.prmtop, TC5b.inpcrd, min1.inOutput Files: min1.out, min1.rst在16个1.3GHzCPU的SGI Altix上这个过程需要3.5秒完成为了直观的比较优化前后的结构,我们生成一个pdb文件:$AMBERHOME/exe/ambpdb -p TC5b.prmtop < min1.rst > min1.pdb将优化前后的两个文件打开(min1.pdb and TC5b_linear.pdb)你可以选择任何可用的显示软件,比如VMD起始结构用蓝色显示,优化后的结构用黄色显示。
如你所见,优化过程并未造成主链结构太大的变化但是色氨酸和酪氨酸残基发生了比较明显的移动,这些能量热点集中的区域有可能在我们开始分子动力学模拟之后带来麻烦,如果你不相信,可以用未经优化的结构跑一个动力学过程看看,肯定飞!第四步:体系加热.接下来我们要在这个体系中正式开始分子动力学模拟,首先我们要分7步花费50ps时间对体系进行升温模拟。
将升温过程分为7步完成可以在每一步升温之后维持一段时间,以免一次升温造成体系能量聚集最终跑飞,另外一种可行的方法是对升温过程加一个权重限制。
您可以参阅AMBER用户手册以获取更多信息。
一般而言我们升温的最终目标是室温即300K但是为了重复文献的运算我们选择325K:MD simulations of 100 ns were performed at 300 K, but all were kinetically trapped on this time scale, showing strong dependence on initial conditions and failing to converge to similar conformational ensembles. We therefore increased the temperature to 325 K.文献认为必须将体系加温到325K进行模拟,否则有可能使模拟的结果最终落入局部最小点,所以我们也做同样的设定。
但是你必须牢记更高的模拟温度会导致体系中各化学键发生更加显著的振动,这意味着如果你打算做一个600K,以2fs为步长的动力学模拟,你就要考虑一个应用了shaken的300k效果会与之相同,但600K的模拟却要临步长过大的问题,过大的步长会导致体系不稳定。
还好325K不算太高,还setenv AMBERHOME /usr/people/rcw/amber9cd ~rcw/initial_heatingmpirun -np 16 $AMBERHOME/exe/sander -O -i heat1.in -p TC5b.prmtop -c min1.rst -r heat1.rst -o heat1.out -x heat1.mdcrd gzip -9 heat1.mdcrdmpirun -np 16 $AMBERHOME/exe/sander -O -i heat2.in -p TC5b.prmtop -c heat1.rst -r heat2.rst -o heat2.out -x heat2.mdcrdgzip -9 heat2.mdcrdmpirun -np 16 $AMBERHOME/exe/sander -O -i heat3.in -p TC5b.prmtop -c heat2.rst -r heat3.rst -o heat3.out -x heat3.mdcrdgzip -9 heat3.mdcrdmpirun -np 16 $AMBERHOME/exe/sander -O -i heat4.in -p TC5b.prmtop -c heat3.rst -r heat4.rst -o heat4.out -x heat4.mdcrdgzip -9 heat4.mdcrdmpirun -np 16 $AMBERHOME/exe/sander -O -i heat5.in -p TC5b.prmtop -c heat4.rst -r heat5.rst -o heat5.out -x heat5.mdcrdgzip -9 heat5.mdcrdmpirun -np 16 $AMBERHOME/exe/sander -O -i heat6.in -p TC5b.prmtop -c heat5.rst -r heat6.rst -o heat6.out -x heat6.mdcrdgzip -9 heat6.mdcrdmpirun -np 16 $AMBERHOME/exe/sander -O -i heat7.in -p TC5b.prmtop -c heat6.rst -r heat7.rst -o heat7.out -x heat7.mdcrdgzip -9 heat7.mdcrdecho "DONE"译者提供的bash脚本如下:#!/bin/bash#heatingsander -O -i heat1.in -p TC5b.prmtop -c min1.rst -r heat1.rst -o heat1.out -x heat1.mdcrdgzip -9 heat1.mdcrdsander -O -i heat2.in -p TC5b.prmtop -c heat1.rst -r heat2.rst -o heat2.out -x heat2.mdcrdgzip -9 heat2.mdcrdsander -O -i heat3.in -p TC5b.prmtop -c heat2.rst -r heat3.rst -o heat3.out -x heat3.mdcrdgzip -9 heat3.mdcrdsander -O -i heat4.in -p TC5b.prmtop -c heat3.rst -r heat4.rst -o heat4.out -x heat4.mdcrdgzip -9 heat4.mdcrdsander -O -i heat5.in -p TC5b.prmtop -c heat4.rst -r heat5.rst -o heat5.out -x heat5.mdcrdgzip -9 heat5.mdcrdsander -O -i heat6.in -p TC5b.prmtop -c heat5.rst -r heat6.rst -o heat6.out -x heat6.mdcrdgzip -9 heat6.mdcrdsander -O -i heat7.in -p TC5b.prmtop -c heat6.rst -r heat7.rst -o heat7.out -x heat7.mdcrdgzip -9 heat7.mdcrdmkdir initial_heatingcp heat1.out initial_heatingStage 2 equilibration 1 0-5ns&cntrlimin=0, irest=1, ntx=5,nstlim=2500000, dt=0.002,ntc=2, ntf=2,ntt=1, tautp=0.5,tempi=325.0, temp0=325.0,ntpr=500, ntwx=500,ntb=0, igb=1,cut=999.,rgbmax=999./每一个阶段的模拟都会进行250,000步(由nstlim的取值决定),步长为2fs(由dt的取值决定) 即总共进行 5 ns的模拟。