5 蛋白质三级结构预测
- 格式:ppt
- 大小:1.39 MB
- 文档页数:39
蛋白质三级结构的预测和分析方法蛋白质是由氨基酸组成的多肽链,是生命体中重要的组成部分。
蛋白质的功能由其三级结构决定,因此蛋白质三级结构的预测和分析是生物学研究的重要课题之一。
本文将介绍蛋白质三级结构的预测和分析方法。
一、蛋白质序列的预测蛋白质的三级结构是由其氨基酸序列决定的,因此蛋白质序列的预测是蛋白质三级结构预测的第一步。
蛋白质序列的预测分为两种方法:直接预测和间接预测。
直接预测方法是通过实验手段对蛋白质进行测定,并得到其序列。
其中,蛋白质测序是最常用的方法之一,目前已经非常成熟,在实验过程中准确率很高。
但是该方法耗时长、成本高,适用性窄。
间接预测方法则基于蛋白质序列的相似性进行预测,即通过基因组学、区域同源性、数据库、机器学习算法等,对已知的蛋白质序列进行比对和分析,得出未知蛋白质的序列。
其中,BLAST、PSI-BLAST等比对方法,能够在较短时间内对蛋白质序列进行预测,并在很大程度上提高了预测准确率。
此外,还有一些基于机器学习算法的预测方法,如SVM和神经网络方法等。
二、蛋白质结构预测蛋白质结构预测是指通过已知的蛋白质序列,预测出其原子级别的三维结构。
蛋白质结构预测目前主要分为三种方法:实验法、遗传算法和分子动力学模拟法。
实验法主要是通过分析蛋白质结晶体、核磁共振法和质谱分析等实验手段来预测蛋白质的空间结构。
这种方法具有实验数据来源充足、准确性高等特点,但是往往耗时长且成本高昂。
遗传算法是利用生物进化过程的基本原理,在计算机模拟中模拟蛋白质分子构象变化的过程,最终找到能够形成最稳定结构的构象。
这种方法通过逐代优化,逐渐提高预测蛋白质结构的准确度,但是也存在时间复杂度高、无法解释性和结果可重复性差等问题。
分子动力学模拟法是运用牛顿力学原理和一些计算模型,对蛋白质分子的运动进行数值模拟,从而得到蛋白质的三维结构。
这种方法的优点在于可以对蛋白质分子动力学过程进行模拟,具有可重复性高、得出结果的信息较多等特点,但是计算时间较长,计算机模拟结果的可信度也需要进一步验证。
蛋白质结构与功能的预测方法总结和资料汇总“折叠(fold)”的概念“折叠(fold)”是近年来蛋白质研究中应用较广的一个概念,它是介与二级和三级结构之间的蛋白质结构层次,它描述的是二级结构元素的混合组合方式。
二级结构的预测方法介绍:Chou-Fasman算法:是单序列预测方法中的一种,它是使用氨基酸物理化学数据中派生出来的规律来预测二级结构。
首先统计出20种氨基酸出现在α螺旋、β折叠和无规则卷曲中出现频率的大小,然后计算出每一种氨基酸在这几种构象中的构象参数Px.构象参数值的大小反映了该种残基出现在某种构象中的倾向性的大小。
按照构象参数值的大小可以把氨基酸分为六个组:Ha (强螺旋形成者)、ha(螺旋形成者)、Ia(弱螺旋形成者)、ia(螺旋形成不敏感者)、ba(螺旋中断者)、Ba(强螺旋中断者)。
Chou和Fasman根据残基的倾向性因子提出二级结构预测的经验规则,要点是沿蛋白序列寻找二级结构的成核位点和终止位点。
这种方法可能能够正确反映蛋白质二级结构的形成过程,但预测成功率并不高,仅有50%左右GOR算法:也是单序列预测方法中的一种,因其作者Garnier, Osguthorpe和 Robson而得名。
这种方法是以信息论为基础的,也属于统计学方法的一种,GOR方法不仅考虑被预测位置本身氨基酸残基种类对该位置构象的影响,也考虑到相邻残基种类对该位置构象的影响。
这样使预测的成功率提高到 65% 左右。
GOR方法的优点是物理意义清楚明确,数学表达严格,而且很容易写出相应的计算机程序,但缺点是表达式复杂。
多序列列线预测:对序列进行多序列比对,并利用多序列比对的信息进行结构的预测。
调查者可找到和未知序列相似的序列家族,然后假设序列家族中的同源区有同样的二级结构,预测不是基于一个序列而是一组序列中的所有序列的一致序列。
基于神经网络的序列预测:利用神经网络的方法进行序列的预测,BP (Back-Propagation Network) 网络即反馈式神经网络算法是目前二级结构预测应用最广的神经网络算法,它通常是由三层相同的神经元构成的层状网络,使用反馈式学习规则,底层为输入层,中间为隐含层,顶层是输出层,信号在相邻各层间逐层传递,不相邻的各层间无联系,在学习过程中根据输入的一级结构和二级结构的关系的信息不断调整各单元之间的权重,最终目标是找到一种好的输入与输出的映象,并对未知二级结构的蛋白进行预测。
蛋白质结构预测Protein Structure PredictionHaibo SunDepartment of BioinformaticsMininGene BiotechnologyG h lMarch 22, 2007背景结构分类:z一级结构也就是组成蛋白质的氨基酸序列z二级结构即骨架原子间的相互作用形成的局部结构,比如alpha螺旋,beta片层和loop区等l h b t lz三级结构即二级结构在更大范围内的堆积形成的空间结构z四级结构主要描述不同亚基之间的相互作用。
结构测定的实验方法z核磁共振z X光晶体衍射两种。
一级结构级结构预测基础预测基础:z 实验:在体外无任何其他物质存在的条件下,使得蛋白质去折叠,然后复性,蛋白质将立刻重新折叠回原来的空间结构z 物理学的角度讲,系统的稳定状态通常是能量最小的状态二级结构反向β-折叠α-螺旋β-转角三级结构Turn or coilAlpha-helix Beta-sheetLoop and Turn蛋白质结构预测•Sequence secondary structure 3D structure Sequence →secondary structure →3D structure →functionProtein Structure PredictionProtein Structure Prediction •Prediction is possible because–Sequence information uniquely determines 3D structure–Sequence similarity (>50%) tends to imply structuralsimilarity•Prediction is necessary because–DNA sequence data »protein sequence data »structuredata199419972002.102007.3 Sequence (Swiss Port)40,00068,000114,033261,513 Sequence(Swiss-Port)4000068000114033261513 Structure (PDB)4,0457,00018,83842,474Methods预测方法Comparative (homology) modeling (同源建模法) Construct 3D model from alignment to proteinithsequences withknown structureg(g)(折识别法)Threading (fold recognition) (折叠识别法Pick best fit to sequences of known 2D / 3D structures (folds)Ab initio / de novo methods (从头预测法)Ab initio/de novo methods(Methods(1)同源性(Homology)方法:理论依据:如果两个蛋白质的序列比较相似,则其结构理论依据如果两个蛋白质的序列比较相似则其结构也有很大可能比较相似。
蛋白质结构预测和分子对接技术蛋白质是构成生物体的基础分子之一,包括酶、激素、抗体等各种生物大分子都是由蛋白质组成。
蛋白质具有多个级别的结构,通常被称为一级、二级、三级和四级结构。
一级结构指的是蛋白质的氨基酸序列,即在蛋白质分子中氨基酸的排列方式。
二级结构是指蛋白质中氨基酸残基在空间中的排列方式,通常包括α-螺旋和β-折叠。
三级结构是指蛋白质空间构型的整体结构。
四级结构则指蛋白质分子与其他蛋白质小分子之间的相互作用。
在蛋白质结构预测方面,具有重要意义的方法是基于比对的方法和基于物理学原理的方法。
基于比对的方法是通过对已知结构的蛋白质序列和目标蛋白质的序列进行比对,找出最接近的已知结构,并将该结构作为目标的预测结果。
这种方法的优点是速度快,但是预测精度较低。
基于物理学原理的方法则是通过模拟蛋白质分子内部的物理过程来得出蛋白质的结构,其精度比基于比对的方法更高,但计算量也更大。
在分子对接技术方面,分子对接技术是指通过计算机模拟来研究分子之间的相互作用,常用于新药研发和分子设计中。
目前常用的分子对接技术包括基于体积网格方法、基于可调节作用位点的对接方法和基于分子动力学模拟的方法。
基于体积网格方法通过将药物分子和蛋白质分子放置在一个三维空间网格中,以模拟药物分子与蛋白质分子之间的相互作用。
这种方法的优点是计算速度快,但往往忽略了蛋白质分子的柔性,导致预测结果可能不够准确。
基于可调节作用位点的对接方法则考虑到了蛋白质的柔性,将蛋白质的某些部分设定为可调节的作用位点,使得蛋白质可以自由地移动。
这种方法的优点是准确性比基于体积网格的方法更高。
基于分子动力学模拟的方法则是将蛋白质和药物分子看作一个整体,通过模拟它们的运动、相互作用等来研究它们的相互作用。
这种方法的优点是可以考虑到分子的柔性和运动过程,因此预测结果更加准确。
但是,这种方法的计算量也更大,需要使用超级计算机等大规模计算设备。
尽管蛋白质结构预测和分子对接技术现在已经取得了不少进展,但仍然存在许多问题和挑战。