当前位置：文档之家› 蛋白质可视化分析

蛋白质可视化分析

蛋白质序列可视化

摘要

DNA和蛋白质是生命中的两大核心物质，研究DNA和蛋白质序列对人类生命有重大意义。首先本文了一份关于DNA可视化工作方面的科学报告，从中阐述了它的工作原理和说明了它对研究DNA结构的影响和意义。其次对于蛋白质序列可视化方面，我们画出其在3D空间的曲线图（曲线的x、y轴坐标由Randic方法得到，z轴坐标由蛋白质序列中氨基酸的的累计个数得到），通过3D图形比较我们得出了蛋白质序列间的相同点和不同蛋白质之间序列的异同点。再次对于区别两类不同的蛋白质序列，我们画出第一、二类序列的3D曲线，取它的几何中心作为该序列的数值特征（3维向量），通过比较序列数值特征的欧式距离，我们来判断蛋白质的分类。在判断过程中，我们分别取第一、二类蛋白质前八个序列为学习样本，后三、四个序列为检验样本，通过比较前八个学习样本数值特征的平均值与检验样本数值特征间的欧式距离来判断蛋白质的分类。最后，本文对模型改进方面提出了些建议。

关键词：蛋白质序列可视化欧式距离

一问题的重述

生物信息学是一个较新的学科领域,它涵概了对基因组信息的多个研究过程,通过综合运用生物学、信息学、统计学、数学等工具和手段,来阐明和理解生物数据,使之成为具有明确生物意义的生物信息,并通过对生物信息的查询、检索、比较和分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系。蛋白质是生命体赖以生存的营养要素，是细胞组织的重要组成部分，几乎所有的生物过程都与蛋白质发生某种联系。根据蛋白质序列的排列顺序和序列信息确定蛋白质的功能成为生物学研究重点。它的主要研究方法可分为两大类，其一是利用实际实验的方法来预测，包括X 光绕射和核磁共振；其二则是利用理论计算的方法，包括同源建模法、折叠识别法以及从头预测法三种。虽然用实验的方法较为准确，但花费的时间长，而且很多蛋白质难以结晶，因而实验结果也受到技术和设备上的制约；相对而言，用理论计算的方法则可以避免这些缺点，所以发展基于蛋白质序列对结构和功能进行预测的模型成为必要。由于生物数据的复杂性和高维性，既不能以数字公式表示，也不能以逻辑公式表示，故对这些序列的研究大多是基于统计工具。此外，通过数据的可视化，帮助人们认识和理解生物序列，进而分析和解释数据，使人们从表面上看来是杂乱无章的海量数据中找出隐藏的规律，为科学发现提供依据。所以，现在有些学者开始借助各种可视化工具，以图、树、方体、链的形式展现其复杂结构和序列模式，以求直观地表达生物序列的理论结构与区别。常用的生物数据可视化工具有语义镜技术、信息壁技术、基因调控网格等。同时，将经过数据挖掘工具得到的数据结果也以图形、图像的形式展现给用户，便于用户寻找数据间的规律和关系。

目前对于DNA （RNA ）序列的二维和三维重构方面的工作已经取得较大的进展，但对于蛋白质等大分子在这方面的工作还有待于深入。此外，通过对蛋白质结构和功能的分析，能获取隐含其中的有用生物学信息，为我们理解生命、发现新药物和新疗法提供帮助。蛋白质是由20个氨基酸按不同排列构成，因此，蛋白质类型分析从某种意义上说就是对序列数据的挖掘。

（1）请根据你的调查写一份关于对DNA 可视化工作方面的科学报告。要求在阐明这项工作原理的基础上，重点强调它的意义和影响；报告要条理清晰，易读易懂，字数不少于800。

（2）蛋白质序列由20氨基酸构成，设一个长度为L 的蛋白质序列表示如下：

L 4321R R R R R P 其中，i R 表示蛋白质序列中第i 个出现的氨基酸,它是{A 、C 、D 、E 、F 、G 、H 、I 、K 、L 、M 、N 、P 、Q 、R 、S 、T 、V 、W 、Y}中的某一个。如果利用正二十面体的每个面的方向向量代表20个氨基酸，请结合DNA 可视化方面工作对你的启发构造合适的对应关系和分析模型，以区别开如下两类不同的蛋白质序列，并画出部分序列的图形（二维或三维均可，重点是要清楚讲明你的模型和想法，可参考CGR-游走序列的方法），以说明你模型的特点和创造性。（两类不同的蛋白质序列略）

说明：（1）“>”后面是蛋白质序列的编号，也就是序列的“代号”；

（2）如果序列中有不是前面提到的20个字母中的（如：出现B ，J ，O ，U ，

X ，Z 等），可以忽略；

（3）以给出的这两类序列来评估你的方法的有效性，即用你的方法得到的这两类序列分类的准确率；

（4）如果要用这种方法从图形上区别开这两类蛋白质，请画出你对这23个序列的图形，说明同一类的共同点和不同类的差异。

二模型的假设

1、蛋白质序列中如果出现B,J,O,U,X,Z 等字母，可以忽略不计；

2、一个蛋白质序列可以看做是在20个氨基酸的字母表上的字符串；

3、一个蛋白质序列的3维向量能代表该序列的主要特征；

4、同类蛋白质序列有较多共同点，不同类蛋白质序列差异显著。

三符号说明

i x ：第i 个氨基酸在正20边形顶点的x 轴坐标（i=0,1….19） i y ：第i 个氨基酸在正20边形顶点的y 轴坐标（i=0,1….19）

L ：蛋白质序列的长度

i R ：蛋白质序列中第i 个出现的氨基酸

x k R )(Φ ：序列的第k 个氨基酸残基对应的x 轴坐标

y k R )(Φ ：序列的第k 个氨基酸残基对应的y 轴坐标

k k k z y x ,, ：蛋白质序列的第k 个在空间中对应的x,y,z 轴坐标

j j j z y x 111,, ：第一类蛋白质的第j 个序列的几何中心

1,1,1Z Y X ：第一类蛋白质的总几何中心

j j j z y x 222,, ：第二类蛋白质的第j 个序列的几何中心

2,2,2Z Y X ：第二类蛋白质的总几何中心

z y x ,, ：预判蛋白质序列的几何中心

AC D ：预判蛋白质序列C 与第一类蛋白质序列A 之间的欧氏距离 BC D ：预判蛋白质序列C 与第二类蛋白质序列A 之间的欧氏距离

四模型的分析与建立

4.1 对问题一的分析与模型建立 4.1.1问题一的分析

为了画出部分蛋白质序列的图形，我们可以参考画DNA 序列图像的方法，但是，蛋白质序列的图形表示研究只是近几年的事，主要原因是蛋白质序列中氨基酸种类数目远远大于DNA 序列中碱基的种类数目（20：4）。在DNA 序列中，4中碱基最多只有!4种不同的排列顺序，而20种氨基酸的排列数太大，导致可能的图形表示数目太多，不能一一列举，这就需要给出某种恰当的氨基酸顺序，得到适合于蛋白质序列分析的图形表示。 4.1.2问题一的模型建立

从数学角度来说，一个蛋白质序列可以看做是在20个氨基酸的字母表Ω上的字符串，即

{}

val tyr trp thr ser pro phe met lys leu his ile gly glu g cys asp asn ala ,,,,,,,,,,,,,ln,,,,arg,,=Ω，这里每个氨基酸是三字母简写形式，另外也可以用氨基酸的单字母的简写形式表示，即{}V Y W T S P F M K L H I G E Q C D N R A ,,,,,,,,,,,,,,,,,,,=Ω。基于在DNA 序列的CGR 图形表示的思想，我们按20个氨基酸的三字母简写的字典序排序把它们均匀分布到单位圆上，然后利用CGR 图形表示的方法给出了蛋白质序列的2D 图形表示。由于氨基酸的数目过多，其图形表示的2D 曲线不能很好地看出不同蛋白质序列之间的差异。

3D 空间图形较2D 图形有更好的可视性，蛋白质序列3D 图形可以这样做，如图，首先按20个氨基酸三字母简写的字典排序，将它们放置在一个正20边形的20个顶点上，即将每个氨基酸映射为正20边形的20个顶点

。其中19...1,0,)20/2sin()

20/2cos(=??

?==i i y i x i

i ππ 对一个长度为L 的蛋白质序列L R R R R R P ....4321=,从第一个氨基酸开始每次观察一个氨基酸残基利用映射Φ将每一个残基映射为空间中的一个点：

???

???? ??+Φ+Φ=Φ=Φ--k y R x R R R k i y k k i

x k k ,2)(,2)()()0,0,0()()(1)(10 如果0≠k ,其中x k R )(Φ，y k R )(Φ为序列的第k 个氨基酸残基对应的y x ,轴坐标，

)

()

(,k i k i y x 为序列的第k 个氨基酸残基对应在正20边形顶点的y x ,轴坐标。

这样，将序列的L 个氨基酸残基对应到空间的L 个点，加上坐标原点，就得

到了1+L 个空间中的点，顺次连接这些点，得到一条空间中的曲线，称其为此蛋白质序列的空间表示。

4.2 对问题二的分析与模型建立

4.2.1问题二的分析

要区分两类不同类的蛋白质序列，即给出一个蛋白质序列，要判断它属于第一类还是第二类蛋白质，为此，我们可以在第一类和第二类蛋白质中分别确立一个判别的标志，计算预判蛋白质序列和两个判别标志之间的相似度，如果预判蛋白质序列和第一个判别标志的相似度大些，则该预判蛋白质属于第一类蛋白质，否则属于第二类蛋白质。

4.2.2问题二的模型建立

要区分开如下两类不同的蛋白质序列，我们可以先确定第一类第j 个蛋白质序

列在空间中的几何中心，即它的3维向量，定义它为n

x n

i k

j ∑==

1，n

y n

i k

j ∑==

1，

z n

i k

j ∑==

1，(其中k k k z y x ,,为该蛋白质序列的第k 个氨基酸在空间中对应的z

y x ,,轴坐标），的在问题一中，我们得到了第一类11个蛋白质序列的空间曲线图，取前八个序列的几何中心的平均值作为第一类蛋白质的总几何中心（即为第一类的判别

标志，下同），记为A ，则)8

(

)1,1,1(8

181

1∑∑∑=====j j

j j

y x Z Y X A 。同理，取前八个

序列的几何中心的平均值作为第二类蛋白质的总几何中心，记为B ，则

8,,

(

)2,2,2(8

281

2∑∑∑=====j j

j j

x Z Y X B 。对预判的蛋白质序列，记它的几何中心

为),,(z y x C =，预判蛋白质序列与第一、二类蛋白质相似度用它们3维向量终点之间

的

欧

氏

距离

表示

，分别记

为

AC D D ,,

则

()2

)

1()1()1(Z z Y y X x D AC -+-+-=,()

122

)

2()2()2(Z z Y y X x D

-+-+-=,

如果BC AC D D <,则预判蛋白质序列属于第一类，如果BC AC D D >，则预判蛋白质序列属于第二类。

五模型的求解

5.1 问题一的求解

（1）利用matlab 编程画出部分第一、二类蛋白质序列图。（见附录一）

-1

第一类04511序

列

-1

第二类Q00901序列

-1

第一类29821序列

-1

第二类60172序列

为了有效的比较同种蛋白质间不同序列的相同点和不同蛋白质间序列的异同点，我们分别选取了第一类编号为P04551、P29821的序列和第二类编号为P60172、Q00901序列，作为我们研究对象。通过比较它们图形的特点，我们得出了以下一些结论：

在同种蛋白质间不同序列的比较中，我们可以看出第一类蛋白质序列中Z 轴主要集中区域为（150 270）间，分布比较扩散，其中超过400的点(即氨基酸Z 轴的坐标)明显比较多，并且发现在XOY 平面中有超过一半的折现具有相似性，来回曲折并有向Z 轴折现的趋势；而在第二类蛋白质序列中Z 轴主要集中区域为（80 180）间，分布比较集中，离图形中心点距离较大的点比较少，且同样在XOY 平面中发现属于第二类折线的相似性，平稳向Z 轴折现的趋势。

在不同蛋白质间序列的比较中，我们选取典型序列P04551和P60172、序列P29821和Q00901来比较。通过比较我们发现我们主要从序列点Z 轴坐标主要集中区域、分散程度、奇异点离中心点距离较远点的个数以及在XOY 面折线的相似性来比较不同蛋白质。如在第一组比较中，我们可以很好的发现第二类离中心点较远的点明显比第一类离中心较远的点少，且在XOY 面上的折线相似度明显不同，很容易区分，从中说明我们选取分类蛋白质的标准有一定的参考价值。

从3D 图形曲线中我们明显感觉到比2D 图形曲线更容易区分蛋白质的分类，可视化程度更高，具有推广性。

（3）为了更直观的从图上看出两类蛋白质之间的差别，我们用直线连接蛋白质序列的几何中心，可以得到第一、二类蛋白质在空间分布的简化图。（见附录三、四）

-0.02

0.08

第一类蛋白质图形

-0.15

0.1

第二类蛋白质图形

根据我们前面提到算欧式距离的算法，我们画出了第一、二类蛋白质在空间中欧式距离的总体图，从图中我们可以发现：

第一类蛋白质Z 轴坐标均在500之下，在XOY 平面上的点几乎没有，主要分布在YOZ 平面上，且折线走势为上升趋势，交叉点重合范围比较小，分布大；而在第二类蛋白质中Z 轴的坐标区分较大，个别点Z 轴在1000以上，其中主要集中在XOY 平面上，折线走势较为平稳，点相对来说比较集中。

从上面做出的结论我们可以看出，利用欧式距离来区分蛋白质分类与用3D 可视化来区分蛋白质分类，结果相差不大，其都表明第一、二类蛋白质在Z 轴的坐标上、折线走势、点的分别密度及散都有一定的区别。

5.2问题二的求解

（1）利用matlab 计算和编程，可以得到第一、二类蛋白质的前八个序列的几何中心，即它们各自的x,y,z 轴坐标，第一、二类蛋白质的总几何中心也可得到（见下表）。（程序见附录二）

近，故这三个蛋白质序列分类都正确。剩下的4个第二类蛋白质序列，前三个蛋白质序列离第二类蛋白质总几何中心更近。故这三个蛋白质序列分类正确，最后一个蛋白质序列P41416离第一类蛋白质总几何中心近些，这与实际上的结果相矛盾，故蛋白质序列P41416分类不正确。

DNA序列可视化报告

本文对DNA序列可视化做出了简介并给出了其对现状的影响和对其研究的意义。

一、DNA序列可视化简介

DNA序列可视化，即对基因组数据进行可视化，通常指对最基本的基因组DNA序列，和注释数据等基因组相关的分析数据，按照一定的用户友好方式，使用图形元素表达出来，方便视角直观地识别已知或未知的数据模

式，或者比较差异等。其，属于“数据可视化”的一种，相当于数据可视化理论方法在基因组学数据上的具体应用。

DNA序列可视化能够提供更加直观的信息。其可视化方法主要分为两种:图形表示和图像表示。图形表示是指把 DNA序列映射成空间的线性结构如DNA 序列的一维、二维、三维以及多维行走等 ,多为曲线表示形式;而图像表示则是把DNA 序列映射到空间的一个区域或体域 ,多为 2D 或 3D 图像表示形式。

三、DNA序列可视化的研究的意义

DNA 序列可视化表示对于研究其结构与功能具有至关重要的意义，它有助于重复子序列的识别、内含子与外显子的区分以及 DNA 序列进化研究等等。

生物DNA 序列所携带的大量遗传信息的传递与表达与其核苷酸序列结

构之间存在密切关系 ,因此深入研究 DNA序列结构 ,对于生命起源与奥秘的揭示、遗传疾病的治疗以及新一代 DNA 计算机的研制等都具有重要的现实意义。以人类基因组计划顺利完成为标志的后基因组时代的到来 ,各学科领域科学家分别从不同学科角度对 DNA 序列结构进行研究成为新的热

点之一。抽象来看 ,对 DNA 序列结构的研究主要在微观和宏观两个层次展开。具体讲,则涉及基因识别、基因表达机理、序列特征提取、基因组演化、基因组整体功能和调节网络等方面。但由于DNA序列结构具有非线性、突变性、有序性、某种程度的随机性和异常复杂性等特点 ,使得研究人员在短期内完全理解由 A、G、C 和 T4 种碱基字母组成的DNA序列结构是不现实的。DNA序列的可视化可以和很好的解决这问题，对研究DNA结构及功能有重要意义。

二、DNA序列可视化对现状的影响

由于DNA序列可视化的实现，使得以前很多对DNA结构研究得到进展，对 DNA 序列结构规律的探究是至关重要的研究工作。但面对海量的 DNA 序列数据 ,传统的统计研究方法还不能很好地满足 DNA 序列研究的需要; 序列可视化研究无疑是一种能够揭示更多隐藏信息的数据表示方法。因为人类获得外在世界信息的 80 %是通过视觉通道获得的 ,可视化依然继续着借助形象化表达人类意图的传统，这对研究DNA结构来说是飞跃性的进步，具有重要影响。

六模型的评价与推广

6.1模型的优点

本模型采用3D图形曲线来判断蛋白质的序列，比传统的Randic的 2D图形曲线具有更好的可视性。特别是在区分蛋白质类别时，能够更好的抓住图形特征来说明同种蛋白质不同序列之间的相同点和不同蛋白质间的异同点，具有很好的

实用性。而在对于用欧式距离选择序列时，我们选用每个序列三维向量来作为其的数值特征，通过比较距离的长短来分析问题，其方法简单易行、结果准确率高且具有良好的稳定性，对于题目给出的问题做出了很好的回答。

6.2模型的缺点及改进

任何模型都受到实际生活中的各种限制，本模型也不例外，为了简化模型，基本假设很多都是理想状态。在本模型假设中，假定蛋白质每个序列都可以用其三维特征值来代表其空间结构，在实际中，我们知道蛋白质结构是由相邻连续的若干氨基酸在局部空间折叠形成具有一定规则的片段子构成的，其复杂程度很高，建议可以螺旋结构代替简单的平面结构来算每个序列特征值，从而更好有效算出每个序列在蛋白质中空间距离，也就更容易通过序列来判别各类蛋白质。当然，本模型利用3D图形曲线来区分蛋白质序列相同点和异同点具有很大的主观性，建议可以通过画多种类型图加以区分，同时通过计算机模拟对相同点与异同点做出更准确的判断，消除主观影响。

6.3模型的推广

本模型对于解决判别蛋白质序列具有较强的实用性，在区分题目给出的两类蛋白质中，利用欧式距离算出的结果可靠性高，实用性强。而且具有很好的推广性，例如可以测DNA序列结构判断其分类等等。

七参考文献

[1]强静,贺平安. 蛋白质序列的图形表示及相似性分析[J]. 浙江农业学报,2010,(5).

[2]张艳萍,贺平安. 蛋白质序列的图形表示及其应用[J]. 浙江理工大学学报,2010,(2).

[3]王树林,王戟,陈火旺,张波云. 基于分形的DNA序列可视化表示研究[J]. 计算机科学,2006,(7).

[4]刘西奎,李艳,许进. DNA序列二维图表示和有关分析[J]. 自然科学进展,2004,(9).

[5]张立婷,管维红,徐振源. 基于蛋白质CGR的线粒体蛋白质序列比对[J]. 计算机工程与应用,2008,(13).

[6]肖绚,邵世煌. 一种新颖的蛋白质序列可视化模型[J]. 计算机工程,2008,(3).

八附录

程序一：

A=1;R=2;N=3;D=4;C=5;Q=6;E=7;G=8;I=9;H=10;L=11;K=12;M=13;F=14;P=15;S=1 6;

T=17;W=18;Y=19;V=20;

a1=[M,Y,S,T,K,C,T,N,F,F,L,E,I,I,F,Y,V,I,F,C,T,L,F,L,L,V,L,E,K,M,S,K,L ,L,S,W,I,V,I,V,C,L,F,V,F,A,I,S,S,K,C,S,...

A,Q,N,Y,G,I,N,V,P,I,T,G,S,M,D,V,V,L,A,N,S,T,Q,D,Q,I,G,L,T,S,T,L,C,I,Y ,Y,P,K,A,A,D,T,E,I,A,D,P,E,W,K,A,T,...

V,T,Q,L,L,L,T,K,G,W,P,T,T,S,V,Y,L,N,E,Y,Q,D,L,V,T,F,S,N,D,P,K,L,Y,C,D ,Y,N,I,V,L,A,H,Y,T,N,D,V,A,L,D,I,S,...

E,L,A,E,F,L,L,Y,E,W,L,C,N,P,M,D,V,T,L,Y,Y,Y,Q,Q,T,S,E,P,N,K,W,I,A,M,G ,T,N,C,T,I,K,V,C,P,L,N,T,Q,T,L,G,I,...

G,C,Q,T,T,N,T,D,T,F,E,I,L,T,M,S,E,K,L,A,I,I,D,V,V,D,G,V,N,H,K,V,D,Y,T ,V,A,T,C,K,I,N,N,C,I,R,L,N,P,R,E,N,...

V,A,I,I,Q,V,G,G,P,E,V,L,D,I,S,E,N,P,M,V,I,P,K,V,S,R,M,T,R,M,N,W,K,K,W ,W,Q,V,F,Y,T,I,V,D,Y,I,N,T,I,I,T,T,...

M,S,K,R,S,R,S,L,D,V,S,S,Y,Y,Y,R,V];

n1=size(a1,2);

for j=1:20

x(j)=cos((2*pi*(j-1))/20);

y(j)=sin((2*pi*(j-1))/20);

end

u(1)=x(a1(1))/2;

v(1)=y(a1(1))/2;

z(1)=1;

for i=2:n1

u(i)=(u(i-1)+x(a1(i)))/2;

v(i)=(v(i-1)+y(a1(i)))/2;

z(i)=i;

end

plot3(u,v,z,'b')

title('第一类p29821序列')

grid on

程序二：

A=1;R=2;N=3;D=4;C=5;Q=6;E=7;G=8;I=9;H=10;L=11;K=12;M=13;F=14;P=15;S=1 6;

T=17;W=18;Y=19;V=20;

a1=[M,T,A,Y,I,Q,R,S,Q,C,I,S,T,S,L,L,V,V,L,T,T,L,V,S,C,Q,I,P,R,D,R,L,S ,N,I,G,V,I,V,D,E,G,K,...

S,L,K,I,A,G,S,H,E,S,R,Y,I,V,L,S,L,V,P,G,V,D,F,E,N,G,C,G,T,A,Q,V,I,Q,Y ,K,S,L,L,N,R,L,L,...

I,P,L,R,D,A,L,D,L,Q,E,A,L,I,T,V,T,N,D,T,T,Q,N,A,G,A,P,Q,S,R,F,F,G,A,V ,I,G,T,I,A,L,G,V,...

A,T,S,A,Q,I,T,A,G,I,A,L,A,E,A,R,E,A,K,R,D,I,A,L,I,K,E,S,M,T,K,T,H,K,S ,I,E,L,L,Q,N,A,V,...

G,E,Q,I,L,A,L,K,T,L,Q,D,F,V,N,D,E,I,K,P,A,I,S,E,L,G,C,E,T,A,A,L,R,L,G ,I,K,L,T,Q,H,Y,S,...

E,L,L,T,A,F,G,S,N,F,G,T,I,G,E,K,S,L,T,L,Q,A,L,S,S,L,Y,S,A,N,I,T,E,I,M ,T,T,I,K,T,G,Q,S,...

N,I,Y,D,V,I,Y,T,E,Q,I,K,G,T,V,I,D,V,D,L,E,R,Y,M,V,T,L,S,V,K,I,P,I,L,S ,E,V,P,G,V,L,I,H,...

K,A,S,S,I,S,Y,N,I,D,G,E,E,W,Y,V,T,V,P,S,H,I,L,S,R,A,S,F,L,G,G,A,D,I,T ,D,C,V,E,S,R,L,T,...

Y,I,C,P,R,D,P,A,Q,L,I,P,D,S,Q,Q,K,C,I,L,G,D,T,T,R,C,P,V,T,K,V,V,D,S,L ,I,P,K,F,A,F,V,N,G,...

G,V,V,A,N,C,I,A,S,T,C,T,C,G,T,G,R,R,P,I,S,Q,D,R,S,K,G,V,V,F,L,T,H,D,N ,C,G,L,I,G,V,N,G,...

V,E,L,Y,A,N,R,R,G,H,D,A,T,W,G,V,Q,N,L,T,V,G,P,A,I,A,I,R,P,I,D,I,S,L,N ,L,A,D,A,T,N,F,L,...

Q,D,S,K,A,E,L,E,K,A,R,K,I,L,S,E,V,G,R,W,Y,N,S,R,E,T,V,I,T,I,I,V,V,M,V ,V,I,L,V,V,I,I,V,...

I,I,I,V,L,Y,R,L,R,R,S,M,L,M,G,N,P,D,D,R,I,P,R,D,T,Y,T,L,E,P,K,I,R,H,M ,Y,T,N,G,G,F,D,A,M,A,E,K,R];

n1=size(a1,2);

for j=1:20

x(j)=cos((2*pi*(j-1))/20);

y(j)=sin((2*pi*(j-1))/20);

end

u1(1)=x(a1(1))/2;

v1(1)=y(a1(1))/2;

z1(1)=1;

for i=2:n1

u1(i)=(u1(i-1)+x(a1(i)))/2;

v1(i)=(v1(i-1)+y(a1(i)))/2;

z1(i)=i;

end

h1=sum(u1)/n1 %第一类的第一序列的平均横坐标

f1=sum(v1)/n1 %第一类的第一序列的平均纵坐标

d1=sum(z1)/n1 %第一类的第一序列的平均Z坐标

a2=[M,Y,G,I,E,Y,T,T,I,L,T,I,L,I,S,I,V,L,L,N,Y,I,L,K,S,I,T,S,M,M,D,F,I ,I,Y,R,F,L,L,V,F,V,I,V,L,P,F,I,K,A,Q,N,...

Y,G,I,N,L,P,I,T,G,S,M,D,T,A,Y,V,N,S,T,Q,Q,E,S,F,M,T,S,T,L,C,L,Y,Y,P,N ,S,V,T,T,E,I,T,D,P,D,W,T,H,T,L,S,Q,...

L,F,L,T,K,G,W,P,T,N,S,V,Y,F,K,S,Y,A,D,I,A,S,F,S,V,N,P,Q,L,Y,C,D,Y,N,I ,V,L,V,Q,Y,Q,N,S,L,A,L,D,V,S,E,L,A,...

D,L,I,L,N,E,W,L,C,N,P,M,D,V,T,L,Y,Y,Y,Q,Q,T,D,E,A,N,K,W,I,S,M,G,D,S,C ,T,V,K,V,C,P,L,N,M,Q,T,L,G,I,G,C,T,T,...

T,D,V,A,T,F,E,E,V,A,N,A,E,K,L,V,I,T,D,V,V,D,G,V,N,H,K,I,N,I,T,L,N,T,C ,T,I,Q,N,C,K,K,L,G,P,R,E,N,V,A,I,I,Q,...

V,G,G,S,D,I,I,D,I,T,A,D,P,T,T,I,P,Q,T,E,R,I,M,R,I,N,W,K,K,W,W,Q,V,F,Y ,T,V,V,D,Y,I,N,Q,I,V,Q,V,M,S,K,R,S,R,S,L,N,S,A,A,F,Y,Y,R,I];

n2=size(a2,2);

u2(1)=x(a2(1))/2;

v2(1)=y(a2(1))/2;

z2(1)=1;

for i=2:n2

u2(i)=(u2(i-1)+x(a2(i)))/2;

v2(i)=(v2(i-1)+y(a2(i)))/2;

z2(i)=i;

end

h2=sum(u2)/n2

f2=sum(v2)/n2

d2=sum(z2)/n2

a3=[M,Y,G,I,E,C,T,T,I,L,T,F,L,I,S,L,I,L,L,N,Y,I,L,Q,L,L,T,R,I,M,D,F,I ,I,Y,R,F,L,F,I,I,V,F,L,S,P,F,L,K,A,Q,N,...

Y,G,I,N,L,P,I,S,G,S,M,D,T,A,Y,V,N,S,T,Q,E,N,I,F,L,T,S,T,L,C,L,Y,Y,P,T ,E,A,A,T,Q,I,D,D,S,S,W,K,D,T,I,S,Q,...

L,F,L,T,K,G,W,P,A,G,S,V,Y,L,K,E,Y,T,D,I,T,S,F,S,I,D,P,Q,L,Y,C,D,Y,N,V ,V,L,M,K,Y,D,E,A,L,Q,L,D,M,S,E,L,A,D,...

L,I,L,N,E,W,L,C,N,P,M,D,I,T,L,Y,Y,Y,Q,Q,T,D,E,A,N,K,W,I,S,M,G,S,S,C,T

,I,K,V,C,P,L,N,T,Q,T,L,G,I,G,C,L,T,T,N,...

V,A,T,F,E,E,V,A,T,S,E,K,L,V,I,K,D,V,V,D,G,V,D,H,K,V,E,C,T,T,T,T,C,T,I ,R,N,C,K,K,L,G,P,R,E,N,V,A,I,I,Q,V,G,G,S,...

D,I,L,D,I,T,A,D,P,T,T,A,P,Q,I,A,R,M,M,R,I,N,W,K,K,W,W,Q,V,F,Y,T,V,V,D ,Y,I,N,Q,I,V,Q,V,M,S,K,R,S,R,S,L,D,S,A,A,F,Y,Y,R,I];

n3=size(a3,2);

u3(1)=x(a3(1))/2;

v3(1)=y(a3(1))/2;

z3(1)=1;

for i=2:n3

u3(i)=(u3(i-1)+x(a3(i)))/2;

v3(i)=(v3(i-1)+y(a3(i)))/2;

z3(i)=i;

end

h3=sum(u3)/n3

f3=sum(v3)/n3

d3=sum(z3)/n3

a4=[M,Y,S,T,K,C,T,N,F,F,L,E,I,I,F,Y,V,I,F,C,T,L,F,L,L,V,L,E,K,M,S,K,L ,L,S,W,I,V,I,V,C,L,F,V,F,A,I,S,S,K,C,S,...

A,Q,N,Y,G,I,N,V,P,I,T,G,S,M,D,V,V,L,A,N,S,T,Q,D,Q,I,G,L,T,S,T,L,C,I,Y ,Y,P,K,A,A,D,T,E,I,A,D,P,E,W,K,A,T,...

V,T,Q,L,L,L,T,K,G,W,P,T,T,S,V,Y,L,N,E,Y,Q,D,L,V,T,F,S,N,D,P,K,L,Y,C,D ,Y,N,I,V,L,A,H,Y,T,N,D,V,A,L,D,I,S,...

E,L,A,E,F,L,L,Y,E,W,L,C,N,P,M,D,V,T,L,Y,Y,Y,Q,Q,T,S,E,P,N,K,W,I,A,M,G ,T,N,C,T,I,K,V,C,P,L,N,T,Q,T,L,G,I,...

G,C,Q,T,T,N,T,D,T,F,E,I,L,T,M,S,E,K,L,A,I,I,D,V,V,D,G,V,N,H,K,V,D,Y,T ,V,A,T,C,K,I,N,N,C,I,R,L,N,P,R,E,N,...

V,A,I,I,Q,V,G,G,P,E,V,L,D,I,S,E,N,P,M,V,I,P,K,V,S,R,M,T,R,M,N,W,K,K,W ,W,Q,V,F,Y,T,I,V,D,Y,I,N,T,I,I,T,T,...

M,S,K,R,S,R,S,L,D,V,S,S,Y,Y,Y,R,V];

n4=size(a4,2);

u4(1)=x(a4(1))/2;

v4(1)=y(a4(1))/2;

z4(1)=1;

for i=2:n4

u4(i)=(u4(i-1)+x(a4(i)))/2;

v4(i)=(v4(i-1)+y(a4(i)))/2;

z4(i)=i;

end

h4=sum(u4)/n4

f4=sum(v4)/n4

d4=sum(z4)/n4

a5=[M,Y,G,I,E,Y,T,T,V,L,L,Y,L,I,S,F,V,L,M,S,Y,I,L,K,T,I,T,K,M,M,D,Y,I ,I,Y,R,I,T,F,I,I,V,V,L,S,V,L,S,N,A,Q,N,Y,...

G,I,N,L,P,I,T,G,S,M,D,T,A,Y,A,N,S,T,Q,D,N,N,F,L,S,S,T,L,C,L,Y,Y,P,S,E ,A,P,T,Q,I,N,D,N,E,W,K,D,T,L,S,Q,L,...

F,L,T,K,G,W,P,T,G,S,V,Y,F,N,E,Y,S,N,V,L,E,F,S,I,D,P,K,L,H,C,D,Y,N,I,V ,L,I,R,F,A,S,G,E,E,L,D,I,S,E,L,A,D,...

L,I,L,N,E,W,L,C,N,P,M,D,I,T,L,Y,Y,Y,Q,Q,T,G,E,A,N,K,W,I,S,M,G,S,S,C,T ,V,K,V,C,P,L,N,T,Q,T,L,G,I,G,C,Q,T,...

T,N,T,A,T,F,E,T,V,A,D,S,E,K,L,A,I,V,D,V,V,D,S,V,N,H,K,L,D,V,T,S,T,T,C ,T,I,R,N,C,N,K,L,G,P,R,E,N,V,A,I,I,...

Q,V,G,G,S,N,I,L,D,I,T,A,N,P,T,T,S,P,Q,T,E,R,M,M,R,V,N,W,K,K,W,W,Q,V,F ,Y,T,V,V,D,Y,I,N,Q,I,V,Q,V,M,S,K,R,...

S,R,S,L,D,S,S,S,F,Y,Y,R,V];

n5=size(a5,2);

u5(1)=x(a5(1))/2;

v5(1)=y(a5(1))/2;

z5(1)=1;

for i=2:n5

u5(i)=(u5(i-1)+x(a5(i)))/2;

v5(i)=(v5(i-1)+y(a5(i)))/2;

z5(i)=i;

end

h5=sum(u5)/n5

f5=sum(v5)/n5

d5=sum(z5)/n5

a6=[M,Y,S,T,E,C,T,I,L,L,I,E,I,I,F,Y,F,L,A,A,I,I,L,Y,D,M,L,H,K,M,A,N,S ,P,L,L,C,I,A,V,L,T,V,T,L,A,V,T,S,K,C,Y,A,...

Q,N,Y,G,I,N,V,P,I,T,G,S,M,D,V,A,V,P,N,K,T,D,D,Q,I,G,L,S,S,T,L,C,I,Y,Y ,P,K,E,A,A,T,Q,M,N,D,A,E,W,K,S,T,V,...

T,Q,L,L,L,A,K,G,W,P,T,T,S,V,Y,L,N,E,Y,A,D,L,Q,S,F,S,N,D,P,Q,L,N,C,D,Y ,N,I,I,L,A,K,Y,D,Q,N,E,T,L,D,M,S,E,...

L,A,E,L,L,L,Y,E,W,L,C,N,P,M,D,V,T,L,Y,Y,Y,Q,Q,T,S,E,S,N,K,W,I,A,M,G,S ,D,C,T,I,K,V,C,P,L,N,T,Q,T,L,G,I,G,C,K,T,T,...

D,V,S,T,F,E,E,L,T,T,T,E,K,L,A,I,I,D,V,V,D,G,V,N,H,K,A,N,Y,T,I,S,T,C,T ,I,K,N,C,I,R,L,D,P,R,E,N,V,A,I,I,Q,V,G,G,P,E,...

I,I,D,I,S,E,D,P,M,V,V,P,H,V,Q,R,A,T,R,I,N,W,K,K,W,W,Q,I,F,Y,T,V,V,D,Y ,I,N,T,I,I,Q,A,M,S,K,R,S,R,S,L,N,T,S,A,Y,Y,F,R,V];

n6=size(a6,2);

u6(1)=x(a6(1))/2;

v6(1)=y(a6(1))/2;

z6(1)=1;

for i=2:n6

u6(i)=(u6(i-1)+x(a6(i)))/2;

v6(i)=(v6(i-1)+y(a6(i)))/2;

z6(i)=i;

end

h6=sum(u6)/n6

f6=sum(v6)/n6

d6=sum(z6)/n6

a7=[M,Q,P,S,M,S,F,L,I,G,F,G,T,L,V,L,V,L,S,A,R,T,F,D,L,Q,G,L,S,C,N,T,D ,S,T,P,G,L,I,D,L,E,I,R,R,L,C,H,T,P,T,E,N,...

V,I,S,C,E,V,S,Y,L,N,H,T,T,I,S,L,P,A,V,H,T,S,C,L,K,Y,H,C,K,T,Y,W,G,F,F ,G,S,Y,S,A,D,R,I,I,N,R,Y,T,G,T,V,K,...

G,C,L,N,N,S,A,P,E,D,P,F,E,C,N,W,F,Y,C,C,S,A,I,T,T,E,I,C,R,C,S,I,T,N,V ,T,V,A,V,Q,T,F,P,P,F,M,Y,C,S,F,A,D,...

C,S,T,V,S,Q,Q,E,L,E,S,G,K,A,M,L,S,D,G,S,T,L,T,Y,T,P,Y,I,L,Q,S,E,V,V,N ,K,T,L,N,G,T,I,L,C,N,S,S,S,K,I,V,S,...

F,D,E,F,R,R,S,Y,S,L,T,N,G,S,Y,Q,S,S,S,I,N,V,T,C,A,N,Y,T,S,S,C,P,R,L,K ,R,R,R,R,D,T,Q,Q,I,E,Y,L,V,H,K,L,R,...

P,T,L,K,D,A,W,E,D,C,E,I,L,Q,S,L,L,L,G,V,F,G,T,G,I,A,S,A,S,Q,F,L,R,S,W ,L,N,H,P,D,I,I,G,Y,I,V,N,G,V,G,V,V,...

W,Q,C,H,R,V,N,V,T,F,M,A,W,N,E,S,T,Y,Y,P,P,V,D,Y,N,G,R,K,Y,F,L,N,D,E,G ,R,L,Q,T,N,T,P,E,A,R,P,G,L,K,R,V,M,...

W,F,G,R,Y,F,L,G,T,V,G,S,G,V,K,P,R,R,I,R,Y,N,K,T,S,H,D,Y,H,L,E,E,F,E,A ,S,L,N,M,T,P,Q,T,S,I,A,S,G,H,E,T,D,...

P,I,N,H,A,Y,G,T,Q,A,D,L,L,P,Y,T,R,S,S,N,I,T,S,T,D,T,G,S,G,W,V,H,I,G,L ,P,S,F,A,F,L,N,P,L,G,W,L,R,D,L,L,A,...

W,A,A,W,L,G,G,V,L,Y,L,I,S,L,C,V,S,L,P,A,S,F,A,R,R,R,R,L,G,R];

n7=size(a7,2);

u7(1)=x(a7(1))/2;

v7(1)=y(a7(1))/2;

z7(1)=1;

for i=2:n7

u7(i)=(u7(i-1)+x(a7(i)))/2;

v7(i)=(v7(i-1)+y(a7(i)))/2;

z7(i)=i;

end

h7=sum(u7)/n7

f7=sum(v7)/n7

d7=sum(z7)/n7

a8=[M,Y,G,I,E,Y,T,T,I,L,I,F,L,T,S,I,T,L,L,N,Y,I,L,K,S,I,T,R,M,M,D,Y,I ,I,Y,R,F,L,L,I,V,V,I,L,A,T,I,I,N,A,Q,N,Y,...

G,V,N,L,P,I,T,G,S,M,D,T,A,Y,A,D,S,T,Q,S,E,P,F,L,T,S,T,L,C,L,Y,Y,P,V,E ,A,S,N,E,I,A,D,T,E,W,K,D,T,L,S,Q,L,...

F,L,T,K,G,W,P,T,G,S,V,Y,L,K,E,Y,A,D,I,A,A,F,S,V,E,P,Q,L,Y,C,D,Y,N,L,V ,L,M,K,Y,D,S,T,Q,E,L,D,M,S,E,L,A,D,...

L,I,L,N,E,W,L,C,N,P,M,D,I,T,L,Y,Y,Y,Q,Q,T,D,E,A,N,K,W,I,S,T,G,S,S,C,T ,V,K,V,C,P,L,N,T,Q,T,L,G,I,G,C,L,I,...

T,N,P,D,T,F,E,T,V,A,T,M,E,K,L,V,I,T,D,V,V,D,G,V,N,H,K,L,N,V,T,T,A,T,C ,T,I,R,N,C,K,K,L,G,P,R,E,N,V,A,V,I,...

Q,V,G,G,A,N,V,L,D,I,T,A,D,P,T,T,T,P,Q,T,E,R,M,M,R,I,N,W,K,K,W,W,Q,V,F ,Y,T,V,V,D,Y,V,N,Q,I,I,Q,T,M,S,K,R,...

S,R,S,L,N,S,S,A,F,Y,Y,R,V];

n8=size(a8,2);

u8(1)=x(a8(1))/2;

v8(1)=y(a8(1))/2;

z8(1)=1;

for i=2:n8

u8(i)=(u8(i-1)+x(a8(i)))/2;

v8(i)=(v8(i-1)+y(a8(i)))/2;

z8(i)=i;

end

h8=sum(u8)/n8

f8=sum(v8)/n8

d8=sum(z8)/n8

a9=[M,Y,G,I,E,Y,T,T,I,L,T,F,F,V,S,F,I,I,L,D,Y,T,I,K,T,L,T,R,A,M,D,F,I ,I,Y,R,F,L,L,V,V,V,I,L,S,P,L,L,T,A,Q,N,...

Y,G,I,N,L,P,I,T,G,S,M,D,T,A,Y,A,N,S,T,Q,E,E,N,F,L,V,S,T,L,C,L,Y,Y,P,N ,E,V,V,S,E,L,N,D,D,S,W,K,N,T,L,S,Q,L,...

F,L,T,K,G,W,P,T,G,S,V,Y,F,N,E,Y,S,D,I,A,S,F,S,I,N,P,Q,L,Y,C,D,Y,N,I,V ,V,V,K,Y,S,T,E,L,Q,L,D,I,S,E,L,A,N,L,I,L,N,E,W,...

L,C,N,P,M,D,I,T,L,Y,Y,Y,Q,Q,T,D,E,T,N,K,W,I,S,T,G,T,S,C,T,V,K,V,C,P,L ,N,T,Q,T,L,G,I,G,C,L,T,T,D,T,E,T,F,...

E,E,V,A,T,L,E,K,L,V,I,T,D,V,V,D,G,V,N,H,K,I,N,L,T,T,A,T,C,T,I,R,N,C,K ,K,L,G,P,R,E,N,V,A,I,I,Q,V,G,R,S,S,...

T,I,D,I,T,A,D,P,T,T,M,P,Q,T,E,R,M,M,R,I,N,W,K,K,W,W,Q,V,F,Y,T,I,V,D,Y ,V,N,Q,I,I,Q,V,M,S,K,R,S,R,S,L,D,A,A,E,F,Y,Y,R,V];

n9=size(a9,2);

u9(1)=x(a9(1))/2;

v9(1)=y(a9(1))/2;

z9(1)=1;

for i=2:n9

u9(i)=(u9(i-1)+x(a9(i)))/2;

v9(i)=(v9(i-1)+y(a9(i)))/2;

z9(i)=i;

end

h9=sum(u9)/n9

f9=sum(v9)/n9

d9=sum(z9)/n9

a10=[M,Y,G,I,E,Y,T,T,I,L,I,F,L,I,S,I,I,L,L,N,Y,I,L,K,S,V,T,R,I,M,D,Y, I,I,Y,R,F,L,L,I,T,V,A,L,F,A,L,T,R,A,Q,N,Y,...

G,L,N,L,P,I,T,G,S,M,D,A,V,Y,T,N,S,T,Q,E,E,V,F,L,T,S,T,L,C,L,Y,Y,P,T,E ,A,S,T,Q,I,N,D,G,D,W,K,D,S,L,S,Q,M,...

F,L,T,K,G,W,P,T,G,S,V,Y,F,K,E,Y,S,N,I,V,D,F,S,V,D,P,Q,L,Y,C,D,Y,N,L,V ,L,M,K,Y,D,Q,S,L,E,L,D,M,S,E,L,A,D,...

L,I,L,N,E,W,L,C,N,P,M,D,V,T,L,Y,Y,Y,Q,Q,S,G,E,S,N,K,W,I,S,M,G,S,S,C,T ,V,K,V,C,P,L,N,T,Q,T,L,G,I,G,C,Q,T,...

T,N,V,D,S,F,E,M,I,A,E,N,E,K,L,A,I,V,D,V,V,D,G,I,N,H,K,I,N,L,T,T,T,T,C ,T,I,R,N,C,K,K,L,G,P,R,E,N,V,A,V,I,...

蛋白质序列分析

蛋白质序列、性质、功能和结构分析基于网络的蛋白质序列检索与核酸类似，从NCBI或利用SRS系统从EMBL 检索。 1、疏水性分析 ExPASy的ProtScale程序（https://www.doczj.com/doc/9e3186776.html,/cgi-bin/protscale.pl）可用来计算蛋白质的疏水性图谱。输入的数据可为蛋白质序列或SWISS-PROT数据库的序列接受号。也可用BioEdit、DNAMAN等软件进行分析。 2、跨膜区分析蛋白质跨膜区域分析的网络资源有： TMPRED：https://www.doczj.com/doc/9e3186776.html,/software/TMPRED_form.html PHDhtm: http:www.embl-heidelberg.de/Services/sander/predictprotein/predictpro tein.html MEMSAT: ftp://https://www.doczj.com/doc/9e3186776.html, 3、前导肽和蛋白质定位一般认为，蛋白质定位的信息存在于该蛋白自身结构中，并且通过与膜上特殊受体的相互作用得以表达。这就是信号肽假说的基础。这一假说认为，穿膜蛋白质是由mRNA编码的。在起始密码子后，有一段疏水性氨基酸序列的RNA片段，这个氨基酸序列就称为信号序列（signal sequence）。蛋白质序列的信号肽分析可联网到http://genome.cbs.dtu.dk /services/SignalP/或其二版网址 http://genome.cbs.dtu.dk/services/SignalP-2.0/。该服务器也提供利用 e-mail进行批量蛋白质序列信号肽分析的方案（http://genome.cbs.dtu.dk/services /SignalP/mailserver.html），e-mail 地址为signalp@ genome.cbs.dtu.dk。蛋白质序列中含有的信号肽序列将有助于它们向细胞内特定区域的移动，如前导肽和面向特定细胞器的靶向肽。在线粒体蛋白质的跨膜运输过程中，通过线粒体膜的蛋白质在转运之前大多数以前体形式存在，它由成熟蛋白质和N端延伸出的一段前导肽或引肽（leader peptide）共同组成。迄今有40多种线粒体蛋白质前导肽的一级结构被阐明，它们约含有20~80个氨基酸残基，当前体蛋白跨膜时，前导肽被一种或两种多肽酶所水解转变成成熟蛋白质，同时失去继续跨膜能力。前导肽一般具有如下性质：①带正电荷的碱性氨基酸（特别是精氨酸）含量较丰富，它们分散于不带电荷的氨基酸序列中间；②缺失带负电荷的酸性

蛋白质结构解析的方法对比综述 (1)

蛋白质结构解析的方法对比综述工程硕士李瑾摘要：到目前为止，蛋白质结构解析的方法主要是两种，x射线衍射法和NMR法，这两种方法各有优点和不足。关键词：x射线衍射法 NMR法到目前为止，蛋白质结构解析的方法主要是两种，x射线衍射法和NMR法。其中X射线的方法产生的更早，也更加的成熟，解析的数量也更多，第一个解析的蛋白的结构，就是用x晶体衍射的方法解析的。而NMR方法则是在90年代才成熟并发展起来的。这两种方法各有优点和不足[1]。首先是X射线晶体衍射法。该方法的前提是要得到蛋白质的晶体。通常是将表达目的蛋白的基因经PCR扩增后克隆到一种表达载体中，然后转入大肠杆菌中诱导表达，目的蛋白提纯之后摸索结晶条件，等拿到晶体之后，将晶体进行x射线衍射，收集衍射图谱，通过一系列的计算，得到蛋白质的原子结构[2]。 x射线晶体衍射法的优点是：速度快，通常只要拿到晶体，最快当天就能得出结构，另外不受肽链大小限制，无论是多大分子量的蛋白质或者RNA、DNA，甚至是结合多种小分子的复合体，只要能够结晶就能够得到其原子结构。所以x射线方法解析蛋白的关键是摸索蛋白结晶的条件。该方法得到的是蛋白质分子在晶体状态下的空间结构，这种结构与蛋白质分子在生物细胞内的本来结构有较大的差别。晶体中的蛋白质分子相互间是有规律地、紧密地排列在一起的，运动性较差；而自然界的生物细胞中的蛋白质分子则是处于一种溶液状态，周围是水分子和其他的生物分子，具有很好的运动性。而且，有些蛋白质只能稳定地存在于溶液状态，无法结晶[2]。核磁共振NMR（nuclear magnetic resonance）现象很早就被科研人员观察到了，但将这种方法用来解析蛋白质结构，却是近一二十年的事情。NMR法具体原理是对水溶液中的蛋白质样品测定一系列不同的二维核磁共振图谱，然后根据已确定的蛋白质分子的一级结构，通过对各种二维核磁共振图谱的比较和解析，在图谱上找到各个序列号氨基酸上的各种氢原子所对应的峰。有了这些被指认的峰，就可以根据这些峰在核磁共振谱图上所呈现的相互之间的关系得到它们所对应的氢原子之间的距离。[3]可以想象，正是因为蛋白质分子具有空间结构，在序列上相差甚远的两个氨基酸有可能在空间距离上是很近的，它们所含的氢原子所对应的NMR峰之间就会有相关信号出现[4] 。通常，如果两个氢原子之间距离小于0.5纳米的话，它们之间就会有相关信号出现。一个由几十个氨基酸残基组成的蛋白质分子可以得到几百个甚至几千个这样与距离有关的信号，按照信号的强弱把它们转换成对应的氢原子之间的距离，然后运用计算机程序根据所得到的距离条件模拟出该蛋白质分子的空间结构。该结构既要满足从核磁共振图谱上得到的所有距离条件，还要满足化学上有关原子与原子结合的一些基本限制条件，如原子间的化学键长、键角和原子半径等[4]。 NMR解析蛋白结构常规步骤如下：首先通过基因工程的方法，得到提纯的目的蛋白，在蛋白质稳定的条件下，将未聚合，而且折叠良好的蛋白样品（通常是1mM－3mM，500ul，PH6－7的PBS）装入核磁管中，放入核磁谱仪中，然后由写好的程序控制谱仪，发出一系列的电磁波，激发蛋白中的H、13N、13C原子，等电磁波发射完毕，再收集受激发的原子所放出的“能量”，通过收集数据、谱图处理、电脑计算从而得到蛋白的原子结构[5] [6]。用NMR研究蛋白质结构的方法，可以在溶液状态进行研究，得到的是蛋白质分子在溶液中的结构，这更接近于蛋白质在生物细胞中的自然状态[7]。此外，通过改变溶液的性质，还可以模拟出生物细胞内的各种生理条件，即蛋白质分子所处的各种环境，以观察这些周围环境的变化对蛋白质分子空间结构的影响。在溶液环境中，蛋白质分子具有与自然环境中类

三种分析蛋白结构域的方法

三种分析蛋白结构域(Domains)的方法 1，SMART入门，蛋白结构和功能分析 SMART介绍 SMART (a Simple Modular Architecture Research Tool) allows the identification and annotation of genetically mobile domains and the analysis of domain architectures. More than 500 domain families found in signalling, extracellular and chromatin-associated proteins are detectable. These domains are extensively annotated with respect to phyletic distributions, functional class, tertiary structures and functionally important residues. Each domain found in a non-redundant protein database as well as search parameters and taxonomic information are stored in a relational database system. User interfaces to this database allow searches for proteins containing specific combinations of domains in defined taxa. For all the details, please refer to the publications on SMART. SMART(，可以说是蛋白结构预测和功能分析的工具集合。简单点说，就是集合了一些工具，可以预测蛋白的一些二级结构。如跨膜区（Transmembrane segments），复合螺旋区（coiled coil regions），信号肽（Signal peptides），蛋白结构域（PFAM domains）等。 SMART前该知道的 1，SMART有两种不同的模式：normal 或genomic 主要是用的数据库不一样。Normal SMART, 用的数据库 Swiss-Prot, SP-TrEMBL 和 stable Ensembl proteomes。Genomic SMART, 用全基因组序列。详细列表：，一些名词解释进行时可以直接用各个数据库蛋白的ID。如Uniprot/Ensembl??ID / Accession number (ACC)。或是直接蛋白序列。运行SMART也可选择signal peptides、PFAM domains等的预测，勾上就是。看下图 SMART结果运行后的结果用图表表示。其实运行后的结果都有明确的解释。详细请看下面。

蛋白质结构分析原理及工具-文献综述

蛋白质结构分析原理及工具（南京农业大学生命科学学院生命基地111班）摘要：本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具，系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举，并没有对原理和方法做详细的介绍。文章还列举了蛋白质分析中常用的数据库。关键词：蛋白质；结构预测；跨膜域；保守结构域 1 蛋白质相似性检测蛋白质数据库。由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化后形成的同源序列称直系同源，它们通常具有相似的功能；由基因复制而来的序列称为旁系同源，它们通常有不同的功能[1]。因此，推测全新蛋白质功能的第一步是将它的序列与进化上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的特点。表一常用蛋白质数据库网址可能有更新氨基酸替代模型。进化过程中，一种氨基酸残基会有向另一种氨基酸残基变化的倾向。氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵[2]、JTT模型[3]。序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。成对序列相似性搜索通过搜索序列数据库从而找到与查询序列相似的序列。分为局部联配和全局联配。常用的局部联配工具有BLAST和SSEARCH，它们使用了Smith-Waterman 算法。全局联配工具有FASTA和GGSEARCH，基于Needleman-Wunsch算法。多序列相似性搜索常用于构建系统发育树，这里不阐述。表二列举了常用的成对序列相似性比对搜索工具

蛋白质结构与功能的关系

蛋白质结构与功能的关系蛋白质的结构包括一级结构、二级结构、三级结构、四级结构。一级结构是蛋白质的一级结构指在蛋白质分子从N-端至C-端的氨基酸排列顺序。一级结构是蛋白质空间构象和特异生物学功能的基础，但不是决定蛋白质空间构象的唯一因素。蛋白质的二级结构是指多肽链的主链骨架本身在空间上有规律的折叠和盘绕，它是由氨基酸残基非侧链基团之间的氢键决定的。常见的二级结构有α螺旋、三股螺旋、β折叠、β转角、β凸起和无规卷曲。α螺旋中肽链骨架围绕一个轴以螺旋的方式伸展，它可能是极性的、疏水的或两亲的。β折叠是肽链的一种相当伸展的结构，有平行和反平行两种。如果β股交替出现极性残基和非极性残基，那么就可以形成两亲的β折叠。β转角指伸展的肽链形成180°的U形回折结构而改变了肽链的方向。β凸起是由于β折叠股中额外插入一个氨基酸残基而形成的，它也能改变多肽链的走向。无规卷曲是在蛋白质分子中的一些极不规则的二级结构的总称。无规卷曲无固定走向，有时以环的形式存在，但不是任意变动的。从结构的稳定性上看，右手α螺旋＞β折叠＞ U型回折＞无规卷曲，但在功能上，酶与蛋白质的活性中心通常由无规卷曲充当，α右手螺旋和β折叠一般只起支持作用。蛋白质的三级结构是指多肽链在二级结构的基础上，进一步盘绕、卷曲和折叠，形成主要通过氨基酸侧链以次级键以及二硫键维系的完整的三维结构。三级结构通常由模体和结构域组成。稳定三级结构的化学键包括氢键、疏水键、离子键、范德华力、金属配位键和二硫键。模体可用在一级结构上，特指具有特殊生化功能的序列模体，也可被用于功能模体或结构模体，相当于超二级结构。结构模体是结构域的组分，基本形式有αα、βαβ和βββ等。常见的模体包括：左手超螺旋、右手超螺旋、卷曲螺旋、螺旋束、α螺旋-环-α螺旋、Rossmann卷曲和希腊钥匙模体。结构域是在一个蛋白质分子内的相对独立的球状结构和/或功能模块，由若干个结构模体组成的相对独立的球形结构单位，它们通常是独自折叠形成的，与蛋白质的功能直接相关。一个结构域通常由一段连续的氨基酸序列组成。根据其占优势的二级结构元件的类型，结构域可分为五大类：α结构域、β结构域、α/β结构域、α+β 结构域、交联结构域。以上每一类结构域的二级结构元件可能有不同的组织方式，每一种组织就是一种结构模体。这些结构域都有疏水的核心，疏水核心是结构域稳定所必需的。具有两条和两条以上多肽链的寡聚蛋白质或多聚蛋白质才会有四级结构。组成寡聚蛋白质或多聚蛋白质的每一个亚基都有自己的三级结构。蛋白质的四级结构内容包括亚基的种类、数目、空间排布以及亚基之间的相互作用。驱动四级结构形成或稳定四级结构的作用力包括

生物化学蛋白质的结构与功能试题及答案

第一章蛋白质的结构与功能 [测试题] 一、名词解释：1．氨基酸 2．肽 3．肽键 4．肽键平面 5．蛋白质一级结构 6．α-螺旋 7．模序 8．次级键 9．结构域 10．亚基 11．协同效应 12．蛋白质等电点 13．蛋白质的变性 14．蛋白质的沉淀 15．电泳 16．透析 17．层析 18．沉降系数 19．双缩脲反应 20．谷胱甘肽二、填空题 21．在各种蛋白质分子中，含量比较相近的元素是____，测得某蛋白质样品含氮量为15.2克，该样品白质含量应为____克。 22．组成蛋白质的基本单位是____，它们的结构均为____，它们之间靠____键彼此连接而形成的物质称为____。 23．由于氨基酸既含有碱性的氨基和酸性的羧基，可以在酸性溶液中带____电荷，在碱性溶液中带____电荷，因此，氨基酸是____电解质。当所带的正、负电荷相等时，氨基酸成为____离子，此时溶液的pH值称为该氨基酸的____。 24．决定蛋白质的空间构象和生物学功能的是蛋白质的____级结构，该结构是指多肽链中____的排列顺序。25．蛋白质的二级结构是蛋白质分子中某一段肽链的____构象，多肽链的折叠盘绕是以____为基础的，常见的二级结构形式包括____，____，____和____。 26．维持蛋白质二级结构的化学键是____，它们是在肽键平面上的____和____之间形成。 27．稳定蛋白质三级结构的次级键包括____，____，____和____等。 28．构成蛋白质的氨基酸有____种，除____外都有旋光性。其中碱性氨基酸有____，____，____。酸性氨基酸有____，____。 29．电泳法分离蛋白质主要根据在某一pH值条件下，蛋白质所带的净电荷____而达到分离的目的，还和蛋白质的____及____有一定关系。 30．蛋白质在pI时以____离子的形式存在，在pH>pI的溶液中，大部分以____离子形式存在，在pH

蛋白质数据库

生物芯片北京国家工程研究中心湖南中药现代化药物筛选分中心暨湖南涵春生物有限公司常用数据库名录 1、蛋白质数据库 PPI - JCB 蛋白质与蛋白质相互作用网络 ?Swiss-Prot - 蛋白质序列注释数据库 ?Kabat - 免疫蛋白质序列数据库 ?PMD - 蛋白质突变数据库 ?InterPro - 蛋白质结构域和功能位点 ?PROSITE - 蛋白质位点和模型 ?BLOCKS - 生物序列分析数据库 ?Pfam - 蛋白质家族数据库 [镜像： St. Louis (USA), Sanger Institute, UK, Karolinska Institutet (Sweden)] ?PRINTS - 蛋白质 Motif 数据库 ?ProDom - 蛋白质结构域数据库 (自动产生) ?PROTOMAP - Swiss-Prot蛋白质自动分类系统 ?SBASE - SBASE 结构域预测数据库 ?SMART - 模式结构研究工具 ?STRING - 相互作用的蛋白质和基因的研究工具

?TIGRFAMs - TIGR 蛋白质家族数据库 ?BIND - 生物分子相互作用数据库 ?DIP - 蛋白质相互作用数据库 ?MINT - 分子相互作用数据库 ?HPRD - 人类蛋白质查询数据库 ?IntAct - EBI 蛋白质相互作用数据库 ?GRID - 相互作用综合数据库 ?PPI - JCB 蛋白质与蛋白质相互作用网络 2、蛋白质三级结构数据库 ?PDB - 蛋白质数据银行 ?BioMagResBank - 蛋白质、氨基酸和核苷酸的核磁共振数据库?SWISS-MODEL Repository - 自动产生蛋白质模型的数据库 ?ModBase - 蛋白质结构模型数据库 ?CATH - 蛋白质结构分类数据库 ?SCOP - 蛋白质结构分类 [镜像: USA | Israel | Singapore | Australia] ?Molecules To Go - PDB数据库查询 ?BMM Domain Server - 生物分子模型数据库 ?ReLiBase - 受体/配体复合物数据库 [镜像： USA] ?TOPS - 蛋白质拓扑图 ?CCDC - 剑桥晶体数据中心 (剑桥结构数据库 (CSD))

生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库简述内蒙古工业大学理学院呼和浩特孙利霞 2010.1.5 摘要：在后基因组时代生物信息学的研究当中，离不开各种生物信息学数据库。尤其在蛋白质从序列到功能的研究当中，目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。随着计算机技术及网络技术的发展，目前的蛋白质数据库不论是所包含数据量还是功能都日新月异，新的数据库层出不穷。一个新手面对如此浩瀚的数据量往往无从下手。本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓，作为自己蛋白质研究入门的一个引导。关键词：蛋白质；数据库 0 引言随着科技的发展，个人的知识往往赶不上快速膨胀的信息量，人们为了解决这个问题，便创建了形形色色的数据库。蛋白质数据库是指：在蛋白质研究领域根据实际需要，对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释，构建出具有特殊生物学意义和专门用途的数据库。蛋白质数据库总体上可分为两大类：蛋白质序列数据库和蛋白质结构数据库，蛋白质序列数据库来自序列测定，结构数据库来自X-衍射和核磁共振结构测定（详见图1）。这些数据库是分子生物信息学的基本数据资源。上世纪90年代，我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。信息的传播储存甚为不便。随着蛋白质研究的发展飞快，同时伴随着计算机和因特网发展，蛋白质数据库的储存传播方式也发生的巨大的变化。进入21世纪后，我们所用的各种蛋白质数据库都发展成为存储在网络服务器上，基于“服务器—客户机”的访问查询方式。伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。但是面对如此浩瀚的数据，新手往往感到无从下手，在需要时找不到自己需要的合适数据库。本文从目前蛋白质数据库建立的的逻辑层次出发，系统地简绍了常用蛋白质数据的概况，它们的查询方法以及它们相互之间的联系。同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术，为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。

蛋白质的结构与功能(含解析)

课时作业(六) [学业水平层次(A)] 1．(2015·济南高一期末)下列物质分子中，不属于构成生物体蛋白质的氨基酸的是( ) 【解析】构成生物体蛋白质的氨基酸必须是有一个氨基和一个羧基连在同一个碳原子上，据此，A、B、C三项的物质分子中都有一个氨基和一个羧基连在同一个碳原子上，而D项是连在不同的碳原子上，因此不属于构成生物体蛋白质的氨基酸。【答案】 D 2．在活细胞中发生的大多数化学反应中，起重要作用的物质是蛋白质，蛋白质在细胞中的存在方式通常有两种状态，一是游离态，二是被膜结构固定起来的结合态，结合态的蛋白质不可能具有的功能是( )

A ．催化作用 B ．运输作用 C ．免疫作用 D ．调节作用【解析】蛋白质的功能是：①构成生命体；②催化作用；③运输作用；④调节作用； ⑤免疫作用，而其中起调节作用的蛋白类激素是细胞分泌产物，不是被膜固定起来的蛋白质。【答案】 D 3．(2015·延安期末)某蛋白质由3条多肽链、n 个氨基酸组成，下列关于该蛋白质说法正确的是( ) A ．形成该蛋白质时产生了n 个水分子 B ．该蛋白质中至少含有n 个肽键 C ．该蛋白质中至少含有3个游离的羧基 D ．合成该蛋白质至少需要20种氨基酸【解析】形成该蛋白质时，产生水分子数为n －3，含有n －3个肽键。至少含有的游离的羧基数＝肽链条数＝3。【答案】 C 4.蛋白质在消化道内的消化过程为：蛋白质――→①多肽――→②氨基酸，则①② 过程中分别破坏了下列什么结构( ) A ．肽键氨基酸 B ．肽键肽键 C ．空间结构肽键 D ．空间结构氨基酸【解析】多肽内氨基酸残基之间通过肽键连接，一条或几条多肽链盘曲折叠形成具有一定空间结构的蛋白质。【答案】 C 5．有一种二肽，化学式是C 8H 14N 2O 5，水解后得到丙氨酸(R 基为—CH 3)和另一种氨基酸M ，则氨基酸M 的R 基的化学式是( ) A ．—C 5H 9O 4N B ．— C 3H 5NO 2 C ．—C 5H 7O 2 D ．—C 3H 5O 2 【解析】丙氨酸的化学式为氨基酸共有部分加上R 基，即C 2H 4O 2N 加上CH 3，为C 3H 7O 2N 。氨基酸M 的化学式为二肽加上水减去丙氨酸，即C 8H 14N 2O 5

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件 2010-05-08 20:40 转载自布丁布果最终编辑布丁布果 4月18日蛋白质数据库及蛋白质序列分析第一节、蛋白质数据库介绍一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库，目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列，这些序列经过检验和注释。该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护。SWISS-PROT 的序列数量呈直线增长。2、TrEMBL数据库： SWISS-PROT的数据存在一个滞后问题，即把EMBL的DNA序列准确地翻译成蛋白质序列并进行注释需要时间。一大批含有开放阅读框(ORF) 的DNA序列尚未列入SWISS-PROT。为了解决这一问题，TrEMBL(Translated EMBL) 数据库被建立了起来。TrEMBL也是一个蛋白质数据库，它包括了所有EMBL库中的蛋白质编码区序列，提供了一个非常全面的蛋白质序列数据源，但这势必导致其注释质量的下降。 3、PIR数据库： PIR数据库的数据最初是由美国国家生物医学研究基金会（National Biomedical Research Foundation, NBRF）收集的蛋白质序列，主要翻译自GenBank的DNA序列。 1988年，美国的NBRF、日本的JIPID（the Japanese International Protein Sequence Database 日本国家蛋白质信息数据库）、德国的MIPS（Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息中心）合作，共同收集和维护PIR数据库。PIR根据注释程度(质量)分为4个等级。4、 ExPASy数据库：目前，瑞士生物信息学研究所（Swiss Institute of Bioinformatics, SIB）创建了蛋白质分析专家系统（Expert protein analysis system, ExPASy ）。涵盖了上述所有的数据库。网址：https://www.doczj.com/doc/9e3186776.html, 我国的北京大学生物信息中心(https://www.doczj.com/doc/9e3186776.html,) 设立了ExPASy的镜像（Mirror）。主要蛋白质序列数据库的网址 SWISS-PROT https://www.doczj.com/doc/9e3186776.html,/sprot 或 https://www.doczj.com/doc/9e3186776.html,/expasy_urls.html TrEMBL https://www.doczj.com/doc/9e3186776.html,/sprot PIR https://www.doczj.com/doc/9e3186776.html,/pirwww MIPS——Munich Information Centre for Protein Sequences http://mips.gsf.de/ JIPID——the Japanese International Protein Sequence Database 已经和PIR合并 ExPASy https://www.doczj.com/doc/9e3186776.html, 二、蛋白质结构数据库 1、PDB数据库：

蛋白质结构解析研究进展作业

《蛋白质结构解析研究进展》一、蛋白质结构分类人类对于进化的认识及蛋白质结构相似性比较的研究使蛋白质结构分类成为可能，而且近年来取得的研究进展表明，大部分蛋白质可以成功的分入到适当数目的家族中。目前国际上流行的蛋白质结构分类数据库基本上采取两种不同的思路，一种是数据库中储存所有结构两两比较的结果；第二种思路是致力于构建非常正式的分类体系。由于所有分类方法反映了各研究小组在探究这个重要领域的不同角度，所以这些方法是同等有效的。目前，被广泛应用的四种分类标准是：手工构造的层次分类数据库SCOP，全自动分类的MMDB和FSSP，和半手工半自动的CATH。蛋白质结构自动分类问题可以被纳入机器学习的范畴，通过提取分析蛋白质结构的关键特征，构造算法来学习蕴含于大量已知结构和分类的数据中的专家经验知识，来实现对未知蛋白质结构的分类预测。目前，对蛋白质结构的不同层次分类，结果比较好的机器学习方法是：神经网络多层感知器、支持向量机和隐马尔可夫模型。支持向量机应用于分类问题最终归结于求解一个最优化问题。上世纪90 年代中期，隐马尔可夫模型与其他机器学习技术结合，高效地用于多重比对、数据挖掘和分类、结构分析和模式发现。多层感知器即误差反向传播神经网络，它是在各种人工神经网络模型中，在机器学习中应用最多且最成功的采用BP学习算法的分类器。二、蛋白质结构的确定蛋白质三维空间结构测定方法主要包括X射线晶体学分析、核磁共振波谱学技术和三维电镜重构，这三种方法都可以完整独立地在原子分辨水平上测定出蛋白质的三维空间结构。蛋白质数据库PDB中80%的蛋白质结构是由X射线衍射分析得到的，约15%的蛋白质结构是由核磁共振波谱学这种新的结构测定方法得到。 1、X射线晶体学

整理(蛋白质序列数据库)

蛋白质序列数据库我们可以根据基因组序列预测新基因，预测编码区域，并推测其产物（即蛋白质）的序列。因此，随着基因组序列的不断增长，蛋白质序列也在不断增加。 PIR 历史上，蛋白质数据库的出现先于核酸数据库。在1960年左右，Dayhoff和其同事们搜集了当时所有已知的氨基酸序列，编著了《蛋白质序列与结构图册》。从这本图册中的数据，演化为后来的蛋白质信息资源数据库PIR（Protein Information Resource）。 PIR是由美国生物医学基金会NBRF（National Biomedical Research Foundation）于1984年建立的，其目的是帮助研究者鉴别和解释蛋白质序列信息，研究分子进化、功能基因组，进行生物信息学分析。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理，超过99%的序列已按蛋白质家族分类，一半以上还按蛋白质超家族进行了分类。PIR提供一个蛋白质序列数据库、相关数据库和辅助工具的集成系统，用户可以迅速查找、比较蛋白质序列，得到与蛋白质相关的众多信息。目前，PIR已经成为一个集成的生物信息数据源，支持基因组研究和蛋白质组研究。至2004年，PIR 有近30万个蛋白质的登录数据项，包括来自不同生物体的蛋白质序列。除了蛋白质序列数据之外，PIR还包含以下信息：（1）蛋白质名称、蛋白质的分类、蛋白质的来源；（2）关于原始数据的参考文献；（3）蛋白质功能和蛋白质的一般特征，包括基因表达、翻译后处理、活化等；（4）序列中相关的位点、功能区域。对于数据库中的每一个登录项，有与其它数据库的交叉索引，包括到GenBank、EMBL、DDBJ、GDB、MELINE等数据库的索引。PIR中一个具体的登录项如图4.4所示。

蛋白质结构解析

晶体结构解析过程1 1：分子置换法使用condition：目标蛋白A有同源1蛋白结构B，同源性30%以上。用到的软件及程序：HKL2000，CCP4，COOT，Phenix，CNS。解析过程：收集数据（X-RAY）--> hkl2000 处理数据--> 置换前数据处理分子置换（ccp4Molecular Replacement--MR）-->COOT手工修正，氨基酸序列调换-->phenix refine--coot 手工修正phenix refine。。。__拉氏构象图上outlier为0为之，且R-free，R-work达到足够低的值。-->phenix 加水refine（溶剂平滑）。。。（若修正过程中有bias 最好也用CNS修正一下） 2：同晶置换法--硒代蛋白使用condition：目标蛋白没有同源结构。用到的软件及程序：HKL2000，CCP4，COOT，Phenix，CNS。解析过程：收集数据（X-ray 硒代蛋白及母体蛋白）--> hkl2000处理数据-->ccp4 程序包搜索搜索硒信号（gap），相位确定-->搭模--->以硒代数据得到的pdb为模型和母体高分辨数据得到的mtz进行分子置换--> 后面修正过程与分子置换相似。各步骤介绍：（1）hkl2000：将x-ray 收集的图像编译转化为数字信息，得到的关键文件有.sca和.log ，log文件会给出hkl2000 处理的过程记录，sca文件是最终处理的输出文件。sca文件包含晶体的空间群等信息。带有可以被转化为电子密度图的信息。评价hkl2000处理是否成功的参数有数据完整度，最高分辨率等，一般希望处理出在完整度允许的情况下最高分辨率的数据。分子置换前处理：ccp4 软件包 a. data reduction，即将sca文件转换为mtz文件。用imported integrated data。 b. cell content analysis 这个是晶体中蛋白聚集体数的分析，通过分析晶体含水量得到一个晶胞内的蛋白分子数。用mtz文件进行。含水量在40%-60%之间时对应得n即为正确值。这个聚集体数会在mr中使用。

蛋白质序列分析和结构预测

4.2 针对蛋白质的预测方法传统的生物学认为，蛋白质的序列决定了它的三维结构，也就决定了它的功能。由于用X光晶体衍射和NMR核磁共振技术测定蛋白质的三维结构，以及用生化方法研究蛋白质的功能效率不高，无法适应蛋白质序列数量飞速增长的需要，因此近几十年来许多科学家致力于研究用理论计算的方法预测蛋白质的三维结构和功能，经过多年努力取得了一定的成果。 1. 从氨基酸组成辨识蛋白质根据组成蛋白质的20种氨基酸的物理和化学性质可以分析电泳等实验中的未知蛋白质，也可以分析已知蛋白质的物化性质。ExPASy工具包中提供了一系列相应程序： AACompIdent：根据氨基酸组成辨识蛋白质。这个程序需要的信息包括：氨基酸组成、蛋白质的名称(在结果中有用)、pI和Mw(如果已知)以及它们的估算误差、所属物种或物种种类或“全部(ALL)”、标准蛋白的氨基酸组成、标准蛋白的SWISS-PROT编号、用户的Email地址等，其中一些信息可以没有。这个程序在SWISS-PROT和(或)TrEMBL数据库中搜索组成相似蛋白。 AACompSim：与前者类似，但比较在SWISS-PROT条目之间进行。这个程序可以用于发现蛋白质之间较弱的相似关系。除了ExPASy中的工具外，PROPSEARCH也提供基于氨基酸组成的蛋白质辨识功能。程序作者用144种不同的物化性质来分析蛋白质，包括分子量、巨大残基的含量、平均疏水性、平均电荷等，把查询序列的这些属性构成的“查询向量”与SWISS-PROT和PIR中预先计算好的各个已知蛋白质的属性向量进行比较。这个工具能有效的发现同一蛋白质家族的成员。可以通过Web使用这个工具，用户只需输入查询序列本身。 ExPASy的网址是：http://www.expasy.ch/tools/。 PROSEARCH的网址是：http://www.embl-heidelberg.de/prs.html。 2. 预测蛋白质的物理性质从蛋白质序列出发，可以预测出蛋白质的许多物理性质，包括等电点、分子量、酶切特性、疏水性、电荷分布等。相关工具有： Compute pI/MW：是ExPASy工具包中的程序，计算蛋白质的等电点和分子量。对于碱性蛋白质，计算出的等电点可能不准确。 PeptideMass：是ExPASy工具包中的程序，分析蛋白质在各种蛋白酶和化学试剂处理后的内切产物。蛋白酶和化学试剂包括胰蛋白酶、糜蛋白酶、LysC、溴化氰、ArgC、AspN 和GluC等。

蛋白质结构分析方法

蛋白质结构分析方法：X射线晶体衍射分析和核磁共振 x 射线衍射法的分辨率可达到原子的水平，使它可以测定亚基的空间结构、各亚基间的相对拓扑布局，还可清楚的描述配体存在与否对蛋白质的影响。多维核磁共振波谱技术已成为确定蛋白质和核酸等生物分子溶液三维结构的唯一有效手段。NM R技术最大的优点不在于它的分辨率，而在于它能对溶液中和非晶态的蛋白质进行测量。蛋白质的序列结构测定: 1.到目前为止，最经典的蛋白质的氨基酸序列分析方法是，sarI等人基于Edman降解原理研制的液相蛋白质序列仪，及后来发展的固相和气相的蛋白质序列分析仪。 2.质谱：早期的质谱电离的方式主要是电子轰击电离(EI)，它要求样品的挥发性好，一般与气相色谱联用。但使用G C／M S分析，肽的长度受到限制，只能分析小的肽段。近年来，在离子化的技术及仪器方面取得了突破性进展，使得质谱所能测定的分子量的范围大大超出了10k u。因此，软离子化技术、基质辅助的激光解吸／离子化(MALDI)和电喷雾离子化(E SI)显得尤为有前途。通过串联质谱技术(MS／MS)和源后衰减基质辅助的激光解吸／离子化(PSD—MAIDI—MS)，人们就可以从质谱分析中获得肽及蛋白质的结构信息。蛋白质三维结构的研究： 1.X射线单晶衍射分析 2.核磁共振分析 3.蛋白质的二维晶体与三级重构：蛋白质二维结晶及其电子晶体学的结构分析是目前结构生物学最活跃的领域之一。此法既适用于水溶性蛋白质，也适用于脂溶性膜蛋白的研究。电子晶体学的结构分析源于早期的电子衍射分析。与X射线衍射方法类似，电子衍射数据的实验分析得到的只是结构因子的振幅部分，丢掉了相位信息。但从剑桥MRC分子生物学实验室的Klug和DeRo sier建立了三维重构的方法开始，电子晶体学才真正发展成为一种独立的空间结构的分析方法，并从传统的X射线晶体学中脱胎出来。所谓电镜图像的三维重构是指由样品的一个或多个投影图得到样品中各成分之间的三维关系。这一方法的基本思路是电子显微图像含有振幅和相位的信息，二者可通过数字图像处理的傅立叶变换方法提取出来。蛋白质溶液构想的光谱技术：紫外-可见差光谱：紫外一可见差光谱也是电子光谱，由电子跃迁产生。而蛋白质在紫外区的光吸收是由于芳香族氨基酸侧链吸收光引起的。可见区的研究则限于蛋白质一蛋白质、酶一辅酶、酶一底物的相互作用等，有时还需引人生色团才能进行。差光谱的产生是基于生色团经受一定的环境变化时，吸收峰发生位移，吸光度和谱带半宽度也有改变。生色团经受的这种环境变化称为微扰作用，变化后和变化前的光谱差称为差光谱。根据差光谱的光谱参数，可以推断这些生色团在大分子中是隐藏的半暴露的还是暴露的。荧光探针法：荧光光谱法是研究蛋白质分子构象的一种有效方法，它能提供包括激发光谱、发射光谱、斯托克斯位移，荧光强度、总荧光量、量子产率、荧光偏振和荧光寿命等参数，这些参数从各个角度反映了分子的成键和结构情况。通过这些参数的测定，不但可以做一般的定量分析，而且还可以推断蛋白质分子在各种环境下的构象变化，从而阐明蛋白质分子在各种环境下的构象变化，进而阐明蛋白质结构与功能之间的关系。圆二色谱：圆二色性和旋光色散都可用于测定分子的立体结构。旋光色散利用不对称分子对左、右圆偏振光折射的不同进行结构分析，而圆二色性则利用不对称分子对左、右圆偏振光吸收的不同进行结构分析。在蛋白质分子中，每个氨基酸残基的a碳是不对称碳，再加上主链构象也是不对称结构，因而蛋白质分子具有光学活性。通过圆二色的测定和计算可以了解蛋白质分子在溶液状态下的二级结构。圆二色对构象变化敏感，故它可灵敏的检测一些反应引起的构象变化，特别是用于观测蛋白质的变性是最方便的.

蛋白质结构与功能的生物信息学研究

实验名称：蛋白质结构与功能的生物信息学研究实验目的：1.掌握运用BLAST工具对指定蛋白质的氨基酸序列同源性搜索的方法。 2.掌握用不同的工具分析蛋白质的氨基酸序列的基本性质 3掌握蛋白质的氨基酸序列进行三维结构的分析 4.熟悉对蛋白质的氨基酸序列所代表蛋白的修饰情况、所参与的代谢途径、相互作用的蛋白，以及与疾病的相关性的分析。实验方法和流程：一、同源性搜索同源性从分子水平讲则是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。BLAST工具能对生物不同蛋白质的氨基酸序列或不同的基因的DNA序列极性比对，并从相应数据库中找到相同或相似序列。对指定的蛋白质的氨基酸序列进行同源性搜索步骤如下： ↓ 登录网址https://www.doczj.com/doc/9e3186776.html,/blast/ ↓ 输入序列后,运行blast工具 ↓ 序列比对的图形结果显示

序列比对的图形结果：用相似性区段（Hit）覆盖输入序列的范围判断两个序列的相似性。如果图形中包含低得分的颜色（主要是红色）区段，表明两序列的并非完全匹配。 ↓ 匹配序列列表及得分

各序列得分可选择不同的比对工具备注: Clustal是一款用来对()的软件。可以用来发现特征序列，进行蛋白分类，证明序列间的同源性，帮助预测新序列二级结构与三级结构，确定PCR引物，以及在分子进化分析方面均有很大帮助。Clustal包括Clustalx和Clustalw(前者是图形化界面版本后者是命令界面)，是生物信息学常用的多序列比对工具。该序列的比对结果有100条，按得分降序排列，其中最大得分2373，最小得分分为1195. ↓ 详细的比对序列的排列情况第一个匹配序列第一个序列的匹配率为100% Score表示打分矩阵计算出来的值，由搜索算法决定的，值越大说明匹配程度

蛋白结构分析和比较

蛋白结构分析和比较姓名________ 学号______________ 日期________年___月___日阅读分子月报科普短文，参阅相关文献，从蛋白质结构数据库下载以下蛋白质三维结构原子坐标文件，利用Swiss-PdbViewer显示观察，说明其结构特点。猪胰岛素(4INS): 由几个亚基组成，每个亚基有几条多肽链，每条多肽链由哪些二级结构单元组成；每条多肽链有几对链内二硫键，多肽链之间由几对二硫键连接；每个亚基如何与锌原子结合。抹香鲸肌红蛋白(1MBO): 由几股alpha螺旋组成；与血色素卟啉环中央铁原子以配位健结合的是哪个组氨酸，该组氨酸位于第几股alpha 螺旋；与血色素携带的氧分子通过氢键连接的是哪个组氨酸，该组氨酸位于第几股alpha螺旋。小鼠免疫球蛋白(1IGT): 由几个亚基组成，每个亚基各有几个结构域；两条重链之间由几对二硫键连接，重链和轻链之间由几对二硫键连接；每个结构域内部的二硫键和色氨酸如何形成疏水内核；多糖链对稳定分子结构的作用。水母（Jellyfish）绿色荧光蛋白(1GFL): 选择PDB原始文件中二聚体A链，保存为单个亚基1GFLa.pdb; 打开1GFLa.pdb，并用不同颜色显示二级结构beta折叠; 找出分子内部发光基团Ser65-Tyr66-Gly67并说明其发光机理。核小体(1AOI): 用不同颜色显示组蛋白8个亚基；观察DNA分子碱基配对特点；显示组蛋白表面与DNA相互作用的碱性氨基酸。斑头雁和灰雁血红蛋白比较实例从UniProt数据库中提取斑头雁和灰雁血红蛋白alpha亚基序列，进行序列比对，找出差异位点。用SwissPDB-Viwer软件中选择并保存灰雁氧合血红蛋白1FAW中四个亚基中的A链B 链两个亚基。用结构叠合方法分析比较灰雁氧合血红蛋白A链B链两个亚基与斑头雁血红蛋白1A4F 两个亚基的结构，计算基于alpha碳叠合后的均方根误差（RMSD）。找出斑头雁血红蛋白A链第119位丙氨酸侧链beta碳原子CB和B链55位亮氨酸侧链末端两个碳原子CD1和CD2，分别测量A119CB和B55CD1、B55CD2之间的距离。找出灰雁血红蛋白A链第119位脯氨酸侧链gamma碳原子CG和B链55位亮氨酸侧链末端两个碳原子CD1和CD2，分别测量A119CG和B55CD1、B55CD2之间的距离。根据上述分析结果，参阅相关文献，说明斑头雁和灰雁血红蛋白A119侧链大小和柔性不同，如何影响其构象变化，从而进一步引起氧气结合能力的变化。利用模拟突变的方法，将灰雁血红蛋白A链第119位脯氨酸突变成丙氨酸，测量突变后的A119CB和B55CD1、B55CD2之间的距离。课题相关蛋白质结构分析