(最新版)基于序列特征的固有无序蛋白结合位点的统计分析40本科毕业设计41
- 格式:doc
- 大小:109.00 KB
- 文档页数:13
组蛋白H1序列固有无序特性分析王春玲2,于家峰1,王红梅2,王吉华1,2【摘要】组蛋白H1对于高阶染色质结构的形成和基因表达调控具有重要作用. 为了揭示组蛋白H1在染色质结构形成中的生物学机制,本文对组蛋白H1三个结构域C-terminal domain (CTD)、N-terminal domain(NTD)和Globular domain (GD) 及各区域连接位点对应序列氨基酸偏好、复杂度等序列特征进行了系统对比研究,并对各区域进行了固有无序蛋白有序区/无序区预测分析. 结果表明,组蛋白H1三个结构中,中间的球状结构域(GD)中的氨基酸序列是非常保守的,NTD富含疏水氨基酸,CTD末端富含碱性氨基酸. 进一步的研究表明,CTD和NTD两个结构域普遍具有固有无序特性,因此这些区域具有较大的柔性结构,对其在染色质形成中行使的重要生物学功能具有重要意义.【期刊名称】原子与分子物理学报【年(卷),期】2016(033)006【总页数】5【关键词】组蛋白H1;固有无序蛋白;序列分析1 引言组蛋白(Histone)是真核生物染色体的基本结构蛋白,富含碱性氨基酸且带正电荷,与带负电荷的DNA 通过静电引力结合,参与染色体结构的形成,是组成染色质的基本单位. 细胞核中有5种主要类型的组蛋白:H1,H2A,H2B,H3和H4. 五种组蛋白在功能上分为两组:一组是核小体组蛋白(nucleosomal histone),包括H2A,H2B,H3和H4,它们的作用是将DNA分子盘绕成核小体;另一组是连接组蛋白H1,它与形成核小体的八聚体蛋白H2A、H2B、H3、H4 不同,在构成核小体装配中起连接作用,结合于核小体之间的连接DNA上,锁住核小体DNA的进出口,使核小体一个挨一个,彼此靠拢,以形成更加紧密的染色体结构. 在高等真核生物中,组蛋白H1有三个结构域,中间的球状结构域(Globular domain,简称GD)、N端的尾巴(N-terminal domain,简称NTD)和C端尾巴(C-terminal domain,简称CTD)[1].组蛋白H1在真核细胞染色质中起多个重要的角色,包括核小体的定位[2],稳定的折叠和染色质凝聚[3,4],并直接调节基因表达. 组蛋白H1定位在神经元和星形胶质细胞的细胞质中,与淀粉状纤维结构结合,与一些疾病的发生有关[5]. Thomas[6]等人研究发现,就与DNA作用而言,CTD在染色质凝聚方面比另两个区域更为重要,CTD氨基酸对DNA 凝聚起了决定作用. Izzo[7]等对人类的组蛋H1的5种亚型进行了研究. Jeffrey[8]等人提出组蛋白H1末端结构域无序的观点.Annalisa[9]和Sean[10]分别发表综述文章,介绍了组蛋白H1家族的特异性和家族成员行动机制令人激动的新视角和组蛋白H1目前的前景和挑战. 尽管大量的文献对组蛋白H1进行了研究,但是组蛋白H1的末端结构域如何与核小体结合发挥其在核小体结构中的纽扣作用的分子机制及组蛋白H1末端结构域的柔性结构功能形成的原因还缺少系统研究. 因而,本文首先对组蛋白H1三个结构域对应的氨基酸序列进行了深入的序列特征比较分析,然后首次对组蛋白H1进行了固有无序蛋白蛋白特性分析,为今后组蛋白H1的生物学机理研究提供了可靠的理论依据.2 材料及方法2.1 数据集构建数据集的组蛋白H1序列从Uniprot数据库中下载,选取其中有明确三个结构域注释信息的96条序列,按照注释分成CTD、NTD和GD三个数据集.2.2 序列分析方法Wootton[11]将源于香农熵的序列复杂度应用于氨基酸序列分析,为了更进一步分析组蛋白H1三个结构域的序列信息,采用序列复杂度K[12,13]来描述,其定义为:(1)其中,N表示氨基酸的种类数(此处为20),i表示第i种氨基酸,fi表示第i种氨基酸在研究序列中的频率. 当20种氨基酸的组成概率相同时,公式(1)中对应的序列复杂度K值最大,为4.32,表示氨基酸使用偏好性最小;而如果此序列只由一种氨基酸组成,K值为0,表明此序列的氨基酸偏好最明显. 因此,K值越大,序列中各种氨基酸组成就越接近,氨基酸的使用偏好性越不明显,因而K可以用于描述序列中氨基酸偏好程度.2.3 固有无序蛋白预测算法固有无序是一类缺乏稳定结构而又具有重要生物功能的天然蛋白[14]. 2012年Zhou课题组发展了固有无序预测器Spine-D[15],无论是短的或长的无序区域其特异性大都在85%以上,在长无序区域中敏感性达到81%,90%以上的有序区域敏感性可达65%,具有较好的预测效率. 因此,为了分析组蛋白H1的柔性结构形成机制,本文采用Spine-D算法对组蛋白H1进行了固有无序区预测研究.3 研究结果及讨论3.1 组蛋白H1各结构域序列复杂度分析首先根据公式(1)对CTD、NTD和GD三个结构域的序列复杂度进行了计算分析,结果见图1所示. 图中,横坐标表示序列复杂度K值,以0.2为步长,纵坐标表示对应K值分布区间在各个结构域所占的比例. 由图1可见,三个结构域的K值的范围是2.0<K≤4.2,三个结构域在K值的分布上有很大的差别. CTD的K值集中在2.0~3.2,NTD的K值集中在2.4~3.8,GD的K值集中在3.4~4.2 . 由此可以看出,氨基酸的使用偏好性上,CTD比NTD强,NTD 比GD强.3.2 组蛋白H1的三个结构域的氨基酸偏好性分析为了分析组蛋白H1的三个结构域中氨基酸组成的差异,我们计算了20种氨基酸在三个结构域中的百分比,如图2所示. 当20种氨基酸的使用相同时,每种氨基酸所占百分含量应为5%,所以如果某种氨基酸的百分含量大于5%,则该数据集偏好使用这种氨基酸. 由图2可见,三个区域偏好趋势相似,但是CTD 和NTD 更集中偏好几种氨基酸,以5%为下限,CTD中偏好使用A,K,P,S,T;其中疏水氨基酸:A,P ;亲水氨基酸:S,T;带正电的氨基酸:K. NTD中偏好使用A,E,K,P,S,T,V;其中疏水氨基酸:A,P,V;亲水氨基酸:S,T ;带正电的氨基酸:K ;带负电的氨基酸:E. GD中偏好使用A,G,K,L,P,S,T,V;其中疏水氨基酸:A,L,P,V ;亲水氨基酸:G,S,T ;带正电的氨基酸:K . 并且在CTD和NTD中A,K,P三种氨基酸的含量很高,而芳香族氨基酸(F,W,Y)的含量都极低.通过对组蛋白H1序列氨基酸偏好分析可知,组蛋白H1的中间球状结构域(GD)中的氨基酸序列是非常保守的,与已有研究中有序氨基酸使用偏好一致[16],因而GD具有稳定的结构特性. 相比之下,两个末端结构域,NTD富含疏水氨基酸,CTD末端富含碱性氨基酸,赖氨酸(K)、丝氨酸(S)、脯氨酸(P)和丙氨酸(A)的含量非常丰富,与固有蛋白无序区氨基酸使用偏好相似[16],从而使组蛋白H1的两个末端结构域具有较大的柔性,有利于与DNA分子结合,锁住核小体DNA的进出口,行使纽扣的作用,稳定核小体结构,促进染色质的凝集. 3.3 组蛋白H1固有无序蛋白特征分析图1和图2的结果表明组蛋白H1各区域具有不同的氨基酸使用特征,两端NTD和CTD展现出一定的结构无序特征. 因而,接下来运用Spine-D算法进一步对96条组蛋白H1序列进行了有序区/无序区预测,结果如图3所示. 图3中,预测值大于0.5的认为趋于无序分布,小于0.5趋于有序分布. 由图3可见,组蛋白H1序列中部区域出现明显的低谷区域,这个低谷在序列上位于组蛋白H1的中间球状结构域,而组蛋白H1两端的CTD和NTD的预测值都大于0.5,都包含在Spine-D预测无序区内,表明组蛋白H1两端具有明显的结构无序区. 表1中给出人的组蛋白H1的亚型的Spine-D的具体预测结果,由表中可以看出,CTD和NTD都在预测的无序区范围内,展现出明显的无序结构特性.3.4 三个结构域连接处氨基酸偏好分析由以上分析可以看出组蛋白H1的三个结构域中NTD和CTD趋于无序分布,而GD趋于有序分布,所以为了进一步对其序列信息进行挖掘,在每条蛋白质序列的三个结构域的连接处两侧截取数目为n的氨基酸残基,n 分别选取3、4、5和6个氨基酸残基,NTD和GD的连接处记为NG-n,GD 和CTD的连接处记为GC-n. 计算20种氨基酸在两个连接处的百分含量,为了更直观地衡量哪些氨基酸倾向于连接区域,用Pi-0.05表示.i代表20种氨基酸的第i种氨基酸, Pi表示第i种氨基酸的频率. 当值大于0时,说明该连接处偏好使用该氨基酸. 由图4可以看出,NTD和GD的连接处偏好氨基酸A、K、P、R、S、T,更多的偏好A、K、P;GD和CTD的连接处偏好氨基酸A、F、K、L、S,更多的偏好A、K、L.上述研究表明,组蛋白H1的两端结构域(NTD和CTD)具有明显的结构无序特征,正是这种无序的柔性使得组蛋白H1将核小体核心颗粒与DNA的进入位点结合,因而可以将DNA紧扣在位,并形成更高层次的结构. 对三个结构域连接处的氨基酸偏好分析可见,在结构域的两个连接处共同偏好丙氨酸(A)和赖氨酸(K),另外,在NTD和GD的连接处和GD和CTD的连接处分别偏好氨基酸脯氨酸(P)和亮氨酸(L). 可见,虽然CTD与NTD都具有明显的无序特征,但是无序的程度还是有差异的,并且和两个区域的生物学功能也有关联,所以在连接区域还是有一定的氨基酸偏好区别,与已有研究中讨论结果吻合[8].4 结论组蛋白H1作为接头蛋白结合于核小体进出位置,发挥了重要“纽扣”功能,在5种组蛋白中具有最弱的序列保守性. 本文对组蛋白H1的三个结构域进行了系统的序列特征分析,并借助固有无序蛋白预测程序首次分析了各区域结构无序/有序特征. 通过本文工作可以看出组蛋白H1在序列上两端区域具有结构无序区特性,因而揭示了组蛋白H1两端柔性结构特征的序列组成机理. 尽管如此,目前能够获取的组蛋白H1序列数据还比较少. 随着近乎基因组测序技术的发展,有望对组蛋白H1 进行更深入、全面的研究,从而进一步完善本文研究结果. 因此,本文对今后组蛋白H1相关研究提供了可行的研究思路.参考文献:[1] Hartman P G, Chapman G E. Studies on the role and mode of operation of the very-lysine-rich histone H1 in eukaryote chromatin.The three structural regions of the histone H1 molecule[J].Eur.J.Biochem., 1977, 77: 45.[2] Zhou B R, Feng H, Kato H,etal. Structural insights into the histone H1-nucleosome complex[J].Proc.Natl.Acad.Sci. USA, 2013, 110: 19390. [3] Shen X, Yu L, Weir J W, Gorovsky M A. Linker histones are not essential and affect chromosome condensation in vivo[J].Cell, 1995, 82: 47.[4] Lu X W, Wontakal S N, Kavi H,etal. Drosophila H1 regulates the genetic activity of heterochromatin by recruitment of Su(var)3-9[J].Science, 2013, 340: 78.[5] Millan-Arino L, Islam A B, Izquierdo-Bouldstridge A,etal. Mapping of six somatic linker histone H1 variants in human breast cancer cells uncovers specific features of H1.2[J].Nucleic.Acids.Res., 2014, 42: 4474. [6] Thomas O H, Workman J L. Experimental analysis of chromatin function in transcription control[J].Crit.Rev.In.Eukaryotic.Expre., 1994, 4: 403.[7] Izzo A, Kamieniarz-Gdula K, Ramirez F,etal. The genomic landscape of the somatic linker histone subtypes h1.1 to h1.5 in human cells[J].CellRep., 2013, 3: 2142.[8] Hansen J C, Lu X, Ross E D,etal. Intrinsic protein disorder, amino acid composition, and histone terminal domains[J].J.Biol.Chem., 2006, 281: 1853.[9] Izzo A, Kamieniarz K, Schneider R. The histone H1 family: specific members, specific functions [J].Biol.Chem., 2008, 389: 333.[10] Harshman S W, Young N L, Parthun M R,etal. Survey and summary H1 histones: current perspectives and challenges[J].Nucleic.Acids.Research, 2013: 1.[11] Wootton J C, Federhen S. Statistic of local complexity in amino acid sequences and sequence databases[J].Computers&Chemistry, 1993, 17: 149.[12] Radivojac P, Obradovic Z, Brown C J,etal. Prediction of boundaries between intrinsically ordered and disordered protein regions[J].PacificSymposiumonBiocomputing, 2003, 216: 216.[13] Romero P, Obradovic Z, Li X,etal. Sequence complexity of disordered protein[J].Proteins, 2001, 42: 38.[14] Dunker A K, Lawson J D, Brown C J,etal. Intrinsically disordered protein[J].J.Mol.Graph.Model., 2001, 19: 26.[15] Zhang T, Faraggi E, Xue B,etal. SPINE-D: accurate prediction of short and long disordered regions by a single neural-network based method[J].JournalofBiomolecularStructure&dynamics, 2012, 29: 799. [16] Radivojac P, Iakoucheva L M, Oldfield C J,etal. Intrinsic disorder and functional proteomics[J].BiophysicalJournal, 2007, 92: 1439.doi:103969/j.issn.1000-0364.2016.12.021基金项目:国家自然科学基金项目(61302186, 61271378);山东省自然科学基金项目(ZR2010CQ041)。
基于序列及结构特征的固有无序蛋白—核酸相互作用位点预测分析王洪波;郭珍珍;于家峰;王吉华【摘要】固有无序蛋白是一类具有柔性结构的蛋白质,许多情况下通过与其它物质相互作用形成稳定结构来发挥重要生物功能.本文分别利用基于序列特征和结构特征的蛋白质结合位点预测程序对固有无序蛋白有序区和无序区与核酸分子的结合位点进行了预测分析.结果发现,基于结构特征的结合位点预测方法整体上要优于基于序列特征的预测方法,表明无序区尽管缺少稳定空间结构,结构特征依然在固有无序蛋白结合位点中发挥了重要作用.因此,可以为今后固有无序蛋白序列特征及结构特征的提取提供可靠依据.【期刊名称】《德州学院学报》【年(卷),期】2014(030)002【总页数】5页(P6-10)【关键词】固有无序蛋白;序列特征;结构特征;结合位点预测【作者】王洪波;郭珍珍;于家峰;王吉华【作者单位】山东省功能大分子生物物理重点实验室,德州学院生物物理研究所,山东德州 253023;德州学院物理与电子信息学院,山东德州 2530023;山东师范大学生命科学学院,济南 250014;山东省功能大分子生物物理重点实验室,德州学院生物物理研究所,山东德州 253023;山东省功能大分子生物物理重点实验室,德州学院生物物理研究所,山东德州 253023;山东省功能大分子生物物理重点实验室,德州学院生物物理研究所,山东德州 253023;德州学院物理与电子信息学院,山东德州2530023【正文语种】中文【中图分类】Q511 引言固有无序蛋白(IDPs)是指在生理条件下不具有稳定的三维结构,但能够正常行使功能的一类蛋白质,它的发现是对蛋白质序列-结构-功能传统观念的挑战[1,2].由于IDPs在生物体内广泛存在,且具有重要功能,参与细胞中多种生理和病理活动[3,4],受到越来越多的关注.IDPs可以通过与核酸相互作用行使功能,相互作用时的结合位点的研究变得具有重要的生物学意义.对于蛋白质结合位点有很多蛋白质结合位点预测软件可以进行预测,这些预测软件主要基于蛋白质的序列特征或者结构特征[5]对蛋白质结合位点进行预测.由于固有无序蛋白的序列分为有序区和无序区[6],且研究表明无序区在序列特征上明显区别于有序区,因而人们在对IDPs的结合位点进行预测时更加关注IDPs的序列信息,例如根据IDPs 序列的氨基酸组成特征进行结合位点的预测[7].但是由于无序区没有稳定的三维结构,基于IDPs结构特征的结合位点预测算法还少有报道,也少有软件考虑到无序区和有序区的区别分别进行预测.本文主要收集能够与核酸(DNA和RNA)结合的固有无序蛋白,分别利用基于序列特征和结构特征的蛋白质结合位点预测程序,对其有序区和无序区与核酸分子的结合位点进行预测分析,从而挖掘适合对固有无序蛋白结合位点进行预测的特征,为结合残基预测算法的进一步发展提供帮助以及数据支持.2 材料和方法2.1 数据集Disprot[8]是专门收集固有无序蛋白的数据库,本文统计所用的6.01版本含有684条固有无序蛋白以Disprot为基础,从PDB[9]中提取结构由X射线晶体衍射方法测得的固有无序蛋白与DNA、RNA复合物结构,且分辨率不低于3.5埃.然后利用在线去冗余软件PISCES[10],相似度阈值设为25%,对得到的与复合物对应的固有无序蛋白序列去冗余,构建出IDPs-DNA25和IDPs-RNA11两个数据集.然后根据DisProt中提供的有序区与无序区的信息,构建有序区-DNA21、无序区-DNA12、有序区-RNA5、无序区-RNA9四个数据子集.通常按照距离阈值法[11,12]定义固有无序蛋白结合复合物的结合残基,即IDPs序列的氨基酸残基,其原子与作用物中的任何一个原子间的距离不大于3.5埃,就认为这个氨基酸为结合残基,否则为非结合残基.根据这种方法,在两个大数据集中分别得到372、240个结合残基和4770、1418个非结合残基.本文即以这些结合残基为基础对预测算法的结果进行比对统计.2.2 预测算法根据构建的IDPs-DNA和IDPs-RNA数据集的不同,分别选择四种蛋白质结合位点预测算法针对每一个数据集进行预测,而且每四种预测算法中分别含有两个以序列特征为基础的预测算法以及两个以结构特征为基础的预测算法(见表1).表1 蛋白质-DNA以及蛋白质-RNA结合残基预测算法DBS-PSSM[13]Sequence-based;neural network based;evolutionary information 序列特征蛋白质-DNA BindN+[14] Sequence-based;biochemical feature;evolutionary information;SVMs 序列特征DISPLAR[15] Structural and physical properties;3Dstructure based 结构特征DBD-Threader[5]Threading-based method;fold similarity and DNA-binding propensity;protein templates结构特征Pprint[16] PSSM;orthogonal binary vectorinformation 序列特征序列特征SPOT2[18] Structural based;structural alignment;结构特征RNABindR V2.0[19]Structural information;SVM;PSSM 结构特征SPOT1[17] Sequence-based;protein templates蛋白质-RNA2.3 评价预测结果的参数对于以上预测算法得到的预测结果,采用通用的评价参数[14]Accuracy (Acc)、Sensitivity(Se)、Specificity(Sp)、Strength(St)、F-measure(Fm)和MCC进行评价.Acc指总的预测正确的氨基酸的比例.TP表示正确预测的结合残基的数目;TN表示正确预测的非结合残基的数目;FP表示错误预测的结合残基的数目;FN表示错误预测的非结合残基的数目.Se和Sp分别表示结合残基中预测正确的比例和非结合残基中预测正确的比例.Strength、F-measure和MCC属于综合指标,是对敏感性和特异性的权衡.其中MCC取值在-1到1之间,相对于Se和Sp来说,是一个更加严谨的标准,过高和过低的预测都是会导致MCC值的降低.如果MCC=1是一个最优的预测,若MCC=-1则是一个完全相反的预测.3 结果和讨论3.1 蛋白质-DNA结合位点预测算法结果分析DBS-PSSM和BindN+都以序列特征为基础,两种方法都采用了进化保守性信息,BindN+与DBS-PSSM相比还增加了结合残基的理化信息.DBD-Threader 是选取了一些已知结合位点的蛋白质结合复合物作为模版与未知蛋白复合物的结构进行比对,从而预测出结合位点.DISPLAR是采用蛋白质结构上和物理上的特性进行结合位点的预测.从图1的预测结果可以看到:1)在蛋白质-DNA结合位点预测方面有序区的预测结果和无序区的预测结果存在明显差异,这表明由于无序区在结构和序列上都不同于有序区,预测软件所基于的序列和结构特征并不一定符合无序区结合位点的特征.2)对有序区来说,四种预测方法的结果差别不大,说明有序区序列、结构和结合位点具有一定的保守性,符合一般蛋白质的特性,较符合结合位点预测软件所基于的特征.但是BindN+、DBS-PSSM和DBD-Threader的MCC值较小,还有很大的提升空间.3)从无序区结果来看,DBD-Threader和DISPLAR显著优于BindN+和DBS-PSSM.而且BindN+和DBS-PSSM的MCC值都不到0.3,说明无序区在序列特征上不同于有序区,对于无序区一般以进化保守性信息等序列特征为基础的预测算法不太适合无序区;尽管无序区没有稳定的三维结构,但结构上也具有二级结构等特征,而且结构特征在无序区的结合位点方面依然起到重要作用,以结构特征为基础的预测软件相比取得的效果较好.图1 比较4种蛋白质-DNA结合位点预测软件对与DNA相互作用的无序区和有序区的预测结果3.2 蛋白质-RNA结合位点预测算法结果分析SPOT算法是对不同类型的蛋白质设计模板,在预测时将未知蛋白与模板蛋白先进行匹配,然后再预测.Pprint算法是通过PSI-BLAST比对一些有结合位点的蛋白质得到的序列信息进行预测.RNABindR V2.0根据自己数据库内的三个具有结合位点的蛋白质数据集得到的结构信息进行预测.从图2中可以看出:1)在蛋白质-RNA结合位点预测方面有序区跟无序区的预测结果也存在明显差异,有序区结果的差异性也小于无序区的预测结果.2)Pprint 和RNABindR V2.0对有序区和无序区结合残基的预测结果都不理想,MCC值都很低,尤其是对无序区的预测结果可靠性不高,两种算法有待改进.3)SPOT的两种算法取得的结果都较好.在有序区中SPOT1和SPOT2结果相差不大,而在无序区中,SPOT2的结果明显好于SPOT1,再次说明无序区的结构特征在结合位点方面起到重要的作用,对无序区进行结合位点的预测时,结构特征相比更有作用.图2 比较4种蛋白质-RNA结合位点预测软件对与RNA相互作用的无序区和有序区的预测结果为了对基于序列特征以及结构特征的蛋白质结合位点预测软件的结果进行量化比较,本文做了蛋白质-DNA以及蛋白质-RNA结合残基预测算法结果的六个参数的平均值(表2),从中可以看出以结构特征为基础的预测算法要明显优于以序列特征为基础的预测算法.表2 蛋白质-DNA以及蛋白质-RNA结合残基预测算法结果的六个参数的平均值序列特征 82 44 85 65 57 0.2312无序区蛋白质-DNA有序区结构特征 89 79 90 85 84 0.5297序列特征 84 66 85 76 74 0.3250结构特征 92 5294 73 66 0.4036序列特征 68 79 65 72 70 0.3958无序区蛋白质-RNA有序区结构特征 74 87 70 79 76 0.5344序列特征 88 82 88 82 85 0.4850结构特征 84 86 84 81 85 0.49724 结论分别利用基于序列特征以及基于结构特征的蛋白质结合位点预测算法对固有无序蛋白与核酸相互作用位点进行了预测分析,发现两种类型的算法对有序区和无序区的预测结果有差异,而且两类算法对有序区的预测结果相差不大,表明这些算法基于的特征在一定程度上都符合有序区的特征.但在无序区的结合位点预测方面,基于结构特征的结合位点预测方法整体上要优于基于序列特征的预测方法,表明无序区尽管缺少稳定空间结构,但结构特征依然在固有无序蛋白结合位点中发挥重要作用;对无序区结合位点预测时,应适当考虑结构特征的影响.因此,本文可以为今后固有无序蛋白序列特征及结构特征提取提供可靠依据.随着实验技术的发展以及数据库内的IDPs数量的增多,可以发现更多固有无序蛋白结合位点的特征,促进IDPs结合位点预测算法的发展以及固有无序蛋白的研究,进而为关于固有无序蛋白的疾病的药物开发等提供帮助.参考文献:[1]Uversky VN,Dunker AK.Understanding protein non-folding [J].Biochimica et Biophysica Acta(BBA)-Proteins and Proteomics,2010,1804(6):1231-1264.[2]黄永棋,刘志,荣鄢.天然无序蛋白质:序列-结构-功能的新关系[J].物理化学学报,2010,26.[3]曹赞霞,王吉华.促进或抑制α-synuclein蛋白异常聚集的相互作用蛋白质[J].生物物理学报,2010,26(9).[4]郭珍珍,朱玉风,王吉华.固有无序蛋白质-DNA复合物结合位点处核苷酸偏好性分析[J].德州学院学报,2013,29(2):50-53.[5]Gao M,Skolnick J.A threading-based method for the prediction of DNA-binding proteins with application to the human genome[J].PLoS computational biology,2009,5(11):e1000567.[6]Fukuchi S,Hosoda K,Homma K,etal.Binary classification of protein molecules into intrinsically disordered and ordered segments[J].BMC structural biology,2011,11(1):29.[7]Goodman R C,Beaty T L.Prediction of Binding Sites on Intrinsically Disordered Proteins[J].Biophysical Journal,2011,100(3Supplement 1).[8]Sickmeier M,Hamilton JA,LeGall T,.DisProt:the database ofdisordered proteins[J].Nucleic acids research,2007,35(suppl 1):D786-D793.[9]Bernstein FC,Koetzle TF,Williams GJ..The protein data bank [J].European Journal of Biochemistry,1977,80(2):319-324. [10]Wang G,Dunbrack RL,Jr..PISCES:aprotein sequence culling server[J].Bioinformatics,2003,19(12):1589-1591.[11]Ofran Y,Rost B.Predicted protein-protein interaction sites from local sequence information[J].FEBS Lett,2003,544(1-3):236-239. [12]Wu J,Liu H,Duan X..Prediction of DNA-binding residues in proteins from amino acid sequences using a random forest model with a hybrid feature.Bioinformatics,2009,25(1):30-35.[13]Ahmad S,Sarai A.PSSM-based prediction of DNA binding sites in proteins[J].BMC bioinformatics,2005,6(1):33.[14]Wang L,Huang C,Yang MQ.BindN+for accurate prediction of DNA and RNA-binding residues from protein sequence features[J].BMC Syst Biol,2010,4 Suppl 1:S3.[15]Tjong H,Zhou HX.DISPLAR:an accurate method for predicting DNA-binding sites on protein surfaces[J].Nucleic Acids Res,2007,35(5):1465-1477.[16]Kumar M,Gromiha M M,Raghava G P S.Prediction of RNA binding sites in a protein using SVM and PSSM profile[J].Proteins:Structure,Function,and Bioinformatics,2008,71(1):189-194.[17]Zhao H,Yang Y,Zhou Y.Highly accurate and high-resolution function prediction of RNA binding proteins by fold recognition andbinding affinity prediction[J].RNA Biol,2011,8(6):988-996. [18]Zhao H,Yang Y,Zhou Y.Structure-based predic-tion of RNA-binding domains and RNA-binding sites and application to structural genomics targets[J].Nucleic acids research,2011,39(8):3017-3025.[19]Terribilini M,Sander J D,Lee J H,et al.RNABindR:a server for analyzing and predicting RNA-binding sites in proteins[J].Nucleic acids research,2007,35(suppl 2):W578-W584.。
蛋白质无序区域能力预测方法探索与创新蛋白质是生物体中最基本的功能分子之一,它们在维持细胞结构、催化生物化学反应以及调控信号转导等方面发挥着重要的作用。
然而,长期以来科学家们对于蛋白质结构和功能的研究主要集中在有序结构区域,而对于蛋白质无序区域的研究却相对较少。
然而,近年来越来越多的实验证据表明,蛋白质无序区域可能具有重要的功能,并且与多种疾病的发生发展密切相关。
因此,预测蛋白质无序区域能力成为了一个备受关注的课题。
蛋白质无序区域与有序区域相比,其结构灵活性较高,序列组成复杂多样,通常缺乏明确的二级结构。
尽管无序区域的功能多样且复杂,但是它们在蛋白质的相互作用、结构稳定性和功能调控等方面都发挥着非常重要的作用。
因此,准确预测蛋白质无序区域能力对于深入理解蛋白质的功能机制以及相关疾病的发生发展具有重要意义。
目前,预测蛋白质无序区域能力的方法可以分为两大类:基于序列的方法和基于结构的方法。
基于序列的方法主要通过分析蛋白质序列的特征,如氨基酸组成、氨基酸频率、疏水性等,来预测蛋白质无序区域的功能。
这些方法简单快速,适用于大规模数据分析,但是准确性较低。
与之相对应的是基于结构的方法,这些方法主要依赖于蛋白质的结构信息,如二级结构组成、溶剂可及性等,来预测蛋白质无序区域的功能。
这些方法通常使用机器学习算法,如支持向量机、随机森林等,通过训练已知功能的蛋白质结构数据集,来构建模型并进行预测。
这些方法相对于基于序列的方法,具有更高的准确性,但是需要大量的结构信息,限制了其在大规模数据分析中的应用。
近年来,随着深度学习的发展和突破,基于神经网络的方法在蛋白质无序区域能力预测中得到了广泛应用。
这些方法通过利用蛋白质结构的高维信息,如残基与残基之间的相互作用、空间排列等,来增加模型的表达能力,提高预测的准确性。
同时,基于神经网络的方法还可以自动学习特征表示,无需人工选择特征,大大提高了分析的效率。
除了以上提到的方法,还有一些新兴的方法被提出来预测蛋白质无序区域能力。
固有无序化与分子识别、调控和信号传导北京大学医学遗传中心何冰(学号:********)摘要:固有无序化蛋白质/区域在体外模拟的生理条件下缺乏刚性的三维结构,是多种动态互变结构的集合。
它们多数存在于细胞核和细胞质中,执行重要的生物学功能。
蛋白质数据库中只有32%的蛋白质是完全不具有固有无序化区域的。
固有无序化现象可能发生于不同水平,通过改变条件也可诱导不同程度/深度的固有无序化现象。
可采用多种物理化学方法对其进行检测。
固有无序化蛋白质/区域的功能可归属于28个方面,尤其是其广泛参与蛋白质与核酸/蛋白质的相互作用,也有很多固有无序化蛋白质/区域功能的行使是依赖于其骨架的易变性、可塑性和柔韧性。
长的无序化区域还可以作为灵活的位点展示者行使功能。
对固有无序化蛋白质/区域的研究必将进一步了解和揭示蛋白质结构和功能关系的本质,也将为很多疾病的机制研究和治疗策略提供新的思路。
关键词:固有无序化蛋白质/区域,分子识别,调控,信号传导二十世纪20-30年代,一些从事蛋白质研究的学者提出了蛋白质变性理论。
50年代,丹麦蛋白质化学家Linderstrom—Lang提出了蛋白质的一级、二级和三级结构的结构层次,认为有活性的蛋白质是具有特定结构的,这样的结构也是蛋白质功能的基础。
传统意义上的蛋白质应该是具有特定折叠模式、有功能的肽链,其三维结构应该是稳定的,拉氏角在平衡位置附近极少变化,偶尔发生的变化也是协调性的构象变化。
变性是指极端条件下蛋白质的立体结构变得松散,经过变性后的蛋白质失去了特定的结构,成为无折叠状态的蛋白质,不再具有活性。
这样的概念几乎已是蛋白质研究中的金科玉律。
而且其他的生物大分子,例如核酸和多糖,也以蛋白质为样板,希望它们具有相应的层次结构。
与此相关的另一个基本概念是,Anfinsen 提出的蛋白质一级结构决定了蛋白质的高级(二级和三级)结构,一种蛋白质只能有一种高级结构。
90年代初,人们开始发现了几种蛋白质,它们尽管没有过去研究过的蛋白质中常有的二级和三级结构,但依然具有蛋白质活性。
Disprot无序蛋白数据库分析与统计张欢;李盘靖;王彤【摘要】无序蛋白是一种在天然条件下没有稳定的三维结构但却能正常行使重要生物学功能的一类蛋白质.实验以Disport无序蛋白数据库为基础,经过CD-HIT去重处理建立数据集.分别选择20种氨基酸在无序区与有序区中的分布和无序倾向性两个方面对该数据集进行对比分析.结果表明,氨基酸Ala、Asp、Glu、Gly、Lys、Pro、Gln、Ser具有形成无序区的倾向.氨基酸Leu、Thr、Val虽然在无序区和有序区中都具有倾向性,但在由DP值得到的分析中,Leu、Thr、Val不易于形成无序区;氨基酸Gln虽然在无序区和有序区中都不具有倾向性,但在DP值分析中却易于形成无序区.氨基酸Ala、Glu、Ser在二元组氨基酸对中使用最频繁.【期刊名称】《山东理工大学学报(自然科学版)》【年(卷),期】2018(032)006【总页数】4页(P67-70)【关键词】无序蛋白;氨基酸无序倾向性;数据库分析【作者】张欢;李盘靖;王彤【作者单位】山东理工大学计算机科学与技术学院,山东淄博255049;山东理工大学计算机科学与技术学院,山东淄博255049;山东理工大学计算机科学与技术学院,山东淄博255049【正文语种】中文【中图分类】TP30蛋白质在生物世界中扮演了各种各样的角色.传统思想认为,氨基酸序列决定蛋白质唯一的三维结构,三维结构则决定了蛋白质的生物学功能[1]形成了蛋白质科学的经典研究范式“序列-结构-功能”.20世纪90年代初,随着实验技术的发展,人们发现有些蛋白质或蛋白质序列中的一部分在天然状态下并不具有一个确定的三维结构,但依然具有正常的生物学活性.后来进一步研究发现这类蛋白质越来越多,并逐渐形成了一类与传统蛋白质范式不同的新的蛋白质类型,称为天然无序蛋白[2-3](intrinsically disordered proteins,简称为IDPs).根据无序蛋白中所含无序结构的多少,可以将无序蛋白分为两大类:完全无序蛋白(全序列无序)和部分无序蛋白(局部超过30~40个残基的区域无序);部分无序蛋白由结构域(structured domains)和无序区域组成(disordered regions)[4].无序蛋白中的无序结构与蛋白质功能之间关系密切[5],无序蛋白在诸如转录、翻译、调控细胞信号转导、蛋白质磷酸化及小分子存储等过程中发挥着重要的作用[2].另一方面,无序蛋白常与多种疾病联系在一起.无序蛋白的无序特性使得它可以与多种伴侣分子结合从而在分子网络中达到传递信号或是调节的作用,人类的许多疾病例如癌症、心血管疾病、神经性衰弱等不仅与相关功能性蛋白的误折叠有关信号之间的误传导、误表达有关[6].因此判定蛋白质的无序区成为蛋白质科学中的一个热点问题.Romero等在1997年首次对蛋白质无序区进行预测,他们预测的准确性达到70%[7].此后,无序蛋白质的预测方法得到了迅速发展,目前应用于无序蛋白质序列预测的方法已经超过50种,这些预测方法的准确性普遍达到85%以上.随着2012年深度学习方法在图像分类预测上成功的应用,近年来关于无序蛋白的研究又出现了新的热度,从2006年hinton重新提出深度模型后[8],无序蛋白的研究论文数快速增长.本研究基于序列分析的方法,以Disprot数据库中的无序蛋白序列为研究对象,通过CD-HIT去冗余程序处理后建立数据集(无序区和有序区),然后将得到的数据集通过Python语言进行统计分析,分别提取出无序区和有序区中的残基进行统计从而分析其偏好性.1 Disprot数据库简介与使用方法Disprot数据库从已有文献中搜集经过实验验证的无序蛋白数据,每一条蛋白质序列都标注了无序片段的起始位置、判定方法、来源文献,该无序片段行驶的生物学功能也进行了标注.网站中提供了csv、json两种格式的数据格式文件.在进行后期的无序片段标注时,要组合蛋白质与无序片段数据进行下载.然后通过编程工具python进行脚本标注无序片段,分别建立数据集.数据库现包含803条无序蛋白数据,所属分类如图1所示.图1 无序蛋白所属的4个主要分类Fig.1 4 major superkingdoms of intrinsically disordered proteins从图1可以看出,无序蛋白主要分布在真核生物、细菌当中,少部分存在于病毒与古生菌中.2 数据集的创建与序列分析方法2.1 数据集本研究中固有无序蛋白序列数据取自固有无序蛋白数据库[9].当前版本中含有803条IDPs蛋白质链,2167个无序区.由于蛋白质数据库中含有大量的冗余序列,不利于数据的统计分析,我们利用去冗余程序CD-HIT[10]对数据进行处理,将相似度阈值设为30%.结果显示,去冗余前,该数据库中共有803条序列;去冗余后,减少到708条序列.2.2 序列分析方法2.2.1 氨基酸分别在无序区与有序区中的分布根据数据库中的708条序列分析,氨基酸残基总数为363575,其中有序区的氨基酸残基总数为280852(占77.3%),无序区的氨基酸残基总数为82723(占22.7%).将无序区残基与有序区残基的分布绘制在图2中.图2 20种氨基酸在无序与有序序列中的分布Fig.2 The distribution of 20 kinds of amimo acids in ordered and disordered region由图2可以看出20种氨基酸在无序区与有序区中的分布具有相似性,其相似性通过KL-散度定量得到.KL-散度的定义公式为(1)KL-散度值越接近0,说明两种分布越相似.式中P代表无序区中氨基酸的分布;Q 代表有序区中氨基酸的分布.2.2.2 氨基酸的无序倾向性定义氨基酸形成无序区的倾向性公式为DP(x)=dp(x)-op(x)(2)式中:DP(x)(disorder propensity)表示氨基酸x在无序区出现的倾向性;dp(x)表示氨基酸x在无序区中出现的几率;op(x)表示氨基酸x在有序区中出现的几率. 根据DP(x)值的大小,可以判断氨基酸形成无序区的偏好性.DP(x)>0,该氨基酸具有形成蛋白质无序区的倾向性;DP(x)<0,该氨基酸具有形成蛋白质有序区的倾向[11].2.2.3 二元组氨基酸对统计在上述单个氨基酸统计的基础上,增加了二元组氨基酸对的统计.根据Disport数据库对无序序列的标注,抽取出无序序列,然后编程实现对每一条无序序列二元组的统计.3 结果及讨论3.1 氨基酸在无序区与有序区中的分布由图2得到20种氨基酸的分布图可以看出:有序区和无序区中Ala、Asp、Glu、Gly、Lys、Leu、Pro、Ser、Thr、Val都有很强的倾向性.通过式(1)与图2的数据得到无序区和有序区氨基酸分布的KL-散度值为0.031,说明无序区和有序区中氨基酸的分布具有相似性,可以推断随着数据集的不断扩充,这种相似性会越来越高.20种氨基酸在无序区和有序区具有分布相似性,还需要接下来DP值的分析来判断氨基酸的无序倾向性.3.2 氨基酸形成无序区的倾向性分析根据式(2)计算了20种氨基酸的DP值,如图3所示.根据DP值的大小,可以看出氨基酸Ala、Asp、Glu、Gly、Lys、Pro、Gln、Ser 具有形成无序区的倾向.在第一步分析中氨基酸Leu、Thr、Val虽然在无序区和有序区中都具有倾向性,但在由DP值得到的分析中,Leu、Thr、Val不易于形成无序区;氨基酸Gln虽然在无序区和有序区中都不具有倾向性,但在DP值分析中却易于形成无序区.在表1中氨基酸各性质的描述中可以看到,具有无序倾向的8种氨基酸用黑体标出.8种氨基酸都属于非芳香或脂肪族氨基酸,亲水性氨基酸与疏水性氨基酸之比为3∶2,大部分疏水性氨基酸都不具有无序倾向性.在8种无序倾向氨基酸中极性与非极性氨基酸之别为5∶3.图3 20种氨基酸的无序倾向性DP值Fig.3 The DP(disorder propensity) values of 20 kinds of amino acids表1 氨基酸的性质Tab. 1 Attributes of amino acids缩写全名中文译名支链极性芳香或脂肪族GlyGlycine甘氨酸亲水性--AlaAlanine 丙氨酸疏水性--ValValine缬氨酸疏水性-脂肪性LeuLeucine亮氨酸疏水性-脂肪性IleIsoleucine异亮氨酸疏水性-脂肪性PhePhenylalanine苯丙氨酸疏水性-芳香性TrpTryptophan色氨酸疏水性-芳香性TyrTyrosine酪氨酸亲水性X芳香性AspAspartate天冬氨酸酸性X-HisHistidine组氨酸碱性X芳香性AsnAsparagine天冬酰胺亲水性X-GluGlutamate谷氨酸酸性X-LysLysine赖氨酸碱性X-GlnGlutamine谷氨酰胺亲水性X-MetMethionine甲硫氨酸疏水性--ArgArginine精氨酸碱性X-SerSerine丝氨酸亲水性X-ThrThreonine苏氨酸亲水性X-CysCysteine半胱氨酸亲水性--ProProline脯氨酸疏水性--3.3 二元组氨基酸对的分布根据以下二元组抽取代码为基础,统计得到402对二元组氨基酸对.# 从Disprot数据库中抽取无序序列到disorder_seq# 二元组氨基酸对统计结果保存在 bi_key 中bi_key = dict()for seq in disorder_seq:keys = [ seq[i:i+2] for i in range(0, len(seq)-1) ]for key in keys:if key not in bi_key:bi_key[key] = 1else:bi_key[key] = bi_key[key] + 1统计得到使用最频繁的20种氨基酸对如图4所示.由之前DP值的分析中Asp、Glu、Ser易于形成无序区,在二元组统计中,由这3种氨基酸组成的二元组也最频繁使用.在无序蛋白无序序列中偏向于使用简单重复的氨基酸对Ala、Glu、Ser. 图4 使用最频繁的20种氨基酸对Fig.4 The most used 20 amino acids tuples 4 结束语以蛋白质序列信息为基础,通过分析20种氨基酸在无序区与有序区中的分布和氨基酸的无序倾向性,为下一步开发无序序列预测算法[12]提供了特征准备.本文只在序列的角度总体上统计了各氨基酸的分布,但是一个无序位点的形成不仅与它本身的特征有关,还与它的上下文位点存在关联.本文只讨论了二元组的情况下氨基酸对的无序倾向性.在下一步工作中,多位点之间的联合特征提取是一个重要的研究方向.【相关文献】[1]黄永棋, 刘志荣. 天然无序蛋白质: 序列-结构-功能的新关系[J]. 物理化学学报, 2010, 26(8): 2 061-2 072.[2]WRIGHT P E, DYSON H J. Intrinsically disordered proteins in cellular signalling and regulation[J]. Nature Reviews Molecular Cell Biology, 2015, 16(1): 18-29.[3]GIBBS E B, SHOWALTER S A. Quantitative biophysical characterization of intrinsically disordered proteins[J]. Biochemistry, 2015, 54(6): 1 314-1 326.[4]田攀, 连继勤. 无序蛋白[J]. 生命的化学, 2009 (2): 279-282.[5]武恩斯. 基于序列多位点特征挖掘的固有无序蛋白预测[D]. 济南:山东师范大学, 2015.[6]UVERSKY V N, OLDFIELD C J, DUNKER A K. Intrinsically disordered proteins in human diseases: introducing the D2 concept[J]. Annu. Rev. Biophys., 2008, 37: 215-246.[7]ROMERO P, OBRADOVIC Z, KISSINGER C, et al. Identifying disordered regions in proteins from amino acid sequence[C]// International Conference on Neural Networks. IEEE, 1997, 1: 90-95.[8]SRIVASTAVA N, HINTON G E, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of machine learning research, 2014, 15(1): 1 929-1 958.[9]PIOVESAN D, TABARO F, I, et al. DisProt 7.0: a major update of the database of disordered proteins[J]. Nucleic acids research, 2017, 45(D1): D219-D227.[10]FU L, NIU B, ZHU Z, et al. CD-HIT: accelerated for clustering the next-generation sequencing data[J]. Bioinformatics, 2012, 28(23): 3 150-3 152.[11]董川, 曹赞霞, 赵立岭,等. 固有无序蛋白与蛋白质相互作用位点残基特征分析[J]. 生物化学与生物物理进展, 2014(5):462-471.[12]VAN D L R, BULJAN M, LANG B, et al. Classification of intrinsically disordered regions and proteins[J]. Chemical reviews, 2014, 114(13): 6 589-6 631.。
clostridium autoethanogenum蛋白解释说明引言部分(1. 引言)的内容需要清晰明了地说明文章的背景、目的和结构。
1.1 概述在这一部分中,我们可以介绍Clostridium autoethanogenum蛋白是研究领域中的一个重要主题。
简要介绍该蛋白是一种在细菌Clostridium autoethanogenum中发现的蛋白,并提示其具有很高的研究价值。
1.2 文章结构在这一部分中,我们可以提供整个文章的结构概述。
说明本文将包括以下几个主要部分:- 引言:对本文引入和背景进行详细阐述。
- Clostridium autoethanogenum蛋白:对该蛋白进行描述,包括其特性、生理功能和应用前景。
- 研究方法与进展:介绍当前对该蛋白进行研究所采用的方法和取得的进展。
- 实验结果与讨论:总结对该蛋白进行实验后所得出的结果,并进行深入讨论。
- 结论与展望:对整篇文章进行总结,并展望未来可能的研究方向和重点。
1.3 目的在这一部分中,我们可以明确阐述本文的目的。
例如,本文的目的是系统地介绍Clostridium autoethanogenum蛋白的特性、生理功能和应用前景,并总结研究方法与进展,为相关领域的学者提供参考和启示。
以上是对引言部分内容的详细清晰描述,在撰写时可以根据实际情况进行适当扩充和补充。
2. Clostridium autoethanogenum蛋白2.1 蛋白特性Clostridium autoethanogenum蛋白是一种在Clostridium autoethanogenum细菌中发现的蛋白质。
它具有一系列特定的生理和化学特性。
首先,该蛋白质具有相对较高的分子量,并且在细菌体内表达水平较高。
此外,它被认为是一种关键酶或调节因子,参与了Clostridium autoethanogenum菌株中重要代谢途径的调控和催化。
2.2 生理功能Clostridium autoethanogenum蛋白在整个代谢过程中起着至关重要的作用。
生物信息学课后习题及答案(由10级生技一、二班课代表整理)一、绪论1.你认为,什么是生物信息学?采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。
2.你认为生物信息学有什么用?对你的生活、研究有影响吗?(1)主要用于:在基因组分析方面:生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分子进化、蛋白质结构预测等在医药方面:新药物设计、基因芯片疾病快速诊断、流行病学研究:SARS、人类基因组计划、基因组计划:基因芯片。
(2)指导研究和实验方案,减少操作性实验的量;验证实验结果;为实验结果提供更多的支持数据等材料。
3.人类基因组计划与生物信息学有什么关系?人类基因组计划的实施,促进了测序技术的迅猛发展,从而使实验数据和可利用信息急剧增加,信息的管理和分析成为基因组计划的一项重要的工作。
而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。
4简述人类基因组研究计划的历程。
通过国际合作,用15年时间(1990-2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其他生物进行类似研究。
1990,人类基因组计划正式启动。
1996,完成人类基因组计划的遗传作图,启动模式生物基因组计划。
1998完成人类基因组计划的物理作图,开始人类基因组的大规模测序。
Celera公司加入,与公共领域竞争启动水稻基因组计划。
1999,第五届国际公共领域人类基因组测序会议,加快测序速度。
2000,Celera公司宣布完成果蝇基因组测序,国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作。
2001,人类基因组“中国卷”的绘制工作宣告完成。
2003,中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功,人类基因组计划的.目标全部实现。
2004,人类基因组完成图公布。
基于序列特征的固有无序蛋白结合位点的统计分析xxx(物理与电子信息学院,山东德州253023)摘要本文以Disprot和BSDP数据库中的固有无序蛋白的结合位点为研究对象,构建9种结合位点数据集,利用MATLAB进行统计结合位点各种氨基酸的频率,结果发现,蛋白质与蛋白质相互作用的结合位点最多,蛋白质与ATPGTP相互作用的结合位点最少,而且还可以得知各种类型结合位点的氨基酸具有明显的偏好性。
该研究有助于认识固有无序蛋白质与其它成份的相互作用特征、为进一步挖掘固有无序蛋白质的序列特征,进而为发展预测固有无序蛋白质与蛋白质、DNA、RNA、配体、辅因子等物质结合位点的软件奠定了良好的基础。
关键词固有无序蛋白;无序区;序列分析;结合位点1引言1.1固有无序蛋白质蛋白质是构成生物体最重要的两类大分子之一,蛋白质翻译在整个生物过程中发挥着非常重要的作用。
传统思想认为,蛋白质要实现生物功能,必须先折叠成一个稳定的三维结构,因此形成了蛋白质结构决定其功能的主流观点,对蛋白质科学的研究已经取得了一系列成就,创造了现代蛋白质科学的“大爆炸”时代[1]。
然而,随着基因工程方法和实验技术的发展以及基因组计划的开展,在上个世纪90年代初,人们发现有些蛋白质或蛋白质序列中的一部分区域在生理条件下不具有一个确定的三维结构,但依然能够正常行使生物学功能。
后来发现,这类蛋白质越来越多,并逐渐形成了一种新的蛋白质类型,称为固有无序蛋白质[2,3,4](intrinsically disordered proteins,简称为IDPs)。
固有无序蛋白质的特征是整条链或链的一部分并不具有严格的三维结构,原子位置及主链二面角没有特定的平衡值而是随着时间发生很大的变化。
经过十多年的研究,人们发现这类蛋白质在生物体内普遍存在而且十分丰富[5,6],可以位于细胞的不同部位。
研究还发现,真核生物体中含有的固有无序蛋白质数量远远高于古细菌和细菌中的固有无序蛋白[7,8],即生物进化的一个重要特点是蛋白质中无序区的含量在增加。
固有无序蛋白质概念的提出既是对蛋白质科学的挑战,也是科学研究的巨大机遇,为了深入认识固有无序蛋白质的性质,研究其序列特征、进化过程中结构的保守性以及功能等是十分重要的科学问题。
1.2固有无序蛋白质的生物学功能无序蛋白质在生物体内是普遍存在的。
例如利用预测算法DISOPRED2对古细菌细菌和真核生物的蛋白质组序列进行的分析表明,长度大于30个氨基酸的无序区域在这三个物种中的比例分别为2.0%、4.2%和33.0%[9]。
对目前存在的大量基因库数据进行预测,分析蛋白质的结构无序与蛋白质功能之间的关联,通过这种方法人们发现无序蛋白质在诸如转录和翻译调控细胞信号转导蛋白磷酸化及小分子存储等过程中发挥着重要的作用;另一方面无序蛋白质又似乎给生物体系带来一些不利的影响,经常与多种疾病联系在一起。
与人类癌症相关的蛋白质中有79%的蛋白质有无序片段;在心血管疾病有关的蛋白质中,无序蛋白质的含量也高达57%。
DisProt数据库将所有固有无序蛋白质分为7大功能和1组未知功能,并且将这7种功能又细分为28 种更具体的功能。
按照Disprot 数据库的功能划分方法,将此数据库中所有固有无序蛋白质分为以下8组:分子伴侣、熵链、金属吸附器、位点修饰、分子组装、分子识别效应器、分子识别抗氧剂和未知功能。
1.3固有无序蛋白质的序列氨基酸(Amino acid)是构成蛋白质的基本单位,赋予蛋白质特定的分子结构形态,使它的分子具有生化活性。
固有无序蛋白质可以指整个蛋白质在生理环境下缺乏稳定的结构,也可以指蛋白质中的一部分区域没有结构,这部分区域通常称为无序区。
这类蛋白质在氨基酸序列上具有显著的特征。
其中最显著的特征是它们的疏水残基含量较低,同时拥有较高的未被中和的电荷因此不能形成一个稳定的疏水核心,在疏水性电荷图上无序蛋白质与有序蛋白质明显存在于不同的区域图。
另外无序蛋白质氨基酸序列的复杂性也较有序蛋白质的低,序列上常常出现重复的区域。
Radivojac对此进行过研究,得出不同的氨基酸残基也具有不同的促进无序结构形成的倾向的结论:Gly、Trp、Tyr、Ile、Phe、Val、Leu、His、Thr、Asn比较有利于有序结构的形成;Asp、Met、Lys、Arg、Ser、Glu、Pro、Gln有利于无序的形成,而其它残基的作用则比较中性。
无序蛋白质的出现还与氨基酸残基的预期堆积密度(用一定距离内的近邻残基数目来表征)有关联,预期堆积密度低的序列倾向于形成无序蛋白质,密度高的倾向于形成淀粉状聚集结构,而预期堆积密度适中的序列则倾向于形成有序球状蛋白。
1.4蛋白质结合位点预测的意义在后基因组时代,生命科学的中心任务是阐明基因组所表达的真正执行生命活动的全部蛋白质的表达规律和生物功能。
蛋白质与配体相互作用以及蛋白质结构与功能之间的关系是后基因组时代研究的核心内容,而蛋白质的结合位点的预测是这些研究领域的理论基础,同时也是基于结构的药物设计中至关重要的步骤,对计算机辅助药物设计和复合物结构预测具有重要意义,也是生物信息学领域一个重要的研究热点。
蛋白质与其他蛋白质、DNA和RNA的相互作用是实现许多细胞功能的途径[10]。
近年来,随着X-射线晶体衍射和核磁共振等技术的日趋完善,越来越多高分辨率的复合物三维结构被测出,这使得人们能够从原子水平上研究蛋白质与其他蛋白质、DNA和RNA相互作用的结合位点。
近年来,对此领域的研究发展较快,已有大量文献利用机器学习算法,力求寻找最合适的特征参数来分析及预测蛋白质与生物大分子相互作用时序列中的结合残基[11]。
固有无序蛋白质也是蛋白质,它往往与其他蛋白质、DNA 和RNA等通过结合位点结合来行使功能,结构上的柔性和在复合物状态能发生无序-有序转变的特性使其能够与蛋白质、DNA 和RNA等发生广泛的相互作用,从而行使诸多重要的生物学功能。
已有研究通过对固有无序蛋白质在形成复合物状态下的分子内和分子间相互作用进行分析发现,固有无序蛋白质与受体分子之间的相互作用要强于固有无序蛋白质分子内的相互作用,因此固有无序蛋白质在结合状态下的有序结构主要是由残基分子与其他生物分子间形成的非共价键相互作用力来稳定[12],如氢键、静电相互作用力以及范德华力等。
也有研究表明,固有无序蛋白质复合物的界面通常由连续的氨基酸构成,而由有序蛋白质构成的复合物的界面则由多个不连续的序列组成[13],因此要形成同样大小的结合界面,固有无序蛋白质只需要较短的序列,有利于减小体积,降低细胞内的拥挤程度[14]。
这表明对固有无序蛋白质相互作用位点的预测会更进一步了解固有无序蛋白质的表达规律和生物功能。
1.5课题研究思路和意义课题以DisProt[15]数据库中固有无序蛋白质为研究对象,利用BSDP(Binding Sites of Disordered Proteins )数据库,利用编程软件Matlab7.0进行统计得到新的结合位点数据。
具体工作为:首先利用Disprot数据库下载所有固有无序蛋白,经过去冗余处理后,再利用BSDP]数据库构建固有无序蛋白质-蛋白质、固有无序蛋白质-DNA、固有无序蛋白质-RNA复合物、固有无序蛋白与辅因子、固有无序蛋白与金属、固有无序蛋白与配体、固有无序蛋白与ATPGTP、固有无序蛋白与其它物质结合位点的数据集。
在此基础上,研究了固有无序蛋白与其它因子相互作用结合位点的氨基酸序列的偏好性。
本研究工作,有助于认识固有无序蛋白质与其它成份的相互作用特征、了解现有蛋白质与核酸以及其他物质作用位点预测对固有无序蛋白情况的适用性、进一步挖掘固有无序蛋白质的序列特征,进而为发展固有无序蛋白质与蛋白质、DNA、RNA、配体、辅因子等物质的预测软件奠定了良好的基础。
2数据来源及去冗余处理2.1固有无序蛋白质数据来源目前,经实验确认的固有无序蛋白质的数目日益增加,为方便这些数据的管理和注释,人们开始建立有关IDPs的数据库。
Megan和Dunker等创立了系统描述固有无序蛋白的DisProt数据库(),该数据库展示了IDPs的实验特征和生物学功能,给出了多种不同实验技术得到的IDPs的大量范例,包括许多IDPs及其区域的功能信息,而且把IDPs及其无序区域的结构和功能系统地联系起来了。
本工作以固有无序蛋白质数据库DisProt为研究对象,下载了数据库中最新的固有无序蛋白质版本6.01,发布日期为2012年10月15日,共有无序蛋白质的数目是684个,无序区为1513个。
通过编程分析得到最长的序列有18534个氨基酸,最短的序列只有33个氨基酸,平均为489个氨基酸。
2.2固有无序蛋白质数据去冗余处理由于蛋白质序列数据库中都含有大量的冗余序列,冗余序列通常不能提供更多的信息,而且不利于数据的统计分析,而且它们要占用更多的计算机存储和处理资源。
去除这些冗余信息具有很高的实用价值,不但可以减小数据库的大小提高序列搜索的速度,而且有助于对数据的统计分析。
2.2.1去冗余软件人们通常认为相似的生物序列具有相似的生物功能和结构,也具有相似的进化历史。
一般可以通过三种方式来确定序列之间的相似度,即序列片段过滤、序列比对以及二者结合的方式。
序列片段过滤可以通过计算序列片段的数目来断定序列之间的相似度在某个阈值之内,速度较快;序列比对是一种常用的序列之间相似性分析和比较的方法,可以分为全局比对和局部比对两种方法,序列比对方法可以获得较为精确的相似度,但通常占用较多的时间;出于对精确度和速度的折中,可以采用上述两种方法结合的方式来确定序列之间的相似度,即首先设置一些过滤策略来减少序列之间比对的次数,再在必要时采用序列比对来确定序列之间的相似度,我们现在所了解的是著名的去冗余程序CD-HIT[16,17]()就是采用了这种方式来实现的。
本研究用CD-HIT进行去冗余处理,将相似度阈值设为30%。
2.2.2去冗余结果(1)去冗余前,蛋白质共有684条序列,最长序列有18534个氨基酸,最短序列有33个氨基酸,平均为489个氨基酸。
去冗余后,蛋白质共有549个序列,最长为18534个氨基酸,最短为33个氨基酸,平均长度为525个氨基酸。
可以得到处理前和处理后最长序列和最短序列的氨基酸个数相同,处理前的平均氨基酸个数稍比处理后要短,但基本相同,说明相似度阈大于30%蛋白质序列的氨基酸多数在平均数以下。
(2)把氨基酸的的长度分成7块,分别统计了去冗余前后固有无序蛋白序列的条数,(3)氨基酸的个数和百分含量的对比。
通过使用Matlab7.0对所下载的所有蛋白质序列进行编程,得到了去冗余前后所有氨基酸的总数及各种氨基酸的个数。