核酸和蛋白质序列分析
- 格式:docx
- 大小:26.70 KB
- 文档页数:5
核酸和蛋白质序列分析蛋白质, 核酸, 序列关键词:核酸序列? ? 蛋白质序列? ? 分析软件? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ??在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。
通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。
通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。
通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。
尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。
此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。
上述技术路线可为其它类似分子的生物信息学分析提供借鉴。
本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(),可以直接点击进入检索网站。
? ?下面介绍其中一些基本分析。
值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。
(一)核酸序列分析1、双序列比对(pairwise alignment)? ?双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。
由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。
根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。
蛋白质和核酸序列比对的基础和应用序列比对是生物信息学中的基本问题之一。
生物学中,各种生物体的遗传材料都是由由核酸序列组成的基因组。
这些核酸序列对于生物的基因表达和功能非常重要,但是它们的信息密度比较低,很难从中获得有意义的信息内容。
因此,生物学家们研究出了一种对这些序列进行分析的办法,称之为序列比对。
这种方法通过比较不同样本的序列,从中发现这些序列之间的共性和差异,进而推断出生物之间的关系,以及各种基因的功能和特征。
序列比对的基础序列比对的基本思路是将两个或多个序列进行比较,从中寻找相同的部分。
根据两条序列中相同碱基的数量以及它们的位置关系,我们可以推断出这些序列之间的相似程度。
然而,由于生物的基因组非常复杂,以及数据量过大,使得这种序列比对方式很难通过简单的手工方法进行。
因此,生物学家们研究出了一系列的比对算法,用于通过计算机程序实现。
目前,序列比对算法主要分为两类,即全局比对和局部比对。
全局比对是将两条或多条序列的全部碱基进行比较,通常用于比较两个相似的序列,以确定它们之间的相同区域。
而局部比对则是通过寻找两条序列之间的局部匹配来发现它们之间的相似之处。
在处理大量的生物序列时,局部比对比全局比对更加高效。
应用序列比对在生物研究中有着广泛的应用。
首先,它可以揭示不同生物之间的遗传关系。
通过比较物种之间的基因组,我们可以推断出它们之间的相似性和差异性,从而建立起一种生物分类的方法。
其次,序列比对也可以用于研究个体之间的遗传关系。
通过比较不同个体的基因组,我们可以了解它们之间的遗传距离,从而推断出不同个体之间的亲缘关系,或者是寻找其它与生物体性状相关的基因。
此外,序列比对还可以用于研究蛋白质的结构和功能。
蛋白质是生命体中最基本的组成成分之一,其结构和功能非常复杂。
通过对蛋白质的序列进行比对,我们可以发现它们之间的共同特征,从而了解蛋白质的折叠结构和功能。
总结序列比对是生物信息学中的一个非常重要的分支。
蛋白质序列、性质、功能和结构分析基于网络的蛋白质序列检索与核酸类似,从NCBI或利用SRS系统从EMBL检索。
1、疏水性分析ExPASy的ProtScale程序(/cgi-bin/protscale.pl)可用来计算蛋白质的疏水性图谱。
输入的数据可为蛋白质序列或SWISS-PROT数据库的序列接受号。
也可用BioEdit、DNAMAN等软件进行分析。
2、跨膜区分析蛋白质跨膜区域分析的网络资源有: TMPRED:/software/TMPRED_form.html PHDhtm: http:www.embl-heidelberg.de/Services/ ... predictprotein.html MEMSAT: ftp://3、前导肽和蛋白质定位一般认为,蛋白质定位的信息存在于该蛋白自身结构中,并且通过与膜上特殊受体的相互作用得以表达。
这就是信号肽假说的基础。
这一假说认为,穿膜蛋白质是由 mRNA编码的。
在起始密码子后,有一段疏水性氨基酸序列的RNA片段,这个氨基酸序列就称为信号序列(signal sequence)。
蛋白质序列的信号肽分析可联网到http://genome.cbs.dtu.dk/services/SignalP/或其二版网址http: //genome.cbs.dtu.dk/services/SignalP-2.0/。
该服务器也提供利用e-mail 进行批量蛋白质序列信号肽分析的方案(http://genome.cbs.dtu.dk/services/SignalP/mailserver.html),e-mail 地址为 signalp@ genome.cbs.dtu.dk。
蛋白质序列中含有的信号肽序列将有助于它们向细胞内特定区域的移动,如前导肽和面向特定细胞器的靶向肽。
在线粒体蛋白质的跨膜运输过程中,通过线粒体膜的蛋白质在转运之前大多数以前体形式存在,它由成熟蛋白质和N端延伸出的一段前导肽或引肽(leader peptide)共同组成。
蛋白质和核酸结构和功能的比较蛋白质和核酸是生命体内两类重要的生物大分子,它们在维持生命活动、传递遗传信息以及调节生物体内功能上扮演着关键角色。
虽然蛋白质和核酸在分子结构和功能上存在许多不同,但它们又存在一些共同之处。
下面将分别从结构和功能的角度比较蛋白质和核酸。
一、结构比较:1.蛋白质的结构:蛋白质是由氨基酸组成的长链多肽,通过肽键连接在一起。
蛋白质的结构包括四个不同层次:一级结构是氨基酸序列的线性顺序;二级结构包括α-螺旋、β-折叠等常见的二级结构元素;三级结构是蛋白质链的三维折叠结构;四级结构是由两个或多个蛋白质相互组合而成的复合体。
2.核酸的结构:核酸是由核苷酸组成的长链聚合物,通过磷酸二酯键连接在一起。
核酸的结构包括两个不同层次:一级结构是核苷酸序列的线性顺序;二级结构是DNA的双螺旋结构和RNA的单链结构。
二、功能比较:1.蛋白质的功能:蛋白质在细胞中的功能非常多样化,包括酶催化、结构支持、运输、免疫机制、代谢调节等。
例如,酶是一类高度特异性的蛋白质,可以参与化学反应的催化;结构蛋白质如胶原蛋白则提供细胞和组织的支持;运输蛋白质如载脂蛋白可在血液中运输脂类;免疫球蛋白可以识别入侵生物体内的病毒和细菌等。
2.核酸的功能:核酸主要参与遗传信息的传递和转录、翻译过程。
DNA持有生物体的遗传信息,可通过自身复制维持和传递;RNA则具有将DNA指导的信息转化为蛋白质的功能。
在转录过程中,DNA会被转录成RNA;在翻译过程中,RNA会被翻译成蛋白质。
三、相互作用:综上所述,蛋白质和核酸在分子结构和功能上存在着很大的差异。
蛋白质在细胞功能中的多样性比核酸更加广泛,而核酸则在传递遗传信息和转化为蛋白质的过程中起到重要的作用。
然而,蛋白质和核酸之间也相互作用、相互依赖,共同参与维持生物体的正常功能。
实验 3 :核酸和蛋白质序列为基础的数据库检索一、实验目的:1.掌握已知或未知序列接受号的核酸序列检索的基本步骤2.熟悉基于核酸序列比对分析的真核基因结构分析(内含子/外显子分析)3.掌握BLAST的原理,了解如何利用Genbank数据库中提供的Blast功能完成同源性检索二、实验内容:作业(可以将演示一的结果记录并分析作为实验报告或作业4题中任意选两题作为报告上交)1、将上述演示二中核酸序列对应的蛋白质序列,分别进行BLASTP和PSI-BLAST搜索,说明你的参数设置,简明操作步骤,分析搜索结果,体会PSI-BLAST的优势。
2. 将第1题中的蛋白质序列利用TBLASTN程序进行搜索,说明你的参数设置,比较它与BLASTN结果有无差异。
3. 将第1题中的核酸序列利用BLASTX程序进行搜索,说明你的参数设置,比较它与BLASTP 搜索结果有无差异。
4. 将演示二中的核酸序列利用TBLASTX程序在默认数据库进行搜索,简要说明操作步骤,体会它与BLASTN搜索的差异。
三、作业:演示: 找一条你感兴趣的核酸序列(智人胰岛素(INS)),通过BLASTN搜索NR数据库,说明你的参数如何设置,分析搜索结果包含哪些信息。
答:使用的序列为:智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA。
Algorithm parameters设置如下:参数:Enter Query Sequence——NM_001185098Choose Search Set——Database: Nucleoctide collection(nr); Exclude: √Models(XM/XP),√Uncultured/environmental ample sequencesProgram Selection——Optimize fot: Highly similar sequences展开“Algorithm parameters”,依次设置:General Parameters——Max target sequence:100; Short queries:√ ; Expect threshold:10;Word size:28; Max matches in a query range:0Scoring Parameters——Matrix/Mismatch Scores:1,-2; Gap Costs: LinearFilters and Masking——Filter: √Low complexity regions; √Mask: mask for lookup table only搜索结果分析:使用智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA搜索NR数据库,搜索出100条符合条件的序列,序列来自的物种包括了Homo sapiens,Pan troglodytes,Gorilla gorilla,Pongo abelii,Pongo pygmaeus,Mus musculus等,其中根据得分高低排列,前7条序列如下所示:NM_001185098.1 Homo sapiens insulin (INS), transcript variant 3, mRNANM_001185097.1 Homo sapiens insulin (INS), transcript variant 2, mRNANM_000207.2 Homo sapiens insulin (INS), transcript variant 1, mRNANG_007114.1 Homo sapiens insulin (INS), RefSeqGene on chromosomeAC132217.15 Homo sapiens chromosome 11, clone RP11-889I17, complete sequence BC005255.1 Homo sapiens insulin, mRNAJ00265.1 Human insulin gene, complete cds上述序列的“Max ident”均为100%或99%,且E-Value值很低,可见搜索出来的序列与QUERY 序列匹配的相似度很高。
核酸和蛋白质序列分析在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。
通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。
通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。
通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。
尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。
此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。
上述技术路线可为其它类似分子的生物信息学分析提供借鉴。
本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(htt p://gene.b .cn/science/b ioinfomati cs.htm),可以直接点击进入检索网站。
下面介绍其中一些基本分析。
值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是m RNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。
(一)核酸序列分析1、双序列比对(pai rwise alig nment)双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以N eedleman-W unsch算法和Sm ith-Waterm an算法为代表。
由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。
最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。
进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。
此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。
序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。
序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。
在残基-残基比对中,可以明显看到序列中某些氨基酸残基比其它位置上的残基更保守,这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的,例如它们可能是酶的活性位点残基,形成二硫键的半胱氨酸残基,与配体结合部位的残基,与金属离子结合的残基,形成特定结构motif的残基等等。
但并不是所有保守的残基都一定是结构功能重要的,可能它们只是由于历史的原因被保留下来,而不是由于进化压力而保留下来。
因此,如果两个序列有显著的保守性,要确定二者具有共同的进化历史,进而认为二者有近似的结构和功能还需要更多实验和信息的支持。
通过大量实验和序列比对的分析,一般认为蛋白质的结构和功能比序列具有更大的保守性,因此粗略的说,如果序列之间的相似性超过30%,它们就很可能是同源的。
早期的序列比对是全局的序列比较,但由于蛋白质具有的模块性质,可能由于外显子的交换而产生新蛋白质,因此局部比对会更加合理。
通常用打分矩阵描述序列两两比对,两条序列分别作为矩阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数越高则说明两个残基越相似。
因此,序列比对问题变成在矩阵里寻找最佳比对路径,目前最有效的方法是Needleman-Wunsch动态规划算法,在此基础上又改良产生了Smith-Waterman算法和SIM算法。
诺贝尔奖核酸及蛋白质的化学测序诺贝尔奖是世界上最高荣誉的科学奖项之一,每年颁发给在物理学、化学、生理学或医学、文学和和平等领域做出突出贡献的人。
其中,化学奖是授予在化学领域做出杰出贡献的科学家。
本文将重点探讨诺贝尔奖与核酸及蛋白质的化学测序之间的关系。
核酸和蛋白质是生命体中最基本的分子,它们的序列决定了生命体的遗传信息和功能。
在过去的几十年里,核酸和蛋白质的化学测序技术取得了巨大的进展,为我们深入了解生命的奥秘提供了重要的工具。
1953年,詹姆斯·沃森和弗朗西斯·克里克发表了有关DNA结构的重要论文,揭示了DNA是由两条互补的链组成的双螺旋结构。
这一发现为后来的核酸测序技术奠定了基础。
随着科技的发展,人们逐渐掌握了测序反应的方法和技巧,使得可以准确地确定核酸的碱基序列。
1980年,沃尔特·吉尔伯特和弗雷德里克·桑格尔发明了一种名为“Sanger测序”的方法,该方法被广泛应用于DNA测序领域,也因此获得了1980年的诺贝尔化学奖。
Sanger测序方法基于DNA复制反应,通过引入一种特殊的二进制分子,即二进制缺失链终止剂,使DNA链在扩增过程中产生随机的终止。
然后,通过电泳分离不同长度的DNA片段,可以确定每个终止点的碱基。
通过多次反应和分离,最终可以确定整个DNA序列。
Sanger测序方法的发明和应用,极大地推动了基因组学、生物学和医学研究的进展,为人类揭示了许多重要的基因和疾病。
随着科技的不断发展,Sanger测序方法逐渐不能满足高通量测序的需求。
为了提高测序的速度和准确性,新的测序技术被不断开发。
其中,最具代表性的是第二代测序技术,如454测序、Illumina测序和Ion Torrent测序等。
这些技术基于不同的原理,如荧光探针、光子检测和离子检测,使得高通量测序成为可能。
这些技术的发展使得核酸测序的成本大幅下降,加速了基因组学、转录组学和蛋白质组学的研究进程。
核酸和蛋白质序列分析在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。
通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。
通过启动子预测、CpG 岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。
通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。
尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。
此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。
上述技术路线可为其它类似分子的生物信息学分析提供借鉴。
本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(/science/bioinfomatics.htm),可以直接点击进入检索网站。
下面介绍其中一些基本分析。
值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。
(一)核酸序列分析1、双序列比对(pairwise alignment)双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。
由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。
根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。
除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST(/BLAST/)。
以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。
(1)BLAST和FASTAFASTA(/fasta33/)和BLAST(/BLAST/)是目前运用较为广泛的相似性搜索工具。
这两个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定有意义的局部比对。
使用FASTA和BLAST,进行数据库搜索,找到与查询序列有一定相似性的序列。
一般认为,如果蛋白的序列一致性为25-30%,则可认为序列同源。
BLAST根据搜索序列和数据库的不同类型分为5种(表2),另外PSI-BLAST通过迭代搜索,可以搜索到与查询序列相似性较低的序列。
其中BLASTN、BLASTP在实践中最为常用,TBLASTN在搜索相似序列进行新基因预测时特别有用。
使用BLAST时,先选择需要使用的BLAST程序,然后提供相应的查询序列,选择所比对的数据库即可。
(2)Needle和Pairwise BLAST:其中Needle适用于蛋白质和DNA序列,而Pairwise BLAST仅适用于DNA序列(3)相似性和同源性:必须指出,相似性(similarity)和同源性( homology)是两个完全不同的概念。
同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。
相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。
经过比对,当相似性高于一定程度,可以推测序列可能是同源序列,具有一定同源性。
2、多序列比对和进化树在研究生物问题时,常常需要同时对两个以上的序列进行比对,这就是多序列比对。
多序列比对可用于研究一组相关基因或蛋白,推断基因的进化关系,还可用于发现一组功能或结构相关基因之间的共有模式(pattern)。
最常用的多序列比对工具为ClustalW(/clustalw/),多用于比较蛋白序列。
ClustalW用法:(1)输入:序列以FastA格式输入。
(2)输出:除了以文本形式外,还可以通过JalView显示和编辑结果。
此外,还可以另外使用GeneDoc(常见于文献)及DNAStar软件等显示结果。
多序列比对的结果还用于进一步绘制进化树。
3、ORF(Open Reading Frame)分析从核酸序列翻译得到蛋白质序列,需要进行ORF分析,每个生物信息学分析软件包几乎都带有翻译功能。
推荐使用NCBI的ORF Finder(/gorf/gorf.html)软件或EMBOSS中的getorf (http://bioinfo.pbi.nrc.ca:8090/EMBOSS/)软件。
ORF Finder 以图形方式,分为正链+1、+2、+3和反链+1、+2、+3六个相位预测ORF;Getorf可指定预测ORF的长度下限和指定预测正反链。
进行ORF分析虽然比较简单,但应注意以下几点:(1)序列的准确性:尤其是通过计算机拼接的序列,需要根据EST和基因组序列进行反复校正。
(2)ORF是否完整:看在ORF上游同一相位是否具有终止码,或者具有起始密码子。
(3)参考Kozak一致性规律,即起始密码子位点符合A/GCCATGG。
(4)不要忽略反义读框。
4、染色体定位根据基因组图谱对序列进行染色体定位和浏览其基因组上下游基因。
具体方法为:(1)进行Genomic BLAST搜索。
(2)通过“Genome view”观察基因组结构。
(3)点击相应染色体区域,通过表意图(ideogram)和相应区域上下游的基因进行精确定位。
5、基因结构分析根据基因的mRNA序列及基因组序列,可以进行基因结构的分析。
推荐使用BLAST或BLAT(/cgi-bin/hgBlat?command=start)进行分析。
由于真核生物转录后内含子将被剪切,因此将mRNA和基因组进行比对以后,会发现mRNA的每个外显子与基因组序列片断匹配,根据这些片段可以判断外显子的数目和大小。
外显子和内含子具体边界的确定,可以参考GT/AG一致性规则。
BLAT的结果直接显示外显子数目、大小及边界。
6、基因上游调控区分析(1)启动子预测:推荐使用冷泉港开发的FIRSTEF程序(/tools/FirstEF/)进行启动子预测。
用RT-PCR等实验方法获得的mRNA往往缺少完整的5’端,采用FirstEF 程序可以对第一外显子(尤其是非编码的第一外显子)和CpG相关启动子进行预测。
方法:以FastA格式输入起始密码子上游序列。
(2)转录因子结合位点分析:推荐使用TFSEARCH程序(http://www.cbrc.jp/research/db/TFSEARCH.html)及MATCH程序(/pub/programs.html#match)对转录因子数据库TRANSFAC(http://transfac.gbf.de/TRANSFAC/)进行搜索,寻找可能的转录因子结合位点。
方法:输入起始密码子上游序列。
结果将给出很多可能的转录因子结合位点,注意选择其中分值较高的位点。
(二)蛋白质序列分析1、跨膜区预测各个物种的膜蛋白的比例差别不大,约四分之一的人类已知蛋白为膜蛋白。
由于膜蛋白不溶于水,分离纯化困难,不容易生长晶体,很难确定其结构。
因此,对膜蛋白的跨膜螺旋进行预测是生物信息学的重要应用。
推荐使用TMHMM软件(http://www.cbs.dtu.dk/services/TMHMM/)对蛋白进行跨膜预测。
TMHMM综合了跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限制等性质,采用隐马氏模型(Hidden Markov Models),对跨膜区及膜内外区进行整体的预测。
TMHMM是目前最好的进行跨膜区预测的软件,它尤其长于区分可溶性蛋白和膜蛋白,因此首选它来判定一个蛋白是否为膜蛋白。
所有跨膜区预测软件的准确性都不超过52%,但86%的跨膜区可以通过不同的软件进行正确预测。
因此,综合分析不同的软件预测结果和疏水性图以获得更好的预测结果。
方法:输入待分析的蛋白序列即可。
2、信号肽预测信号肽位于分泌蛋白的N端,当蛋白跨膜转移位置时被切掉。
信号肽的特征是包括一个正电荷区域、一个疏水性区域和不带电荷但具有极性的区域。
信号肽切割位点的-3和-1位为小而中性氨基酸。
推荐使用SignalP软件2.0版(http://www.cbs.dtu.dk/services/SignalP-2.0/)对PDCD5N端序列进行信号肽分析。
SignalP2.0根据信号肽序列特征,采用神经网络方法或隐马氏模型方法,根据物种的不同,分别选择用真核和原核序列进行训练,对信号肽位置及切割位点进行预测。
信号肽切割位点预测用Y-score maximum来判断,对是否分泌蛋白用mean S-score来判断:如果mean S-score 大于0.5,则预测为分泌蛋白,存在信号肽,但II型跨膜蛋白的N端序列可能被错误预测为分泌蛋白的信号肽。
方法:输入待分析的蛋白序列,如为原核基因选择原核训练集,否则选择真核训练集。
3、亚细胞定位预测亚细胞定位与蛋白质的功能存在着非常重要的联系。
亚细胞定位预测基于如下原理:(1)不同的细胞器往往具有不同的理化环境,它根据蛋白质的结构及表面理化特征,选择性容纳蛋白。
(2)蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成。
因此可以通过氨基酸组成进行亚细胞定位的预测。
推荐使用PSORT(http://psort.nibb.ac.jp/)II软件对PDCD5蛋白的细胞内定位进行预测。
PSORT将动物蛋白质定位于10个细胞器:(1)细胞浆,(2)细胞骨架,(3)内质网,(4)胞外,(5)高尔基体,(6)溶酶体,(7)线粒体,(8)胞核,(9)过氧化物酶体(peroxisome)和(10)细胞膜。