密码子偏好性与异源蛋白表达
- 格式:pdf
- 大小:311.97 KB
- 文档页数:10
研究密码子偏好性常用的参数1、相对同义密码子使用度(Relativ e Synonymous Codon Usage, RSCU )是指对于某一特定的密码子在编码对应氨基酸的同义密码子间的相对概率,它去除了氨基酸组成对密码子使用的影响。
如果密码子的使用没有偏好性,该密码子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相对较多的密码子,反之亦然。
第i个氨基酸的第j个密码子的相对同义密码子使用度值的计算公式如下:公式中, X ij是编码第i个氨基酸的第j个密码子的出现次数, n i是编码第i个氨基酸的同义密码子的数量( 值为1~6) 。
研究中通常先利用高表达基因的RSCU值建立参考表格。
2、密码子适应指数(Codon Adaptation Index, CAI)可以根据已知高表达基因的序列来估计未知基因密码子使用的偏好性程度。
CAI的值在0~1之间, 如果越高则表明该基因的密码子使用偏好性越强。
CAI 值一般用来预测种内基因的表达水平( 但目前的研究发现对于单细胞生物比较适用, 而在哺乳动物中并不能用来表示基因表达水平), 又可以用来预测外源基因的表达水平。
w ij(The relative adaptiveness of a codon): 密码子相对适应度上式中RSCU imax、X imax分别指编码第i个氨基酸的使用频率最高的密码子的RSCU值和X值L是指基因中所使用的密码子数。
3、密码子偏好参数(Codon Preference Parameter, CPP)CPP的变化范围为0 ~ 18, 越接近18表示密码子被非随机使用的程度越高。
它对于基因编码区域总的碱基组成不敏感, 适于比较基因间或物种间密码子使用偏性的大小。
x ij是编码第i个氨基酸的第j个密码子的出现次数, n i是编码第i个氨基酸的同义密码子的数量( 值为2~6, n i= 1 的情况被排除)4、有效密码子数(Effective Number of Codon, ENC)ENC值的范围在20~ 61之间, 越靠近20偏性越强。
中国生物工程杂志China Biotechnol〇gy,2021,41 (4) :64-73D01:10. 13523/j.cb. 2101004微生物tR N A与密码子系统应用研究进展*廖丹妮张昭旸靳瑾李霞贾斌#(天津大学化工学院教育部合成生物学前沿科学中心系统生物工程教育部重点实验室天津3_72)摘要tR N A作为生命中心法则中翻译过程的重要参与分子,其种类、丰度都会对蛋白质的正常合成产生巨大影响。
近年来通过对微生物tR N A的结构功能以及合成修饰过程的解析获得诸多启发,开展密码子扩展的研究,实现将非天然氨基酸引入特定位置从而获得新功能蛋白。
同时,通过化学合成微生物基因组开展的密码子重编码工作将释放更多的密码子与tR N A用于更加广泛的密码子扩展研究。
对微生物tR N A与密码子系统在合成生物学中的最新应用研究进展进行了综述,并讨论其未来的发展趋势。
关键词tRNA密码子扩展非天然氨基酸氨酰tR N A合成酶中图分类号Q819t R N A—般由70 ~ 85个核糖核苷酸组成,包含两 个重要生物学特性:一是在其3'端共价连接唯一氨基酸;二是包含一个代表反密码子的三核苷酸序列,可以 与代表氨基酸的密码子互补配对,因此t R N A与遗传密 码有着紧密联系。
遗传密码具有通用性,但也存在着 一些例外。
例如终止密码子通常情况下负责终止翻译 过程,没有编码氨基酸的功能,但是一些t R N A反密码 子突变后能够识别终止密码子,从而使终止密码子获得编码功能。
近年来随着对微生物t R N A以及氨酰t R N A合成酶结构功能的深人认识m,开展了一系列密 码子扩展的研究,实现了将非天然氨基酸引入特定位置从而获得新功能蛋白的目标。
本文综述了微生物t R N A与密码子系统在合成生物学中的应用研究进展,并对其未来的发展趋势进行了探讨。
1 tR N A结构1.1 tR N A基因序列在基因组中,t R N A基因通常成族间隔排列,由细 胞内的KNA聚合酶I I I转录并经过加工修饰而形成。
异源蛋白的表达和纯化方法探讨蛋白质是生命体中最基本的有机物之一,它们参与了生命体所有的基本生化反应和功能。
为了探究蛋白质的结构和功能,科学家们广泛地研究各种蛋白质,并尝试利用现代生物技术手段来大量表达和纯化蛋白质。
但是,在实验室中,有些蛋白质不能够提高其表达的产量,或者在纯化步骤中存在困难。
在这种情况下,科学家们就需要采用一些特殊的表达和纯化方法来获得高纯度的异源蛋白。
1. 异源蛋白的表达异源蛋白是指通过基因克隆技术等途径,将一种外源的蛋白质基因插入到宿主细胞中,利用宿主细胞的生物合成能力来制备此蛋白质。
在异源蛋白表达过程中,基因的突变、转录后修饰等都会带来表达量不同的影响。
因此,为了获得充足的含量,需要对表达体系和条件进行优化。
在选择表达宿主的时候,首先要考虑两个因素:表达效率和生存率。
大多数蛋白质表达宿主是细胞质中的微生物,如大肠杆菌、酵母菌等。
这是因为这些微生物具有快速繁殖和易于培养的优点,并且他们的基因调节较为简单,因此容易进行指导性的改造。
对于难表达的蛋白质来说,正确选择突变的表达条件是关键。
首先可以针对蛋白质基因的编码区域进行优化,包括了优化起始密码子、退火周边区域,融合保护性标签、组成多联重组等,呈长时间、高效性表达环境。
同时,也需要在表达培养条件和培养介质上进行优化。
2. 异源蛋白的纯化异源蛋白的纯化包括了识别、分离和精制的过程。
在出现杂质或者不同性质的蛋白质混合物的时候,可以通过选择性分离来实现蛋白质的纯化。
蛋白质的纯化方法是根据蛋白质在物理或化学性质上的特点进行选择的。
目前最常用的分离方法是亲和分离、离子交换、分子筛过滤、透析、凝胶渗析、纯化柱层析等。
其中,凝胶渗析、分子层析和离子交换色谱法是最常用的方法。
对于步骤多、成本高的纯化工艺来说,常常会降低大规模制产的效率和收益。
因此,要考虑到纯化的成本和效率的平衡,合理地进行选择和使用。
总之,异源蛋白的表达和纯化,是蛋白质科研领域内最常见的研究内容之一,其方法和手段的选择主要依赖于所研究的蛋白质的特性和需要。
研究密码子偏好性常用的参数1、相对同义密码子使用度(Relativ e Synonymous Codon Usage, RSCU )是指对于某一特定的密码子在编码对应氨基酸的同义密码子间的相对概率,它去除了氨基酸组成对密码子使用的影响。
如果密码子的使用没有偏好性,该密码子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相对较多的密码子,反之亦然。
第i个氨基酸的第j个密码子的相对同义密码子使用度值的计算公式如下:公式中, X ij是编码第i个氨基酸的第j个密码子的出现次数, n i是编码第i个氨基酸的同义密码子的数量( 值为1~6) 。
研究中通常先利用高表达基因的RSCU值建立参考表格。
2、密码子适应指数(Codon Adaptation Index, CAI)可以根据已知高表达基因的序列来估计未知基因密码子使用的偏好性程度。
CAI的值在0~1之间, 如果越高则表明该基因的密码子使用偏好性越强。
CAI 值一般用来预测种内基因的表达水平( 但目前的研究发现对于单细胞生物比较适用, 而在哺乳动物中并不能用来表示基因表达水平), 又可以用来预测外源基因的表达水平。
w ij(The relative adaptiveness of a codon): 密码子相对适应度上式中RSCU imax、X imax分别指编码第i个氨基酸的使用频率最高的密码子的RSCU值和X值L是指基因中所使用的密码子数。
3、密码子偏好参数(Codon Preference Parameter, CPP)CPP的变化范围为0 ~ 18, 越接近18表示密码子被非随机使用的程度越高。
它对于基因编码区域总的碱基组成不敏感, 适于比较基因间或物种间密码子使用偏性的大小。
x ij是编码第i个氨基酸的第j个密码子的出现次数, n i是编码第i个氨基酸的同义密码子的数量( 值为2~6, n i= 1 的情况被排除)4、有效密码子数(Effective Number of Codon, ENC)ENC值的范围在20~ 61之间, 越靠近20偏性越强。
不同哺乳动物密码子偏性及聚类分析在雌性哺乳动物整个生殖周期过程中,卵母细胞只能来源于原始卵泡库[1]。
有研究表明,原始卵泡形成过程受激素、转录因子和相关通路的介导[2]。
生长分化因子9(growth differentiation factor 9,GDF9)作为转化生长因子β超家族成员之一,在卵泡的发育过程中有关键的调节作用[3]。
密码子是DNA或RNA的碱基序列与其编码蛋白序列之间的对应关系[4]。
编码相同氨基酸的密码子为同义密码子,在蛋白合成过程中,同义密码子的使用频率存在差异,且物种和基因对某一种或几种密码子的使用具有偏好性[5]。
对基因密码子偏好参数进行分析,能更好地理解和研究基因水平转移和基因家族分化的发生[6]。
因此对密码子偏好性的研究可在分子的角度为GDF9基因序列特征、分类和遗传进化规律提供重要信息。
前人相关研究表明,GDF9基因具有刺激颗粒细胞减数分裂、抑制素的生成作用[7],并影响卵泡发育和生殖功能[8]。
Wang等发现通过siRNA敲除GDF9后能抑制仓鼠原始卵泡的形成,但添加GDF9纯品培养卵巢会加速原始卵泡的形成[9]。
在人、啮齿类、牛、绵羊和有袋类动物卵巢卵母细胞中,GDF9基因特异性表达,但该基因在山羊卵母细胞和黄体中可同时表达[10-11]。
GDF9基因还能通过多个信号通路促进颗粒细胞增殖过程[12]。
马会明等通过RNA干扰使该基因表达沉默,也能抑制颗粒细胞增殖过程[13]。
这些研究通过探讨不同哺乳动物已被克隆的GDF9基因,并在卵巢卵母细胞中进行了相关表达分析,但未开展密码子使用偏性的研究,这不利于其异源表达和遗传转化等后续试验的进行。
GDF9基因密码子使用偏好性的研究能为该基因的分类和进化提供重要信息。
本研究利用CodonW软件分析不同哺乳?游?GDF9基因对密码子的使用情况,基于GDF9基因最小进化法和同义密码子相对使用度的欧式平方距离系数建立聚类关系,为GDF9基因功能的深入研究提供参考依据。
密码子偏性与异源蛋白表达原文:Claes Gustafsson, et al. TRENDS in Biotechnology, 2004,22(7): 346-353./corp/images/MS102504CG.pdf翻译:zhxm409511在1977年,当Genetech的科学家和他们的科研合作伙伴首次利用细菌生产出人类蛋白(生长激素释放抑制因子)时[1],蛋白的异源表达在整个生物技术产业中发挥着关键的角色。
那时,仅知道生长激素释放抑制因子的氨基酸序列,还不知如何从人的基因组中克隆该基因,因此,Genetech小组采用数条寡核苷酸合成了14个密码子长的生长激素释放抑制因子基因。
Itakura和同事们设计这些寡核苷酸时遵循了三条标准[1]。
首先,优先使用MS2噬菌体偏爱的密码子——尽管当时对大肠杆菌的基因组DNA序列还知之甚少,却已刚刚完成了MS2噬菌体的测序,并认为该噬菌体的序列能够代表大肠杆菌高表达基因所使用的密码子。
其次,消除寡核苷酸不必要的分子内和分子间配对,因为这可能影响基因合成。
第三,避免那些先是富含GC随后是富含AT的序列,当时认为这种序列可能会导致转录终止。
结果,利用这条合成的基因首次制生产出来了具有功能活性的多肽。
25年后的今天,大多数基因克隆自cDNA文库或直接利用聚合酶链反应(PCR)从相应的基因组中扩增获得。
要尽量避免从头合成基因,因为这样做需要消耗大量的财力和人力[2]。
尽管基于PCR的克隆被广泛使用,但很多情况下它还是不及所描述的那样快捷和容易。
它经常需要一些不易得到的模板(对于具有内含子的生物,需要cDNA模板),此外还需要进行PCR条件的优化,需要对PCR产物进行测序,如果PCR引入了任何的配对错误,还经常需要通过定点突变进行修复。
然而,当扩增出的基因克隆入表达载体后,真正有趣的事情就发生了:经常是没有蛋白表达或表达水平很低。
人们已经进行了大量的研究,以提高克隆基因的表达水平,包括优化宿主的生长条件,建立新的宿主系,改用新的宿主,和无细胞系统[3]。
尽管这些方法都取得了一些进展,但它们都是围绕一个最根本问题进行的:一种生物所采用的编码蛋白的DNA序列经常不同于另外一种生物在编码该蛋白时所采用的DNA序列。
为什么不同的生物会偏爱不同的密码子?遗传密码采用61组三连核苷酸(密码子)编码20种氨基酸,采用3个密码子终止翻译。
因此每个氨基酸利用1个(Met和Trp)至6个(Arg,Leu,和Ser)同义密码子编码。
这些密码子在核糖体中被互补的tRNAs阅读,而这些tRNAs已经事先携带了相应的氨基酸。
密码子的兼并性使得同一蛋白可采用多种不同的核苷酸序列编码。
对于两种不同的生物,或对于同一生物的高表达和低表达基因,有时甚至在同一个操纵子内部,对不同密码子的使用频率差别可能很大[4]。
迄今,科学家仍在思索是什么进化压力导致了密码子使用偏性[5]。
每种生物内同义密码子之间的突变-选择平衡至少可部分解释基因组GC含量对密码子分布的影响及密码子使用形式的改变[6]。
一些研究者推断,旨在减少同工tRNAs多样性的密码子偏性能够降低新陈代谢负荷,因此,有利于生物在快速生长条件下节约部分能量[7]。
不管是什么原因导致了密码子偏性,已日益清楚的是密码子偏性对异源蛋白表达有深远的影响[8]。
密码子偏性的观察一个基因的密码子偏性及其表达水平之间的关联被用来定义密码子适用指数(CAI)[9]。
这种衡量密码子使用的方法源自由众多高表达基因组成的引用集(reference set),而这些高表达基因通常被用于衡量一种生物对特定密码子的偏爱程度。
根据基因组序列数据,这一指数可被用于预测内源基因的表达水平[10]。
然而因为该指数衡量的是偏爱程度,而非偏爱的性质,因此不能用于评价一个基因和一个候选宿主之间的兼容性。
基因可能具有更高的偏性,以至导致很高的CAI,但基因偏爱的密码子可能与宿主细胞偏爱的密码子截然不同。
主成分分析法能够将多维的信息压缩成一个两维图形。
它提供了一个非常方便的方法去观察不同生物间密码子偏性的差别。
图1展示了8个经广泛研究的生物基因组的平均密码子偏性。
图中显示,Streptomyces coelicolor具有非常极端的密码子使用图形。
该生物的每一个摆动位置(每个密码子的第三个碱基,遗传密码子的兼并性就产生于此)都是G或C,以至S. coelicolor具有很高的GC含量(71%)。
图中还显示,Saccharomyces cerevisiae,Caenorhabditis elegans和Arabidopsis thaliana聚集成群,指示它们具有相似密码子偏性,提示在表达C. elegans和A. thaliana的天然基因时,S. cerevisiae可能是一个很合适的宿主。
图1还明确的显示,E. coli和人之间的密码子偏性具有明显的不同。
这证实了很多研究者通过大量研究获得的结果:在按人的密码子使用方式表达蛋白时,E. coli不是最佳的宿主。
利用图中的密码子分布,可以帮助观察每种生物对密码子的使用与其他生物有何不同。
例如,哺乳动物细胞通常使用AGG和AGA编码Arg(分别占人基因Arg密码子的11.2%),然而,它们却很少在E. coli中使用(分别为2.1%和2.4%)。
因此,在图1中,从人的整体密码子偏性可以看出,AGG和AGA有助于主成分2(PC2)的正偏离。
相比之下,E. coli 偏爱的Arg密码子为CGT(16.4%的情况下使用,在人基因的使用频率为4.5%),因此,CGT有助于PC2的负偏离。
因此,“密码子使用间距”图非常有用,它能够快速鉴别出每种生物基因不经常使用的密码子,而这些密码子可能会给异源表达带来麻烦。
密码子偏性是如何影响蛋白表达的?密码子偏性被确定为原核基因表达中一个最重要的因素[11]。
其理由很明显,因为原核细胞偏爱的密码子与相应的tRNAs 浓度成正相关。
这种关联有助于优化翻译系统,平衡密码子含量和同工tRNA 的浓度[12]。
例如,在E. coli 中,tRNA 4Arg 阅读不经常使用的AGG 和AGA 两个Arg 密码子,在细胞中tRNA 4Arg 只具有很低的水平。
看起来,密码子使用和同工tRNA 浓度好象是共同进化的结果,与低表达基因相比,这一共同进化的选择压力对高表达基因的影响更加显著[13]。
同工tRNAs 与密码子频率的共同进化有时甚至会偏离规范的遗传密码子[14]。
比较基因组学研究为遗传密码子的进化带来了曙光[15,16],不同生物间的轻微的密码子差别是异源蛋白表达的重要阻碍。
的确,有些生物,尤其是纤毛虫在阐明端粒生物学方面发挥了重要的作用,它拥有tRNAs 能够将规范的终止密码子TAA 和TAG 识别为Glu ,使得这些图1. 以图形表示“密码子使用间距”。
主成分分析(PCA )所采用的算法能够将几个相关变量(在此指密码子使用频率)转换成少数的被称为主成分的不相关变量。
第一个主成分尽可能多的代表数据中的变异,每个随后的变量尽可能多的代表剩余的变异。
八种生物(http://www.kazusa.or.jp/codon/)所有蛋白对每种密码子的使用频率被列成表格(8行/生物×62列/密码子),再通过PCA 生成一个“密码子使用间隔”图。
Met和Trp 分别由密码子ATG 和TGG 编码,在此这两个密码子被忽略。
总密码子变异信息的70%由PC1代表,12%由PC2代表。
黑色方块表示负荷量(例如,每个密码子对两个主成分的贡献;举例来说GAT 和CAG 对PC2没有什么贡献,但对PC1具有几乎相等的负性和正性贡献)。
The values of the codon loads have been normalized to that of theorganism distribution. 红色正方形表示该间距中每种生物的偏爱。
该图形是采用Mathworks 的MatLab (/)绘制的。
基因不可能进行异源表达。
通过修饰宿主提高表达如果密码子偏性对异源基因表达的负面影响来自于不同的tRNA水平,其解决方法之一就是拓宽宿主细胞内的tRNA库。
这可以借助过表达编码稀有tRNAs的基因来实现。
对于E. coli,argU基因就是促进表达人基因的首要目标,该基因编码稀有的tRNA4Arg(阅读AGG和AGA密码子),tRNA2Ile(阅读AUA),tRNA3Leu(阅读CUA和CUG),tRNA2Pro (阅读CCC和CCU)[8]。
过表达这些tRNA基因的E. coli菌株可以从公司购买,如Stratagene (/)和Novagen (/html/NVG/home.htm /)。
已有几个实验室的研究表明,当宿主细胞内相应tRNA的含量增加后,那些含稀有密码子基因的表达水平获得了显著提高[8]。
起初,tRNA过表达好象是一个非常有吸引力的手段,不过还是有几点警告是必需要注意的。
表达来自不同生物的基因需要过表达不同的tRNAs,因此对于那些与E. coli比起来不易操作的宿主细胞,该策略的吸引力大为减少。
此外,改变细胞内tRNA浓度还可能对新陈代谢产生影响。
然而,或许最为重要的问题还是增加tRNA浓度会对氨酰化和tRNA 修饰产生怎样的影响,以及过表达蛋白的组成是否会稳定。
tRNA分子在氨酰化和参加翻译过程之前要经过很多加工。
已经发现E. coli的tRNAs 需要进行30多处核苷酸修饰;一些发生在所有tRNAs的相同位点,一些仅发生在一个或少数几个tRNAs[17]。
很多tRNA修饰散布在整个tRNA分子,尤其是那些位于反密码子环的修饰,已经表明能够促进读码稳定性[18]。
这些修饰的目的之一被认为是减少翻译的移码:实验表明,缺少某些tRNA修饰可导致翻译过程中出现错义和无义错误[17],例如,tRNA 上第37位鸟嘌呤核苷(m1G)的N-1位缺乏甲基化可导致翻译移码[19]。
因此,一个关于tRNA过表达策略的问题就是,产生完全功能的tRNA需要其他的细胞组分,而在单独过表达tRNA时这些组分的供应可能有限。
当tRNA1Leu在E. coli中过表达时,tRNA至少在两方面严重缺乏修饰:37位的m1G和32位的假尿嘧啶核苷(ψ)。
只有40%的tRNA Leu1分子被氨酰化,菌株生长缓慢,核糖体步移时间减少2-3倍[20]。
情况相似, tRNA Tyr的过表达导致37位的2-甲硫基-N-6-异戊烯腺苷(ms2i6A)修饰下降,在体外tRNA的效率下降[21]。
伴随tRNA Phe过表达产生的ms2i6A导致翻译的忠实性下降[22]。
作为未氨酰化tRNA的函数,翻译错义置换率的增加大于一个数量级。