密码子偏好性分析
- 格式:pdf
- 大小:466.18 KB
- 文档页数:10
研究密码子偏好性常用的参数1、相对同义密码子使用度(Relativ e Synonymous Codon Usage, RSCU )是指对于某一特定的密码子在编码对应氨基酸的同义密码子间的相对概率,它去除了氨基酸组成对密码子使用的影响。
如果密码子的使用没有偏好性,该密码子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相对较多的密码子,反之亦然。
第i个氨基酸的第j个密码子的相对同义密码子使用度值的计算公式如下:公式中, X ij是编码第i个氨基酸的第j个密码子的出现次数, n i是编码第i个氨基酸的同义密码子的数量( 值为1~6) 。
研究中通常先利用高表达基因的RSCU值建立参考表格。
2、密码子适应指数(Codon Adaptation Index, CAI)可以根据已知高表达基因的序列来估计未知基因密码子使用的偏好性程度。
CAI的值在0~1之间, 如果越高则表明该基因的密码子使用偏好性越强。
CAI 值一般用来预测种内基因的表达水平( 但目前的研究发现对于单细胞生物比较适用, 而在哺乳动物中并不能用来表示基因表达水平), 又可以用来预测外源基因的表达水平。
w ij(The relative adaptiveness of a codon): 密码子相对适应度上式中RSCU imax、X imax分别指编码第i个氨基酸的使用频率最高的密码子的RSCU值和X值L是指基因中所使用的密码子数。
3、密码子偏好参数(Codon Preference Parameter, CPP)CPP的变化范围为0 ~ 18, 越接近18表示密码子被非随机使用的程度越高。
它对于基因编码区域总的碱基组成不敏感, 适于比较基因间或物种间密码子使用偏性的大小。
x ij是编码第i个氨基酸的第j个密码子的出现次数, n i是编码第i个氨基酸的同义密码子的数量( 值为2~6, n i= 1 的情况被排除)4、有效密码子数(Effective Number of Codon, ENC)ENC值的范围在20~ 61之间, 越靠近20偏性越强。
兰科植物FNR基因的密码子偏好性分析作者:李蓉谢析颖王雪晶苏立遥林玉玲郭容芳陈裕坤赖钟雄徐涵来源:《热带作物学报》2018年第06期摘要为揭示兰科植物FNR基因的特性和密码子偏好性,采用DNAMAN、CodonW和SPSS软件及 EMBOSS、SWISS-MODEL在线网站对17种兰科植物的FNR基因序列、氨基酸序列、同源区域及蛋白质三维结构进行分析。
结果表明:兰科植物FNR基因普遍具有在A/T (U)与G/C之间较弱的密码子偏好性;密码子的末位在A和T(U)之间存在显著的T (U)偏好性,在C和G之间存在显著的C偏好性;NADP结合域比非结合域有较小的密码子偏好性;基于CDS和氨基酸聚类结果比基于RSCU聚类更接近于植物的进化分类;自然选择的作用是导致兰科植物FNR基因的密码子使用偏好性的主要成因。
关键词兰科;FNR基因;密码子偏好性中图分类号 S682.31 文献标识码 ACodon Usage Bias of Ferredoxin-NADP+ Oxidoreductase (FNR)in OrchidaceaeLI Rong1, XIE Xiying1, WANG Xuejing1, SU Liyao1, LIN Yuling1, GUO Rongfang1,CHEN Yukun1, LAI Zhongxiong1*, XUHAN Xu1,2*1 Institute of Horticulture of Biotechnology, Fujian Agriculture and Forestry University,Fuzhou, Fujian 350002, China2 Institut de la Recherche Interdisciplinaire de Toulouse, Toulouse 313008, FranceAbstract For a good understanding of the codon usage bias of ferredoxin-NADP+ oxidoreductase (FNR) in Orchidaceae, the gene sequence, amino acid sequence, homologous region and three-dimensional protein structure of 17 FNR genes in Orchidaceae were analyzed by DNAMAN,CodonW, SPSS softwares, and EMBOSS, SWISS-MODEL online programs. The results showed that there was a low-level codon usage bias in FNR genes between A/T(U) and G/C;there existed a significant T(U) bias between A and T(U) and a significant C bias between C and G in the codons; NADP binding domain showed less codon bias than that of the non-binding domain; the cluster tree based on coding sequence (CDS) as well as amino acid sequences matched better with the plant evolution classification; the codon usage bias of FNR was mainly influenced by the natural selection in Orchidaceae.Key words orchidaceae; FNR gene; codon usage biasdoi 10.3969/j.issn.1000-2561.2018.06.015基因表达是细胞在生命活动过程中将储存在DNA双链中的遗传信息转录、翻译为具有生物活性的蛋白质的过程。
研究密码子偏好性常用的参数1、相对同义密码子使用度(Relativ e Synonymous Codon Usage, RSCU )是指对于某一特定的密码子在编码对应氨基酸的同义密码子间的相对概率,它去除了氨基酸组成对密码子使用的影响。
如果密码子的使用没有偏好性,该密码子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相对较多的密码子,反之亦然。
第i个氨基酸的第j个密码子的相对同义密码子使用度值的计算公式如下:公式中, X ij是编码第i个氨基酸的第j个密码子的出现次数, n i是编码第i个氨基酸的同义密码子的数量( 值为1~6) 。
研究中通常先利用高表达基因的RSCU值建立参考表格。
2、密码子适应指数(Codon Adaptation Index, CAI)可以根据已知高表达基因的序列来估计未知基因密码子使用的偏好性程度。
CAI的值在0~1之间, 如果越高则表明该基因的密码子使用偏好性越强。
CAI 值一般用来预测种内基因的表达水平( 但目前的研究发现对于单细胞生物比较适用, 而在哺乳动物中并不能用来表示基因表达水平), 又可以用来预测外源基因的表达水平。
w ij(The relative adaptiveness of a codon): 密码子相对适应度上式中RSCU imax、X imax分别指编码第i个氨基酸的使用频率最高的密码子的RSCU值和X值L是指基因中所使用的密码子数。
3、密码子偏好参数(Codon Preference Parameter, CPP)CPP的变化范围为0 ~ 18, 越接近18表示密码子被非随机使用的程度越高。
它对于基因编码区域总的碱基组成不敏感, 适于比较基因间或物种间密码子使用偏性的大小。
x ij是编码第i个氨基酸的第j个密码子的出现次数, n i是编码第i个氨基酸的同义密码子的数量( 值为2~6, n i= 1 的情况被排除)4、有效密码子数(Effective Number of Codon, ENC)ENC值的范围在20~ 61之间, 越靠近20偏性越强。
密码子数据库及密码子偏好性分析软件题记:转基因研究中经常要进行基因的异源表达,在翻译过程中,受体物种对外源基因密码子的翻译效率对表达有非常大的制约。
因此,利用相应的生物信息学数据库及软件对目标序列进行受体物种的密码子偏好性分析将有助于完成对转基因效率的评价,适当选择合适的受体物种进行高效、可行的表达。
人物,阅读前,让我们感谢下列科学家,是他们为基因异源高效表达提供有价值参考。
Yasukazu Nakamura博士:The First Laboratory for Plant Gene Research,Kazusa DNA Research Institute 开发Codon Usage Database(生物密码子表的利用情况统计)。
PrimerX:编写了Codon Usage Analyzer在线密码子统计表处理软件(/cgi-bin/codon.cgi),它使得对密码子的统计用图表的形式显示出来,更加的直观可读。
Morris Maduro博士:针对E. coli开发了E. coli Codon Usage Analyze 。
目前的版本为2.1。
Thomas Schödl:开发设计的以图形形式对异源基因表达的密码子使用分析软件(Graphical codon usage analyser),用以帮助异源基因表达时对异源基因进行改造,以适应受体物种,避免由于翻译时密码子使用情况的限制使受体物种对外源基因表达产生负面影响。
内容:一:密码子使用统计数据库Codon Usage Database(.jp/codon/ 是由植物基因研究第一实验室(The First Laboratory for Plant Gene Research)Kazusa DNA Research Institute的Yasukazu Nakamura博士开发的生物密码子表的利用情况统计。
数据来源于GenBank 的DNA 序列数据库,是GenBank 的Codon Usage Tabulated 数据库在WWW模式下的扩展和整合。
菠萝叶绿体基因组密码子偏好性分析作者:杨祥燕蔡元保谭秦亮覃旭黄显雅吴密来源:《热带作物学报》2022年第03期摘要:葉绿体基因组密码子偏好性影响基因的表达效率,对于叶绿体基因工程应用及物种遗传改良具有重要的科学意义。
为了明确菠萝叶绿体基因组密码子偏好性的使用特征及主要影响因素,本研究以菠萝叶绿体基因组为研究对象,利用生物信息学软件分析其密码子的使用模式和偏好性。
密码子偏好性相关参数分析显示:(1)菠萝叶绿体基因密码子的GC含量平均值为38.31%,密码子第1~3位的GC含量平均值分别为46.78%、39.61%、28.53%,密码子前两位的GC平均含量明显高于第3位;(2)有效密码子数(ENC)的取值范围为38.48~61.00,平均值为47.21,其密码子偏性较弱。
相关性分析显示:(1)GC1与GC2显著相关,GC all与GC1、GC2、GC3都极显著正相关,GC3与GC1、GC2都不显著相关;(2)ENC与GC1不显著相关,但与GC2和GC3分别显著和极显著相关;(3)密码子数(N)只与GC3显著相关,说明密码子3个位置中第3位碱基组成主要影响着密码子数。
RSCU分析显示,29个RSCU>1的密码子中以A结尾有12个、以U结尾有16个、以G结尾有1个。
中性绘图分析显示,GC12与GC3的相关系数和回归系数分别为0.065和0.085,二者不显著相关。
ENC-plot 绘图分析显示,大多数基因分布于标准曲线附近,多数ENC比值分布在–0.05~0.05区间。
PR2-plot绘图分析显示,所有基因不均匀分布在平面图的4个区域内,密码子第3位嘧啶T/C 的使用频率高于嘌呤A/G。
这3种绘图分析综合表明,自然选择和突变作为主要因素,相对均衡地影响菠萝叶绿体基因组的密码子偏好性。
最优密码子和RSCU分析显示,29个RSCU>1的密码子及筛选的18个最优密码子绝大多数偏好以A或U结尾。
这些研究结果可为外源基因的密码子优化及提高其表达效率提供科学依据。
密码⼦的简并性及偏好性在氨基酸密码⼦及逆密码⼦表⼀贴中,我们以及提到密码⼦表中总计有64种,但实际最终对应翻译的⽬的氨基酸种类只有20种,这就意味着,存在某些多个密码⼦编码同⼀种氨基酸的现象,也称做密码⼦的简并性。
正是由于该特性,每个氨基酸⾄少对应1种密码⼦,最多可以有⼀种氨基酸对应6种密码⼦。
但这些编码相同氨基酸的不同密码⼦,在不同物种、不同⽣物体中使⽤的频率并⾮完全地平均分布,也即绝⼤多数⽣物倾向于只利⽤这些密码⼦中的⼀部分,该现象也称密码⼦的偏好性。
其中那些被最频繁利⽤的密码⼦称为最佳密码⼦(optimal codons),⽽那些不被经常利⽤的密码⼦称为稀有或利⽤率低的密码⼦(rare or low-usage codons)。
不论是真核⽣物还是原核⽣物,每种⽣物都会表现出某种程度的密码⼦利⽤的差异或偏爱。
这些偏好性的产⽣可能与两个原因有关:⼀是避免使⽤类似终⽌密码⼦的密码⼦;⼆是这些偏好能够有效地翻译密码⼦,因为这些密码⼦对应于⽣物体中⾮常丰富的tRNA 。
⽆论导致这种偏好的原因到底是什么,不同⽣物的密码⼦使⽤偏性的差异可以⾮常⼤。
因此,我们在做蛋⽩表达或⽣产时,就需要考虑到密码⼦偏好性的问题。
利⽤偏爱密码⼦(preferred codons),并避免利⽤率低的或稀有的密码⼦,从⽽实现对⽬的表达基因的重新设计也称为密码⼦最佳化。
下表总结了源⾃http://www.kazusa.or.jp/codon/的最常使⽤的表达系统,包括⼈类、⼩⿏、家蚕、酵母在内的真核表达宿主以及原核表达宿主⼤肠杆菌中的密码⼦应⽤的偏好性。
此外,在附件中,我们挑选了⼀篇针对毕⾚酵母(Pichia pastoris )进⾏密码⼦优化的科研论⽂。
密码⼦偏好性表第⼆位碱基U C A G 第⼀位碱基UUU (17.6)UCU (15.2)UAU (12.2)UGU (10.6)UUC (20.3)UCC (17.7)UAC (15.3)UGC (12.6)UUA (7.7)UCA (12.2)UAA (1.0)UGA (1.6)⼈类UUG (12.9)UCG (4.4)UAG (0.8)UGG (13.2)第⼀位碱基CUU (13.2)CCU (17.5)CAU (10.9)CGU (4.5)CUC (19.6)CCC (19.8)CAC (15.1)CGC (10.4)CUA (7.2)CCA (16.9)CAA (12.3)CGA (6.2)CUG (39.6)CCG (6.9)CAG (34.2)CGG (11.4)第⼀位碱基AUU (16.0)ACU (13.1)AAU (17.0)AGU (12.1)AUC (20.8)ACC (18.9)AAC (19.1)AGC (19.5)AUA (7.5)ACA (15.1)AAA (24.4)AGA (12.2)AUG (22.0)ACG (6.1)AAG (31.9)AGG (12.0)第⼀位碱基GUU (11.0)GCU (18.4)GAU (21.8)GGU (10.8)GUC (14.5)GCC (27.7)GAC (25.1)GGC (22.2)GUA (7.1)GCA (15.8)GAA (29.0)GGA (16.5)GUG (28.1)GCG (7.4)GAG (39.6)GGG (16.5)⼩⿏第⼀位碱基UUU (17.2)UCU (16.2)UAU (12.2)UGU (11.4)UUC (21.8)UCC (18.1)UAC (16.1)UGC (12.3)UUA (6.7)UCA (11.8)UAA (1.0)UGA (1.6)UUG (13.4)UCG (4.2)UAG (0.8)UGG (12.5)第⼀位碱基CUU (13.4)CCU (18.4)CAU (10.6)CGU (4.7)CUC (20.2)CCC (18.2)CAC (15.3)CGC (9.4)CUA (8.1)CCA (17.3)CAA (12.0)CGA (6.6)CUG (39.5)CCG (6.2)CAG (34.1)CGG (10.2)第⼀位碱基AUU (15.4)ACU (13.7)AAU (15.6)AGU (12.7)AUC (22.5)ACC (19.0)AAC (20.3)AGC (19.7)AUA (7.4)ACA (16.0)AAA (21.9)AGA (12.1)AUG (22.8)ACG (5.6)AAG (33.6)AGG (12.2)第⼀位碱基GUU (10.7)GCU (20.0)GAU (21.0)GGU (11.4)GUC (15.4)GCC (26.0)GAC (26.0)GGC (21.2)GUA (7.4)GCA (15.8)GAA (27.0)GGA (16.8)GUG (28.4)GCG (6.4)GAG (39.4)GGG (15.2)家蚕第⼀位碱基UUU (15.3)UCU (12.7)UAU (13.9)UGU (8.7)UUC (24.0)UCC (12.0)UAC (22.0)UGC (11.3)UUA (13.1)UCA (13.0)UAA (1.4)UGA (0.6)UUG (15.8)UCG (11.0)UAG (0.6)UGG (11.7)第⼀位碱基CUU (11.5)CCU (14.0)CAU (10.3)CGU (9.8)CUC (14.6)CCC (11.7)CAC (13.8)CGC (10.5)CUA (8.8)CCA (13.6)CAA (18.7)CGA (7.0)CUG (18.4)CCG (13.0)CAG (17.4)CGG (5.4)第⼀位碱基AUU (18.6)ACU (15.6)AAU (20.5)AGU (10.3)AUC (20.7)ACC (14.2)AAC (24.9)AGC (12.5)AUA (15.9)ACA (15.9)AAA (34.0)AGA (14.1)AUG (23.4)ACG (11.9)AAG (28.4)AGG (8.9)第⼀位碱基GUU (16.8)GCU (25.3)GAU (25.6)GGU (21.7)GUC (16.7)GCC (19.7)GAC (28.8)GGC (18.8)GUA (12.4)GCA (14.6)GAA (36.0)GGA (21.4)GUG (19.4)GCG (13.5)GAG (26.2)GGG (7.7)第⼀位碱基UUU (26.1)UCU (23.5)UAU (18.8)UGU (8.1)UUC (18.4)UCC (14.2)UAC (14.8)UGC (4.8)酵母UUA (26.2)UCA (18.7)UAA (1.1)UGA (0.7)UUG (27.2)UCG (8.6)UAG (0.5)UGG (10.4)第⼀位碱基CUU (12.3)CCU (13.5)CAU (13.6)CGU (6.4)CUC (5.4)CCC (6.8)CAC (7.8)CGC (2.6)CUA (13.4)CCA (18.3)CAA (27.3)CGA (3.0)CUG (10.5)CCG (5.3)CAG (12.1)CGG (1.7)第⼀位碱基AUU (30.1)ACU (20.3)AAU (35.7)AGU (14.2)AUC (17.2)ACC (12.7)AAC (24.8)AGC (9.8)AUA (17.8)ACA (17.8)AAA (41.9)AGA (21.3)AUG (20.9)ACG (8.0)AAG (30.8)AGG (9.2)第⼀位碱基GUU (22.1)GCU (21.2)GAU (37.6)GGU (23.9)GUC (11.8)GCC (12.6)GAC (20.2)GGC (9.8)GUA (11.8)GCA (16.2)GAA (45.6)GGA (10.9)GUG (10.8)GCG (6.2)GAG (19.2)GGG (6.0)⼤肠杆菌第⼀位碱基UUU (24.4)UCU (13.1)UAU (21.6)UGU (5.9)UUC (13.9)UCC (9.7)UAC (11.7)UGC (5.5)UUA (17.4)UCA (13.1)UAA (2.0)UGA (1.1)UUG (12.9)UCG (8.2)UAG (0.3)UGG (13.4)第⼀位碱基CUU (14.5)CCU (9.5)CAU (12.4)CGU (15.9)CUC (9.5)CCC (6.2)CAC (7.3)CGC (14.0)CUA (5.6)CCA (9.1)CAA (14.4)CGA (4.8)CUG (37.4)CCG (14.5)CAG (26.7)CGG (7.9)第⼀位碱基AUU (29.6)ACU (13.1)AAU (29.3)AGU (13.2)AUC (19.4)ACC (18.9)AAC (20.3)AGC (14.3)AUA (13.3)ACA (15.1)AAA (37.2)AGA (7.1)AUG (23.7)ACG (13.6)AAG (15.3)AGG (4.0)第⼀位碱基GUU (21.6)GCU (18.9)GAU (33.7)GGU (23.7)GUC (13.1)GCC (21.6)GAC (17.9)GGC (20.6)GUA (13.1)GCA (23.0)GAA (35.1)GGA (13.6)GUG (19.9)GCG (21.1)GAG (19.4)GGG (12.3)。
密码子偏好表DNA密码子是指DNA分子上一组三个碱基(核苷酸)的排列顺序,它们对应着氨基酸的编码。
在遗传密码表中,常用的密码子有某种氨基酸的编码,而有些密码子编码了相同的氨基酸。
这种一对多的编码关系就是密码子偏好。
密码子偏好表是一种记录了各种氨基酸编码的密码子使用频率的工具。
通过分析密码子的使用频率,我们可以了解到细胞对不同氨基酸的需求程度,进而提供改良基因表达的依据。
本文将对密码子偏好表的研究内容进行讨论。
一、密码子偏好的分析方法密码子偏好的分析通常基于大规模的基因组数据。
研究者可以从不同生物体的基因组数据库中获取相关数据,并利用生物信息学工具进行分析。
下面介绍几种常用的密码子偏好分析方法:1. 基于相对密码子使用频率的分析方法这种方法主要是比较不同密码子在基因组中的相对使用频率。
通过计算某个密码子相对于其他密码子在同一个位置上的使用频率,可以得出具体的密码子偏好情况。
这种方法需要大规模的基因组数据支持,具备较高的可靠性和准确性。
2. 基于机器学习的方法机器学习方法可以利用已知的密码子和氨基酸关系,构建模型来预测未知密码子的氨基酸编码。
这种方法可以通过训练集和测试集的分割,提高密码子偏好预测的准确性。
然而,由于模型的构建和调整需要大量的计算和优化,这种方法的复杂度较高。
3. 基于统计学的方法统计学方法通过对密码子出现的频率进行统计学分析,来确定密码子偏好情况。
这种方法常常用于不同物种间的密码子偏好比较。
通过统计学的方法,可以发现特定物种在某些密码子的使用上存在明显差异,这些差异可能与物种的进化和适应环境有关。
二、密码子偏好的影响因素密码子偏好的形成和影响因素非常复杂,下面列举了一些常见的影响因素:1. 突变率和选择压力密码子偏好可能受到突变率和选择压力的共同影响。
突变率指的是密码子在基因组中发生变异的速率,而选择压力指的是外界环境对密码子选择的影响。
突变率越高,密码子偏好可能越小,因为基因组中出现新的密码子编码的几率会增加。