密码子偏好性分析 2
- 格式:ppt
- 大小:1.05 MB
- 文档页数:28
第32卷 第2期V o l .32 No .2草 地 学 报A C T A A G R E S T I A S I N I C A2024年 2月F e b . 2024d o i :10.11733/j.i s s n .1007-0435.2024.02.007引用格式:杜明川,王伟,鲍海娟,等.葫芦巴叶绿体基因组密码子偏好性分析[J ].草地学报,2024,32(2):409-418D U M i n g -c h u a n ,WA N G W e i ,B A O H a i -j u a n ,e t a l .A n a l y s i so fC o d o nB i a s i nC h l o r o p l a s tG e n o m eo f T r i go n e l l a F o e n u m -gr a e c u m [J ].A c t aA g r e s t i aS i n i c a ,2024,32(2):409-418葫芦巴叶绿体基因组密码子偏好性分析杜明川1,王 伟2,鲍海娟1,格 措1,张 蕊1,王久利1,刘 晶*(1.青海民族大学生态环境与资源学院,青海省特色经济植物高值化利用重点实验室,青海民族大学药用植物资源学凯瑞研究生工作站,青海西宁810000;2.青海大学,青海西宁810000)摘要:为探究葫芦巴(T r i g o n e l l a f o e n u m -g r a e c u m L .)叶绿体基因组密码子的使用偏好性,利用C o d o n W 1.4.2和在线软件C U S P 对筛选到的50条蛋白质编码序列密码子进行分析㊂结果表明:葫芦巴叶绿体基因组密码子末位碱基以A /U 为主,G C 含量仅为26.25%㊂E N C 取值范围为35.05~53.66,且E N C 值>45的有20个,说明葫芦巴大部分基因编码序列的密码子偏性较强㊂R S C Uȡ1的密码子有30个,其中16个以U 结尾㊁13个以A 结尾㊂中性绘图分析㊁E N C -p l o t 分析及P R 2-p l o t 偏倚分析结果发现,葫芦巴叶绿体基因组密码子使用偏好性受到突变压力等多种因素的影响,主要因素为自然选择㊂最终筛选出G C U ,A G A ,C G U 等21个密码子为最优密码子㊂关键词:葫芦巴;叶绿体基因组;密码子偏好性;选择;最优密码子中图分类号S 681.9 文献标识码:A 文章编号:1007-0435(2024)02-0409-10A n a l y s i s o fC o d o nB i a s i nC h l o r o pl a s tG e n o m e o f T r i g o n e l l aF o e n u m -g r a e c u m D U M i n g -c h u a n 1,WA N G W e i 2,B A O H a i -j u a n 1,G EC u o 1,Z H A N G R u i 1,WA N GJ i u -l i 1,L I UJ i n g1*(1.C o l l e g e o fE c o l o g i c a l E n v i r o n m e n t a n dR e s o u r c e s ,Q i n g h a iM i n z uU n i v e r s i t y ,Q i n g h a i P r o v i n c i a lK e y L a b o r a t o r y o fH i gh v a l u e U t i l i z a t i o no fC h a r a c t e r i s t i cE c o n o m i cP l a n t s ,K a i r u iG r a d u a t eW o r k s t a t i o no fM e d i c i n a l P l a n tR e s o u r c e s o fQ i n g h a iM i n z u U n i v e r s i t y ,X i n i n g ,Q i n g h a i P r o v i n c e 810000,C h i n a ;2Q i n g h a iU n i v e r s i t y ,X i n i n g ,Q i n gh a i P r o v i n c e 810000,C h i n a )A b s t r a c t :I no r d e r t oe x p l o r e t h e c o d o nu s a g eb i a so f c h l o r o p l a s t g e n o m e i n T r i g o n e l l a f o e n u m -gr a e c u m ,C o d o n W1.4.2a n d o n l i n e s o f t w a r eC U S Pw e r e u s e d t o a n a l y z e t h e c o d o n s o f 50p r o t e i n c o d i n g s e q u e n c e s .T h e r e s u l t s s h o w e d t h a t t h eb a s e a t t h e e n do f t h e c h l o r o p l a s t g e n o m e c o d o no f T r i g o n e l l a f o e n u m -gr a e -c u m w a sm a i n l y A /U ,a n d t h eG Cc o n t e n tw a s o n l y 26.25%.T h eE N Cv a l u e r a n ge df r o m35.05t o 53.66,a n d t h e r ew e r e 20E N Cv a l u e s >45,i n d i c a t i ng th a t t h e c o d o nbi a s o fm o s t g e n e c o d i n g s e q u e n c e s o f T r i g o -n e l l a f o e n u m -gr a e c u m w a s s t r o n g .T h e r ew e r e 30c o d o n sw i t hR S C Uȡ1,o fw h i c h16e n dw i t hUa n d13e n dw i t hA.T h e r e s u l t s o f n e u t r a lm a p p i n g a n a l y s i s ,E N C -p l o t a n a l y s i s a n dP R 2-p l o t b i a s a n a l ys i s s h o w e d t h a t t h e c o d o nu s a g eb i a s o f t h e c h l o r o p l a s t g e n o m e o f T r i g o n e l l a f o e n u m -gr a e c u m w a s a f f e c t e db y m a n y f a c t o r s s u c ha sm u t a t i o n p r e s s u r e ,a n dt h em a i nf a c t o rw a sn a t u r a l s e l e c t i o n .F i n a l l y,21c o d o n ss u c ha s G C U ,A G A ,C G U w e r e s e l e c t e d a s t h e o pt i m a l c o d o n s .K e y w o r d s :F e n u g r e e k ;C h l o r o p l a s t g e n o m e ;C o d o nb i a s ;S e l e c t i o n ;O p t i m a l c o d o n s 收稿日期:2023-08-14;修回时间:2023-12-08基金项目:国家重点研发计划课题(2022Y F D 1602304)资助作者简介:杜明川(1996-),女,穿青人,贵州六盘水人,硕士研究生,主要从事药用植物种质资源开发与利用研究,E -m a i l :1321575830@q q .c o m ;*通信作者A u t h o r f o r c o r r e s p o n d e n c e ,E -m a i l :654138133@q q.c o m 葫芦巴(T r i g o n e l l a f o e n u m -gr a e c u m L .)为豆科葫芦巴属一年生草本植物,又名芸香草㊁香草㊁香苜蓿㊁芦巴子等,被称为希腊干草,是豆科最古老的药用植物之一㊂葫芦巴原产于西亚㊁南欧和地中海地区,汉朝时作为香料传入中国,目前在我国大部分地区均有不同程度的分布[1]㊂葫芦巴全株可入药,含氨基酸㊁黄酮类㊁生物碱类㊁甾体皂苷类等化学成分,具有抗菌㊁抗炎㊁抗氧化㊁降血糖㊁降血脂等功效[2]㊂此外,葫芦巴具有较高的饲用价值㊂前人研究发现,饲粮中添加0.10%葫芦巴提取物对断奶仔猪有诱食效果,能改善机体抗氧化功能㊁降低血糖水平和保护肾脏[3]㊂B e gu m 等[4]研究表明,饲料中添草地学报第32卷加葫芦巴籽提取物提高了断奶仔猪的生产性能,降低了粪便中的有毒气体排放㊂饲喂葫芦巴日粮改善了牛奶中功能性脂肪酸的分布,降低了胆固醇浓度,增加了功能性脂肪酸[5]㊂在热应激山羊的饲料中添加葫芦巴籽,可以提高山羊的产奶量,改善其抗氧化能力及血液学和生理指标[6]㊂黄羽肉鸡饲料中添加葫芦巴提取物,能够改善鸡肉风味,提升肉品质,增强抗应激能力[7]㊂叶绿体是植物重要的细胞器,为植物生命活动提供能量,同时拥有相对独立的遗传体系,可进行半保留复制[8-9]㊂上世纪60年代初,首先在烟草(N i c-o t i a n a t a b a c u m)和地钱(M a r c h a n t i a p o l y-m o r p h a)中获得叶绿体全基因组序列,目前已有超过1000种物种的叶绿体基因组全序列被公布[10-11]㊂相对于核基因组,叶绿体基因组具有大小适中㊁结构相对保守㊁简单重复序列(S i m p l e s e q u e n c e r e p e a t,S S R)位点丰富㊁碱基变异速率适中㊁易于提取纯化等优势,被广泛应用于植物起源㊁物种鉴定㊁系统发育进化等研究[12-14]㊂K i m等[15]研究发现,r p oB-r p oA(2)和y c f2-t r nL-C A A序列可作为越桔属(V a c c i n i u m)的D N A条形码㊂Z h a o等[16]利用叶绿体基因组对蝙蝠草(C h r i s t i a v e s p e r t i l i o n i s)进行比较和系统发育分析㊂H u a n g等[17]研究了须弥葛(H a y m o n d i a w a l l i c h i i)叶绿体全基因组及其在豆科中的系统发育关系,表明了须弥葛与粉葛(P u e r a r i a t h o m s o n i i)和野葛(P u e r a r i a l o b a t a(W i l l d.)O h w i)的亲缘关系较近㊂密码子是生命信息的基本遗传单位,在遗传信息表达的过程中,起到了纽带的作用[18]㊂自然界共存在64种密码子,除三种终止密码子外,即U A G, U A A和U G A,其余61种密码子编码20种氨基酸,除蛋氨酸(M e t)和色氨酸(T r p)外,其余氨基酸均对应2个及以上的同义密码子(S y n o n y m o u s c o d o n),即编码同一氨基酸的不同密码子[19]㊂在蛋白质的编码过程中,同义密码子的使用存在偏好性,称为密码子的使用偏好性[20]㊂同义密码子使用偏好性受到多种因素的影响,如自然选择㊁选择-突变-遗传漂变模型㊁基因的碱基组成㊁t R N A的丰度等因素[21-22]㊂研究某物种的密码子使用偏好性,设计外源基因表达载体时根据最优密码子进行优化,可以提高外源基因在叶绿体基因组中的表达量[23]㊂周宗梁等[24]根据水稻密码子使用偏好性对c r y1A h1基因进行优化,提高了C r y1A h蛋白平均表达量㊂韩岚等[25]根据植物密码子使用偏好性设计并人工合成了纳豆激酶基因s NK i,并在不同成熟时期的番茄果实中实现了瞬时表达㊂目前,已在蒜头果(M a l a n i a o l e i f e r a)[26]㊁安龙油果樟(S y n d i c l i s a n l u n g e n s i s)[21]㊁降香黄檀(D a l-b e r g i a o d o r i f e r a)[22]㊁白羊草(B o t h r i o c h l o a i s c h a e-m u m)[27]㊁厚壳红瘤果茶(C a m e l l i a r u b i t u b e r c u l a-t a)[28]等植物中开展了叶绿体基因组密码子偏好性的研究㊂但是在葫芦巴中的研究尚未见报道㊂本研究采用中性绘图㊁E N C-p l o t绘图及P R2-p l o t绘图等方法,分析了叶绿体葫芦巴基因组蛋白质编码区(C o d i n g D N As e q u e n c e,C D S)序列的碱基组成,以确定葫芦巴密码子使用偏好的主要影响因素,并确定了葫芦巴叶绿体基因组的最优密码子,旨为葫芦巴遗传改良和育种等研究提供科学的参考依据㊂1材料与方法1.1试验材料在N C B I数据库中下载葫芦巴叶绿体基因组序列(G e n b a n k登录号为:MN736956.1;h t t p s:// w w w.n c b i.n l m.n i h.g o v/n u c c o r e/MN736956.1),共获得到76条C D S序列㊂剔除重复基因㊁长度小于300b p㊁非A T G作为起始密码子㊁C D S内部存在终止密码子及终止密码子异常的序列后,获得50条蛋白编码区序列作为研究对象用于后续分析㊂1.2试验方法1.2.1密码子组成分析将筛选得到的50条C D S序列作为研究对象,使用C o d o n W1.4.2对葫芦巴叶绿体基因组的50条编码序列进行分析,获得各C D S序列的同义密码子相对使用度(R e l a t i v e s y n o n y m o u s c o d o nu s a g e,R S C U)和有效密码子数(E f f e c t i v en u m b e r o f c o d o n s,E N C),利用在线软件C U S P(h t t p://e m b o s s.t o u l o u s e.i n r a.f r/c g i-b i n/ e m b o s s/c u s p)分析密码子三个位置的G C含量(G C1,G C2,G C3)及G C平均含量(G C a l l),并运用S P S S和E X C E L软件对结果进行分析㊂E N C常被用来评估同义密码子使用偏好性程度,其取值范围在20~61之间,E N C值45为分界点,值越小偏倚性越强,值越大偏倚性越弱[22]㊂R S C U为某个密码子实际使用频率与理论频率的比值;R S C U =1,表明该密码子没有使用偏好性;R S C U>1,表明该密码子的使用频率高于预期,反之则表明该密码子出现的频率低于其他同义密码子[29]㊂014第2期杜明川等:葫芦巴叶绿体基因组密码子偏好性分析1.2.2中性绘图分析中性绘图被用来分析密码子使用偏好性的影响因素[30]㊂纵坐标为G C12含量(G C1与G C2平均值),G C3含量为横坐标,图中每一个散点代表一个基因㊂若回归系数接近于1,且图中所有散点均沿对角线分布,说明密码子的碱基组成相似,表示密码子偏好性主要受突变压力的影响㊂反之则表示其偏好性受选择压力的影响较大㊂结合S P S S对密码子碱基组成进行相关性分析,进一步判断影响葫芦巴叶绿体基因组密码子偏好性的主要因素,当G C12与G C3无相关性时,说明密码子前两位在碱基组成上与第三位存在较大差异,选择压力为偏好性的主要影响因素;反之,则说明突变压力对密码子使用偏性的影响较大[26]㊂1.2.3 E N C-p l o t绘图分析 E N C-p l o t图包括标准曲线及散点图㊂散点图分别以E N C和G C3为纵㊁横坐标;标准曲线的公式为E N C=2+G C3+ 29/[G C23+(1-G C3)2],其代表无选择压力存在时,基因的核酸序列决定密码子偏好性[17]㊂具体判断标准为图中散点与标准曲线的距离,两者距离较近则主要影响因素为碱基组成,反之主要影响因素为选择压力[31-32]㊂同时,需要结合E N C比值频数分布情况准确区分选择压力和中性突变对密码子偏好性的影响程度,以-0.05~0.05区间为界限[33]㊂1.2.4 P R2-p l o t绘图分析 P R2-p l o t绘图分析用于揭示核苷酸组成的影响因素,图的横㊁纵坐标分别为G3/(G3+C3)和A3/(A3+T3)㊂图的中心点表示A=T,C=G,代表密码子偏好性不受选择压力的影响,其余各点与中心点的矢量距离表示其偏倚方向和程度[34]㊂1.2.5最优密码子的确定将葫芦巴叶绿体基因组筛选后得到的基因序列的E N C值从高到低进行排序,并在最低值和最高值两端各选择10%基因,用于构建高低表达数据库,利用C o d o n W1.4.2计算R S C U值和ΔR S C U(高低表达数据库之间的差值),将满足ΔR S C Uȡ0.08,且R S C U>1的密码子确定为最优密码子[35]㊂2结果与分析2.1密码子的碱基组成对葫芦巴叶绿体基因组编码序列进行碱基组成分析(表1),G C1(密码子第一位碱基G C含量)㊁G C2(密码子第二位碱基G C含量)㊁G C3(密码子第三位碱基G C含量)的分布范围分别在28.57%~57.14%,28.52%~18.56%,28.57%~33.83%之间,G C含量在密码子的3个位置上的分布频率不同,且平均值为G C1(46.31%)>G C2(38.62%)>G C3(26.25%)㊂其中,G C a l l(密码子总G C含量)为37.06%,与G C2相差不大;G C3的平均值最小,选择压力最大,具有明显A/U偏向性㊂密码子数量主要分布在100~2000之间,r p s14数量最少,为101,y c f2数量最多,为2140㊂由表1可知,表示偏倚性强弱的E N C值的范围在33.02~53.66之间,平均值为44.12,有20个基因的E N C值大于45,表明葫芦巴叶绿体基因组密码子偏性较强㊂葫芦巴叶绿体基因组密码子各位置G C含量㊁密码子数(N)㊁E N C值相关性分析(表2)㊂结果表明G C a l l和G C1㊁G C2㊁G C3极显著相关,G C1和G C2呈极显著相关,但G C3与G C1㊁G C2显著性较差,说明葫芦巴密码子前两位的碱基组成相似,且与第3位存在较大差异㊂E N C与G C1相关性显著,与G C2无相关性,与G C3达极显著相关,表明E N C受密码子第1位和第3位碱基组成的影响㊂密码子数(N)与E N C相关系数为0.292,呈显著相关,说明密码子使用偏好性在一定程度上受基因编码序列长度影响㊂对葫芦巴叶绿体基因组整体的同义密码子相对使用度(R S C U)进行分析(图1),结果显示葫芦巴编码序列包含64种密码子㊂其中,编码I l e的密码子A U U数量最多,为919个,编码T e r的密码子U A G数量最少,仅有6个㊂葫芦巴叶绿体基因组密码子中有30个R S C Uȡ1,其中有29个以A/U结尾,占比97%,具有明显的A/U偏向性㊂2.2中性绘图分析中性图分析是用来解释自然选择和突变压力对密码子偏好性的影响程度㊂当回归系数接近1时,突变压力为主要影响因素,当回归系数接近0时,选择压力起到主要作用[36-37]㊂由图2可知,G C12与G C3回归系数为0.358,相关系数为0.1761,说明G C12和G C3之间的相关性很弱,表明葫芦巴叶绿体基因组密码子的前两位碱基与第3位在进化方式㊁碱基组成等方面存在差异,基因组中的G C含量高度保守,第3位的G C含量较低㊂葫芦巴叶绿体编码序列的基因,全部位于对角线上方,且大部分基因与对角线距离较远,仅有2个基因离对角线较近,涉及保守假设性叶绿体O R F和包膜膜蛋白两种功能㊂表明葫芦巴叶绿体基因组密码子偏好性以受自然选择的影响为主㊂114草 地 学 报第32卷表1 葫芦巴叶绿体基因组密码子的G C 组成特征T a b l e 1 G Cc o m p o s i t i o no f T r i g o n e l l a f o e n u m -gr a e c u m c h l o r o p l a s t g e n o m e c o d o n 基因功能G e n e f u n c t i o n基因G e n eC N G C 1/%G C 2/%G C 3/%G C a l l /%G C 12/%E N C 乙酰辅酶A 羧化酶A c e t y l -C o Ac a r b o x yl a s e a c c D53043.0232.0830.0035.0337.5543.83A T P 合成酶亚基S u b u n i t s o fA T Ps y n t h a s e a t pA 51154.6039.9224.2739.6047.2645.47a t pB 49655.8541.3326.0141.0648.5945.20a t p E 13448.5138.0626.8737.8143.2949.13a t p F 18544.3231.8930.8135.6838.1149.07a t pI 24847.5835.0825.4036.0241.3341.17细胞色素c 基因c -t y p e c y t o c h r o m e s yn t h e s i s g e n e c c s A32433.6435.8025.6231.6934.7243.21包膜膜蛋白E n v e l o pem e m b r a n e p r o t e i n c e m A 23034.7828.7029.1330.8731.7442.82蛋白酶P r o t e a s ec l p P 19657.1436.7329.0840.9946.9444.41成熟酶M a t u r a s e m a t K50736.8829.7824.2630.3133.3346.88N A D H 脱氢酶亚基S u b u n i t s o fN A D Hd e h y d r o ge n a s e n d h A 36440.3837.6420.8832.9739.0139.11n d h B 49341.3838.9528.4036.2440.1745.20n d h C 12143.8031.4024.7933.3337.6038.99n d h E 10241.1833.3327.4533.9937.2643.04n d h F 74536.3834.6320.4030.4735.5139.48n d h G 17742.3733.3323.7333.1537.8544.63n d h H 39451.5235.0322.3436.2943.2846.18n d h I 16741.9234.1318.5631.5438.0342.29n d h J 15949.6936.4825.7937.3243.0937.92n d h K 22542.6744.0024.8937.1943.3448.34细胞色素b /f 复合体亚基S u b u n i t s o f c y t o c h r o m eb /f c o m pl e x p e t A 32152.3435.8325.5537.9044.0947.17p e t B 21647.2241.6731.9440.2844.4543.15pe t D 16151.5538.5126.0938.7245.0342.02光合系统I 亚基S u b u n i t s of p h o t o s y s t e mI p s a A 75952.4442.8228.7241.3347.6346.56p s a B 73548.5742.8628.8440.0945.7246.64光合系统I I 亚基S u b u n i t s o f p h o t o s ys t e mI I p s b A 35449.7242.9432.4941.7146.3341.16p s b B 50955.6045.5826.9242.7050.5942.15ps b C 47453.1646.2028.6942.6949.6842.18p s b D 35452.2643.2232.2042.5647.7444.61R u B i s C O 酶大亚基L a r ge s u b u n i t of r u b i s c o r b c L47656.5143.2826.2642.0249.9043.92核糖体大亚基蛋白P r o t e i n s o f l a r ge r i b o s o m a l s u b u n i t r p l 1412347.1539.0219.5135.2343.0943.53r p l 1613652.2150.0026.4742.8951.1142.56r p l 227552.7347.6429.0943.1550.1953.66r p l 2012133.0637.1927.2732.5135.1342.62R N A 聚合酶亚基S u b u n i t s o fR N A p o l ym e r a s e r p o A 33443.4129.6422.4631.8436.5341.41r p o B 107149.3037.6326.4237.7843.4745.48r po C 168548.4737.5222.7736.2543.0043.81r p o C 2137743.2834.7924.6934.2539.0445.29核糖体小亚基蛋白P r o t e i n s o f s m a l l r i b o s o m a l s u b u n i tr p s 1113951.8053.2424.4643.1752.5244.11r p s 1212452.4248.3926.6142.4750.4145.44r p s 1410145.5447.5228.7140.5946.5342.59r p s 1812628.5734.9222.2228.5731.7535.02r p s 223743.4642.6224.4736.8543.0444.23r p s 321944.7534.2521.4633.4939.5043.24r p s 420250.9937.1321.7836.6344.0644.16r ps 715650.6446.1526.2841.0348.4046.25保守假设性叶绿体开放阅读框y c f 1176037.2228.5226.3130.6832.8746.02C o n s e r v e dh y p o t h e t i c a l c h l o r o pl a s tO R F y c f 2214040.9833.8333.8336.2137.4150.03y c f 316946.7538.4629.5938.2642.6145.05y c f420245.5441.5831.6839.6043.5645.51平均值A v e r a g e 407.2846.3138.6226.2537.0642.4644.12214第2期杜明川等:葫芦巴叶绿体基因组密码子偏好性分析表2 葫芦巴叶绿体基因组密码子中各参数的相关性分析T a b l e 2 C o r r e l a t i o na n a l y s i s o f p a r a m e t e r s i n T r i g o n e l l a f o e n u m -gr a e c u m c h l o r o p l a s t g e n o m e c o d o n 变量V a r i a t i o nG C 1G C 2G C 3G C a l l E N CG C 20.581**G C 30.1830.220G C a l l0.864**0.845**0.484**E N C0.279*0.1550.362**0.326*密码子数C o d o nn u m b e r (N )-0.119-0.2490.1830.292*0.292*注:**表示极显著相关(P <0.01);*表示显著相关(P <0.05)N o t e :**m e a n s a s i g n i f i c a n t c o r r e l a t i o n (P <0.01);*m e a n s a s i gn i f i c a n t c o r r e l a t i o n (P <0.05)图1 葫芦巴叶绿体基因组中各氨基酸的R S C U 分析F i g .1 R S C Ua n a l y s i s o f a m i n o a c i d s i n T r i g o n e l l a f o e n u m -gr a e c u m c h l o r o p l a s t g e n o me 图2 葫芦巴叶绿体基因组中性绘图分析F i g .2 N e u t r a l i t yp l o t a n a l y s i s o n c h l o r o p l a s t g e n o m e i n T r i g o n e l l a f o e n u m -gr a e c u m 2.3 E N C -pl o t 绘图分析E N C -p l o t 绘图分析(图3)表明G C 3值分布较为集中,仅有2个N A D H 脱氢酶亚基基因位于标准曲线上,涉及A T P 合成酶亚基㊁细胞色素c 基因㊁核糖体大亚基蛋白三种功能中的3个基因与标准曲线距离较近,大部分基因落在曲线下方较远的位置上㊂说明葫芦巴密码子偏好性的主要影响因素为选择压力㊂为进一步检验基因与标准曲线的距离,统计了314草 地 学 报第32卷葫芦巴叶绿体基因E N C 比值频数分布情况(表3),仅有9个基因分布在-0.05~0.05区间内;其余41个基因均分布在-0.05~0.05区间之外,占基因总数的82%,这部分基因距离标准曲线较远㊂进一步表明选择压力为葫芦巴密码子使用偏好性的主要影响因素,而突变压力的影响较弱㊂图3 葫芦巴叶绿体基因组E N C -pl o t 绘图分析F i g .3 E N C -p l o t a n a l y s i s o n c h l o r o p l a s t g e n o m e i n T r i g o n e l l a f o e n u m -gr a e c u m 表3 葫芦巴叶绿体基因E N C 比值频数分布T a b l e 3 E N Cr a t i oo f c h l o r o pl a s t g e n o m e i n T r i g o n e l l a f o e n u m -gr a e c u m 组段C l a s s r a n ge 组中值C l a s sm i dv a l u e 频数F r e q u e n c y n u m b e r 频率F r e q u e n c y-0.05~0.050.090.180.05~0.150.1270.540.15~0.250.2140.28合计T o t a l 501.002.4 P R 2-pl o t 绘图分析葫芦巴叶绿体基因组密码子偏倚分析如图4所示㊂P R 2平面图中4个区域的散点并非均匀分布,表明突变不是唯一影响因素㊂图中涉及R N A 聚合酶亚基和N A D H 脱氢酶亚基两种功能中的2个基因距离P R 2平面图的中心部位最近,表明其偏向程度较小,主要受到突变的影响㊂R u B i s C O 酶大亚基全部基因均落于P R 2平面图的右下方(即G 3>C 3,T 3>A 3)㊂而大部分基因,包括:乙酰辅酶A 羧化酶㊁光合系统I 亚基㊁细胞色素c 基因㊁包膜膜蛋白㊁成熟酶全部基因以及保守假设性叶绿体O R F ㊁核糖体小亚基蛋白㊁A T P 合成酶亚基㊁细胞色素b /f 复合体亚基㊁N A D H 脱氢酶亚基㊁光合系统I I 亚基㊁R N A 聚合酶亚基的部分基因均落于P R 2平面图的右下方,说明在碱基的使用频率方面G 3>C 3㊁T 3>A 3,且4个碱基的使用频率存在差异㊂综上,葫芦巴叶绿体基因组密码子偏好性除了受到选择压力的影响,同时还会受到突变压力的影响㊂2.5 最优密码子的确定运用C o d o n W1.4.2软件,构建葫芦巴叶绿体基因组的高低表达基因库,并计算两个基因库的R S C U 值,结果表明(表4),有G C U ,A G A 等21个密码子ΔR S C Uȡ0.08,且均为高表达优越密码子(表4中用*表示),其中8个以A 结尾,13个以U结尾㊂将R S C U 值ȡ1的密码子作为高频密码子,共32个㊂将同时满足R S C Uȡ1和ΔR S C Uȡ0.08的密码子作为最优密码子,最终确定了葫芦巴叶绿体基因组的21个最优密码子(G C U ,A G A ,C G U ,A A U ,G A U ,U G U ,C A A ,G A A ,G G U ,C A U ,A U A ,U U A ,A A A ,U U U ,C C U ,A G U ,U C U ,A C A ,A C U ,G U A ,G U U ),其中8个以A 结尾,13个以U 结尾㊂表明葫芦巴叶绿体基因组偏好使用A /U 结尾的密码子,这与G C 3和RS C U 分析结果一致㊂因此,在利用葫芦巴叶绿体基因工程设计外源基因载体时,选用以A /U 结尾的密码子可以提高外源基因的表达转化效率㊂414第2期杜明川等:葫芦巴叶绿体基因组密码子偏好性分析图4 葫芦巴叶绿体基因组P R 2-pl o t 分析F i g .4 P R 2-p l o t a n a l y s i s o n c h l o r o p l a s t g e n o m e i n T r i g o n e l l a f o e n u m -gr a e c u m 表4 葫芦巴叶绿体基因组最优密码子的确定T a b l e 4 D e t e r m i n a t i o no f o p t i m a l c o d o n s i n c h l o r o p l a s t g e n o m e o f T r i g o n e l l a f o e n u m -gr a e c u m 氨基酸A m i n o a c i d密码子C o d o n高表达基因H i g he x pr e s s i o n g e n e 低表达基因L o we x pr e s s i o n g e n e 数目N u m b e rR S C U 数目N u m b e rR S C U ΔR S C U A l aG C A 211.08291.16-0.08G C C70.36170.68-0.32G C G 70.36160.64-0.28G C U ***432.21381.520.69A r gA G A*182.00601.860.14A G G 60.67411.27-0.60C G A 101.11401.24-0.13C G C20.22110.34-0.12C G G 30.33190.59-0.26C G U***151.67230.710.96A s n A A C80.27430.46-0.19A A U *511.731451.540.19A s p G A C30.12290.32-0.20G A U*471.881501.680.20C y s U G C30.50120.73-0.23U G U*91.50211.270.23G l n C A A ***431.91771.390.52C A G20.09340.61-0.52G l u G A A *411.461201.330.13G A G 150.54600.67-0.13G l yG G A 401.70681.74-0.04G G C100.43170.44-0.01G G G 140.60300.77-0.17G G U*301.28411.050.23H i s C A C 10.10110.38-0.28C A U *201.90471.620.28I l eA U A *631.13771.000.13A U C260.47460.60-0.13A U U781.401071.400.00L y s A A A **611.741471.380.36514草地学报第32卷续表4氨基酸A m i n o a c i d密码子C o d o n高表达基因H i g he x p r e s s i o n g e n e低表达基因L o we x p r e s s i o n g e n e数目N u m b e r R S C U数目N u m b e r R S C UΔR S C UA A G90.26660.62-0.36L e u C U A260.81480.95-0.14C U C50.16240.47-0.31C U G40.12180.36-0.24C U U371.15591.16-0.01U U A***862.67831.641.03U U G351.09721.42-0.33 M e t A U G341.00461.000.00 P h e U U C240.39660.85-0.46 U U U**981.61891.150.46 P r o C C A161.14301.090.05C C C70.50200.73-0.23C C G50.36200.73-0.37C C U***282.00401.450.55S e r A G C40.1770.140.03A G U*321.32531.090.23U C A261.08681.40-0.32U C C130.54631.29-0.75U C G120.50260.53-0.03U C U***582.40751.540.86 T h r A C A*241.48501.400.08A C C40.25220.62-0.37A C G60.37170.48-0.11A C U**311.91541.510.40T r p U G G311.00331.000.00 T y r U A C120.32180.36-0.04 U A U621.68821.640.04 V a l G U A*301.43391.210.22G U C80.38180.56-0.18G U G60.29300.93-0.64G U U***401.90421.300.60注:*表示ΔR S C Uȡ0.08,**表示ΔR S C Uȡ0.30,***表示ΔR S C Uȡ0.50N o t e:*m e a n sΔR S C Uȡ0.08;**m e a n sΔR S C Uȡ0.30;***m e a n sΔR S C Uȡ0.503讨论3.1葫芦巴叶绿体基因密码子的特征密码子偏好性是指同义密码子的使用频率不同,这种现象普遍存在于植物体中,引起这种现象的原因有很多,其中碱基组成是最常见的因素[38]㊂中性进化理论认为碱基的第1位和第2位发生变化会引起编码氨基酸的改变,而第3位发生变化则不会使所编码的氨基酸发生改变,同时选择压力对密码子第3位碱基的影响较小,所以G C3可作为密码子偏好性分析的重要依据[39]㊂本研究中葫芦巴叶绿体基因组密码子的平均G C含量为37.06%,表明葫芦巴叶绿体更倾向于使用A/U密码子,这与高守舆等[27]对白羊草叶绿体基因组的研究结果一致㊂葫芦巴叶绿体基因组密码子第3位碱基G C含量较低,这一特征与紫花苜蓿(M e d i c a g o s a t i v a L.)[40]㊁秋茄(K a n d e l i ao b o v a t a S h e u e)[20]㊁厚壳红瘤果茶[28]等相同,符合 高等植物密码子倾向于使用A/ U结尾 的假设[41]㊂3.2葫芦巴叶绿体基因密码子偏好性的主要影响因素本研究中P R2-p l o t绘图分析结果表明突变压力不是影响葫芦巴叶绿体基因组密码子偏好性的唯一因素;中性绘图㊁E N C-p l o t分析表明在葫芦巴在进化过程中,葫芦巴密码子偏好性主要受自然选择的影响,受突变的影响较小,这主要是因为叶绿体是葫芦巴进行光合作用最重要细胞器,它可以将太阳能转化为化学能来维持葫芦巴正常生长所需要的物质[42],因此其基因演化主要会受到自然选择影响㊂这一结论与沙枣(E l a e a g n u s a n g u s t i f o l i a)[43]㊁睡614第2期杜明川等:葫芦巴叶绿体基因组密码子偏好性分析莲(N y m p h a e a t e t r a g o n a)[44]㊁籽粒苋(A m a r a n t h u s h y p o c h o n d r i a c u s)[45]等植物的密码子偏好性一致㊂而杨国锋等[34]对蒺藜苜蓿(M e d i c a g o t r u n c a t u l a)的研究表明其密码子偏好性主要受到突变的影响,在续晨等[46]的研究中,蝴蝶兰(P h a l a e n o p s i s)密码子使用偏好性受自然选择和碱基差异的共同影响㊂由此可以看出,植物密码子使用偏好性受多种因素影响,不同植物其影响因素有所差异㊂3.3葫芦巴叶绿体基因密码子偏好性的模式R S C U分析是一种根据相对密码子偏好性来分析基因表达水平的方法[47]㊂本研究采用高表达优越密码子方法确定葫芦巴叶绿体基因组最优密码子,共选出了21个最优密码子,8个以A结尾,13个以U结尾,由此可见葫芦巴叶绿体基因组中密码子偏好N N A㊁N N U型㊂这与前人在扁蓿豆(M e d i-c a g o r u t h e n i c a)[48]的研究结果一致,说明不同种属的植物,其密码子偏好性存在着一定的相似性㊂4结论自然选择是葫芦巴叶绿体基因组密码子偏好性主要的影响因素,但其他因素在一定程度上对其密码子偏性造成影响㊂同时,本研究确定了葫芦巴叶绿体基因组的21个最优密码子,研究结果为科学制定葫芦巴种质保存和更新策略提供理论依据和实践指导㊂参考文献[1] A L T U N T A SE,ÖZ GÖZE,T A S E RFÖ.S o m e p h y s i c a l p r o p-e r t i e s of f e n ug r e e k(T r i g o n e l l a f o e n u m-g r a c e u m L.)s e e d s[J].J o u r n a l o f F o o dE n g i n e e r i n g,2004,71(1):37-43[2]李建芳,周枫,张阳阳,等.S D E葫芦巴叶挥发性提取物G C-M S分析与抗氧化活性研究[J].食品研究与开发,2020,41(21):154-160[3]夏鑫,余曼荣,黄慧,等.葫芦巴渣及提取物对断奶仔猪生长性能㊁抗氧化功能和血清生化指标的影响[J].动物营养学报, 2020,32(3):1118-1126[4] B E G UM M,H O S S A I N M M,K I MIH.E f f e c t so f f e n u g r e e ks e e de x t r a c t s u p p l e m e n t a t i o no n g r o w t h p e r f o r m a n c e,n u t r i e n td i ge s t i b i l i t y,d i a r r h o e as c o r e s,b l o o d p r of i l e s,f a e c a lm i c r o f l o r aa n d f a e c a l n o x i o u s g a s e m i s s i o n i nw e a n l i n g p i g l e t s[J].J o u r n a lo f a n i m a l p h y s i o l o g y a n da n i m a l n u t r i t i o n,2016,100(6):1121-1129[5] S HA H A M,M I R SP.E f f e c to fd i e t a r y f e n u g r e e ks e e do nd a i r y c o w pe rf o r m a n c ea n d m i l kc h a r a c t e r i s t i c s[J].C a n a d i a nJ o u r n a l o fA n i m a l S c i e n c e,2004,84(4):725-729[6] E l-T A R A B A N Y,A K R AM,T E AMA,e t a l.I m p a c to f d i e t a r yf e n ug r e e k s e e d s o n l a c t a t i o n a l p e r f o r m a n c e a n d b l o o db i o ch e m-i c a la n d h e m a t o l o g i c a l p a r a m e t e r so fd a i r y g o a t su n d e rh o ts u m m e r c o n d i t i o n s[J].M l j e k a r s t v o,2018,68(3):214-223 [7]黄慧,郑柯,王霞,等.葫芦巴提取物对黄羽肉鸡屠宰性能㊁肉品质及抗氧化性能的影响[J].动物营养学报,2022,34(4): 2334-2346[8] WA N G X M,Z H O U T,B A IG Q,e t a l.C o m p l e t e c h l o r o p l a s tg e n o m es e q u e n c eo fF a g o p y r u m d i b o t r y s:G e n o m ef e a t u r e s,c o m p a r a t i v e a n a l y s i s a nd p h y l o ge n e t i c r e l a t i o n s h i p s[J].S c i e n-t i f i cR e p o r t s,2018,8(1):12379[9]邢少辰,L I U CJ.叶绿体基因组研究进展[J].生物化学与生物物理进展,2008(1):21-28[10]S H I N O Z A K IK,O HM E M,T A N A K A M,e t a l.T h e c o m p l e t en u c l e o t i d e s e q u e n c e o f t h e t o b a c c o c h l o r o p l a s t g e n o m e:i t s g e n e o r g a n i z a t i o na n de x p r e s s i o n[J].T h eE M B OJ o u r n a l,1986,5(9):2043-2049[11]O H Y AMA K,F U K U Z AWA H,K O H C H IT,e ta l.C h l o r o-p l a s t g e n e o r g a n i z a t i o nd e d u c e d f r o mc o m p l e t e s e q u e n c eo f l i v-e r w o r tM a r c h a n t i a p o l y m o r p h a c h l o r o p l a s tD N A[J].N a t u r e,1986,322(6079):572-574[12]王雪芹,宋卫武,高晓燕,等.芸香科植物叶绿体基因组结构和系统发育分析[J].分子植物育种,2023,21(5):1510-1520 [13]H E N R Y D,C H O U N-S E A L,M I N G Y,e t a l.C h l o r o p l a s t g e-n o m e s:d i v e r s i t y,e v o l u t i o n,a n da p p l i c a t i o n si n g e n e t i ce n g i-n e e r i n g[J].G e n o m eB i o l o g y,2016,17(1):13059 [14]李绪英,肖炳光,高玉龙,等.烟草叶绿体基因组和线粒体基因组S S R位点分析[J].西北植物学报,2011,31(12):2399-2405[15]K I M Y K,S H I NJ,O H D R,e ta l.C o m p a r a t i v eA n a l y s i so fC o m p l e t eC h l o r o p l a s tG e n o m eS e q u e n c e sa n dI n s e r t i o n-D e l e-t i o n(I n d e l)P o l y m o r p h i s m st o D i s t i n g u i s h F i v e V a c c i n i u m S p e c i e s[J].F o r e s t s,2020,11(9):927[16]Z H A O X L,Z HU Z M.C o m p a r a t i v eG e n o m i c s a n dP h y l o g e-n e t i cA n a l y s e s o fC h r i s t i av e s p e r t i l i o n i s a n dU r a r i o p s i sb r e v i s-s i m a i n t h eT r i b eD e s m o d i e a e(F a b a c e a e:P a p i l i o n o i d e a e)B a s e d o nC o m p l e t eC h l o r o p l a s tG e n o m e s[J].P l a n t s,2020,9(9): 1116[17]HU A N G XJ,X I A C L,Z H A O Y,e ta l.T h e f i r s tc o m p l e t ec h l o r o p l a s t g e n o m eo f H a y m o nd i aw a l l i c h i i(F a b a ce a e)a n di t s p h y l o g e n e t i ca n a l y s i s[J].M i t o c h o n d r i a lD N A.P a r tB-R e-s o u r c e s,2021,6(7):1865-1866[18]李显煌,杨生超,辛雅萱,等.灯盏花叶绿体基因组密码子偏好性分析[J].云南农业大学学报(自然科学),2021,36(3):384-392[19]莫冰棋,李艺,张骏骁,等.宽叶韭与峨眉韭系统发育及叶绿体基因组密码子偏好分析[J/O L].分子植物育种:1-19[2023-10-18][20]赵森,邓力华,陈芬.秋茄叶绿体基因组密码子使用偏好性分析[J].森林与环境学报,2020,40(5):534-541 [21]娄丽,袁丛军,陈锐,等.安龙油果樟叶绿体基因组密码子偏好性分析[J/O L].分子植物育种:1-17[2023-10-18]714草地学报第32卷[22]原晓龙,李云琴,张劲峰,等.降香黄檀叶绿体基因组密码子偏好性分析[J].广西植物,2021,41(4):622-630 [23]梁湘兰,覃逸明,孙晓波,等.藿香叶绿体基因组密码子偏好性分析[J].分子植物育种,2023,21(3):809-818 [24]周宗梁,林智敏,耿丽丽,等.水稻中c r y1A h1基因密码子优化方案的比较[J].生物工程学报,2012,28(10):1184-1194 [25]韩岚,王欢,王佳琪,等.密码子优化的纳豆激酶基因在番茄果实中的瞬时表达[J].内蒙古大学学报(自然科学版),2016,47(1):73-79[26]原晓龙,刘音,康洪梅,等.蒜头果叶绿体基因组密码子偏好性分析[J].西南林业大学学报(自然科学),2021,41(3):15-22 [27]高守舆,李钰莹,杨志青,等.白羊草叶绿体基因组密码子使用偏好性分析[J].草业学报,2023,32(7):85-95 [28]肖旭,赵紫涵,陆江桃,等.厚壳红瘤果茶叶绿体基因组特征及密码子偏好性分析[J].种子,2022,41(12):19-26[29]L I U HB,L U YZ,L A NBL,e t a l.C o d o n u s a g e b y c h l o r o p l a s tg e n e i sb i a s i n H e m i p t e l e ad a v i d i i[J].J o u r n a lo fG e n e t i c s,2020,99(1):32089527[30]李江平,秦政,国春策,等.抽筒竹叶绿体基因组的密码子偏好性分析[J].竹子学报,2019,38(2):79-87[31]S U E O K A N.N e a r h o m o g e n e i t y o f P R2-b i a s f i n g e r p r i n t s i n t h eh u m a n g e n o m e a n d t h e i r i m p l i c a t i o n s i n p h y l o-g e n e t i c a n a l y s e s[J].J o u r n a l o fM o l e c u l a rE v o l u t i o n,2001,53(4-5):469-476 [32]金刚,覃旭,龙凌云,等.剑麻叶绿体基因组编码序列密码子的使用特征[J].福建农林大学学报(自然科学版),2018,47(6): 705-710[33]N I EXJ,D E N GPC,F E N G K W,e t a l.C o m p a r a t i v e a n a l y s i so f c o d o nu s a g e p a t t e r n s i nc h l o r o p l a s t g e n o m e so f t h eA s t e r-a c e a e f a m i l y[J].P l a n t M o l e c u l a rB i o l o g y R e p o r t e r,2014,32(4):828-840[34]杨国锋,苏昆龙,赵怡然,等.蒺藜苜蓿叶绿体密码子偏好性分析[J].草业学报,2015,24(12):171-179[35]胡莎莎,罗洪,吴琦,等.苦荞叶绿体基因组密码子偏爱性分析[J].分子植物育种,2016,14(2):309-317[36]Z H A O YC,Z H E N G H,X U A Y,e t a l.A n a l y s i s o f c o d o nu s-a g eb i a s o f e n v e l o p e g l yc o p r o t e i n g e n e s i nn u c l e a r p o l y h ed r o s i sv i r u s(N P V)a n d i t sr e l a t i o nt oe v o l u t i o n.[J].B M C g e n o m-i c s,2016,17(1):1-10[37]B H A T T A C H A R Y Y A D,U D D I N A,D A SS,e ta l.M u t a t i o np r e s s u r ea n dn a t u r a ls e l e c t i o no nc o d o nu s a g ei nc h l o r o p l a s tg e n e s o f t w os p e c i e s i n P i s u m L.(F a b a c e a e:F a b o i d e a e)[J].M i t o c h o n d r i a lD N A.P a r tA,D N A m a p p i n g,s e q u e n c i n g,a n d a-n a l y s i s,2019,30(4):664-673[38]胡晓艳,许艳秋,韩有志,等.酸枣叶绿体基因组密码子使用偏性分析[J].森林与环境学报,2019,39(6):621-628[39]I N G V A R S S O NPK.G e n e e x p r e s s i o n a n d p r o t e i n l e n g t h i n f l u-e n c e c o d o nu s a g ea n dr a t e so fs e q u e n c ee v o l u t i o ni n P o p u l u s t r e m u l a[J].M o l e c u l a rB i o l o g y a n d E v o l u t i o n,2007,24(3): 836-844[40]孙志轩,敖平星,毕玉芬,等. 德钦 紫花苜蓿叶绿体基因组序列及特征分析[J].草地学报,2022,30(2):320-328[41]C AM P B L L W H,G OWR IG.C o d o nu s a g e i nh i g h e r p l a n t s,g r e e na l g a e,a n dc y a n o b a c t e r i a[J].P l a n t p h y s i o l o g y,1990,92(1):1-11[42]Y I N D M,WA N G Y,Z H A N G X G,e ta l.D e v e l o p m e n to fc h l o r o p l a s t g e n o m er e s o u r c e sf o r p e a n u t(A r a c h i sh y p o g a e aL.)a n do t h e r s p e c i e s o fA r a c h i s[J].S c i e n t i f i cR e p o r t s,2017, 7(1):11649[43]王婧,王天翼,王罗云,等.沙枣叶绿体全基因组序列及其使用密码子偏性分析[J].西北植物学报,2019,39(9):1559-1572 [44]毛立彦,黄秋伟,龙凌云,等.7种睡莲属植物叶绿体基因组密码子偏好性分析[J].西北林学院学报,2022,37(2):98-107 [45]冯瑞云,梅超,王慧杰,等.籽粒苋叶绿体基因组密码子偏好性分析[J].中国草地学报,2019,41(4):8-15[46]续晨,贲爱玲,蔡晓宁.蝴蝶兰叶绿体基因组密码子使用的相关分析[J].分子植物育种,2010,8(5):945-950 [47]唐晓芬,陈莉,马玉韬.密码子使用偏性量化方法研究综述[J].基因组学与应用生物学,2013,32(5):660-666 [48]田春育,武自念,李贤松,等.扁蓿豆叶绿体基因组密码子偏好性分析[J].草地学报,2021,29(12):2678-2684(责任编辑刘婷婷)814。
江苏农业学报(JiangsuJ.ofAgr.Sci.)ꎬ2023ꎬ39(2):504 ̄517http://jsnyxb.jaas.ac.cn赵振宁ꎬ孙浩田ꎬ宋雨茹ꎬ等.山楂属植物叶绿体基因组特征与密码子偏好性分析[J].江苏农业学报ꎬ2023ꎬ39(2):504 ̄517.doi:10.3969/j.issn.1000 ̄4440.2023.02.024山楂属植物叶绿体基因组特征与密码子偏好性分析赵振宁1ꎬ㊀孙浩田2ꎬ㊀宋雨茹1ꎬ㊀余㊀潇3(1.西南林业大学林学院ꎬ云南昆明650224ꎻ2.西南林业大学生态与环境学院ꎬ云南昆明650224ꎻ3.湖北工程学院建筑学院ꎬ湖北孝感432000)收稿日期:2022 ̄10 ̄17基金项目:云南省第二次国家重点保护野生植物资源调查项目(09930 ̄216304)ꎻ2021年度云南省大学生创新创业国家级项目(202110677046)作者简介:赵振宁(2003-)ꎬ男ꎬ山东泰安人ꎬ本科ꎬ主要从事植物生物信息学研究ꎮ(E ̄mail)zzn1529370396@163.com通讯作者:余㊀潇ꎬ(E ̄mail)yuxiao19920215@163.com㊀㊀摘要:㊀为明确山楂属植物叶绿体基因组结构与编码蛋白质的基因密码子偏好性特征ꎬ本研究利用第二代高通量测序技术对云南山楂[Crataegusscabrifolia(Franch.)Rehd.]的叶绿体基因组进行测序㊁组装和注释ꎬ并对山楂属11个种植物的叶绿体基因组结构㊁遗传多样性以及密码子偏好性进行了分析ꎮ结果显示ꎬ山楂属植物的叶绿体基因组长度为159607~159875bpꎬG+C含量为36.6%~36 7%ꎬ为标准的四分体结构ꎬG+C含量和结构变异均保守ꎬ边界扩张收缩稳定ꎬ未发现基因组的倒置和重排现象ꎬ11个种植物的简单重复序列和离散重复序列的种类和数量存在一定的差异ꎮ综合中性绘图分析㊁有效密码子数分析(ENC ̄plot)㊁奇偶校验分析(PR2 ̄plot)和对应性(COA)分析的结果ꎬ发现山楂属植物叶绿体基因组密码子使用不但受到碱基突变的影响ꎬ还受到选择压力的深刻影响ꎮ对叶绿体基因组的最优密码子进行筛选ꎬ最优密码子数量为17~20个ꎬ其中C.kansuensis㊁C.oresbia㊁C.pinnatifida的最优密码子数量最多ꎬC.marshallii的最优密码子数量最少ꎬ分析它们的最优密码子数据发现ꎬ山楂属植物的最优密码子大多以A或U作为第三位碱基ꎮ基于CDS(蛋白质编码序列)和叶绿体全基因组构建的系统发育关系既具有一定的相似性ꎬ也存在一些差异ꎮ本研究结果为山楂属植物的系统发育研究和分子标记开发等工作提供了参考依据ꎮ关键词:㊀山楂属ꎻ叶绿体基因组ꎻ密码子偏好性ꎻ系统进化中图分类号:㊀S661.5㊀㊀㊀文献标识码:㊀A㊀㊀㊀文章编号:㊀1000 ̄4440(2023)02 ̄0504 ̄14ChloroplastgenomecharacteristicsandcodonusagebiasanalysisofCra ̄taegusL.ZHAOZhen ̄ning1ꎬ㊀SUNHao ̄tian2ꎬ㊀SONGYu ̄ru1ꎬ㊀YUXiao3(1.CollegeofForestryꎬSouthwestForestryUniversityꎬKunming650224ꎬChinaꎻ2.CollegeofEcologyandEnvironmentꎬSouthwestForestryUniversityꎬKunming650224ꎬChinaꎻ3.SchoolofArchitectureꎬHubeiEngineeringUniversityꎬXiaogan432000ꎬChina)㊀㊀Abstract:㊀InordertoclarifythechloroplastgenomestructureandcodonusagebiasofCrataegusꎬthisstudyusedthenext ̄generationsequencingtosequenceꎬassembleandannotatethechloroplastgenomeofCrataegusscabrifolia(Franch.)Re ̄hd.ꎬandanalyzedthechloroplastgenomestructureꎬgeneticdiversityandcodonpreferenceof11speciesofCrataegus.There ̄sultsshowedthatthelengthofchloroplastgenomewasbetween159607bpand159875bpꎬtheG+CcontentandstructuralvariationwereconservativeꎬtheG+Ccontentwasbetween36 6%and36 7%ꎬtheboundaryexpansionandcontractionwerestableꎬnoinversionandrearrangementofthegenomewerefoundꎬandthereweredifferencesinthetypeandnumberofsimplesequencerepeatsandinter ̄spersedrepeatedsequences.Basedontheresultsofneutral ̄ityplotanalysisꎬENC ̄plotꎬPR2 ̄plotandcorrespondenceanalysisꎬitwasfoundthatthechloroplastgenomecodonus ̄405ageinCrataeguswasnotonlyaffectedbybasemutationꎬbutalsobyselectivepressure.Theoptimalcodonsofthechloroplastgenomewerescreenedꎬandtheoptimalnumberofcodonswasbetween17and20.C.kansuensisꎬC.oresbiaꎬandC.pinnatifi ̄dahadthelargestnumberofoptimalcodonsꎬandC.marshalliihadtheleastnumberofoptimalcodons.TheanalysisoftheiroptimalcodondatarevealedthattheoptimalcodonsofCrataegusmostlyusedAorUasthethirdbase.Thephylogeneticrela ̄tionshipsconstructedbasedonproteincodingsequenceandcompletechloroplastgenomehadcertainsimilaritiesanddiffer ̄ences.TheresultsofthisstudycanprovideareferenceforthephylogeneticresearchandmolecularmarkerdevelopmentofCrataegus.Keywords:㊀CrataegusL.ꎻchloroplastgenomeꎻcodonusagebiasꎻsystemevolution㊀㊀山楂属(CrataegusL.)为蔷薇科中起源相对古老的属ꎬ多为小乔木或落叶灌木ꎬ主要分布于温带地区ꎮ山楂属植物有着非常高的经济价值ꎬ研究结果表明ꎬ山楂作为果树在中国的种植历史可追溯至汉代[1]ꎮ山楂的果实含有丰富的营养物质ꎬ具有健胃消食㊁抗菌消炎等功效ꎬ是一种优良的水果[2]ꎮ除了作为经济果树ꎬ山楂还是一类出色的园林景观植物和街道绿化树种ꎮ通常认为ꎬ山楂属中有18个种原产于中国ꎬ山楂属植物中广泛存在的无融合生殖和种间杂交现象使其外形特征发生了高度变异[3]ꎬ进而为山楂属植物的传统分类学鉴定造成困难ꎮ叶绿体是植物细胞中重要的细胞器之一ꎬ对于研究植物体的光合作用和生长发育具有非常重要的意义ꎮ叶绿体基因组是独立于核基因组的母系遗传ꎬ其核苷酸置换率与核基因组及线粒体基因组相比更适宜应用于多层次的系统发育研究[4]ꎮ随着第二代高通量测序技术的不断完善ꎬ针对叶绿体基因组的报道也逐渐增多ꎬ目前的研究结果表明ꎬ陆地高等植物的叶绿体基因组长度一般介于120~200kbꎬ包含大单拷贝区(LSC)㊁小单拷贝区(SSC)㊁反向重复区a(IRa)和反向重复区b(IRb)ꎮ密码子偏好性是指编码相同氨基酸的同义密码子频率存在差异[5]ꎬ这种现象普遍出现在所有原核生物和真核生物中[6]ꎮ一般来说ꎬ密码子使用模式能够反映基因组的起源和进化模式ꎬ不同的基因组有其独特的密码子使用偏好性ꎬ这也使得解释这种偏好性目前还存在一定的困难[7 ̄8]ꎮ山楂属植物具有出色的经济价值和科研价值ꎬ目前已有许多针对山楂属植物的相关研究ꎮ例如ꎬ有许多学者围绕山楂属植物的营养价值进行了相关研究ꎬ均发现其有着良好的营养价值和抗氧化活性[9 ̄12]ꎬ在分子层面ꎬ张枭等[13]利用SSR分子标记构建了部分山楂属植物的分子条形码ꎬ为山楂属植物的资源鉴定提供了分子层面的手段ꎬListon等[3]基于叶绿体基因组和257个核基因组对山楂属植物亚属间的杂交状况进行了评估ꎬ证实了杂交在山楂进化中的重要作用ꎮ具体到叶绿体基因组层面ꎬ近年来ꎬ针对山楂属植物叶绿体基因组的研究正逐渐被重视ꎬ部分山楂属植物的叶绿体基因组数据相继被发表在国家生物技术信息中心(NationalCenterforBiotechnologyInformationꎬNCBI)公共数据库中ꎬ也有学者对其叶绿体基因组进行了属内的比较分析[14 ̄15]ꎮ然而ꎬ目前针对山楂属植物叶绿体基因组特征和密码子偏好性的综合分析相对较少ꎮ本研究拟通过对云南山楂叶绿体基因组的测序㊁组装和注释ꎬ综合分析山楂属11个种的植物叶绿体基因组特征㊁密码子偏好性㊁最优密码子和系统发育关系ꎬ深入研究山楂属植物的叶绿体基因组特征ꎬ弥补目前对于山楂属植物密码子特征和偏好性研究的空白ꎮ本研究旨在为山楂属植物的叶绿体基因组特征㊁系统发育关系和密码子偏好性研究提供新的参考依据ꎬ以期为山楂属植物的育种和分子标记研究提供参考ꎮ1㊀材料与方法1.1㊀试验材料本研究所使用的新鲜植物叶片采集于云南省大理白族自治州洱源县罗平山(99ʎ52ᶄ19 15ᵡEꎬ25ʎ59ᶄ53 34ᵡNꎬ海拔2105m)ꎬ经西南林业大学标本馆树木学教研室李双智副教授鉴定为蔷薇科山楂属植物云南山楂[Crataegusscabrifolia(Franch.)Rehd.]ꎮ使用改良过的CTAB(十六烷基三甲基溴化铵)法[16]从使用硅胶干燥的叶片中提取DNAꎬ提取后的DNA送至天津诺禾致源生物科技有限公司进行叶绿体基因组测序ꎬ使用GetOrganelle软件[17]组装得到完整的叶绿体基因组ꎬ并使用拼接路径可视化软件Bandage[18]验证其成环性ꎮ以山楂[Crataeguspinnatifida(NC_065486)]叶绿体基因组为参考ꎬ使505赵振宁等:山楂属植物叶绿体基因组特征与密码子偏好性分析用CPGAVAS2在线工具(http://www.herbalgenom ̄ics.org/cpgavas/)[19]对云南山楂叶绿体基因组进行注释ꎬ并使用GeneiousPrime软件[20]对其进行手动调整ꎮ注释过的云南山楂叶绿体基因组上传到GenBank公共数据库ꎬ登录号为OP021659ꎬ其余10个山楂属植物叶绿体基因组下载于NCBI公共数据库(https://www.ncbi.nlm.nih.gov/)(表1)ꎮ表1㊀山楂属植物叶绿体基因组信息Table1㊀CompletechloroplastgenomesampleinformationofCra ̄taegus编号物种登录号长度(bp)1CrataegusmaximowicziiNC_0654851598752CrataeguskansuensisNC_0393741598653CrataegusoresbiaNC_0656711598514CrataeguschungtienensisNC_0656701598475CrataegusrhipidophyllaNC_0623451597866CrataegushupehensisNC_0541551597667CrataeguscuneataNC_0588961597308CrataegusmarshalliiMK9202931596609CrataeguspinnatifidaNC_06548615965610CrataegusscabrifoliaOP02165915963711CrataegusbretschneideriMW9633391596071.2㊀试验方法1.2.1㊀重复序列分析㊀简单重复序列(Simplese ̄quencerepeatꎬSSR)在植物叶绿体基因组中有着广泛分布ꎬ其作为一种重要的分子标记常被用作鉴定植物品种和构建DNA指纹图谱[21]ꎮ使用MISA ̄web(http://webblast.ipk ̄gatersleben.de/misa/)对山楂属植物简单重复序列的种类和数量进行在线分析[22]ꎬ将单核苷酸㊁二核苷酸㊁三核苷酸㊁四核苷酸㊁五核苷酸㊁六核苷酸参数分别设置为10㊁5㊁4㊁3㊁3㊁3ꎬ相邻SSR间的最小距离为100bpꎮ使用REPuter在线工具(https://bibiserv.ce ̄bitec.uni ̄bielefeld.de/reputer)分别鉴定11种山楂属植物的离散重复序列[23]ꎬ设置参数:海明距离(Hammingdistance)为3ꎬ鉴定类型选择正向重复序列(ForwardrepeatꎬF)㊁回文重复序列(PalindromicrepeatꎬP)㊁反向重复序列(ReverserepeatꎬR)和互补重复序列(ComplementrepeatꎬC)4种ꎬ最小重复长度30bpꎬ最大重复长度300bpꎮ1.2.2㊀边界扩张收缩分析㊀叶绿体基因组为环状结构ꎬ分为4个区域ꎬ分别为大单拷贝区(LSC)㊁小单拷贝区(SSC)㊁反向重复区a(IRa)和反向重复区b(IRb)ꎬ其中反向重复区相对比较保守ꎬ其收缩与扩张会影响叶绿体基因组G+C含量和基因组大小ꎬ边界扩展和收缩能够展现植物的遗传进化[24]ꎻ分析叶绿体基因组区域边界的信息ꎬ对揭示叶绿体基因组的结构差异和进化关系具有重要的参考价值[25]ꎮ使用在线工具CPJSdraw(http://cloud.genepioneer.com:9929)对注释过的山楂属植物叶绿体基因组边界可视化ꎬ分析其边界的扩张收缩情况ꎮ1.2.3㊀共线性比较分析㊀以山楂属11个种的植物叶绿体基因组为研究对象ꎬ利用MAUVE(http://darlinglab.org/mauve/mauve.html)工具对多重基因组的保守区域㊁局部共线性和基因组重排倒置现象进行鉴定ꎬ用以阐述山楂属植物的叶绿体在物种演化过程中发生的结构变异事件[26]ꎮ1.3㊀密码子偏好性分析1.3.1㊀密码子相关参数的计算㊀使用GeneiousPrime软件手动提取每个山楂属植物叶绿体基因组中的蛋白质编码序列(CodingsequenceꎬCDS)ꎬ由于编码长度较短的蛋白质的基因会使密码子偏好性的数据存在较大的估计误差ꎬ因此在统计密码子偏好性时ꎬ常去除长度在300bp以下的序列ꎬ从而避免产生统计误差[27]ꎬ本研究筛选了山楂属植物叶绿体基因组中具有代表性的48个CDSꎮ利用CUSP在线工具(http://www.Bioinformatics.nl/emboss ̄ex ̄plorer/)和CondonW1.4.2统计得到了叶绿体基因组的相对同义密码子使用度(RSCU)ꎬ密码子第一㊁第二和第三位的G+C含量(GC1㊁GC2㊁GC3)等一系列信息ꎮ1.3.2㊀中性绘图分析㊀使用GC1与GC2的平均值(GC12)与GC3作为数据绘制中性对比图ꎬ中性对比图可以用来检测密码子突变压力和选择压力的平衡ꎬ从而揭示GC12和GC3的关系[28]ꎮ在密码子偏好中性对比中ꎬ每个离散点表示1个基因ꎬ若GC12与GC3为中性ꎬ则这些点应位于对角线上ꎬ若不为中性ꎬ这些点应出现在横坐标的平行线上[29]ꎮ1.3.3㊀ENC ̄plot分析㊀有效密码子数分析(ENC ̄plot)用于分析密码子使用受到选择压力和突变压力的影响程度ꎬ根据各组基因密码子的GC3和有效密码子数(ENC)ꎬ首先计算出预期ENC(预期ENC=605江苏农业学报㊀2023年第39卷第2期GC3+2+29/[GC32+(1-GC3)2])ꎬ然后使用R语言绘制ENC ̄plot图ꎬ通过比较预期ENC与实际ENC得出突变压力和选择压力对密码子使用偏好性的影响程度[8]ꎮ1.3.4㊀PR2 ̄plot分析㊀奇偶校验分析(PR2 ̄plot)用于展现突变压力与选择压力对于密码子使用的影响程度ꎬ分析密码子第三位碱基的A㊁T㊁C㊁G含量(分别为A3㊁T3㊁C3㊁G3)ꎬ并分别以G3/(G3+C3)和A3/ (A3+T3)为横坐标和纵坐标进行PR2 ̄plot绘图ꎬ各个基因的密码子偏好性通过其与中心点的方向和矢量偏差表示ꎬ而图中中心点表示A=T和C=Gꎬ即此时基因的密码子使用无偏好性[30]ꎮ1.3.5㊀最优密码子确定㊀最优密码子表示基因组中使用频率最高的密码子ꎬ以ENC为首选标准ꎬ将48条叶绿体基因组按照ENC进行排序ꎬENC最高的5个基因组归为高表达基因组ꎬENC最低的5个基因组为低表达基因组ꎮ将同时满足高频[RSCU(同义密码子相对使用度)>1]和高表达[ΔRSCU(同义密码子相对使用度之差)ȡ0 08]的密码子作为最优密码子ꎮ1.3.6㊀对应性分析㊀使用CodonW1.4.2基于RSCU对山楂属11个种进行对应性分析ꎬ将山楂属这11个种所共有的48个编码蛋白质的基因组按照基因功能分为5种类型ꎬ通过分析其变异情况得到影响其密码子偏好性的主要影响因素ꎮ1.4㊀系统发育分析基于山楂属11个种构建叶绿体全基因组系统发育树和CDS系统发育树ꎮ先将山楂属11个种植物叶绿体全基因组和CDS通过MAFFTv.7软件进行比对[31]ꎬ比对结果通过trimAl[32]进行修饰ꎬ修改后的比对文件基于RAxMLv.8中的GTR+I+G模型ꎬ采用最大似然法进行系统发育分析[33]ꎬ设置1000次自展值重复ꎮ2㊀结果与分析2.1㊀叶绿体基因组结构山楂属植物叶绿体基因组呈现标准的四分体结构ꎬ分别为大单拷贝区㊁小单拷贝区㊁反向重复区a和反向重复区bꎬ叶绿体基因组全长为159607~159875bp(图1)ꎮLSC长度为87601~87874bpꎬSSC长度为19139~19312bpꎬ单个反向重复区长度为26347~26385bpꎮ各个种的G+C含量为36.6%~36 7%ꎬ基因总数为127~132个ꎬ其中rRNA数量均为8个ꎬtRNA数量除C.scabrifolia为36个外其余均为37个ꎬ编码蛋白质的基因数量为83~85个(表2)ꎮ综合来看ꎬ山楂属植物的叶绿体基因组G+C含量相近ꎬ基因种类和数量相近ꎬ未发现IR区丢失现象ꎬ叶绿体基因组长度变异较小ꎬ结构未发现明显差异ꎮ表2㊀山楂属植物叶绿体基因组结构信息Table2㊀ChloroplastgenomestructureinformationofCrataegusspecies物种㊀㊀㊀G+C含量(%)tRNA编码蛋白质的基因数量(个)基因总数(个)LSC长度(bp)SSC长度(bp)IR长度(bp)C.maximowiczii36.63785132878741923326384C.kansuensis36.63785132878151928226384C.oresbia36.63784132878191926426384C.chungtienensis36.63784132878151926426384C.rhipidophylla36.73783128877771924126384C.hupehensis36.63785132878521914426385C.cuneata36.63784129877781918426384C.marshallii36.63785132876981923226365C.pinnatifida36.73785132877491913926384C.scabrifolia36.73683127877301913926384C.bretschneideri36.63785131876011931226347LSC:大单拷贝区ꎻSSC:小单拷贝区ꎻIR:反向重复区ꎮ705赵振宁等:山楂属植物叶绿体基因组特征与密码子偏好性分析图1㊀山楂属植物叶绿体基因组图谱Fig.1㊀ChloroplastgenomemapofCrataegus2.1.1㊀重复序列分析㊀如图2A所示ꎬ在本研究中ꎬ单核苷酸㊁二核苷酸㊁四核苷酸和复合重复序列均在山楂属植物中被检测到ꎬ在本研究所选取的山楂属植物中ꎬ检测到的单核苷酸重复序列数量介于41~55ꎬ在各个种中单核苷酸重复序列数量均排第一位ꎬ而单核苷酸重复序列数量最多的物种为C.hupehensisꎬ最少的物种为C.marshalliiꎮ山楂属植物中二核苷酸重复序列数量总体差异不大ꎬC.oresbia被检测到的二核苷酸重复序列数量最少ꎬ为13个ꎬC.maximowiczii㊁C.kansuensis㊁C.cuneata㊁和C.bretschneideri数量最多ꎬ为15个ꎬ其余物种则为14个ꎮ三核苷酸重复序列仅在C.hupehensis㊁C.cuneata㊁C.marshallii㊁C.pinnatifi ̄da和C.scabrifolia中被检测到ꎬ四核苷酸重复序列数量为3~5个ꎬ各物种之间差异不大ꎮ五核苷酸重复序列仅在C.marshallii中被检测到ꎬ六核苷酸重复序列仅在C.cuneata和C.marshallii中被检测到ꎮ这一结805江苏农业学报㊀2023年第39卷第2期果说明山楂属植物的简单重复序列的类型和数量有部分相似之处ꎬ但总体来看也有一定的差异ꎮ使用REputer在线工具对11种山楂属植物叶绿体基因组的离散重复序列进行分析ꎬ统计结果如图2B所示ꎬ结果显示山楂属植物离散重复序列具有一定相似性ꎬ回文重复序列为23~28ꎬ正向重复序列为20~29ꎬ其中C.kansuensis的回文重复序列与反向重复序列的数量均为最多ꎬ而C.marshallii的2种重复序列的数量均为最少ꎮ反向重复序列为3~11个ꎬ其中C.kansuensis的反向重复序列数量远高于其他10个种ꎬ为11个ꎮ互补重复序列在C.hupehensis中检测到的数量最多ꎬ为5个ꎬ而在C.maximowiczii与C.bretschneideri中并未检测出互补重复序列ꎮ总的来说山楂属植物的离散重复序列存在着一定的差别ꎮ图A:简单重复序列ꎻ图B:离散重复序列ꎮ图A中ꎬP1㊁P2㊁P3㊁P4㊁P5㊁P6和c分别表示单核苷酸㊁二核苷酸㊁三核苷酸㊁四核苷酸㊁五核苷酸㊁六核苷酸和复合重复序列ꎻ图B中ꎬP:回文重复序列ꎻF:正向重复序列ꎻR:反向重复序列ꎻC:互补重复序列ꎮ图2㊀山楂属植物叶绿体基因组重复序列Fig.2㊀RepeatedsequenceofCrataegusspecieschloroplastgenome2.1.2㊀边界扩张收缩分析㊀对山楂属植物的边界扩张收缩分析结果(图3)表明ꎬ山楂属11个种植物的大单拷贝区与反向重复区b的边界(JLB)均位于rps19基因中ꎬ除C.marshallii和C.bretschnei ̄deri外ꎬ其余9个种的rps19基因均有120bp位于IRb区域中ꎻ反向重复区b与小单拷贝区的边界(JSB)均位于ndhF中ꎬ且ndhF位于IRb的长度均为12bpꎻJSA均存在于ycf1基因中ꎬ且均有1074bp位于IRa中ꎬrpl2为11个种植物的共有基因ꎬ均位于大单拷贝区与反向重复区a(JLA)的左侧ꎬ其中有9个种植物rpl2基因与JLA距离为190bpꎬ而C.marshallii和C.bretschneideri的rpl2基因与JLA的距离则发生了变异ꎬ与其余9个种植物略有不同ꎮ总的来说ꎬ山楂属植物的叶绿体基因组进化关系保守ꎬ结构差异较小ꎬ边界扩张收缩幅度较为稳定ꎬ只发生了较小的变异ꎮ2.1.3㊀共线性分析㊀使用Mauve软件ꎬ采用多重基因组比较法对山楂属11个种植物的叶绿体基因组进行共线性分析ꎬ山楂属植物叶绿体基因组结构与各个基因的排列顺序基本一致ꎬ共线性良好ꎬ未发现倒置和重排现象ꎬ叶绿体基因组之间具有高度相似性ꎮ2.2㊀密码子偏好性2.2.1㊀密码子组成分析㊀在研究密码子的使用偏好性时ꎬENC常用于评价物种密码子偏好性的大小ꎬ其值为20~61ꎬENC值越大表示密码子的偏好性越弱ꎮ一般认为ꎬENC值在35以下时可表明其密码子偏性现象较为显著[34]ꎮ由表3可知ꎬ山楂属11个种植物的叶绿体基因组平均ENC为46.61~47 55ꎬ均大于35ꎬ密码子偏好性较弱ꎬ密码子总G+C含量与第一㊁第二㊁第三位的G+C含量均小于50%ꎬ且呈现出GC1>GC2>GC3的趋势ꎬ说明山楂属植物的叶绿体基因组富含A和T2种碱基ꎬ且偏好于使用A㊁T作为密码子第三位结尾碱基ꎮ2.2.2㊀PR2 ̄plot绘图分析㊀若密码子的偏好性只受突变压力的影响ꎬ则A㊁T与C㊁G的使用频率应该是完全相等的ꎮ由图4可知ꎬ图中坐标点的分布并不均匀ꎬ可以明显看出ꎬ右侧的坐标点多于左侧ꎬ下方的坐标点多于上方ꎬ而分布于右下角区域的基因数量最多ꎬ说明山楂属植物叶绿体基因组密码子第三位碱基对于T的使用率大于Aꎬ对于G的使用率大于Cꎬ说明其密码子偏好性不只受到突变的影响ꎬ而是选择压力和突变压力共同作用的结果ꎮ905赵振宁等:山楂属植物叶绿体基因组特征与密码子偏好性分析JLB表示LSC与IRb的边界ꎬJSB表示SSC与IRb的边界ꎬJSA表示SSC与IRa的边界ꎬJLA表示LSC与IRa的边界ꎮLSC:大单拷贝区ꎻSSC:小单拷贝区ꎻIRa:反向重复区aꎻIRb:反向重复区b(IRb)ꎮ图3㊀山楂属植物叶绿体基因组边界Fig.3㊀ThechloroplastgenomeboundaryanalysisofCrataegusspecies015江苏农业学报㊀2023年第39卷第2期表3㊀山楂属植物叶绿体基因组密码子参数特征Table3㊀CondonfeaturesofchloroplastgenomesofCrataegusspecies物种㊀㊀㊀GC1(%)GC2(%)GC3(%)GCall(%)ENC(%)GC3s(%)C.maximowiczii45.8237.6929.1137.5546.6129.22C.kansuensis45.8437.7329.1337.6447.3229.21C.oresbia45.8637.7629.1237.5647.5529.23C.chungtienensis45.8837.7929.1537.5847.3029.22C.rhipidophylla45.8537.7829.1637.5546.9529.25C.hupehensis45.8837.7629.1937.6547.3729.30C.cuneata45.8437.7529.1837.6647.1229.33C.marshallii45.8137.7429.1737.6447.2829.25C.pinnatifida45.8337.7529.1537.6247.4329.26C.scabrifolia45.8637.8629.1637.6146.7529.24C.bretschneideri45.8737.7729.1237.5947.3229.28GC1㊁GC2㊁GC3分别表示密码子第一㊁第二㊁第三位碱基的G+C含量ꎻGCall表示密码子总的G+C含量ꎻENC表示有效密码子数ꎻGC3s表示同义密码子第三位的G+C含量ꎮ横坐标表示G㊁C碱基偏好性ꎬ纵坐标表示A㊁T碱基偏好性ꎮ图4㊀山楂属植物叶绿体基因组奇偶偏好性Fig.4㊀Parityrule2analysisofchloroplastgenomesfromCra ̄taegusspecies2.2.3㊀中性绘图分析㊀山楂属植物中性绘图分析见图5ꎬ各基因的GC3取值为20.74%~36 54%ꎬGC12的值则介于31.75%~53 96%ꎬ回归系数为0.364~0 388ꎬGC12与GC3的相关系数为0.324~0 525ꎬ双尾检验均未达到显著水平(P>0 05)ꎬGC12与GC3之间相关性不显著ꎬ选择压力对其密码子的偏好性具有显著影响ꎬ说明山楂属植物叶绿体基因组密码子的第一㊁第二位碱基与第三位碱基的组成相关性较弱ꎬ密码子受选择压力的影响较大ꎮ2.2.4㊀ENC ̄plot绘图分析㊀ENC ̄plot绘图能够揭示基因组密码子的ENC与GC3之间的联系ꎬ如图6所示ꎬ坐标点大多分布在标准ENC曲线下方ꎬ且大多与预期ENC差距很大ꎬ即大部分基因的实际ENC小于预期值ꎬ这部分基因主要受到自然选择的影响ꎮ仅有少数基因靠近标准曲线ꎬ即只有少数基因的密码子偏好性主要受到突变压力的影响ꎮ总的来说ꎬ在本研究中ꎬ自然选择压力是供试山楂属植物叶绿体基因组密码子偏好性的主要影响因素ꎮ2.2.5㊀山楂属植物最优密码子㊀对48个CDS基因按照ENC进行排序ꎬ根据高表达基因和低表达基因中密码子的RSCU和әRSCU来确定其最优密码子ꎬ筛选得到的最优密码子如表4所示ꎬ最优密码子数量介于17~20个ꎬC.kansuensis㊁C.oresbia㊁C.pinnatifida的最优密码子数量最多ꎬC.marshallii的最优密码子数量最少ꎬ分析它们的最优密码子数据可知ꎬ山楂属11个种植物的最优密码子都大多以A或U作为第三位碱基ꎬ说明其最优密码子偏向于使用A和U作为结尾ꎮ对其共有最优密码子进行分析ꎬ发现其共有最优密码子有13个ꎬ分别为GCA㊁GCU㊁AGA㊁CGA㊁UGU㊁CAA㊁UUA㊁UUU㊁AGU㊁UCU㊁ACA㊁UAU和GUUꎬ其中有6个以A作为末碱基ꎬ7个以U作为末位碱基ꎬ共有密码子的第三位碱基均为A和Uꎮ差异密码子有7个ꎬ分别为GAC㊁GAA㊁GGA㊁AUA㊁CUU㊁AAA和ACCꎬ存在差异的最优密码子中ꎬ有4个以A作为第三位碱基ꎬ2个以C作为末位碱基ꎬ1个以U作为末位碱基ꎮ分析山楂属11个种植物的最优密码子发现ꎬ不存在以G作为末位碱基的最优密码子ꎮ115赵振宁等:山楂属植物叶绿体基因组特征与密码子偏好性分析215江苏农业学报㊀2023年第39卷第2期A:C.maximowicziiꎻB:C.kansuensisꎻC:C.oresbiaꎻD:C.chungtienensisꎻE:C.rhipidophyllaꎻF:C.hupehensisꎻG:C.cuneataꎻH:C.marshalliiꎻI:C.pinnatifidaꎻJ:C.scabrifoliaꎻK:C.bretschneideriꎮGC3表示密码子第三位碱基的G+C含量ꎬG12表示密码子第一㊁第二位碱基的G+C含量的平均值ꎬR2表示决定系数ꎮ图5㊀山楂属植物叶绿体基因组中性绘图Fig.5㊀NeutralityplotanalysisofchloroplastgenomesfromCrataegusspecies表4㊀山楂属植物叶绿体基因组最优密码子Table4㊀TheoptimalcodonsofchloroplastgenomesofCrataegus物种最优密码子C.maximowicziiGCA㊁GCU㊁AGA㊁CGA㊁GAC㊁UGU㊁CAA㊁GAA㊁GGA㊁AUA㊁CUU㊁UUA㊁AAA㊁UUU㊁AGU㊁UCU㊁ACA㊁UAU㊁GUUC.kansuensisGCA㊁GCU㊁AGA㊁CGA㊁GAC㊁UGU㊁CAA㊁GAA㊁GGA㊁AUA㊁CUU㊁UUA㊁AAA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUC.oresbiaGCA㊁GCU㊁AGA㊁CGA㊁GAC㊁UGU㊁CAA㊁GAA㊁GGA㊁AUA㊁CUU㊁UUA㊁AAA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUC.chungtienensisGCA㊁GCU㊁AGA㊁CGA㊁GAC㊁UGU㊁CAA㊁GAA㊁GGA㊁AUA㊁CUU㊁UUA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUC.rhipidophyllaGCA㊁GCU㊁AGA㊁CGA㊁GAC㊁UGU㊁CAA㊁GAA㊁GGA㊁AUA㊁CUU㊁UUA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUC.hupehensisGCA㊁GCU㊁AGA㊁CGA㊁GAC㊁UGU㊁CAA㊁GAA㊁GGA㊁CUU㊁UUA㊁AAA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUC.cuneataGCA㊁GCU㊁AGA㊁CGA㊁GAC㊁UGU㊁CAA㊁GAA㊁GGA㊁AUA㊁UUA㊁AAA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUC.marshalliiGCA㊁GCU㊁AGA㊁CGA㊁GAC㊁UGU㊁CAA㊁CUU㊁UUA㊁AAA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUC.pinnatifidaGCA㊁GCU㊁AGA㊁CGA㊁GAC㊁UGU㊁CAA㊁GAA㊁GGA㊁AUA㊁CUU㊁UUA㊁AAA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUC.scabrifoliaGCA㊁GCU㊁AGA㊁CGA㊁UGU㊁CAA㊁GAA㊁AUA㊁CUU㊁UUA㊁AAA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUC.bretschneideriGCA㊁GCU㊁AGA㊁CGA㊁UGU㊁CAA㊁GAA㊁GGA㊁AUA㊁CUU㊁UUA㊁AAA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUA~K见图5注ꎮGC3表示密码子第三位碱基G+C含量ꎬENC表示有效密码子数ꎮ图6㊀ENC ̄plot分析Fig.6㊀AnalysisofENC ̄plot2.2.6㊀对应性分析㊀基于RSCU对山楂属植物叶绿体基因组48个共有CDS进行对应性分析ꎬ结果显示ꎬ其第一轴贡献率为11.69%~12 02%ꎬ第二轴贡献率为8.78%~8 94%ꎬ第三轴贡献率为8.22%~8 37%ꎬ第四轴贡献率为7.74%~8 02%ꎬ前四轴累计贡献率为36.71%~37 23%ꎬ第一轴对变异的贡献率与其他3个轴相差较大ꎬ为影响其变异的主要因素ꎮ为了深入分析其密码子偏好性特征ꎬ使用48个CDS的第一轴和第二轴建立平面坐标系ꎬ结果(图7)显示ꎬ山楂属11个种植物的CDS序列在平面中的分布相似性很高ꎬ均显示遗传系统相关基因与保守性开放阅读框的分布相对更加集中ꎬ说明这2类功能的基因内部存在相似的密码子使用偏好性ꎮ而其余3种功能的基因分布相对更加分散ꎬ说明这3种基因的密码子偏好性差异较大ꎮ2.3㊀系统发育分析对基于叶绿体CDS构建的系统进化树(图8A)与基于叶绿体全基因组构建的系统发育树(图8B)进行分析ꎬ结果显示ꎬ2种系统发育树具有很高的相似性ꎬC.kansuensis㊁C.oresbia㊁C.chungtienensis㊁C.bretschneideri㊁C.maximowiczii㊁C.rhipidophylla和C.marshallii在2种系统进化树中具有相同的系统发育位置ꎮ但2种系统发育树也显现出了一定的差异ꎬ基于叶绿体CDS构建的系统发育树显示C.sca ̄brifolia被单独归为一个远缘分支ꎬ显示其与另外10个种的亲缘关系较远ꎻ基于叶绿体全基因组序列构建的系统发育树(图8B)则将C.cuneata单独归为一个远缘分支ꎮ除此之外ꎬ基于叶绿体CDS构建的系统发育关系显示ꎬC.hupehensis与C.pinnatifida亲缘关系密切ꎬ聚为一类ꎬ而基于叶绿体全基因组构建的系统发育树则为C.hupehensis㊁C.pinnatifida和C.scabrifolia聚为一支ꎮ总的来说ꎬ叶绿体基因组的2种系统发育树展现出来的系统发育关系既存在着部分差异ꎬ也存在着一定的相似性ꎮ315赵振宁等:山楂属植物叶绿体基因组特征与密码子偏好性分析A~K见图5注ꎮAxis1表示第一向量轴ꎬAxis2表示第二向量轴ꎮ图7㊀基于RSCU的基因对应性分析Fig.7㊀GenecorrespondenceanalysisbasedonRSCU3㊀讨论与结论植物叶绿体全基因组长度大多为120~200kbꎬ包含植物体丰富的遗传学信息[35]ꎮ随着第二代高通量测序技术的发展和测序成本的降低ꎬ已有大量的叶绿体基因组数据被上传至GenBank公共数据A:基于叶绿体基因组CDS序列的系统进化树ꎻB:基于叶绿体全基因组序列的系统进化树ꎮ图8㊀基于CDS序列和叶绿体全基因组构建的山楂属物种系统发育树Fig.8㊀PhylogenetictreeofCrataegusconstructedbasedonCDSandcompletechloroplastgenome库ꎬ为植物的系统发育和分子标记研究提供了重要的参考ꎮ本研究对山楂属11个种的植物叶绿体基因组进行了系统发育与密码子偏好性分析ꎬ对于深入研究山楂属植物的进化关系具有一定的意义ꎮ本研究选取了山楂属11个种的植物叶绿体基因组进行分析ꎬ结果显示ꎬ山楂属植物的叶绿体基因组结构保守ꎬ叶绿体基因组长度变异较小ꎬ未发现任何基因组倒置和重排现象ꎬ这与悬钩子属植物叶绿体基因组的情况相似[36]ꎬ但在樟科植物的研究中发现ꎬIR区存在着部分基因重排现象[37]ꎬ这与本研究的结果存在一定的差异ꎮ重复序列包含植物体的重要进化信息ꎬ是控制植物体生长发育的重要部分ꎬ重复序列的差异会对植物的遗传发育产生重要影响[38]ꎬ对所选取的山楂属植物的离散重复序列进行分析ꎬ发现正向重复序列㊁回文重复序列㊁反向重复序列3种离散重复序列在山楂属11个种植物中均有分布ꎬ而互补重复序列在C.maximowiczii与C.bretschneideri中并未检测出ꎬ推断C.maximowiczii与C.bretschneideri在系统发育关系上可能存在着一定的相似性ꎬ这种推断与本研究中2种系统进化树展现的系统发育关系也相吻合ꎮ分子进化中性理论认为ꎬ基因的碱基突变对密码子的影响是中性的或近似中性的[39]ꎮ但如果基因组的密码子受到外界环境选择的影响ꎬ则会导致密码子的使用和碱基组成出现偏向性[40]ꎮ本研究中选取的山楂属植物叶绿体基因组密码子的GC12与GC3的相关系数为0.324~0 525ꎬ相关性均未达到显著水平(P>0 05)ꎬGC12与GC3之间相关性较弱ꎬ山楂属植物叶绿体基因组密码子的第一㊁第二位碱基与第3位碱基差异较大ꎬ说明选择压力对其密码子有着非常大的影响ꎬ而ENC ̄plot和PR2 ̄plot绘图分析结果也表明ꎬ山楂属植物叶绿体基因组的密码子受选择压力的影响较大ꎮ综合以上分析可以看出ꎬ本研究中的山楂属植物密码子使用受自然选择因素的影响远大于碱基突变ꎬ而影响密码子使用偏好性的主要因素在不同植物物种中也可能存在差异ꎮ对应性分析结果显示ꎬ遗传系统相关基因与保守性开放阅读框2种功能的基因呈现出相似的密码子使用偏性ꎬ而其余3种功能基因的密码子偏好性存在较大差异ꎬ推测这3种功能基因的密码子偏好性可能受到多种因素的共同影响ꎮ另外ꎬ本研究在山楂属11个物种中筛选得到17~20个最优密码子ꎬ在这11个物种中ꎬ均以A㊁U作为结尾的最优密码子数量最多ꎬ这一结果与乌头属植物[41]和睡莲属植物[42]的情况相似ꎮ分析其共有密码子发现ꎬ其共有最优密码子有13个ꎬ且均以A和U作为结尾ꎬ所有物种中均未发现以G作为末位碱基的最优密码子ꎮ最优密码子的筛选结果可以为后续山楂属植物的遗传育种工作提供重要的参考依据ꎮ基于CDS和叶绿体全基因组构建的2种系统。
研究密码子偏好性常用的参数1、相对同义密码子使用度(Relativ e Synonymous Codon Usage, RSCU )是指对于某一特定的密码子在编码对应氨基酸的同义密码子间的相对概率,它去除了氨基酸组成对密码子使用的影响。
如果密码子的使用没有偏好性,该密码子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相对较多的密码子,反之亦然。
第i个氨基酸的第j个密码子的相对同义密码子使用度值的计算公式如下:公式中, X ij是编码第i个氨基酸的第j个密码子的出现次数, n i是编码第i个氨基酸的同义密码子的数量( 值为1~6) 。
研究中通常先利用高表达基因的RSCU值建立参考表格。
2、密码子适应指数(Codon Adaptation Index, CAI)可以根据已知高表达基因的序列来估计未知基因密码子使用的偏好性程度。
CAI的值在0~1之间, 如果越高则表明该基因的密码子使用偏好性越强。
CAI 值一般用来预测种内基因的表达水平( 但目前的研究发现对于单细胞生物比较适用, 而在哺乳动物中并不能用来表示基因表达水平), 又可以用来预测外源基因的表达水平。
w ij(The relative adaptiveness of a codon): 密码子相对适应度上式中RSCU imax、X imax分别指编码第i个氨基酸的使用频率最高的密码子的RSCU值和X值L是指基因中所使用的密码子数。
3、密码子偏好参数(Codon Preference Parameter, CPP)CPP的变化范围为0 ~ 18, 越接近18表示密码子被非随机使用的程度越高。
它对于基因编码区域总的碱基组成不敏感, 适于比较基因间或物种间密码子使用偏性的大小。
x ij是编码第i个氨基酸的第j个密码子的出现次数, n i是编码第i个氨基酸的同义密码子的数量( 值为2~6, n i= 1 的情况被排除)4、有效密码子数(Effective Number of Codon, ENC)ENC值的范围在20~ 61之间, 越靠近20偏性越强。
不同哺乳动物密码子偏性及聚类分析在雌性哺乳动物整个生殖周期过程中,卵母细胞只能来源于原始卵泡库[1]。
有研究表明,原始卵泡形成过程受激素、转录因子和相关通路的介导[2]。
生长分化因子9(growth differentiation factor 9,GDF9)作为转化生长因子β超家族成员之一,在卵泡的发育过程中有关键的调节作用[3]。
密码子是DNA或RNA的碱基序列与其编码蛋白序列之间的对应关系[4]。
编码相同氨基酸的密码子为同义密码子,在蛋白合成过程中,同义密码子的使用频率存在差异,且物种和基因对某一种或几种密码子的使用具有偏好性[5]。
对基因密码子偏好参数进行分析,能更好地理解和研究基因水平转移和基因家族分化的发生[6]。
因此对密码子偏好性的研究可在分子的角度为GDF9基因序列特征、分类和遗传进化规律提供重要信息。
前人相关研究表明,GDF9基因具有刺激颗粒细胞减数分裂、抑制素的生成作用[7],并影响卵泡发育和生殖功能[8]。
Wang等发现通过siRNA敲除GDF9后能抑制仓鼠原始卵泡的形成,但添加GDF9纯品培养卵巢会加速原始卵泡的形成[9]。
在人、啮齿类、牛、绵羊和有袋类动物卵巢卵母细胞中,GDF9基因特异性表达,但该基因在山羊卵母细胞和黄体中可同时表达[10-11]。
GDF9基因还能通过多个信号通路促进颗粒细胞增殖过程[12]。
马会明等通过RNA干扰使该基因表达沉默,也能抑制颗粒细胞增殖过程[13]。
这些研究通过探讨不同哺乳动物已被克隆的GDF9基因,并在卵巢卵母细胞中进行了相关表达分析,但未开展密码子使用偏性的研究,这不利于其异源表达和遗传转化等后续试验的进行。
GDF9基因密码子使用偏好性的研究能为该基因的分类和进化提供重要信息。
本研究利用CodonW软件分析不同哺乳?游?GDF9基因对密码子的使用情况,基于GDF9基因最小进化法和同义密码子相对使用度的欧式平方距离系数建立聚类关系,为GDF9基因功能的深入研究提供参考依据。