金 刚, 覃 旭, 龙凌云, 王丽萍, 覃剑峰, 危丹妮, 陈 涛, 蔡中全
(1.广西壮族自治区亚热带作物研究所,广西 南宁 530001;2.广西大学农学院,广西 南宁 530004)
生物体遗传密码的功能完整性是由同义密码子维持的,它提供了基因表达和蛋白质进化之间的联系[1].大量研究表明,不同物种、同一物种的不同基因在同义密码子的使用偏好性上存在较大差异[2].这种偏好性保证了最优密码子可以与丰度最大的tRNA基因的反密码子配对.虽然同义密码子使用偏好对蛋白质序列没有直接影响,但由于密码子使用偏好已被证明是一种重要的进化力量,因此它可能影响蛋白质产物和细胞过程[3].
在植物分子进化研究中,叶绿体基因组因分子量较小、拷贝数较多且许多基因的功能已被注释而备受生物学家重视[4].叶绿体基因组中的翻译过程与单细胞生物相似,表明其同义密码子的使用可能与大肠杆菌相同[5].完整的叶绿体基因组可以为认识进化和自然选择提供机理性的启示,并已在认知物种和叶绿体进化机制上做出重大贡献[6].
剑麻又名龙舌兰麻,是龙舌兰科(Agavaceae)所属单子叶植物的统称.龙舌兰属是该科中最有经济价值的一个属,包含257个种,被广泛应用于纤维加工、酿酒、观赏等领域.东非坦桑尼亚剑麻试验站于1935—1957年将蓝剑麻与假菠萝麻杂交,并从回交后代中选育出了高产且抗寒性好的龙舌兰栽培种H.11648.其生命周期可产叶560~600片,出纤率高且叶缘无刺,现被广泛种植于华南地区[7].近年来,现代分子生物学技术在龙舌兰属植物中得以广泛应用,如抗旱性的转录组研究[8],以及属内分类的分子标记研究等[9].但未见有关于龙舌兰属植物叶绿体基因组密码子生物学和基因组进化的研究报道.对剑麻H.11648叶绿体基因组密码子使用偏好性的详尽分析,有利于更深入地揭示龙舌兰属植物的系统进化地位.本研究系统地分析了剑麻H.11648叶绿体基因组编码序列的密码子使用特征,探讨导致其密码子偏好性发生的重要因素.
完整的剑麻H.11648叶绿体基因组序列来源于高通量测序结果,GenBank登录号为MG642741.剔除重复基因序列和长度小于300 bp的编码序列,最终用于分析的编码序列有52条.
1.2.1 中性绘图分析 分别统计密码子3个位置上碱基的GC含量,密码子第1位、第2位和第3位GC含量循序表示为GC1、 GC2和GC3.以GC12为纵坐标,以GC3为横坐标作图,其中GC12定义为GC2和GC1的平均值.同义密码子第3位碱基的GC含量表示为GC3s.
1.2.2 相对同义密码子使用度分析 利用CodonW 软件对剑麻H.11648叶绿体基因组的52个编码基因的相对同义密码子使用度(relative synonymous codon usage, RSCU)进行分析.
1.2.3 Nc-plot 绘图分析 为检测碱基组成对密码子偏好性的影响,以有效密码子数(Nc值)为纵坐标,GC3s为横坐标,作二维散点图;以密码子偏好性仅由碱基组成决定时的预期值作为标准曲线,其计算公式为:Nc=2+GC3s+29/[GC3s2+(1-GC3s)2].
1.2.4 奇偶偏好分析 PR2(parity rule 2, PR2)分析,为了避免密码子第3位碱基的A/T或T/A和G/C或C/G的突变不均衡,仅选择4种密码子编码的氨基酸,即丝氨酸、亮氨酸、脯氨酸、精氨酸、苏氨酸、缬氨酸、丙氨酸和甘氨酸.计算每个基因A3/(A3+T3)和G3/(G3+C3),分别作纵坐标和横坐标,以平面图显示各基因碱基组成[10].
剑麻H.11648的52条编码序列的总体GC含量为38.21%.GC1、GC2、GC3含量分别为46.03%、38.36%和30.22%.GC并非均匀地分布在密码子的3个位置上,其呈现出的分布趋势为GC1>GC2>GC3.
有效密码子数(Nc)其理论取值范围为20~61,当Nc值为20时,表示每种氨基酸仅使用每组同义密码子中的1个;当Nc值为61时,表示各种同义密码子的使用机会完全均等.剑麻叶绿体基因组编码序列的Nc值分布于41.34~61.00,且均在41以上(表1).所有基因Nc值均大于40,可以判断剑麻叶绿体基因密码子偏好性较弱.剑麻H.11648叶绿体clpP基因的Nc值为61,其同义密码子的使用没有偏好性.
表1 剑麻叶绿体基因组密码子不同位置GC含量Table 1 GC content in different positions of codons in chloroplast coding sequences of H.11648
续表1
基因GC含量/%GCallGC1GC2GC3GC3s有效密码子数个psbC44.3753.5946.4133.1229.4644.99rps1441.2545.5446.5331.6829.9041.92psaB41.4148.1643.1332.9328.5950.11psaA42.8852.0643.4133.1629.1450.21ycf339.6147.0640.0031.7629.4551.91rps438.1247.0338.6128.7127.4149.24ndhJ39.6247.1738.9932.7028.8658.38ndhK37.8942.7444.4426.5024.0050.48ndhC38.5750.4134.7130.5824.3258.79atpE43.2152.5941.4835.5632.5651.62atpB42.8856.6541.7330.2428.2748.30rbcL43.1757.1743.2429.1026.1248.63accD34.3938.6136.8327.7224.1246.35ycf440.1843.7842.1634.5930.2351.71cemA33.3340.0027.3932.6128.7053.86petA39.6754.2135.8328.9727.6249.87rps1834.9737.2542.1625.4923.2341.34rpl2037.5738.9842.3731.3629.2050.40clpP41.7958.5435.6131.2227.0861.00psbB44.3454.8146.7631.4327.6549.13petD38.8349.4739.3627.6624.0245.82rpoA36.2745.5934.7128.5327.1150.67rps1145.5558.7855.7322.1419.2046.15rps835.0939.8541.3524.0621.2641.41rpl1439.0255.2836.5925.2022.8846.87rpl1643.5550.3653.2827.0122.6642.00rps335.6047.0634.8424.8922.5442.70rpl2238.7342.8641.9031.4329.0056.26rpl244.6150.9149.4533.4531.7252.93ndhB38.1042.2739.9232.0928.3147.05rps740.6053.2145.5123.0820.6747.32ndhF32.7937.0136.0725.3021.2845.04ccsA32.9232.2038.7027.8622.9252.73ndhD36.9940.8436.2533.8629.3651.42ndhE35.2940.2032.3533.3329.9060.44ndhG33.3341.8134.4623.7320.7145.20ndhI34.6240.3336.4627.0724.7153.96ndhA36.2444.9638.6925.0721.9445.23ndhH37.6549.4936.5526.9021.8047.93ycf131.4336.8029.3428.1524.9448.70ycf238.1141.8535.3037.1834.6453.24
GCall和GC1、GC2、GC3的相关性呈极显著水平.GC1与GC2的相关性也达到极显著水平, 但GC3与GC1、GC2的相关性均未达显著水平(表2).表明剑麻H.11648叶绿体编码基因密码子第1位和第2位碱基组成比较相似,但与第3位碱基组成显著不同.此外,有效密码子数(Nc)与GC3的相关性达到极显著水平,但与GC1、GC2之间的相关性未达到显著水平,说明第3位上的碱基组成对密码子偏好性影响显著.
中性绘图显示各基因坐标点未沿对角线分布或落在对角线上(图1).GC12分布于0.3307~0.5725,GC3分布于0.2214~0.3718.GC12和GC3的相关系数为0.067,双尾检验表明其相关性未达到显著水平.回归曲线斜率为0.0963.说明密码子第1、2位与第3位碱基组成不相似,自然选择对密码子使用偏好性的影响较大,而其他因素(例如突变)可能对密码子偏好性形成的影响较弱.
表2 剑麻叶绿体基因组中各基因相关参数的相关性分析1)Table 2 Correlation analysis of parameters related to genes
1)CC表示密码子数目;GCall表示各基因GC总含量;**表示在0.01水平(双侧)上显著相关;*表示在0.05水平(双侧)上显著相关.
图1 中性绘图分析Fig.1 Analysis of neutrality plot
为了进一步判断选择或突变等因素对剑麻叶绿体基因组密码子偏好性形成的影响,以各基因Nc值为纵坐标,GC3s为横坐标绘制Nc-plot曲线.标准曲线反映了在突变压力下的Nc和GC3s的函数关系.部分基因坐标点沿标准曲线分布或落在标准曲线附近,说明Nc实际值和预期值接近,暗示了这些叶绿体基因的密码子偏好性主要受到突变压力影响;而另外一部分基因坐标点偏离标准曲线(图2),说明Nc实际值和预期值之间相差较大,偏好性较强,暗示碱基组成并不是这部分叶绿体基因密码子偏好性形成的主要因素,自然选择也起到重要作用.
采用PR2-plot方法分析了剑麻H.11648叶绿体基因组各编码序列由4种密码子编码的氨基酸家族中密码子第3位嘧啶(T和C)以及嘌呤(A和G)之间的关系(图3).结果表明,坐标点并非均匀地分布于4个区域内,大多数基因分布于平面图的左下方,说明在密码子第3位A的使用频率低于T,G的使用频率低于C,即嘌呤使用频率相对较低.假如密码子使用偏好性仅受突变压影响时,则理论上4种碱基的使用频率相等.而本研究中4种碱基的使用不均衡,暗示了剑麻H.11648叶绿体密码子的使用偏好性除了受突变因素影响之外,还受到如选择等其它因素的影响.
图2 Nc-plot分析Fig.2 Analysis of Nc-plot
利用CAI程序统计52条剑麻叶绿体CDS各密码子出现次数,再手动计算RSCU值(表3).RSCU>1的密码子多以A或T结尾,暗示以A或T结尾的密码子出现频率相对较高,这些是基因组偏爱的密码子.而以G或C结尾的密码子RSCU值多小于1,暗示以G或C结尾的密码子出现的频率较低,是基因组非偏爱的密码子.剑麻叶绿体基因在终止密码子的使用上偏好TAA.
表3 剑麻叶绿体基因编码序列的同义密码子使用相对频率Table 3 RSCU analysis of protein coding region in H.11648 chloroplast genome
最佳密码子有助于实现更快的翻译速度和更高的准确度.研究表明,同义密码子的使用偏好性受多重因素影响,例如CpG岛、基因组大小、基因长度、基因表达水平、蛋白质二级结构和基因密度等[11,12].同义的三联体密码子产生这种偏好性的主要动力是自然选择和突变[13].突变压力对叶绿体基因组同义密码子使用偏好性形成的重要性也已明确[14].然而,在植物和藻类中自然选择也是同义密码子使用变异的驱动力[15].密码子偏好反映了翻译优化中突变偏好与自然选择的平衡[16].
本研究中以剑麻H.11648叶绿体基因组中的52条蛋白编码序列为研究对象,对其密码子使用特征进行了系统分析.剑麻H.11648叶绿体基因组密码子第3位GC含量为30.22%,这与柿属叶绿体基因组密码子GC3含量(30.43%)接近[17].PR2-plot分析表明,剑麻H.11648叶绿体基因组密码子第3位偏好使用嘧啶,该研究结果与前人对于棉花和糜子相关研究的结论类似[18,19].剑麻H.11648叶绿体基因组Nc值分布于41.34~61.00,表明密码子偏好性较弱;GC12和GC3的相关性未达到显著水平,表明选择在此过程起的作用更大;密码子第3位嘌呤出现频率低于嘧啶,表明密码子使用模式同时受到突变和选择压力的影响.剑麻H.11648叶绿体基因组密码子的使用偏好性是受到选择和突变等多重因素共同作用影响而形成的.这一结论与前人在其他植物叶绿体基因组中的研究结论相一致[17-19],可能与植物叶绿体基因组进化的相对保守性有关.本研究揭示了剑麻H.11648叶绿体基因组进化以及基因表达的重要信息.在今后开展剑麻H.11648叶绿体基因工程时,可以参考其偏好密码子对异源表达基因进行修饰,以提高其表达效率,也为探索在叶绿体基因组水平上建立龙舌兰属植物分类的新方法提供依据.