何亚玲,彭业军,李锦,冯斌,秦玉杰,王爱英,祝建波
(石河子大学生命科学学院,新疆 石河子 832003)
密码子是传递生命遗传信息的关键纽带,“中心法则”指出遗传信息从DNA传递到mRNA,再由mRNA以密码子的形式传递给氨基酸,最后形成具有功能的蛋白质。编码相同氨基酸的密码子称为同义密码子(synonymous codon),即存在密码子的简并性。在长期的进化过程中,不同物种、不同生物体的基因密码子使用存在着很大的差异称为密码子使用偏性(codon usage bias)。密码子偏倚广泛存在于各类生命体中,且受到多种因素的影响,如转录、碱基突变[1]、GC含量[2]以及tRNA丰度等。研究密码子的分析不仅可以有助于更好的了解各基因组在分子水平上的进化机制,对于优化基因表达系统中蛋白质的生产非常重要[3],而且可以通过对基因密码子偏性分析,预测外源基因在宿主中的表达水平或者通过基因工程技术提高外源基因在宿主中的表达效率。
叶绿体基因组由特有的四段结构组成,并且高度保守,母系遗传的特性使其能够更稳定地保留其特点,而不受环境影响[4]。叶绿体基因序列具有高保守性和进化速率低的特点,在物种鉴定以及植物系统进化方面发挥着重要作用。通过对叶绿体基因组密码子偏性的分析,将有助于理解进一步揭示叶绿体的起源与分子进化[5]。目前,植物叶绿体基因组密码子偏好性的研究,在大花香水月季[6]、陆地棉、禾本科植物和柿属植物[7]中均有报道。
天山雪莲(S.involucrate)是菊科多年生草本植物,是我国西部高山地区特有的名贵中草药植物[8],富含多种对人体健康有益的化学成分。已从雪莲中分离和鉴定出70多种化合物[9],包括黄酮类,类固醇、生物碱、木脂素类以及多糖类等,它们对于提高人体健康水平有很大的影响,尤其是在对人体机能方面起到很好的调理及保健作用。关于雪莲的传统用途已通过植物化学和现代药理学研究得到验证,其药用价值已被证明具有抗肿瘤、抗氧化[10]、抗衰老、抗炎[11]、镇痛、抗疲劳、清除自由基、治疗慢性支气管炎和神经保护等作用。天山雪莲叶绿体基因组的测序已经完成,但是对于其密码子偏好性的系统比较和分析至今尚未进行。本研究首次针对天山雪莲叶绿体基因组密码子偏好性进行分析,将为研究密码子的分布和进化机制提供参考。
完整的天山雪莲叶绿体基因组(登录号:NC_029465)从NCBI(https://www.ncbi.nlm.nih.gov)中获得,手动提取基因组中的蛋白编码序列。共下载到不含重复的80条编码序列(CDS),由于短长度的CDS通常导致密码子使用的估计误差很大,因此为了避免样本误差,该研究选择以ATG为起始密码子的非重复且长度大于300 bp的50条CDS用于后面的数据分析。
1.2.1 密码子偏好性分析
以选取的50条CDS为研究对象,运用CodonW1.4.2软件分析和统计密码子偏好参数:基因GC总含量,记为GC。ENC用于测量密码子使用偏倚程度,值在20~61之间,值越小,说明编码氨基酸的同义密码子越少,密码子使用的偏好程度就越强、RSCU指实际密码子出现的频率除以预期的频率,是CUB的重要指标。RSCU大于1时,表示同义密码子比预期使用频率更高;RSCU小于1时,该密码子的使用频率低于同义密码子。密码子适应指数(CAI),取值从0到1,基因表达水平越高,同时密码子的偏好使用度也就越强、密码子偏好性指数(CBI)、最优密码子使用频率(FOP),该基因表达为蛋白质的疏水性(Gravy),密码子第3位碱基中出现的G或C的频率记为GC3 s。通过EMBOSS(http://imed.med.ucm.es/EMBOSS/)中的CUSP程序分析天山雪莲叶绿体基因组中各基因密码子的第1、2、3位的GC含量,分别记为GC1、GC2和GC3。天山雪莲叶绿体基因组中各基因的部分参数的相关性及显著性用SPSS 22.0软件分析。
1.2.2 中性绘图分析
为了初步判断是突变还是选择主要影响密码子偏好性,中性绘图分析以GC3为横坐标,依据GC1和GC2的平均值GC12为纵坐标,绘制散点图,每一个散点代表一个基因。若GC12与GC3之间显著相关,且回归线斜率接近1,表示3个位置上的碱基组成无明显差异,密码子偏好性主要受突变的影响。若GC12与GC3之间相关性不显著,说明第1,2位和第3位碱基使用模式存在差异,选择是影响密码子偏好性的主要因素。
1.2.3 ENC-plot绘图分析
有效密码子经常用于量化一个特定基因中的密码子偏好性,是反映同义密码子非均衡使用的偏好性评估指标。ENC的报告值总是在20和61之间。为了进一步了解影响基因组密码子偏好性的因素,ENC-plot绘图分析以GC3S为横坐标,ENC为纵坐标,构建二维散点图,并在坐标系中添加ENC的标准曲线,标准曲线方程为:
ENC=2+GC3S+29/(GC3S2+(1-GC3S)2)。
标准曲线代表无选择压力时,密码子偏好性完全由突变决定。
1.2.4 PR2-plot分析
奇偶校验规则2(PR2-bias plot analysis)是为了揭示不对称突变和选择压力存在的有用方法。PR2是对密码子第3位上A、T、C和G这4种碱基的组成情况进行分析,并以G3/(G3+C3)为横坐标,以A3/(A3+T3)为纵坐标绘图。在该图中,图中心点是A=T和G=C的位置,表示在突变和选择中两个互补的DNA链之间没有偏差。
1.2.5 对应性分析
对应性分析是一种常用的多变量统计技术,广泛用于分析多维数据将样本中所有基因绘制在59维空间中,然后分析其所有指标的相关性。通过分析基因向量以及基因间值的变异情况,可判断密码子偏好性的主要影响因素。
1.2.6 最优密码子确定
本研究通过对高频率和高表达密码子的分析,筛选出最优密码子。以ENC参数为标准对所有样本基因排序,两端各取10%基因,分别建立高低表达库,取两库中ΔRUCS>0.08的密码子作为高表达密码子。筛选出RSCU>1的高频密码子和ΔRUCS>0.08的高表达优越密码子共有的作为雪莲叶绿体基因组中的最优密码子。
通过CodonW软件计算出天山雪莲叶绿体基因组的50条DNA编码序列参数(表1)。叶绿体基因组密码子3个碱基的平均GC含量为38.50%,且密码子上不同位置GC并不是均匀分布的,分布趋势为GC1(46.70%)>GC2(39.90%)>GC3(27.70%)。此外,GC含量的差异在第1密码子位置最大,其次是第2和第3位置。同义密码子的平均GC含量为24.90%,说明第3位密码子偏好使用A、U碱基。ENC被广泛用于测量单个基因的密码子偏倚水平,其变化范围在35.59~57.43之间,大多数ENC值显示该基因组密码子偏性较弱。
密码子参数的相关性分析结果显示:GC与GC1、GC2、GC3之间的相关性均达到了极显著水平,其相关系数分别为0.836、0.723、0.369,GC1和GC2显著相关,而GC3与GC1和GC2相关均不显著(表2),说明叶绿体基因组密码子碱基组成中,第1位和第2位使用模式相似,与第3位差异较大。GC和GC1两个参数与CAI、CBI、FOP呈显著相关。蛋白质长度与GC3含量呈极显著相关,表明更明显的GC3含量差异可能在于较短的蛋白质。
表2 密码子参数的相关性分析
为了分析密码子的使用模式,该研究进一步研究了RSCU(表3)。结果表明第三位置具有A或U密码子的偏差,其RSCU值大于1的密码子数目为30个,有29个以A/U结尾,还有一个以G结尾,说明叶绿体基因组密码子的偏好碱基为A或U。
表3 天山雪莲叶绿体基因同义密码子相对使用度分析
中性绘图分析结果显示:雪莲叶绿体基因组具有窄的GC分布,GC3的变化范围为20.10%~37.00%,GC12的取值范围为34.10%~56.20%。绝大多数基因都落在对角线上方,GC12大多数高于GC3。GC12和GC3之间的相关系数为0.062,无显著相关性,并且回归曲线近乎平行于x轴,说明密码子不同位置碱基第1、2和3位之间的关联性不大,在进化方式之间存在一定的差异,突变对密码子偏好性的影响较弱,选择可能在叶绿体密码子使用形成中起主导作用(图1)。
图1 天山雪莲叶绿体基因中性绘图分析
通过ENC-plot绘图分析核苷酸含量和密码子使用之间的关系,结果显示:大多数基因的ENC与基于GC3S的预期ENC相似,都遵循抛物线轨迹,但是有几个基因的ENC值远远低于标准曲线(图2)。标准曲线代表无选择压力存在时,密码子偏好性完全由突变决定。为了更进一步的显示ENC值远低于标准曲线的部分非基因,计算了其ENC比值(即(预期ENC值-实际ENC值)/预期ENC值),在此基础上分析所有样本基因的ENC频数分布(表4)。结果显示,88.00%的基因分布在-0.1~0.1之间,这一范围内实际ENC与预期ENC值相差较小,因此雪莲叶绿体基因组的偏好性与GC3的差异相关。说明影响其偏好性主要因素为选择。
图2 ENC-plot绘图分析
表4 ENC 比值频数分布
为了研究这些有偏向性的密码子是否仅在高度偏向的蛋白质编码基因中出现,通过PR2偏差分析了四个密码子氨基酸家族中第3位上嘌呤(A和G)和嘧啶(T和C)之间的关联。结果如图3所示:整个范围内的密码子使用情况,G3/G3+C3(平均值为0.501)要高于A3/A3+T3(平均值为0.476)。PR2的偏差程度使我们能够估计受突变、选择二者影响的偏差。从图3可以看出基因是不均匀地分布在平面内的4个区域中的,大多数基因落在平面的左下区域或右下区域,而且富集基因组使用T和G的频率大于A和C。这些结果显示出雪莲叶绿体基因组密码子的使用在第3个碱基上的不平衡,并表明不仅突变,选择和其他因素同样也会决定密码子的使用模式。
图3 PR2-plot 分析
基于相对同义密码子(RSCU)的COA可以产生一系列正交轴以反映导致密码子使用变化的趋势[22],前4轴的贡献率分别为17.61%、11.59%、7.97%和5.8%,这4条向量轴的总贡献率为42.97%。为了更直观的观察密码子偏好,建立以第1轴为x轴,第2轴为y轴的平面系。根据天山雪莲叶绿体基因的功能,可将分析的50条序列分为5类:第1类是编码光合系统蛋白的基因25个,包括psa、psb、ndh、pet、atp和rbcL基因;第2类是编码核糖体蛋白的基因13个,包括rpl和rps基因;第3类是和遗传结构相关的基因4个,即rpo基因家族;第4类是保守的ycf基因3个;第5类是编码其他蛋白的基因5个。将所有样本基因添加于坐标系中,结果如图4所示:遗传系统基因和核糖体蛋白基因分布相对集中,说明这些基因的密码子使用模式相近;而其他基因分布相对比较分散,可能是由于密码子使用模式存在差异导致密码子偏好性相差较大。在4个轴中,由于第1轴是引起变异的主要因素,且贡献率要远高于其他3个轴,因此本研究着重分析第1轴(表5)。第1轴与CAI、CBI、FOP、GC3S和GC均达到了极显著水平,而与ENC的相关性较弱,由此说明密码子的偏好性并非由单一因素引起,而是受到突变,选择等其他多种因素的影响共同造成。
图4 基于RSCU的对应性分析
表5 第一轴与各度量指标的相关性分析
对50个样本基因的ENC值进行排序,从两端各取10%建立高低表达库,然后比较两个偏差库的RSCU值(表6),从中筛选出△RSCU≥0.08的氨基酸。最终确定了AUA、GUA等28个高表达优越密码子(表6中标记*的密码子)。对这28个高表达密码子的第3位碱基进行分析,发现有24个以A/U结尾,4个以G结尾。如表6所示:RSCU>1的密码子有30个,其中29个以A/U结尾,1个以G结尾,说明密码子偏好以A或U碱基结尾基。最终确定了UUU、UUA等30个密码子为天山雪莲叶绿体基因组的高频密码子。
表6 天山雪莲叶绿体基因同义密码子相对使用度
对28个高表达优越密码子和30个高频密码子进行分析,筛选出两者共有的密码子作为最优密码子。最终确定出22个密码子作为天山雪莲叶绿体基因组的最优密码子,分别为UUU、UUA、GUA、UCU、UCA、CCU、CCA、ACU、ACA、GCU、UAA、CAU、AAU、AAA、GAA、UGU、CGU、CGA、AGU、AGA、GGU、GGA,这22个最优密码子的第3位碱基有11个以A结尾,有11个以U结尾,没有以C或G结尾的。
密码子使用偏差(CUBs)是基因组中的一个重要进化特征,密码子使用偏好性是物种不断进化适应的结果,其形成机制受各种生物因素的影响,例如基因长度[12]、基因表达水平、突变偏倚和GC含量[13]。在植物中,核酸组成成分在核基因密码子偏好性中起主要影响作用[14],而自然选择和突变压在对叶绿体和线粒体基因组密码子使用的偏好程度中影响显著,并且它们已经被广泛用于解释基因组内密码子使用的特异性和内变性[15]。
根据CAI和ENC,雪莲大多数最佳和优选密码子叶绿体基因组以A或U结尾。雪莲叶绿体基因组的这种A/U端偏向可能与其基因组低GC含量相符,尤其是与其第三密码子的低GC含量平均值约为27%相关。它与大多数生物体的模式相似,即富含G/C的物种倾向于拥有富含G/C的最佳密码子,而富含A/U的物种则更喜欢富含A/U的最佳密码子,从而揭示了确定雪莲叶绿体CUB的核苷酸组成。
基因组CDS序列分析显示,雪莲叶绿体基因组编码蛋白密码子偏好以A/T碱基结尾,A/T含量越高。这与多数植物,如樟树、普通油茶[16]、金莲花[17]、蒺藜苜蓿[18]等物种的研究结果类似。突变和自然选择等因素的影响导致同义密码子编码氨基酸的概率是不一样的,这种现象很明显的表现在:1)不同物种的同一基因其密码子使用存在偏好性,2)同一物种不同基因其密码子使用偏好性也各不相同。
第3位碱基在密码子偏性以及物种进化中的自我保护机制中起着主导作用[19];ENC-plot和PR2-plot分析均发现雪莲叶绿体基因组的偏好性较弱,主要受选择的影响,同时也受其他因素的综合影响。
尽管已知植物叶绿体基因组的CUB倾向于A/U偏好结尾,主要受核苷酸组成和选择压力的因素影响[20],比较了光合作用相关基因和遗传系统之间的CUB基因。我们发现:光基因的CAI值总是比遗传相关基因高。作为分析CUB的最广泛使用的指标之一,CAI衡量给定程度相对于一组参考基因使用高密码子的基因。雪莲叶绿体基因组的光基因组始终具有较高的CAI值,因此存在较高的基因表达。这些结果可能支持光基因具有更高表达的观点,植物的快速生长需要与光合作用相关的高表达基因。
同义密码子的使用模式通常与基因的表达水平相关,通过分析高表达水平的基因与低表达水平的基因密码子的组成,即整合高表达优越密码子分析法以及高频密码子分析法二者共有的密码子,为防止由于单方面出现问题而导致结果偏差,最终从雪莲叶绿体基因组中鉴定了UUU、UUA、GUA等22个最优密码子,且所有这些密码子都是以A或U残基结束,这与樟树[21]、水稻、糜子[5]以及抽筒竹[22]的分析结果相似。这些最优密码子对于点突变的引入以及探索和理解物种的分子进化机制提供有用信息。此外,对这些密码子通过基因工程技术加以改造,可以提高目的基因在宿主中的表达量。
本研究首次系统分析了天山雪莲叶绿体基因组密码子的使用模式,并确定了影响密码子使用偏差的因素,为理解同义密码子的偏向使用机制及药用植物叶绿体基因工程利用提供了参考依据。