田春育, 武自念, 李贤松, 李志勇*
(1.中国农业科学院草原研究所, 内蒙古 呼和浩特 010010; 2.内蒙古大学生态与环境学院, 内蒙古 呼和浩特 010021)
遗传信息从mRNA流向蛋白过程中,密码子发挥至关重要的作用。64种密码子中,除3种编码终止密码子外,其余61种共编码20种氨基酸,其中蛋氨酸(Met)和色氨酸(Trp)只由一种密码子编码,其余18种氨基酸由2~6种密码子进行编码,编码同种氨基酸的不同密码子被称为同义密码子。同义密码子在不同基因组、甚至在同一基因组不同基因中使用的概率存在有一定的差异,同义密码子的不均等使用现象即为同义密码子的使用偏好性[1]。研究表明突变以及选择压力是影响密码子使用偏好性的主要因素[2]。密码子使用偏好性不仅有助于物种进化研究[3],同时还可作为基因表达标尺预测基因的表达水平,从而可从分子水平上了解进化过程[2]。
叶绿体是一个重要的半自主细胞器,能够吸收二氧化碳释放氧气,同时将光能转变为化学能为绿色植物提供能量[4]。由于叶绿体基因组母系遗传的特点,其基因组较为稳定,在阐明物种间遗传进化关系,探索植物系统发育关系方面起着关键的作用[5]。由于其基因组的高度保守性,叶绿体的一些区域常作为DNA编码被使用[2]。目前,叶绿体基因组的各种研究已得到广泛应用,如利用叶绿体基因组对物种进行亲缘关系发育分析[6]以及对物种叶绿体基因组进行密码子偏好性分析以阐明影响物种进化的主要因素[2]。
扁蓿豆(Medicagoruthenica)营养价值高,适口性好,抗逆性强,是一种优良的多年生牧草,广泛分布于温带和寒温带的典型草原、沙质草原等植被类型区[7]。研究表明扁蓿豆可为苜蓿的遗传改良提供有价值的基因[8]。外源基因的表达是叶绿体工程育种的关键环节,而外源基因的表达又会受到密码子偏好性的影响[9]。前人已对扁蓿豆叶绿体基因组进行了充分研究,其基因组全长126 939 bp,属蝶形花亚科IRL(Inverted repeat lacking)分枝。该基因组含有30个tRNA,4个rRNA及73个蛋白编码基因即共107个基因。因此,本文基于扁蓿豆叶绿体基因组已公开的数据对偏好性特征以及影响因素进行分析,以期为扁蓿豆叶绿体基因组优良基因的选择与利用提供一定的理论依据。
从NCBI数据库下载扁蓿豆完整的叶绿体基因组(GenBank登录号为NC_053371.1)。为了更加准确进行密码子偏好性分析及其影响因素,本研究剔除掉长度小于300 bp基因编码序列,并挑选起始密码子为ATG,终止密码子为TAG,TGA,TAA的50条蛋白编码序列进行后续分析[9]。
1.2.1密码子碱基组成分析 将筛选后的50条蛋白编码序列整合到一个.fasta文件中,利用软件CodonW 1.4.2分析密码子适应指数(Codon adaptation index,CAI)、最优密码子使用频率(Frequency of optimal codons,Fop)、密码子偏爱指数(Codon bias index,CBI)、相对同义密码子(Relative synonymous codons usage,RSCU)和有效密码子字数(Effective number of codon,ENC);利用在线程序CUSP(http://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)计算密码子各位置的GC含量(GC1,GC2,GC3,GCall)。
同义密码子的使用偏度一般用ENC值进行衡量,其取值范围为20~61,值越大表示密码子使用偏性越弱,即20表示每个氨基酸只使用了一个密码子,61表示每个密码子都被平均使用。RSCU表示某个密码子的实际值与理论值间的比值,当RSCU>1时表明该密码子实际值高于理论值,RSCU<1时表明其实际值低于理论值,RSCU=1该密码子无偏好性[10]。
利用软件SPSS 24对扁蓿豆叶绿体基因组中密码子不同位置的GC1,GC2,GC3,GCall以及ENC进行相关性分析,以此作为判断密码子偏好性的依据。
1.2.2中性绘图分析 中性绘图分析可以初步用来判断密码子使用偏好性影响因素[11]。对密码子每个位置的GC含量进行统计,分别用GC1,GC2,GC3表示密码子第1位,第2位以及第3位的GC含量,以GC12(第1位和第2位GC含量的平均值)为纵坐标,GC3为横坐标绘制散点图进行中性绘图,其中每一散点代表一个基因。同时进行回归分析并在图中添加回归线,若回归回系数接近于1,表明密码子三个位置的碱基组成相似,密码子的偏好性主要以突变影响为主,反之说明密码子第1,2位与第3位的碱基组成有差异且偏好性主要以选择影响为主[12]。
1.2.4PR2-plot分析 以G3/(G3+C3)为横坐标,A3/(A3+T3)为纵坐标绘制平面图进行PR2-plot分析。该图中心点表示A=T且C=G,当A=T且C=G,密码子的偏好型完全受突变影响。该分析可用于表示第三位碱基嘌呤和嘧啶的突变是否平衡[15]。
1.2.5最优密码子确定 依据表1得到的结果,对扁蓿豆50条蛋白编码序列的ENC值进行排序,从两端各挑选10%(5个基因)构建高低表达库。将高低表达库的所有序列整合到一个.fasta文件中再次利用软件Codon W 1.4.2 计算RSCU。RSCU>1的密码子为高频率密码子,△RSCU(RSCU高表达- RSCU低表达)≥ 0.08的密码子为高表达密码子,同时满足以上两个条件的密码子即为扁蓿豆的最优密码子[16]。
利用Codon W 1.4.2对扁蓿豆叶绿体基因组进行分析,结果表明,GCall的平均含量为40.58%。不同位置的密码子含量并不相同,密码子第1位、第2位以及第3位的GC平均含量分别为46.33%,38.30%和37.10%(表1),GC3的平均含量最低,表明密码子第三位偏好以A/U结尾。
有效密码子数ENC表示基因中使用的有效密码子的数量。ENC值介于20~61之间,值越大表示每个密码子被平均使用,使用偏好性越弱,一般以ENC值为35作为区分密码子使用偏好性强弱的标志[17]。Codon W 1.4.2分析结果表明,扁蓿豆50条CDS序列ENC值介于35.77~56.62之间且全部大于35,表明扁蓿豆的密码子使用偏好性较弱(表1)。
表1 扁蓿豆叶绿体基因组GC含量以及ENC值
对扁蓿豆叶绿体密码子各项系数进行相关性分析,如表2所示,GCall与GC1,GC2,GC3均极显著相关;GC1与GC2呈极显著正相关,表明密码子第一位与第二位的碱基组成具有一定的相似性,但与第三位有差异;ENC与GC3达到显著相关水平,与GC1,GC2,GCall相关性不显著,表明ENC值主要受GC3影响(表2)。
表2 扁蓿豆叶绿体密码子50条CDS序列的相关系数分析
对扁蓿豆叶绿体密码子RSCU值分析表明,RSCU>1的密码子有30个,其中16个以U结尾,13个以A结尾,1个以G结尾(表3)。
表3 扁蓿豆叶绿体基因组相对同义密码子使用度
中性绘图分析(图1)表明,GC3的取值范围介于0.19~0.34之间,GC12的取值范围介于0.30~0.53之间。基因全部落在对角线以上,GC12与GC3的相关系数为0.1685,回归系数为0.2634,表明密码子第1,2位碱基和第3位碱基组成存在差异但相关性不显著,表明密码子偏好性以选择影响为主。
图1 中性绘图分析
ENC-plot分析结果表明,大部分基因位于回归曲线下方且据标准曲线的距离较远,表明扁蓿豆密码子偏好性主要以选择影响影响(图2)。ENC频数分布表(表4)显示,22个基因分布在—0.05~0.05之间,其ENC值与预期接近,接近标准曲线;28个基因分布在—0.05~0.05之外,其ENC值与预期相差较大,距离标准曲线较远。频数分布分析进一步表明扁蓿豆叶绿体基因组密码子的偏好性受选择影响较大,受突变压力影响较小。
图2 ENC-plot分析
表4 ENC频数分布表
对扁蓿豆叶绿体密码子进行PR2-plot分析,结果如图3所示。其中只有1个基因位于中线上,位于右下方的基因最多,从而表明密码子第三位的使用具有偏好性,并且碱基T的使用频率大于碱基A,碱基G的使用频率大于碱基C。以上结果进一步表明扁蓿豆叶绿体密码子使用偏好性不仅受到突变的影响,同时也受到其他因素的影响。
图3 PR2-plot分析
将扁蓿豆叶绿体50条CDS序列的ENC值由高到低排列,从两端分别选取10%(各5个)构建高低表达库,利用Codon W 1.4.2分析高低表达库的RSCU,并计算ΔRSCU值(ΔRSCU=RSCU高表达库- RSCU低表达库)(表5)。分析结果表明,ΔRSCU≥0.08,即高表达优越密码子共有17个,其中5个以A结尾,6个以U结尾,5个以G结尾,1个以C结尾(以*标注)。ΔRSCU≥0.08且RSCU≥1的密码子为最优密码子。在扁蓿豆叶绿体基因组中最优密码子共11个(下划线标注),分别为UUU,UUA,CUU,ACU,GCU,AAU,AAA,GAA,AGU,GGA以及CGA,其中6个密码子以U结尾,5个以A结尾。
表5 扁蓿豆叶绿体基因组最优密码子分析
叶绿体基因的碱基组成在植物的进化过程中起着十分关键的作用[18]。同义密码子偏好性使用现象在各类植物中都有存在,研究表明,GC含量、tRNA丰度、蛋白质的结构与氨基酸的组成等都会对密码子使用偏好性产生一定的影响[19]。GC含量是衡量生物体密码子碱基组成重要指标[20]。在本研究中,扁蓿豆叶绿体基因组密码子GC平均含量为40.58%,且GC1(46.33%)> GC2(38.30%)> GC3(37.10%),研究结果表明该物种倾向使用NNU/NNA类型的密码子,该研究结果与蒺藜苜蓿的研究结果一致[21]。对扁蓿豆叶绿体基因组进行RSCU分析,RSCU值>1的30个密码子中,只有一个以G结尾,无以C结尾的密码子,该结果再次证明扁蓿豆叶绿体倾向使用NNU/NNA类型的密码子。
密码子ENC值通常介于20~61之间,ENC值越小表明密码子的使用偏好性越弱,当ENC值为35时表明密码子无偏好性[17]。分析表明,扁蓿豆叶绿体基因组密码子最低ENC值为35.77,密码子使用偏好性较弱。RSCU是指对于某一特定的密码子在编码对应氨基酸的同义密码子间的相对概率,它去除了氨基酸组成对密码子使用的影响。当某一密码子的RSCU>1时,表示该密码子使用频率较高。扁蓿豆叶绿体基因组中,RSCU>1的密码子共有30个,该研究结果与Liu和Xue对拟南芥以及Zhou等人对银白杨的研究结果高度一致,该二者叶绿体基因组中RSCU>1的密码子均为30个[22-23]。但不同物种高频率密码子并不保守,如蒺藜苜蓿、紫花苜蓿以及本研究中的扁蓿豆使用频率最高的密码子均为UUA[9,20],而在一些单子叶植物中,UCC为使用频率最高的密码子[24]。
中性绘图及ENC-plot分析表明扁蓿豆叶绿体基因组的偏好性较弱,并且主要受到选择压力的影响。PR2-plot分析表明扁蓿豆叶绿体基因组的偏好性除受到选择压力的影响外,其余因素也会影响叶绿体密码子的偏好性。因此,在扁蓿豆的进化过程中,其叶绿体密码子偏好性主要以选择影响为主,该结果与前人对灯盏花[25]、紫花苜蓿[9]、马尾松[26]等的研究结果相类似,而籽粒苋[9]主要以突变影响为主,芒果[27]、圆锥南芥[28]等则受到突变和选择等因素共同作用的影响。以此推断密码子偏好性影响因素可能与物种有一定的关系,但具体影响机制还需进一步探究。
通过分析,扁蓿豆叶绿体基因组中最优密码子共11个,其中6个以A结尾,其余5个以U结尾,最优密码子中没有以G/C结尾的密码子,以上结果与紫花苜蓿[9]、蒺藜苜蓿[20]等多数物种叶绿体基因组中最优密码子的分析结果一致。最优密码子结果表明在利用扁蓿豆进行基因工程研究设计外源基因时,选用以A/U结尾的密码子在某种程度上可以提高外源基因的表达转化效率,为科学制定种质保存和更新策略提供理论依据和实践指导[29]。
扁蓿豆叶绿体基因组密码子偏好性主要受到选择压力的影响,但其他因素也会影响扁蓿豆叶绿体基因组密码子偏好性。该研究确定了11个最优密码子,可为优良基因的选择与利用提供一定的依据。