包国媛, 李文辛, 杨鑫光, 王雅琼,2,3,4
(1.青海民族大学生态环境与资源学院,青海 西宁 810007; 2.青海省特色经济植物高值化利用重点实验室,青海 西宁 810007; 3.青海省生物技术与分析测试重点实验室,青海 西宁 810007; 4.青藏高原资源化学与生态环境保护国家民委重点实验室,青海 西宁 810007)
密码子偏好性是生物基因组进化的一个重要特征[1],植物密码子偏好性研究对探究植物分子进化和外源蛋白质表达有着重要的意义[2]。植物在进化过程中密码子的使用会受到环境选择、碱基突变、基因漂变等因素的影响[3-4]。作为传递生物遗传信息的序列单位,密码子具有简并性,常出现2个或多个密码子编码同一种氨基酸的现象[5]。编码同一种氨基酸的不同密码子称为同义密码子 (synonymous codon)[6]。64个密码子编码20种氨基酸和3个终止密码子[6]。同义密码子在不同基因组中使用的频率并不相同,甚至在同一基因组的不同基因中也不相同,这种不平等使用同义密码子的现象被称为同义密码子使用偏好性[7]。
海甜菜(Betavulgarissubsp.)是所有驯化甜菜的祖先[8-9],通常被称为野生甜菜,起源于马德拉群岛[10-11]。海甜菜亚种主要有4个,而全部的栽培种属于Betavulgarissubsp.vulgaris亚种[12-13]。海甜菜种群在干旱和盐碱化高的地区有较好的适应性[14]。中国海甜菜栽培种(甜菜)主要分布在东北、西北和华北等地区[15]。海甜菜根富含多种营养成分、维生素和生物活性物质,具有较高的抗氧化性能,在食品生产中得到了较多的应用[16-17]。
叶绿体和线粒体是植物能量利用和转化的主要细胞器[18-19]。线粒体基因组具有重排进化快、DNA插入容易等特点[20-21],而叶绿体基因组具有较小的进化率和较大的保守性,基因拷贝数较多、单亲遗传等特点[22]。目前,对植物线粒体基因组的研究主要侧重于基因结构与功能、基因表达水平调控、核质互作及线粒体的起源进化等领域[23-24],对叶绿体基因组的研究侧重植物叶绿体遗传进化等方面[25]。
目前海甜菜完整线粒体和叶绿体基因组已经公布[26],但海甜菜细胞器基因组密码子使用偏好性还缺乏分析。本研究利用Codon W 和CUSP软件和海甜菜线粒体和叶绿体细胞器基因组的蛋白质编码序列(CDS),结合密码子使用的中性绘图分析、有效密码子数(ENC-plot)分析、偏倚性(PR2-plot)分析,明确海甜菜细胞器基因组密码子使用的偏好性及最优密码子。以期为海甜菜基因资源的利用和其他相关研究提供依据。
海甜菜线粒体和叶绿体基因组完整序列均来自NCBI数据库(GenBank接收号为:FP885845.1和ON641300.1)。依据密码子偏好性分析的序列选择标准[27],在基因编码序列(CDS)中,选择长度>300 bp,以ATG开始,TAG、TAA、TGA结尾,内部不存在终止密码子及重复序列的编码序列进行分析。
利用Codon W 软件分析线粒体和叶绿体基因组中符合密码子偏好性分析条件的CDS序列,获得各CDS的有效密码子数(ENC)、同义密码子相对使用度(RSCU)[28]。利用CUSP在线软件(http://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)分析密码子第1位碱基G+C含量(GC1)、第2位碱基G+C含量(GC2)、第3位碱基G+C含量(GC3)、3位碱基平均G+C含量(GCall)、第3位碱基上A、T、C、G碱基的含量A3、T3、C3、G3及同义密码子第3位碱基G+C含量(GC3S)等参数[29-30]。
以线粒体和叶绿体基因密码子GC1和GC2平均值GC12为纵坐标,GC3为横坐标制作中性图[31]。若GC12与GC3之间显著相关,回归曲线斜率接近于1,表明密码子偏好性的成因主要源于碱基突变,反之则说明密码子偏好性受到自然选择影响较大[32]。
以线粒体和叶绿体基因密码子GC3为横坐标,ENC为纵坐标绘制ENC-plot图。以公式ENCexp=2+GC3+29/[GC3+(1-GC3)2][33]绘制标准曲线。以(ENCexp-ENCobs)/ENCexp计算各基因有效密码子比值(ENCobs为各基因实际ENC),并进行海甜菜线粒体和叶绿体基因组有效密码子比值频数分布分析。基因密码子ENC取值范围为20~61。当ENC取值为20时,表示每个氨基酸只使用一个密码子,为极端偏好;ENC取值为61时,表示密码子偏向随机使用,不存在使用偏好[34-35]。
以海甜菜线粒体和叶绿体基因组G3/(G3+C3)为横坐标,A3/(A3+U3)为纵坐标,制作基因密码子偏倚分析图(PR2-plot)[28]。PR2-plot图中心点代表无偏性使用时的密码子状态,即A=U且C=G,其余点与中心点的矢量距离则代表各基因密码子碱基偏倚程度和方向[36]。
以海甜菜线粒体和叶绿体各基因的ENC排序,从前后两端各选取10%的基因,分别建立高表达基因库和低表达基因库,利用软件Codon W计算高表达和低表达基因同义密码子相对使用度(RSCU)及其差值(△RSCU),定义△RSCU≥0.08且高表达基因RSCU≥1.00的密码子为最优密码子[37-38]。
本研究共筛选得到136个海甜菜线粒体基因编码序列(CDS)和52个叶绿体基因编码序列。线粒体基因组密码子3位碱基平均G+C含量(GCall)为43.42%,GC1、GC2、GC3及GC3S分别为46.98%、41.21%、42.06%及42.23%(表1)。叶绿体基因组密码子3位碱基平均G+C含量(GCall)为37.92%,GC1、GC2、GC3及GC3S分别为 46.67%、39.11%、27.97%及28.13%(表2)。线粒体基因组ENC的均值为52.23,介于36.44~61.00,ENC>45的基因有121个;叶绿体基因组有效密码子数(ENC)介于35.00~52.01,均值为46.10,ENC>45的基因有35个。本研究中海甜菜线粒体基因组ENC均值为52.23,叶绿体均值为46.10,更加接近61,说明海甜菜线粒体和叶绿体基因组密码子偏好性较弱。
表1 海甜菜线粒体基因编码序列(CDS)密码子各位置的G+C含量及有效密码子数
续表1 Continued 1
续表1 Continued 1
续表1 Continued 1
表2 海甜菜叶绿体基因编码序列(CDS)密码子各位置的G+C含量及有效密码子数
续表2 Continued 2
线粒体基因组密码子参数间的相关性如表3所示。GCall和GC1、GC2、GC3都呈极显著相关,GC1和GC2呈显著相关,GC1和GC3呈极显著相关,GC2与GC3呈极显著相关;ENC与GC1呈显著相关,与GC2不相关,与GC3和GCall呈极显著相关;ENC、GC1、GC3和密码子数均不相关,GC2与密码子数呈极显著负相关。ENC与密码子第1位碱基组成密切相关,与密码子数不相关,可能的原因是基因序列长度对密码子使用偏好性的影响很小,这与蔡元保等研究结果一致[32]。叶绿体基因组密码子参数间的相关性如表4所示。GCall和GC1、GC2、GC3呈极显著相关,GC1和GC2呈极显著相关,与GC3呈显著相关,GC2与GC3无显著相关性;ENC与GC3呈极显著相关,与GC1、GC2、GCall不相关;密码子数与ENC、GC1、GC2、GC3均不相关。海甜菜线粒体和叶绿体基因组密码子的使用偏好性均受到G+C含量、ENC和密码子第1位碱基的影响。其中,线粒体基因组密码子的使用偏好性与G+C含量密切相关,而叶绿体基因组密码子的使用偏好性则与ENC和GC3密切相关。
海甜菜线粒体和叶绿体基因同义密码子相对使用度如表5所示。线粒体基因高频密码子(RSCU>1)有28个,其中11个以A结尾,2个以G结尾,15个以U结尾;低频密码子(RSCU<1)共有34个,其中5个以A结尾,16个以C结尾,12个以G结尾,1个以U结尾。叶绿体基因高频密码子有30个,其中11个以A结尾,12个U结尾,4个以G结尾,3个以C结尾;RSCU为1的密码子共2个,分别为AUG和UGG;低频密码子共有32个,这表明海甜菜线粒体和叶绿体基因组中使用度较高的密码子是以A和U结尾,此结果与沙枣叶绿体基因组相同[39]。
表4 海甜菜叶绿体基因密码子参数间的相关性
表5 海甜菜线粒体基因和叶绿体基因同义密码子相对使用度(RSCU)
续表5 Continued 5
海甜菜线粒体和叶绿体基因组中除甲硫氨酸(Met)和色氨酸(Trp)分别由1个密码子AUG和UGG编码之外,剩余氨基酸由2~6个密码子编码,且都表现出明显的使用偏好性。在编码亮氨酸(Leu)的6个密码子中,UUA的RSCU最大,线粒体基因组中为1.264 8,叶绿体基因组中为2.065 2,表明UUA具有很高的偏好性,是海甜菜线粒体和叶绿体基因组中常用的密码子。
海甜菜线粒体基因组GC12的取值范围在33.12%~58.91%,GC3的取值范围在21.37%~60.38%,GC12与GC3的相关系数为0.346,无显著相关性(图1A)。这说明海甜菜线粒体基因组密码子第3位与第1、2位碱基突变模式不相同,比起碱基突变密码子偏好性更易受到自然选择的影响,这与睡莲属植物的结果相似[40]。叶绿体基因组GC12的取值范围在32.46%~55.04%,GC3的取值范围在21.43%~36.01%,GC12与GC3的相关系数为0.286,也无显著相关性(图1B)。此外,图1B所有点均在1∶1线上方,说明所有基因GC12>GC3,即密码子第3位的G+C含量偏低,密码子偏好性受自然选择的影响大。
A:线粒体;B叶绿体。图1 海甜菜线粒体和叶绿体基因密码子中性绘图Fig.1 The neutral mapping of mitochondrial and chloroplast gene codons in Beta vulgaris subsp.
海甜菜线粒体和叶绿体基因组有效密码子比值频数分布及ENC与GC3的关系图(ENC-plot)分别如表6和图2所示。海甜菜线粒体基因ENC大多偏离标准曲线(图2A),仅有39个基因有效密码子比值频数分布在-0.05~0.05区,这39个基因与预期ENC较接近,其余的97个基因分布在-0.05~0.05之外。叶绿体基因ENC也大多数偏离标准曲线(图2B),分布在-0.05~0.05的基因14个,其余38个基因分布在-0.05~0.05之外。与叶绿体基因组相比,线粒体基因组有更多基因远离标准曲线,表明线粒体基因组密码子偏好性更易受到碱基突变影响。
表6 有效密码子比值频数分布
海甜菜线粒体和叶绿体各基因密码子第3位上碱基偏倚性如图3所示。各基因不均匀地分布在4个不同区域,大部分位于平面图的下半部和右半部。这说明海甜菜线粒体和叶绿体基因密码子第3位上U(T)碱基出现频率大于A碱基,G碱基出现频率大于C 碱基。海甜菜细胞器基因组密码子偏好性不但受到了突变的影响,还受到了自然选择的影响。
A:线粒体;B:叶绿体。图2 海甜菜线粒体和叶绿体基因组有效密码子数(ENC)与GC3的关系图(ENC-plot)Fig.2 The relationship between GC3 and the effective number of codons (ENC) in mitochondrial and chloroplast genomes of Beta vulgaris subsp.
A:线粒体;B:叶绿体。图3 海甜菜线粒体和叶绿体基因密码子偏倚性分析(PR2-plot)Fig.3 Analysis of codon bias of mitochondrial and chloroplast genomes in Beta vulgaris subsp.
海甜菜线粒体和叶绿体高、低表达基因的数量及同义密码子相对使用度如表7所示。从表中可以看出,线粒体和叶绿体△RSCU不小于0.08的高表达优越密码子分别有18个和17个。线粒体基因组中以A、U、C、G结尾的优越密码子分别有6个、10个、1个和1个;线粒体△RSCU不小于0.30且小于0.50的优越密码子有2个,△RSCU不小于0.50的优越密码子有6个。叶绿体基因组中以A、U、C、G结尾的优越密码子分别有5个、12个、0个和0个;叶绿体△RSCU不小于0.30且小于0.50的优越密码子有4个;△RSCU不小于0.50的优越密码子有8个。海甜菜线粒体和叶绿体基因组密码子中共有27个既满足高频率也满足高表达的条件,可视为最优密码子。
海甜菜线粒体和叶绿体基因密码子的平均G+C含量分别为43.42%和37.92%,第3位碱基G+C含量(GC3)大多在50% 以下,说明海甜菜线粒体和叶绿体基因密码子第3位碱基以A、U为主,这与水稻线粒体基因组[41]、玉米线粒体基因组[42],大粒香水稻叶绿体基因组[43]、苟当3号水稻叶绿体基因组[44]、白羊草叶绿体基因组[45]的密码子偏好性一致。由此可以看出植物细胞器基因组进化趋势大致相同。
表7 海甜菜线粒体和叶绿体各基因的RSCU和最优密码子
续表7 Continued 7
RSCU是评价生物细胞器基因组密码子使用模式的重要指标[46]。本研究中,海甜菜线粒体和叶绿体基因组RSCU>1.00的高频密码子有28个和30个,其中线粒体基因组有26个,叶绿体有23个以 A/U 结尾;这与紫花苜蓿(Medicagosativa)叶绿体基因组密码子使用模式[47]一致。中性绘图分析、ENC-plot分析、PR2-plot分析结果均显示海甜菜线粒体和叶绿体基因组密码子受自然选择的影响较大[24],与人参属植物(PanaxLinn)[48]、乌头属药用植物(Aconiutm)[49]叶绿体基因组密码子一致,不同于杨树(PopulusprzewalskiiMaxim.)叶绿体基因组密码子主要受碱基突变的影响[50],说明物种密码子偏好性影响因素的多元化[51-58]。
本研究初步揭示了海甜菜线粒体和叶绿体基因组密码子偏好性形成的主要原因是自然选择,筛选出27个最优密码子。本研究结果为探索海甜菜的分子特性和遗传多样性,弄清基因的进化压力以及分子育种具有重要意义。