赵 森,邓力华,陈 芬
(1.北部湾大学广西北部湾海洋生物多样性养护重点实验室,广西 钦州 535011;2.中国科学院亚热带农业生态研究所亚热带农业生态过程重点实验室,湖南 长沙 410125)
密码子是联结生物体内遗传物质和蛋白质翻译的纽带。生物体内的20种氨基酸,除了蛋氨酸(Met)和色氨酸(Trp)具有单一密码子外,其余氨基酸均由2~6个同义密码子编码。同义密码子的使用具有非均一性,某一物种或某一基因倾向使用一种或几种特定的同义密码子的现象称为同义密码子的使用偏好性[1]。密码子使用偏好性是自然界广泛存在的现象,是一种分子进化形式,同一物种或亲缘关系近的物种中基因一般表现为相似的密码子使用模式。由于物种在进化过程中受到的突变压力和选择作用影响不同,不同物种的密码子使用偏好性不同。通过对密码子偏好性的研究,能够更好地了解物种的进化发展[2]。越来越多的研究表明,密码子使用偏好性与基因表达水平、基因长度、基因翻译的起始信号、蛋白质氨基酸的组成、蛋白质结构、tRNA的丰度、突变模式和频率、GC含量等因素有关[3-5]。叶绿体基因组是核基因组之外相对独立的遗传物质,能够半自主地进行复制、转录和翻译等生命过程。以叶绿体为受体的基因工程其遗传方式为母性遗传,与一般的核转化体系相比具有外源基因高效表达、安全性高、多基因共表达、无位置效应和基因沉默等多方面的优势[6-7]。已在植物抗性[8]、医用蛋白高效表达[9-10]和农艺性状改良[11]等方面有重要应用。目前,在油茶(CamelliaoleiferaAbel.)[12]、巨桉(EucalyptusgrandisHill ex Maiden)[13]、沙枣(ElaeagnusangustifoliaLinn.)[14]、酸枣[Ziziphusjujubavar.spinosa(Bunge) Hu ex H. F. Chow.][15]、灰毛浆果楝[Cipadessacinerascens(Pell.) Hand. -Mazz.][16]等林木树种中开展了叶绿体基因组的相关研究。
秋茄(KandeliaobovataSheue, Liu & Yong)是一种生活在热带、亚热带潮间带的红树植物,是红树林生态系统的重要组成部分,在海岸生态系统中发挥重要功能[17]。红树林除了具有重要的生态功能外,还是人类所需的食物、药物以及化工原料的提供者[18-19]。近年来,我国红树林陆续出现多种害虫种群爆发的现象,对红树林湿地的可持续利用带来严峻挑战,如广西北部湾地区的秋茄就遭受过小袋蛾(AcanthopsychesubferalbataHampson)、白囊袋蛾(ChalioideskondonisMatsumura)、蜡彩袋蛾(ChalialarminatiHeylaerts)等多种害虫的危害[20]。通过叶绿体基因工程来提高植物抗虫性是一种有效手段,但叶绿体基因密码子使用偏好性一般与核基因不一致,直接转化可能会造成转化效率低和基因沉默现象。通过对叶绿体密码子使用特性分析,有助于提高外源基因的转化效率和高效表达,同时,可为下一步开展叶绿体基因工程应用和分子进化研究奠定基础。
从GenBank数据库中搜索并下载秋茄叶绿体基因组序列(登录号:MN117072),选择长度大于300 bp的蛋白质编码序列为分析样本[12]。
以筛选后的非重复的蛋白质编码序列为研究对象,利用CodonW 1.4.2计算样本的同义密码子相对使用度(relative synonymous codon usage,URSC)和有效密码子数(effective number of codons,Nec);计算样本中密码子第3位核苷酸T、C、A和G的含量,分别记为T3、C3、A3和G3;利用CUSP在线程序(http://www.bioinformatics.nl/emboss-explorer/)计算样本总体GC含量,记为GCall;计算密码子第1、第2和第3位上GC含量,分别记为GC1、GC2和GC3。应用SPSS 22.0软件,基于Pearson相关系数法进行各参数间的相关性分析。
1.3.1 中性绘图分析 计算各基因密码子第1、第2位核苷酸上GC含量的平均值GC12,即GC1和GC2的平均值,以GC12为纵坐标,以GC3为横坐标作散点图,分析GC3和GC12之间的相关性[21]。
1.3.2 有效密码子数绘图分析 若同义密码子使用频率仅由碱基突变引起,则Nec=2+GC3+29/[GC32+(1-GC3)2],并绘制标准曲线,以各基因的GC3为横坐标,实际Nec值为纵坐标,绘制各基因的散点图进行有效密码子数绘图(Nec-plot)分析,通过散点图可以判断造成密码子使用偏好性的原因[22]。
1.3.3 奇偶偏好性分析 在分析计算各基因密码子第3位上核苷酸含量(A3、T3、C3、G3)的基础上,以G3/(G3+C3)为横坐标,以A3/(A3+T3)为纵坐标作散点图进行奇偶偏好性(PR2-plot)分析,对密码子第3位上的4种碱基组成进行分析[12]。
根据样本Nec值大小进行排序,分别选取排在前、后10%的基因定义为高偏性库和低偏性库,计算两个库的ΔURSC值。如果ΔURSC>0.3,同时在低偏性库中URSC<1,在高偏性库中URSC>1,则认定为最优密码子[23-24]。
1.5.1 基于同义密码子相对使用度的聚类分析 从GenBank中下载桐花树[Aegicerascorniculatum(L.) Blanco]、白骨壤[Avicenniamarina(Forsk.) Vierh.]、银叶树(HeritieralittoralisDryand.)、红榄李[Lumnitzeralittorea(Jack) Voigt]、榄李(LumnitzeraracemosaWilld.)、红海榄(RhizophorastylosaGriff.)和木果楝(XylocarpusgranatumJ. Koenig)等红树植物叶绿体基因组CDS序列,按1.1的方法对各物种的CDS序列进行筛选,连同秋茄的CDS序列,在CodonW软件中计算各物种不同密码子的URSC值,除去蛋氨酸(AUG)、色氨酸(UGG)和3个终止密码子(UAA、UAG和UGA)后的59个密码子用于分析。以每个物种作为一个分析对象,以各密码子对应的URSC值作为变量,在SPSS 22.0中采用系统聚类法进行聚类分析。
1.5.2 基于rbcL基因序列的系统发育分析 以桐花树、白骨壤、银叶树、红榄李、榄李、红海榄、秋茄和木果楝等红树植物的rbcL基因序列为分析对象,在MEGA 5.0软件中对各物种的rbcL基因序列进行Clustal W比对,分析中产生的空位处理为缺失,运用最大似然法(maximum likelihood, ML)和邻接法(neighbor joining, NJ)分别构建系统发育树,ML采用K2P双参数模型估算核苷酸的替代数。两种方法均采用1 000次的Bootstrap检验各分支的置信度,其它参数为软件默认设置。
对筛选到的50条秋茄叶绿体蛋白质编码序列进行分析,结果如表1所示。密码子第1、2和3位上的GC平均含量分别为46.23%、38.68%和27.62%,GCall平均含量为37.51%,说明密码子不同位置上的GC含量不同,其中又以GC3含量最低,即偏好使用以A/U结尾的密码子。Nec范围在35.40~55.50之间,平均值为47.02。以Nec<45说明密码子使用偏好性强,Nec>45说明密码子使用偏好性弱的标准来判断[16],其中Nec大于45的基因有35个(表1)。可以看出,秋茄叶绿体基因密码子使用偏好非随机选择,偏好性较弱。
表1 秋茄叶绿体基因组不同位置的GC含量
秋茄叶绿体基因组密码子各参数的相关性分析结果显示(表2),GC1、GC2、GC3和GCall两两之间的相关性均达到了极显著水平,说明密码子不同位置上的碱基组成十分相似。Nec与GC3之间相关系数为0.329,呈显著相关,说明GC3对密码子使用偏好性有影响。Nec与GCall和密码子个数(N)的相关系数分别为0.182和0.205,相关性较低,均未达到显著水平,说明编码区长度和GCall含量对密码子偏好性的影响较小。
表2 秋茄叶绿体基因组密码子各参数的相关性分析
秋茄叶绿体各氨基酸相对同义密码子使用度分析结果表明(表3),URSC>1的密码子有30个。其中,UUA密码子的URSC值最大,为2.05,以U结尾的密码子16个,以A结尾的密码子13个,以G结尾的密码子1个。这一结果进一步证明,秋茄叶绿体基因组密码子偏好使用以A/U结尾的密码子而非G/C结尾的密码子。
表3 秋茄叶绿体各氨基酸相对同义密码子使用度
秋茄叶绿体基因组密码子使用的中性绘图分析结果如图1所示,GC3的取值范围在0.215~0.361之间,GC12的取值范围在0.306~0.522之间。相关分析显示,GC3和GC12之间的相关系数为0.464 0,在0.01水平上相关性显著,回归系数为0.706 4,其中突变压力对密码子使用偏好性的效应占70.64%。由此可以看出,突变是秋茄叶绿体基因组密码子使用偏好性的重要因素。
在没有选择作用的情况下,基因会分布在标准曲线上或附近。Nec-plot绘图(图2)显示,除了小部分基因分布在标准曲线上或附近外,大部分基因远离标准曲线,说明自然选择效应也是影响因素之一。
图1 秋茄叶绿体基因组密码子使用的中性绘图分析
秋茄叶绿体基因组密码子的奇偶偏好性分析结果(图3)显示,平面上4个区域内基因分布并不均匀。G3/(G3+C3)小于0.5的基因有26个,A3/(A3+T3)小于0.5的基因有30个,说明密码子第3位上C的使用频率高于G,T的使用频率高于A,即秋茄叶绿体基因组密码子第3位上嘧啶使用频率高于嘌呤。如果只受到突变单一因素影响时,4种碱基会被均衡使用,而秋茄4种碱基使用不均衡,表明秋茄叶绿体基因组密码子使用的偏好性除了受到突变压力的影响外,还可能受到选择压力等其它因素的影响。
注:三角形表示每个基因平均分布位置,其值为x=0.497 224 43±0.081 186 424, y=0.481 708 133±0.046 540 165。Note: the angle indicates the average position for each gene, calculated as follows: x=0.497 224 43±0.081 186 424, y=0.481 708 133±0.046 540 165.
根据Nec值大小,分别取最大的5条和最小的5条序列建立高低偏性库,并计算两库的ΔURSC值,其中ΔURSC值>0.3的密码子有UUU、CUC、CUG、GUC、GUG、UCA、ACC、ACA、GCA、UAU、UGC、CGA、AGA、GGC、GGA等共15个(表4),其中AGA密码子ΔURSC值最大,为0.66。以A/U结尾的密码子有8个,以G/C结尾的密码子7个。结合URSC在高低偏性库中的值进行分析,最终得出3个最优密码子,分别是:ACC、ACA和GCA。其中Thr密码子2个(ACC和ACA),Ala密码子1个(GCA)。
表4 秋茄叶绿体基因组最优密码子确定
基于叶绿体基因组的rbcL基因序列,分别通过ML和NJ方法构建桐花树、白骨壤、银叶树、红榄李、榄李、红海榄、秋茄和木果楝等红树植物的系统发育树,经比较,两种方法构建的系统发育树的拓扑结构基本一致。基于NJ方法构建的系统发育树[图4(a)]显示,同为使君子科(Combretaceae)的榄李和红榄李以及同为红树科(Rhizophoraceae)的秋茄和红海榄都以100%的支持率分别聚为一枝,梧桐科(Sterculiaceae)的银叶树和楝科(Meliaceae)的木果楝以67%的支持率聚在一起,紫金牛科(Myrsinaceae)的桐花树和马鞭草科(Verbenaceae)的白骨壤与其它红树植物的关系较远。基于密码子使用偏好性的聚类结果与上述系统发育树不完全一致,榄李与红榄李、秋茄与红海榄、银叶树与木果楝首先聚在一起。白骨壤先与银叶树和木果楝聚在一起后再与使君子科的2种植物聚为一枝,桐花树则先与红树科的2物种聚在一起后再与其它红树植物聚为一类[图4(b)]。基于rbcL基因序列的系统进化树和基于URSC值的聚类分析有一定的相似性,表明密码子使用偏好性与物种之间的亲缘关系有关。
GC含量是生物体基因组碱基组成的重要指标,由于密码子第3位上受到的选择压力比前两位小,故GC3常被用做衡量密码子使用偏好性的指标[2]。对秋茄叶绿体基因组密码子不同位置上的GC含量分析发现,GC1(46.23%)>GC2(38.68%)>GC3(27.62%),说明秋茄叶绿体基因组偏好使用NNU和NNA类型的密码子,URSC分析结果也证明了这一点,在对普通油茶[12]、沙枣[14]、籽粒苋(AmaranthushypochondriacusL.)[22]、菊科(Asteraceae)[23]等植物的研究中也发现,在这些植物的叶绿体基因组中偏好使用A/U结尾的密码子。各蛋白质编码基因的Nec取值介于35.40~55.50之间,平均值为47.02,显示秋茄叶绿体基因密码子偏性较弱。这与巨桉[13]、沙枣[14]、酸枣[15]等叶绿体密码子使用偏好性一致,这可能与叶绿体基因功能较为保守有关。密码子使用偏好性是由突变和自然选择相互作用的强度和方向决定的,相关性分析和中性绘图结果显示,GC3和GC1、GC2、GC12及GCall之间均极显著相关,说明秋茄叶绿体基因密码子前两位和第3位的碱基组成无显著差异,则暗示突变压力是影响密码子偏好性的重要因素[24]。PR2-plot分析显示,各基因在平面内的分布并不均匀,位于左下方的基因多于其他区域,说明秋茄叶绿体蛋白质编码基因密码子中第3位上嘧啶使用频率高于嘌呤,表明秋茄叶绿体基因密码子使用模式除了受到突变影响外,还可能受到自然选择等其它因素的影响,其密码子使用模式形成过程较为复杂,Nec-plot分析也证明了这一点。这与籽粒苋[22]、沙枣[14]、文心兰(OncidiumGower Ramsey)[25]等植物叶绿体基因组的特征一致,而与普通油茶[12]、苦荞(FagopyrumtaraicumGaerth)[26]、酸枣[15]等植物主要受自然选择作用的影响不同,也由此看出,造成不同植物密码子使用偏好性差异的因素也不尽相同。
比较基于rbcL基因序列的系统发育树和基于URSC值的聚类分析可以看出,亲缘关系较近的物种首先聚在一起,但对亲缘关系较远的物种,两者的分析结果并不一致,这可能与基于URSC的聚类分析只能在较小的分类单元中提供较为可靠的结果,而在较大的分类单元中只能作为传统分类的补充有关[27]。
秋茄叶绿体基因组密码子偏好使用以A/U结尾的密码子,密码子使用偏好性较低。突变是引起密码子使用偏好性的主要因素,除此之外,自然选择、碱基组成等其它方面的因素也发挥一定作用。密码子使用偏好性与物种之间的亲缘关系有关,经综合分析,确定了ACC、ACA和GCA等3个密码子为秋茄叶绿体基因组的最优密码子。