夏 晞,彭劲谕,王大玮,张新洛,李江飞
(西南林业大学,西南山地森林资源保育与利用教育部重点实验室/云南省高校林木遗传改良与繁育重点实验室,云南 昆明 650224)
密码子是生物体遗传信息传递过程的一个重要环节,其中编码同一种氨基酸的密码子被称为同义密码子[1]。在蛋白质翻译过程中,部分密码子使用频率会高于其他同义密码子,即为密码子偏好性[2],其产生的主要原因多为突变压力和自然选择[3]。密码子的使用模式会对基因的功能与表达产生一定影响,密码子偏好性越强则基因表达量就越大[4]。对密码子使用模式进行分析可以推断或预测未知基因的表达和功能[5-7]。
叶绿体基因组因其母系遗传和拥有大量遗传信息的特性被广泛用于系统发育、物种分类鉴定和遗传表达等研究中[8-11]。对叶绿体基因组密码子的使用模式进行分析,根据最优密码子设计外源基因表达载体,可为异源基因表达水平的提高提供理论依据[12]。近年来,大量植物的叶绿体基因组被发表,随之这些植物的叶绿体基因组密码子偏好性也得到了全面的分析[13-16],为探究植物的生命进化和调控基因表达奠定了基础[17]。
黄葛榕(Ficusvirens)、榕树(Ficusmicrocarpa)和异叶榕(Ficusheteromorpha)均属于桑科(Moraceae)榕属(Ficus)植物,多分布于热带及亚热带地区[18]。榕属植物在我国南方城市常被用作行道树以及园艺树种,在食用、药用以及工业方面也具有一定的开发价值[19-20]。随着测序技术的高速发展,越来越多的榕属叶绿体基因组得到报道[21],这些研究所获得的信息为后续榕属植物的系统发育关系、进化和遗传多样性等研究提供理论依据。本研究基于3种榕属叶绿体基因组的测序结果对其同义密码子使用模式进行比较分析,以期为3种榕属植物叶绿体基因组在基因工程的应用和研究提供理论依据。
试验材料采自中国科学院昆明植物研究所(黄葛榕和榕树)、西南林业大学(异叶榕),采集到的幼嫩叶片立即置于液氮保存,并于当日送至安诺优达基因科技公司进行叶绿体基因组测序,3种榕属植物的叶绿体基因组序列已提交至NCBI数据库,序列号为:MW039142(黄葛榕)、MW039144(榕树)、MW039145(异叶榕)。随后通过GENEIOUS软件,选取长度>300 bp以及起始密码子和终止密码子正确的CDS序列用于后续分析。
1.2.1 密码子组成分析 利用Codon W软件和CUSP在线软件分别对筛选后的3种榕属植物的CDS序列进行分析,并用Excel 2019统计每个CDS的有效密码子数(ENC)、GC含量(密码子不同位置碱基的GC含量,GC1:第1位碱基、GC2:第2位碱基、GC3:第3位碱基)、密码子数(N)以及相对密码子使用度(RSCU),并利用R语言进行热图绘制以及相关性分析。
1.2.2 中性绘图分析 中性绘图以GC12(GC1与GC2的平均值)为纵坐标,GC3为横坐标利用EXCEL绘制散点图,该分析可以明显看出GC12与GC3之间的关系,GC12和GC3的相关性越显著,且回归系数越接近1,则说明密码子偏好性越受突变的影响,反之,则说明偏好性更受选择的影响[22]。
1.2.3 ENC-plot分析 ENC-plot分析以GC3为横坐标,ENC值为纵坐标进行绘制,并在其中添加ENC标准曲线,具体公式参考F.Wright[23]的方法,编码基因距离标曲越近说明其受突变影响较大,而当基因位于标曲下方且距离较远时则说明受选择影响较大[24]。
1.2.4 PR2-plot分析 PR2-plot分析也称碱基奇偶性分析,该分析以G3/(G3+C3)的值为横坐标,A3/(A3+T3)的值为纵坐标,图中的“十”字交叉中心点代表A=T且C=G,以该点发出的矢量表示碱基偏移的程度和方向[25]。
1.2.5 最优密码子分析 分别对3种榕属植物的ENC值进行排序后,筛选两端各10%的基因构建高、低表达库,最优密码子的确定需要同时满足RSCU>1(高频密码子)且△RSCU≥0.08(高表达密码子)的条件[26]。
利用Codon W和CUSP在线软件对3种榕属植物叶绿体基因组的52条CDS进行分析,结果见表1。3种榕属植物的T3和A3含量高于G3含量,表明3种榕属的第3位碱基以A/T为主。对3个榕属植物各基因密码子的GC含量进行统计分析(图1),发现GC3含量均低于GC1和GC2,黄葛榕、榕树和异叶榕大部分的ENC值都在40以上。其中petA基因的ENC含量最高,3种榕属之间基因的GC含量和ENC值存在一定差异,但差异较小。
图1 黄葛榕、榕树、异叶榕叶绿体编码基因密码子GC含量
表1 黄葛榕、榕树、异叶榕叶绿体基因组密码子第3位碱基组成及GC含量
相关性分析显示(图2),3种榕树植物的GC1、GC2、GC3与GC呈极显著相关,GC1和GC2呈显著相关,说明3种榕属植物的第1、第2位碱基组成与第3位碱基存在较大差异。此外,还发现3种榕属植物中GC3和ENC呈显著相关,说明第3位碱基对密码子的偏好性影响大于第1、第2位碱基。与其他2个榕属植物有所不同的是榕树的GC2与密码子数(N)呈显著负相关,其余都为不显著相关。
注:*表示相关性达到显著水平(P<0.05);**表示相关性达到极显著水平(P<0.01)。
中性绘图分析结果见图3,3种榕属植物的分布范围基本类似,说明3种榕树植物的叶绿体基因组较为保守。黄葛榕、榕树和异叶榕的Pearson相关系数分别为0.253、0.247和0.207,进一步说明GC12和GC3的相关性不显著,同时,黄葛榕、榕树和异叶榕的回归系数分别为0.338 2、0.330 6和0.266 0,表明3种榕属植物受选择影响压力较大。
图3 黄葛榕、榕树、异叶榕中性绘图分析
对3种榕树植物的ENC值进行计算,可以更好地评估其CDS序列密码子的偏好程度,具体结果见图4。3种榕属植物大部分的基因多位于标准曲线以下,说明大部分基因的ENC值与ENC期望值相差较大。随后又对基因的ENC比值进行了统计分析(表2),结果发现位于-0.05~0.05的基因分别有23(黄葛榕)、20(榕树)、22(异叶榕)个,但大部分基因都位于该区间以外,表明大部分基因的ENC实际值与ENC期望值差距较大。
图4 ENC-plot绘图分析
表2 ENC比值频率分布
PR2-plot绘图分析显示,3种榕树植物的编码基因并未均匀分布在4个区域中,下方分布的基因明显多于上方区域,且右下方分布的基因最多,说明第3位碱基在密码子的选择上具有一定的偏好性,具体的使用频率为:T>A、G>C,表明3种榕属植物不仅受突变影响还受选择等多重因素的影响(图5)。
图5 黄葛榕、榕树、异叶榕叶绿体基因组PR2-plot绘图分析
分别对3种榕树植物的ENC值进行排序,随后选出两端各10%的基因作为高、低基因表达库,并对3种榕属植物的RSCU以及△RSCU值进行计算(图6),结果显示黄葛榕有24个高频密码子,13个以U结尾,10个以A结尾,1个以G结尾,其中有12个为最优密码子;在榕树中筛选出25个高频密码子,以U结尾的13个,以A结尾的11个,以G结尾的1个;异叶榕中有25个高频密码子,其中13个以U结尾,11个以A结尾,1个以G结尾,有14个最优密码子。在3种榕属植物中发现了9个相同的最优密码子,并且都以A和U结尾。
图6 黄葛榕、榕树、异叶榕密码子RSCU及最优密码子
以3种榕属植物的叶绿体基因组数据为对象,筛选出52条CDS序列并对其密码子组成以及偏好性的影响因素进行分析。通过密码子组成分析发现,3种榕属植物的第3位碱基以A/T为主,该结果与近无柄雅榕(Ficusconcinnavar.subsessilis)类似[19],同时还与灯盏花(Erigeronbreviscapus)[16]、梧桐(Firmianapulcherrima)[8]、降香黄檀(Dalbergiaodorifera)[27]等高等植物类似,这可能是与高等植物富含A/T碱基且进化上相对保守有关[28]。基因表达量的高低可通过ENC值来判定,当ENC值小于35时,显示密码子偏好性较强,反之,当值大于35时则说明密码子偏好性较弱[29],本研究结果表明,3种榕属植物的ENC值都大于40,说明3种榕属植物密码子偏好性较弱。
随后,对3种榕属植物叶绿体基因组密码子进行了中性绘图、ENC-plot以及PR2-plot分析,其目的是更好地了解影响密码子偏好性的因素。在本研究中,中性绘图以及ENC-plot和ENC比值分析结果均显示3种榕属植物受自然选择影响压力较大[22,24]。PR2-plot绘图分析发现,3种榕属的第3位碱基在密码子使用上具有一定的偏好性,主要偏好为:T>A、G>C,结果表明,3种榕属植物叶绿体基因组密码子不仅受突变影响,还受选择等多重因素的影响[25]。综合以上分析,3种榕属植物叶绿体密码子的偏好性受突变和选择的共同影响,但更多的是受选择影响较大,这与云南蓝果树(Nyssayunnanensi)[30]等相似,但在杜梨(PyrusbetulifoliaBge.)[31]、杨树(Populusalba)[32]等植物中影响密码子偏好性的因素主要为突变。说明密码子偏好性受多种因素影响,不同物间影响密码子的主要因素也有所不同[31]。3种榕属植物的密码子偏好性极其相似,因此推断3种榕属植物的进化方式可能相同,还可能与近缘种间叶绿体基因组保守性强有关[33]。
对3种榕属植物的最优密码子进行了分析,确定了3种榕属植物的最优密码子。物种之间亲缘关系越接近,其密码子使用模式则越相似[34],在本研究中3种榕属植物有9个相同的最优密码子(UUA、CUU、AUU、UCU、ACU、UAU、CAA、GGU),并且最优密码子都以A或U结尾,与巨桉(Eucalyptusgrandis)[35]、云南蓝果树(Nyssayunnanensis)[30]、梧桐[8]等研究结果类似,这可能与高等植物叶绿体基因组密码子偏好A/U结尾有关[36]。