朱灵芝,朱沛煌,李 荣,陈 妤,季孔庶
(南京林业大学,林木遗传与生物技术省部共建教育部重点实验室,南方现代林业协同创新中心,江苏 南京 210037)
马尾松(Pinus massonianaLamb.) 在我国松属树种中分布最广泛,具有适应性强、经济价值高等特点。它分泌的大量以萜类化合物为主的次生代谢物称为松脂,主要由单萜、倍半萜和二萜组成,贮存在针叶树的根、茎、叶和球果中[1]。松脂是松香、松节油工业的基础原料,松香、松节油深加工产品又可作为其他相关工业的中间原料,广泛用于油墨、胶黏剂、香料、涂料、纺织、电子印染和医药等工业生物产品中[2]。
萜类化合物是植物次生代谢产物中最大的一类天然化合物,广泛存在于动植物体内,目前已研究报道过的萜类化合物有5 万多种。萜类化合物有重要的生物学功能和应用价值,在植物体内,单萜和倍半萜可看作挥发油的成分,大多数具有香气,是食品、医药、化妆品的重要原料。超过20 个碳的萜类物质一般为非挥发性物质,树脂酸和赤霉素是二萜中最常见的物质,其中,树脂酸在马尾松中占所有代谢物的70% 以上[3]。1-脱氧-d-木酮糖-5-磷酸还原异构酶(DXR)是马尾松萜类化合物合成途径中的重要限速酶,它催化1-脱氧-d-木酮糖-5-磷酸(DXP)发生还原反应生成2-C-甲基-D-赤藓糖醇-4-磷酸(MEP)[4],同时DXP 也是维生素B1 和B6 的前体物质[5-6],故该催化反应被认为是MEP 途径中的关键调控位点。目前,已从多种植物中克隆出DXR基因,并对其功能作了相关研究;但关于DXR基因密码子偏好性的研究较少,仅在豆科植物中有报道,李凌烜等发现豆科植物DXR基因对A 或U 结尾的密码子表现出较强的偏好性[7]。
密码子是自然界中遗传信息准确识别和传递的基本载体,在生物遗传和变异中起着关键作用。构成天然蛋白质的20 种氨基酸中除甲硫氨酸和色氨酸外,其余氨基酸都对应2~6 种密码子,编码同一种氨基酸的密码子被称为同义密码子[8]。研究发现,不同生物体在编码氨基酸时对密码子的选择并不是完全随机的,而是偏好使用某些特定的同义密码子[9];另外,同种生物中不同基因对密码子的使用频率也存在差异,这种现象即为密码子使用偏好性[10]。同义密码子的选择使用不改变氨基酸序列,有利于翻译的准确性,但可能会对蛋白表达水平产生影响[11-12]。密码子偏好性会影响蛋白质翻译的速度和折叠、mRNA 水平的转录调控及外源基因的表达量[13-14]。如果外源基因密码子与宿主系统密码子的使用频率相比有明显差异,将会影响外源基因的翻译与表达[15]。因此,分析密码子的偏好性对研究基因功能、蛋白结构和提高外源基因表达效率有重要意义。目前,科学界尚无关于马尾松PmDXR基因在密码子偏好性方面的报道,对其相关功能尚不清楚。本研究将分析马尾松PmDXR基因密码子使用偏好性,讨论其形成的主要因素,再与拟南芥(Arabidopsis thaliana(L.) Heynh.)、烟草(Nicotiana tabacumL.)、酿酒酵母(Saccharomyces cerevisiaeMeyen. ex Hansen.)和大肠杆菌(Escherichia coli(Migula.) Castellani & Chalmers.)基因组密码子进行比较分析,以期为马尾松PmDXR功能验证相关研究提供基础数据。
马尾松PmDXR基因序列由本实验室克隆获得,该序列全长1 994 bp(GenBank 登录号为MK969119.1),其开放阅读框(ORF) 为1 584 bp,编码527 个氨基酸。银杏(Ginkgo bilobaL.)、赤松(Pinus densifloraSieb. et Zucc.)、火炬松(Pinus taedaL.) 等38 个物种的DXR基因CDS 序列来自GenBank(https://www.ncbi.nlm.nih.gov/),登录号见表1。本文所采用的拟南芥、烟草、酿酒酵母和大肠杆菌的基因组密码子使用频率数据来自密码子使用数据库(http://www.kazusa.or.jp/codon)。
1.2.1DXR基因同义密码子偏好性分析 整理38个物种DXR基因的CDS 序列,借助CodonW1.4.2软件计算密码子的使用特性参数,包括A3s、C3s、U3s、G3s、相对同义密码子使用度(RSCU)、密码子适应指数(CAI) 和有效密码子数(ENc) 等。运用EMBOSS 中的CUSP 和CHIP 在线程序计算38 个物种DXR基因密码子G 和C 总含量(GC)、密码子第3 位上的GC 含量(GC3s)、使用频率(Frequency)等;同时运用SPSS20.0 软件分析38个物种DXR基因密码子使用特性参数的相关性,再进一步对DXR基因密码子进行中性绘图分析、奇偶偏好性(PR2-plot)分析以及ENc-plot 分析。
CAI 值范围为0~1,越接近1 表明偏好性越强,而越接近0 则表明偏好性越弱[16]。ENc 值范围为20~61,可反映特定基因密码子家族中同义密码子非均衡使用的偏好程度[17]。RSCU 为某一密码子的使用频率与其无偏性时期望频率的比值。一般,若RSCU 值小于1,表明该密码子使用偏好性较低;若其值等于1,表明该密码子无偏好性;若其值大于1,则表明该密码子使用偏好性较强[18]。
1.2.2 基于DXR基因CDS 序列和密码子使用偏好性的聚类分析 通过MEGA5.1 软件中的邻接法(Neighbor-Joining),基于38 个物种DXR基因的CDS序列构建系统进化树,检验方法为Bootstrap method,检验次数为1 000,Gaps 处理方法为Complete deletion。并利用在线绘图软件EvolView (https://evolgenius.info//evolview-v2/#login)可视化展示进化树。将每个物种的DXR基因作为一个对象,以59 个同义密码子的(去除终止密码子TAA、TAG 和TGA,起始密码子ATG 和编码甲硫氨酸的密码子TGG)的RSCU 值为变量对密码子使用偏好性进行分析。
2.1.1 GC、GC3s 、ENc 和CAI 分 析 利用CondonW 程序分析马尾松PmDXR基因密码子的CAI 值、ENc 值,同时运用EMBOSS 中的CUSP在线程序计算总GC 含量以及GC3s 有效密码子数。结果(表1)显示:PmDXR基因中密码子的GC 和GC3s 分别为43.75% 和34.47%,说明其密码子比较偏好以A/T 结尾。ENc 值为35 可作为区分偏好性强弱的标准[19],PmDXR基因密码子ENc 值为48.93,说明PmDXR基因在编码氨基酸时密码子使用偏好性较弱,其表达水平可能相对较低。CAI 值为0.184,进一步表明PmDXR基因对密码子的选择偏好性较弱。
表1 不同物种间DXR 基因密码子选择偏好性相关参数Table 1 Preference related parameters of DXR gene codons among different species
2.1.2 同义密码子相对使用度分析 CUSP 和CodonW 计算结果(表2) 表明:有25 个密码子的RSCU 值大于1(除终止密码子TGA),其中,GCA、GCT、AGA、AAT、GGA、CCA、CCT、TCA、TCT、ACA、TAT、GTT 共12 个密码子的RSCU 值大于1.5,且编码精氨酸的AGA 与编码丝氨酸的TCT 密码子RSCU值分别为3.60、2.17,说明PmDXR基因中共有25 个密码子具有偏好性,其中,有12 个密码子偏好性较强,2 个偏好性极强。TGC、TGT、TCC、TGG共4 个密码子(除起始密码子ATG) 的RSCU 值等于1,说明PmDXR基因中有4 个密码子没有偏好性。29 个密码子的RSCU 值小于1,说明PmDXR基因对这些密码子的使用偏好性较弱。编码Arg 的密码子CGC 和CGT 的RSCU 值为0,说明它们可能不参与马尾松PmDXR基因的翻译过程。此外,马尾松中NCG 型密码子的RSCU 值(GCG: 0.15,CCG: 0.24,TCG: 0.33,ACG: 0.15)较低,推断马尾松可能是一种甲基化程度较高的植物。
表2 马尾松PmDXR 基因同义密码子相对使用度Table 2 RSCU of PmDXR gene in P. massoniana
2.2.1 相关参数比较分析 38 个物种DXR基因密码子的A3s、C3s、U3s、G3s、ENc 值、CAI 值、GC 和GC3s 含量见表1。分析比较A3s、C3s、U3s和G3s 发现,38 种植物DXR的A3s 和U3s 普遍高于C3s 和G3s,表明DXR编码区优先使用A 或U 结尾的同义密码子。38 个物种DXR基因的ENc 值为47.89~59.49,平均值为52.59,其中,裸子植物DXR的ENc 平均值为49.04,单子叶植物DXR的ENc 平均值为54.51,双子叶植物DXR的ENc 平均值为52.94,表明裸子植物DXR基因的密码子偏好性相对单子叶和双子叶植物较高。由此可见,DXR基因在各物种中表现出较弱的密码子偏好性,表达水平普遍不高,但物种间还是存在一定差异。38 个物种DXR基因的CAI 值介于0.184~0.244,进一步说明DXR基因的密码子偏好性较弱。裸子植物DXR的GC 含量介于43.75%~45.26%,GC3s 介于33.75%~36.82%。单子叶植物DXR的GC 含量介于47.49%~48.03%,GC3s介于41.60%~43.64%。双子叶植物DXR的GC 含量介于43.65%~49.23%,GC3s 介于34.11%~51.68%。整体看,裸子植物DXR的GC 含量和GC3s 低于双子叶植物和单子叶植物,且38 种植物DXR基因均偏好以A/T 结尾的密码子。
2.2.2DXR同义密码子相对使用度分析 RSCU 是衡量密码子偏好性的重要指标,用38 个物种DXR基因密码子的RSCU 值制作热图(图1),结果显示:裸子植物与单子叶植物和双子叶植物DXR的RSCU 值存在一定差异。整体看,裸子植物DXR中RSCU 值大于1.5 的密码子较单子叶植物和双子叶植物多,东北红豆杉RSCU 大于1.5 的密码子有16 个,丹参和夏枯草只有6 个。说明裸子植物密码子使用偏好性比其他植物强,这与基于ENC 分析的结果相同。在所分析的绝大部分物种的DXR基因密码子中,GCT、AGA、GAT、ATT、CTT、TTG、CCT、TCT、GTT 的RSCU 值都大于1,说明这几个密码子出现频率较高,属于共同偏好使用的密码子,且这些密码子偏向以A/T 结尾。除此之外,通过对马尾松、火炬松、赤松DXR的密码子分析发现,AGA、TCT 的RSCU 值均大于2,由此推测松科植物对这2 个密码子的偏好性极强。
2.2.3DXR密码子成分相关分析 用SPSS20.0 对DXR密码子成分 GC、GC3s、ENc、CAI、密码子偏爱指数(CBI)、最优密码子使用频率(Fop)、A3s、U3s、C3s、G3s 进行两两Pearson 关联分析(表3)。结果显示:ENc 和GC、GC3s、CAI、CBI、Fop、C3s、G3s 参数呈显著或极显著正相关,与U3s、A3s 参数呈极显著负相关,说明DXR密码子偏好性越强,其碱基中A、T 含量越高。
2.2.4 不同物种DXR基因中性绘图分析 密码子第1、2 位GC 含量平均值(GC12)与GC3s 相关性分析表明相关不显著,对不同物种DXR基因进行中性分析(图2) 发现:GC3s 的范围为33.75%~51.68%,GC12 的范围为47.79%~50.74%。GC12的范围相对较小,绝大部分基因靠近回归线分布。GC12 与GC3s 的线性回归系数为0.022 7,远小于1,说明DXR基因密码子第1、2 位碱基与第3 位碱基组成差异较大。由此推断,在进化过程中DXR基因密码子的偏好性主要受自然选择影响[20]。
2.2.5 不同物种DXR基因PR2-plot 分析 图3 显示:在PR2-plot 分析中,A3/(A3 + T3)或G3/(G3 + C3)值都偏离了0.5,大都分布在平面图的右下方,表明密码子第3 位碱基T 的频率高于A,G 的频率高于C,表明多数物种DXR密码子偏好模式很大程度上受自然选择的影响[21],与中性分析的结果一致。
2.2.6 不同物种DXR基因ENc-plot 分析 ENc-plot分析结果(图4)发现:38 个物种DXR基因位点均分布在标准曲线下方,实际ENc 值与理论ENc 值存在差异,且大部分离标准曲线较远,说明大部分DXR基因密码子偏好性形成受自然选择的作用较大;但其中夏枯草DXR基因位点距离标准曲线较近,说明夏枯草DXR基因偏好性主要受突变影响。
采用邻接法构建38 个物种DXR基因的CDS序列系统进化树(图5)。38 个物种聚为2 大类,第1 类由裸子植物组成,第2 类由单子叶植物和双子叶植物组成。在单子叶植物中,3 种禾本科植物的CDS 序列同源性较高,聚在一个小的分支上。使用SPSS20.0 软件对38 个物种DXR基因的RSCU值进行聚类分析(图6),同样将38 个物种聚为2 大类,第1 大类为裸子植物,其中,同属于松科的马尾松、赤松和火炬松的DXR基因聚在一个小支上,与银杏、东北红豆杉的2 个小支共聚在一个大支上,表明具有相近亲缘关系的物种在密码子使用模式上较为相似。第2 大类中,禾本科植物仍聚为一个小类别,同属蔷薇科的枇杷、西洋梨和玫瑰聚为一小类,菊科植物黄花蒿、艾草与属于龙胆科的滇龙胆草聚为一小类,但是也发现基于RSCU值的聚类分析结果与CDS 序列构建的进化树存在差异。由此可见,并非所有亲缘关系较近的物种其DXR基因的密码子使用偏好性都具有相似性,部分物种在长期进化过程中可能会形成独特的密码子使用偏好性。
图1 38 个物种DXR 基因的RSCU 热图Fig. 1 Heat map of RSCU values of DXR gene from 38 species
表3 DXR 密码子成分相关分析Table 3 Correlation analysis of DXR related parameters
图2 不同物种DXR 基因中性绘图Fig. 2 Neutrality plot of DXR genes in different species
图3 不同物种DXR 基因PR2-plot 分析Fig. 3 PR2-plot analysis of of DXR genes in different species
图4 不同物种DXR 基因ENc-GC3s 关联绘图Fig. 4 ENc-plot of DXR genes in different species
图6 DXR 的RSCU 值聚类分析Fig. 6 RSCU cluster analysis of DXR
将马尾松PmDXR密码子使用频率分别与拟南芥、烟草、酿酒酵母、大肠杆菌基因组密码子的使用频率进行比较(表4)。密码子使用频率比值是评价物种间密码子使用偏好性差异的指标之一,若比值为0.5~2.0,表示偏好性差异较小,若比值≤0.5、≥2.0,则表示偏好性差异较大[22]。在异源表达过程中,应尽量选择密码子使用偏好性差异较小的作为受体,以提高转录、翻译效率,进而提高表达量。分析结果表明:PmDXR与酿酒酵母基因组有15 个密码子的偏好性差异较大,与大肠杆菌基因组密码子偏好性差异较大有25 个,可见,酵母更适合做PmDXR基因的真核表达系统。PmDXR基因与拟南芥、烟草基因组分别有12、9 个密码子的使用频率差异较大,说明在PmDXR基因遗传转化试验中,烟草相较拟南芥更适合作为异源表达受体。
在漫长的自然选择和进化进程中,各物种形成了特定的密码子使用模式,其使用偏好性对研究基因进化和功能鉴定具有重要的生物学意义。本研究用生物信息学方法对马尾松PmDXR基因密码子偏好模式进行系统分析,确定了该基因有12 个高频率密码子,其中,AGA、TCT 具有极强的偏好性;同时发现编码Arg 的CGC、CGT 可能不参与PmDXR基因的编码过程。PmDXR基因中密码子的GC 和GC3s 含量分别为43.75% 和34.47%,说明其密码子比较偏好以A/T 结尾,这一结果符合马尾松总体上偏好使用第3 位为A/T 碱基的密码子的特征[23]。38 个物种DXR基因的CAI 值介于0.184~0.244,ENc 值为47.89~59.49,平均值为52.59,其中,裸子植物DXR基因的ENc 平均值为49.04,较单子叶植物和双子叶植物低,表明裸子植物DXR基因的密码子偏好性相对双子叶和单子叶植物较高。由此可见,DXR基因密码子偏好性较弱,在各物种的表达水平普遍不高,但物种间还是存在一定差异。
密码子偏好性的形成受突变压力和自然选择等因素的综合影响,对不同物种DXR基因的中性分析、ENc-plot 分析、PR2 分析结果均表明,DXR基
因密码子偏好性形成的主要影响因素为选择压力。基于RSCU 值的聚类分析与基于CDS 的进化分析结果表明,具有相近亲缘关系的物种其密码子使用偏好性较为相似,但部分物种基于RSCU 值的聚类分析与基于CDS 序列的进化分析结果存在差异,推测部分物种在长期的进化过程中可能形成了独特的密码子使用模式,这在前人的研究结果中也曾出现[24-28]。本研究中,松科植物在2 种聚类结果中均聚在一个大支上,3 种禾本科植物基于CDS序列聚类分析与基于RSCU 值的聚类结果也相似,双子叶植物中同属一个科植物的种聚类分析结果具有一定相似性,这表明物种间亲缘关系越近,其DXR基因的密码子使用差异越小。
表4 马尾松PmDXR 基因与部分模式生物基因组密码子使用偏好性比较Table 4 Comparison of codon usage preference between PmDXR gene in P. massoniana and other model organisms
续表 4
在异源表达过程中,为实现外源基因的成功表达并提高其表达量,应尽量选择密码子使用偏好性差异较小的作为受体。DXR作为萜类合成途径中的关键酶基因,了解其密码子使用特性并选择合适的异源表达受体对研究其功能具有重要指导作用。本研究通过比较PmDXR基因与拟南芥、烟草、酿酒酵母、大肠杆菌的基因组密码子使用频率的差异,发现相比于大肠杆菌原核表达系统,酵母真核表达系统更适合作为PmDXR基因的表达系统。在PmDXR遗传转化功能验证中,模式植物拟南芥、烟草均可作为其遗传转化受体,其中,烟草更为理想。本研究结果初步揭示了PmDXR基因密码子的使用规律,可为后续开展基因功能验证等相关研究提供理论基础。目前,马尾松还没有成熟的遗传转化体系,对PmDXR基因的研究通常需要借助遗传转化体系成熟的受体,今后可依据此研究结果为PmDXR基因选择合适的遗传转化受体,进一步了解其在MEP 途径中的调控机制。
本研究表明:马尾松PmDXR基因的密码子偏好性较弱,偏好使用A/T 结尾的密码子。不同物种DXR基因的密码子偏好性存在一定差异,整体看,裸子植物DXR基因密码子偏好性比被子植物强。基于RSCU 值和基于CDS 的聚类分析结果存在一定差异,且基于CDS 序列的进化分析结果更能反映物种亲缘关系的远近。中性分析、PR2-plot分析、ENc-plot 分析结果均表明DXR基因密码子偏好性形成主要受选择压力的影响。酵母真核表达系统较大肠杆菌原核表达系统更适合马尾松PmDXR异源表达,模式植物烟草较拟南芥更适合做马尾松PmDXR遗传转化受体。