曾 林 ,黄彬茹 ,赵春丽 ,王 晓 ,赖钟雄 *,刘生财 *
(1.福建农林大学园艺学院,福建福州 350002;
2.福建农林大学园艺植物生物工程研究所,福建福州 350002)
苋菜(Amaranthus tricolor)也叫雁来红、米苋、青香苋等,原产中国、印度及东南亚等地。苋菜中含有丰富的类黄酮、甜菜色素等次生代谢物,具有一定的保健功能[1],并且苋菜还拥有生长周期短、抗逆性强等优点,因此,苋菜得到了国内外许多研究学者的关注[2]。此外,张媛媛等[3]研究发现,苋菜的愈伤组织中也蕴含着丰富的次生代谢物质,说明苋菜的愈伤组织也具有很大的研究前景。
苯丙氨酸解氨酶(phenylalaniammonia-lyase,PAL)是苯丙烷代谢途径中的关键酶和限速酶,苯丙烷代谢途径的不同去向对次生代谢物质的积累以及生理生化作用具有很大程度的影响[4],所以PAL对类黄酮的产生、植物色素的形成、植物细胞分化以及木质化过程、参与植物抗逆境性等方面都有重要作用,可预见其未来在医学、保健以及食品工业等领域都具有诱人的发展前景[5]。
自然界中生物的基因往往对密码子的使用存在一定的偏好性,而密码子使用的偏好性能够反映物种或基因的起源、进化规律和突变方式,同时对基因功能分析、蛋白质表达和蛋白质结构研究等具有重要参考价值[6]。该研究主要进行苋菜AtPAL基因密码子偏好性分析、与其他物种PAL基因密码子偏好性的对比分析,以及与大肠杆菌、酵母菌等模式生物基因组密码子偏好性的比较分析,可为苋菜AtPAL基因选择异源表达受体和表达系统提供理论基础,也为密码子的优化提供依据。
苋菜AtPAL基因由福建农林大学园艺植物生物工程研究所实验室以‘大红’苋菜为原材料克隆而出(GenBank登录号:MK574874),其 ORF(开放阅读框)区长度为2142 bp,共编码713个氨基酸,杏(Prunus armeniaca)、菠菜(Spinacia oleracea)、一品红(Euphorbia pulcherrima)、葡萄(Vitis vinifera)、番茄(Solanum lycopersicum)、甜菜(Beta vulgaris)、玉米(Zea mays)、高粱(Sorghum bicolor)、毛白杨(Populus tomentosa)、康乃馨(Dianthus caryophyllus)、烟草(Nicotiana tabacum)、拟南芥(Arabidopsis thaliana)、水稻(Oryza sativa)、甘蔗(Saccharum officinarum)等物种PAL基因序列来源于 GenBank(https://www.ncbi.nlm.nih.gov/genbank/); 拟 南 芥(Arabidopsis thaliana)、烟草(Nicotiana tabacum)、大肠杆菌(Escherichia coli)、酵母菌(Yeast)、番茄(Solanum lycopersicum)等模式生物的密码子偏好性数据均来源于密码子使用数据库(http://www.kazusa.or.jp/codon/)。主要用到 codon W、SPSS(IBM SPSS Statistics 23)、MEGA7.0、Origin(OriginPro2017)等软件,以及EMBOSS在线程序(http://vm-bioinfo.toulouse.inra.fr/emboss)中的CUSP进行数据分析,数据的汇总统计主要用到Excel软件。
运用codon W软件分析得到苋菜AtPAL基因CDS 区的A3s、C3s、T3s、G3s(分别表示密码子中第 3位上腺嘌呤、胞嘧啶、胸腺嘧啶和鸟嘌呤的含量)、CAI(密码子适应指数)、ENc(有效密码子数)、RSCU值(同义密码子相对使用度)等密码子偏好性指标;运用EMBOSS在线程序中的CUSP进行分析,得到苋菜PAL基因CDS区各个密码子的Frequency(密码子使用频率)、Fraction(单个密码子在其同义密码子中出现的比例)、GC1s(密码子中第1位碱基的GC含量)、GC2s、GC3s、GC含量等偏好性指标;所得数据运用Excel软件进行制表汇总。用同样的方法,分析得到其他物种PAL基因的相关密码子偏好性指标;以各个物种的RSCU值以及PAL基因CDS序列为数据基础,利用SPSS及MEGA软件对不同物种进行聚类分析;运用SPSS和Origin软件进行不同物种间PAL基因的中性分析、ENc与GC3s关联性分析、以及奇偶偏好(PR2)分析;通过将苋菜PAL基因密码子偏好性与不同模式生物基因组密码子偏好性进行对比分析,来确定苋菜AtPAL基因最佳的异源表达受体。
ENc值是指基因序列的有效密码子数,可以检测某一基因对密码子的偏好程度,数值大小范围为20(每个氨基酸只使用1个密码子)到 61(各个密码子被均衡使用),数值越小,表明该基因的密码子使用偏好性越强[7-8]。除此之外,ENc值的大小还可以体现出基因的表达水平,一般来说,ENc值越大,则基因的表达水平越低,ENc值小于30的可预测为高表达基因,大于55的可预测为低表达基因[9]。CAI指实际编码该蛋白的所有密码子对于完全使用最优密码子编码该蛋白情况下的适应性指数,一般与密码子偏好性呈正相关,常用来衡量基因表达水平的高低[10],该值大小范围为0~1,越接近0则表明其基因表达水平以及密码子偏好性越弱[11]。
使用CUSP在线程序分析得到苋菜AtPAL基因的GC含量、GC3s含量,使用codon W软件分析得到苋菜AtPAL基因的ENc值以及CAI值,结果显示,苋菜AtPAL基因的ENc值为53.64,比较接近55,说明苋菜AtPAL基因的表达水平和密码子偏好性均较弱;GC含量为48.27%,即G+C的含量占48.27%,A+T的含量占51.73%,含量上比较接近,说明苋菜AtPAL基因略偏好使用A/T碱基,GC3s含量为48.88%,低于50%,说明苋菜AtPAL基因更偏好使用以A/T结尾的密码子;CAI值为0.220,远小于1,也进一步说明了苋菜AtPAL表达水平较弱。另外,苋菜AtPAL基因密码子在第3位碱基上各种碱基的含量为A3s(0.280)、T3s(0.363)、C3s(0.339)、G3s(0.261),说明苋菜AtPAL基因在密码子的选用上最偏好选用以T结尾的密码子。
RSCU值是指某一密码子所使用的频率与其在无偏使用时期望频率之间的比值[12],能够更直观的体现出密码子使用的偏好性程度[9]。若基因对某一密码子使用没有偏好性,则该密码子的RSCU值等于1,若某一密码子的RSCU值大于1,则表示对该密码子具有一定的偏好性。Frequency(密码子使用频率)是指在1000个密码子中某一密码子出现的次数;Fraction值是指某一密码子在其同义密码子中出现的比例(即一个氨基酸对应的所有同义密码子的Fraction值加和为1),这2个值也能在一定程度上反映出基因密码子使用偏好性。
通过codonW软件和CUSP在线程序分析得到苋菜AtPAL基因各个密码子的RSCU值、Frequency值、Fraction值(表 1),结果显示,RSCU值大于 1的密码子总共有27个,说明苋菜PAL基因CDS区对这27个密码子具有一定的使用偏好性,RSCU值大于 1.5 的密码子有 GCT、TTG、CTT、CCT、AGA、TCA、AGC、ACT等8个,即表示苋菜PAL基因对这8个密码子具有较强的偏好性,其中编码精氨酸的AGA密码子RSCU值为最高,达到2.06,说明苋菜AtPAL基因在选择编码精氨酸的同义密码子时最偏好使用AGA密码子。另外,TTT、TTC、TGG(剔除起始密码子ATG后)等3个密码子的RSCU值为1,即说明苋菜AtPAL基因对这3个密码子没有使用的偏好性。所分析的密码子中,只有编码苏氨酸的ACG密码子RSCU值为0,其余59个密码子(剔除3个终止密码子和1个起始密码子)的RSCU值均不为0,说明苋菜AtPAL基因编码区没有使用ACG这个密码子,且在密码子的使用上偏好性较弱,与分析ENc值时所得结论一致。27个RSCU值大于1的密码子中有15个是以A/T结尾的,8个RSCU值大于1.5的密码子中有6个是以A/T结尾的,这也说明了苋菜AtPAL基因在密码子的使用上,偏好选择以A/T结尾的密码子,与前面分析GC含量时得出的结论一致。另外发现,RSCU值大的密码子其Frequency值以及Fraction值往往也较大,这也说明了密码子的Frequency值和Fraction值可在一定程度上反映出密码子使用的偏好性。
2.3.1 不同物种间ENc值、CAI值以及GC含量分析。利用codon W软件分析各个物种PAL基因CDS区序列得到表2的结果,结果显示,PAL基因的ENc值、GC含量、GC3s含量、CAI值在单子叶植物与双子叶植物之间均存在明显的差异。11种双子叶植物的ENc值范围为46.46~54.42,均值为51.08,比较接近55,说明在双子叶植物中PAL基因的表达水平和密码子使用的偏好性普遍较弱;而4种单子叶植物的ENc值均较低,均值为29.35,低于30,说明在单子叶植物中PAL基因的表达量普遍偏高,并且密码子使用偏好性也较强。
11种双子叶植物的GC含量范围为42.46%~51.77%,均值为46.86%,GC3s含量范围为38.58%~57.99%,均值为46.28%,且除杏和康乃馨以外,其余9种双子叶植物的GC以及GC3s含量均在50%以下,说明PAL基因在双子叶植物中普遍略偏好使用A/T碱基,并且偏好使用以A/T结尾的密码子,与Murray等[13]研究发现的双子叶植物密码子使用规律相符;4种单子叶植物的GC含量、GC3s含量均高于0.5,均值分别是67.65%(GC含量)、96.40%(GC3s含量),说明在单子叶植物中,PAL基因普遍偏好使用G/C碱基,尤其对以A/T结尾的密码子有着极强的偏好性。另外,除番茄外的14个物种GC1含量均在50%以上,且15个物种的GC2含量均在50%以下,说明PAL基因无论是在双子叶植物中还是在单子叶植物中均普遍偏好使用第1位碱基为G/C、第2位碱基为A/T的密码子,但在第1位碱基上,单子叶植物对G/C碱基的偏好程度比双子叶植物要强(单双子叶植物GC1含量均值分别为62.73%、52.99%)。
11种双子叶植物CAI值均较低,值的范围为0.193~0.239,范围波动较小,均值为0.217,与1相差较大,因此,也进一步说明在双子叶植物中PAL基因的表达水平和密码子使用的偏好性普遍较弱;而4种单子叶植物,除高粱以外的物种CAI值均高于0.3,均值为0.309,说明PAL基因在单子叶植物中的基因表达水平以及密码子使用偏好性普遍高于双子叶植物。
2.3.2 基于PAL基因密码子偏好性及基因编码区的聚类分析。基于15种不同物种的RSCU值,利用SPSS软件计算不同物种间的欧式平方距离系数,欧式平方距离系数的数值越大,则表示物种间相关基因密码子使用偏好性差异越大,所得结果如表3所示。结果表明,任意一种双子叶植物与任意一种单子叶植物(水稻、甘蔗、玉米、高粱)间的欧式平方距离系数均较大,说明PAL基因密码子使用偏好性在单子叶植物和双子叶植物之间存在很大的差异。但11种双子叶植物两两之间或是4种单子叶植物两两之间,其欧式平方距离系数均较小;同属石竹目的4个物种(苋菜、甜菜、菠菜、康乃馨)两两之间的欧式平方距离系数都在14.000以下,同为藜科的甜菜和菠菜之间的欧式平方距离系数只有6.088,同属禾本科的甘蔗、玉米、水稻、高粱两两之间的欧式平方距离系数也均在11.000以下,而亲缘关系远的物种间的欧式平方距离系数普遍相对较高,说明PAL基因密码子使用偏好性与物种间的亲缘关系有一定的联系,亲缘关系近的物种往往密码子使用的偏好性差异也较小,但并不绝对,比如属于杨柳科的毛白杨与属于藜科的菠菜,两者在亲缘关系上相差较大,但欧式平方距离系数却只有5.845,表示两者PAL基因在密码子的使用偏好性上差异较小,这说明一些物种在进化过程中其PAL基因可能会形成独特的密码子使用偏好性。
基于不同物种间密码子使用偏好性的欧氏平方距离系数进行聚类分析,以每条基因作为一个对象,将密码子的RSCU值作为变量,采用59个密码子(剔除3个终止密码子,1个起始密码子ATG以及编码色氨酸的TGG)的RSCU值对其密码子使用偏性进行分析[14]。基因间的距离规定为基因同义密码子相对使用度的欧氏平方距离[15],对于基因X与基因Y,其密码子使用距离D的计算公式为:
为了使同类样品之间的离差平方和最小,而类与类之间的离差平方和最大,使用了离差平方和法计算类与类间的距离[16],通过聚类分析得到图1的树状图。结果显示,进化树将15个物种划分成了单子叶植物和双子叶植物2个大类,玉米、甘蔗、水稻和高粱4种单子叶植物聚为一个大类,其余的11种双子叶植物聚为一个大类;在双子叶植物中,同属藜科的菠菜、甜菜与属于杨柳科的毛白杨聚为一小类,同属石竹目的苋菜和康乃馨也单独聚为一个小类,但是也发现同属石竹目的4个物种(苋菜、甜菜、菠菜、康乃馨)并没有完全单独聚为一个小类别。因此,在一定程度上可以说明,亲缘关系近的物种其PAL基因往往具有相似的密码子使用偏好性,但并非绝对,某些物种的PAL基因在进化过程中可能会形成独特的密码子使用偏好性。
图1 基于PAL基因同义密码子相对使用度的聚类树状图
基于不同物种PAL基因CDS区序列,使用MEGA7.0进行系统进化树的构建,结果如图2所示。从进化树所呈现的结果可以看出,15个物种同样被分为2个大类,同为单子叶植物的玉米、高粱、甘蔗、水稻单独聚为一大类,其余的11种双子叶植物聚为另一个大类;在双子叶植物中,同属石竹目的菠菜、甜菜、苋菜、康乃馨单独聚成了一小类,其中同为藜科的甜菜和菠菜更是单独聚为了一个小类。因此,在一定程度上能够说明无论是在单子叶植物中或是双子叶植物中,亲缘关系越近的2个物种其PAL基因密码子使用的偏好性往往越相似,而且相较于基于RSCU值聚类分析的结果,基于CDS区序列聚类分析的结果与传统意义上的物种分类更为接近,与赖瑞联等[17]在研究龙眼TIR1基因时所得结论相符。
图2 基于PAL基因CDS序列构建的系统进化树
表3 不同物种间PAL基因密码子使用偏性的欧式平方距离系数
在进化过程中基因对密码子的使用偏好性往往受诸多因素影响,分析密码子第1、2、3位上GC含量间的相关性,可以在一定程度上判别影响密码子使用偏好性的因素[18]。一般认为,若GC12(GC1与GC2加和的平均值)与GC3的含量存在相关性,则表示在进化过程中基因对密码子的使用偏好性主要受突变压力的影响,若不存在相关性则表示主要受自然选择压力的影响[19],根据这个结论,在进行中性分析时以不同物种的GC12含量作为纵坐标,不同物种的GC3含量作为横坐标[20],利用Origin软件进行中性绘图,所得结果如图3所示。从中性分析的结果图可以看出,GC12与GC3存在极显著的相关性(r=0.946,P<0.01),说明在进化过程中突变压力是影响PAL基因密码子使用偏好性的主要因素。
图3 不同物种PAL基因中性绘图分析
研究表明,基因的ENc值与GC3含量之间的期望曲线能够在一定程度上反映出影响基因对密码子使用偏好性的因素,若某一基因位点落在期望曲线上,则表示影响该基因密码子使用偏好性的因素是突变压力;若不在期望曲线上,则表示该基因受到突变压力、自然选择压力或其他一些因素的影响[21-22]。此外,还有研究发现,当GC3含量取值分布范围较广时,则主要是突变压力影响密码子的偏好性[23]。从图4的结果来看,发现该研究的15个物种的PAL基因全都分布在期望曲线的下方,大部分都较靠近期望曲线分布,也存在少部分距离期望曲线较远的点,另外GC3含量的分布范围为0.386~0.969,分布较广,说明总体而言PAL基因在密码子的使用偏好性上主要受突变压力的影响,但也存在其它一些因素影响着PAL基因密码子使用偏好性,与中性分析的结果一致。
图4 不同物种PAL基因ENc与GC3s的关系
奇偶分析(PR2)主要用于分析密码子第3位上嘌呤含量与嘧啶含量的关系[24],一般认为,如果基因密码子偏好性只受到突变压力的影响,那么基因密码子在第3位上的碱基A和T与G和C的使用频率应该是相等的,即A3/(A3+T3)=0.5,G3/(C3+G3)=0.5。从图5可以发现,15个物种PAL基因密码子第3位上的A3/(A3+T3)值均小于0.5,并且,所有物种的G3/(C3+G3)值均偏离0.5,因此,可以进一步说明PAL基因密码子偏好性除受突变压力影响外,还可能受如自然选择压力[25]等其他一些因素的影响。
图5 不同物种PAL基因奇偶偏好(PR2)分析
不同物种的密码子使用频率比值可以反映出物种间密码子使用偏性的差异,若比值大小在0.5~2则代表物种间密码子偏好性比较相似,若不在这个范围内则表示物种间的密码子偏性差异较大[14]。大肠杆菌是常见的原核表达系统,酵母菌是常见的真核表达系统,拟南芥、烟草、番茄则常作为遗传转化的受体,表4列出了苋菜AtPAL基因密码子使用频率与大肠杆菌、酵母菌、拟南芥、烟草、番茄等生物密码子使用频率的比值,结果显示,大于2或小于0.5的比值个数分别有:拟南芥8个、烟草10个、番茄13个、大肠杆菌20个、酵母菌17个,即说明对于拟南芥、烟草、番茄3种模式生物而言,拟南芥基因组密码子的使用偏性与苋菜AtPAL基因密码子的使用偏性差异最小,因此拟南芥是3种模式植物中最适合作为苋菜AtPAL基因遗传转化受体的植物;而对于大肠杆菌和酵母菌而言,酵母表达系统要优于大肠杆菌表达系统,即酵母菌更适合作为苋菜AtPAL基因的表达载体。
表4 苋菜AtPAL基因密码使用偏好性与5种常见模式生物基因组密码子使用偏好性比较
该研究发现,苋菜AtPAL基因GC含量为48.27%,GC3s含量为48.88%,表明苋菜AtPAL基因偏好使用A/T碱基,且偏好使用以A/T结尾的密码子;ENc值为 53.64,较接近 55,CAI值为 0.220,较接近0,说明苋菜AtPAL基因的表达水平和密码子偏好性均较弱。分析苋菜AtPAL基因RSCU值发现,具有使用偏好性的密码子有27个(RSCU>1),其中GCT、TTG、CTT、CCT、AGA、TCA、AGC、ACT 等 8 个密码子具有较强的使用偏好性(RSCU>1.5);对比不同物种间PAL基因密码子偏好性发现,PAL基因在双子叶植物中普遍略偏好使用A/T碱基,并且偏好使用以A/T结尾的密码子,而在单子叶植物中普遍略偏好使用G/C碱基,并且较偏好使用以G/C结尾的密码子。2种聚类分析结果均表明,PAL基因密码子使用偏性与物种间亲缘关系存在一定联系,亲缘关系近的物种,其PAL基因密码子使用偏好性也往往较相似,但并非绝对,基于RSCU值聚类分析的结果中发现,参与甜菜色素代谢的苋菜和参与花青素代谢的康乃馨、杏等物种聚为一类,苋菜、菠菜、甜菜3种参与甜菜色素代谢的植物并没有完全聚为一类,而是与参与花青素代谢的植物混聚在一起,出现这样的聚类结果,很可能说明苯丙烷代谢通路是植物体中很重要的一条代谢通路,参与甜菜色素代谢和参与花青素代谢的植物的PAL基因都具有很强的保守性,因而石竹目的植物并没有单独的聚在一起。除此之外,还可能与一些物种在进化过程中形成了独特的密码子偏好性,花青素代谢和甜菜素色代谢可能具有共同的起源[26]等原因有关。
不同物种间PAL基因的中性分析、ENc与GC3关联性分析、PR2分析结果表明,影响PAL基因密码子偏好性的主要因素是突变压力,其他一些因素也对其有一定的影响,如自然选择压力、基因长度等。
苋菜AtPAL基因密码子偏好性与大肠杆菌、酵母菌、拟南芥、烟草、番茄等模式生物基因组密码子偏好性对比结果表明,拟南芥是3种模式植物中最适合作为苋菜AtPAL基因遗传转化受体的植物,酵母菌比大肠杆菌更适合作为苋菜AtPAL基因的表达载体,若要使用大肠杆菌作为苋菜AtPAL基因的表达载体,还需要针对大肠杆菌对密码子的使用偏好性对苋菜AtPAL基因进行密码子的优化。该研究结果可作为苋菜AtPAL基因进行异源表达时,选择合适受体及表达系统的理论基础,同时也能够为苋菜AtPAL基因密码子的优化提供依据。