冯瑞云 ,田 翔 ,程 宏 ,王慧杰 ,梅 超 ,左 敏 ,雷梦林
(1.山西省农业科学院作物科学研究所,作物遗传与分子改良山西省重点实验室,山西太原030031;2.山西省农业科学院农作物品种资源研究所,农业部黄土高原作物基因资源与种质创制重点实验室,山西太原030031;3.山西省农业科学院玉米研究所,山西忻州034000)
生物基因的核苷酸序列与蛋白质的氨基酸序列之间的联系纽带是三联体密码子[1]。蛋白质翻译过程氨基酸的正确加入,需靠mRNA上的密码子与tRNA上的反密码子相互以碱基配对辩认。在密码子与反密码子的配对中,第1对和第2对碱基严格遵守碱基互补配对原则,第3位碱基有一定自由度,可以“摆动”,这就是密码子的简并性[2]。编码同一个氨基酸的密码子是同义密码子,如果每个氨基酸位点上的核苷酸在无任何选择压力和突变基因的偏倚情况下,同义密码子的突变是随机的,并且出现的概率也是一样的[3]。但是实际情况下,同义密码子突变概率具有不同的使用频率,某些同义密码子具有较高的使用频率[4],在翻译过程中使用频率有很大的差异,也就是密码子的使用偏性[5]。从生物的某个单一物种基因组中的基因到不同的物种基因组,都可以发现某种密码子偏好的趋势[6]。研究密码子碱基突变、自然选择、遗传漂变、水平转移和重组等特性,不但能够反映生物物种的一些进化现象,而且在基因工程表达载体中有针对性的设计这些密码子,能够有效提高目的基因的转化效率和表达量,具有一定的应用前景[7-8]。
蒙古黄芪(Astragalus.membranaceus var.mongholicus)是豆科蝶形花亚科黄芪属多年生草本植物[9-10],属于膜荚黄芪变种,产于黑龙江、内蒙古、河北及陕西等地的向阳草坡或山坡上[11]。黄芪总黄酮中含量较高的主要为异黄酮类成分,异黄酮不仅药效显著,是天然的抗氧化剂,具有很强的清除自由基的能力,而且它的价值高昂,是黄芪药材质量检测及黄芪中药必不可少的质量指标之一[12]。
异黄酮(Isoflavone)已被证明是许多植物植保素的前体物质,是苯丙氨酸代谢途径中的一类次生代谢物质,也是豆科植物与根瘤菌共生的化学诱导物,能够诱导nod基因的表达,有利于降低胆固醇,预防心血管疾病,提高机体免疫功能以及预防肿瘤发生等,具有重要的营养和医用价值[13]。但是其在植物界只局限于豆科蝶形花亚科等极少数植物中分布,物种范围非常狭窄,其中以大豆和苜蓿中的含量最高。异黄酮合成酶(IFS)是将植物的黄烷酮代谢途径引入异黄酮代谢途径的关键酶[14],研究IFS结构、功能、催化机制以及作为信号分子诱导根瘤形成是异黄酮类化合物代谢的基础和关键。目前,已经在白三叶草、百脉根、大豆、小扁豆、绿豆、红三叶草、羽扇豆、紫花苜蓿等植物中克隆出IFS全长。发掘和利用异黄酮合成过程中的IFS基因,并通过转基因技术转化不同作物,对提高植物异黄酮水平、赋予非豆类植物合成异黄酮的能力具有重要意义。
本研究利用CodonW和EMBOSS等在线程序,分析了蒙古黄芪IFS基因的密码子偏性,并将其与不同物种的IFS基因密码子使用偏性进行比较,为进一步研究IFS蛋白质的结构和功能以及分子进化奠定基础,同时通过密码子使用偏性进行比较来选择最佳外源表达系统,可以为IFS基因转入模式生物进行功能验证提供参考依据。
从GenBank在线数据库(https://www.ncbi.nlm.nih.gov/genbank/)下载蒙古黄芪(Astragalus.membra naceus var.mongholicus)IFS基因的完整序列(Gen-Bank登录号为HQ339961.1),序列全长1 578 bp,5′UTR 和 3′UTR 分别为 117,17 bp,开放阅读框1 578 bp,编码526个氨基酸。
以Isoflavone synthase(IFS)为搜索名称从Gen-Bank(http://www.ncbi.nlm.nih.gov/genbank/)中 检 索并下载大豆、葛根、红豆草和膜荚黄芪等13个双子叶植物物种IFS基因CDS序列(表1)。筛选CDS的原则是以ATG为起始密码子,以TAA,TAG或TGA为终止密码子,大于300bp的氨基酸序列长度,只在细胞质中翻译的基因,并且将位于病毒、转座子、质粒上的基因进行排除,对于多拷贝基因只做一次统计。此外,拟南芥、番茄、烟草、酵母菌以及大肠杆菌的基因组密码子数据来源于Codon Usage Database在线数据库(http://www.kazusa.or.jp/codon/)。
表1 IFS基因的完整编码区序列来源
1.2.1 密码子偏好性参数分析 分别采用CodonW软件和EMBOSS在线程序中的CHIP(Codon heterozygosity in a protein coding sequence)和CUSP(Create a codon usage table)模块分析IFS基因有效密码子数 ENc,GC1,GC2 和 GC3(密码子第 1,2 和3位上G和C含量)和总G和C含量(GC),密码子第3位上A,G,C和U的含量(A3,G3,C3和U3),分析相对同义密码子的使用度(relatively synonymous codonusage,RSCU)以及密码子的使用频率。
1.2.2 碱基组成相关性分析 编码区密码子第3位上碱基的突变往往只造成同义突变,对编码结果并不影响;而编码区密码子前2位碱基多会造成所编码氨基酸序列改变,为非同义突变。将密码子GC1,GC2,GC3,GC和ENc等偏好性参数采用SPSS18.0,进行Pearson相关性和相关显著性分析,解析造成密码子偏好性形成的可能因素。
1.2.3 基于密码子使用偏性和CDS序列的聚类排除编码氨基酸61个密码子中的色氨酸(Trp)、甲硫氨酸(Met)和终止密码子,将59个密码子出现概率视做多维空间的一个变量,每个基因均可量化为59个变量组成的空间向量。运用CodonW在线程序计算不同物种IFS基因CDS区的RSCU值,并以每个物种作为一个对象,将每个密码子的RSCU值作为变量,利用SPSS 18.0软件,采用Ward法进行聚类分析。同时,运用MEGA5.0软件计算物种间的遗传距离,并采用组间邻接法构建系统发育树。
2.1.1 同义密码子相对使用度 蒙古黄芪IFS基因编码区使用频率及RSCU值计算结果(表2)表明,RSCU值大于1的密码子有26个,为IFS基因偏好密码子,其中,以G/C结尾的密码子有9个,以A/T结尾的有17个。有8个密码子的RSCU值大于1.5,为高频密码子,分别为 TCT,CTT,CCT,ACC,AGA,AGG,GTT和GCT。密码子AGA的RSCU值最大,为2.33,该密码子的偏好性最强。编码氨基酸Trp,Arg,Met的密码子 ATG,TGG,TGA 的 RSCU 值均等于1,表明蒙古黄芪IFS基因中的密码子ATG,TGG,TGA使用没有偏好性。
表2 CUSP和Codon W软件分析膜荚黄芪IFS基因密码子偏好性
2.1.2 有效密码子数及GC含量 通过CodonW程序分析得出,蒙古黄芪IFS基因编码区有521个密码子,同义密码子有502个。由表3可知,蒙古黄芪IFS基因编码区的GC含量为0.458,小于0.5,表明蒙古黄芪IFS基因在编码碱基较偏向于选择A+T;GC3含量为0.425,小于0.5,表明蒙古黄芪IFS基因密码子第3位碱基对A/T更加偏好。蒙古黄芪IFS基因的ENc值为51.83,远大于基因表达量和密码子偏好性强弱的区分标准值35,小于61[15],表明蒙古黄芪IFS基因对密码子选择偏性比较弱,各密码子在编码氨基酸时的频率比较一致,基因表达水平偏低。
表3 不同物种IFS密码子偏性分析
由表3可知,14个物种中仅有大豆的GC值大于0.5,其余13个物种GC值均小于0.5,GC平均值为0.461。14个物种的GC3平均值为0.446,大于0.5的GC3值有4个,分别为大豆、豇豆、绿豆和红三叶草,大豆的GC3值最大,为0.554;剩余10个物种的GC3值均小于0.5,其中,黄羽扇豆GC3值最小,为0.313。说明不同物种IFS之间密码子对GC含量和G/C结尾的偏好性不一致,但多数物种A+T的含量高于G+C,且密码子可能偏好A/T结尾。
14个物种IFS的ENc值平均值为49.649,其中,膜荚黄芪ENc值最大,为52.28,黄羽扇豆ENc值最小,为45.92,说明不同物种IFS基因之间有较大差异,但密码子选择偏好性和基因表达水平普遍较低。膜荚黄芪、葛根、锦鸡儿、甘草与蒙古黄芪IFS的ENc值较为接近。14个物种IFS的CAI值介于0.177~0.205之间,CAI平均值为0.193,均远小于1。CAI取值范围在0~1之间,数值越高表明密码子使用偏好性越强,说明各物种IFS的CAI指数验证结果与ENc值一致,表明这些物种的密码子偏好性及基因表达水平虽有一定差异,但密码子使用偏好性较弱,基因表达水平普遍不强。
密码子使用偏好性RSCU值结果(表3)表明,豇豆IFS中RSCU>1的密码子数目最多,为31个,大豆、甘草和补骨脂的密码子数目最少,为26个;豇豆IFS中RSCU>1.5的密码子数目最多,为15个,葛根密码子数目最少,为7个;RSCU值范围大多在0~3.00,红豆草RSCU值范围较小,为0~2.62。
表4 IFS密码子成分相关性分析
采用 SPSS 18.0 进行 GC1,GC2,GC12,GC3,GC和ENc两两Pearson关联显著性分析(表4),除GC与 ENc,GC3与 ENc无显著相关性外,GC2与GC3,GC2与ENC参数间呈显著相关性,剩余其他任意2个参数间均存在极显著相关性(P<0.01)。其中,GC1,GC2,GC3与GC两两之间均为极显著正相关,表明IFS密码子第1,2,3位上的碱基组成较为相似,碱基组成无显著差异;GC12与GC3间为极显著正相关(r=0.723,P<0.01),表明 IFS基因密码子使用偏好性的形成受突变压力影响较大。
基于不同物种的IFS密码子使用偏性聚类分析可分为2个大类(图1),样本数分别为8,6。14个不同物种均属于豆科蝶形花亚科,其中,6个属于豆目(大豆、葛根、甘草、蒺藜苜蓿、蒙古黄芪、膜荚黄芪),1个属于杜鹃花目(黄羽扇豆),7个属于蔷薇目(豇豆、绿豆、红三叶草、豌豆、补骨脂、锦鸡儿、红豆草)。蒙古黄芪IFS处于Ⅱ类,与膜荚黄芪以及蔷薇目的锦鸡儿密码子偏性较接近;杜鹃花目的黄羽扇豆与蔷薇目的红豆草同为一组,密码子偏性较近;而同属于蔷薇目的豇豆、绿豆、红三叶草和豌豆、补骨脂、锦鸡儿、红豆草分属于不同类别,密码子偏性差异较大;同属于豆目的大豆、葛根、甘草和蒺藜苜蓿、蒙古黄芪、膜荚黄芪分属于不同类别,密码子偏性差异较大,可见不同物种间IFS的密码子使用特性与物种近缘关系是否接近并无显著相关性。
根据CDS序列构建系统发育树可将IFS归为2个大类(图2),不同的是,杜鹃花目的黄羽扇豆单独成Ⅰ类,其他13个物种归为Ⅱ类,Ⅱ类又分为2个亚类;亚类群内蔷薇目的补骨脂重新分类,并单独归为一小类;红豆草和锦鸡儿、蒺藜苜蓿和豌豆聚类结果较为相近,与密码子偏性聚类结果有一定差异;而其余物种在2种方法中的聚类结果较为相近,但仍有一定差异。可见有些物种间IFS密码子使用偏性较为相似,但有些物种IFS在长期生物进化过程中密码子使用偏性发生改变。基于密码子偏好性聚类分析可以较大程度地反映蒙古黄芪IFS特殊的进化规律,但基于CDS的系统聚类与传统的植物分类学更加接近。
表5 蒙古黄芪IFS基因与部分模式生物基因组密码子使用偏性比较
续表5
将蒙古黄芪IFS密码子使用频率与大肠杆菌、拟南芥、酵母菌、烟草和番茄的基因组密码子使用频率进行比较发现(表5),蒙古黄芪IFS与大肠杆菌使用偏性差异较大的密码子有14个,与酵母菌使用偏性差异较大的密码子为12个。
可见,酵母菌真核表达系统更适用于蒙古黄芪IFS异源表达试验,但蒙古黄芪IFS与酵母菌密码子使用频率之间仍然存在较大的差异,在使用时需要进行密码子改造和优化。而在与遗传转化模式植物的比较中,蒙古黄芪IFS与拟南芥、烟草和番茄的基因组密码子使用频率差异较大的密码子个数分别为7,9,10个,说明蒙古黄芪IFS与这些模式生物密码子使用特性差异比较小,尤其拟南芥为蒙古黄芪IFS遗传转化功能验证最为理想的受体。
不同物种或同一物种的不同基因对密码子的偏好性有所不同[16-17]。蒙古黄芪IFS基因的ENc值为51.83,可见该基因密码子使用偏性相对较弱。已有研究表明,双子叶植物的GC3值通常小于50%,而单子叶植物往往具有较高的GC3值,二者的密码子偏好性明显不同。在碱基选择时,蒙古黄芪IFS基因的GC3值为0.425,GC值为0.458,说明蒙古黄芪IFS基因较倾向于选择A/T,密码子第3位碱基较偏好以A/T结尾,符合双子叶植物的使用密码子特性[18]。所选14种物种全部为双子叶植物,大豆的GC值大于0.5,而GC3值大于0.5的有大豆、豇豆、绿豆和红三叶草等4个。说明多数物种A+T的含量高于G+C,且密码子可能偏好A/T结尾。在排除自然环境压力前提下,突变压力的方向会影响密码子碱基及密码子末尾碱基的组成[19],推断蒙古黄芪IFS基因的密码子在进化过程中GC到AT突变压力要比AT到GC突变压力高。不同物种IFS的ENC值和CAI值虽然各不相同,但均表现为密码子使用偏好性弱,表达量较低。
分析表明,基于CDS聚类结果在亲缘关系鉴定中比密码子使用偏性分类更为准确,但密码子使用偏性分类在反映蒙古黄芪IFS基因特殊的个体进化规律更准确,说明采用密码子使用偏性和CDS序列相结合有助于提高分类结果的准确度和客观说明物种的进化规律,是物种进化关系分析中对系统发育分析的重要补充[20]。
在植物基因异源表达过程中,基因的翻译效率容易受到受体系统密码子使用特性的制约,往往需要根据受体生物密码子的使用特性对目标序列碱基进行改造和修饰,以提高表达水平[21]。通过不同模式植物的对比,蒙古黄芪IFS基因与拟南芥、烟草和番茄的偏性差异均比较小,拟南芥是蒙古黄芪IFS基因最理想的遗传转化受体,但目标基因能否高效表达还会受到转化效率、miRNA转录后水平调控以及mRNA的结构稳定性等诸多因素的影响[22],如何实现蒙古黄芪IFS基因高效遗传转化,仍有待深入研究。
通过对蒙古黄芪IFS基因的密码子分析表明,该基因偏好A/T结尾的密码子,确定了蒙古黄芪IFS基因中的8个高频密码子;酵母菌与蒙古黄芪IFS基因之间密码子使用频率比较差异更小,更适合做蒙古黄芪IFS基因的异源基因表达载体;蒙古黄芪IFS基因与拟南芥基因组密码子使用频率差异较小,说明拟南芥为IFS基因进行遗传转化功能验证的理想受体,但在遗传转化时仍需要结合受体密码子使用偏性对目标基因进行改造和优化,才能更好地提高表达效果。