梁湘兰,郭 松,2*
(1.广西科技师范学院 食品与生化工程学院,广西 来宾 546199;2.广西科技师范学院 特色瑶药资源研究与开发重点实验室,广西 来宾 546199)
苦马豆(Sphaerophysasalsula)是中亚西北荒漠区重要的豆科植物。目前仅有2个种,其中一个产自我国,在海拔960~3 180 m的戈壁绿洲、山坡、荒地、草原、沙滩、沟渠旁及盐池周围可见其踪迹。苦马豆耐盐耐碱、耐瘠耐涝,是改良盐碱地的先锋植物。从苦马豆的同一根瘤中分离出的非共生内生细菌可以与根瘤菌协同作用,有助于改善豆类植物的根瘤和固氮作用[1-2]。苦马豆蛋白质含量较高,除了可以提高土壤肥力外还可以在冬季用作牧草,是极具开发和利用价值的经济植物。在天然产物的研究方面,苦马豆中存在2个新的芪类化合物[3],且富含黄酮类化合物[4],民间常被用作为治疗高血压的药物[5]。现代药理学表明,苦马豆具有抗病毒[6]、抗肝炎[7]、抗肿瘤[8]等作用,具有重要的药用开发和研究价值。
密码子又称遗传密码,编码不同氨基酸密码子的准确识别对于遗传信息正确表达至关重要。密码子具有简并性,除了甲硫氨酸和色氨酸外其余氨基酸一般是由2~6个同义密码子编码。经过长期的进化,不同的生物体在编码氨基酸的过程中倾向于使用一种或几种特定的密码子,将该现象称为密码子的偏好性[9]。研究表明,同义密码子在生物体内普遍存在使用具有偏好性的现象和特点。物种在长期进化的过程中,其基因等会受到环境选择和碱基突变等因素的综合作用,同时还受到基因组大小、tRNA丰富度和基因表达水平等各种外在和内在因素的影响[10]。密码子偏好性通过对基因翻译准确性和效率的调节影响基因的表达水平。植物叶绿体的规模较小,在植物中存在拷贝数多的现象,在基因结构上具有相对保守的特点[11]。因此,从叶绿体基因组中选择最优密码子,并设计叶绿体基因的表达载体,对于迅速提高特定基因在叶绿体中的表达量具有一定的作用。根据已知的密码子使用模式,推断未知基因的表达模式,或预测未知基因的功能也是分析叶绿体基因组密码子偏好性的一个作用。分析苦马豆叶绿体基因组密码子的偏好性,对苦马豆叶绿体基因组工程具有重要意义。
本文将通过对苦马豆叶绿体基因组蛋白编码基因密码子的偏好性进行分析,并对密码子偏好性形成的原因进行探究,研究筛选最优密码子,为苦马豆叶绿体基因组的改良、目的基因的优化等提供科学依据。
苦马豆(S.salsula)叶绿体基因组下载于NCBI数据库(GenBank号为MW122834)。苦马豆叶绿体基因组中筛选得到76条可以编码蛋白质的基因序列(Coding DNA Sequence,CDS),排除长度小于300 bp和重复的24条基因序列,其余52条CDS用于后续的分析。
1.2.1 相关参数计算及偏性强弱判断 将52条CDS整合到一个fasta文件中,运用Codon W 1.4.2软件进行分析,获得相对同义密码子使用度(Relative Synonymous Codon Usage,RSCU)信息,并将RSCU>1的密码子确定为高频密码子。使用在线软件CUSP计算不同基因中各个密码子第1、第2、第3位GC含量(分别用GC1、GC2、GC3表示)以及该基因中碱基GC的含量(GCall);使用Chips计算有效密码子数(Effective Number of Codon,ENC)。ENC值的高低可以推断密码子偏好性的强弱。ENC理论取值为20~61,越靠近20,密码子偏好性越强;越靠近61,每个密码子被均衡使用,密码子偏好性较弱,并将45作为判断密码子偏好性强弱的标准[12]。
1.2.2 偏向有无分析 使用SPSS 23.0将GC1、GC2、GC3、GCall、ENC以及每个基因的密码子数目(N)进行相关性分析。对于叶绿体蛋白编码基因的密码子偏好性而言,相关性分析的结果能够初步判断选择或突变对密码子偏好性的影响较为突出。密码子碱基第3位的改变通常为同义突变,而密码子第1、第2位的改变通常会改变基因的功能或活性。以GC3为横坐标,GC1、GC2的平均值(用GC12表示)为纵坐标,一个基因用1个散点表示,进行中性绘图分析。在中性分析的图中,若所有基因都沿着对角线分布,或GC12与GC3相关性显著时,密码子3个位置的碱基组成无明显差异,选择压力弱,但受突变影响大。
ENC-plot分析使用R语言程序,以GC3s为横坐标,ENC为纵坐标,ENC=2+GC3s2+[29/GC3s+(1-GC3s)2]为标准曲线进行绘图。ENC-plot图用于分析突变在密码子使用模式中的作用,当实际ENC值与预期ENC值差异较小时,基因分布于曲线附近,密码子偏性受突变影响。基因多分布于曲线下方较远的位置时密码子偏性较多受选择因素的影响[13]。
PR2偏好性分析仅由4种密码子编码的氨基酸进行分析,以G3/(G3+C3)、A3/(A3+U3)分别为横、纵坐标,G3/(G3+C3)=A3/(A3+U3)=0.5的点为中心点绘制散点图。为了避免密码子第3位碱基之间的突变不平衡,在无选择压力情况下,A、U、G、C的分布是均匀的。
1.2.3 最优密码子确立 以ENC为参考指标,从两端各选取10%的基因构建高低表达基因库,将高低基因表达库的基因利用Codon W 1.4.2分别计算RSCU值,计算高低基因表达库之间的差值,△RSCU≥0.08的密码子筛选为高表达优越密码子。若一密码子既为高频密码子,也为高表达优越密码子,则将该密码子确定为最优密码子。
利用在线软件CUSP和Chips分析筛选的蛋白编码基因的GC含量,以及ENC结果得到密码子第1~第3位的平均GC含量分别为46.30%,38.39%,27.14%,除了基因rps11、rps18、ycf1外,其他基因的各个位置GC的含量均为GC1>GC2>GC3,密码子在3个位置上GC含量差距较大,第3位碱基的GC含量最低,密码子主要偏好A、U结尾。由Codon W 1.4.2测得RSCU(表1),同时,RSCU>1的密码子有29个,除了密码子UUG外,其他密码子均以A、U结尾。判断偏好性强弱的ENC值测得在38.729~56.534,平均值为47.110,而ENC>45的基因有41个。若将45作为分界线来判断密码子偏好性强弱,分析结果显示出苦马豆叶绿体基因组密码子偏好性较弱的特点。
表1 苦马豆叶绿体基因组中各氨基酸的RSCU分析
利用SPSS 23.0测得各个位置的GC含量(GC1,GC2,GC3)GCall、ENC和密码子数目(N)的相关性如表2所示。由表2可知,GC1、GC2与GC3之间并无显著相关性,3位密码子之间碱基组成存在差异。GC3与ENC相关性显著,说明GC3对密码子偏好性存在影响。而密码子数目与其他因素都不存在相关性,说明密码子数目对密码子偏好性的影响较小。
表2 苦马豆叶绿体基因组密码子各位置GC含量、数量及ENC值相关性分析
中性绘图分析结果如图1所示,GC12与GC3的相关系数为r=0.265 7(R2=0.070 6),相关性不显著,且基因均位于对角线的上方,密码子的3个碱基存在差异,密码子偏好性主要受到选择因素的影响。
由R语言程序绘制的ENC-plot图(图2)可知,密码子较为均匀对分布于曲线的两侧,根据ENC比值=(ENC实际-ENC期望)/ENC实际得到结果(表3),由表3可知,比值在-0.05~0.05的基因有27个,占0.519。以此可以初步分析认为,苦马豆叶绿体基因组密码子的偏好性同时受到选择和突变作用的影响。
表3 ENC比值频数分布
PR2-plot结果表明(图3),基因的分布并不均匀,位于左下方的基因数量最多,说明密码子第3位碱基U的使用频率大于A、C的使用频率大于G。当突变为唯一影响因素时,4种碱基的使用频率应该相等。但此时的结果表明,苦马豆叶绿体基因组蛋白编码基因密码子偏好性受到选择因素的影响可能较为突出。
通过构建高低基因表达库(表4),得到21个△RSCU≥0.08的密码子,并将该密码子确立为高表达优越密码子。将既属于高表达优越密码子,又属于高频密码子的确立为最优密码子。最终得到16个最优密码子,分别为GUU、UCA、UUAAUU、CCA、、UUG、ACU、UAU、GCU、GAU、GAA、CAU、CGA、CAA、AAA、GGU。
表4 苦马豆叶绿体基因组最优密码子分析
密码子是体内遗传信息传递的基础部分,密码子的使用偏好性对于外源基因的表达具有重要意义。近年来,随着基因组测序的不断增加,关于密码子偏好性分析的论文也越来越多[14-18]。之前已有小球藻(Chlorellasorokiniana)[19]、蒺藜苜蓿(Medicagotruncatula)[20]、云南蓝果树(Nyssayunnanensis)[17]、秋茄(Kandeliaobovata)[18]等物种的密码子偏好性分析,相关研究为重要经济和药用植物的基因工程改良奠定了基础。
本研究通过分析苦马豆叶绿体基因组密码子52个CDS,得到密码子3位碱基的GC含量分布情况为GC1>GC2>GC3,该结果与已经研究的大多数物种籽粒苋(Amaranthushypochondriacus)[21]、酸枣(Ziziphusjujubavar.spinosa)[22]、美国红梣(Fraxinuspennsylvanica)[23]得出的结果一致,GC3的含量均为最低,密码子偏好以A、U结尾。在RSCU>1的密码子中,仅有密码子UUA的RSCU>2,该密码子的偏好性较强。判断密码子偏好性强弱的ENC值为38.729~56.534,大多数的密码子更偏向于61,其中52个基因中>45的有41个,密码子偏好性较弱。在现在已发表的叶绿体基因组密码子偏好性论文中[20,22-25],关于密码子偏好性的强弱问题,大多数都倾向于偏好性较弱。密码子的使用偏性是物种对自身基因组成和外界环境选择长期适应的结果。由于密码子第3位的碱基受到的压力比第1、2位小,因此GC3常常是用来分析密码子偏好性的重要参数。以GC12为纵坐标,GC3为横坐标的中性绘图分析得到,碱基第1、第2位碱基存在差异,密码子偏好性主要受到选择因素的影响,与紫花苜蓿(Medicagosativa)[14]、美国红梣(Fraxinuspennsylvanica)[23]的结果一致。ENC-plot图分析结果表明,密码子偏好性除了受到选择因素影响外还受到突变因素的影响,该分析结果与西南桦叶(Betulaalnoides)[26]、紫花苜蓿(Medicagosativa)[14]的分析结果相同。PR2-plot分析可以说明4个碱基的使用情况,分析结果表明,4个碱基的分布并不均匀,主要分布于左下角,U的使用频率大于A,C的使用频率较G的使用频率高,说明其偏好性同时受到突变和自然选择的影响,密码子使用模式较为复杂。
通过建立高低表达库的对比,计算这2个库间的△RSCU值,采用高频密码子与高表达优越密码子相结合的方法,最终确立了16个最优密码子,其中以A结尾的有7个,以U结尾的有8个,仅有1个密码子以G结尾,无以C结尾的最优密码子。同时再次证实了苦马豆叶绿体基因组密码子偏好以A、U结尾,与大多数物种的密码子偏好以A、U结尾一致。在构建基因表达载体的时候,选取最优密码子,可以提高基因的表达效率。
本研究通过生物信息学的方法,对苦马豆叶绿体基因组的使用模式有了一定的了解,对将来开发苦马豆资源利用、外源基因能够在苦马豆中高效表达提供有利的依据。