李显煌,杨生超,辛雅萱,屈亚亚,杨琳懿,冯发玉,范 伟,辛培尧
(1.云南农业大学,云南省药用植物生物学重点实验室,云南 昆明 650201;2.云南农业大学,西南中药材种质创新与利用国家地方联合工程研究中心,云南 昆明 650201;3.西南林业大学,国家林业局西南风景园林工程技术研究中心,云南 昆明 650224)
密码子是生命信息的基本遗传单位。蛋白质在翻译过程中,同义密码子的使用存在不均等的现象,即便是同一物种,在不同蛋白质中编码相同的氨基酸时对密码子的使用频率也有所不同,即密码子的使用具有偏好性[1]。物种间密码子的使用偏好性是由于基因组中的核苷酸突变具有非随机性,使得一些密码子发生突变偏好而形成[2]。在转基因操作前研究密码子的偏好性,能够很好地预测外源DNA 片段的最适受体以及在受体中表达水平的高低,或者通过基因工程方法选用最优密码子从而提高外源基因在受体中的表达水平[3]。密码子偏好性分析还有利于更好地认知转录和翻译过程中各因子的调控机制[4]。此外,叶绿体基因组的相关研究还可以阐明基因在相关物种之间或某一个物种内的基因家族之间的进化模式[5]。由此可见,研究生物对密码子的偏好性使用对探索物种生命进化模式及基因的选择性表达具有重要意义。
叶绿体是具有一套完整独立的复制和翻译系统的细胞器,也是植物进行光合作用的场所[6]。叶绿体基因组具有半自主性、遗传信息保守和基因拷贝数多等特点[7-8]。对叶绿体基因组进行相关研究分析,已被广泛用于分子进化、系统发育和遗传表达等领域[9-11]。随着测序技术的不断升级,被发现并公布的植物叶绿体基因组序列也日益增多,这为叶绿体基因组氨基酸密码子的研究提供了充足的数据基础。根据最优密码子设计叶绿体基因表达载体,可迅速提高叶绿体基因组中基因表达量,用目前已知的密码子使用模式推断未知基因的表达,或预测某些未知基因的功能[12]。因此,研究叶绿体基因组密码子的使用模式对探讨物种进化和提高外源基因表达量等具有重要意义。目前,对于植物叶绿体基因组密码子偏好性的研究已经在无柄小叶榕(Ficus concinna)等多种植物[13-17]中进行了分析。
灯盏花[Erigeron breviscapus(Vant.) Hand-Mazz]为菊科(Compositae) 飞蓬属(Erigeron)多年生草本植物,又称灯盏细辛、灯盏花、细辛草、短葶飞蓬,是中医常用药草之一,具有通经活络、活血化瘀和消炎止痛等功效[18-20],在心脑血管系统、糖尿病和老年性疾病上也具有较好的疗效[21-23]。随着基因测序技术的进步,灯盏花叶绿体基因组的测序已经完成,但是关于灯盏花叶绿体密码子使用模式的研究还未见报道。叶绿体基因组与核基因组的研究方法相似,但与核基因组偏好性相比,叶绿体基因组具有目的基因表达量高和定点整合性强等优点。以灯盏花叶绿体基因组作为受体进行转基因,可避免核转基因系统中由花粉逃逸带来的生物安全性问题[12]。为更好地利用灯盏花叶绿体基因组作为受体进行转基因,本研究以灯盏花叶绿体基因组全序列为研究对象,通过分析叶绿体基因组密码子的使用模式,确定灯盏花叶绿体基因组的密码子偏好性及最优密码子,以期为灯盏花叶绿体基因组在基因工程的应用和研究提供理论依据。
通过查阅文献资料,获得灯盏花的叶绿体基因组(GenBank 登录号:MK414770.1)[24],根据登录号从NCBI 数据库(https://www.ncbi.nlm.gov/)下载得到灯盏花叶绿体基因组序列,序列全长为152 183 bp,其中共有87 条编码蛋白的CDS(coding DNA sequence)。剔除重复基因和长度小于300 bp 的基因序列,保留以ATG 为起始密码子、以TAA、TGA 和TAG 为终止密码子的序列,处理后得到47 条符合条件的CDS 用于分析。
1.2.1 相对同义密码子使用度分析
运用CodonW 1.4.2 软件分析符合条件的47条CDS,获得各CDS 的有效密码子数(effective number of codon,ENC) 和同义密码子相对使用度(relative synonymous codon usage,RSCU);应用EMBOSS explorer 中的CUSP 软件计算不同基因密码子不同位置的GC 含量,分别用GC1、GC2和GC3表示,用GCall表示该基因中GC 碱基的总含量,利用SPSS 21.0 软件对所得数据进行相对同义密码子使用度分析[25]。
1.2.2 碱基组成差异性分析
碱基组成差异性分析是初步判断影响密码子使用偏好性因素的方法之一。分析第1、2 位碱基和第3 位碱基组成的相关性,可推测出其密码子偏好性的主要影响因素[26]。在Excel 2010 中,采用中性绘图分析方法,以GC3为横坐标、GC12为纵坐标作散点图,对两者相关性进行分析,若GC12和GC3显著相关,且回归系数接近于1,则3 个位置上的密码子碱基组成无明显差异,密码子偏好性主要受到突变的影响;若GC12与GC3之间呈不显著相关,则说明第1、2 位与第3 位的密码子碱基组成存在差异,其偏好性受自然选择影响较大[27]。
1.2.3 碱基组成对密码子偏好性分析
采用ENC-plot 绘图分析,以GC3为横坐标、ENC 为纵坐标构建二维散点图,并在散点图中画出ENC 值的标准曲线,探讨各基因密码子使用偏好性情况和基因碱基组成之间的关系[28]。若散点沿标准曲线分布或落在其附近,则说明该基因密码子偏性仅受突变影响;若散点落在标准曲线下方较远的位置,则说明该基因密码子偏性受到自然选择影响。ENC 的值能反映密码子中同义密码子非均衡使用的偏好性程度[29],一般以ENC 值为35 来区分密码子偏性强弱。当ENC 值>35 时,表明其在编码氨基酸时密码子使用偏性较弱[30],反之,则强。
标准曲线的计算公式为
然而,ENC-plot 绘图分析不足以准确区分突变和选择压力的影响程度。为了更好地评估ENC 观察值(ENCobs)与ENC 期望值(ENCexp)之间的差异,需根据公式(ENCexp-ENCobs)/ENCexp统计ENC 比值频数,并结合ENC 比值频数对差异进行量化分析[31]。
1.2.4 碱基奇偶偏好分析
碱基奇偶偏好分析主要用于分析各密码子第3 位碱基A、T 和G、C 之间突变是否平衡,尤其是针对由4 个同义密码子编码的氨基酸。为了避免由第3 位碱基对A/T 或T/A 和G/C 或C/G的突变不均衡,分析时以G3/(G3+C3)为横坐标、A3/(A3+T3)为纵坐标进行绘图分析,图的中心点表示A=T 且G=C 其密码子偏好性受突变的影响,其余的点由中心点向该点发出的矢量表示该基因的偏性方向和程度[32]。
1.2.5 最优密码子分析
鉴定灯盏花叶绿体基因组中的最优密码子,需要结合其高频率和高表达密码子。以47 条CDS 的ENC 值按从小到大进行排序,两端各选出10% 的基因,构建高低表达库,ENC 值小的为高表达库,ENC 值大的为低表达库[4];选取RSCU 值>1 的为高频密码子;ΔRSCU≥0.08(ΔRSCU=RSCU高表达-RSCU低表达)的密码子作为高表达密码子,同时满足高频密码子和高表达密码子作为灯盏花叶绿体基因组的最优密码子[33]。
由表1 可知:所有CDS 密码子的平均GC 含量为38.32%,其中,第1~3 位GC 平均含量分别为47.00%、39.57% 和28.39%,可见,GC 含量在密码子的3 个位置上并不是均匀分布的。绝大多数密码子中前两位的GC 含量要高于第3 位密码子,说明灯盏花叶绿体基因组密码子碱基偏好以A/T (U)结尾。灯盏花47 个叶绿体基因组密码子的ENC 值介于39.55~59.05 之间,平均值为47.18,故可认为灯盏花叶绿体基因组密码子的偏性较弱。
表1 灯盏花47 个叶绿体基因的GC 含量及ENC 值Tab.1 The GC contents and ENCs of 47 gene codons from E.breviscapus chloroplast genome
由表2 可知:GC1与GC2含量相关性达到极显著水平,GCall与GC1、GC2和GC3含量的相关性均达到极显著水平,GC3与GC1、GC2含量的相关性均不显著,说明叶绿体基因组中,第1 位碱基与第2 位碱基具有很高的相似度,但均与第3 位碱基具有较大差异;ENC 与GC1、GC3含量的相关性不显著,但与GC2含量显著相关,说明密码子第2 位碱基构成会对密码子的使用偏好性有影响,密码子数只与GC2、GC3显著相关,说明不同位置上碱基组成的密码子会影响有效密码子数;密码子数与ENC 的相关系数为0.240,未达到显著水平,说明基因序列长度对密码子偏好性的影响较小。
表2 各基因相关参数的相关性分析Tab.2 Correlation analysis of relative indexes of gene
由表3 可知:RSCU 值大于1.00 的密码子数量为30 个,其中16 个以U 结尾、13 个以A 结尾、1 个以G 结尾,说明灯盏花叶绿体基因组密码子偏好性是以A 或U 结尾。
表3 灯盏花各氨基酸的RSCU 分析Tab.3 RSCU analysis of each amino acid in E.breviscapus
由图1 可知:灯盏花叶绿体基因组密码子中,GC12的取值范围分布于0.31~0.56,GC3的取值范围较小,介于0.21~0.37,回归系数为0.152 6(即斜率),GC12与GC3的相关系数R=0.107,说明两者的相关性较低。绝大多数基因落在对角线的上方,说明影响灯盏花密码子偏好性形成的主要因素不是突变,而更多的是受自然选择的影响。
图1 中性绘图分析Fig.1 Neutrality plot analysis
由图2 可知:标准曲线下方汇集了绝大多数的基因,说明灯盏花密码子偏好性受自然选择的影响较大。结合ENC 比值频数(表4) 可知:ENC 比值分布在-0.05~0.05 区间的基因频率仅为34.0%,而分布在0.05~0.15 区间的基因频率为48.9%,说明ENCexp与ENCobs差异较大,即离标准曲线较远,说明灯盏花叶绿体基因组密码子的偏好性更多的是受自然选择的影响。
图2 ENC-polt 绘图分析Fig.2 ENC-plot analysis
表4 ENC 比值频数分布表Tab.4 Distribution of ENC ration
由图3 可知:灯盏花基因在4 个区域内分布不均,且绝大多数基因分布在左下方,这说明T>A、C>G,即嘧啶频率出现要高于嘌呤。因此,灯盏花叶绿体基因组密码子使用模式不仅受到突变的影响,还受到其他因素的影响。
图3 PR2-plot 绘图分析Fig.3 Analysis of PR2 bias plot
由表3 可知:选出RSCU 值>1 的密码子为高频密码子,共计30 个。进一步根据ΔRSCU值,筛选出24 个ΔRSCU≥0.08 的高表达密码子(表5),其中以U 结尾的8 个,以A 结尾的10 个,以G 结尾的2 个,以C 结尾的有4 个。最终筛选出的18 个最优密码子,分别为UUU、UUA、UUG、CUU、AUU、GUU、GUA、UCA、CCU、CCA、ACA、UAU、UAA、GAA、UGU、CGA、AGA 和GGU。这些密码子绝大多数以A 和U 结尾,有且仅有1 个密码子以G 结尾。
表5 灯盏花叶绿体基因组氨基酸相对同义密码子使用度Tab.5 The RSCU of codons in E.breviscapus chloroplast genome
DNA 由碱基组成,而碱基的组成对密码子的使用有着很重要的影响,突变或自然选择的影响会改变核苷酸的使用频率,GC 含量的变化常被认为是基因发生突变的趋势。在植物基因中存在着同义密码子的非均衡使用现象,引起这种现象的成因较复杂,其中基因的碱基组成是最普遍的因素[34]。密码子第3 位碱基的改变通常不会引起编码氨基酸的改变,因此研究密码子第3 位碱基组成对研究植物叶绿体密码子使用偏好性具有重要意义[35]。对灯盏花叶绿体密码子的第3 位碱基A、T、G 和C 的关系进行PR2 分析,结果表明:T>A、C>G,即嘧啶使用频率高于嘌呤,这与学者对小麦(Triticum aestivum)[36]、黄芩(Scutellaria baicalensis)[37]、剑 麻(Agave sisalana)[34]和陆地棉(Gossypium hirsutum)[38]等植物叶绿体基因组碱基组成分析所得的结果一致。而对胡杨(Populus euphratica)[39]和禾本科植物[40]的研究发现:叶绿体基因组使用模式中A 与T、G 与C 的使用频率相当,这与本研究结果不一致。由此可见,不同植物的叶绿体基因组中碱基组成存在一定的差异,从而使得密码子偏好性有所不同。
ZHOU 等[39]研究指出:在植物叶绿体基因组中,密码子偏向于以A 或T 碱基结尾。而本研究发现:在灯盏花叶绿体基因组碱基组成中,所有CDS 密码子的平均GC 含量为38.32%,GC1平均含量为47.00%,GC2为39.57%,GC3为28.39%,GC3含量少于GC1和GC2,可见GC 含量在密码子的3 个位置上并不是均匀分布的,GC3与GC1、GC2相关性不显著,且GC3的含量为三者中最低,这与对苹果(Malus×domestica)[41]、杉木(Cunninghamia lanceolata)[42]和柿属(Diospyros)[43]的研究结果相一致。说明不同物种间密码子偏好性存在着一定的相似性。
有研究表明:影响氨基酸密码子偏好性的原因除了突变和自然选择[44]外,还与碱基的组成差异[45]、基因编码结构[44]和tRNA 丰度[46]等因素有关。密码子使用偏好性是物种对基因组环境和自然进化压力的适应性选择,通过中性绘图分析、ENC-plot 绘图分析及PR2-plot 绘图分析发现:影响灯盏花叶绿体基因组密码子偏好性较大的是自然选择,这可能与灯盏花的生存环境有关;其受自然选择影响的同时也受到其他因素(突变)的影响,这一定程度上表明叶绿体基因组在灯盏花中较为保守。这与学者对蝴蝶兰(Phalaenopsis aphrodite)[47]、糜子(Panicum miliaceum)[32]和陆地棉(Gossypium hirsutum)[38]等植物的研究结果一致。但在对胡杨(Populus euphratica)[39]、竹节参(Panax japonicus)[48]和非洲菊(Gerbera jamesonii)[49]等植物的研究中指出,突变是影响叶绿体基因组密码子偏好性的因素。由此可见,影响不同植物叶绿体密码子偏好性的主要因素不同,植物叶绿体密码子偏好性是多个因素共同作用的结果,而不同的影响因素作用的大小存在差异。从进化学角度上看这种差异很可能与不同物种对自然环境的适应性调节相关。密码子偏好性及其使用模式在一定程度上反映了物种间的进化关系,而更深层次的研究还有待进一步开展。
本研究以灯盏花叶绿体基因组中的47 条蛋白质编码基因序列为研究对象,运用CodonW 1.4.2 等软件对其密码子组成及使用模式进行了分析。最终筛选出18 个最优密码子,且基本均以A 或U 作为第3 个密码子碱基,灯盏花植物中叶绿体基因组中密码子偏好性为NNA 和NNU。这一结果可为今后利用基因工程手段对外源基因密码子改造,提高其在灯盏花叶绿体中的表达量提供参考,也为在分子水平上研究菊科植物的系统进化提供相应的理论基础。