肖明昆聂恺宏沈绍斌刘 倩段春芳李月仙张林辉
(1. 云南省农业科学院热带亚热带经济作物研究所,云南 保山 678000;2. 四川省广元市昭化区林业局,四川 广元 628000)
叶绿体是具有完整母系遗传信息的细胞器,其基因组序列信息可以探究物种起源进化,判定物种间亲缘关系[1-2],对植物基因组学、生物信息学等学科的发展也起着重要作用[3]。根据最优密码子设计的叶绿体基因表达载体,有助于选择与目的基因契合度高的叶绿体基因进行转化,从而提高叶绿体基因组中基因表达量[4-5]。因此,开展叶绿体基因组密码子使用模式研究,有助于了解物种进化历程,提高叶绿体外源基因的表达量[6]。
密码子是信使核糖核酸上编码氨基酸的三联体核苷酸序列。通常编码同一个氨基酸的几个同义密码子在无选择压力和中性突变的情况下,使用频率应该相同。但实际上它们是非随机使用的,往往倾向于使用某一种密码子,这种现象称为密码子偏好性[7-9]。密码子偏好性是生物在长期进化演变中逐渐形成的,借助密码子偏性分析可以更好地理解分子进化、基因调控等生命过程,对探究物种进化和提高外源基因的表达具有重要意义[10]。
复羽叶栾树(Koelreuteria bipinnata)为无患子科栾树属乔木,野生种群分布于云南、四川、贵州、湖南、湖北等省区[11],该植物具有树干通直、枝叶茂密、花果艳丽、季相色彩变化明显的特征,是园林绿化中观花和观果的优良树种[12]。此外该物种还对石灰岩山地具有很好的适应性,是石漠化地区植被恢复和重建的优选物种,有极高的生态价值[13]。还有研究表明,复羽叶栾树种仁含有多种脂肪酸及氨基酸,具有开发成营养品、保健品或者饲料添加剂的广阔前景,是一种具有很高开发价值的植物资源[14]。目前,有关复羽叶栾树的研究多集中于种苗培育[15]、逆境胁迫[13]、种子生理生化[14,16]等方面。随着基因测序技术的发展,虽已完成对复羽叶栾树叶绿体基因组的测序、拼装和注释[17],但是关于复羽叶栾树叶绿体密码子使用偏好性的研究还未见报道。本研究以复羽叶栾树叶绿体基因组全序列为研究对象,通过对叶绿体基因组密码子的使用偏性的影响因素分析,确定复羽叶栾树叶绿体基因组密码子的使用偏好性,并筛选出最优密码子,可为复羽叶栾树叶绿体基因组在基因工程的应用和研究提供理论依据。此外有助于从基因水平分析物种间的亲缘关系及物种的进化发展,为揭示叶绿体的起源与进化提供参考依据[18]。
在云南省保山市隆阳区采集新鲜幼嫩、完整的复羽叶栾树叶片,样品保存于干冰中。叶绿体基因组测序由浙江安诺优达生物科技有限公司完成,后将测序结果提交至美国国立生物技术中心(NCBI)(登录号:MW387267)。对复羽叶栾树叶绿体基因组进行分析时,从87 条CDS(coding DNA sequence)中剔除序列长度不足300 bp、存在终止密码子的序列及重复基因,筛选出52 条基因序列用于最终数据分析。
1.2.1 相对同义密码子使用度分析
运用Codon W 1.4.2 软件分析复羽叶栾树叶绿体基因组中筛选到的52 条CDS,获取各CDS 的有效密码子数(ENC)、同义密码子相对使用度(RSCU)。通过在线软件CUSP 分析获得不同基因的GC 总含量(GC)及各个密码子第1 位(GC1)、第2 位(GC2)、第3 位碱基的GC(GC3)含量,并根据获得的参数绘制相关性热图[19-20]。
1.2.2 中性绘图分析
以GC3为横坐标、GC12(GC1和GC2的平均值)为纵坐标绘制散点图,对两者相关性进行分析。若GC12与GC3之间的相关关系不显著,说明第 1、2 位与第3 位的密码子碱基组成具有差异,选择为偏好性的主要影响因素。反之,则突变是密码子偏好性的主要影响因素[21-22]。
1.2.3 ENC-plot 绘图分析
以ENC 值为纵坐标,GC3为横坐标进行二维散点图的绘制。若散点在标准曲线附近,则突变是该基因密码子偏性的主要影响因素。若散点距离标准曲线较远,则选择是该基因密码子偏性的主要影响因素[23]。ENC 的理论取值为20~61,其值越接近20 偏性越强,其值越接近61 偏性越弱[24-25]。一般当 ENC 值> 35 时,表明密码子的偏性较弱,反之,则强[21]。
顾名思义,人生价值观是指关于人生价值的根本观点和看法,说到底就是对人生目的和人生意义的认识。人生价值观决定人生态度。而人生价值观又是由人生的理想和信念所决定。有了伟大的理想和信念才能树立正确的人生价值观。因此,我们论及方志敏的人生价值观,首先必须了解方志敏的人生理想和信念。
标准曲线公式:
1.2.4 PR2-plot 分析
PR2-plot 绘图分析时将A3/(A3+ T3)作为纵坐标,G3/(G3+ C3)作为横坐标。图的中心点值为A=T 且C=G,其余点与中心点的矢量距离表示偏性程度和方向[26-28]。
1.2.5 最优密码子的确定
以复羽叶栾树叶绿体基因52 条CDS 的ENC值为偏好性标准,对其52 条CDS 的ENC 值进行排序,由低到高对其进行排序,分别选出两端10%的基因,构建高低偏性基因库[29],ENC 值小的为高表达库,ENC 值大的为低表达库[30]。将同时满足高频密码子( RSCU>1)和高表达密码子(ΔRSCU≥0.08)的密码子定为复羽叶栾树叶绿体基因组的最优密码子[31-32]。
利用Codon W 1.4.2 和在线软件CUSP 对符合要求的CDS 的碱基组成及ENC 值进行分析(图1)。结果显示,所有CDS 序列的GC1、GC2、GC3分别为47.27%、39.49%、29.84%,平均GC含量为38.87%。3 个密码子位置的GC 含量由高到低表现为GC1>GC2>GC3,说明复羽叶栾树密码子3 个位置的碱基组成不均衡,叶绿体基因密码子偏好AU 碱基。对复羽叶栾树的ENC 值进行分析,发现复羽叶栾树各 CDS 的ENC 值在36~61 之间,52 条CDS 序列的ENC 值均大于35,说明复羽叶栾树叶绿体基因组密码子偏好性弱。
图 1 复羽叶栾树叶绿体基因组不同位置的GC 含量Fig. 1 GC content of different positions in the chloroplast genome of K. bipinnata
图 2 叶绿体基因组密码子各参数的相关性分析Fig. 2 Correlation analysis of each codon parameters ofchloroplast genome
表 1 复羽叶栾树各氨基酸的RSCU 分析Table 1 RSCU analysis of each amino acid in K. bipinnata
中性绘图分析表明(图3),GC12在0.220~0.379 之间,GC3在0.187~0.568 之间,相关分析显示,GC12与GC3的相关系数为0.198,相关性不显著,回归系数为0.265 2。说明GC1、GC2、GC3的碱基组成存在差异,因此,推论复羽叶栾树叶绿体基密码子的使用偏性主要受到选择的影响。
图 3 复羽叶栾树叶绿体基因组中性绘图分析Fig. 3 Neutrality plot analysis in the chloroplast genome of K. bipinnata
ENC-plot 分析显示(图4),复羽叶栾树的部分基因在标准曲线周围分布,而大部分基因落在标准曲线下方,离标准曲线较远。进一步确定基因与标准曲线的距离,对ENC 比值进行计算(表2),发现ENC 比值在-0.05~0.05 区间的有18 个,与预期ENC 值较为接近,而约65.4%的基因与预期ENC 值差距较大。因此,选择是复羽叶栾树叶绿体基因组密码子使用偏好性关键影响因素,其他因素的影响较弱。
图 4 复羽叶栾树叶绿体基因组ENC-plot绘图分析Fig. 4 ENC-plot analysis in the chloroplast genome ofK. bipinnata
表 2 复羽叶栾树叶绿体基因组有效密码子数比值频数分布Table 2 Distribution of ENC ratio in the chloroplast genome of K. bipinnata
通过 PR2-plot 绘图分析(图5),发现图中4 个区域中的基因位点呈现不均匀分布,多数处在中心点稍右下位置,说明在第3 位碱基的选择上密码子具有偏好性,且碱基的使用频率表现为T>A、G>C。因此,复羽叶栾树叶绿体基因组密码子偏好性主要受到选择的影响,还可能受到突变等其他因素的影响。
图 5 复羽叶栾树密码子奇偶偏好性分析Fig. 5 Analysis of PR2-plot of codon bias ofK. bipinnata
根据表3,将同时满足RSCU>1、ΔRSCU≥0.08 两个条件的密码子确定为最优密码子,最终筛选出了12 个最优密码子(CUU、GUU、AGU、GCA、CAA、CAU、AAA、GAU、CGU、CGA、GGU、GGA),其中7 个以U 结尾,5 个以A结尾。
表 3 复羽叶栾树叶绿体基因组最优密码子的确定Table 3 Determination of optimal codons in the chloroplast genome of K. bipinnata
自然界常见的20 种氨基酸,除蛋氨酸(Met)和色氨酸(Trp)由 1 个密码子编码外,其余18 种均由2~6 个密码子编码。编码同一种氨基酸的密码子称为同义密码子。理论上在没有突变和进化压力等因素下,mRNA 翻译时同义密码子的使用频率应相等[33],但在实际情况中,同义密码子的使用频率表现出很大差异,由此造成了同义密码子使用偏性。本研究依托复羽叶栾树叶绿体基因组数据,以筛选出的52 条完整CDS 序列为研究对象,对其密码子的碱基构成及偏好性进行分析,发现复羽叶栾树叶绿体基因组的密码子使用频率AU>CG,总体上偏好使用碱基为A/U的密码子。在灯盏花(Erigeron breviscapus)[5]、秋茄(Kandelia obovata)[34]、蒺藜苜蓿(Medicago truncatula)[35]等物种的研究中也得出类似结论,这些研究均指出叶绿体基因组密码子使用模式中偏好使用A/U 碱基。而对芒果(Mangifera indica)[31]等的研究发现,叶绿体基因组偏好使用G/C 碱基,这与本研究结果不一致。
研究表明,影响氨基酸密码子偏好性的原因除了突变和自然选择外,还与碱基的组成差异、基因编码结构和 tRNA 丰度、GC 含量、基因长度等因素有关[8]。综合分析发现,复羽叶栾树叶绿体基因组密码子偏好性关键受到自然选择的影响,在对藿香(Agastache rugosa)[36]、紫苜蓿(Medicago sativa)[37]、灰毛浆果楝(Cipadessa baccifera)[32]、抽筒竹(Gelidocalamus tessellatus)[22]等植物的研究中也得到了相似结果。但在对蒺藜苜蓿[35]、蔷薇科果树[38]、乳油木(Vitellaria paradoxa)[39]、籽粒苋(Amaranthus hypochondriacus)[40]等植物的研究中指出,突变是影响叶绿体基因组密码子偏好性的因素。由此可见,影响不同植物叶绿体密码子偏好性的主要因素不同,植物叶绿体密码子偏好性受到多种因素影响。从进化学角度上看这种差异很可能与不同物种对自然环境的适应性调节相关。本研究中GC3、ENC 与基因长度无显著相关关系,说明基因长度对密码子偏好影响并不大,这与梁晓静等[41]的研究结果相似,说明密码子偏好性影响因素具有一定的相似性。但也有研究表明基因长度对密码子偏性有影响,可见密码子偏性的影响因素不仅因物种而异还受多种未知因素影响。
本研究将RSCU>1 且ΔRSCU≥0.08 的密码子确定为高表达密码子,最终筛选出了复羽叶栾树叶绿体基因组的12 个最优密码子(CUU、GUU、AGU、GCA、CAA、CAU、AAA、GAU、CGU、CGA、GGU、GGA),其中7 个以U 结尾,5 个以A 结尾,这与上述复羽叶栾树叶绿体基因组密码子偏好使用A 或U 结尾密码子的结论相一致。