黄祥, 楚光明, 郑新开, 程锦涛, 陈健豪,徐迎春, 金奇江, 杨梅花*
(1.石河子大学农学院,新疆 石河子 832003;2.石河子大学特色果蔬栽培生理与种质资源利用兵团重点实验室,新疆 石河子 832003;3.南京农业大学园艺学院,南京 210095)
密码子作为核酸和蛋白质之间的连接,在遗传信息传递过程中起着重要作用[1]。DNA上携带的遗传信息以三联体密码子的形式翻译成氨基酸,每个氨基酸对应至少1种密码子,最多6种密码子[2]。编码相同氨基酸的密码子被称为同义密码子。从原核生物到真核生物,同义密码子的使用频率不同,存在密码子使用偏好性(codon usage bias,CUB)[3-4]。密码子使用偏好性受环境、碱基突变、基因漂移和基因表达水平等影响,其中选择和突变压力是主要影响因素[5-7]。研究表明,亲缘关系越近或生存环境越相似的物种越可能采用相似的密码子选择策略[5],如单子叶物种偏好使用G/C结尾的密码子,双子叶植物偏好使用A/U结尾的密码子[8-12]。对植物基因组密码子偏好性的分析在一定程度上有助于研究物种的起源、进化及适应外界环境的分子机制[3]。
睡莲是睡莲科(Nymphaeaceae)睡莲属(Nymphaea)多年生水生植物,具有很高的观赏、食用、药用价值及生态修复功能[13-14]。睡莲属有50余种,除南极洲以外在全球广泛分布,该属位于被子植物的根部,对研究被子植物的起源和进化具有重要作用[15]。然而,睡莲属的分类存在一些争议。基于睡莲的形态和地理分布将睡莲属划分为5个亚属[13],分别为新热带睡莲亚属(subgenus Hydrocallis)、古热带睡莲亚属(subgenus Lotus)、广热带睡莲亚属(subgenus Brachyceras)、澳洲睡莲睡莲亚属(subgenus Anecphya)和广温带睡莲亚属(subgenus Nymphaea);基于叶绿体非编码标记将睡莲属划分为3个亚属[16-17],分别为广温带睡莲亚属、澳洲-广热带睡莲亚属(subgenus Anecphya⁃Brachyceras)和新热带-古热带睡莲亚属(subgenus Hydrocallis⁃Lotos)。
植物叶绿体含有独立的基因组,基因组结构简单,遗传相对保守[18]。叶绿体基因组中rbcL、matK和trnL⁃trnF等基因序列被广泛应用于植物系统发育研究[19-21]。随着高通量测序技术的广泛应用,越来越多的植物叶绿体基因组被测序,为比较基因组学、分子系统发育学的研究提供了数据库。目前,睡莲属已报道了22种植物的参考叶绿体基因组,主要以个体水平的基因组特征等研究为主[14,22-23],缺乏密码子使用偏好性和属内物种间横向水平的系统研究。因此,本研究基于22种睡莲属植物的叶绿体基因组数据,系统地对睡莲属叶绿体基因组编码区的密码子使用偏好性及其影响因素进行比较分析,并基于同义密码子相对使用度(relative synonymous codon usage,RSCU)和叶绿体基因序列比较了睡莲属植物的系统发育关系,以期为睡莲属植物密码子偏好性选择的潜在分子机制和相关物种的系统进化研究提供数据支持。
22个睡莲属植物叶绿体基因组序列和注释信息来自NCBI数据库(National Center for Biotechnology Information,https://www.ncbi.nlm.),根据注释信息提取蛋白编码序列,去除长度小于300 bp和重复的编码序列后用于后续密码子使用特征分析。
1.2.1 密码子使用特征分析 使用CodonW 1.4.2软件分析22个睡莲属植物叶绿体基因组蛋白质编码序列(coding sequence,CDS)同义密码子的RSCU、有效密码子数目(effective number of codon,ENC)、密码子适应指数(codon adaptation index,CAI)、同义密码子中GC含量和密码子第3位 A、T、C、G 的含量(用 A3s、T3s、C3s、G3s表示)。使用在线软件CUSP(http://imed.med.ucm.es/EMBOSS/)计算GC总含量(GCall)和密码子第1、第2、第3位碱基组成中的GC含量(分别用GC1、GC2和GC3表示)。
1.2.2 中性绘图分析 计算各CDS中密码子GC1和GC2的平均值GC12,以GC3和GC12为横纵坐标进行中性绘图,分析GC3和GC12之间的相关性。若GC3与GC12相关显著,则突变是密码子偏好性主要影响因素;若相关不显著,表明选择压力对密码子使用影响较大[24]。
1.2.3 ENC-plot分析 以GC3为横坐标,ENC为纵坐标,进行ENC-plot绘图,并绘制标准曲线(式1),分析碱基组成对密码子偏好性的影响。若基因分布在标准曲线附近,则密码子偏好性仅受到突变影响;若基因坐落在标准曲线下方,则密码子偏好性受到选择的影响[25]。
1.2.4 PR2-plot分析 以G3/(G3+C3)为横坐标,A3/(A3+T3)值为纵坐标,进行PR2-plot绘图,图中中心点为A=T且C=G时的值,表示密码子无使用偏好性,只受到突变的影响[26]。
1.2.5 相关性分析 使用R语言Performance Analytics软件包中chart.Correlation命令,采用Spearman秩相关系数计算方法,对睡莲属叶绿体各基因密码子不同位置的碱基GC含量和ENC进行相关性分析。
1.2.6 最优密码子分析 根据ENC大小进行排序,选取前后各10%的基因构建高偏好性和低偏好性库[27]。计算2个库各密码子的RSCU值和ΔRSCU值,去除蛋氨酸(AUG)、色氨酸(UGG)及终止密码子UUA、UAG、UGA,将同时满足RSCU>1和ΔRSCU≥0.08的密码子确定为最优密码子[26]。
1.2.7 系统发育分析 基于59个密码子(除去蛋氨酸、色氨酸和终止密码子)的RSCU值,使用SPSS 25.0软件对22种睡莲属植物进行组间平均联接法的聚类分析,绘制树状图[11]。基于片段序列和CDS全长序列,使用MEGA 7.0的系统邻接法(neighbor-joining,NJ),采用1 000次的Bootstrap检验各分支的置信度,其他参数为软件默认设置,对22种睡莲属植物叶绿体基因组构建系统进化树[28]。
由表1可知,22种睡莲属植物叶绿体基因组密 码子 适应 指 数(CAI)为 0.168~0.170,平均0.169,即CAI较低,表明睡莲属植物叶绿体基因组密码子偏好性较弱;有效密码子数(ENC)为51.301~51.577,平均51.401,即ENC较高,表明睡莲属植物叶绿体基因组密码子偏好性弱;密码第1、第2和第3位碱基GC含量分别为46.26%、38.67%和32.54%,即不同位置碱基含量均小于50%,表明睡莲属植物叶绿体基因偏好使用以A/U结尾的密码子。
表1 22种睡莲属植物密码子偏好性分析Table 1 Codon usage bias analysis of total 22 Nymphaea 续表Continuted
目前,睡莲属植物完成叶绿体基因组测序的种较多,为保证样本的代表性,根据睡莲属植物的生态习性,在22个已完成叶绿体基因组测序的睡莲属物种中选择8个物种的叶绿体基因组蛋白编码序列为研究对象,包括4种热带睡莲:澳洲巨花睡莲(N.gigantea)、蓝星睡莲(N.colorata)、小花睡莲(N.micrantha)、延药睡莲(N.stellata);4种耐寒睡莲:白睡莲(N.alba)、黄睡莲(N.mexicana)、睡莲(子午莲)(N.tetragona)、香睡莲(N.oborata)。通过ENC-plot、PR2-plot和中性绘图分析睡莲属叶绿体基因组密码子偏好性的影响因素。
2.2.1 ENC-plot分析 ENC实际值和期望值的差异可反映突变或选择压力对密码子使用偏好性的影响。由图1可知,仅有少部分基因沿标准曲线分布,大部分基因位于标准曲线的下方,即大部分基因的ENC实际值小于期望值,说明睡莲属大部分叶绿体蛋白编码基因的密码子使用偏好性主要受到选择压力的影响,小部分基因受到突变的影响。
图1 ENC-plot分析Fig.1 Analysis of ENC-plot
2.2.2 PR2-plot分析 在没有选择压力情况下,每个密码子不同位置的核酸突变都是随机的,概率也一样,密码子碱基的偏倚分析可以体现A、T、C、G碱基使用频率的差异。由图2可知,4个区域中基因数量分布不均:垂直方向,大部分基因位于中线下方;水平方向,中线右侧基因数量高于左侧,但分布差异小于垂直方向。由此表明,睡莲属植物叶绿体基因组密码子第3位碱基组成中碱基G频率大于碱基C,碱基T频率大于碱基A,进一步说明睡莲属叶绿体大部分蛋白编码基因受到选择压力的影响。
图2 PR2-plot分析Fig.2 Analysis of PR2-plot
2.2.3 中性绘图分析 中性绘图可以分析密码子第1、2位碱基和第3位碱基组成间的相关性,体现密码子使用的偏好性。由图3可知,GC3值分布范围较小(0.243 6~0.396 2),GC12值分布范围较大(0.345 3~0.550 4),仅有少量基因沿对角线分布,说明密码子第3位碱基组成与第1、2位碱基组相关性不显著。线性回归系数较小(0.026 7~0.146 6),表明突变对密码子使用偏好性的影响最高仅占14.66%。因此,睡莲属叶绿体基因组密码子使用偏好性主要受到选择压力的影响,突变等因素对密码子偏好性形成的影响较弱。
图3 中性绘图分析Fig.3 Analysis of neutrality plot
对睡莲属叶绿体各基因密码子不同位置碱基组成情况以及ENC值进行相关性分析,结果(表2)表明,GC1与GC12显著相关,与GC2、GC3不显著相关;GC2与GC12和GCall显著相关;GC3与GC3s和GCall显著相关,说明睡莲属叶绿体密码子三碱基的组成整体相关性较低。而ENC与GC2、GC3、GC3s和GCall显著相关,与GC1和GC12不显著相关,说明在睡莲属叶绿体基因组密码子中,第2、3位碱基组成对密码子使用模式存在较大影响。
表2 睡莲属不同位置密码子的GC含量和各参数的相关性分析Table 2 Correlation analysis of GC contents and related parameters in codons of Nymphaea
根据ENC值对22种睡莲属植物叶绿体基因组高表达和低表达的基因建库,并计算高、低两库的RSCU和ΔRSCU,进行最优密码子分析,结果(图4)表明,睡莲属植物叶绿体基因组的最优密码子数为5~11个。其中,澳洲巨花睡莲(N.gigantea)、墨西哥黄睡莲(N.mexicana)、子午莲(N.tetragona)和香睡莲(N.odorata)的最优密码子数最多(11个),而埃及白睡莲(N.lotus)和小腺睡莲(N.glandulifera)最优密码子数最少(5个),且最优密码子的第3位碱基偏向于A和U。22种睡莲属植物共同拥有2个最优密码子,分别为CCA(缬氨酸,Pro)和AAU(缬氨酸,Asn),密码子第3位碱基均偏好于A和U。
图4 最优密码子分析Fig.4 Analysis of optimal codons
2.5.1 基于叶绿体密码子RSCU聚类分析 根据叶绿体基因组密码子的RSCU值对22种睡莲属植物进行聚类,结果(图5)表明,在平方欧式距离为23.8处,子午莲和香睡莲这2种广温带亚属睡莲单独聚成一类,其他20种睡莲聚成一类。在平方欧式距离为9.5处,康纳迪睡莲等9种古热带-新热带亚属睡莲聚为一类,澳洲巨花睡莲等11种澳洲-广热带睡莲亚属聚为一类。在平方欧式距离为8.2处,白睡莲和墨西哥黄睡莲2种广温带亚属睡莲从澳洲-广热带睡莲亚属分出,单独聚成一类;同一类亚属睡莲之间存在相类似的密码子特征。由此表明,除白睡莲和墨西哥黄睡莲这2种广温带亚属睡莲外的20种睡莲叶绿体密码子RSCU聚类结果支持了睡莲属划分为3个亚属的论点。
图5 基于叶绿体密码子RSCU的22种睡莲属植物树状聚类Fig.5 Cluster of total 22 Nymphaea species based on RSCU value of chloroplast codons
2.5.2 基于叶绿体基因序列系统发育分析 基于叶绿体基因组rbcL、matK和trnL⁃trnF基因序列和蛋白编码序列(CDS)分别构建22种睡莲属植物的系统发育树,结果(图6)表明,4种系统发育树的拓扑结构相似,均包含3个大类。其中,基于matK、trnL⁃trnF基因序列和CDS构建的系统发育树将睡莲属划分为新热带-古热带睡莲亚属、澳洲-广热带睡莲亚属和广温带睡莲亚属;基于rbcL基因序列的系统发育树将广温带睡莲亚属和澳洲-广热带睡莲亚属聚成一类,将古热带睡莲亚属和新热带睡莲亚属单独聚成一类。
图6 22种睡莲属植物叶绿体系统发育树Fig.6 Phylogenetic tree of total 22 chloroplasts from Nymphaea
密码子使用偏好性在生物长期进化过程中广泛存在,且对基因表达以及蛋白的功能具有重要作用[11]。研究表明,密码子不同位置碱基受到的选择压力存在差异,第1、2位碱基较第3位碱基受到的选择压力更大[29]。本研究表明,睡莲属叶绿体基因组密码子不同位置的GC含量存在差异,GC1(46.26%)>GC2(38.67%)>GC3(32.54%),表明睡莲属植物偏好使用A、U结尾的密码子,这和双子叶植物偏好使用A和U结尾密码子而单子叶植物好使用G和C结尾密码子的研究结果一致[8-12]。CAI和ENC是判断密码子偏好性强弱的重要指标[29],在本研究中,22种睡莲属植物叶绿体基因组CAI变幅为0.168~0.170,平均0.169;ENC变幅为51.301~51.577,平均51.401。由此表明,睡莲属叶绿体基因组密码子偏好性较弱,可能与其叶绿体基因较为保守有关[30]。
不同物种密码子的使用偏好性存在差异受多种因素影响,自然选择和基因突变是重要的影响因素[31]。通过ENC-plot、PR2-plot和中性绘图对睡莲属叶绿体基因组密码子偏好性的影响因素进行分析,结果表明,睡莲属大部分叶绿体蛋白编码基因的密码子使用偏好性主要受到自然选择压力的影响;相关分析结果表明,GC3与GC1、GC2相关性不显著,进一步证明了这一观点,可能与睡莲属植物种群数量多、分布范围广、叶绿体基因的高效表达有关[32]。最优密码子分析表明,22种睡莲最优密码子数量存在差异,共有的密码子仅有2个(CCA、AAU),可能与高、低表达库中所使用的编码基因不同和不同种间的差异有关[33]。睡莲属中最优密码子的确定为今后睡莲的叶绿体基因表达、密码子优化和修饰等研究提供理论依据。
睡莲属系统进化分析表明,基于密码子RSCU值的聚类结果和基于叶绿体基因序列构建的系统发育树结构相似,均能对22种睡莲属植物进行到亚属的划分,表明基于密码子RSCU值的分类结果可以作为睡莲属分类研究的补充[34]。这和木兰科[11]、兰科[35]等植物研究结果不同,和小麦、玉米等7种作物[36]研究结果一致。这可能与睡莲属叶绿体基因组密码子偏好性较弱有关,在进化过程中睡莲属植物叶绿体基因受外界因素影响较小。本研究基于不同区域的叶绿体基因序列将睡莲属划分为3个亚属,即广温带睡莲亚属、新热带-古热带睡莲亚属和澳洲-广热带睡莲亚属;但基于叶绿体rbcL、matK和trnL⁃trnF等基因序列对睡莲属植物在亚属层次内的分类存在差异,因此,开发准确度更高的碱基序列区域可能会为睡莲属近缘种的区分提供更好的解决方法。