12种蔷薇科植物叶绿体基因组密码子偏好性分析

2023-10-10 06:48张冬冬韩宏伟余镇藩曾斌杨佳惠高雯雯马昕彤
中国农业科技导报 2023年8期
关键词:蔷薇科进化树密码子

张冬冬, 韩宏伟, 余镇藩, 曾斌*, 杨佳惠, 高雯雯, 马昕彤

(1.新疆农业大学园艺学院,乌鲁木齐 830000; 2.新疆林业科学院经济林研究所,乌鲁木齐 830000)

植物叶绿体基因组的比较研究,尤其是遗传多样性的探究,为植物物种的进化研究提供了重要途径[1]。蔷薇科包括苹果、桃、草莓、玫瑰和月季等多种植物,它们具有重要经济、观赏和食用价值,是林果和花卉生产上重要的类型[2-3]。叶绿体作为重要的细胞器,是植物进行光合作用的重要场所,为植物的生长提供有机物和能量[4-5]。尽管蔷薇科植物种类繁多,但NCBI数据库目前只有9个属12种植物的叶绿体基因组被测序,它们在分类学水平上的进化特征和遗传多样性尚未研究清楚。

研究植物叶绿体基因组密码子的使用模式有助于探索其分子适应程度以及进化过程[6],因此,研究叶绿体基因组密码子使用特征具有重要意义[7-8]。研究表明,不同程度的进化压力使得叶绿体基因组密码子的使用存在偏差[9-10]。此外,植物物种存在广泛的多样性是因为在叶绿体基因组中使用了偏好的遗传密码子[11-12]。近年来,叶绿体基因组密码子的使用特征也被用于比较植物类群间的相关研究[13-14]。物种多样性受到遗传变异调控,为遗传改良奠定了基础。分析不同植物基因组的分子组成、密码子使用模式以及它们之间的距离是研究植物遗传多样性的重要方法[15-16]。

本研究从分子水平上评价蔷薇科植物叶绿体基因组密码子的使用特征及其进化,利用生物信息学方法分析了12种蔷薇科植物叶绿体基因组密码子的使用特征,并进一步采用对应分析、各基因密码子使用模式多样性和总标准差等方法探讨了蔷薇科植物叶绿体基因组特定基因的多样性,为深入探究蔷薇科植物进化规律奠定了基础。

1 材料与方法

1.1 蔷薇科叶绿体基因组序列获取

通过NCBI(https://www.ncbi.nlm.nih.gov/)数据库搜索到12 种蔷薇科植物的叶绿体基因组数据,将这12 种蔷薇科植物的叶绿体基因组作为研究对象,其名称和登录号如表1 所示。选择叶绿体基因组中53 个特定基因进行比较,包括accD、atpA、atpB、atpE、atpF、atpI、ccsA、cemA、clpP、matK、ndhA、ndhB、ndhC、ndhD、ndhE、ndhF、ndhG、ndhH、ndhI、ndhJ、ndhK、petA、petB、petD、psaA、psaB、psbA、psbB、psbC、psbD、rbcL、rpl14、rpl16、rpl2、rpl20、rpl22、rpoA、rpoB、rpoC1、rpoC2、rps11、rps12、rps14、rps18、rps2、rps3、rps4、rps7、rps8、ycf1、ycf2、ycf3和ycf4。参考文献[17]选择基因序列,标准为:编码基因序列超过300 bp;从起始密码子ATG开始;去除含模糊碱基的序列。

表1 本研究所收集的12种蔷薇科叶绿体基因组Table 1 Chloroplast genomes of 12 Rosaceae collected in this study

1.2 密码子组成分析

根据perl 脚本计算每个基因的密码子数量(codon number,CN)占比(codon proportion,CP)及密码子第1、第2 和第3 位密码子的GC 含量,分别记作GC1、GC2 和GC3,并计算密码子的平均GC含量(GCall)、有效密码子数(effective number of codon,ENC)、同义密码子相对使用度(relative synonymous codon usage,RSCU)。ENC 是衡量同义密码子使用偏度的重要指标,取值范围为20~61,ENC 值从小到大表示偏倚性由强到弱[18-19]。RSCU 是指某一密码子实际使用频率与无使用偏性时理论频率的比值,无偏性时,RSCU 为1;RSCU 小于1 则代表该密码子的实际使用频率低于其他同义密码子,反之实际频率高于其他同义密码子[20-21]。计算公式如下。

式中,s为密码子第3 位碱基中G 和C 的出现频率。

1.3 中性绘图分析

以GC1和GC2的平均值GC12为纵坐标、GC3为横坐标进行中性绘图,每个散点代表1 个基因。若GC12 和GC3 显著相关,说明密码子偏好性受突变影响较大;反之则说明影响密码子偏好性的主要因素为选择效应[22]。

1.4 ENC-plot分析

ENC-plot 分析可探讨ENC 和GC3 的关系,是一种通过分析基因密码子偏好性的图像可视化方式。ENC-plot绘图分析包含散点图和标准曲线,其中标准曲线代表无选择压力存在时,密码子偏好性由突变决定,即完全由核酸序列组成决定密码子偏好性[23];散点图则以ENC为纵坐标,GC3为横坐标。

1.5 PR2-plot分析

分析各密码子第3位碱基上的A、T、C、G的含量,分别记作A3、T3、G3和C3。以A3/(A3+T3)为纵坐标、以G3/(G3+C3)为横坐标进行PR2偏倚分析,用平面图显示各基因的碱基组成,其中心点代表无偏性使用时的密码子状态,即A=T且C=G,而点与中心点的矢量距离代表其偏倚程度和方向[24-25]。

1.6 最优密码子的确定

以叶绿体各基因的ENC 作为偏好性参考标准,从两端各选择10%的基因构建高、低偏性库,将两库间ΔRSCU≥0.08 的密码子定义为高表达优越密码子[26];将RSCU 值大于1 的密码子定义为高频密码子。将同时满足高频率密码子和高表达优越密码子确定为最优密码子。

1.7 系统进化分析

利用SPSS 16.0 基于RSCU 值进行聚类分析[27]。利用MEGA X 采用邻接法(neighbor-joining method, NJ)基于53 个基因编码序列和叶绿体基因组序列构建系统进化树[28]。

2 结果与分析

2.1 蔷薇科植物密码子组成特征分析

对12 种蔷薇科植物叶绿体基因组分析结果(表2)表明,密码子数量占比(CP)平均31.52%,变幅31.00%~32.00%。 其中,西府海棠(Malus micromalus)的密码子数量占比较高,枇杷(Eriobotrya japonica)较低。不同类型碱基第3位的占比如下:T3 为27.80%~28.60%,C3 为45.00%~46.00%,A3 为37.00%~38.00%,G3 为29.00%~30.00%。GC1含量为46.86%~47.06%,GC2含量为39.34%~39.50%,GC3 含量为28.27%~28.61%,GCall 含量为36.54%~37.23%。综上所述,12 种蔷薇科植物叶绿体基因组密码子数量占比、第3位密码子碱基类型和GC含量等具有较高的保守性。

表2 12种蔷薇科植物叶绿体基因组密码子的参数特征Table 2 Parameter characteristics of codon in chloroplast genome of 12 rosaceae species(%)

12 种蔷薇科植物叶绿体基因组的ENC 值为32.25~63.37,平均48.32(图1),其中,枇杷(Eriobotrya japonica)最低(47.87),草莓(Fragaria x ananassa)最高(49.17),表明12种蔷薇科植物叶绿体基因组整体上具有较弱的密码子偏好性。此外,在53 个编码基因中,rpl16的平均ENC 值为34.36,表明该基因相对其他基因具有更强的密码子偏好性。

图1 12种蔷薇科植物叶绿体基因组的有效密码子数Fig. 1 ENC of chloroplast genome of 12 Rosaceae plants

进一步对12 种蔷薇科植物叶绿体基因组的CP、GC1、GC2、GC3、GCall 以及ENC 进行相关分析,结果(图2)表明,GC1 和GC2 均与GCall 呈显著正相关;GC3 与GCall、GC1 与GC2 和GC3 呈较弱正相关;CP 与GC1 和GC2 为负相关性,与GC3和ENC 呈较弱的正相关;ENC 与GC1 呈较弱的正相关,与GC2为负相关,与GC3呈显著正相关。

图2 CN、GC1、GC2、GC3、GCall以及ENC之间相关性Fig. 2 Correlation between CN, GC1, GC2, GC3, GCall and ENC

2.2 叶绿体基因组密码子使用模式

以ENC 和GC3 绘制ENC-plot 图分析53 个编码基因在进化过程中的进化力。结果(图3)表明,12种蔷薇科植物叶绿体基因组中的53个编码基因的ENC 值均大于30,大部分基因沿着标准曲线分布,ENC 值集中在40~50之间,且多数落于标准曲线下方,表明大部分基因的密码子偏好性受到了选择的影响。此外,PR2-plot分析结果(图4)显示,12 种蔷薇科植物叶绿体基因组的rpl2、rpl14、rpl16、rpl20、rpl22、rps2、rps3、rps4、rps7、rps8、rps11、rps12、rps14和rps18基因的A3/(A3+T3)值均大于0.5,说明第3 位碱基中A 的占比较高;matK、petA、petB、petD、rpoA、rpoB、rpoC1、rpoC2、ycf1、ycf2、ycf3和ycf4基因的G3/(G3+C3)值均大于0.5,说明第3位碱基中G的占比较高。

图3 叶绿体基因组中密码子的ENC-plot分析Fig. 3 ENC-plot analysis of codons in chloroplast genome

图4 叶绿体基因组中密码子的PR2-plot分析Fig. 4 PR2-plot analysis of codons in chloroplast genome

2.3 中性绘图分析

利用中性绘图分析12 种蔷薇科植物叶绿体基因组密码子偏好性,结果(图5)表明,GC12 分布在0.3~0.6 之间,GC3 分布在0.2~0.4 之间,且GC12 与GC3 呈正相关关系。由此表明,GC3 和GC12 含量变异较小,具有更大的进化自由度,不受基因组总体组成的影响。

2.4 密码子分析

密码子分析(图6)表明,12种蔷薇科植物叶绿体基因组中有69种密码子高度保守。其中,64个密码子的RSCU 值≥0.08,为高表达优越密码子;32个密码子RSCU值≥1,为高频密码子,并且32个高频密码子中大部分以A/U(13/16)结尾,另有3个以G结尾的高频密码子UUG、AUG和UGG,表明以A/U 结尾密码子的使用频率更高。此外,AUA、AUC、CUG、GUG和UUG 的使用频率为0。

图6 12种蔷薇科植物最优密码子分析Fig. 6 Optimal codon analysis of 12 Rosaceae species

2.5 叶绿体基因组系统进化树分析

基于12 种蔷薇科植物叶绿体基因组密码子使用特征RSCU值构建进化树,结果(图7A)表明,12 种蔷薇科植物被划分成2 个类群,苹果(Malus domestica)和扁桃(Prunus dulcis)属一个类群;其他10 种蔷薇科植物被划分为另一个类群,此类群中西府海棠(Malus micromalus)与草莓(Fragaria ×ananassa)、木瓜(Chaenomeles sinensis)等9 个物种差异较大。利用12 种蔷薇科植物的53 个基因序列和叶绿体基因组分别构建系统进化树,结果(图7B 和C)表明,均将12 种蔷薇科植物划分为3 个类群,其中杏(Prunus armeniaca)和梅花(Prunus mume)各自为一个类群;其他10 种植物聚为一个类群,在此类群中,桃(Prunus persica)和扁桃(Prunus dulcis)的相似性较高,枇杷(Eriobotrya japonica)、西洋梨(Pyrus communis)、西府海棠(Malus micromalus)、苹果(Malus domestica)和木瓜(Chaenomeles sinensis)的相似性较高。对基于3 种类型数据构建的系统进化树进行比较,基于53 个基因序列和基于叶绿体基因组构建的进化树两者间高度相似,而与基于RSCU值构建的系统进化树差异较大。由此说明,序列的位点突变特征和非编码区序列在生物体的进化过程中也具有重要的作用。

图7 12种蔷薇科植物的系统进化树Fig. 7 Phylogenetic tree of 12 Rosaceae species

3 讨论

本研究利用NCBI 数据库中12 种蔷薇科植物的叶绿体基因组探究了蔷薇科植物叶绿体基因组的密码子使用特征,对探索蔷薇科植物的物种进化具有重要意义,为蔷薇科植物的分子育种提供了理论依据。

植物基因组中的GC 含量在决定碱基组成偏倚的影响方面起着重要作用[29-30]。本研究结果表明,12 种蔷薇科植物叶绿体基因组的GC 含量在36.54%~37.23%,与大部分植物的叶绿体基因组35%~40%的GC 含量相符,也与木兰科植物叶绿体基因组的GC 含量相似[31-32];且不同位置密码子的GC 含量表现为GC1>GC2>GC3,即密码子第3位碱基组成表现出显著的A/T偏性,这与多种植物叶绿体基因组分析结果一致[33]。此外,蔷薇科植物叶绿体基因组第3 位密码子的GC 含量均小于第1 和第2 位密码子,而拟南芥和毛果杨第3 位密码子的GC 含量大于第2 位密码子,且单子叶植物水稻和玉米第3 位密码子的GC 含量均超过了65%,表明不同科属植物在遗传进化上密码子使用模式具有较大差异[34]。中性分析结果表明,蔷薇科植物具有较大的进化自由度,受基因组总体组成的影响较小。

12 种蔷薇科植物叶绿体基因组中有69 个密码子的使用模式高度保守,筛选到的32 个高频密码子主要以A/U 结尾,这与木兰科和竹亚科等多种植物研究结果一致[35],说明蔷薇科植物叶绿体基因组密码子偏好使用A/U 结尾。PR2-plot分析结果表明,G 和C 的使用频率高于A 和T,同时中性绘图分析结果表明GC12 对GC3 的中性程度较弱。ENC-plot 分析结果显示大部分基因位于标准曲线的下方。综上所述,12 种蔷薇科植物叶绿体基因组密码子使用偏好性主要受自然选择因素影响。有效密码子数为32.25~63.37,平均有效密码子数均大于47,高于参考标准35,说明12 种蔷薇科植物叶绿体基因组密码子的偏性较弱,与柿属等多种植物叶绿体基因组偏性结果一致[36]。此外,12 种蔷薇科植物基于RSCU 值构建的系统进化树与基于基因序列和基于叶绿体基因组序列构建的进化树差异较大,说明基于密码子偏好特征的进化关系可能损失了一些信息。

猜你喜欢
蔷薇科进化树密码子
基于心理旋转的小学生物进化树教学实验报告
常见的进化树错误概念及其辨析*
衡水主城区蔷薇科园林植物初步调查
密码子与反密码子的本质与拓展
蔷薇科瑶药品种与标准整理
10种藏药材ccmFN基因片段密码子偏好性分析
艾草白粉病的病原菌鉴定
浅谈园林绿化设计中蔷薇科植物的应用
层次聚类在进化树构建中的应用
茶树CsActin1基因密码子偏性分析