金银花大毛花叶绿体基因组密码子的偏好性分析

2023-05-04 05:30张加强刘慧春许雯婷周江华朱开元
浙江农业学报 2023年4期
关键词:毛花密码子叶绿体

张加强,刘慧春,王 杰,许雯婷,周江华,朱开元,*

(1.浙江省园林植物与花卉研究所,浙江 杭州 311251; 2.浙江省丽水市遂昌县农作物技术推广中心,浙江 遂昌 323300)

遗传密码是蛋白质和核酸在生物体遗传信息传递过程中的桥梁。除了一些只有一种遗传密码的氨基酸外,大多数氨基酸具有不止一种遗传密码,即密码子具有简并性。编码相同氨基酸的不同密码子称为同义密码子。不同物种或者同一物种的同义密码子的使用频率不同。这种现象称为密码子使用偏好性[1-2]。密码子使用偏好性广泛存在于多种生物中,成因复杂,它受环境因素、碱基突变、自然选择、基因漂移以及基因组大小、GC含量、蛋白质结构和tRNA丰度和基因表达水平等因素的影响[3-5]。研究表明,密码子使用偏好性反映了物种或基因的起源、进化和突变模式,对基因功能和蛋白质表达有较大影响[6]。因此,密码子使用偏好性可为物种分类和分子进化提供重要的见解。

叶绿体作为植物重要的半自主细胞器,在光合作用、碳同化和次生代谢产物的生物合成中起着重要的作用[7]。因此,叶绿体具有独立于核基因组的遗传系统,拥有独立的复制、转录和翻译机制。研究表明,大多数植物叶绿体基因组的范围从100 kb到200 kb,具有典型的4部分结构,包括一个大单拷贝区(LSC)、一个小单拷贝区(SSC)和两个反向重复区(IR),通常含有110~130个基因[8-9]。由于叶绿体基因组结构稳定、基因含量保守、分子进化缓慢,因此被广泛应用于植物系统进化研究和物种鉴定[10-11]。近年来,随着高通量测序技术的发展,越来越多的植物叶绿体基因组信息,被添加到NCBI数据库中[12-13]。目前,叶绿体中许多基因的生物学功能逐渐被揭示。例如,salt1的突变会影响叶绿体的发育,从而导致质体发育缺陷[14];PTAC10对叶绿体发育和叶色有重要影响[15];RsgA在维持正常叶绿体形态方面起着关键作用[16]。研究表明,对于叶绿体基因组的研究,除了能提高对植物生物系统发育和进化的认识外,还具有重要的转化应用意义,即叶绿体基因工程,例如提供针对生物或非生物胁迫的保护以及在可食用植物中开发疫苗和生物药物[17-18]。同时,叶绿体表达的转基因的母系遗传可以避免核转基因系统中花粉逃逸引起的生物安全问题[19-20]。

在叶绿体基因工程中,外源基因的整合以及用于高效表达转化载体的开发是两个关键步骤。研究表明,叶绿体基因组的密码子使用偏好性受到基因表达水平等因素的影响[21]。为了构建成熟稳定的叶绿体转基因体系,很有必要对目标基因或受体植物的密码子偏好性进行分析。目前,关于植物叶绿体基因组密码子偏好性的研究,多集中于杓兰[11]、牡丹[13]、蝴蝶兰[22]、陆地棉[23]、杧果[24]、豆蔻属[25]和籽粒苋[26]等物种中,而国内外关于金银花叶绿体基因组密码子偏好性的研究则鲜有报道。

金银花(LonicerajaponicaThunb.)为忍冬科植物忍冬的干燥未开放花蕾或带初开的花,是我国传统药用植物,具有清热解毒、疏散风热的功效,长期以来被用于治疗各种疾病,现代药理研究表明,金银花提取物具有抗炎、抗病毒、抗菌、抗氧化、保护肝和抗肿瘤等许多药理活性。同时,还被广泛用于健康食品、健康茶、饮料和葡萄酒生产中[27]。金银花来源复杂,全世界忍冬属约有200种,中国有98种,其中可供药用品种达47种。金银花药材来源主要以大毛花、四季花、鸡爪花、北花一号和九丰一号等栽培品种为主。由于人们引种频繁,加之受到长期自然环境和人工定向培育,形成了数量众多的农家栽培品种或品系,其药材产量与质量均有差异,这也给金银花的基原物种鉴定带来许多困难,而叶绿体基因组可作为物种鉴定的“超级条形码”在物种分类和鉴定方面具有巨大优势,已应用于忍冬属物种亲缘关系的鉴定中[10]。金银花大毛花是我国金银花主流栽培品种之一,同时,大毛花也是优良的亲本材料,九丰一号就是通过秋水仙素诱导二倍体大毛花茎尖选育出的同源四倍体[28]。本研究团队完成了金银花大毛花叶绿体基因组的高通量测序,并已提交至NCBI GenBank数据库。目前尚未有关于金银花大毛花叶绿体基因组的密码子使用偏好性的相关报道。本研究通过对金银花大毛花叶绿体基因组密码子使用模式和影响因素的分析,确定了金银花大毛花叶绿体基因组的最佳密码子,旨在为金银花大毛花叶绿体基因组的应用和研究提供科学参考。

1 材料与方法

从NCBI数据库中下载完整的金银花大毛花叶绿体基因组序列(GenBank:MZ779026.1),序列长度为155 151 bp,包含81条蛋白编码基因。为了避免出现样本误差,进一步进行过滤,去掉长度小于300 bp和重复基因序列,最终获得50条蛋白编码基因用于后续分析。

1.1 密码子偏好性分析

使用Codon W,EMBOSS在线程序(http://www.bioinformatics.nl/emboss-explorer)分析过滤后的编码序列[29],计算各个基因的密码子在第3位碱基组成上的A、G、C、T含量,分别记为A3、G3、C3、T3;并且统计样本的总GC含量以及密码子第1位、第2位和第3位碱基组成的GC含量,同义密码子第3位的G+C含量,分别记为GC、GC1、GC2、GC3和GC3s;计算出同义密码子的相对使用频率(relative synonymous codon usage,RSCU);有效密码子数(effective number of codons,ENc);密码子适应指数(codon adaptation index,CAI)等密码子使用偏好性度量指标。

1.2 中性绘图

在中性图绘制时,首先计算GC1与GC2的平均值,计作GC12,再以各基因的GC3为横坐标,GC12为纵坐标绘制二维散点图,并对二者的相关性进行分析。若GC3与GC12相关性显著,说明密码子的使用偏好性主要受突变的影响;若两者的相关性不显著,说明选择对密码子使用偏好性影响较大[30]。

1.3 ENc-plot绘图分析

以ENc为纵坐标,GC3为横坐标,进行ENc绘图分析,同时,标准曲线根据公式ENc=2+GC3+29/[GC32+(1-GC3)2]计算获得。若基因位点分布于标准曲线附近时,密码子使用偏好性主要受突变的影响;若基因位点分布远离标准曲线,则密码子使用偏好性主要受到选择的影响[31-32]。

1.4 PR2-plot分析

PR2-plot分析又名奇偶偏好(PR2)分析,在进行PR2-plot图分析中,以G3/(G3+C3)为横坐标,A3/(A3+T3)为纵坐标进行绘图分析。平面图中每个基因的碱基组成显示在一个平面上,中心点代表密码子无偏使用时的状态,即A=T和C=G,并且其余点和中心点之间的矢量距离表示偏倚的程度和方向[33]。

1.5 对应性分析

基于金银花大毛花的50个叶绿体基因的RSCU值,将各个基因在一个59维的向量空间进行分布[25-26]。使用SPSS 19.0软件进行对应性分析,并对第一轴(primary shaft)与GC1、GC2、GC3、GC3s、GC、ENc和CAI的相关分析[34]。

1.6 最优密码子确定

以ENc为标准,将金银花大毛花50条蛋白编码基因的ENc值进行排序,分别从ENc最高值和最低值两端选取10%作为高表达、低表达组,求两者间的RSCU差值(ΔRSCU),同时将RSCU>1且ΔRSCU>0.08的密码子定义为最优密码子[34]。

1.7 统计分析

使用SPSS 19.0 软件进行GC1、GC2、GC3、GC3s、GC、ENc、CAI等度量参数间的相关性分析。在中性图分析时,GC3与GC12之间的相关性,使用SPSS 19.0软件进行双尾检验[35]。

2 结果与分析

2.1 密码子的组成特征

由表1可知,金银花大毛花的叶绿体基因组去除重复序列和长度小于300 bp的蛋白编码序列后,共获得50条蛋白编码基因,编码氨基酸序列长度为64~798,平均长度340。GC含量范围在32.50%~46.04%,GC的平均含量为39.18%。其中,GC1>GC2>GC3,三者的平均含量分别为47.66%、39.82%和30.05%。表明金银花大毛花叶绿体基因组的GC含量在密码子3个位置上的分布并不均匀,存在密码子使用偏好性。ENc是衡量密码子使用偏好性的一个重要指标,其取值范围为20~61,常以ENc值45作为区分偏好性强弱的标准。ENc值越低,说明偏好性越强;越高偏好性则越低。由表1可知,金银花大毛花叶绿体基因组各基因的ENc值介于38.38~59.11,平均值为48.81,其中,基因的ENc值大于45就有42个,表明金银花大毛花叶绿体基因组密码子的使用偏好性较弱。

由表2可知,相关分析结果显示,GC1除了与ENc未达到显著相关外,与GC2、GC3、GC3s、GC和CAI均达到显著或极显著水平,其相关系数分别0.385 1、0.336 5、0.373 4、0.826 7和0.441 2。GC也是除了与ENc未达到显著相关外,与GC1、GC2、GC3、GC3s和CAI均达到显著或极显著水平,其相关系数分别0.826 7、0.747 1、0.559 1、0.572 3和0.342 9。GC3与GC3s达到极显著水平,相关系数为0.951 3。这表明密码子的碱基组成对金银花大毛花叶绿体基因组密码子的使用偏好性产生重要的影响,有必要进一步进行密码子使用模式的探讨。

表2 密码子数各位置GC含量、数量与ENc值的相关性分析Table 2 Correlation analysis of GC content, quantity and ENc value of different position codon numbers

2.2 同义密码子相对使用度分析

由表3可知,RSCU值分析表明,金银花大毛花叶绿体基因组密码子的RSCU变化范围分别为0.33~1.81,最低RSCU值属于编码Leu的CTG,最高RSCU值属于编码Leu的TTA。RSCU>1.00的密码子共有30个。其中,28个以A和T结尾,占93.33%,表明金银花大毛花叶绿体基因组偏向于使用以A或T结尾的同义密码子。

表3 金银花大毛花叶绿体组的同义密码子的使用频率Table 3 The frequency of synonymous codons (RSCU) in chloroplast of Lonicera japonica cv. Damaohua

2.3 中性绘图分析

如图1所示,中性绘图分析表明,GC12的取值范围在0.347 9~0.550 4,GC3的取值范围在0.228 0~0.376 2,基因分布于中线对角线上方,GC12与GC3的相关系数为0.258,双尾检验未达到显著水平,回归曲线斜率为0.328 7,表明这两者之间的相关性很弱。因此,说明选择对金银花大毛花叶绿体基因组密码子使用偏好性的影响更大。

图1 中性绘图分析Fig.1 Neutrality plot analysis

2.4 ENc-plot 绘图分析

如图2所示,ENc的取值范围为38.38~59.11,平均值为48.81;GC3s的取值范围为0.197 7~0.360 8,平均值为0.269 6。图2显示,大部分基因分布在期望曲线附近,ENc实际值与ENc预期值之间的差异较小,说明叶绿体基因组密码子使用偏好性主要来源于突变的影响。

图2 ENc与GC3s关联分析Fig.2 Analysis of ENc and GC3s relationship

2.5 偏倚性分析

如图3所示,各基因不均匀地分布于平面图的4个区域内,并且基因在平面图右下方分布较多。这表明金银花大毛花叶绿体基因组密码子第3位碱基使用G的频率高于C,使用T的频率高于A,密码子的使用存在偏好性。因此,金银花大毛花叶绿体基因组密码子的使用不仅受到选择的影响,还受到突变压力的影响。

图3 PR2 bias-plot 分析Fig.3 Analysis of PR2 bias

2.6 对应性分析

基于金银花大毛花的50个叶绿体基因的RSCU值的对应性分析(COA)结果显示,前4轴分别解释了12.30%、10.40%、8.30%和7.30%的差异,4轴累积解释的总差异为38.30%。说明第一轴(Axis1)对金银花大毛花叶绿体基因组密码子偏好性的影响最大。此外,Axis1与GC1、GC2、GC3、GC3s、GC、ENc和CAI的相关系数分别为-0.026、0.208、-0.032、-0.096、0.084、-0.139和0.067,均未达到显著水平。因此,表明除了选择和突变外,还有更多的因素参与金银花大毛花叶绿体基因组密码子使用模式的形成。分别以第1轴和第2轴为横坐标、纵坐标,将各基因分布于平面上(图4),可以看出,各基因分布较为分散,表明在金银花大毛花叶绿体基因组中这些基因密码子的使用模式差异较大。

图4 基于 RSCU 的对应性分析Fig.4 Corresponding analysis based on RSCU

2.7 基因表达水平对密码子使用偏好性的影响

金银花大毛花CAI的取值范围为0.100~0.285 0,平均值为0.169(表1),表明金银花大毛花的基因表达水平比较低。由表2可知,CAI与GC1以及GC的相关系数分别为0.441 2和0.342 9,均达到显著或极显著水平,表明基因表达水平对金银花大毛花叶绿体基因组密码子偏好性具有显著的影响。GC1和GC含量高,并且基因表达水平高,密码子使用偏好性的程度就越高。

2.8 最优密码子分析

根据高、低表达样本库中密码子的RSCU值和ΔRSCU值来确定金银花大毛花叶绿体基因组的最优密码子(表4),确定了5个最优密码子,分别为编码异亮氨酸的ATA,编码丝氨酸的TCT、TCA和AGT以及编码甘氨酸的GGA。所有的最优密码子均以A/T结尾。

3 讨论

密码子使用偏好性是生物在长期的进化过程中形成的一个重要特征。其中,GC含量、GC3含量、GC3s含量和ENc等常被作为量化密码子使用偏性的重要参数[5,21]。与核基因组相比,叶绿体基因组结构稳定,分子量小,具有高度保守性,尤其是GC含量在不同物种之间大多比较保守。前人研究发现,在叶绿体基因组中,基因的GC含量一般低于40%,如拟南芥(37.10%)、玉米(39.60%)、陆地棉(37.89%)、刺榆(37.32%)、草果(36.0%)、杧果(37.9%)[23-24];且GC含量在同一属不同物种之间也大多比较保守,如豆蔻属(37.22%~37.31%)、旋覆花属(37.71%~37.72%)、忍冬属(38.31%~38.59)、牡丹属(38.3%~38.4%)、鼠尾草属(36.20%~37.99%)[10,12-13,25]。本研究金银花大毛花叶绿体基因组GC含量为39.18%,GC1、GC2和GC3含量分别为47.66%、39.82%和30.05%,ENc值为48.81。因此,金银花大毛花叶绿体基因组密码子的使用偏好性较弱。同时,筛选出金银花大毛花叶绿体基因组中RSCU>1有30个密码子,其中28个密码子以A/T结尾。金银花大毛花叶绿体基因组密码子偏好A/T结尾。在陆地棉[23]、杧果[24]等双子叶植物中也存在这种现象,单子叶植物和双子叶植物之间的密码子使用偏性具有物种特异性。单子叶植物密码子使用偏好以G/C结尾,甲基化水平是影响单子叶植物的密码子使用偏好G/C结尾的重要原因[36]。

此外,突变和选择压力是影响密码子使用偏好性的重要因素。在不同植物之间叶绿体基因组密码子偏好性,受到影响因素也有所不同。豆蔻属[25]、杓兰[11]、杧果[24]、翠雀[30]、凉粉草[37]主要是受到选择的作用;而籽粒苋[26]、沙棘[35]、咖啡[38]和银白杨[39]主要是受到突变的作用;蝴蝶兰[22]、陆地棉[23]则受到突变和选择等多重因素的共同影响。结合中性绘图分析、ENc-plot分析和PR2-plot分析发现,金银花大毛花叶绿体基因组密码子使用偏好性受到突变和选择等诸多因素的共同影响。密码子使用模式可能影响基因的表达,并且基因表达水平越高,密码子偏好性越强,这与前人的研究结果一致[6]。

目前对于最优密码子的界定标准,报道并不完全一致。有些学者以ENc值大小,各取10%建立高低样本库,计算两个样本组密码子的ΔRSCU值获得[11,23,26,37];而另一些学者按CAI值大小排列,各选出5%建立高低表达库,计算两组的ΔRSCU值求得[40]。两种方法均能获得比较好的研究结果。由于最优密码子采用的界定标准不同,这也是造成最优密码子及其数量在不同物种间又有所不同的重要原因。本研究共筛选出5个最优密码子,且密码子均以A或T结尾。这一现象与已见报道的绝大多数藻类和高等植物叶绿体基因的最优密码子结果相一致[34],这与叶绿体基因组保守性有关。本研究确定了金银花大毛花叶绿体基因组的最优密码子,可为基因工程中外源基因的密码子改造及其表达研究提供重要的参考。

猜你喜欢
毛花密码子叶绿体
密码子与反密码子的本质与拓展
毛花苷丙与胺碘酮治疗快速型心房纤颤伴急性左心衰的效果对比
10种藏药材ccmFN基因片段密码子偏好性分析
毛花猕猴桃叶的鉴别研究
南方红豆杉叶绿体非编码序列PCR体系优化及引物筛选
茶树CsActin1基因密码子偏性分析
花椰菜 “毛花”成因初探
茶树叶绿体DNA的PCR-RFLP反应体系优化
烟草叶绿体密码子的偏好性及聚类分析
钙过量对茶树光合特性及叶绿体超微结构的影响