杜 雨,李效雄,贾西贝,胡晓桐,刘 筠,马彦军*
1. 甘肃农业大学,甘肃 兰州 730070
2. 兰州资源环境职业技术大学,甘肃 兰州 730030
叶绿体是一种存在于高等植物和藻类中含有光合色素的质体,同时叶绿体基因组也为植物系统发育研究提供了重要作用[1-2]。与核基因组相比,叶绿体基因组具有序列高度保守和进化速率适中等优势,可用于研究物种的起源和进化等方向[3-7]。目前,因为高通量测序具有比较高的准确性,因此可以较为准确的研究生物体的系统发育和进化等[8-10]。通常来说,发育关系越密切的物种,其密码子使用模式越相近[11]。如白羊草BothriochloaischaemumL.[12]、刺柏属JuniperusL.[13]、烟草NicotianatabacumL.[14]及其近缘种利用叶绿体基因组同义密码子相对使用度(relative synonymous codon usage,RSCU)构建聚类分析图,分析其与近缘种的系统发育关系。
mRNA 上相邻的3 个碱基构成了密码子,且密码子是连接核酸与蛋白质的纽带,在生物遗传信息传递时具有重要作用[12]。密码子的简并性是指在编码过程中一种氨基酸可以由2 个或2 个以上的密码子编码,而这些密码子则被称为同义密码子。在自然界中存在的氨基酸有20 种,其中甲硫氨酸和色氨酸由一个密码子编码外,剩余氨基酸则由2~6 个同义密码子编码[15]。由于同义密码子的使用频率有所差异,形成了密码子使用的偏好性(codon usage bias,CUB)。而密码子使用的偏好性在不同物种或同一物种中也有所差异[16],如杜仲Eucommia ulmoidesOliv.密码子主要以G/C 结尾[17],唐古特白刺NitrariatangutorumBobr.密码子则主要使用A/U结尾[18]等。影响CUB 的因素主要有突变和自然选择等。目前对密码子偏好性的研究主要集中在分子进化、翻译调控等方面[19-20]。研究表明,密码子偏好性可以通过改变蛋白质结构、核苷酸序列等方式影响外源基因的表达[21-22]。因此,研究密码子的偏好性不仅可帮助了解物种的分子进化、环境适应和基因组特征,还可以用来判断未知基因的表达以及预测一些未知功能基因[23-24]。
枸杞属LyciumL.植物为多年生灌木,隶属于茄科(Solanaceae)。枸杞属植物约有80 种,以离散型方式随机分布在各地,其中南美洲和北美洲分布较广。我国枸杞属植物分为7 个种和3 个变种[25]。在野外调查时发现枸杞果实颜色较为丰富,主要有红果、黄果、黑果和白果等。其中,中国枸杞具有长椭圆形或卵状披针形的叶片,并且果实呈红橘黄色,其直径在5~10 mm,叶片单叶互生或2~4 枚簇生。中国枸杞的色素主要是类胡萝卜素。黄果枸杞的叶片较为狭窄,呈条形或狭披针形,果实呈橙黄色,其直径为4~8 mm,是宁夏枸杞的1 个变种,被称为“黄金枸杞”,种植面积较小。白果枸杞的条形或条状披针形的叶片在短枝上2~6 枚簇生,果实为球状浆果,呈白色或表皮略带紫色斑点,其直径在4~9 mm。枸杞的花期均为5~10 月[26]。目前,在野外调查时发现存在中国枸杞、黑果枸杞、黄果枸杞和白果枸杞等,其中中国枸杞、黑果枸杞和黄果枸杞的分类学地位已经清晰,并且也应用于研究中,而对白果枸杞的分类地位尚不清楚。因此,本研究以中国枸杞、黄果枸杞和白果枸杞的叶绿体基因组为研究对象,分析枸杞的密码子使用的特征及其影响因素,阐明枸杞叶绿体基因组密码子使用模式,为枸杞属植物的系统发育关系提供理论依据。
进行枸杞种质资源调查时在青海采集中国枸杞、黄果枸杞和白果枸杞的植株并栽植到甘肃农业大学校内实习基地(地理坐标:38°28′N,106°16′E)。经甘肃农业大学马彦军教授鉴定为茄科中国枸杞LyciumchinenseMill.、黄果枸杞L.barbarumLinn.var.auranticarpumK. F. Ching.和白果枸杞L.ruthenicumMurray。
S220 型超声波DNA 破碎仪(美国Covaris 公司),Thermo Qubit 4.0 荧光定量仪(Q33226),台式高速低温离心机( Thermo Scientific Sorvall LegendMicro 21R),DE13805054 型Agilent 2100 Bioanalyzer(美国Agilent 公司)。
通过Illumina 高通量测序(上海生工生物公司测)获得高质量数据(clean data),然后进行叶绿体全基因组序列拼接、组装与注释,最终汇总整理为完整的注释结果。注释完成后,提交到NCBI 数据库(https://www. ncbi. nlm.nih. gov/genbank/)。其中国枸杞、黄果枸杞和白果枸杞的叶绿体基因组登录号为OP866962、OP846044 和OP846050。中国枸杞、黄果枸杞和白果枸杞的叶绿体基因组大小分别为155 655、154 978、154 976 bp,其中中国枸杞和黄果枸杞含有83 个蛋白编码基因(protein-coding genes,CDS),白果枸杞含有81 个蛋白编码基因(protein-coding genes,CDS)。根据注释信息剔除长度小于300 bp 和重复的蛋白质编码序列,筛选起始密码子为ATG,且终止密码子为TAA、TGA 或TAG 的序列。
2.2.1 密码子组成分析 利用CodonW 1.4.2 软件(http://codonw. sourceforge.net)对中国枸杞、黄果枸杞和白果枸杞的有效密码子数(effective number of codons,ENC)、同义密码子相对使用(relative synonymous codon usage,RSCU)以及密码子GC 值进行分析,并利用SPSS24.0 和Chiplot(https://www.chiplot.online/#Bubble-plot)进行显著性分析。其中GC值包括第1、2、3 位碱基以及三碱基中的平均含量。
2.2.2 ENC-plot 绘图分析 ENC 值是了解密码子偏好性的重要参数,可以判断内源基因的表达量,ENC 越小,密码子偏好性强,为高表达基因。使用Python 软件绘制以ENC 值为纵坐标,GC3 含量(密码子第3 位碱基的GC 含量)为横坐标的曲线图(终止密码子、甲硫氨酸和色氨酸除外)。同时,根据ENC 的比值频数可以纠正ENC-plot 分析可能存在的错误,按照以下公式计算ENC。
ENC=2+GC3+29/[(GC3)2+(1-GC3)2]
2.2.3 PR2-plot 和中性绘图分析 以G3/(G3+C3)为X 轴,A3/(A3+T3)为Y 轴绘制PR2-plot 散点图。其中PR2-plot 图的中心点位置表明碱基含量为A=T、G=C,即密码子不具有偏好性,其余点与中心点的矢量距离则代表其偏倚程度和方向。
以第1、2 位碱基上的GC 平均含量为纵坐标,GC3 为横坐标绘制中性分析(neutrality plots)散点图。通过直线拟合分析图进行分析。利用二者的相关性,推断影响密码子偏好性的因素。当密码子受突变影响时,直线斜率接近1,二者呈显著相关;反之,则受自然选择影响,无显著相关,GC 含量高度保守。
2.2.4 最优密码子的确定及聚类分析 利用ENC值和CodonW 软件构建高、低表达基因库和同义密码子使用度(relative synonymous codon usage,RSCU)值和ΔRSCU 值(ΔRSCU=RSCU 高表达-RSCU 低表达)的计算。最优密码子的确定则是需要同时满足高表达密码子和高频密码子的条件。
利用NCBI 数据库下载茄属秘鲁茄Solanum peruvianumL.、智利番茄S.chilense(Dunal) Reiche.、多毛番茄S.habrochaitesS. Knapp & D. M. Spooner、契斯曼尼番茄S.cheesmanii、栽培番茄S.lycopersicumL.、黑果枸杞LyciumruthenicumMurray.的叶绿体基因组序列并计算密码子的RSCU 值,通过聚类分析验证3 种枸杞叶绿体基因组密码子偏好性。
分析结果(表1)显示,3 种枸杞植物的RSCU比较接近,其中有30 个密码子的RSCU 值大于1,且以U、A 和G 结尾的密码子分别有16、13 和1;而3 种植物RSCU 值小于1 的密码子中只有3 个密码子以A 结尾,表明3 种枸杞植物的密码子中主要以A/U 结尾。中国枸杞(OP866962)、黄果枸杞(OP846044)和白果枸杞(OP846050)的密码子GC含量、ENC 值分析结果显示(表2、3):在3 种枸杞植物的GC1 平均含量均为49.80%,GC2 平均含量为39.83%~39.85%,GC3 平均含量为25.68~25.77%,GC 总含量(GCall_s)平均值为38.44~38.47%,ENC 平均值为48.05~48.06,表明3 种枸杞植物的GC 值和ENC 无明显差异。同时3 种枸杞植物密码子的GC 含量均表现为GC1>GC2>GCall_s>GC3,且GC1、GC2、GC3 平均含量都小于50%,表明3 种枸杞不同位置的密码子GC 含量有所差异且更偏好使用以A/U 结尾的密码子。
表1 枸杞叶绿体基因组中各氨基酸的RSCU 分析Table 1 RSCU analysis of amino acids in chloroplast genomes of L. chinense
表2 枸杞植物叶绿体基因组Table 2 Chloroplast genomes of L. Chinese plants
枸杞的相关分析表明GCall_s 和GC1、GC2、GC3具有极显著(P<0.01)相关性(0.361~0.848),与ENC不相关;GC3 与GC1、GC2 不具有相关性,表明密码子的第3 为碱基组成与第1 位和第2 位有所差异,而GC3 与GCall_s(0.361~0.362)、ENC(0.431~0.438)有显著(P<0.05)相关性,表明枸杞密码子的使用主要是受GC3 含量变化的影响(图1)。
图1 枸杞叶绿体基因组密码子参数的相关性分析Fig. 1 Correlation analysis of codon parameters in chloroplast genomes of L. Chinese
根据ENC 值和GC3 的关联分析以及标准曲线的距离来判断对密码子偏好性起主要作用的因素。当突变起主要作用时,数值主要分布于曲线附近,反之选择压力则起主导作用。根据ENCplot 分析图(图2),发现3 种枸杞植物的ENC值均大于30,且多数数值分布于曲线附近。结合ENC 比值频数分布表(表3)显示,3 种枸杞叶绿体基因组分别有20、21、21 个基因位于标准曲线附近,分别有31、30、30 个基因远离标准曲线,表明影响大部分密码子偏好性的要素是自然选择。
图2 ENC-plot 分析图Fig. 2 Analysis of ENC-plot
当影响密码子偏好性的因素仅为突变时,因突变具有随机性的特点会使第3 位碱基A/T(U)或C/G 具有相等的概率,而自然选择则会使A/T(U)或G/C 使用不均等。由图2 可知,4 个区域内的点分布不均匀:在垂直方向上多数基因在中线的下方;在水平方向上基因稍微偏向于中线右侧,垂直方向分布差异较大。(图3)。因此,枸杞植物的密码子第3 位碱基C 频率低于G,T(U)频率大于A,表明了枸杞植物多数基因受到自然选择的影响。
图3 PR2-plot 分析Fig. 3 Analysis of PR2-plot
密码子第3 位碱基的改变通常不会引起编码氨基酸的改变,对密码子偏好性的研究有重要意义。可根据枸杞植物的中性绘图分析判断影响密码子偏好性的因素。当基因沿对角线分布且斜率接近1 时,碱基在3 个位置的差异不明显,说明影响密码子偏好性的主要因素是突变,反之则受自然选择。如图4 所示,回归系数在-0.003 97~-0.001 74,两者呈负相关关系。其中黄果枸杞的回归系数为-0.003 97,受自然选择影响最小;中国枸杞的回归系数为-0.001 74,自然选择的影响较大。中性绘图分析表明影响枸杞密码子偏好性的主要因素是自然选择,与ENC-plot 的结果相同。
图4 中性绘图分析Fig. 4 Analysis of neutrality plot
同时满足RSCU>1 且ΔRSCU 值>0.08 的密码子即为枸杞的最优密码子。结果显示(表4):枸杞叶绿体基因组中绝大多数密码子以A 和U 结尾,且以U 结尾的密码子较多。其中中国枸杞有17 个最优密码子,黄果枸杞和白果枸杞具有18 个相同的最优密码子。此外,3 种枸杞植物的共同最优密码子有13 个,分别是UGU、UAA、UUG、CCU、CGA、AUU 等。
表4 枸杞植物叶绿体基因组密码子RSCU 值Table 4 RSCU values of codons in chloroplast genomes of L. Chinese plants
对3 种枸杞植物叶绿体基因组密码子RSCU进行聚类分析,使用SPSS 24.0 进行聚类分析(图5)。在欧氏距离为5 时,9 个物种分为3 大类:黑果枸杞、黄果枸杞和白果枸杞聚为一类,栽培番茄单独聚为一类,中国枸杞与其余近缘物种聚为一大类;在欧式距离为10 时,黑果枸杞、黄果枸杞和白果枸杞与栽培番茄聚为一类,中国枸杞与其余近缘物种聚为一大类;在欧式距离为25 时,所有茄科植物聚为一类。由此可知,中国枸杞未与白果枸杞、黄果枸杞聚为一类,这表明在密码子的使用模式上它们存在一定的差异。同时从枸杞植物的RSCU 聚类结果来看白果枸杞与黄果枸杞的遗传关系较近。
图5 基于RSCU 值的树状聚类Fig. 5 Cluster tree based on RSCU values
由于物种和基因的演化,造成了密码子的使用偏性现象。并且密码子使用偏性在不同物种或同一物种的不同基因中有明显的差异[27]。目前由于物种基因组测序的广泛使用,使人们对密码子使用模式的研究产生了的兴致[27]。本研究通过对3 种枸杞植物的密码子使用偏性和影响因素进行分析,为枸杞种质资源的开发和遗传育种提供参考。
在进化时遗传关系较近的物种,它们的第3 位密码子碱基组成比较相同。如大多数双子叶植物的密码子偏好使用以A/T(U)碱基结尾,单子叶植物则以G/C 碱基结尾[28]。通常密码子第3 位碱基受到较小的选择压力,对氨基酸的对应关系影响较小,因此密码子偏好性的研究对遗传育种具有重要意义[29]。密码子偏性和氨基酸的组成受GC 含量影响。目前研究发现,大部分植物的密码子使用偏性会随着物种的进化而降低,并且单细胞藻类的GC 含量最高,双子叶植物的GC 含量最低[27]。3 种枸杞植物的密码子 GC 平均含量为 38.44%~38.47%,且主要以A/T(U)碱基结尾,这与大部分被子植物的密码子偏好性相同[9,29-30]。此外,本研究中3 种枸杞植物的密码子偏好性均有较弱的表达(ENC 值>48),推测与叶绿体基因的保守性有关。
遗传密码子变异的主要进化力量包括2 个因素,即碱基突变和自然选择。在具有极高核苷酸含量的基因组中,影响同义密码子使用模式的一个重要因素是突变[31]。通过对枸杞ENC-plot、中性绘图和PR2-plot 分析发现,GC3 和GC1、GC2 表现为不显著相关性,且GC3<GC1、GC2,说明第3 位碱基与第1、2 位碱基存在差异性,且A/T(U)碱基有较高的使用频率,与双子叶植物的密码子偏好使用结果一致[32-33],这表明对枸杞密码子偏性影响较小的是碱基突变,可能更多地取决于物种进化和人工选择作用。
在高表达基因组中,最优密码子的使用可以提高翻译效率,而除最优密码子外,低表达基因可以降低翻译效率[34]。宿主细胞通过密码子碱基的组成影响外源基因的表达,也可通过优化密码子来提高基因表达的水平[8]。在不同植物中,最优密码子的种类也存在巨大差异。在单子叶植物中,如水稻OryzasativaL.、玉米ZeamaysL.等通常以G/C 结尾,而拟南芥、烟草等主要以A/T 结尾,也有一些以G/C 结尾的植物,南方菟丝子的高表达基因主要以G/C 结尾[31]。在物种的进化过程中,遗传密码子的偏性逐渐减少,低等植物需要更多的密码子优化,而高等植物的密码子优化较少[30],其主要原因是高等植物的基因表达受到顺式作用元件等多种因素的调控[34]。枸杞的ENC 平均值为48.05~48.06,说明大多数基因在序列水平上表达潜力较低,但也有部分ENC 值高的基因有相对高的组织表达,表明高等植物的基因表达受多种因素调控,由此可知,仅通过ENC 值来预测基因表达水平是不准确的。从3 种枸杞密码子中筛选出71 个最优密码子,其中13 个为共有最优密码子,大部分最优密码子以A 或U 结尾,尤其以A 结尾,这与部分双子叶植物一致,说明高等植物叶绿体基因组的进化相对保守。
研究表明,根据RSCU 值构建聚类分析图可能与其系统发育树不相同。前者只能在一定程度上支持系统分类,而不能真实反映物种的系统发育位置,这种现象一般是因为筛选的RSCU 值缺少CDS 序列的中低偏好密码子信息造成的;而后者包含位点突变和基因组非编码区序列等相关遗传信息,使种间关系更真实可靠。由于叶绿体基因在进化时受到的外界影响较小,因此可用于研究物种进化的进程[8]。物种间的遗传关系越近,密码子的偏性越类似,欧式距离则越小[35]。聚类图可以反映出某些物种的遗传关系在一定程度上与其密码子偏好性有关。聚类结果显示,黄果枸杞和白果枸杞遗传关系较近,单独聚为一类,而中国枸杞则与近缘物种聚为一类,与木兰科(Magnoliaceae)[36]、玉米[37]、番茄[38]等研究结果相似,进一步说明了3 种果色枸杞的遗传关系,也为异源基因表达载体的设计和基因工程的应用和研究提供数据基础。
综上所述,3 种枸杞植物的叶绿体基因组的密码子碱基组成位置特征显示GC1>GC2>GCall_s>GC3;3 种枸杞植物的叶绿体基因组密码子的使用模式主要以A/T(U)碱基结尾;密码子的使用偏好性ENC-plot、PR2-plot 和中性分析显示枸杞植物的密码子使用模式主要受自然选择的影响;最优密码子分析显示枸杞材料共有密码子有13 个;聚类分析表明3 种枸杞的密码子使用存在一些差异,其中黄果枸杞和白果枸杞无明显差异,说明其遗传关系较近。3 种枸杞植物的叶绿体基因组特征为改良枸杞植物重要性状和探究枸杞的系统发育提供基础。
利益冲突所有作者均声明不存在利益冲突