毛立彦,黄秋伟,龙凌云,檀小辉,谢红辉,唐毓玮,丁丽琼
(广西壮族自治区农业科学院 亚热带作物研究所,广西 南宁 530001)
密码子是核酸和蛋白之间遗传信息传递的重要纽带,核酸携带的遗传信息向蛋白质转化过程中是以三联密码子形式传递,每个氨基酸至少对应1个密码子,最多对应6个密码子[1]。在蛋白质合成过程中,除蛋氨酸和色氨酸外,编码相同氨基酸的密码子通常被称为同义密码子[2]。在长期的物种进化过程中,由于受到自然选择、碱基突变、基因漂移、基因组大小、tRNA丰度、基因表达水平等因素的影响,不同物种的同义密码子使用频率在基因内的分布是不均等的[3-4]。通常将一个物种或者一个基因倾向于使用一个或多个特定同义密码子的现象,称为密码子使用偏好性[5]。密码子使用偏好性在自然界普遍存在,与物种之间的系统进化有着密切关系,已有研究表明亲缘关系较远的物种基因组密码子使用偏好性差异较大,每个物种具有的独特密码子使用偏好特征,可作为基因表达的衡量指标,用于预测基因表达水平,是从分子水平上研究物种进化起源和探究物种基因遗传的重要工具[6-7],已在大豆[8]、水稻[9]等模式植物的属内系统进化研究中得到较好的应用。
叶绿体是被子植物完成光合作用所必需的细胞器,具有半自主性遗传体系[10]。与核基因组相比,叶绿体基因组结构简单稳定,拷贝数量多,无重组现象,易于测序和序列组装[11-12],对其基因组或基因的密码子使用偏好性分析常用于植物系统发育、起源进化研究,是植物分子系统发育研究的重要内容[13-14]。近年来,高通量测序技术已被广泛应用于植物基因组的深度测序研究,越来越多的植物叶绿体基因组完成了测序,为基于叶绿体基因组密码子分析的系统进化研究提供了充足的数据库。
睡莲是睡莲科(Nymphaeaceae)睡莲属(Nymphaea)多年生宿根浮叶植物,位于现存被子植物系统发育树基部,是ANITA(amborella,nymphaeales,illiciales,trimeniaceae,austrobaileya)类群的重要成员,其基因组和生物学特点是理解被子植物起源和快速辐射的关键一环,具有重要的发育地位和基础研究价值[15];因其生长迅速、基因组较小、易于繁殖,相较于拟南芥和水稻具花色多样、花香浓郁等特点,可作为被子植物遗传育种、分子系统发育、次生代谢与调控等研究的首选材料之一[16-17]。以睡莲属植物叶绿体和核基因组为对象,研究被子植物起源、早期发育和分类,已成为当前植物系统发育学研究的前沿热点,但关于睡莲叶绿体基因组的密码子偏好性研究尚未见报道。因此,本研究通过对7种睡莲植物(Nymphaeaalbavar.rubra、Nymphaeaalba、Nymphaeaampla、Nymphaeacapensis、Nymphaeajamesoniana、Nymphaealotus和Nymphaeamexicana)叶绿体基因组基因编码序列的密码子使用偏好性进行比较分析,探究其密码子使用偏好性使用规律,及影响其偏好性形成的主要因素,预测共有的最优密码子,并基于7种睡莲叶绿体基因组密码子的RSCU值、CDS序列及全基因组序列分别构建系统进化树,旨在为深入研究睡莲属植物叶绿体基因工程和系统进化研究提供科学参考。
从NCBI数据库分别下载7种睡莲植物(N.albavar.rubra、N.alba、N.ampla、N.capensis、N.jamesoniana、N.lotus和N.mexicana)的叶绿体全基因组序列。为减少误差,对它们的基因编码序列(CDS)进行筛选,筛选条件如下:每条CDS序列碱基总数应为3的整倍数,序列长度≥300 bp;序列中碱基类型仅包含A、T、C、G;每条序列均含有起始密码子(ATG)和终止密码子(TAG、TGA和TAA);序列中间没有终止密码子。同时,剔除重复序列,最终7种睡莲均保留53条CDS序列进行后续分析。
分别对7种睡莲叶绿体基因组中筛选到的53条CDS序列进行分析。通过CodonW软件(http://codonw.sourceforge.net/)和CUSP在线软件(http://imed.med.ucm.es/EMBOSS/)获得各基因的有效密码子数(ENc)、相对同义密码子使用度(RSCU)、密码子适应性指数(CAI),密码子偏好指数(CBI)、最优密码子使用频率(Fop)、密码子总GC含量(GCall),第1、2、3位的GC含量(分别以GC1、GC2、GC3表示)以及同义密码子第3位GC含量(GC3s),并去除编码蛋氨酸、色氨酸的密码子和3个终止密码子数据。为明确7种睡莲叶绿体基因组密码子的使用偏好性规律,以各条CDS序列的ENc值为纵坐标,GC3s为横坐标绘制二维散点图,以密码子使用偏好性完全由碱基突变决定时的预期值作为标准曲线进行ENc-plot分析,标准曲线计算公式为:ENc=2+GC3s+29/[GC3s2+(1-GC3s)2][18];以各条CDS序列的A3/(A3+T3)为纵坐标,G3/(G3+C3)为横坐标作散点图进行PR2-plot分析,散点图的中心位置(当A=T,C=G)代表无偏好性时密码子的使用状态[19];以各条CDS序列的GC1与GC2平均值GC12为纵坐标,GC3为横坐标绘图进行中性绘图分析[20],图中每一个点代表一个基因,若回归曲线系数等于1,说明密码子偏好性完全受碱基突变压力的影响,而回归曲线系数等于0,则表示密码子偏好性完全受自然选择的影响[21];同时,基于7种睡莲叶绿体基因组中各条CDS序列包含的59个密码子(除了编码Met、Trp和3个终止密码子之外的密码子)的RSCU值,分别它们各自的53条CDS序列分布于一个59维向量空间,通过检测和分析各序列在主向量轴上分布的相对位置,推测影响它们的叶绿体基因组密码子使用偏好特征的主要因素[22-23],并依据叶绿体基因组密码子使用偏好情况,将第1轴值与GC3s、ENc、CAI、CBI和Fop进行相关性分析。以上数据处理和统计分析均采用Excel和SPSS软件进行。
为确定7种睡莲叶绿体基因组中共有的最优密码子,参照Tang等[1]的方法首先通过同义密码子RSCU值分析筛选出每种睡莲叶绿体基因组各条CDS序列共有的高频密码子,然后以ENc值为筛选标准进行高低排序,从它们的CDS序列中,选取ENc值最高和最低两端各10%的序列,分别作为基因高表达组和低表达组,然后计算2组序列59个密码子的RSCU值,并计算密码子的△RSCU值表征ENc的差异。以△RSCU=0.08作为临界值,选取△RSCU≥0.08且高表达组RSCU>1的密码子作为高表达优越密码子,同时结合同义密码子RSCU值分析筛选出的高频密码子种类,最终筛选出最优密码子。此外,对7种睡莲进行系统进化关系分析,以它们的叶绿体基因组密码子RSCU值为变量,借助SPSS软件绘制聚类树,并基于其叶绿体基因组的CDS序列和全基因组序列,采用系统邻接法(Neighbor-Joining,NJ)在MEGA软件中分别构建系统进化树[24]。
从表1可知,7种睡莲叶绿体编码基因的GCall含量分为39.30%、39.30%、39.24%、39.34%、39.34%、39.25%和39.27%,密码子中第1、2、3位置的GC含量均小于50%,不同位置GC含量存在差异,第1位碱基含量均最高,第3位碱基含量最低,呈现出GC1>GC2>GC3的趋势,表明7种睡莲叶绿体基因组序列富含A/T碱基,密码子第3位碱基以A/T结尾为主。
表1 7种睡莲叶绿体基因组编码序列的密码子参数特征
在多物种的密码子使用偏好性研究中,有效密码子数(effective number of codon,ENc)常用于描述密码子使用偏离随机选择的程度,可用于评判基因组或基因的密码子使用偏好性强弱,其值在20~61[25]。ENc值越小则表示物种的基因组或基因密码子偏好性越强,反之则该物种的基因组或基因密码子偏好性较弱[26]。前人研究结果[27]表明,当ENc值小于等于35时可推断物种的基因组或基因密码子使用偏好性现象较显著。从表1可知,7种睡莲叶绿体基因组的ENc值分别为40.14~61.00、40.14~61.00、40.55~57.61、39.77~57.61、39.55~57.3、39.56~61.00和40.10~61.00,平均值分别为49.53、49.58、50.12、49.95、49.99、49.97和50.39,均明显大于35,表明叶绿体基因组密码子使用偏好性均较弱。
2.2.1 ENc-plot分析 从图1可知,7种睡莲叶绿体基因组的ENc-plot图相似,部分基因沿标准曲线分布或落于曲线附近,说明它们的ENc实际值与预期值接近,表明其密码子偏好性主要受到碱基突变影响;而部分基因偏离标准曲线,其ENc实际值和预期值之间存在较大差异,说明碱基突变并不是影响其密码子偏好性的主要因素,可能还受自然选择等因素的影响。推测7种睡莲叶绿体基因组密码子偏好性形成可能是碱基突变、自然选择等因素共同作用的结果。
2.2.2 PR2-plot分析 从图2可知,坐标点并非均匀分布在4个区域内,其中主要分布于G3/(G3+C3)>0.5和A3/(A3+T3)<0.5的区域,总体上表现出密码子第3位碱基T的使用频率高于A,G的使用频率高于C。若密码子使用偏好性完全由碱基突变造成,则A/T和G/C的使用频率应是相等的。PR2-plot分析结果表明,7种睡莲叶绿体基因组密码子使用偏好性是碱基突变、自然选择等多种因素共同作用形成的。
2.2.3 中性绘图分析 从图3可知,7种睡莲叶绿体基因组的密码子GC12值分布于34.53~55.04,GC3分布于24.19~40.25,说明密码子第3位碱基使用A/T的频率高于G/C;以GC12和GC3拟合的回归曲线斜率在0.054 3~0.217 5,R2>0,G12值和G3值呈正相关,双尾检验均未达到显著水平(P>0.05),显示两者之间相关性不显著。表明7种睡莲叶绿体基因组密码子第1、2位碱基突变模式不同于第3位,密码子使用偏好性受到自然选择影响要大于碱基突变。此外,N.capensis的回归曲线系数值最接近0,表明其叶绿体基因组密码子偏好性受自然选择影响最大,而N.mexicana的回归曲线系数值距离0最远,其叶绿体基因组密码子偏好性相较于其余6种睡莲受自然选择影响最小。
RSCU值是指某一密码子实际使用频率与其理论预期使用频率的比值,常作为衡量密码子偏好性的重要参数。当RSCU=1时,表示该密码子与其同义密码子的使用频率相等,不存在偏好性。当RSCU>1,表明其密码子使用偏好性强,即认为是高频密码子;而当RSCU<1,表示该密码子的偏好性弱于其他同义密码子[27-28]。从图4可知,7种睡莲叶绿体基因组的59个同义密码子(去除了编码Met的ATG、编码Trp的TGG和3个终止密码子)共有的RSCU>1的高频密码子数29个,第3位碱基以A/T结尾的有27个,占93.10%,说明其叶绿体基因组中高频密码子偏好使用A/T结尾;RSCU值<1的低频密码子有29个,第3位碱基以G/C结尾的有26个,占89.66%,说明其叶绿体基因组中以G/C结尾的密码子出现频率较低。7种睡莲叶绿体基因组的同义密码子RSCU值相似,分别为0.23~1.81、0.36~1.81、0.38~1.86、0.38~1.86、0.37~1.84、0.38~1.85、0.36~1.82。在其叶绿体基因组的同义密码子中,RSCU值最大的密码子为编码精氨酸的AGA,其次为编码丙氨酸的GCT。
生物体叶绿体基因组中使用频率最高的密码子通常被定义为最优密码子,可依据ENc和RSCU来确定[29],其中ENc值用来确定基因表达的相对水平。一般来说,高表达基因密码子使用偏好性较强,ENc值较小;低表达基因含有较多的稀有密码子,ENc值较大[3]。如图5所示,本研究依据7种睡莲叶绿体基因组的密码子RSCU和△RSCU值,从构建的基因高表达和低表达组中,发现它们的高表达优越密码子介于14~17个,其中N.alba和N.capensis的高表达优越密码子数最多(17个),而N.albavar.rubra的高表达优越密码子最少(14个)。结合它们叶绿体基因组中已筛选的29个高频密码子,最终确定共有的最优密码子有4个,分别是GCT(丙氨酸)、TGT(半胱氨酸)、CCT(脯氨酸)和TCT(丝氨酸),密码子第3位均以T碱基结尾。
如图6所示,7种睡莲植物叶绿体基因组的53条基因(CDS序列)分布于以第1个主要因子轴为横坐标、第2个主要因子轴为纵坐标的平面图上,原点代表了所有基因相对于第1轴和第2个轴的RSCU平均值。7种睡莲的前4个主要因子轴在总变异量所占的比值总和分别为60.70%、36.30%、37.56%、59.79%、58.97%、37.42%、58.05%。第1个主要因子轴占总变异量的比值分别为29.07%、10.74%、11.26%、26.18%、28.52%、11.55%、25.98%,可知第1轴对变异的贡献量最大,其余各因子轴的贡献量依次递减,表明7种睡莲叶绿体基因的密码子偏好性特征的形成并非受单因子影响,而是多种因子共同作用的结果。为了研究7种睡莲叶绿体基因组的基因(CDS序列)GC含量对其密码子偏好性的影响,按各基因的总GC含量所在范围进行分类标记,在N.albavar.rubra、N.alba、N.ampla、N.capensis、N.lotus和N.mexicana叶绿体的53条基因(CDS序列)中,GC含量在45%~60%的基因有4个,分别是psbC、rbcL、rps11和rpl16,其余的GC含量均<45%;N.jamesoniana有3个,分别是rbcL、rps11和rpl16;其余的GC含量均小于45%。
为探究7种睡莲叶绿体基因组中影响各基因在平面图上分布情况的因素,分别将第1轴与GC3s、ENc、CAI、CBI和Fop进行相关性分析。从表2可知,N.ampla和N.lotus的GC3s值与第1轴呈极显著相关,N.alba的GC3s值与第1轴呈显著相关;N.ampla和N.lotus的ENc值与第1轴呈显著相关;N.alba和N.ampla的CAI值与第1轴呈显著相关;N.alba的CBI值与第1轴呈极显著相关,N.ampla和N.lotus的CBI值与第1轴呈显著相关;N.alba的Fop值与第1轴呈极显著相关,N.lotus的Fop值与第1轴呈显著相关。这些现象说明,7种睡莲叶绿体基因组密码子偏好性形成过程较为复杂,不同物种的密码子偏好性形成的影响因素不是唯一的。
表2 7种睡莲植物叶绿体基因组密码子参数与第1轴的相关分析
如图7A所示,基于7种睡莲植物叶绿体基因组密码子RSCU值的聚类结果显示,N.ampla、N.capensis、N.jamesoniana和N.lotus等4种睡莲亲缘关系相近归为一类;N.albavar.rubra和N.alba划归一类,而N.mexicana与前6种睡莲亲缘关系较远,单独形成一个分支。图7B为基于叶绿体基因组中CDS序列构建的系统进化树,从图中可知N.mexicana单独形成一个分支,其他6种睡莲形成一个分支,且这6种睡莲的亲缘关系远近与图7A的聚类结果一致,表明编码序列的位点突变特征在生物体进化过程中具有重要作用。而在图7C中,基于叶绿体全基因组序列构建的系统进化树分类结果显示,N.mexicana单独形成一个分支,但其他6种睡莲的亲缘关系远近与图7A和图7B的聚类结果存在较大差异。
基因组中基因发生变异的信息可通过密码子传递到其编码蛋白并体现出来[30]。密码子使用偏好性的现象在生物类群中普遍存在,在自然选择、碱基突变、基因漂移、基因组大小、tRNA丰度、基因表达水平等多种因素的共同作用下,不同物种之间或同一物种基因组内密码子使用频率会存在一定差异[31-32]。分子进化中性学说认为,自然选择和碱基突变对生物体基因组密码子第3位碱基变化的影响大多数是中性或近中性的[33]。已有研究表明,密码子第3位碱基的GC含量(GC3)可作为判断密码子使用偏好性的重要指标[34-36]。在单子叶和双子叶植物中,如果密码子使用偏好性受自然选择影响,则GC3值较小,GC12和GC3之间不存在较显著相关性,则表明它的使用偏好性受自然选择影响较大[37]。在本研究中,7种睡莲植物叶绿体基因组的密码子总GC含量和密码子3个位置上的GC含量均小于50%,且呈现出GC1>GC2>GC3的趋势,叶绿体基因组中A/T碱基所占比例高于G/C,密码子倾向于使用A/T碱基,且第1、2位碱基的组成(GC12)与第3位碱基(GC3)相关性不显著。睡莲是经典的系统进化树基部双子叶植物,7种睡莲叶绿体基因组密码子组成分析结果与茶科[38]、菊科[39]、茄科[40]等双子叶植物叶绿体基因组密码子使用偏好性研究结果一致。推断7种睡莲叶绿体基因组的密码子偏好性特征受到自然选择压力的影响较其他因素大。
同义密码子使用偏好特性是在自然选择、碱基突变等因素共同影响下形成的,正向选择和突变压力越大,基因组中形成的最优密码子越多;反之纯化选择(负选择)影响越大,则最优密码子相对较少[1,30]。依据7种睡莲叶绿体基因组的密码子RSCU值,本研究筛选出它们共有的高频密码子(RSCU值>1)29个,其中以A/T结尾为27个,与云南蓝果树[41]、棉属[2]、大戟科[23]等植物的叶绿体基因组密码子偏好性研究结果相似。此外,本研究从7种睡莲叶绿体基因组中共有的最优密码子仅确定了4个(GCT、TGT、CCT和TCT),推测其叶绿体基因组密码子使用偏好性在纯化选择的范围之内。生物体内基因组密码子使用偏好特征,影响着基因翻译的准确度和效率,从而影响基因表达水平,通常情况下基因表达越高,密码子使用偏好性越强[42],在7种睡莲植物叶绿体基因组中包含有这些最优密码子的基因可能表现出较高的表达水平。有研究表明物种内遗传关系距离与密码子使用偏好特征之间可能存在一定的关系,遗传关系越紧密,密码子使用偏好性越相似[43]。依据生态和形态学分类方法黄国振等[44]将N.ampla和N.capensis归类为日开型热带睡莲生态类型,N.jamesoniana和N.lotus为夜开型热带睡莲生态类型,N.alba及其变种N.albavar.rubra为耐寒睡莲生态类型,而N.mexicana在生态习性和形态上与耐寒睡莲、夜开型热带睡莲具有共同的一些特性,在系统分类上通常单独划分为一支。本研究基于RSCU值构建的聚类树与基于叶绿体CDS序列构建的系统进化树的分类结果,均与睡莲属植物生态和形态学分类结果一致[44],表明7种睡莲植物叶绿体基因组密码子RSCU聚类结果可作为它们系统发育分析的重要补充。而基于叶绿体全基因组的系统进化树分支与前两种分类结果存在差异,推测可能是7种睡莲植物的全基因组大小相差较大,且基因组中含有较多的非编码区序列,影响了基因组间距离计算结果的准确度。