包国媛,祁乐萍,马 娟,杨鑫光,王久利,2
(1.青海民族大学生态环境与资源学院,西宁 810007;2.青海民族大学青藏高原资源化学与生态环境保护国家民委重点实验室,西宁 810007)
蚕豆(Vicia faba.L)在世界豆类中占有重要地位,具有较高的食用价值.蚕豆果实富含淀粉和蛋白质,氨基酸种类齐全,还含有丰富的矿物质镁、磷、硒等,同其他植物性食物相比,蚕豆中脂肪含量较少且可提供人体生活所需的多种元素.传统医学认为蚕豆具有健脾、降血脂的功效,蚕豆叶可用于止血和解毒[1].蚕豆由于具有较高的单宁和Vc 含量,其营养水平和加工品质受到一定程度的限制.农业生产上通过育种可提高蚕豆的营养价值[2],常用育种方法有纯合品系法、人工杂交育种、生态育种等,目前研究发现,线粒体和叶绿体工程育种也是可行的途径[3-4].
叶绿体和线粒体都是绿色植物细胞中的半自主细胞器[4],具有能量转化的功能[5],在遗传上都具有相对独立的稳定性,含有少量DNA,并且与细胞质遗传有关,具有能独立遗传的基因组.与其他细胞器相比,叶绿体基因组相对较小,通常只有几十至几百个基因[6],叶绿体基因组在进化过程中的变化速率相对较快,但也具有较高的结构保守性[7]. 线粒体基因组具有重排进化快、叶绿体DNA 插入等结构特点[8].相对于植物全基因组和叶绿体基因组,植物线粒体基因组的密码子使用模式研究尚不充分[9].近年来细胞器基因组的密码子使用情况引起了广泛关注,已针对石竹属(Dianthus)[10]、苹果属(Malus)[11]、玉兰属(Yulania)[12]、癞屑化松萝(Usnea lapponica)[13]、莴苣(Lactuca sativa)[14]等进行了深入研究.密码子是自然界中遗传信息准确识别和传递的基本载体[15],编码同一种氨基酸的密码子称为同义密码子(synonymous codon)[16],在遗传和变异的过程中密码子偏好性在自然界中起着重要作用[15].在蛋白质翻译过程中,每个氨基酸对应的某一同义密码子的使用频率高于其他同义密码子的使用频率,即为密码子偏好性(codon usage bias)[17].翻译过程中,每个氨基酸相对应同义密码子的使用频率不同,物种存在着自身特有的进化方式,根据该方式偏向于使用某一特定密码子,从而形成该物种特有的使用模式[18],密码子使用模式会影响特定基因的表达水平和功能[19].密码子偏性强,说明该物种趋向于使用特定的密码子,这可能会导致其生物体中的某些基因具有更高的表达水平.由于特定密码子在翻译过程中的结合能力更强,因此它们在翻译过程中的翻译速率和效率也更高,可能会导致更高的表达水平[20].随着测序技术的不断发展,许多生物的基因组序列逐渐被揭示出来.对这些序列进行分析,结果表明生物的密码子使用模式受多种因素的影响,包括碱基突变、自然选择等[19,21].在长时间的进化过程中,这些因素可能会导致一些物种出现密码子偏好性的变化,从而影响到相关基因的表达和功能.因此,深入研究密码子的使用规律对于理解生物进化和遗传的调控机制具有重要意义.
本研究对蚕豆线粒体和叶绿体基因组密码子的使用模式及使用偏好性进行了比较和分析,筛选出最优密码子.研究旨在为蚕豆线粒体和叶绿体基因组研究提供参考,并有助于优化其基因表达和工程设计.
从NCBI 数据库(https://www.ncbi.nlm.nih.gov)中下载蚕豆线粒体基因组和叶绿体基因组序列(GenBank登录号分别为KC189947.1 和KF042-344.1[22]),基因组序列全长分别为588 000 bp 和123 722 bp.为了提高密码子偏好性分析的准确性,从完整序列中提取编码序列(coding sequence,CDS)或开放阅读框(open reading frame,ORF),剔除长度小于300 bp 的序列,保留重复基因中的一个,去除非ATG 作为起始密码子的序列,删掉异常终止密码子和CDS 内部存在终止密码子的序列. 将筛选后得到的线粒体基因组的129 个CDS(或ORF)和叶绿体基因组的49 个CDS 序列作为后续分析的样本.
分别将符合条件的序列整合到一个fasta 文件中,利用Codon W 1.4.2 软件和CUSP 在线软件对筛选后的蚕豆CDS 序列进行分析,根据perl 脚本计算每个基因的密码子数量(codon number,CN)、GC 含量(分别为GC1、GC2、GC3、GC3s)及3 位碱基的GC 平均含量(GCall)、有效密码子数(effective number of codon,ENC)、同义密码子相对使用度(relative synonymous codon usage,RSCU).采用SPSS 18.0 软件对密码子偏好性相关参数进行相关性分析.
以蚕豆细胞器基因组GC1和GC2的平均值(GC12)为纵坐标,以GC3为横坐标绘制散点图,其中每个散点代表1 个基因,以此判断密码子使用偏好性受自然选择和突变压力影响的程度[23].若GC3与GC12呈显著相关关系,说明碱基组成无差异,突变是其主要影响因素;反之则说明基因组中GC 含量有较高保守性,自然选择对密码子使用偏好性有较大影响[24].
表1 ENC 比值分布表Tab.1 Distribution of ENC ratio
ENC-plot 绘图分析包含散点图和标准曲线,其中,标准曲线代表无选择压力存在时密码子偏好性完全由突变决定,即完全由核酸序列组成决定密码子偏性[25]. 根据公式(1)计算ENC 期望值(ENCexp),以GC3为横坐标、ENCexp为纵坐标绘制标准曲线.根据公式(2)计算ENC 比值,可以更直观地判断密码子偏性的主要影响因素.ENC 的取值范围为20~61,数值越接近20 偏性越强,ENC 值为61 时说明每个密码子被均匀使用[26].
式(2)中:ENCobs为ENC 实际值.
分析各密码子第3 位上的A、T、C、G 含量,以G3/(G3+C3)为横坐标、A3/(A3+T3)为纵坐标进行PR2-plot分析,衡量第3 位碱基组成的使用偏性.当第3 位碱基使用频率A=T、C=G 时,密码子无使用偏性;若偏离中心,由中心点(A=T,G=C)发出的矢量表示该密码子偏移的程度和方向[27].
以蚕豆每个基因的ENC 值为参考,分别从两端各选取10%的基因建立高低偏性库,将高低偏性库之间同义密码子相对使用度的差值(ΔRSCU)≥0.08 的密码子作为高表达密码子,将RSCU 值>1 的密码子作为高频密码子,同时满足上述2 个条件的定义为最优密码子[28].
使用Codon W 1.4.2 和CUSP 软件分析蚕豆线粒体基因组密码子偏性相关参数,结果发现,考虑所有ORF 时,所有CDS 密码子的平均GC 含量为46.48%,GC1、GC2、GC3、GC3s 的GC 含量分别为48.89%、45.12%、45.43%、45.63%;不考虑所有ORF 时,所有CDS 密码子的平均GC 含量为42.55%,GC1、GC2、GC3、GC3s 的GC 含量分别为47.25 %、42.51%、37.89%、38.14%. 对叶绿体基因组密码子偏性相关参数进行分析,结果发现,所有CDS 密码子的平均GC 含量为37.16%,GC1、GC2、GC3、GC3s 的GC 含量 分 别为46.11%、38.27%、27.10%、7.07%.由此可知,蚕豆细胞器基因组的GC 含量均小于50%.共有146 条序列的ENC >45,其中,线粒体121 条,叶绿体25 条.线粒体ENC 的平均值为53.75,介于40.40~61.00 之间;叶绿体ENC 的平均值为45.06,介于38.11~51.65 之间.
对蚕豆细胞器基因组中的密码子参数进行相关性分析,结果如图1 所示.
图1 密码子各位置GC 含量、数量与ENC 的相关性Fig.1 Correlation analysis of GC content,quantity and ENC value at each codon location
由图1(a)可知,蚕豆线粒体基因组的GCall与GC1、GC2、GC3极显著相关(P<0.01),GC1与GC2、GC3极显著相关(P<0.01),GC2与GC3极显著相关(P<0.01);ENC 与GC1极显著相关(P<0.01),与GC2不相关(P>0.05),与GC3显著相关(P<0.05),说明ENC 与密码子第1 位碱基组成密切相关,与密码子数不相关,即基因序列长度对密码子使用偏好性的影响很小.由图1(b)可知,蚕豆叶绿体基因组的GCall与GC1、GC2、GC3极显著相关(P<0.01),GC1与GC2极显著相关(P<0.01),GC1与GC3相关性不显著(P>0.05),GC2与GC3相关性不显著(P>0.05);ENC 与GC3极显著相关(P<0.01),ENC、GC1、GC2、GC3、GCall与密码子数的相关性均不显著(P>0.05).这些结果表明,蚕豆线粒体和叶绿体基因组密码子的使用偏好性受到GC 含量、ENC 和密码子第1 位碱基的影响.其中,蚕豆线粒体基因组密码子的使用偏好性与GC 含量密切相关,而叶绿体基因组密码子的使用偏好性则与ENC 和GC3密切相关.
蚕豆细胞器RSCU 分析结果如图2 所示. 由图2可以看出,无论是线粒体基因组还是叶绿体基因组,RSCU 最大的密码子均为编码亮氨酸Leu 的UUA,RSCU 最小的密码子也均为编码亮氨酸Leu 的CUG.虽然2 个基因组的同义密码子RSCU 略有不同,但是差异不大. 除了编码甲硫氨酸Met 的AUG 和编码色氨酸Trp 的UGG 外,其他氨基酸都有多个密码子. 其中,线粒体有29 个密码子RSCU >1,以A/U 结尾的各23 个,C/ G 结尾的有6 个;叶绿体有30 个密码子RSCU >1,以A/U 结尾的有29 个,C/ G 结尾的有1个,表明蚕豆细胞器基因组更偏好以A 和U 结尾.
图2 蚕豆细胞器各氨基酸的RSCU 分析Fig.2 RSCU analysis of amino acids in organelles of V.fabca
蚕豆细胞器基因组各基因的中性绘图分析结果如图3 所示.由图3(a)可以看出,蚕豆线粒体基因组中,GC12的取值范围为35.91%~61.17%(若不考虑ORF 则为36.81%~51.84%),GC3的取值范围为27.78%~64.29%(若不考虑ORF 则为34.59%~61.03%).GC12与GC3之间的相关系数为0.374,回归系数为0.255,相关性不显著,表明蚕豆线粒体基因组密码子第1、2 位碱基的突变模式不同于第3 位的突变模式,密码子使用偏性受自然选择影响要大于碱基突变.由图3(b)可以看出,蚕豆叶绿体基因组中,GC12的取值范围为32.32~53.6,GC3的取值范围为19.51~34.61.GC12与GC3之间的相关系数为0.145,回归系数为0.327,相关性也不显著.所有基因也落于对角线上方,说明GC12和GC3两个变量之间的相关性很弱,细胞器基因组中密码子第3 位的GC 含量较低,密码子偏好性主要受自然选择的影响.
图3 中性绘图分析Fig.3 Neutral plot analysis
蚕豆线粒体和叶绿体基因组的ENC-plot 分析结果如图4 所示.
图4 ENC-plot 绘图分析Fig.4 Analysis of ENC-plot
由图4 可以看出,与线粒体基因组相比,叶绿体基因组的部分基因与标准曲线距离较远,说明线粒体基因组的ENC 实际值和预期值要比叶绿体基因组更接近,意味着线粒体基因组密码子偏好性更易受到碱基突变影响;而叶绿体基因组中大部分基因偏离标准曲线,即ENC 实际值和预期值之间存在较大差异,说明叶绿体基因的碱基突变并不是影响密码子偏好性的主要因素,可能还受自然选择等因素的影响.对于蚕豆线粒体基因组,大多数基因偏离标准曲线,ENC 比值分布在[-0.05,0.05)区间外的基因多达86 个(表1).对于蚕豆叶绿体基因组,大多数基因也偏离标准曲线,ENC 比值分布在[-0.05,0.05)区间之外的基因多达41 个(表1),这些基因与ENC 预期值较远,同线粒体基因组相比,叶绿体基因组更易受到自然选择的影响.虽然线粒体基因组部分基因要比叶绿体基因组更易受到碱基突变的影响,但总体来说蚕豆细胞器密码子偏好性的影响因素还是以自然选择为主,受碱基突变的影响较弱.
利用PR2-plot 分析蚕豆细胞器基因组密码子偏好性的影响因素,结果如图5 所示.
图5 PR2-plot 绘图分析Fig.5 PR2-plot plot analysis
如果密码子偏好性完全受突变而不是受选择的影响,那么4 种碱基的使用频率均衡.由图5 可以看出,蚕豆线粒体和叶绿体中各基因不均匀地分布在4个不同区域.
蚕豆线粒体基因组总体表现为密码子第3 位碱基在使用频率上T >A、G >C,表明线粒体基因组密码子使用偏好性受碱基突变、自然选择等多种因素共同影响.叶绿体基因组中大部分基因位于平面图的下半部,尤其是右下区域的基因最多,说明在碱基使用频率上U >A、G >C,表明选择对密码子使用偏好性的影响比随机漂移更为显著.由此可见,在诸多影响因素当中,蚕豆基因组密码子偏好性不仅受到了选择的影响,同时也受到了突变的影响.
通过Codon W 1.4.2 软件构建蚕豆线粒体和叶绿体的高表达基因库和低表达基因库,计算2 个基因库中的RSCU 值,结果如表2 所示.由表2 可知,高表达基因库和低表达基因库中的RSCU 值存在差异.其中,蚕豆细胞器基因组共有47 个密码子的ΔRSCU≥0.08,将这47 个密码子均认定为高表达的优越密码子(表中以*、**或***标注).在高表达基因库中,线粒体基因组的优越密码子以A/U 结尾的有17 个,以C/G结尾的有9 个;叶绿体基因组的优越密码子以A/U 结尾的有15 个,以C/G 结尾的有6 个.蚕豆细胞器基因组的密码子中共有39 个既满足高频率也满足高表达的条件,可视为最优密码子,其中,叶绿体16 个,线粒体23 个,在最优密码子中仅有GUA 为线粒体和叶绿体共有的最优密码子.
密码子偏好性是生物基因组进化的一个重要特征,它与GC 含量、tRNA 丰度、基因表达水平和蛋白质结构等因素相关[29]. 研究密码子偏好性有利于阐明生物进化关系,提高基因表达效率[30].在影响密码子偏好性的诸多因素中,突变和自然选择为主导因素,自然选择可使植物在翻译中优先编码最优密码子,突变会导致植物中出现部分非偏好性密码子[31-32].密码子第3位碱基的同义突变虽不会影响所编码的氨基酸,但仍被认为是决定氨基酸类型的重要特征,对研究密码子偏好性具有重要意义[33].本研究中蚕豆细胞器CDS 的GC 含量在密码子的不同位置呈现不同的分布频率,第1 位、第2 位的GC 含量均大于第3 位的GC 含量,线粒体基因组的GC 含量大于叶绿体基因组的含量,且大多数碱基都偏好以T(U)/A 结尾,表明蚕豆线粒体基因比叶绿体基因的第3 位碱基更偏向以A/T(U)结尾,这与同科植物蒺藜苜蓿(Medicago truncatula)[34]和紫花苜蓿(Medicago sativa)[8]以及茄科(Solanaceae)[35]等高等植物的密码子3 个位置GC 含量的比较趋势一致.在密码子第3 位碱基的使用上,还表现出T 的使用频率高于A 的频率,并且G 的使用频率高于C 的频率,这种偏好特征与籼稻(Oryza sativa)[36]和籽粒苋(Amaranthus hypochondriacus)[37]一致,说明蚕豆细胞器基因组密码子的使用受到了自然选择的影响.
采用中性绘图分析显示,蚕豆细胞器GC12和GC3之间的相关性较弱,密码子第1、2 位碱基的突变模式与第3 位不同,说明蚕豆细胞器基因组密码子使用模式主要受自然选择的影响,且叶绿体基因组更易受到选择影响.ENC-plot 分析发现蚕豆细胞器的大部分基因偏离标准曲线,ENC 实际值和预期值之间存在较大差异,说明碱基突变并不是影响其密码子偏好性的主要因素,可能还受自然选择等因素的影响. 采用PR2-plot 分析蚕豆细胞器基因组密码子的偏好性,发现只有少部分基因的密码子偏性是由突变主导,而更多的受自然选择影响,且密码子偏好性较弱. 线粒体基因组总体表现出密码子第3 位碱基使用频率上T >A、G >C,表明线粒体基因组密码子使用偏好性更易受碱基突变、自然选择等多种因素共同影响. 这与玉米(Zea mays)[38]、大豆(Glycine max)[9]、金柑(Fortunella japoonica)[39]等植物的研究结果一致.意味着在这些植物的进化过程中,自然选择通过调控密码子的使用来优化基因表达,这在植物进化中十分普遍. 杨树(Populus przewalskii)[40]和拟南芥(Arabidopsis thaliana)[41]中叶绿体基因组密码子偏好性则主要受突变的影响,表明不同植物密码子偏好性的影响因素也不相同.
本研究基于RSCU 和ENC 值筛选出蚕豆线粒体基因组与叶绿体基因组最优密码子分别为23 个和16个,密码子偏性较弱,且最优密码子以NNA 或NNU模式为主,可以优先选用以A 或U 碱基结尾的最优密码子提高外源基因的表达率.分别计算蚕豆细胞器基因组的129 条和49 条基因的RSCU 值,线粒体有29个密码子的RSCU >1,叶绿体有30 个密码子的RSCU >1,这与张扬等[14]和李显煌等[42]的研究结果一致.比较基因组的ENC 值,线粒体ENC 的平均值为53.75,叶绿体ENC 的平均值为45.06,线粒体基因组的值要高于叶绿体基因组,说明蚕豆叶绿体基因组所有基因编码序列的密码子使用偏好性比线粒体强.此研究结果为后续蚕豆遗传多样性分析和蚕豆品种选育提供了科学依据,通过分析蚕豆细胞器基因组的密码子偏好性,可以更好地了解蚕豆基因的表达规律,为育种提供更适合的方向和策略.