洪森荣,张牧彤,徐子林,张钦荣,罗雨欣,田文慧,王心雨
(1.上饶师范学院 生命科学学院,江西 上饶 334001;2.上饶农业技术创新研究院,江西 上饶 334001;3.上饶师范学院 上饶市药食同源植物资源保护与利用重点实验室,江西 上饶 334001;4.上饶师范学院 上饶市薯芋类作物种质保存与利用重点实验室,江西 上饶 334001)
叶绿体是高等植物细胞内一种重要的与光合作用和物质代谢相关的细胞器,叶绿体基因组是一套具有母系遗传特征的独立基因组,是高等植物细胞质基因组的组成成分之一[5]。与核基因组相比,叶绿体基因组全长序列短、易测序获得、基因直系同源、基因结构稳定、保守性较高、进化速率适中,目前已经广泛应用于植物系统发育分析、物种分类鉴定及分子标记开发等研究中,在物种起源、进化、演变及比较基因组学等研究领域发挥着越来越大的作用[6]。密码子是核酸和蛋白质之间遗传信息传递的桥梁[7],mRNA 上的遗传信息以tRNA 三重密码子传递。氨基酸一般对应≥1 的密码子[8],这些密码子称为同义密码子[9]。在自然选择或突变偏好的情况下,基因倾向于使用≥1 的同义密码子,即同义密码子使用偏好性[10-12]。目前,关于茄属的叶绿体基因组研究已有报道[13-19],而针对‘怀玉山’高山马铃薯的研究大多集中在基因克隆[20]、转录组分析[3]、遗传多样性[4]、脱毒快繁[2]、DNA 甲基化敏感扩增多态性(MSAP)分析[21]等方面,对‘怀玉山’高山马铃薯叶绿体全基因组及其密码子使用偏好性方面的研究还未见系统报道。本研究通过对‘怀玉山’高山马铃薯叶绿体基因组进行测序和组装,分析基于叶绿体基因组的‘怀玉山’高山马铃薯系统进化、结构解析和密码子偏好性等,为‘怀玉山’高山马铃薯叶绿体基因组研究和应用提供科学依据,也为进一步研究‘怀玉山’高山马铃薯遗传背景、种质资源保护与开发利用奠定基础。
由上饶市薯芋类作物种质保存与利用重点实验室提供的‘怀玉山’高山马铃薯试管苗。
1.2.1 DNA 提取和测序 选取‘怀玉山’高山马铃薯(MLS)试管苗叶片组织,利用植物基因组DNA 提取试剂盒(北京天根生化科技有限公司)提取‘怀玉山’高山马铃薯试管苗DNA,质量分数为1%琼脂糖凝胶电泳检测DNA 的完整性,NanoDrop 2000 分光光度计(Thermo Scientific 公司)检测 DNA 浓度和纯度,用超声波将DNA 片段化,然后对片段化的DNA 进行片段纯化、末端修复、3′端加A、连接测序接头,再用琼脂糖凝胶电泳进行片段大小选择,进行聚合酶链式反应(PCR)扩增形成测序文库。建好的文库先进行文库质检,质检合格的文库用BGISEQ-500 平台进行测序。
1.2.2 叶绿体全基因组的组装与注释 通过SOAPnuk 1.3.0 对raw data (测序下机的原始数据)进行数据过滤,去除其中的接头序列及低质量reads (高通量测序中一个反应获得的测序序列),获得高质量的clean data (对原始数据进行过滤后并剔除了低质量数据的剩余数据)。采用Noveplastys 软件组装叶绿体基因组核心模块,以起始组装序列为起点开始组装叶绿体contigs (很多reads 根据序列拼接在一起拼出的片段),如果contigs 未环化,则利用CAP 3 软件连接多个contigs 为完整叶绿体基因组,并手动调整环状叶绿体基因组起始位置。使用GeSeq、tRNAscan-SE 对叶绿体基因组进行注释,再经过手工校正后得到最终的基因注释结果。将注释完成的‘怀玉山’高山马铃薯叶绿体基因组序列提交至美国国家生物信息中心(NCBI),获得登录号:OP589401。使用OGDRAW 绘制叶绿体基因组图谱。
1.2.3 叶绿体基因组特征分析 通过JSHYCloud 在线工具集分析并统计叶绿体基因组、大单拷贝区(LSC)、小单拷贝区(SSC)和反向重复区(IR)的鸟嘌呤和胞嘧啶所占的比例(GC 比例);使用MISA 软件进行简单重复序列(SSR)分析,单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸的最小重复值分别设置为10、6、5、5、5、5;利用REPuter 软件进行长重复序列(longrepeat)分析,查找正向重复(F)、反向重复(R)、互补重复(C)、回文重复(P)等4 种重复类型;通过Pasteur Galaxy 在线工具集中的CodonW 模块分析密码子使用情况,设置输出结果为有效密码子数(ENC)和相对同义密码子使用频率(RSCU),其他参数设为默认值。将‘怀玉山’高山马铃薯叶绿体基因组序列上传至美国国家生物技术信息中心(NCBI) 进行BLASTn 比对,选择highly similar sequence (megablast)比较相似性在95 %以上的序列,检索获得‘怀玉山’高山马铃薯的近缘种。利用Gview、VISTA tools、IRscope 和DNADnaSP 6.0 软件绘制‘怀玉山’高山马铃薯及其10 个近缘种(S.cochoaeNC_062512、多毛番茄S.habrochaitesNC_026879、潘那利番茄S.pennelliiNC_035742、S.bukasoviiMT120867、S.bolivienseNC_062870、S.trisectumNC_062469、S.salamancaeNC_062480、S.clivorumNC_062513、S.mortoniiNC_062426、S.insanumMW384851)的变异圈图、mVIST 结构变异图、IR 结构变异图,计算‘怀玉山’高山马铃薯及其10 个近缘种的基因组核酸多样性(Pi),参数设置100 bp 滑窗,25 bp 的步长,并进行中性绘图分析(GC3-GC12 分析)、ENC-plot 分析、PR2-bias-plot 分析和最优密码子分析;对‘怀玉山’高山马铃薯叶绿体基因的ENC 进行排序,分别选取两端基因各5 个,构建高表达基因库(ENC 小)和低表达基因库(ENC 大),并计算两者的RSCU 差值(ΔRSCU)。筛选ΔRSCU≥0.08 的高表达密码子,且将RSCU>1.00 的高频率密码子定义为‘怀玉山’高山马铃薯叶绿体基因组的最优密码子;最后利用mafft 7.0 和fasttree 2.1.10 软件分别对‘怀玉山’高山马铃薯和18 个近缘种以及烟草属Nicotiana2 个外类群物种进行序列比对和构建进化树。
经过测序组装的完整的叶绿体基因组长度为155 296 bp,图1 显示:‘怀玉山’高山马铃薯叶绿体基因组呈典型的四分体结构,包含1 个LSC、1 个SSC 和2 个将LSC 与SSC 分隔开的IR (IRa 和IRb)。基因组的总GC 比例为37.88%,A、T、C、G 比例分别为30.65%、31.47%、19.24%、18.65%。LSC、SSC 和IR 的长度分别为85 737、18 373、25 593 bp。LSC 的GC 比例为36.01%,A、T、C、G 比例分别为31.29%、32.70%、18.40%、17.61%;SSC 的GC 比例为32.09%,A、T、C、G 比例分别为33.78%、34.14%、16.69%、15.40%;IRb 的GC 比例为43.10%,A、T、C、G 比例分别为28.57%、28.33%、20.72%、22.39%;IRa 的GC 比例为43.10%,A、T、C、G 比例分别为28.33%、28.57%、22.39%、20.72%。表明‘怀玉山’高山马铃薯IR 的GC 比例最大,LSC 次之,SSC 最少;叶绿体基因组总GC 比例显著低于AT 比例;叶绿体基因组各碱基比例从大到小依次为T、A、C、G。
图1 ‘怀玉山’高山马铃薯叶绿体基因组图谱Figure 1 Chloroplast genome map of S.tuberosum var.cormosus ‘Huaiyushan’
叶绿体基因组共注释到光合作用基因、自我复制基因、其他基因和未知功能基因4 类,包括87 个编码区(CDS)基因、37 个tRNA 基因、8 个rRNA 基因、1 个假基因,共133 个基因。对有多个外显子的叶绿体基因进行结构分析,由2 个外显子构成的基因有21 个,包括13 个CDS 基因和8 个tRNA 基因;由 3 个外显子构成的基因有4 个,为clpP1、ycf3、rps12 (2 个)基因。LSC 的基因数量最多(81 个),其中CDS 基因59 个、tRNA 基因22 个;SSC 的基因数量为11 个,其中CDS 基因10 个、tRNA 基因1 个;IR 的基因数量为17 个,其中CDS 基因6 个、rRNA 基因4 个、tRNA 基因7 个;SSC 与IRb 边界(JSB)的基因数量为2 个(ndhF和ycf1);LSC 与IRb 边界(JLB)的基因数量为1 个(rps19);SSC 与IRa 边界(JSA)的基因数量为2 个(ycf1);LSC 与IRa 边界(JLA)的基因数量为0。rps12 有2 个拷贝,每个拷贝具有3 个外显子,且2 个拷贝共享第1 个外显子,第1 个外显子位于LSC,另外2 个外显子位于IR (表1)。
表1 ‘怀玉山’高山马铃薯叶绿体基因功能分类Table 1 Chloroplast gene functional classification of S.tuberosum var.cormosus ‘Huaiyushan’
叶绿体基因组中共检测到38 个SSR 位点,其中,单碱基重复有36 个,双碱基重复有2 个。其中,重复单元为A/T,重复频率为10 的SSR 位点数量最多(18 个),重复频率为11 的SSR 位点数量次之(11 个);重复单元为AT/AT、重复频率为6 的SSR 位点数量为2 个。
四川大学陈剑等[11]从酱香型酒糟中筛选得到1株耐酸产酯细菌ZP-28,此株细菌具有显著耐高温耐酸特性,且酯化力较高,将其应用在麸曲中具有明显改善麸曲品质的作用。本课题在此基础上以该菌株为研究对象,采用分子生物学方法对其进行鉴定,并利用活菌计数法和分光光度法两种不同的方法测定其生长曲线,采用单因素实验考察了温度、培养时间、接种量等培养条件对酯化力的影响,并在此基础上采用正交法对上述发酵条件进行了优化,对改进制曲工艺,提高白酒酯香提供了一定的理论依据。
叶绿体基因组共鉴定到32 个长重复序列,包括16 个正向重复(15 个30~39 bp,1 个40~49 bp),16 个回文重复 (13 个30~39 bp,2 个40~49 bp,1 个50~59 bp),无反向重复和互补重复。
‘怀玉山’高山马铃薯及其10 个近缘种叶绿体基因组结构从LSC 中间呈线性展开,均由1 个LSC、1 个SSC 和2 个IR (IRa 和IRb) 4 部分组成。‘怀玉山’高山马铃薯及其10 个近缘种rpl22、rps19、rpl2、ycf1、ndhF、trnH和psbA位置基本一致,但收缩和扩张的长度存在一些差异(图2)。
图2 ‘怀玉山’高山马铃薯及其10 个近缘种叶绿体基因组大单拷贝区、小单拷贝区和反向重复区边界位置的比较Figure 2 Comparison on the boundary locations of large single copy region, small single copy region and inverted repeat region in chloroplast genomes of S.tuberosum var.cormosus ‘Huaiyushan’ and its 10 related species
‘怀玉山’高山马铃薯及其10 个近缘种叶绿体基因组核苷酸多样性的变化范围为0~0.139 27,高变区主要分布在LSC 和SSC。LSC 的trnL-UAA-trnF-GAA、cemA、rps12-exon1-clpP1、clpP1 基因变异率最高;SSC 的rpl32-trnL-UAG、ycf1 基因变异率最高。
2.7.1 同义密码子的偏性分析 叶绿体基因组87 个CDS 基因密码子3 个位置GC 比例的平均值为38.38%,GC1、GC2、GC3 分别为45.98%、39.55%、29.60%,这说明GC 在密码子3 个位点上的分布存在显著差异,只有GC2 与平均GC 大致接近(图3)。ENC 是密码子偏性分析的重要指标,通常将35 作为区分值来评估密码子偏倚的强度。叶绿体基因组87 个CDS 基因的平均ENC 为47.29,ENC>45 的基因有60 个,ENC>35 的基因有83 个,有4 个基因的ENC<35,这表明叶绿体基因组的密码子偏性较弱。通过SPSS 20.0 进行相关性分析,结果表明:密码子总GC 比例(GCall)与GC1、GC2 在0.01 水平上均存在极显著的正相关,GCall 与GC3 在0.05 水平上显著相关;GC1 与GC2 在0.05 水平上存在显著正相关,但两者均与GC3 不相关。这表明叶绿体基因组密码子前2 位的碱基组成相似,而与第3 位不相似。ENC 与GC1、GC2、GC3 均不相关,说明密码子上第1 位、第2 位和第3 位的碱基组成对ENC 没有显著影响。叶绿体基因组 87 个CDS 基因序列共有31 个RSCU>1 的密码子。在这31 个密码子中,除AUG、UUG 外,其余都以A、U 结尾,表明A、U 碱基在密码子最后位点上出现的频率最高。‘怀玉山’高山马铃薯叶绿体基因组密码子偏好以A、U 结尾(表2)。
表2 ‘怀玉山’高山马铃薯叶绿体基因组同义密码子的使用频率Table 2 Relative synonymous codon usage (RSCU) of chloroplast genome of S.tuberosum var.cormosus ‘Huaiyushan’
图3 ‘怀玉山’高山马铃薯及其10 个近缘种叶绿体基因组密码子组成成分分析Figure 3 Composition analysis of chloroplast genome codons of S.tuberosum var.cormosus ‘Huaiyushan’ and its 10 related species
2.7.2 GC3-GC12 分析 分析发现:‘怀玉山’高山马铃薯及其10 个近缘种植物叶绿体基因的GC3 比例分布为0.142 9~0.443 2,GC12 比例分布为0.285 7~0.658 5,两者大多沿对角线上方分布。两者的相关系数(r)为0.110 1 (R2=0.012 1),相关不显著(P>0.05),回归斜率为0.117 5,说明GC12 与GC3 不相关(图4A)。表明‘怀玉山’高山马铃薯叶绿体基因组密码子使用偏性很大程度上受自然选择的影响,而受突变压力的影响小。
图4 ‘怀玉山’高山马铃薯及其10 个近缘种叶绿体基因组密码子GC3-GC12 分析(A)、ENC-plot 分析(B)和PR2-plot 分析(C)Figure 4 GC3-GC12 analysis (A), ENC-plot analysis (B) and PR2-plot analysis (C) of chloroplast genome codons of S.tuberosum var.cormosus‘Huaiyushan’ and its 10 related species
2.7.3 ENC-plot 分析 分析表明:分布在期望曲线上或曲线附近的基因较少,分布在期望曲线下方且远离曲线的基因较多,说明大部分基因的实际ENC (ENCobs)与理论ENC (ENCexp)存在差异。为了解实际ENC 和理论ENC 的差异度,计算了‘怀玉山’高山马铃薯ENC 比值频数,即(ENCexp-ENCobs)/ENCexp。结果表明:‘怀玉山’高山马铃薯叶绿体基因组基因中,有16.47%(14 个)的基因分布在0~0.1 区间,分布于期望曲线上或曲线附近,即ENCobs 接近于ENCexp 值,有83.53%的基因分布在0~0.1 区间外,远离期望曲线分布,即ENCexp 和ENCobs 相差较大,表明自然选择是影响‘怀玉山’高山马铃薯叶绿体基因组密码子使用偏性的主要因素,而突变压力的作用较小(图4B)。
2.7.4 PR2-plot 分析 分析表明: A3/AU3 轴、G3/GC3 轴均以0.5 为界限,发现4 个平面内基因分布不均衡。从G3/GC3 轴看,多数基因位于上方(>0.5),少数基因位于下方(<0.5);从A3/AU3 轴看,多数基因位于左侧(<0.5),少数基因位于右侧(>0.5)。这表明4 种碱基在同义密码子第3 位上存在C>G、T>A 现象(图4C)。当密码子使用存在偏性完全受突变压力影响时,C 和G 以及A 和T 同义密码子在第3 位上的分布应相等。因此,‘怀玉山’高山马铃薯叶绿体基因组密码子使用偏性主要受自然选择等因素影响。
2.7.5 最优密码子确定 RSCU 分析可知:同时满足RSCU>1 和ΔRSCU≥0.08 的密码子共10 个,即CGU、AAA、CUU、GUU、GGA、GUA、GGU、UCA、GCU、CCU,这些密码子都以A、U 结尾,被确定为‘怀玉山’高山马铃薯叶绿体基因组的最优密码子(表3)。
表3 ‘怀玉山’高山马铃薯叶绿体基因最优密码子筛选Table 3 Optimal codon screening of chloroplast genome of S.tuberosum var.cormosus ‘Huaiyushan’
基于‘怀玉山’高山马铃薯和18 个近缘种以及烟草属2 个外类群物种叶绿体基因组构建的系统发育树分析可知:茄属聚为一大类,烟草属聚为另一大类。在茄属中,MLS 与S.tuberosumNC_008096(‘Ddeiree’)聚为一小分支。说明‘怀玉山’高山马铃薯与S.tuberosum‘Ddeiree’亲缘关系较近,两者同源(图5)。
图5 基于叶绿体基因组的‘怀玉山’高山马铃薯及其18 个近缘种的系统发育树Figure 5 Phylogenetic tree of S.tuberosum var.cormosus ‘Huaiyushan’ and its 18 related species based on chloroplast genome
叶绿体基因组结构保守、独立母系遗传,是被子植物基因组的重要组成部分,广泛用于被子植物的生长发育、类群分析和进化分析[22]。被子植物叶绿体基因组大小一般为120~180 kb,IR 大小一般为20~30 kb[23-24]。在本研究中,‘怀玉山’高山马铃薯叶绿体基因组长度和IR 长度分别为155 296 和25 593 bp,与S.tuberosum‘Shepody’[16]叶绿体基因组长度和IR 长度一致,与其他马铃薯品种[13-15,17-18]相比,叶绿体基因组长度和IR 长度不超过500 bp,说明马铃薯各个品种的叶绿体基因组较为保守。
叶绿体的SSR 不仅与核基因组SSR 一样,具有高多态性、多等位性、共显性[25],也具有单亲遗传模式,结构简单、相对保守[26],因此,叶绿体的SSR 有较好的种间、种内遗传变异区分能力,已成为区分物种的重要分子标记而被广泛应用[27]。关惜今等[13]研究表明:S.fernandezianum与其野生近缘种(S.phureja、S.palustre、S.etuberosum)叶绿体基因组中共检测到36、36、42、40 个SSR,SSR 类型比较单一,只有单核苷酸和二核苷酸等2 种类型,单核苷酸为A和T等2 种类型,二核苷酸包括TA 和AT 等2 种类型,其数目比较少。本研究结果与此一致。在本研究中,在‘怀玉山’高山马铃薯叶绿体基因组中共检测到38 个SSR 位点,其中,单碱基重复有36 个,双碱基重复有2 个,较少的SSR 位点存在表明‘怀玉山’高山马铃薯叶绿体基因组可能不易发生重排。
IR 和单拷贝区(SC)边界的膨胀和收缩被认为是被子植物叶绿体全基因组大小变化的主要机制[28],同一属不同品种叶绿体基因组IR/SC 边界位置变化也不同[29]。关惜今等[13]研究表明:S.fernandezianum与其野生近缘种(S.phureja、S.palustre、S.etuberosum)叶绿体基因组rps19 基因均横跨JLB,S.phureja的ndhF基因横跨JSB,S.fernandezianum、S.palustre、S.etuberosum的ndhF基因均右移,分布在SSC,S.fernandezianum、S.phureja、S.palustre、S.etuberosum的ycf1 基因总长度为5 664 bp,均横跨SSC 和IRa 区域。在本研究中,对‘怀玉山’高山马铃薯及其10 个近缘种叶绿体基因组 IR/SC 边界区域的分析结果表明:这些叶绿体基因组的IR 都存在扩张或收缩的现象。‘怀玉山’高山马铃薯的rps19 基因横跨 JLB,横跨 JLB 的左边和右边长度分别为209 和69 bp,在JSA,‘怀玉山’高山马铃薯ycf1 基因为5 663 bp,左边和右边长度分别为4 541 和1 122 bp。
许多植物存在密码子偏好性(CUB),即某一或几种特定密码子频率超过其他同义密码子。密码子偏好性可用来评估基因组中蛋白质编码区(CDS)的密码子使用情况[30]。植物密码子偏好性是物种不断适应外界环境进化所导致的结果,生物获得特定的密码子使用模式以适应起源、进化、自然选择和突变压力等多种因素[31]。影响不同物种中密码子偏好性差异的因素主要有碱基突变、基因表达水平、自然选择等,自然选择和突变压力被认为是2 个最重要的因素[32-34]。密码子第3 个碱基的同义突变不能改变氨基酸的类型,但被认为是决定氨基酸类型的重要特征,因此GC3 经常被用作密码子偏向的重要指标[35-36]。本研究发现‘怀玉山’高山马铃薯叶绿体基因组的平均GC 比例为38.38%,GC3 为29.60%,更倾向于使用A/T 密码子。RSCU 分析结果也证实了这一点。‘怀玉山’高山马铃薯叶绿体基因组中存在A/T 密码子使用偏向,这与大多数高等植物的模式一致[37]。‘怀玉山’高山马铃薯叶绿体基因组平均ENC 为47.29,ENC>35 的基因有83 个,有4 个基因的ENC<35,表明‘怀玉山’高山马铃薯叶绿体基因组的密码子偏性较弱。当密码子的使用受到自然选择的影响时,GC3 值往往分布在一个较小的范围内,GC12 和GC3 之间没有显著的相关性[38]。密码子偏好性可以通过调节基因翻译的准确性和效率影响基因表达,基因表达水平越高,密码子偏好性越强[39-40]。通过建立的高低基因表达库,本研究挖掘到‘怀玉山’高山马铃薯叶绿体基因组10 个最优密码子,即CGU、AAA、CUU、GUU、GGA、GUA、GGU、UCA、GCU、CCU,说明‘怀玉山’高山马铃薯叶绿体基因组密码子更偏好于以A/U 结尾。筛选到的最优密码子可以用于设计叶绿体基因表达载体,以提高叶绿体基因组中基因的表达水平,也可以利用已知密码子的使用偏好来推测和预测未知基因的表达和功能,可为今后从遗传水平上进行‘怀玉山’高山马铃薯育种改良提供参考。
含有足够信息位点的叶绿体基因组已被证明可有效判断系统发育关系,甚至是在较低的分类学水平下植物之间也有较强的分类学意义,为物种间系统发育的研究提供了新的思路[41]。在本研究中,在茄属中‘怀玉山’高山马铃薯与S.tuberosum‘Desiree’单独聚为一分支。说明‘怀玉山’高山马铃薯与S.tuberosum‘Desiree’亲缘关系较近,表明两者同源,推测‘怀玉山’高山马铃薯可能是S.tuberosum‘Desiree’从美国引种的。
综上所述,本研究测序组装了‘怀玉山’高山马铃薯叶绿体基因组全序列,分析了其编码蛋白基因的密码子使用特点,从高表达优越密码子和高频密码子中选出两者共有的密码子,最终筛选得到了10 个叶绿体蛋白编码基因的最优密码子。‘怀玉山’高山马铃薯密码子的偏好性受到突变、选择及其他多方面因素的共同影响,但自然选择的影响更大,这为用基因工程手段改造外源基因密码子,提高其在‘怀玉山’高山马铃薯叶绿体中的表达量提供了参考,也为在分子水平上研究茄科茄属植物的系统进化提供参考。