侯颖辉, 王少铭, 罗莉斯, 李晋华, 冷家归, 汪志燚, 李德文
(1.贵州省农业科学院香料研究所, 贵阳 550006; 2.贵州省农业科学院油料研究所, 贵阳 550006)
小黄姜(Dioscoreazingiberensis)是生姜的一种,因其根状茎较小,颜色金黄而得名,与普通生姜相比,其姜辣素、姜黄素等活性成分含量更高,更具药食及研究价值[1]。贞丰小黄姜、水城小黄姜已成为地理标志性产品。由于小黄姜为无性繁殖,播种需要消耗大量姜块,加上生姜连作障碍严重,易发姜瘟病,小黄姜的产量相对较低,为了提高产量和减少成本,小黄姜茎尖离体培养技术被广泛研究[2]。据报道,茎尖离体培养技术能够有效降低植株体内病毒数量,降低病毒病的发生率[3-4]。通过小黄姜茎尖离体培养获得的小黄姜组培苗栽培后产生了一定频率的表型突变,突变率为10%左右,突变株植株矮小、分枝数多、产量较低。本研究主要从品质表现及转录组学两个方面分析突变株与正常株的主要差异,揭示突变产生的机制,以期在育苗期筛选出突变株,从而减少后续实验投入和栽培成本。同时,对小黄姜种质资源创新具有重要理论意义。
以贵州地理标志性产品镇宁小黄姜为母本,通过茎尖离体培养技术得到小黄姜突变株和正常株原种,按照每小区30株定植,株距15 cm,行距30 cm。使用采收后的鲜姜进行品质检测,在根状茎膨大期后期选择健康且长势一致的脱毒正常株和突变株根状茎,在北京百迈客生物科技有限公司进行转录组分析。
1.2.1品质检测
采用恒温干燥法[5]检测样品中干物质含量,水蒸气及GC-MS技术[6]分析样品中精油含量,试剂盒法检测纤维素和木质素含量,有机溶剂萃取法和HPLC技术[7]分析姜辣素(以6-姜酚计)含量。
1.2.2转录组学测序
Trizol法提取样品RNA,利用边合成边测序技术与Illumina Hiseq高通量测序平台[8]和分析cDNA文库,获得的高质量Reads再利用生物信息学分析,通过与NR、KEGG、Swiss-Prot、COG、GO和Pfam数据库[9]的比对Unigene进行功能注释。
通过品质检测(图1)发现,小黄姜突变株干物质、纤维素含量显著低于正常株,分别为13%和0.6%,而木质素、精油及姜辣素含量则显著高于正常株,分别为0.63%、0.043 mL/g和 8.5 mg/g,分别为正常株的1.5倍、1.54倍和1.26倍。
图1 小黄姜突变株与正常株品质比较Fig.1 Comparison of quality between mutant and normal ginger of Dioscorea zingiberensis
各样品Q30碱基百分比均在93.79%及以上,Clean Data均达到6.01 Gb,6个样品共获得46.33 Gb Clean Data。组装后共获得Unigene 100 280条,长度在1 kb以上的有30 687条。
2.2.1测序数据产出统计
如表1 所示,不同样品的Clean Data与组装的Unigene库进行比对得知突变株映射比率为59.54%~64.52%;正常株的映射比率为56.74%~64.55%。
表1 Clean Data与组装的Unigene库的比对结果Table 1 Comparison results of Clean Dat and assembly Unigene
2.2.2Unigene功能注释及表达量分析
使用BLAST[10]软件(E-value≤1e-5)将获得的Unigene序列分别与GO[13]、COG[14]、KOG[15]、eggNOG4.5[16]等多个数据库进行比对分析, 并使用KOBAS2.0[17]分析Unigene序列在KEGG中的功能注释,氨基酸序列预测之后再通过HMMER[18]软件(E-value≤1e-10)在Pfam[19]数据库分析比对[9],从而获得不同序列的注释信息。最终获得有注释信息的Unigene 43 989个(表2)。
表2 Unigene注释统计Table 2 Unigene annotation statistics
将测序得到的Reads与Unigene库通过Bowtie[20]软件进行比对,并结合RSEM[21]估计其表达量水平。Unigene的表达丰度[22]利用FPKM值[23](Fragments Per Kilobase of transcript per Million mapped reads)表示。由图2可知,蛋白质编码基因表达水平FPKM值横跨10-2到104六个数量级。另外,从图3中可以得知单个样品基因表达水平分布的离散程度和整体基因表达丰度。
注:a为FPKM density distribution;b为FPKM box diagram。图2 各样品的密度分布对比以及FPKM箱线图Fig.2 Comparison of density distribution among different samples and FPKM box diagram and FPKM box diagram
图3 SSR密度分布Fig.3 SSR density profile
2.2.3SSR及SNP分析
利用MISA(MIcroSAtellite identification tool)软件对1 kb 以上的 Unigene序列进行分析,鉴定出6种类型的SSR[24](表3),合计13 342个,并对不同类型的SSR进行密度分布统计(图3)。
表3 SSR分析结果统计Table 3 Statistical table of SSR analysis results
利用软件STAR[25]和GATK[26]针对RNA-Seq识别单核苷酸多态性(Single Nucleotide Polymorphism,SNP)位点。根据SNP位点的等位(Allele)数目将SNP位点分为纯合型SNP位点(HomoSNP,只有一个等位)和杂合型SNP位点(HeteSNP,两个或多个等位)。各样品SNP位点数目统计见表4,并对SNP在Unigene上的分布密度进行统计(图4)。
图4 SNP密度分布Fig.4 SNP density profile
表4 SNP数量统计Table 4 SNP number statistics
2.2.4DEG分析
采用DESeq2[27]软件结合FDR(False Discovery Rate) 与FC(Fold Change)对样品进行组间差异表达分析,共得到DEG(Differentially Expressed Genes)338条,其中164条基因表达量上调,174条基因表达量下调(图5)。一个点代表一个基因,横坐标为基因在两样品中表达量差异倍数的对数值,两样品间的表达量倍数差异越大,对应的绝对值越大。并对筛选出的DEG做层次聚类分析(图6)。通过与不同功能数据库比对,获得注释DEG 239条,分别在COG、GO、KEGG等数据库[9]注释到88条、132条、81条、130条、186条、171条、224条、238条(表5)。
注:绿色为下调DEG,红色为上调DEG,黑色为无显著性表达差异基因。图5 差异表达基因MA图Fig.5 MA map of DEGs
图6 差异表达基因表达模式聚类Fig.6 Clustering map of differential expression gene expression patterns
图7 DEG的KOG富集分析Fig.7 KOG enrichment analysis of DEG
图8 DEG的eggNOG富集分析Fig.8 eggNOG enrichment analysis of DEG
图9 DEG 的GO二级节点注释统计Fig.9 Annotated statistical map of GO secondary nodes of DEGs
图10 DEG的KEGG分类Fig.10 KEGG classification of DEGs
表5 注释的差异表达基因数量统计Table 5 Annotated statistical on the number of differentially expressed genes
通过不同功能数据库的富集分析发现,DEG主要集中于次生代谢合成、信号传导机制、类黄酮代谢、光合作用碳的固定等过程。主要DEG的功能分析见表6,其中植物激素信号传导相关基因4个(AXU/IAA、B-ARR、ERFL1/2、MYC2),光合作用相关基因1个(GOT1),植物生理节律相关基因2个(CRY、CHS),类黄酮生物合成相关基因1个(CHS)。除B-ARR、CRY为下调外,其余基因均上调。
图11 DEG 的KEGG通路富集散点图Fig.11 Enrichment scatter plot of KEGG pathway of DEGs
转录学分析是在mRNA水平上研究表型差异的有效方法,转录组测序技术能够准确获得不同组织,不同时期相关基因的表达水平。孔德真等[28]利用转录组学分析鉴定出盐胁迫、碱胁迫相关的DEG 900多个,陈浩等[29]基于转录组测序获得SSR引物10 320对,郑世茂等[30]基于转录组测序获得SSR引物37 173对,成功率为70.39%。杨博涵等[31]利用转录组测序技术分析了阳春砂花丝、花柱,得到62 174条Unigene注释,涉及25个功能分类。
本研究中,小黄姜突变株与正常株来源于同一植株的茎尖组织,通过组织培养后产生不同的表型,经检测发现,其品质与正常株和母体均具有显著差异。通过转录组分析发现,注释到的差异表达基因239条,分别在COG、GO、KEGG、KOG、Pfam、Swiss-Prot、eggNOG功能数据库注释到88条、132条、 81条、130条、186条、171 条和224条,主要涉及光合作用碳的固定、次生代谢物合成、植物信号传导等20余个功能分类。其中,光合作用碳的固定与干物质含量、纤维素和木质素含量关系密切[32],根据光合作用KEGG途径推测可能GOT1基因的高表达会促进草酰乙酸转化为天冬氨酸,减少了苹果酸的形成,从而降低碳水化合物的积累。生姜精油、姜辣素等次生代谢物含量差异主要由于次生代谢物合成相关基因的差异表达导致[33]。植物激素信号传导调控植物的整个生命过程,包括细胞分裂和分化,是植株分枝/分蘖的主要内在因素[34],该通路相关基因的差异表达导致了突变株与正常株之间分枝数与产量的差异,尤其AXU/IAA,作为生长素应答因子ARF的抑制因子[35],其高表达抑制了植株根状茎的生长,从而导致产量下降。获得DEG以及SNP序列有助于在栽培前期筛选出突变株,以减少栽培的时间和物质成本。
另外,由于小黄姜为无性繁殖作物,种质创新较难,该突变株的产生对于小黄姜综合利用和种质资源创新具有重要理论意义。