杨宇婷, 张 强
(成都中医药大学附属医院,四川成都 610000)
同源四倍体具有产量高、抗逆性强、品质优良等优点,在药用植物育种方面备受关注[1]。多倍体植物细胞内的染色体加倍导致细胞核和细胞体积增大,在外形上引起植物形态发生明显变化,叶片变大变厚,茎变粗,植株的生物产量和药用活性成分均有不同程度的增加[2-3]。与二倍体相比,甜叶菊四倍体植株茎秆粗壮、叶片加厚、叶面积增大、植株变矮,糖苷含量等均发生显著变化,在农艺性状上,四倍体甜叶菊株系也表现出更高的品质和更强的抗逆性[4-5]。
甜叶菊[Steviarebaudiana(Bertoni) Hemsl.]是菊科甜叶菊属多年生宿根草本植物,它所含有的甜菊糖苷的甜度是蔗糖的250~300 倍,但所含热量仅是蔗糖的1/300[6]。甜叶菊四倍体株系的高品质和高产量在甜叶菊优势品种选育中应用广泛。目前,关于四倍体甜叶菊的研究大多集中在四倍体诱导鉴定[7]、生物学特性[8]、遗传物质分子标记[9]等方面。随着生物学的发展,下一代高通量测序技术使得基因信息处理速度得到极大提升。RNA测序技术已成功应用于白桦[10]、人工合成芸薹属[11]、十字花科[12]等倍性植物株系转录组测序。为探究甜叶菊同源四倍体的变异机制,本研究以甜叶菊二倍体植株为对照,利用BGI PE150测序平台和生物信息学分析方法,分别取四倍体和二倍体叶片进行转录组测序,获得2组差异表达基因(DEGs),通过对这些差异表达基因数目进行功能富集分析,为甜叶菊同源四倍体表型变异形成和有效成分基因调控机制相关研究提供基础资料。
以成都中医药大学中药品种质量资源研究所种植的甜叶菊二倍体及其四倍体1年生植株为试验材料,样本植株经成都中医药大学附属医院杨宇婷药师鉴定为菊科植物甜叶菊。分别随机选取二倍体和四倍体甜叶菊栽培苗各5株,采样时间为2020年5月13日,采集甜叶菊叶片进行转录组测序,做3次生物学重复,试验时间为2020年6月11日至7月21日。
1.2.1 总RNA提取 样品送至成都百纳特生物科技有限公司,采用 Trizol 法提取总 RNA,利用 Nanodrop 2000 检测 RNA 的纯度 (吸光度D260 nm/D280 nm>2.0)、Agilent 2100 检测 RNA 的完整性(RIN>8.5),检测合格后构建 cDNA 文库。
1.3.1 数据处理 通过去除污染的reads、未知碱基N含量>5%的reads和低质量的reads,得到高质量可用片段(clean reads)。使用Trinity软件对clean reads进行组装,之后利用Tgicl[13]对转录本聚类去冗余,最终得到非重复序列基因(Unigene)作为后续分析的参考序列。
1.3.2 基因表达水平分析 利用RSEM,调用bowtie2的比对结果进行统计,得到每个样本比对到每个转录本上的reads数目,并对其进行FPKM(Fragments Per Kilobase per Million bases)转换,来自同一个片段(fragment)的成对末端读取序列(paired-end reads)计数为1个fragment,进而得到基因和转录本的表达水平。
1.3.3 差异基因表达分析 采用log2(Fold Change) ≥2.00,Adj. 假定值(P值)≤0.01或0.001的方式筛选差异基因,基于负二项分布原理并根据Michael 等所述方法[14]进行差异表达基因检测。基于 GOseq所述方法[15]对筛选到的DEGs进行GO富集分析并进行GO功能统计。基于京都基因和基因组百科全书(KEGG)注释结果,使用KOBAS,设置参数——fdr为BH(即使用BH校正)进行Pathway富集分析。
通过过滤去除低质量、接头污染以及未知碱基含量过高的reads,6个样品(T2-1、T2-2、T2-3、T4-1、T4-2和T4-3)测序得到的clean reads的数量分别为10 542 231、19 757 350、12 758 156、20 225 185、21 463 543、24 421 653个,Q20的比例≥95.2%,低质量(Quality<20)的碱基比例较低,说明测序质量较好,可用于后续分析,结果见表1。利用Trinity软件对clean reads进行合并组装,并得到转录本长度分布图(图1),其中最小长度为143,最大长度为1 321,组装转录本N50数值为1 278,数值较大,说明组装效果较好,结果见表2。
表1 过滤后的reads质量统计
表2 组装长度分布统计
利用bowtie2[16],将每个样本质控后的二代序列比对至参考转录本序列,多重比对序列的平均比对率则为54.35%,唯一比对上参考基因组的平均比对率为29.01%,结果见表3。利用RSEM,调用bowtie2的比对结果进行统计,得到每个样本比对到每个转录本上的reads数目,并对其进行FPKM分析,结果见图2。6个样品中,转录本的表达丰度主要集中在FPKM 1~15(低水平表达)、FPKM≤1(极低表达水平)这2个区域,而FPKM≥15(高水平表达)的基因数目则较少。
表3 reads与组装转录本比对结果
对6个样本的83 234个转录本做功能注释,通过与五大数据库进行比对,结果表明,注释到最多转录本数目的是NR 65 371(78.54%)数据库;其他数据库中注释到的转录本数目分别为21 746(26.13%)、28 399(34.12%)、50 980(61.25%)和48 666(58.47%),其中未知数据库注释的转录本数目为15 248,占总数的18.32%,结果见表4。
表4 注释结果统计
2.3 差异表达基因统计及GO和KEGG分析
2.3.1 差异表达基因统计 四倍体甜叶菊中上调表达量高于二倍体甜叶菊,基因数目为1 832,二倍体甜叶菊中下调表达量高于四倍体甜叶菊,基因数目为3 948,结果见图3。将二倍体甜叶菊与其同源四倍体中表达的差异基因做层次聚类分析,其中X轴代表进行聚类分析的差异比对,Y轴代表差异基因;每行表示1个基因,每列表示1个样品。颜色代表差异倍数,颜色越红代表上调倍数越大,越蓝代表下调倍数越大。结果表明,甜叶菊植株加倍后其上调差异基因数目显著大于下调数目;从颜色深浅可以看出,上调差异基因倍数较下调倍数大。说明在甜叶菊植株加倍过程中有相关差异基因参与表达,其中上调的基因调控作用更加显著,其差异基因的层次聚类热图见图4。
2.3.2 差异表达基因GO富集分析 为进一步了解加倍后甜叶菊差异基因的表达情况,对DEGs进行GO富集分析。GO分析结果表明,这些差异表达基因分布在分子功能(molecular function)、细胞组分(cellular component)和生物过程(biological process)三大类中的43个类别,包括代谢过程、细胞过程、细胞组分、结合和催化活性等。其中,差异基因大部分富集在生物过程中,而参与分子功能的差异基因相对较少。在生物学进程中,以参与代谢过程、细胞过程、单有机体过程、对刺激的反应、生物调控和生物过程调控的差异基因富集最明显,参与细胞成分的差异基因主要富集在细胞、细胞组分、细胞器、细胞膜等类别;分子功能中差异基因显著富集在结合与催化活性类别,结果见图5。
2.3.3 差异表达基因KEGG分析 通过对甜叶菊加倍后的差异表达基因进行KEGG代谢路径富集分析,结果显示,差异表达基因被富集到pathway代谢路径的6个大类、21个亚类。靠前的代谢途径分别为翻译(translation)、折叠(folding)、分类和降解(sorting and degradation)、运输和分解代谢(transport and catabolism)、碳水化合物代谢产物(carbohydrates metabolites)、氨基酸代谢(amino acid metabolism)、脂质代谢(lipid metabolism)和能量代谢(energy metabolism),结果见图6。
根据denovo组装结果,使用MISA软件对甜叶菊植株加倍过程中获得的Unigene进行SSR检测。SSR检测结果表明,共检测出的SSR的位点数目为10 777,最多的是二核苷酸SSR,数目为4 386,占SSR总数的40.70%;三核苷酸SSR次之,数目为 3 412,占31.66%,五核苷酸最少,占0.78%,数目为84。具体结果见表5。
表5 SSR的类型、数量及分布比率
多倍体具有器官增大、营养成分增多和抗逆性增强等多个优点,使得多倍体成为农学和园艺学的研究热点。目前,多倍体器官巨大性的原因是由于细胞增大而不是细胞数目增多的说法已被证实,但是细胞体积受倍性调控的分子机制仍不清楚。本研究以甜叶菊二倍体及其同源四倍体植株为试验材料,利用BGI PE150测序平台和生物信息学分析方法,分别取四倍体和二倍体的叶片进行转录组测序并获得2组差异表达基因,通过对这些DEGs进行功能富集分析,为甜叶菊同源四倍体表型变异形成机制和代谢途径研究提供新的线索。
对转录组数据差异表达基因进行分析,筛选得到5 780个差异表达基因,其中1 832个基因上调表达,3 948个下调。GO分析表明,四倍体与二倍体的差异表达基因主要集中在生物学过程(biological process)和细胞成分(cellular compenent)2个功能区,对分子功能(molecular function)的调控作用不大。在细胞成分功能区发现差异基因在细胞、细胞组分和细胞器类别显著富集,表明倍性水平会影响细胞体积,在此过程中大量差异基因在运输和分解代谢、翻译、折叠、分类和降解等代谢途径显著富集促进相关蛋白质的合成,蛋白质行使调控功能从而增加细胞体积,这也是四倍体甜叶菊叶片变大变厚、营养器官增大的原因。同源多倍体药用植物育种的一个主要目的是增加次生代谢产物的含量,尤其是药用成分的增加。研究报道,同源四倍体桔梗叶片的叶绿素a、叶绿素b、胡萝卜素、总叶绿素的含量比二倍体分别增加36.11%、69.23%、31.71%、38.85%[17],同源四倍体青蒿的青蒿素含量是二倍体的1.5倍[18]。甜叶菊四倍体叶中的活性成分均高于其二倍体,据文献报道,甜叶菊四倍体的甜菊糖苷总含量(13.212%)比二倍体的甜菊糖苷总含量(9.998%)提高了32.15%[5]。甜叶菊多倍体的转录组及SSR分析结果表明,甜叶菊植株面对一些生物和非生物胁迫时,会出现一系列应激反应,形成多种信号转导途径。同源四倍体甜叶菊具有更强的抗逆性,在面对寒冷刺激时,甜叶菊四倍体会调控相关差异基因上调表达来表现出更强的适应性,本研究中,一些与光合作用相关的差异基因在光合作用、光合生物的固碳作用等路径富集,显著增强了甜叶菊四倍体株系的光合效率。本研究共发现10 777个SSR位点,优势重复序列为二核苷酸,占总SSR位点的40.70%,这一研究结果与李俊仁等的结果[19-20]一致。
本研究以甜叶菊二倍体及其同源四倍体为材料,利用转录组测序技术并结合二者的生理特征,分析同源四倍体产生的基因表达变化,发现二者在外观性状、生长发育以及抗逆抗胁迫等方面存在差异,以上结果可为进一步定位关键调控基因及基因工程育种等奠定基础。