阮茹珏,王丽君,倪 君
(杭州师范大学生命与环境科学学院,浙江省药用植物种质改良与质量控制技术重点实验室,浙江杭州 311121)
自从20世纪70年代由Sanger和Coulson开创DNA双脱氧链终止法测序技术(第一代测序技术)以来,DNA测序技术经历了不断发展,目前已经发展到第三代的单分子实时测序技术.不过由于最新的第三代测序技术尚未普及,所以目前绝大多数的研究成果都是以Illumina公司的Solexa技术为主的第二代测序技术(高通量测序技术)取得.高通量测序技术极大地改变了生物学的研究方式,原来需要花费大量人力物力的工作在高通量测序技术的协助下可以方便地完成[1].越来越多的药用植物也借助此技术获得了大量的基因信息,药用植物的基因组学迅速发展,还由此诞生了“本草基因组学”.目前,高通量测序技术已经广泛应用于道地药材的生物学本质研究、中药质量控制研究、中药资源的保护与利用、中药合成生物学研究和中药作用靶点与个性化治疗等多个研究领域,对推进中药现代化进程具有重大战略性科学意义[2].
银杏,又名白果,味甘、微苦、涩,性平,归心、肺经,在我国的传统中医里具有非常悠久的使用历史.银杏含有的大量以黄酮和银杏内酯为主的次生代谢产物已被证实对多种疾病具有明显的治疗效果,因而吸引大量的研究者对其代谢途径进行研究[3].近年来,越来越多的研究者利用高通量测序技术对银杏进行研究,本综述回顾总结了高通量测序技术在几个银杏研究领域中的应用,并展望该技术未来的发展方向.
在高通量测序技术广泛应用之前,研究人员只能用传统的方法先将来自银杏的cDNA片段插入载体,然后再对大量的克隆单独进行测序分析而得到多条EST(expressed sequence tag)序列.这种方法不仅成本高,耗时长,更重要的是,用这种方法得到的EST数量非常有限.有研究者汇集了银杏雌球花、雄球花和幼嫩叶片的cDNA文库进行EST测序,最终总共得到6 434个EST序列,它们可以拼接成3 830个非重复序列基因(unigene)[4].还有研究者利用银杏成熟叶片的cDNA文库进行EST测序,最终得到2 039个EST序列,它们拼接成1 437个非重复序列基因[5].为了更深入地研究银杏的功能基因,研究人员在2011年首次利用454 GS FLX测序平台对银杏叶片的cDNA文库进行了高通量测序,并得到了64 057个EST序列.这些序列和已经公布的21 590个银杏EST序列共同拼接成22 304个特异的转录本[6 ].利用此次高通量测序得到的数据,研究者首次对发现的大量银杏基因进行归类,除了发现参与银杏内酯/白果内酯和黄酮合成途径相关的基因,他们还发现了参与发育和抗病方面的基因.同时,还找到了编码3个重要酶的完整基因,分别命名为GbIDS,GbPAL和GbCHS[6].
随着高通量测序技术的发展,该技术的成本不断下降,因而被越来越多地应用于银杏转录组的研究中.2015年报道了第一例用mRNA高通量测序技术(RNA-Seq)研究银杏无菌苗转录组的工作.在得到的49 396个特异转录本中,有39 941个转录本具有蛋白编码序列,而其中的24 645个在之前的数据库中有记录.另外,该研究还发现50个转录本编码的蛋白参与银杏黄酮的合成,43个转录本编码的蛋白参与银杏内酯和白果内酯的合成.并且在此次研究中还找到一个新的编码查尔酮异构酶的基因GbCHI1,这显示RNA-Seq技术在银杏新基因挖掘中的潜力[7].同年,另一个课题组发表了银杏白果的转录组研究成果.他们在5个不同的时间点(7月,8月,9月,11月和12月)收集银杏白果,利用Illumina Hiseq 2000平台检测银杏白果在不同发育阶段中的转录组变化.这次研究一共找到了68 547个非重复序列基因,其中3 869个基因的表达量在银杏果的发育过程中发生明显变化.另外,有66个基因参与了萜类骨架的合成,其中有12个表达上调的基因参与银杏内酯和白果内酯的合成.该研究不仅扩展了银杏转录组的数据库,而且还首次将高通量测序技术运用于银杏发育和次生代谢相关的研究,取得了很好的效果[8].
随着转录组高通量测序技术的不断普及,该技术更多地被当作一种实验手段来解释银杏中的各种生物学现象而不仅仅应用于银杏转录组数据库的扩展.由于银杏雌雄异株,有研究者试图通过研究雌芽和雄芽,雌性大孢子叶球和雄性小孢子叶球之间的转录组差异来寻找决定银杏性别的关键基因.经过测序分析,雌芽和雄芽之间一共发现4 709个差异表达基因,雌性大孢子叶球和雄性小孢子叶球之间一共发现9 802个差异表达基因.经过分析,一些参与植物激素信号转导和DNA甲基化的差异表达基因可能参与了银杏性别的决定过程.该研究还发现在银杏的雄芽里居然有雌蕊相关基因的表达,而在雌芽里也有雄蕊相关基因的表达.这个结果暗示银杏的性别决定可能是通过后期选择性地抑制生殖原基的发育来实现的[9];还有研究者利用高通量测序技术对银杏胚珠和成熟叶片之间的转录组进行比较.首先,他们发现有相当大部分的基因在胚珠和叶片之间有共同表达.它们之间相似的表型结构也证实了这一点,例如它们都具有叶绿体和气孔等光合作用必备的结构.其次,大量花发育相关的同源基因在胚珠里有表达,这说明银杏胚珠拥有和被子植物花器官类似的基因表达调控机制.最后,大量的差异表达基因与黄酮合成、细胞分裂、激素信号传导、转录调控和淀粉/糖代谢相关,这个结果暗示银杏胚珠比叶片具有更活跃的细胞生长和细胞分裂的能力[10];紫外线(UV-B)作为一种自然胁迫因子会对植物的生长和发育造成一系列的影响,而植物可以通过各种手段来应对这种胁迫.为了研究长期紫外线照射条件对银杏黄酮含量和黄酮合成相关基因的影响,研究者首先对银杏幼苗进行长时间的紫外照射处理,结果发现银杏的黄酮含量发生了显著提高,其中异鼠李素的含量甚至提高了16倍.随后研究者利用高通量测序的方法对紫外线照射后的银杏转录组进行了比较研究,发现大量黄酮合成相关基因的表达都在紫外照射后上调,尤其是FLS基因(Gb_22751)和F3’H基因(Gb_19792,Gb_04545和Gb_11520)的表达发生了明显的上调.这个结果暗示这些基因可能在银杏应对长期紫外胁迫时发挥了关键作用[11].另外,还有比较银杏叶片白天和黑夜转录组差异以及黄酮含量差异的研究[12],银杏乳垂发育过程中的转录组比较研究[13],以及不同品种银杏的黄酮合成相关基因表达差异研究[14].
随着代谢组学的普及,对银杏的转录组和代谢组进行关联分析成为近期研究的一个新热点.有研究者利用转录组和代谢组关联分析对一个银杏高黄酮含量突变体进行机制研究.他们发现突变体的高黄酮含量表型是由于相关基因的表达异常导致苯丙素类的代谢流方向改变而引起的[15].也有研究者利用银杏转录组和代谢组关联分析的方法研究环境因子和树龄对银杏黄酮含量的影响,该结果将对银杏相关制药行业的发展产生积极的意义[16-17].本实验室也利用高通量测序的手段进行了银杏黄酮合成调控机制的研究.在黑暗条件下,水杨酸处理后银杏叶片的黄酮含量降低,同时转录组分析也显示黄酮合成途径相关基因的表达下降.而在光照条件下则出现相反的结果.进一步研究发现,远红光和红光,而不是蓝光,参与了水杨酸对银杏黄酮的诱导作用[18].在该研究中,高通量测序和转录组分析已经不再是主要的研究内容,而成为研究工作的一小部分.这种变化可能代表了未来研究的一种趋势.研究者不再对转录组整体进行全局分析,而是集中对某个感兴趣的方向进行深入挖掘.
高通量测序的另一个重要应用是解析生物的全基因组,来自浙江大学、中科院植物所和深圳华大基因研究院的联合团队在2016年公布了银杏全基因组草图.银杏具有10.61 Gb大小的基因组,其中包含了41 840个基因.有76.58%的序列为重复序列,而其中的长末端重复序列的反转录转座子尤为普遍,它们来源于长期的积累和两次全基因组倍增事件.为了更好地了解银杏的防御机制,该研究还从注释的基因中分析了在植物中已知的与防御机制相关的基因家族.他们发现,银杏具有多重防御机制:基因家族的扩增,高剂量的特定基因,以及其防御基因的多样性.这些特点都可能与银杏非凡的恢复能力相关.银杏全基因组草图的公布开启了银杏研究新时代,从此分子生物学手段将越来越频繁地出现在银杏相关的研究中[19].
可能是由于银杏巨大的基因组和普遍存在的重复序列结构造成的拼接困难,在初次发布的银杏全基因组草图中并没有染色体水平的拼接.不过同一联合研究团队在2019年利用HiC技术将银杏基因组9.03 Gb的序列(约占银杏全基因组的94%)归到了12条染色体中.该结果将大大促进银杏的生物多样性、进化历史及种群遗传学的研究工作[20].紧接着,这一联合研究团队又在同年对全世界51个种群的545棵银杏树进行了全基因组重测序.随后,利用测序产生的44 Tb海量数据构建了迄今最大的非模式物种序列变异数据库.通过种群遗传结构和动态历史模拟分析,他们发现银杏在历史上存在3个避难所,它们分别位于中国的东部、西南和南部.进一步研究发现,目前遍布全球的银杏几乎都来源于以浙江天目山种群为代表的中国东部种群.与此同时,该研究还发现欧洲的银杏其实来源于中国而不是此前一直认为的日本.此项工作不仅为银杏的后续研究建立了进化框架,而且为其种质资源开发提供了宝贵的遗传资源[21].
来自南京林业大学的研究团队对94颗来自同一株银杏树的种子大配子体进行SLAF(specific-locus amplified fragment)测序,得到了大量的分子标记,它们共同组成了12个连锁群,对应于银杏的12条染色体.他们构建的遗传图谱总长度为1671.77 cm,标记间的平均间隔为0.89 cm.银杏遗传图谱的建立和大量分子标记的发现对银杏遗传育种方面的研究具有积极的辅助作用[22].
有研究者利用HiSeq2000测序平台对雌雄银杏叶片的小RNA进行了高通量测序,结果在雌性叶片上发现了202种已知的和174种全新的microRNA分子,在雄性叶片上发现了201种已知的和174种未知的microRNA分子.随后,这个研究团队又利用高通量测序技术对银杏胚珠的microRNA进行研究,找到了34个家族共99个全新的microRNA分子.最近,他们还对一个具有黄绿相间叶片的银杏突变体构建小RNA文库,并进行高通量测序.通过与正常野生型银杏比较,他们发现miR159和miR396,及其对应的目标基因可能通过调控叶绿体发育和激素代谢影响银杏的叶片颜色[23].本实验室也利用HiSeq2500测序平台对银杏根际微生物的16S rDNA序列(细菌)和ITS序列(真菌)进行高通量测序.根据测序结果,发现银杏的根际微环境对细菌的种群结构产生了明显影响,而对真菌的种群结构却影响不大[24].这些结果显示高通量测序在银杏的其他研究方向中的重要作用.
面对海量且还在不断增多的银杏高通量测序数据,如何充分利用这些网上数据资源成为越来越紧迫的问题.目前,已经有研究者开始利用这些数据进行银杏基因的克隆与功能研究.有研究者根据网上公开的测序数据分析出银杏可能存在6个不同的F3’H基因,他们又根据转录组测序得到的FPKM值,选取表达量最高的F3’H基因,并命名为GbF3’H1.GbF3’H1基因含有两个外显子和一个内含子,内含子剪接后的基因全长1 907 bp,其中的蛋白编码序列为1 560 bp,编码的GbF3’H1蛋白和其他植物的F3’H蛋白序列具有高度的同源性.随后,他们还对GbF3’H1基因进行功能分析.转基因杨树表达GbF3’H1基因后,叶片颜色明显变红,叶片内的表没食子儿茶素(epigallocatechin),没食子酸(gallocatechin)和儿茶素(catechin)含量明显增多.该研究不仅揭示了银杏GbF3’H1基因的功能,而且开启了利用网上公开测序数据的资源来克隆银杏基因并分析其功能的先例[25].
本实验室也积极利用网上测序数据进行银杏功能基因研究.首先以拟南芥DFR基因序列为模板,对银杏进行全基因组搜索,得到3个同源性最高的银杏DFR基因.由于在此前已经报道了3个银杏的DFR基因[26],所以将新发现的基因命名为GbDFR4,GbDFR5和GbDFR6.随后,根据银杏的基因组测序数据发现,GbDFR4,GbDFR5和GbDFR6的基因结构高度类似(都含有6个外显子和5个内含子,且它们的编码序列长度一致),且处于染色体的同一位置,其中GbDFR4和GbDFR5之间甚至只隔了1个其他基因.这些信息暗示GbDFR4,GbDFR5和GbDFR6基因可能来源于进化过程中的基因串联复制事件.因此,笔者对银杏GbDFR基因进行功能分析,并发现它们在银杏应对各种环境胁迫时可能发挥了重要功能[27].
目前银杏分子生物学的研究还处于初级阶段,真正深入研究的工作很少,大量的研究还停留在对测序数据进行简单分析的层次水平.这些研究的总体思路为:针对一个生理现象进行高通量测序(利用RT-PCR进行验证),随后测定一些生理生化指标(或测定代谢组),最后通过大量的数据分析得出可能的结论.在这些研究中往往堆砌了大量的数据及其统计分析,但最后的结论往往缺乏生物学验证,可信度不高.另外,我们还发现这类研究缺乏后续的工作.一个高通量测序相关的研究工作结束后,研究者往往选择开始另一个新的高通量测序工作,而不对先前研究得出的初步结论进行深入研究.这种做法不仅造成资源浪费,而且对整体研究水平的提高帮助不大.
高通量测序技术应该作为一种常规手段而不是亮点来辅助银杏相关的研究,而深入挖掘已有的测序数据信息可能会成为未来银杏研究的一个新的方向.早期利用EST文库筛选得到的银杏基因数据并不全面,有些甚至还有偏差.例如在早期的研究中,研究人员通过EST文库筛选得到3个银杏DFR基因,而最近本实验室对银杏全基因组搜索后发现还有更接近拟南芥DFR序列的银杏DFR基因存在.不仅如此,根据早期的研究GbDFR1,GbDFR2和GbDFR3分别属于非N/D型、D型和N型DFR,经过更广泛的序列比对,发现GbDFR1,GbDFR2和GbDFR3应该都属于非N/D型DFR[23-24].这些结果表明,即使是已经报道过的银杏基因,也有必要利用银杏转录组和全基因组的测序数据,对其进行再分析.
随着网络公开的高通量测序数据越来越多,特别是银杏基因组测序数据的公布,对银杏基因家族的研究将越来越重要.拟南芥的黄酮合成途径比较简单,每个步骤都由一个基因编码的蛋白控制.而银杏中的情况比较复杂,在它的黄酮合成途径中,每个步骤都由一个基因家族控制[15].考虑到银杏中存在的大量黄酮类化合物,银杏中可能存在一个更加复杂的黄酮合成网络.在这个网络中,原本(在拟南芥中存在的)单一的黄酮合成代谢流被分成了若干小支流.这些小支流各自独立而又互相影响,最终构成了银杏中丰富的黄酮类化合物.另外,银杏中并非所有的黄酮类化合物都具有药用价值,只有少数的黄酮类化合物被证实具有药用价值[28].所以研究银杏黄酮(某些支流)的精细调控过程具有重要的意义,而这就要涉及银杏黄酮合成相关基因家族的差异化功能研究,而这个研究的基础就是大量的银杏高通量测序数据.