李青竹 蔡友铭 张永春 许俊旭 杨柳燕 孙 翊
(上海市农业科学院林木果树研究所/上海市设施园艺技术重点实验室,上海 201106)
石蒜属(Lycorisspp.)是原产我国的药用和观赏植物,其花色、花型多变,观赏性强[1-3],且鳞茎中含有石蒜碱、加兰他敏等多种生物碱[2,4-6],具有治疗重症肌无力、老年痴呆症(阿尔茨海默症),抗肿瘤和抗癌等重要功能,经济价值极高[7-9]。石蒜属植物不仅种内和种间的变异多,而且部分二倍体材料种间杂交亲和性高,杂交后代表型多变,因此产生了丰富多样的石蒜属种质资源[10-12]。石蒜属植物现有的分类依据主要包括花部性状(如花色、花型、雄蕊相对于花被的长度)、出叶类型(春出叶、秋出叶)和鳞茎形状(卵形、球形)[13],但仅凭外观对资源进行鉴定会出现混淆和无法判断的情况,且杂交后代从种子生长到开花球的时间较长,一般为4~5年,因此生产上需要对石蒜属植物进行早期鉴定。
目前石蒜属中常用于资源鉴定的DNA 分子标记主要有随机扩增多态性DNA 标记(random amplified polymorphic DNA,RAPD)[14-15]、扩增片段长度多态性(amplified Fragment length polymorphism,AFLP)[16]、简单重复序列区间( inter-simple sequence repeat,ISSR)[14]、简单重复序列(simple sequence repeat,SSR)[4,17]和单核苷酸多态性(single nucleotide polymorphism,SNP)[15]等,RAPD 和AFLP 等传统的标记技术在多态性信息含量及技术重复性上有所缺陷。SSR 标记技术已广泛用于生物学研究与鉴定中,例如石蒜等物种的遗传图谱创建[17-18]、杂交种类鉴定[19]、遗传多样性研究[20-23]等。从来源进行分析,SSR 标记包括以下两大类:一是在基因组基础上实现的SSR 标记;二是在转录组表达基础上实现的序列标签简单重复序列标记。前者在标记时需先创建DNA 文库,流程复杂,成本较高;基于转录组的表达序列标签SSR 标记,具有不同物种间通用性高、与功能基因连锁紧密的优势[24-25],在换锦花(Lycons sprengeri)[26]、胡枝子(Lespedoza bicolor)[27]、大麦(Hordeum vulgare)[28]、山桐子(Idesia polycorpa)[29]、玉米(Zea mays)[30]、苷蔗(Saccharus officinarum)[31]等多种植物中已得到开发利用。将荧光标记应用于SSR 分子标记系统,利用毛细管电泳技术获取谱带信息,是对现有SSR 技术体系的优化完善,相比银染检测和琼脂糖凝聚检测,自动荧光检测具有高通量、自动化操作的特点,针对种类数量繁多的植物分类鉴定,无论是速度还是效果都更佳[32-34]。石蒜属基于转录组的表达序列标签SSR 标记开发滞后,目前已报道换锦花利用聚丙烯酰胺凝胶电泳进行检测的研究[26],但标记数量不足,限制了石蒜属的资源鉴定和分子遗传学研究。因此,迫切需要获取更多有效的SSR 标记。
本研究利用Illumina NextSeqTM500 测序平台对石蒜、忽地笑、中国石蒜、长筒石蒜、换锦花、香石蒜进行转录组测序和数据分析,开发SSR 分子标记,构建资源的指纹图谱,并对杂交后代进行鉴定,以期为石蒜属资源的分类鉴定和品种选育等工作提供理论依据。
石蒜属(Lycorisspp.)种质资源共17 份(表1),取自上海市农业科学院石蒜种质资源圃(31.23°N,121.10°E),2018年10月至2019年3月,采集每份种质的新鲜嫩叶,立即液氮冷冻后,-70℃冰箱保存,用于后续分子标记验证。2019年3月,采集处于营养生长期的石蒜、忽地笑、中国石蒜、长筒石蒜、换锦花、香石蒜6 个种质的植株,去掉根和叶片后取鳞茎,液氮冷冻30 min,放入-70℃冰箱保存,用于转录组测序。设置3 次生物学重复。
表1 供试石蒜属资源的基本情况Table 1 The basic information of Lycoris spp.
表1(续)
1.2.1 RNA 的提取与转录组测序 采用RNA 提取试剂盒(天根生化科技北京有限公司)提取RNA。采用Nanodrop 核酸检测仪(美国Thermo Scientific 公司)及琼脂糖凝胶电泳检测提取RNA 的质量。将RNA 送上海派森诺生物科技股份有限公司进行转录组测序。cDNA 文库构建利用TruSeq RNA Sample Preparation Kits v2(Illumina)。采用Illumina NextSeq500 系统对cDNA 文库进行双末端测序。筛选测得的初始数据,并对整个序列进行拼接处理,即为转录本序列,应用2014 版Trinity 程序完成拼接和de novo组装,得到转录组测序文档。
1.2.2 序列注释功能分类和生物学通路分析 基于BLAST 系统将转录本序列和RefSeq、NR 数据库进行比对,将与数据库数据重合的转录本序列归为一类,并设长度最大的转录本为Unigene,而接下来的GO、eggNOG 分析(E<10-5)均是在Unigene 基础上实现的。
1.2.3 SSR 位点预测和引物设计 拼接获得Unigene,并查找SSR 简单重复序列,利用MISA 程序搜寻SSR 位点,对于1~6 核苷酸,最低的重复次数是10、6、5、5、5、5,在最少重复次数上,单核苷酸重复是10 次,二至三核苷酸重复是6 次,四至六核苷酸重复是5 次。通过与Primer 3.0 结合,对SSR 引物实行批量设计,扩增片段的长度是80~300 bp,每个SSR 位点设计3 对引物,随机选取合成200 对SSR 引物(生工生物工程上海股份有限公司),用于引物的通用性和多态性筛选,最后选择扩增效果好的8 对引物(表2),分别利用六氯-6-甲基荧光素(hexachloro fluorescein,HEX)、6-羧基荧光素(6-carboxy-fluorescein,FAM)荧光标记,合成荧光标记引物(生工生物工程上海股份有限公司),扩增后得到的引物用于后续毛细管电泳检测。
表2 8 对SSR 引物信息Table 2 Information of eight SSR primers
1.2.4 DNA 提取、PCR 扩增程序及毛细管电泳检测 采用德国QIAGEN 公司试剂盒提取基因组DNA,采用1%琼脂糖电泳与NaroDrop 2000 微量紫外分光光度计(美国Thermo scientific)检测DNA 的浓度与质量,将DNA 的浓度稀释到25 ng·μL-1,并保存于-20℃冰箱。将提取的DNA 与荧光标记引物对进行PCR 扩增,其反应体系为25 μL,包括:基因组DNA 1 μL,10 mmol·L-1dNTP 0.5 μL,3.2 pmol·L-1正、反向引物各0.5 μL,10×PCR Buffer 2.5 μL,25 mmol·L-1MgCl22 μL,5 U·μL-1Taq 酶0.2 μL,加ddH2O 补足25 μL。PCR 程序:95℃预变性3 min,95℃变性30 s,55℃退火30 s,72℃延伸30 s,20 个循环;95℃变性30 s,58℃退火30 s,72℃延伸30 s,10 个循环,72℃延伸6 min,4℃保存,PCR 产物送生工生物工程上海股份有限公司进行毛细管电泳检测(3730XL 型仪器,美国ABI 公司),利用Cervus 3.0 软件计算SSR 引物的多态性信息含量和多态性位点数。
1.2.5 石蒜杂交苗培养 石蒜属资源的杂交采用常规授粉方式,选择花被片未展开且花瓣露色的花朵,用酒精消毒后用镊子剥开花被片,小心去除花药,不伤雌蕊,去雄后分别给母本套袋,待花被展开,雌蕊柱头分泌较多粘液时,进行授粉。采集干燥且散开的花粉,均匀涂抹在柱头上,授粉后套袋,结实后收取种子,随采随播,常规管理,待长出3 片叶子后,取嫩叶立即放入液氮中30 min,然后放入-70℃冰箱保存,用于杂种真实性鉴定。随机选择共50 棵苗进行检测,其中1~15为中国石蒜(♀)和换锦花(♂)的杂交F1 代,16~30为换锦花(♀)和中国石蒜(♂)的杂交F1 代,31~40为换锦花(♀)和忽地笑(♂)的杂交F1 代,41~46 为换锦花(♀)和黄长筒石蒜(♂)的杂交F1 代,47 为换锦花亲本自交苗,48 为中国石蒜亲本自交苗,49 为忽地笑亲本自交苗,50 为黄长筒石蒜亲本自交苗。
利用石蒜属6 个种的鳞茎提取RNA,借助紫外分光光度计进行检测,A260/A280数值范围1.90~1.98,表示RNA 样本质量良好,满足测序的要求,能够用来检测RNA-Seq 序列。总共获得264 325 602 条reads,总测序长度达到39 695 938 848(39.69 G)碱基。碱基质量值Q20 碱基识别准确率超过95.59%,而Q30(碱基识别准确率在99.9%以上)大于90.02%,说明本研究测序质量良好,其数据能够用于开展进一步分析。
通过过滤,将低质量、带接头的数据剔除,共得到260 567 150 个干净数据(clean read),长度为38 204 141 866 bp,clean reads 的比例达98.05%以上,所有测序原始数据上传 NCBI 数据库,石蒜(登录号PRJNA637448)、换锦花(登录号PRJNA637456)、中国石蒜(登录号PRJNA637473)、长筒石蒜(登录号PRJNA637832)、忽地笑(登录号PRJNA637967)和香石蒜(登录号PRJNA639315)。
采用软件Trinity 分析上述clean reads,并开展de novo组装,获得1 035 562 条片段重叠群(contigs),接着再次组装得到404 481 条非重复序列基因(Unigenes),N50 长度是425 bp,从长至短将所有序列依次排列,并按序相加,当长度达到总长度50%,则最后一条序列其长度即N50,在100 ~ 800 bp 范围,Unigene 与转录本(Transcript)的数量相对较多,且二者具有相似分布,随着序列长度增加,则序列的数量相应减少,详见图1。
表3 列出了5 个数据库的条目占比,占比最多的为NR 和eggNOG,分别占比31.85%、30.24%,运用Nr进行比对,对比阈值为E-value 小于10-5,注释基因中95.78%都在该数据库获得注释。41.72%以上序列具有较高同源性,小于1.0 e-30,以及58.28%处于1.0 e-30~1.0 e-5(图2)。对比NR 库,得到本物种和近缘物种在基因序列上具有相似性的信息,如图3 所示,物种基因序列相似度最高的为油棕(Elaeis guineensis)。
表3 Unigenes 的注释统计Table 3 The statistics analysis of the Unigenes annotation
2.4.1 GO 分类 GO 分类法将基因归类为生物学过程、细胞组分和分子功能等类别,并利用标准词汇来描述其属性。把GO 的注释结果对应至GOTerm,统计在第二级分类中在Unigenes 上的注释条目(图4),发现233 260 个序列与51 560 个Unigenes 匹配,有88 122个序列在生物学过程中发挥作用,占比达到37.78%,其中参与最多的为单器官过程和细胞过程及代谢过程,这可能预示着器官正经历快速的生长和代谢过程;参与细胞组分的序列有86 444 个,占序列总数37.06%,最多参与的序列类别是膜、细胞及细胞部分;参与分子功能的序列有58 694 个,占序列总数的25.16%,结合、催化活性和转运活性是参与序列最多的3 个分类。以上序列均能够细分至67 个功能群。而且不少序列均可同时被细分至不同GoTerm,并参与不同的调试过程,所以在数目上,GoTerm 超过Unigene。
2.4.2 eggNOG 分类 通过eggNOG 分析,推测出每个Unigene 编码其蛋白的功能。使用BLAST 软件对Unigene 进行eggNOG 注释,其功能的判别规则是Evalue<1.0e-5,122 317 个被注释至26 个eggNOG。除了功能未知(function unknown)的序列之外,注释到Unigenes 最多的5 个eggNOG 如表4 所示。
表4 Unigenes 的部分eggNOG 分类Table 4 Part of the eggNOG classification of Unigenes
SSR 转录组的数据重复具有丰富类型,从单核苷酸到六核苷酸均有各种重复基元。单核苷酸最低重复数小于10 次时不计算,二核苷酸最低重复数小于6 次时不计数。结果发现,在404 481 条Unigene 中共检测到59 612 个SSR 位点,其中8 645 条Unigene 包括1个以上的SSR 位点。SSR 的重复单元主要是1~3 个核苷酸(表5),其最多重复的为单核苷酸,占比62.88%,其次为二核苷酸、三核苷酸,分别占比20.06%、14.66%,而四核苷酸及其以上的重复单元较少。碱基重复次数分布为5~90 次,其中,重复次数最多的在5~10 次之间,有33 508 个,约占56.21%;11~20 次之间的有23 304 个,约占39.09%;大于20 次的最少,有2 800 个,约占4.70%(表5)。在转录组的SSR 位点上,数量相对较多的是单核苷酸、二核苷酸及三核苷酸,其中单核苷酸中重复最多的基元种类为A/T(35 318; 59.25%);二核苷酸最多的为AG/CT(5 743; 9.63%);三核苷酸最多的为AAG/CTT(2 242;3.76%);四核苷酸中最多的为AAAT/ATTT(766;1.28%),五、六核苷酸基元种类所占比例较小(表6)。
表5 SSR 的数量和频率分布Table 5 The type,number and frequency of SSR in Lycoris spp.
表6 SSR 重复基元类型及数量Table 6 Type and number of repeat motif in SSRs
使用微卫星识别工具(microsatellite identification tool,MISA)获得SSR 位点的信息,并与Primer3.0 相结合,实现对SSR 引物的批量设计。将扩增效果好、有清晰条带的引物,合成荧光标记SSR 引物,在不同种间进行多态性分析。采用8 对SSR 荧光引物,对石蒜属17 个种(变种)的样品进行分析,优化后的退火温度和扩增片段见表7。引物QZ157 扩增片段变化范围最大,达到248~298 bp,而引物QZ177 的扩增片段变化范围最小,为269~270 bp。8 对引物在17 个种(变种)扩增的多态位点为60 个,这些引物的多态条带在数量上存在较大差异,变化范围为2~15,每对引物平均扩增7.50 个片段,引物QZ155 和QZ209 的多态性较高,分别获得15 个和14 个多态位点。17 个种(变种)的8 个SSR 位点的多态性信息含量的变化范围为0.148 0~0.940 8,平均值分别为0.593 0,其中QZ209 多态性信息含量最高,QZ207 最低。
表6(续)
表7 8 对SSR 引物位点多态性和遗传多样性分析Table 7 Polymorphism and genetic diversity of 8 SSR primers
图5 展示了3 个石蒜种经QZ209 引物扩增的检测结果,换锦花在215 bp 处为单峰扩增片段,扩增DNA产物的相对数量为3 064;黄长筒石蒜在221 bp 和224 bp 处有双峰扩增片段,扩增DNA 产物的相对数量分别为1 504 和1 638;石蒜在206、212 和218 bp 为三峰扩增片段,扩增DNA 产物的相对数量为2 206、1 020和840。
通过筛选得到8 对SSR 引物,将其用于17 个石蒜种的扩增,得到不同材料在各个位点其等位基因片段大小,如表8 所示。结合8 对核心引物的扩增结果其峰图,得到条带大小,引物可以有效区分各个种,最少可用1 对引物(QZ209)就可以将17 个种(变种)完全区分。17 个石蒜种(变种)其SSR 指纹图谱存在一定差异,能够用于特定图谱,为鉴别种质提供参考。
表8 17 个石蒜种(变种)的指纹图谱Table 8 Fingerprints of 17 Lycoris spp. resources
采用筛选出的特异性引物QZ209 对46 株杂交后代和4 株亲本的自交后代进行鉴定,46 株杂交后代中鉴定出44 株杂交植株,2 株假杂交植株,真实杂种率为95.65%。除了2 株假杂交植株(11 和18)只有母本的位点外,其余44 株真实杂交后代中均表现出双亲互补的杂合位点(表9),其中有代表性的7 个杂交后代采用QZ209 引物进行扩增,扩增产物的毛细管电泳检测如图6 所示。4 株亲本的自交后代采用QZ209 引物中的毛细管电泳检测图见图7,带型也与预期相符合,因此所开发的引物能够用于杂交后代的早期鉴定。
表9 基于SSR 分子标记的后代鉴定表Table 9 Hybrids identification table based on SSR marker
表9(续)
前期研究发现,长筒石蒜、石蒜、换锦花、香石蒜、忽地笑和中国石蒜这6 个种是石蒜属内观赏性、适应性和药用价值综合评价较好的种[35]。本研究利用Illumina NextSeqTM500 测序平台对这6 个石蒜属进行转录组测序和数据分析,总测序长度达到39.69 G 碱基,Q30 (碱基识别准确率在99.9% 以上) 大于90.02%,得到的高质量数据( clean reads) 有260 567 150条,组装后获得404 481 条Unigenes,并将香石蒜的转录组测序数据数据上传至NCBI 数据库,这些数据为石蒜属不同种的基因功能研究提供了丰富的序列信息。
石蒜属植物基因组较大、杂合度高、测序成本高,目前鲜见其基因组测序的相关报道[36-38]。转录组测序能够快速、准确地获得物种全转录本序列信息,不依赖于物种的全基因组信息,且价格低廉,在不同物种的分子标记开发中已被广泛应用[24-31]。本研究从石蒜属6 个种的转录组测序得到的404 481 个Unigenes 中得到59 612 个SSR 位点数,位点的发生频率为14.74%,低于换锦花(18.59%)[26],但高于忽地笑(6.90%)[39],单核苷酸重复最多的基元种类是A/T,而二核苷酸重复最多的是AG/CT,三核苷酸重复最多的为AAG/CTT,四核苷酸重复类型中最多的是AAAT/ATTT,这与在忽地笑的转录组测序中发现的三核苷酸重复占例最高的结论有较大不同[39],也与在换锦花转录组中不同核苷酸重复类型有区别[26],表明石蒜属不同种存在明显差异,采用通用SSR 引物对不同种扩增,可对其进行有效区分,这将为以后的分子育种奠定基础。
有研究利用长筒石蒜的表达序列标签(express sequence tag,EST)表达序列标签,开发出16 对具有多态性的SSR 标记[40];从石蒜中开发的10 对SSR 标记,也可以用于区分石蒜属的换锦花、安徽石蒜、乳白石蒜、长筒石蒜和中国石蒜[41],但上述引物无法用于石蒜的分析鉴定[42],对换锦花进行转录组测序,选择出的分子标记在石蒜属7 个种中具有通用性,可用于石蒜属资源的遗传多样性分析[26]。本研究设计的8对SSR 荧光引物,在石蒜属17 个种(变种)中均具有多态性,共扩增出60 个多态位点,引物多态率高于换锦花EST- SSR (89.09%)[26],引物QZ209 的多态性较高,多态性信息含量为0.940 8,利用荧光标记结合毛细管电泳检测,成功构建了不同资源的指纹图谱,并检测了46 个杂交后代的真实性,这表明本研究开发的引物多态性丰富,应用价值较高。前人研究发现,石蒜属资源类型丰富,属内同一种的不同种群之间也存在丰富的多态性[4,14,17,26],因此后续研究将继续进行不同SSR 标记的开发验证。
本研究基于石蒜属6 个种的转录组测序结果,将8 对SSR 荧光标记与毛细管电泳发光检测系统相结合,建立了石蒜属的17 份资源其指纹图谱,并对杂交后代的真实性进行了检测。8 对荧光引物共检测到60个多态位点,多态位点数平均为7.50,多态性信息含量平均为0.593 0。其中QZ209 的多态位点数达14个,多态性信息含量为0.940 8,该引物可将17 份资源材料完全区分,还可以用于对杂交后代真实性进行早期检测,是优良的SSR 分子标记,可以用于石蒜属资源分类鉴定。