蒋小刚,周武先,王 华,由金文,张美德
(湖北省农业科学院中药材研究所/农业农村部中药材生物学与栽培重点实验室,湖北 恩施 445000)
【研究意义】川党参(CodonopsistangshenOliv)为桔梗科党参属多年生藤本植物,以干燥根入药,具有健脾益肺、养血生津的功效,主要用于脾肺气虚、食少倦怠、咳嗽虚喘、气血不足等症,具有药食两用性,收载于《中华人民共和国药典》(2020年版)[1],主要分布于湖北西部、四川北部、湖南西北部和东部接壤地区及贵州北部。目前,川党参野生种质资源稀少,且栽培资源存在种质混杂、尚无优良品种和稳定纯系的问题,种质资源评价局限于药材化学成分研究[2-4],因此亟需建立川党参分子标记体系,为高效鉴别川党参种质及资源保护提供科学依据。【前人研究进展】简单重复序列(Simple sequence repeat, SSR),又称微卫星标记或短串联重复序列,由1~6个核苷酸重复单元组成,具有数量多、共显性好、多态性高、重复性好的特点[5],广泛应用于水稻[6]、玉米[7]等作物和黄芪[8]、红花[9]等药用植物的种质鉴定及遗传多样性研究。党参属三大基原植物包括党参、川党参和素花党参,目前川党参的SSR分子标记研究还未见报道,仅陈大霞等[10]利用SRAP和ISSR标记揭示了18份不同产地川党参种质较高的遗传多样性。而党参和素花党参的SSR分子标记研究较多,王东等[11]通过分析党参转录组数据,开发了4329 个SSR标记,为研究党参遗传多样性分析奠定基础。曹玲亚等[12]开发的EST-SSR筛选出10对EST-SSR将川党参、素花党参聚为一类,党参居群聚为另一类。李忠虎等[13]采用磁珠富集法分离筛选10对党参gSSR引物,揭示野生党参居群丰富的遗传多样性。刘星星等[14]利用NCBI公布序列和通用引物筛选了16对多态性SSR引物,分析了甘肃党参种质遗传多样性,随后针对轮叶党参[15]EST-SSR序列,筛选5对多态性引物,发现能有效鉴别党参属及近源属种。【本研究切入点】目前,已有学者针对党参和素花党参进行SSR分子标记开发和遗传多样性分析,但关于川党参相关的研究鲜见报道。【拟解决的关键问题】本研究基于Illumina平台对川党参转录组进行测序,并挖掘大量的EST-SSR位点,同时分析转录组SSR位点的分布特征,并对含有SSR序列的Unigene进行Go和KEGG功能注释,通过验证筛选27对扩增稳定的引物,用于后续川党参遗传多样性分析,为川党参种质鉴定、遗传图谱构建和基因定位等研究奠定理论基础。
试验材料为川党参新鲜幼嫩叶片,采自恩施市新塘乡川党参种质资源圃,种质信息见表1。从恩施板桥的川党参资源中,随机选取3株植株的新鲜幼嫩叶片迅速放入-80 ℃液氮中速冻,带回实验室置-80 ℃冰箱备用,用于转录组测序。随机选取每个产地3株植株的新鲜幼嫩叶片作为1份样品,用于基因组DNA提取。
表1 不同产地川党参种质资源信息
提取川党参叶片RNA,经质量检测合格后构建测序文库,采用Illumina测序平台进行测序。利用生物信息学软件Trinity对序列进行拼接,通过去冗余和质控获得非冗余、高质量Unigenes。通过MISA软件搜索转录组序列的SSR位点,参数设置:单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸的最少重复次数为10、6、5、5、5、5次。使用Primer 3软件对SSR重复基元前后序列设计引物,经校验后每条SSR产生3对引物。
采用新型植物DNA提取试剂盒(北京天根生物科技有限公司)提取表1中5个产地的川党参基因组DNA。PCR扩增体系:模板DNA 2.0 μL,2×Taqmaster mix 10.0 μL,10.0 μmol/L正反引物各0.2 μL,ddH2O 7.6 μL。反应程序为:94 ℃,预变性3 min,94 ℃变性0.5 min,56 ℃退火0.5 min,72 ℃延伸0.5 min,共35个循环,72 ℃延伸10 min,4 ℃保存。
采用Blast软件将川党参转录组中含SSR位点的Unigenes序列比对到NR(NCBI non-redundant protein sequences)、GO (Gene ontology)、KEGG(Kyoto encyclopedia of genes and genome)、eggNOG(Evolutionary genealogy of genes: Non-supervised Orthologous Groups)、Swiss-Prot、Pfam数据库,然后对注释到的 Unigene 序列进行GO和KEGG富集分析。
由表2可知,通过川党参转录组测序,共鉴定到124 179个Unigene,其中26 084个Unigene含有SSR位点,6978个Unigene含有1个以上SSR位点,共发现35 827个SSR位点(包含4155个复合型SSR)。SSR出现频率为28.85%,SSR发生频率为21.01%。说明川党参转录组 SSR 位点信息分布广且丰富。
表2 川党参转录组SSR位点信息
由表3可知,川党参转录组中二核苷酸SSR位点数最多(17 016个),单核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸SSR位点数分别为15 099、3177、356、70、109。共有165种重复基元类型,单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸重复分别有2、4、10、26、61、62种。从重复基元分布比例来看,单核苷酸重复基元A/T占SSR位点总数比例最高,为37.59%,其次是二核苷酸重复基元AG/CT、AC/GT、AT/AT,分别为25.38%、11.42%、10.57%,三核苷酸中重复基元以AAG/CTT最高,为2.13%,四核苷酸各重复基元整体小于0.27%,而五核苷酸和六核苷酸各重复基元比例最低,整体小于0.03%。从核苷酸重复基元平均距离来看,单核苷酸和二核苷酸平均距离较小,分别为5.97、5.30 kb,五核苷酸和六核苷酸平均距离较大,分别为1288.54、827.50 kb。说明,重复类型中单核苷酸的重复更容易发生,核苷酸数量越多时重复发生频率越低,表明川党参转录组的单核苷酸重复变异类型最为活跃,同时以A/T的重复类型为主。
表3 川党参转录组中的 SSR 类型分布
从图1可知,川党参转录组中SSR重复10次的最多,有7722个,占SSR总数的21.55%,其次是重复6、11、7、8次,分别有5181(14.46%)、3892(10.86%)、3532(9.86%)、2720(7.59%)个。重复次数<10的SSR位点中,二核苷酸的重复类型所占比例最高,为76.81%,重复次数>9的SSR位点中,单核苷酸的重复类型所占比例最高(73.98%)。单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸重复类型的SSR位点的重复次数最多,分别为10、6、5、5、5、5次。
图1 川党参转录组中SSR 重复次数分布Fig.1 The distribution of SSR repeats in C.tangshen transcriptome
从图2可知,川党参转录组SSR序列长度集中在12~19 bp,共19 628个,频率为54.79%;其次是10~12、20~30 bp,分别有9266(25.86%)、5192个(14.49%);少数 (1741个) SSR序列的长度在30 bp以上,频率仅为4.86%,说明川党参转录组SSR序列长度分布范围广,长度为12~19 bp 的SSR更易发生。
图2 川党参转录组中SSR序列长度分布Fig.2 The distribution of SSR length in C.tangshen transcriptome
采用MISA软件搜索到川党参转录组EST-SSR标记位点共31 506个,针对SSR位点,用Primer 3.0软件共设计引物72 687对,筛选27对SSR引物对川党参基因组DNA进行扩增,扩增片段大小范围为124~393 bp(表4)。基于5个产地川党参资源的基因组DNA模板筛选了部分多态性标记,表明扩增条带清晰,多态性较好(图3)。
M为DL 2000 DNA Marker;1~5样品名称与表1相同,引物从左至右依次为 DN61457_c1_g6、DN62367_c9_g1、DN53197_c3_g1、DN53427_c0_g3、DN60647_c1_g3、DN70663_c0_g1。M is DL 2000 DNA marker; The names of samples 1-5 are the same as table 1, and the primers from left to right are DN61457 _ c1_ g6, DN62367_ c9_ g1, DN53197_ c3_ g1, DN53427_ c0_ g3, DN60647_ c1_ g3, DN70663_ c0_ g1.图3 部分多态性引物扩增Fig.3 Amplification of partial polymorphic primers
表4 川党参SSR引物信息
含有Unigene的SSR序列共26 084条,对这些SSR序列进行GO 和 KEGG 功能注释。 GO注释将 16 842个 Unigene 划分为分子功能(Molecular function)、细胞组成(Cellular component)和生物学过程(Biological process)的 50 个功能类群(图4)。其中,在分子功能类别中, 这些Unigenes极显著富集于特异性DNA序列结合(80个)、转录调控(106个)、转录共调控(25个)、酶催化活性(676个)、DNA结合(280个)和酶结合(45个);在细胞组成类别中,Unigenes极显著富集于膜固有成分(1403个)、膜组成成分(1392个)、膜(6433个)和高尔基体活动(108个);在生物学过程类别中,生物过程调节(548个)、细胞过程调节(495个)、生物学调节(627个)等呈现极显著富集。通过KEGG 注释,4347个Unigene 被显著富集为18种类别(图5),其中信号转导(208个)、转录因子(169个)、植物激素信号转导(141个)、泛素系统(252个)、mRNA监测途径(83个)、蛋白激酶(140个)和甘油磷脂代谢(64个)等途径被极显著富集。
图4 川党参转录组含 SSR 位点的 Unigene 序列 GO 功能富集Fig.4 GO functional enrichment of unigenes containing SSR loci in transcriptomes of C.tangshen
图5 川党参转录组含 SSR 位点的 Unigene 序列 KEGG 功能富集Fig.5 KEGG functional enrichment of unigenes containing SSR loci in transcriptomes of C.tangshen
随着高通量测序技术的发展和测序成本的降低,转录组测序技术已被广泛应用于无参考基因组序列的物种EST-SSR分子标记开发。与基因组SSR分子标记相比,EST-SSR分子标记具有开发成本较低、通用性和保守型较高、易与表型性状相关联的优点[16-17]。本研究对川党参转录组测序,从124 179条Unigenes中鉴定到35 827个SSR位点,SSR出现频率为28.85%,高于轮叶党参(22.97%)[15]、党参(12.22%)[11]、八角(14.20%)[18]、滇黄精(17.02%)[19]等药用植物,低于睡莲(33.89%)[20]、枸杞(58.68%)[21]、天麻(38.15%)[22]等药用植物,表明川党参转录组具有丰富的SSR位点,样品来源、物种、SSR搜索标准的不同可能导致川党参SSR 发生频率与其他物种存在差异。
不同物种SSR重复类型不一样,但以二核苷酸和三核苷酸重复类型为主[23-24]。川党参SSR位点中,二核苷酸重复类型数量最多,为17 016个(47.49%),其次是单核苷酸、三核苷酸,分别为15 099个(42.15%)、3177个(8.85%),四核苷酸、五核苷酸、六核苷酸仅占总数的1.49%,这与黑枣[25]、油茶[26]等的研究结果比较一致。从SSR出现频率来看,单核苷酸重复基元A/T数量最多,其次是二核苷酸的重复基元AG/CT,三核苷酸的优势基元是AAG/CTT,这与黑枣[25]的研究结果相似,而川党参与黑枣、油茶等物种在植物系统分类上差异较大,亲缘关系较远,表明SSR核苷酸重复类型分布与物种进化无必然相关性。
SSR分子标记的长度是评价其多态性的重要因素。研究表明,当SSR长度在20 bp以上时,具有较高的多态性,而在12~19 bp时,多态性趋于保守,在12 bp以下时多态性较低[27]。本研究中,SSR长度在20 bp以上的有6933个,占总数的19.35%,其中37.67%是潜在多态性高的低级重复基元,包括单核苷酸(548)、二核苷酸(5174)、三核苷酸(676),这些多态性丰富的SSR将在后续研究中发挥重要作用。
本研究筛选了27对扩增稳定的川党参EST-SSR引物,并筛选了部分多态性标记,多态性潜能高于党参[11]、轮叶党参[15]等药用植物。此外,本研究对含有SSR的Unigene进行功能注释,发现这些潜能SSR基因序列功能主要集中于转录调控、DNA结合、催化、信号转导等生物学活动。这些生物学活动贯穿植物生长发育的整个过程,表明这些含有SSR位点的Unigene具有潜在丰富的基因功能,将为后续开发EST-SSR分子标记提供科学依据,从而进一步为川党参功能基因利用、分子辅助育种等奠定基础。
本研究将川党参转录组测序获得的124 179条Unigene进行SSR位点挖掘,共获得35 827个SSR位点,出现频率为28.85%。SSR位点中二核苷酸、单核苷酸重复类型占主导地位,二核苷酸中AG/CT出现的频率最高,单核苷酸中A/T出现频率最高。不同SSR的重复10次最多,长度分布集中在12~19 bp。对27对EST-SSR引物进行扩增,筛选部分多态性较高的引物。通过GO和KEGG富集分析,26 084个含有SSR序列的Unigenes极显著富集于转录调控、DNA结合、催化、信号转导等生物过程。开发的EST-SSR引物将为川党参遗传多样性分析、种质鉴定、分子标记辅助育种等提供研究基础。