范雪娇,汪贵斌,杨晓明,周婷婷,任 重
(南京林业大学,江苏 南京 210037)
银杏Ginkgo bilobaL.为银杏科银杏属植物,起源于古生代晚期,至今已有2.7 亿~3.5 亿年的演化历史,在经历过第四冰期后,银杏仅在我国残存,后被引种至其他国家,银杏是世界著名的中生代孑遗植物,也被誉为植物界的“活化石”,其种质资源十分珍贵[1-5]。银杏为落叶大乔木,雌雄异株,又被称为白果树、公孙树。银杏的用途十分广泛,目前,银杏在食用、观赏、生态防护、经济、医疗保健及科学研究等方面都具有很高的应用价值,尤其是银杏的药用价值已在世界范围内受到关注[6-8]。2015—2019年,浙江大学、中国科学院植物研究所和华大基因研究院的科学家们在构建了银杏首个基因组草图后对全球545 棵银杏大树进行了基因组重测序,2019年终于构建了迄今为止最大的银杏遗传数据库,这为认识银杏的进化历史与进化潜力提供了重要信息[9]。曾有学者研究了如何利用ISSR 分子标记来分析银杏种质资源的遗传多样性并鉴定其亲缘关系等问题[10],他们根据银杏大小孢子的转录组数据寻找与银杏性别相关的位点,为早期银杏性别的鉴定提供了理论依据[11],而有关SSR 位点的分布、不同基元类型的组成及其特征的详细分析等方面的研究报道却较少。
分子标记被广泛应用于遗传多样性分析、遗传图谱构建和品种鉴定之中[12]。简单重复序列(Simple Sequence Repeat,SSR)又称作微卫星标记,是一种由1~6 个碱基串联、重复不同次数才组成的重复DNA 序列。SSR 分子标记技术具有多态性高、重复性好、标记数量多、成本低廉、等位基因变异多等优点[11,13]。利用转录组测序技术来开发SSR 引物的方法,目前常被应用于党参[14]、三角梅[15]、百合[16]、苎麻[17]、褐沙蒿[18]等木本植物,穿心莲[19]、瓠瓜[20]等草本植物和冬虫夏草[21]等真菌的研究之中,还被运用于云南松[22]、红松[23]、水杉[24]、穗花杉[25]等裸子植物的研究之中。当前高通量测序手段发展迅速,测序的成本也在显著降低,这为日后SSR 分子标记的设计提供了更大的可能性。通过对测序后的转录组数据库进行SSR 位点分布及特征分析,可以为以后设计、筛选SSR 引物提供更加可靠的理论依据[26-28]。
为给后续银杏遗传多样性的深入分析、遗传图谱的构建及其品种的鉴定奠定理论基础,本研究利用Illumina HiSeq 2500 高通量测序技术进行了银杏叶片的转录组测序,建立了银杏转录组数据库;并使用Excel 软件对组装拼接后的银杏转录组数据库进行了SSR 位点的筛选,随之进行后续的分布及特性分析,以期为日后银杏SSR 分子标记的筛选和开发、SSR 遗传多样性分析、遗传图谱构建、品种鉴定及其种质资源保护奠定理论基础。
供试的叶片材料一部分取自江苏省南京市南京林业大学校内的银杏树;另一部分为2018年采自6 个品种(单株)的银杏叶片,6 个品种(单株)分别为‘洞庭皇’、铁马1 号、桂林6 号、浙江长兴3 号、圆铃13 号、银杏久寿。分别取其嫩叶,立即放入冰盒内保存,然后置于-80 ℃的超低温冰箱中保存以备后续试验之用。
将采集的南京林业大学校内的银杏嫩叶送至北京诺禾致源科技股份有限公司进行转录组测序。
参照Grabherr[29]采用的方法,使用Trinity 软件对南京林业大学校内的银杏叶片测序所得到的银杏转录组数据进行de novo 组装,再使用MISA软件对获得的Unigenes 序列进行SSR 位点的搜索,对每种核苷酸重复基元的搜索次数最少为5 次,由于单核苷酸重复基元的SSR 位点在实际应用中使用较少,故未对其进行筛选。
利用Excel 软件对银杏叶片转录组数据(即SSR 位点的出现频率、平均距离、基元类型和组成及重复单元的类型)进行分析,用这些数据反映出的特征来分析SSR 位点的分布特征和序列特征。其中,SSR 位点的平均距离是搜索所得微卫星的长度与总长度之比,SSR 位点的出现频率是搜索到的微卫星的数量与序列总数的比值,G+C为碱基鸟嘌呤和胞嘧啶的合称。
利用Primer 3.0 软件对银杏转录组EST-SSR 位点进行引物设计,针对不同基元类型各设计20 对引物,利用6 个品种(单株)的银杏叶片对所有引物进行筛选。
SSR 位点的搜索结果见表1。通过对银杏转录组的组装,总共获得了去冗长的Unigenes 序列299 373 条,其总长度为232 983 457 bp,即232 983.457 kb;其中,G+C 的占比为42.82%。由表1可知,共搜索到17 821 个SSR 位点,其总长为278.542 kb,SSR位点出现的频率为5.95%,其中,有16 163 条Unigenes 序列含有1 个以上的SSR 位点,还有1 695 条Unigenes 序列含有以复合物形式存在的SSR 位点。由转录组数据可知,平均长为13 073.53 bp 的序列中就有1 个SSR 位点,即每13.07 kb 长的序列中就有1 个SSR 位点。
表1 银杏转录组各SSR 位点的分布特征Table 1 The distribution characteristics of various SSR in G.biloba
银杏转录组中拥有丰富的SSR 基元类型。对各SSR 重复基元进行检索,统计结果见表2。由表2可知,基元类型为二核苷酸的重复次数最多,占SSR 位点总数的74.46%;其次是三核苷酸,占SSR 位点总数的23.37%;其他类型的基元类型,如四核苷酸、六核苷酸和五核苷酸的占比均较低,分别为1.32%、0.53%和0.31%。从SSR 各基元类型的分布距离来看,五核苷酸的平均分布距离最长,为4 160.42 kb,即平均每隔4 160.42 kb 就可识别到一个五核苷酸的SSR 位点;其次是六核苷酸,其平均分布距离为2 452.46 kb,即平均每隔2 452.46 kb 就可识别到一个六核苷酸的SSR 位点;而分布距离最短的是二核苷酸,其平均分布距离为17.56 kb,即平均每隔17.56 kb 就可识别到一个二核苷酸的SSR 位点,其次分别是四核苷酸和三核苷酸,其平均分布距离分别为991.42 和55.94 bp。通过统计其出现频率可知,出现频率最高的是基元类型为二核苷酸的基元,其占比为4.43%;出现频率最低的是基元类型为五核苷酸的基元,其占比为0.02%。
表2 基于转录组的银杏SSR 位点不同基元类型的检索结果Table 2 Transcriptome-based search results for different motif types of G.biloba SSR sites
银杏转录组中SSR 重复单元碱基的组成种类多样,其比例也不同,检测结果见表3。由表3可知,在银杏叶片转录组的SSR 位点中,二核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸的基元种类数分别为4、10、13、16、24 种,其中,二核苷酸的主要重复基元是AG,共有5 559 个,其占二核苷酸SSR 位点总数的31.19%;三核苷酸的主要重复基元是AAG,共有828 个,其占三核苷酸SSR 位点总数的4.65%;四核苷酸的主要重复基元是AAGT,共有41 个,其占四核苷酸SSR位点总数的0.23%;五核苷酸的主要重复基元有两种,分别是AAAAT 和AAATT,各有7 个,共占五核苷酸SSR 位点总数的0.04%;六核苷酸的主要重复基元是AACCCG,共有19 个,其占六核苷酸SSR 位点总数的0.11%。
表3 银杏转录组的SSR 位点重复的基元序列特征Table 3 Characteristics of SSR site repeat motifs sequence in transcriptome of G.biloba
基于转录组的银杏SSR 基序类型的分布情况见表4,银杏转录组中不同SSR 基序类型的比例如图1所示。分析不同基元类型的组成比例时发现,在二核苷酸的重复基元中,出现次数最多的是AG/CT,一共有5 559 个,占二核苷酸重复基元总数的41.89%,占SSR 位点总数的31.19%;其次是AT/TA,一共有4 785 个,占二核苷酸重复基元总数的36.06%,占SSR 位点总数的26.85%;而出现次数最少的是CG/GC,仅有197 个,占二核苷酸重复基元总数的1.48%,占SSR 位点总数的1.11%。在三核苷酸的重复基元中,出现频率最高的是AAG/TTC,一共有828 个,占三核苷酸重复基元总数的19.88%,占SSR 位点总数的4.65%;其次是AAT/TAA,一共有633 个,占三核苷酸重复基元总数的15.20%,占SSR 位点总数的3.55%;出现次数最少的重复基元是ATC/ATG,一共有193 个,占三核苷酸重复基元总数的4.63%,占SSR 位点总数的1.08%。在四核苷酸的重复基元中,出现次数最多的是AAGT/ACTT,一共有41 个,占四核苷酸重复基元总数的17.45%,占SSR 位点总数的0.23%;出现次数最少的是AACC/GGTT,只有5 个,占四核苷酸重复基元总数的2.13%,占SSR 位点总数的0.03%。在五核苷酸的重复基元中,出现次数最多的分别为AAAAT/ATTTT 和AAATT/AATTT,各有7 个,占五核苷酸重复基元总数的12.50%,仅占SSR 位点总数的0.04%。六核苷酸的主要重复基序是AACCCG/CGGGTT,一共有19 个,占六核苷酸重复基元总数的20.00%,仅占SSR 位点总数的0.11%。
图1 银杏转录组中不同SSR 基序类型的占比Fig.1 Ratio of different SSR motif types in G.biloba transcriptome
表4 基于转录组的银杏SSR 基序类型的分布情况Table 4 Distribution of SSR motif types in G.biloba based on transcriptome
对银杏转录组数据中5 种基元类型的SSR 位点重复出现次数进行了检索统计,结果见表5。由表5可知,不同基元类型SSR 位点的重复出现次数集中为5~11 次;重复出现次数为5~11 次的SSR 位点数共计16 076 个,占检索到的SSR 位点总数的90.21%。其中,重复出现次数为5 次的SSR 位点数共计9 367 个,占检索到的SSR 位点总数的比例(52.56%)最大;其次依次是重复出现次数分别为6 和7 次的,其SSR 位点数分别占检索到的SSR 位点总数的15.73%(2 804 个)和7.59%(1 352 个)。统计发现,在重复出现5 次的 SSR 位点数中,二核苷酸最多(6 505 个),其次是三核苷酸(2 623 个)。SSR 位点重复出现次数在11 次以上的不同基元类型的SSR 位点总数占检索到的SSR 位点总数的9.79%。不同基元类型不同重复出现次数的SSR 位点个数的分布情况如图2所示。从图2中可以看出,随着重复出现次数的增加,不同基元类型的SSR 位点的出现频率会随之降低。
图2 不同基元类型不同重复出现次数的SSR 位点个数Table 2 The number of SSR loci with different repeat times and different primitive types
表5 不同基元类型的不同重复出现次数的SSR 位点个数Table 5 The number of SSR sites of different repetition types in different repetition times
银杏转录组数据中基序长度的分布情况如图3所示。由图3可知,银杏转录组中SSR 位点长度大部分集中为10~20 bp,此类SSR 位点共有14 822 个,占SSR 位点总数的83.17%;其次是基序长度为21~30 bp 的SSR 位点,共有2 039 个,占SSR 位点总数中的11.44%;而基序长度分别为31~40、41~50、51~60、60 bp 以上的SSR位点数分别为622、199、69、10 个,占SSR 位点总数的比例分别为3.49%、1.12%、0.39%、0.06%。所有SSR 位点的平均长度是15.63 bp,其中,二核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸的平均长度分别为14.89、16.94、22.71、32.86、34.11 bp,并且随着基序长度的增加,SSR位点的数量总体趋势是减少的,但六核苷酸的SSR 位点个数略多于五核苷酸的。
图3 基于转录组的银杏SSR 基序长度的分布情况Fig.3 Repetitive length distribution map of G.biloba SSR based on transcriptome
试验所用的引物均由生工生物工程(上海)股份有限公司合成,PCR 反应所需的2×Taq PCR Master Mix 和DNA marker 均购买于擎科生物(南京)有限公司。使用不同品种(单株)的6 份银杏叶片样品的DNA 模板对100 对引物进行筛选,结果筛选出了条带清晰、稳定性和多态性均好的引物,然后对其进行PCR 扩增,部分结果如图4所示,对应的引物信息见表6。
表6 不同银杏叶片样品不同SSR 引物的部分序列信息Table 6 Partial sequence information of SSR primers
图4 6 个品种(单株)银杏叶片样品的SSR 引物PCR 扩增的部分结果Fig.4 Partial results of PCR amplification with SSR primers
通过对银杏转录组测序数据的组装及搜索,总共获得了299 373 条去冗长的Unigenes 序列,其总长度为232 983.457 kb,搜索到的SSR 位点共有17 821 个,其总长为278.542 kb,其出现频率为5.95%,平均分布距离为13.07 kb,其中G+C的比例为42.82%。该结果高于裸子植物中云南松的SSR 位点的总体出现频率(3.07%),其平均分布距离比云南松的平均分布距离(29 kb)短[22],同时高于红松SSR 位点的总体出现频率(4.24%)、短于红松SSR 位点的平均分布距离(17.38 kb)[21],略低于杨树SSR 位点的总体出现频率(14.8%)[30]。由此可知,银杏转录组数据中SSR 位点的出现频率相对较高且其平均分布距离较短,这一结果说明了银杏转录组中SSR位点的数量与种类均较多。
目前,大多数研究者对植物转录组测序数据SSR 位点的分析结果都显示,SSR 位点中以二核苷酸与三核苷酸为主,不同的只是主导的重复基元不一样,这与蔡年辉等[22]对云南松的研究结果类似。分析银杏转录组数据可知,银杏转录组中拥有丰富的SSR 基元类型:其中,二核苷酸的基元类型重复出现的次数最多,共有13 270 个,占搜素到的SSR 位点总数的74.46%;其次是三核苷酸,占搜素到的SSR 位点总数的23.37%;其他类型的基元类型四核苷酸、五核苷酸和六核苷酸的占比均较低,分别为1.32%、0.31%和0.53%。二核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸的平均分布距离分别为17.56、55.94、991.42、4 160.42、2 452.46 kb,其出现频率分别为4.43 %、1.39%、0.08%、0.02%、0.03%。
SSR 重复单元碱基的组成种类多样,在银杏转录组SSR 位点的组成中,二核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸的基元数分别为4、10、13、16、24、67 种,5 种基元类型重复次数最多的碱基组成之和占搜索到的SSR 位点总数的36.22%,二核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸的基元类型分别占搜索到的SSR 位点总数的31.19%、4.65%、0.23%、0.04%、0.11%;在二核苷酸的重复基元中,主要的重复基序是AG/CT,共有5 556 个,占二核苷酸重复基元总数的41.87%;在三核苷酸的重复基元中,主要的重复基序是AAG/TTC,共有828 个,占三核苷酸重复基元总数的19.88%;在四核苷酸的重复基元中,主要的重复基序是AAGT/ACTT,共有41 个,占四核苷酸重复基元总数的20.00%;在五核苷酸的重复基元中,主要的重复基序分别为AAAAT/ATTTT 和AAATT/AATTT,各有7 个,分别占五核苷酸重复基元总数的12.50%;在六核苷酸的重复基元中,主要的重复基序是AACCCG/CGGGTT,共19 个,占六核苷酸重复基元总数的17.45%。
有关学者研究认为,重复出现次数多的SSR位点具有较高的多态性潜力[31],5 种基元类型重复出现次数集中为5~11 次的SSR 位点共计16 076 个,占搜索到的SSR 位点总数的90.21%,重复出现次数在11 次以上的重复类型占搜索到的SSR 位点总数的9.79%。据此结果可以认为,银杏具有较高多态性的潜力。其中,占搜索到的SSR位点总数的比例最多的是重复出现5 次的SSR 位点,共计9 367 个,占搜索到的SSR 位点总数的52.56%;其次是重复出现次数分别为6 和7 次的SSR 位点,分别占搜索到的SSR 位点总数的15.73%(2 804 个)和7.59%(1 352 个)。其中,基元类型为二核苷酸的重复出现5 次的SSR 位点数量最多(6 505 个)。随着重复次数的增加,SSR 位点数量的出现频率整体呈降低趋势。
由于不同基元的不同重复次数及碱基数量不同而形成了长度不同的序列,对SSR 位点的多态性产生了影响[32]。因此,影响其多态性的因素主要是SSR 位点的长度[33-34]。银杏转录组SSR位点总数中有将近95%的位点其基序长度集中为10~30 bp;其中,基序长度为10~20 bp的SSR 位点有14 822 个,占SSR 位点总数的83.17%;基序长度为21~30 bp 的SSR 位点共有2 039 个,占SSR 位点总数的11.44%;基序长度分别为31~40、41~50、51~60 及60 bp 以上的SSR 位点数量均较少,分别有622、199、69 和10个,分别占SSR位点总数的3.49%、1.12%、0.39%和0.06%。根据基序长度在一定长度范围内倾向于扩张的理论可知,银杏转录组中SSR 位点基序长度大多数倾向于扩张,所以测序所得的银杏转录组中的SSR 位点大部分具有多态性的潜力且突变出现的频率较低,能够用于后续的具有较强多态性的银杏SSR 引物的设计和开发之中[13,35]。
总体来看,银杏转录组中SSR 位点的出现频率较高,分布距离近,SSR 位点的重复类型及其重复基元均较丰富。基于以上特点开发的引物具有多态性的潜力。本试验对开发的SSR 引物的检测局限于6 份不同品种(单株)的银杏叶片样品之间,对其SSR 位点的挖掘也停留在特征分析层面,而对后续SSR 引物的大量开发和广泛应用、银杏品种之间的遗传多样性分析以及构建遗传图谱则需要对更多品种进行相关的试验验证。