基于简化基因组测序高粱育种材料亲缘关系的分析

2020-12-21 09:19张一中范昕琦杨慧勇张晓娟邵强梁笃郭琦柳青山杜维俊
生物技术通报 2020年12期
关键词:类群亲本高粱

张一中 范昕琦 杨慧勇 张晓娟 邵强 梁笃 郭琦柳青山 杜维俊

(1. 山西农业大学(山西省农业科学院)高粱研究所 高粱遗传与种质创新山西省重点实验室,榆次 030600;2. 山西农业大学农学院,太谷 030801)

高粱是我国重要的杂粮作物,具有抗逆性强、光合效率高等特点[1],是干旱、盐碱和瘠薄等边际农田生长的先锋作物,也是种植业结构调整、发展特色农业的优势作物。高粱是最早实现杂种优势利用的作物之一[2],与20世纪70年代相比,我国是高粱产量增长最快的国家,以平均每年100.9 kg/hm2的速度增长[3],杂交种的选育和推广起到了显著作用。杂种优势的利用是提高高粱产量的主要途径[4],亲本间的遗传差异是产生杂种优势的遗传基础[5]。因此,系统研究高粱育种材料的遗传结构和类群间遗传距离的大小,对于改良创新育种材料、提高育种效率具有重要意义。

前人利用分子标记对高粱材料的遗传结构和亲缘关系进行了大量研究。Wang等[6]利用简单重复序列标记(Simple sequence repeats,SSR)将142份甜高粱亲本系聚为7类,亲本间遗传距离为0.558-0.858,并发现来源于印度和墨西哥的亲本遗传距离要高于其他国家。Basahi[7]采用简单重复序列区间(Inter-simple sequence repeat,ISSR)技术分析了15份沙特阿拉伯和也门的地方品种,遗传距离介于0.527-0.818。高旭等[8]采用33个SSR标记,将156份粒用高粱材料根据地理来源划分为西南区、东北和华北区以及南北方省份混合的3个类群。李萌等[9]分析了来自山西不同地市158份高粱地方品种的遗传距离发现,忻州居群和晋中居群的遗传距离最小,基因交流比较频繁;而阳泉居群和其他居群间的遗传距离都较大,基因隔离显著,显示了阳泉地方品种的独特性。

单核苷酸多态性(Single nucleotide polymorphism,SNP)标记作为近年来发展最有潜力的第三代分子标记,与常规标记相比具有在基因组分布均匀、密度大、准确性高、成本低、易于分型等优点[10]。随着高通量测序技术的快速发展,开发大量SNP标记变得越来越容易。特异性位点扩增片段测序技术(Specific-locus amplified fragment sequencing,SLAFseq)是基于高通量测序技术发展起来的一种简化基因组深度测序技术[11]。SLAF-seq技术对目标物种参考基因组系统分析,设计酶切方案,构建SLAF-seq文库,筛选特异性长度片段进行高通量测序,进而开发出大量的分子标记特别是SNP标记[12]。目前,该技术已成功应用于棉花[13]、甘薯[14]的遗传进化分析以及高粱SNP标记开发[15]、遗传图谱构建[16]、重要性状基因定位[17-18]等研究上,但在高粱育种材料亲缘关系分析上还鲜见报道。我国高粱育种材料类型比较复杂,很多外引材料或田间变异单株,根据田间表型难以准确鉴别材料间的亲缘关系,田间测配鉴定过程繁琐、耗时费力,大大限制了育种效率。

本研究利用SLAF-seq技术分析高粱常用育种材料的遗传结构,以探明部分系谱不清、类型不明材料的遗传背景和亲缘关系,从而避免育种中亲本选配的盲目性,为更好地创新利用育种材料提供理论依据。

1 材料与方法

1.1 材料

根据前期工作基础[19],选取农艺性状差异较大的37份育种亲本及地方品种为试验材料(表1),其中来源于中国山西省16份、中国辽宁省7份、中国四川省5份、中国吉林省3份、中国黑龙江省2份、美国2份、印度1份和马达加斯加1份。按照材料类型划分为3类,包括恢复系18份、保持系16份和地方品种3份。所用材料均是近年从国内外引进或自主选育的稳定系,由山西省农业科学院高粱研究所提供。

表1 供试材料名称及来源

1.2 方法

1.2.1 高粱DNA的提取 取高粱4叶期时的嫩叶,采用十六烷基三甲基溴化铵(Cetyltrimethylammonium ammonium bromide,CTAB)法 提 取 高 粱DNA[9],用1.0%琼脂糖凝胶电泳检测DNA的完整性,用NanoDrop分光光度计检测DNA浓度。

1.2.2 酶切方案的确定 选择已测序完成的高粱(Sorghum_bicolor_v3.1)基因组作为参考基因组,组装基因组大小为732 Mb,GC含量为43.91%,下载地址:https://phytozome.jgi.doe.gov/pz/portal.html#!info?alias=Org_Sbicolor。参照石璇等[10]的酶切方案,利用SLAF酶切预测软件对参考基因组进行酶切预测,选择最适酶切方案。

1.2.3 基因组测序、SLAF标签分析及SNP分析 根据选定的最适酶切方案,对检测合格的各材料基因组DNA分别进行酶切。对得到的酶切片段(SLAF标签)进行3'端加A处理、连接Dual-index[20]测序接头、PCR扩增、纯化、混样、切胶选取目的片段,文库质检合格后用Illumina HiSeq 2500进行测序。为评估酶切实验的准确性,选用水稻品种日本晴(Oryza sativaL. ssp.japonica)作为对照进行测序,其基因组大小为374.31 Mb,下载地址:http://rice.plantbiology.msu.edu。

利用Dual-index对测序得到的原始数据进行识别,得到各个样品的reads。过滤测序reads的接头后,进行测序质量和数据量的评估。通过Control数据评估酶切效率,以此判断实验过程的准确性和有效性。参照俞奔驰等[21]的方法进行SLAF标签分析。使用SAM tools[22]和GATK软件[23]开发SNP,以2种方法得到的SNP标记交集作为最终可靠的SNP标记数据集。

1.2.4 群体遗传结构和亲缘关系分析 对开发出的SNP分子标记根据次要基因型频率(Minor allele frequency,MAF)>0.05、完整度>0.8进行过滤,基于过滤后的高质量SNP,利用统计软件Admixture[24]、MEGA5[25]和Eigensoft[26]分别进行群体结构、亲缘关系及主成分分析。

2 结果

2.1 酶切方案与建库评估

根据高粱参考基因组电子酶切预测结果,确定限制性内切酶为RsaI和HaeⅢ,酶切片段长度在364-414 bp的序列定义为SLAF标签,预测可得到108 854个SLAF标签。

为进一步评估酶切方案的有效性与酶切效率,以水稻品种日本晴的测序数据为对照,通过SOAP[27]软件将对照测序reads与其参考基因组进行比对,从表2可知,本次实验双端比对效率为92.15%,酶切效率为89.69%,读长插入片段分布在预期范围之内(图1),表明建库比对效率基本正常,SLAF建库正常。

图1 对照序列插入片段分布图

表2 水稻测序reads比对分析

2.2 测序数据统计与评估

表3 各样品SLAF-seq测序数据统计表

为保证测序数据分析质量,采用读长100 bp×2作为后续的数据评估和分析数据,同时以日本晴的测序数据作为对照来评估实验建库的准确性。采用Illumina HiSeqTM2500测序平台进行测序,共获得106.19 M的reads数据,对照获得0.19 M reads的数据。测序后各样品所获得的reads个数在1 461 206-4 628 462范围内(表3),平均为2 135 655个,其中,L17R获得的数据量最大,H02079的数据量最小。测序质量Q30值的范围在88.00%-90.91%,均值为89.60%,对照的Q30为88.87%,说明测序碱基错误率较低。测序获得GC含量范围在44.51%-46.77%,均值为45.71%,对照GC含量为43.18%,达到测序要求。

2.3 SLAF标签和SNP分子标记的鉴定

通过序列分析,从37份高粱育种材料里共获得了226 724个SLAF标签,每个材料SLAF标签变化范围为154 623-191 999个(表4)。每个材料的平均测序深度有所差别,从7.05×至21.61×,平均测序深度为13.25×,达到了SLAF实验预期。

表4 SLAF标签及群体SNP统计表

从这些SLAF标签中共鉴定到多态性SLAF标签105 053个。通过进一步分析,共获得706 444个群体SNP标记,各材料SNP变化范围为239 963-342 316。这些SNP的完整度为33.97%-47.26%,SNP 的杂合率为1.79%-13.32%。统计多态性SLAF标签和SNP标记在高粱不同染色体上的个数,根据这些数据绘制染色体分布图(图2),开发的多态性SLAF标签和SNP分布较均匀,说明测序数据正常,可进行后续分析。根据完整度>0.8、次要等位基因频率(MAF)>0.05过滤,共得到185 481个高一致性的群体SNP用于后续分析。

2.4 群体遗传结构分析

基于筛选出的高一致性SNP,利用Admixtur软件分析高粱材料的遗传结构。分别假设群体的分群数(K值)为1-10,根据交叉验证错误率来确定分群数,拥有最低交叉验证错误率的分群数为最优分群数。如图3和图4所示,当K值为2时,交叉验证错误率值最低,说明37份高粱材料被分为2类。黄色类群包括含有Kafir高粱、Kafir-caudatum高粱和Durra高粱等国外种群血缘的17份材料,其中大部分为保持系,来自马达加斯加的非洲高粱归为此类。绿色类群包括含有中国高粱血缘(Kaoliang)的20份材料,其中18份为现代育种育成的恢复系,2份为山西的地方品种。

2.5 聚类分析

为探明37份高粱材料之间的亲缘关系,基于筛选出的高一致性SNP标记,通过MEGA5软件,运用Neighbor-joining算法构建遗传关系聚类图(图5),37份材料被划分为2个类群,类群I为保持系和国外品种,类群II为恢复系和中国地方品种,分类结果与遗传结构一致。根据高粱种群及血缘进一步划分,2个类群分别可以分为5个亚群(图5和表5)。亚群I-1只有1份材料,为糯质白粒保持系8808B,其遗传背景不详。亚群I-2包括Tx3197B和L407B,其中Tx3197B为Kafir种群,因L407B血缘不详,推断L407B可能也属于此种群。亚群I-3包括6份材料,属于Durra种群,如含有印度Durra血缘的V4B,以及倾印度Durra血缘的吉2055B。亚群I-4包括2份材料,10480B和11494B是45B杂交后代选育的姊妹系,含有Kafir-caudatum、Durra血缘,属于近年育成的国内改良系。亚群I-5包括6份材料,其中Tx623B属于Kafir-caudatum种群,因此,推断其他5份材料可能也含有这一种群的血缘。

图2 多态性SLAF 标签和SNP标记在参考基因组各染色体上的分布图

图3 不同K值对应的交叉验证错误率

亚群II-1包括5-26和5-27 2份矮秆白粒恢复系,其血缘含有Kafir高粱、印度Durra高粱和中国高粱,属于血缘较复杂的国内改良恢复系。亚群II-2和II-3分别包括1份材料,其遗传背景不详,072198是引自黑龙江的恢复系,LNR-4是引自辽宁的晚熟糯质恢复系。亚群II-4包括7份材料,其中0-30、R111、L17R为晋粱5号的衍生系,吉R105含有国外血缘,属于倾中国高粱种群。亚群II-5包括9份材料,其中忻粱7号、晋粱5号和1383-2血缘关系最近,棒洛三和三尺三是中国高粱种群的地方品种,其他材料血缘不详,这一亚群属于中国、倾中国高粱种群。从分组结果可知,属于同一种群的材料基本可以聚为一类,与其来源无关。

2.6 主成分分析

基于筛选的SNP,利用EIGENSOFT软件对供试材料进行主成分分析(Principal components analysis,PCA),得到37份高粱材料的主成分聚类图。从图6可以看出,含有中国高粱血缘的恢复系和中国地方品种聚在一起,群体相对集中;而含有国外血缘的A1、A2保持系和非洲地方品种分布较分散,由于国外种群类型复杂,导致亲缘关系比较近的材料聚在一起。该结果与群体结构分析结果、聚类结果基本一致,说明聚类分析的准确性。

2.7 遗传距离分析

利用MEGA 5软件基于Kimura 2-parameter(K2P)模型计算育种材料间的遗传距离,结果表明,37份材料的遗传距离值范围为0.0098-0.8841,平均为0.4626(图7),其中遗传距离最小的是L2R与L17R,仅为0.0098;遗传距离最大的是3765白B与L17R,为0.8841。

从划分的类群看,类群I材料间的遗传距离值范围为0.0488-0.7102,平均为0.3081,遗传距离最大的是V4B和Tx3197B,最小的是3765红B与3765白B。类群II的遗传距离值范围为0.0098-0.6210,平均为0.2896,遗传距离最小的是L2R与L17,遗传距离最大的是072198与吉R105。由此可见,类群II的恢复系与类群I的保持系相比遗传基础相对单一,在今后的育种中应拓宽恢复系的遗传基础。

图4 不同分群数(K值)对应的高粱材料聚类情况

类群I与类群II材料之间的遗传距离变幅为0.3317-0.8841,平均为0.6211,最大的是3765白B与L17R,遗传差异较大;最小的是Tx3197B与5-27,这主要是由于5-27含有Kafir高粱Tx3197B的血缘,2个材料亲缘关系较近[28]。从亚群来看(表6),I-5亚群的Kafir-caudatum高粱与II-4亚群的倾中国高粱遗传距离最大,为0.7303;I-3亚群的Durra高粱与II-4的倾中国高粱遗传距离也达到了0.7297,进一步印证了Kafir-caudatum高粱×倾中国高粱、Durra高粱×倾中国高粱为我国高粱杂种优势利用的主要模式[4]。

图5 基于SNP标记的37个高粱材料聚类图

表5 基于SNP的高粱材料分组信息表

图6 37份高粱材料的双向PCA聚类图

图7 37份材料间遗传距离值的次数分布图

2.8 不同育种材料间的遗传距离分析

王瑞等[4]研究表明中国高粱不同时期主干品种亲本间的遗传距离值均在0.7以上,根据这一结果,从666个组合的遗传距离值中选择大于0.7的102个优势组合进行分析。在所选组合中,除了Tx3197B和V4B属于同一类群外(遗传距离为0.7102),其余的101个组合均是类群I材料与类群II材料之间的距离值。

由表7可知,在类群I材料中与类群II材料遗传距离平均值最大的是LgBR5M874B-III,属于Durra种群;其次是3765白B,属于Kafir-caudatum种群。在类群II中,与类群I材料遗传距离平均值最大的是L17R,其次是L2R,且平均值均达到了0.8以上,说明这两份材料与部分保持系遗传差异较大,可能会组配出强优势的杂交种。

表6 不同类群间的平均遗传距离值

3 讨论

基于SLAF-seq的简化基因组测序技术具有成本低、周期短、准确性高、标记数量多等优点,作为一种高效开发SNP标记的技术已得到广泛应用。如石璇等[10]利用SLAF-seq技术对8个甘薯栽培种和野生种进行测序,获得40 765个有效SNP,并用这些SNP分析了8个种质的群体结构和系统发生树。籍贵苏等[15]以甜高粱与粒用高粱杂交的F2遗传群体为研究材料,利用SLAF-seq技术开发出6 353个多态性SNP标记用于遗传图谱构建。俞奔驰等[21]针对木薯基因组杂合度高的特点,利用SLAF-seq技术对39份木薯种质资源进行SNP标记开发,共得到2 504 553个群体SNP标记。本研究利用SLAFseq技术共开发了105 053个多态性SLAF标签,通过序列分析,获得185 451个高一致性SNP标记,所获得标记足够用来进行特异性SNP标记的验证与开发,获得标记的效率大幅度提高,并利用这些分子标记进行了群体结构和聚类分析,为了解材料的亲缘关系提供了分子证据。

表7 在遗传距离值>0.7的组合中供试高粱单个材料与其余材料的遗传距离平均值

目前,我国高粱育种材料比较丰富,但很多外引材料缺乏可追溯的系谱,遗传背景不清楚,给种质创新和组配杂交种带来了一定困难[8]。因此,解析育种材料的遗传结构、划分类群、明确类群间亲缘关系,对提高育种效率具有重要意义。本研究通过遗传结构分析、聚类分析和主成分分析都将37份高粱材料划分为2个类群,类群I为国外材料和含有国外血缘的改良系,类群II为含有中国高粱血缘的材料,说明中国高粱与国外高粱之间遗传差异明显,这一结果与王瑞等[29]、倪先林等[30]的报道是一致的。Adugna[31]认为高粱遗传结构的划分与品种的地理来源没有必然联系,但Wang等[32]研究表明242份高粱微核心种质的遗传结构是由地理起源和高粱种群共同决定的。本研究的聚类结果主要是以种群划分,与前人研究结果不同主要是由于选取的实验材料类型不同所致。由于在长期的育种实践中,各育种单位材料交流比较密切,本研究的很多材料都是利用外引种质与本地材料有效互补、定向选育,血缘关系较近;或是有些材料虽然地理来源不同,但可能来自同一亲本,也可能亲本来源于相似的适生环境,使这些材料含有一些相同的遗传物质,进而聚到一起[33],所以材料的分类不能单一的以地理来源或农艺性状来划分,还需结合分子标记进行深入分析。

高粱亲本间的遗传距离与杂种优势水平有较密切的关系,亲本的选配应充分考虑遗传距离[4]。王瑞等[29]利用SSR标记分析了61 份高粱材料的遗传距离,供试材料的遗传距离平均为0.6941,恢复系的遗传距离范围为0.1122-0.6391,平均为0.5137,不育系的遗传距离范围为0.1-0.8178,平均为0.6516,恢复系与保持系相比遗传基础较狭窄。本研究得出的结果与前人相比,遗传距离值的变化范围基本一致,但两个类群的遗传距离平均值明显小于前人的结果,说明本研究供试材料遗传基础较窄,这主要由于大部分材料亲缘关系较近,如10480B和11494B是45B和LgBR5M874B-I杂交的后代选系,3765红B和3765白B是Tx623B的改良系,R111、0-30、1383-2、L17R都含有晋粱5号的血缘,由此降低了高粱材料的遗传多样性。因此,在今后的高粱育种中,应引入国外的优良新种质,不断拓宽高粱材料的遗传基础。

研究杂种优势模式、分析杂种优势群,在促进玉米[34]、水稻[35]的种质改良及提高杂交种选育效率上得到了广泛应用。本研究表明Kafir-caudatum高粱×倾中国高粱和Durra高粱×倾中国高粱遗传距离远、遗传差异大,这与王瑞等[4]、高士杰等[36]研究结果一致,说明高粱育种中还应充分利用这两种杂种优势利用模式,配制强优势杂交种。通过对遗传距离值大于0.7的组合进行分析,发现L17R和L2R与其他材料的平均值均在0.8以上,特别是与I-5亚群的大部分材料及I-3亚群的吉2055B和V4B,遗传距离值均大于0.8,说明这两份材料与I-5亚群(Kafir-caudatum高粱)的遗传距离最远,组配强优势杂交种的潜力最大。从系谱看,L17R是由L2R和矮秆资源杂交育成的糯质恢复系,现已成为山西糯高粱育种的骨干亲本系,由10480A和L17R组配的晋糯3号、11494A和L17R组配的红糯16号已在全国春播中晚熟推广种植。从杂种优势利用模式看,晋糯3号和红糯16号属于国内改良系×倾中国高粱模式。因此,今后山西省糯高粱的育种方向可以在不降低酿造品质的前提下,探索创新糯高粱杂种优势类群,以印度Durra高粱×倾中国高粱,Kafircaudatum高粱×倾中国高粱模式为目标,不育系选育采用印度Durra高粱和Kafir-caudatum高粱与国内改良系杂交;恢复系选育应以目前的骨干系L17R为亲本,引入优良国外种质,在改良株型的同时提高抗性,充分发挥亲本间的遗传差异优势,使山西糯高粱的产量水平和综合抗性得到提升。下一步应从不同类群中选择优异亲本构建不完全双列杂交群体,考察产量相关性状的杂种优势,基于SNP估算亲本间的遗传距离,分析遗传距离与杂种优势的关系,探讨本研究开发的SNP标记在高粱杂种优势预测上的应用潜力。

4 结论

利用185 451个高一致性SNP将37份高粱育种材料划分为2大类群,明确了部分外引材料的血缘关系,并发现Durra高粱、Kafir-caudatum高粱与倾中国高粱遗传距离最远,可在高粱杂交育种选配亲本上加以重视。

猜你喜欢
类群亲本高粱
高粱名称考释
甘蔗常用亲本的田间自然耐寒性测定及评价
高粱红了
金秋时节高粱红
2010—2020年我国育成甘蔗新品种的亲本分析
基于功能类群分析呼兰河口湿地浮游植物群落结构特征
甘肃民勤连古城国家级自然保护区不同生境土壤动物群落的组成及多样性
薏苡种质资源ISSR分子标记筛选及亲缘关系分析
橡胶树魏克汉种质资源亲子代生长遗传规律分析
几种苹果砧木实生后代与亲本性状的相关性