任民 程立锐 刘旦 蒋彩虹 杨爱国
摘要:利用限制性内切酶位点标签(RAD)技术,通过对10份供试烟草材料的基因组简化重测序,发掘了烟草高通量SNP位点,为烟草基因组学提供标记信息。结果表明,本研究共获得了44.33 Gb的Clean data数据,平均覆盖度1.01 X,共鉴定到291 770个SNP位点,SNP位点间的平均间距为10.066±29.801 kb。发掘到的SNP位点能够覆盖整个基因组,但在不同染色体部位上的分布密度存在一定差异,在17号染色上半臂的存在一段大范围的SNP密集区域。SNP变异类型以转换为主,通过功能注释在基因区域发现45 049处SNP位点。利用SNP分型信息,计算了供试品种间的遗传距离,平均为0.29,台烟8号的遗传背景与其他品种相对最远。该结果将为烟草QTL定位、候选基因发掘、亲本组配等研究提供科研依据。
关键词:烟草:限制性内切酶位点标签:重测序:单核苷酸多态性
烟草品种是烟叶生产的基础,在行业可持续发展与产业升级中发挥着重要的作用。而且品种本身也是一类重要的种质资源,其研究价值不仅在于所携带的优良基因或等位变异,也包括这些优良基因的组合方式、组成特点,及其所承载的育种经验和成果。从育种技术发展的趋势来看,对品种的综合性状提升提出了越来越高的要求。深入发掘种质资源、多途径创新种质、扩大遗传背景等研究已经越来越受到重视,分子育种、基因组学等新技术新理论已经成为育种技术的研究热点。近年来,围绕烟草育种骨干亲本、种质资源,开展了大量的分子标记研究。现已构建了烟草高密度SSR遗传图谱,并开展了重要性状的QTL定位和GWAS分析等研究。但烟草是异源四倍体(2n=4X=48),基因组庞大结构复杂,且品种间遗传多样性较低。因此随着研究的深入,以SSR为代表的二代分子标记技术,在标记密度、数据通量和研究效率等方面的限制都制约着进一步的应用。近年来高通量测序技术取得了快速发展,限制性内切酶位点标签(Restriction-Site Associated DNA,RAD)成为当前简化基因组测序策略中运用较为广泛的测序技术,该技术与海量平行测序技术偶联可实现极高的分析效率,且成本相对较低。能够广泛的运用于全基因组关联分析,高密度遗传连锁图谱的构建,目标性状调控相关基因组区段或候选基因快速定位,个体间遗传多态性分析等。为此本研究拟利用高通量测序技术(RAD)对10份常用的烟草病毒病(TMV、CMV)抗感鉴定品种进行重测序,发掘单核苷酸多态性(single NucleotidePolymorphism,SNP)位点,深入了解供试品种的遗传多样性。对于促进优异基因资源发掘、抗病品种分子育种等有重要的研究和实践意义。
1材料与方法
1.1供试材料
本研究供试品种均为普通烟草(Nicotianatabacum L)种烤烟类型,由国家烟草种质资源中期库提供,其品种名称及编号见表1。可通过种质资源编号在中国烟草种质资源网(http://www.ycsjk.com.cn/)检索供试品种的资源调查信息。
1.2全基因组DNA提取
供试品种播种后培养至苗期,取幼叶组织采用稍加改良的SLS法提取全基因组DNA。(1)将磨好的叶片放入2 mLEP管中,加SLS提取液800μL,摇晃5 min至摇匀:(2)加入等体积的酚氯仿异戊醇混合液(V:V:V=25:24:1),摇晃5 min至摇匀,然后12000 rpm离心10 min:(3)吸取上清600μL至一新的1.5 mL离心管,加等体积预冷的异丙醇(-20℃)沉淀DNA:(4)12000rpm离心10min,弃上清。用75%乙醇洗涤1次,无水乙醇再漂洗1次:(5)置于超净台内晾30~60min至完全干燥无酒精残留后,加100~200μLddH20溶解。最后用1.0%的琼脂糖凝胶电泳和NanoDrop 2000分光光度计对DNA质量进行检测。
1.3参考基因组
本研究SNP鉴定和功能预测采用的参考基因组为普通烟草栽培品种红花大金元的全基因组组装序列(第2版),其基因组序列数据和基因注释信息见中国烟草基因研究中心烟草基因组数据库(http://218.28.140.17/)。参考基因组序列总长4411.73 Mb,其中组装到24条染色体的序列总长2939.14Mb,此外还有29 802条Scaffold序列,其总长为1472.58 Mb。
1.4简化基因组(RAD)测序及SNP鉴定
RAD简化基因组测序及SNP鉴定由华大基因有限公司完成,采用Eeor I限制性内切酶进行酶切随机打断基因组DNA,测序仪器为Illumina Hiseq2000:从测序后CleanData数据中鉴定SNP采用了GATK-3.2-2流程(https://www.broadinstitute.org/gatk/)。
1.5数据分析
采用DnaSP 6.01281计算供试群体的核苷酸多态性(Nucleotide Polymorphism)兀值和每位点核苷酸多态性指数[Tbeta(per site)from Etal 0/b0值:采用MEGA 7.0.9软件根据Maximum CompositeLikelihood模型計算品种间两两遗传距离:采用SnpEff4.1g软件对鉴定到的SNP进行功能注释.采用Python 2.7.2计算机语言和P1L(Python ImageLibrary)图像处理函数库,按照滑动窗口(slidingwindow)方法统计SNP位置信息并绘制分布密度热图,窗口长度(window length)为1.0 Mb,步长(step size)为0.5 Mb:其他数据统计和图表绘制采用EXCEL 2013完成。
1.6数据获取
本研究的测序Clean data序列数据,SNP群体分型信息均已提交至中国烟草基因研究中心烟草基因组数据库(http://218.28.140.17/),数据库用户在使用GBrowser浏览普通烟草栽培种红花大金元基因组数据时,可通过添加SNP信息轨道(Track)访问本研究的相关数据。
2结果
2.1供试品种的基因组重测序
采用RAD测序技术对10份供试品种进行了基因组重测序,获得原始碱基序列片段(reads)后,又经质量控制和数据过滤,生成高质量的CleanData作为本研究的分析基础。由表2看出,在供试品种上,测序得到的总碱基数从最少3 016.48 Mb(L9)到最多10032.99Mb(L1),平均为4432.52Mb:按普通烟草基因组大小约为4.4 Gb计算,基因组覆盖度从供试品种L9的0.69 x到供试品种L1的2.28 X,平均覆盖度1.01 X:供试品种的平均GC含量和平均Q20比例分别为38.66%和97.65%,其变异系数(c功分别仅为0.31%和0.30%,表明GC含量和Q20在品种间的离散程度低。
2.2供试品种的SNP位点发掘
完成测序后,按照GATK流程开展了供试品种的SNP位点鉴定研究。由表3看出,在参考基因组染色体范围内,共发掘到291770个SNP位点。SNP数量最多的染色体为17号,共鉴定到33 807处,最少的为24号,仅4527处。SNP位点间的平均间距为10.066±29.801 kb,不同染色体的SNP平均间距亦不相同,间距最小的染色体为17号(平均间距为2.58±16.52 kb),间距最大的染色体为10号(平均间距15.32±39.34 kb)。将24条染色体的SNP密度分布绘制成热图(图1),可发现本研究发掘到的SNP位点能够覆盖全部染色体的各个区段,但SNP位点在染色体上的分布密度由图1可知存在明显的差异,在2号、13号、17号等染色体上存在较大范围的SNP高密度区域,尤其以17号染色体上半臂的SNP密度最高。
2.3SNP位点的分类与注释
对本研究发掘到的291770个SNP位点进行了分类和注释。SNP的变异类型中属于转换(transitions)的位点有179751处(占63.50%),属于颠换(transversions)的位点有103329处(占36.50%),转换与颠换比值为1.74,另外还检测到8690处非二态性分型的位点(占SNP位点总数的2.98%)。进而结合参考基因组的基因注释信息,对SNP位点功能进行了注释,共分成15类。数量最多的一类为基因间区域(intergenic region)SNP,共246721处,占SNP总数的84.56%。其余14类共计45049处SNP位点位于基因区域(含基因上下游3kb以内),基因区域的SNP功能注释如图2所示。其中导致氨基酸改变的错义突变(missensevariant)1992处,翻译提前终止的突变(stop gained)49处,翻译无法起始的突变(start lost)6处。
2.4群体遗传多样性分析
利用供试SNP位点在10份材料上的碱基分型信息,开展了供试群体的遗传多样性分析。计算了品种间的遗传距离,全部供试品种间的平均遗传距离为0.29,通过图3可发现,品种L1的遗传背景与其他品种相对较远,遗传距离从0.09到0.46,平均为0.35,而品种L7和L10间的遗传距离仅为0.03,表明两份种质的遗传背景非常接近。在全部供试群体中SNP位点的核苷酸多态性兀值为0.223±0.028,O/bp值为0.221。不同染色体间的遗传多态性存在明显的差异(图4),9号染色体的遗传多态性程度最低,其兀值为0.040,O/bp为0.05l。23号染色体的多态性最高,其兀值为0.404,O/bp为0.332。
3讨论
本研究利用RAD技术对供试品种进行了重测序,获得了44.33 Gb的Cleandata数据,共鉴定到291 770个SNP位点,SNP位点间的平均间距为10.066±29.801 Kb。分析不同染色体上SNP的分布特点,可见17号染色体的上半臂是一段SNP位点密集的区域,其具体的成因还有待深入研究。在其他烟草基因组研究中也发现了类似的现象,茄科基因组网站(sol Genomics Network,SGN)公布的“HMtabacum 30k Infinium HD consensus map 2015”。(https://solgenomics.net/cview/map.pl?map_versionid=178)烟草高密度SNP遗传图谱中报道了一条编号为“Chromosome 17”的连锁群,该连锁群的长度较短但SNP数量却较其他连锁群多出3~15倍,虽然该连锁群的编号与本研究所用参考基因组的编号间并无联系,但其显著的SNP密度特点与本研究的17号染色体非常一致,故推测很可能是同一条染色体。EDWARDS等对普通烟草的24条染色体的起源进行了分析,发现除“Chromosome Nt17”(编号与SGN网站一致)外其他染色体都能良好的区分为“S基因组起源”和“T基因组起源”,而“Chromosome Nt17”在普通烟草的两个祖先种林烟草和绒毛状烟草基因组上均有相近比例的覆盖率,致使无法明确其染色体来源。该研究推测“Chromosome Nt17”的这种现象可能是由基因渗入或系谱特异染色体重排所导致。综合上述分析,一方面说明在烟草基因组内可能存在染色体尺度的结构变异,这对揭示异源多倍体的物种起源与进化,基因组变异,多倍化现象等均有重要的研究意义:另一方面也表明,本研究的基因组测序和SNP鉴定可靠性良好,能够准确地反映烟草基因组的序列结构特点,可用于进一步数据分析和发掘。
无论是在通过遗传作图群体进行连锁分析(QTL定位)还是通过自然群体进行关联分析(GWAS),SNP位点的数量都是关系到分析精度的关键指标,尤其是在GWAS研究中,SNP位点的数量还是决定能否进行有效候选基因预测的关键因素。本研究采用了RAD简化基因组测序技术,该技术能够有效压缩基因组测序的数据量,从而大幅降低研究成本,将测序技术普及到更多的分子遗传学研究中。虽然RAD技术鉴定到的SNP位点数量大幅低于全基因组测序,但仍然是一种高通量的基因组遗传位点分型技术,且远高于SSR等分子标记技术所能检测到的位点数量。在QTL定位研究中,当上图标记数量达到几十kb,甚至仅几kb时,群体大小就成为了影响定位精度的决定因素。如烟草NtEGY1和NtEGY2的基因图位克隆研究中,所用遗传连锁图谱的位点总数仅9.7 kb。因此本研究鉴定到的291 kb SNP位点已经足以支撑各类烟草性状的精细定位:在GWAS研究中,需要在目标基因所处LD区段内检测到一定数量的SNP位点。目前烟草基因组还缺少较为精准LD衰减距离,FRICANO A等利用7个SSR标记遗传连锁群,估算了普通烟草的平均LD距离约在1 cM以内,本研究将其折算成物理距离则约为1-3 Mb。根据本研究SNP位点的平均距离计算,在1 Mb的范围内,检测到的SNP数量达到了100个,因此即使基因组个别位置的LD衰减速度远超平均值,本研究的SNP标记密度仍可有效锚定候选基因。且在GWAS研究中,供试材料的数量一般会在200个以上,因此在测序深度不变的情况下鉴定到的SNP位点必然会大幅增加,故在利用RAD技术进行烟草GWAS分析时,平均测序深度还可比本研究的1.01 x再降低,从而进一步减少测序成本。
目前SNP的檢测(Genotyping)方法日益丰富,如适用于高通量位点和群体的SNP芯片法(http://www.illumina.com/),中高通量基于质谱的iPLEX
GoldTM
Assay、
Mass
ARRAYTM(http://www.sequenom.com/iplex),目标序列捕捉或靶向测序(http://sequencing.roche.com),适合有限位点但群体规模较大的KASP标记法,适合少量位点和材料且对仪器设备要求较低的CASP/dCAPS标记、AS-PCR标记和SSCP检测方法等。在完成SNP位点的开发后,相关研究可根据群体规模及位点通量需求选择相应的检测方法。
4结论
本研究对10份烤烟材料利用RAD技术进行了重测序,共鉴定到291770个SNP位点。烟草中SNP的变异类型以转换为主,转换与颠换比值为1.74。通过分析不同染色体上SNP的分布特点,发现在烟草基因组中17号染色体上半臂的SNP位点密度最高。基于高通量测序的RAD技术能够为烟草遗传研究提供足够数量的SNP位点,还能大幅节省测序费用,在遗传定位和基因发掘研究中具有良好的应用前景。