贾 婕,冯源恒,杨章旗
(广西壮族自治区林业科学研究院 国家林业和草原局马尾松工程技术研究中心广西马尾松工程技术研究中心,广西南宁 530002)
马尾松(Pinus massoniana)是我国南方主要的乡土树种, 具有分布广、生长迅速和适应性强等特点,在森林资源和松脂产业发展以及森林生态服务功能等方面发挥着重要作用,在创造经济价值和发挥生态效应方面有重要地位[1]。随着马尾松育种研究的深入,越来越多的问题需要从分子机理上进行解析。由于马尾松尚未开展全基因组测序,基因组及转录组数据缺乏,其生长发育的相关研究、遗传多样性研究以及分子标记开发和遗传图谱构建等研究相对滞后[2]。
全基因组重测序是对已知基因组序列物种的个体进行基因组测序, 并在此基础上对个体或群体进行差异性分析的一项测序技术。利用全基因组重测序技术可以在全基因组范围内挖掘单核苷酸多态性(SNP)、插入缺失标记(InDel)、结构变异(SV)和基因拷贝数变异(CNV),其广泛应用于变异检测、遗传图谱构建、性状定位和群体进化研究等[3],已经在玉米(Zea mays)[4-5]、水稻(Oryza sativa)[6]、油 菜(Brassica campestris)[7-8]和 辣 椒(Capsicum annuum)[9]等作物中得到了广泛应用。朱风丽等[10]将韩国赤芝(Ganoderma lucidum)重测序数据与中国赤芝CGMCC 5.0026 参考基因组进行对比,共发现10 607 个基因发生非同义SNP,4 774 个InDel 和1 428 个SV,并找到了与菌丝生长相关的候选基因。张国儒等[11]以基因组重测序为基础,检测出大量栽培型加工番茄(Lycopersicon esculentum)‘M82’和潘那利渐渗系‘IL71’两品系间差异的In-Del 标记位点,利用这些位点序列设计引物后,共检测出40 对特异性位点,为后期杂种种子纯度鉴定提供了依据。
火炬松(P. taeda)是第一个完成全基因组测序的松类树种,且与马尾松同为松属植物。用火炬松基因组为马尾松分子研究提供参考,可在很大程度上弥补马尾松无参考基因组的缺憾。本研究通过基因组重测序技术,比较马尾松与火炬松基因组,探讨以火炬松基因组作为马尾松分子研究参考基因组的可行性。
材料为马尾松无性系NP7 号,采自南宁市林科所马尾松种质资源库,该无性系母株来自广西壮族自治区宁明县桐棉乡那卜村。
火炬松全基因组序列从https://www.ncbi.nlm.nih.gov/assembly/ GCA_000404065.3 网站下载, 数据更新时间为2018年12月。
1.2.1 全基因组DNA提取
采用植物基因组DNA 提取试剂盒(TIAN-GEN,DP305)提取样本的总DNA。
1.2.2 基因组重测序
对提取的基因组DNA 进行检测,合格后采用超声波法将DNA 片段化,将片段化的DNA 进行片段纯化、末端修复、3'端加A 和连接测序接头;用琼脂糖凝胶电泳进行片段大小选择,并进行PCR 扩增以形成测序文库, 对建好的文库进行文库质检,采用Xten 对质检合格的文库进行测序;对测序得到的原始reads(双端序列)进行质量评估,过滤得到Clean Reads,用于后续生物信息学分析。
1.2.3 与参考基因组比对统计
采用bwa软件[12]将Clean Reads与参考基因组序列进行比对,定位Clean Reads 在参考基因组上的位置,统计各样品的测序深度和基因组覆盖度等信息。
统计重测序的Q20、Q30 和GC 含量与参考基因组的比对率(表1)。通过测序,共得到231.27 Gbp的Clean Data,Q30 达到87.61%;拼接得到的马尾松reads 数目有771 625 883 个,GC 含量38.14%;碱基质量分布基本无AT和GC分离现象。
表1 样品测序数据评估统计Tab.1 Statistic of sample sequencing data evaluation
将重测序结果与火炬松Ptaeda 2.0 基因组进行比较,发现96.98%的reads 可定位在参考基因组上,60.98%的reads 双端测序序列均可定位到参考基因组上且距离符合测序片段的长度分布(表2)。结果表明,马尾松基因组与火炬松基因组匹配率高。
表2 与参考基因组对比结果Tab.2 Comparative results with reference genome
样品的平均覆盖深度为8 倍,基因组被覆盖的较均匀,测序随机性较好;马尾松reads 对火炬松参考基因组的覆盖度为62.59%,覆盖到参考基因组的区域不高(表3)。
表3 覆盖深度和覆盖度比例Tab.3 Coverage depth and coverage ratio
松科(Pinaceae)植物基因组保守性较高,基因组进化缓慢,遗传信息可以在亲缘关系较近的树种间转移[13-15]。刘希华等[16]为研究马尾松4CL基因的遗传进化及系统发育情况,以马尾松基因组DNA 为模板,根据NCBI 上登记的21 种松属植物4CL基因序列进行SNP 对比分析,发现松属植物在进化过程中,未出现大规模的遗传分化现象,但松属植物种间有差异,马尾松、火炬松、班克松(P.banksiana)和小干松(P.contorta)亲缘关系较近。
本研究中,马尾松基因组与火炬松基因组的匹配率高达96.98%,以火炬松基因组为马尾松分子研究分析的参考基因组是可行的。罗群凤等[17]采用高通量测序技术对马尾松叶绿体基因组进行了测序和组装,以发表的火炬松序列为参考组,成功组装出了马尾松叶绿体基因组。本研究发现,马尾松reads对火炬松参考基因组的覆盖度为62.59%,马尾松reads对火炬松的覆盖度明显低于其在火炬松基因组上的定位率,说明测序得到的96%以上的马尾松序列与火炬松基因组中62.59%的区域高度相似,其余37.41%的区域差异较大。这一方面可能源于在进化过程中火炬松产生了新的基因,这些基因序列是马尾松所不具备的,从基因的数量和复杂度来说,火炬松高于马尾松,火炬松的进化地位相对马尾松更高,这与Liston等[18]和洑香香等[19]对松属进化关系研究的结论一致。另一方面可能是由于测序与组装技术不稳定,比如在超声波片段化时,马尾松基因组片段不均匀,所得马尾松reads对马尾松自身基因组覆盖不够,或是因为火炬松参考基因组自身组装不精确。