崖壁植物太行菊与长裂太行菊全基因组大小及特征分析

2022-10-14 03:50王祎玲刘志霞兰亚飞郝伟丽曹艳玲
广西植物 2022年9期
关键词:测序基因组长度

王祎玲, 臧 恩, 张 昊, 刘志霞, 兰亚飞, 何 珊, 郝伟丽, 曹艳玲

( 山西师范大学 生命科学学院, 太原 030031 )

随着第二代高通量测序技术(next-generation sequencing technology)和第三代单分子测序技术(single-molecule sequencing)的发展与成熟,测序的时间成本不断降低,为不同物种基因组测序提供了条件和便利(Aird et al., 2011;施季森等, 2012;Li et al., 2019)。而物种全基因组测定可为其基因组学和进化生物学领域研究提供线索参考,为其分子生物学、转录组学、生物信息学研究奠定基础。从基因组水平出发,分析植物物种的生长、适应、进化等问题,可很好促进对植物的进一步认识,同时加快新基因的发现、挖掘与利用(Bi et al., 2019;李江莹等, 2021;赵乐等, 2021)。但在大规模实施深度测序之前,有必要进行基因组Survey,通过Survey判断植物物种基因组大小及复杂程度,提前了解植物基因组基本情况,减少测序盲目性,并据此选取合适测序策略和序列拼接软件(唐其等, 2015;霍恺森等, 2018;Bi et al., 2019;Li et al., 2019;郑燕等, 2020)。

太行菊()与长裂太行菊()均为太行菊属()多年生草本植物,仅生长在太行山的悬崖裂缝中,典型的崖壁植物,具有良好的抗旱抗寒性(Chai et al., 2018, 2020)。作为二倍体植物(2n=18),太行菊、长裂太行菊是菊亚族(Chrysantheminae)中较为原始的物种(Ye et al., 2021),菊科(Compositae)重要的野生种质资源,其体内可能含有如耐寒耐旱等方面的大量优异基因,是菊科种质创新的良好基因源。然而太行菊、长裂太行菊全基因组大小以及基因组特征等信息较为缺乏,阻碍其基因组测序工作的进一步开展,也不利于其进化生物学等相关工作的研究 (霍恺森等, 2018))。因此,开展太行菊与长裂太行菊全基因组的测序工作十分必要,这将从分子水平揭示其适应、演化、抗性等机理,并为其经济价值的综合合理利用提供科学理论支持 (宋立肖等, 2018) 。

自模式植物拟南芥()的全基因组公布以来,已有400 多种植物的基因组被测序(Chen et al., 2018, 2019; https://www.plabipd.de/index.ep),而且目前还有许多植物物种正在测序,这为研究植物全基因组测序提供了大量的参考信息,特别是同属菊科管状花亚科(Carduoideae)的青蒿()(Shen et al., 2018)、野菊()(Song et al., 2018)、太阳花()(Badouin et al., 2017)、小蓬草()(Peng et al., 2014)、刺苞菜蓟()(Scaglione et al., 2016)全基因组的完成,对于太行菊、长裂太行菊基因组的解析具有重要的借鉴作用。

在系统关系上,太行菊属与菊属()、亚菊属()的大部分类群组成菊属群,其位置更接近于蒿亚族(Artemiisinae)(赵宏波等, 2010;Zhao et al., 2010)。同为蒿亚族(Oberprieler et al., 2007)的菊属植物野菊和蒿属植物青蒿,其基因组均为高重复、高杂合、大基因组的复杂基因组(Shen et al., 2018; Song et al., 2018),而与其系统关系相近的太行菊属两物种的基因组如何?是否呈现出相似的基因组特征?

为此,本研究通过流式细胞法(Arumuganathan & Earle, 1991;Doležel et al., 2007)和高通量测序技术,拟解决以下问题:(1)预估太行菊与长裂太行菊基因组大小;(2)测定、评估两物种全基因组大小和特点。研究结果旨在全面了解太行菊与长裂太行菊基因组特征,为后续其全基因组de novo 测序及组装策略提供依据,为挖掘其抗旱抗寒基因及利用其潜在的基因资源提供线索 (霍恺森等, 2018) 。

1 材料与方法

1.1 材料

2019年10月,从山西王莽岭(太行菊生长点)和壶关(长裂太行菊生长点)收集太行菊和长裂太行菊的种子并带回实验室,于2020年1月在实验室进行萌发,然后盆栽培养。6月挑选长势良好的健康个体(每个物种3个个体),选取完整叶片,液氮速冻后,置于-80 ℃超低温冰箱中保存备用 (宋立肖等, 2018) 。

1.2 流式细胞法检测

各取两物种0.5 cm叶片,将其放在平底培养皿中,加入400 mL提取OTTO缓冲液,用刀片垂直把叶片切碎,持续30~60 s。室温下,孵育30~90 s,然后过滤器过滤,加入1.6 mL染色溶液(染色缓冲液 + PI + RNase储存液),避光室温,孵育30~60 min。最后在Sysmex CyFlowCube6流式细胞仪上进行检测。

将已知基因组大小的玉米(大小约2.3 Gb)作为对照样品,首先将玉米、太行菊、长裂太行菊单独测定,检测每个样品的相对荧光强度;然后以玉米为对照,对玉米与太行菊、玉米与长裂太行菊的混合样品进行相对荧光强度的检测;最后根据不同样品相对荧光强度峰值,参考对照样品的基因组,估算太行菊、长裂太行菊的基因组大小。

1.3 基因组Survey分析

1.3.1 DNA提取 用改良CTAB法对太行菊、长裂太行菊叶片基因组DNA进行提取。随后用分光光度计和琼脂糖凝胶电泳分别对提取的DNA纯度、浓度和完整性进行检测 (赵乐等, 2020) 。

1.3.2 样品测序 将太行菊、长裂太行菊(各3个样品)的DNA样品委托杭州联川生物公司进行测序。通过Covaris超声波破碎仪,随机打断成片段,经末端修复-加A尾-加测序接头-纯化-PCR扩增等完成整个文库制备。构建好的文库通过Illumina Hiseq进行PE(双末端,Pair-end)测序。

测序得到的原始序列,含有低质量带接头的Reads,会对后续分析带来影响,对Raw Reads进行精细过滤,得到Clean Reads,用于后续基因组大小、杂合度、GC含量等分析。以Q20、Q30 作为衡量测序质量的指标,当Q20≥90%、Q30≥80%时,表明测序数据质量较好。

1.3.3 污染评估 所测物种基因组DNA样品,如果存在污染,不仅会降低有效数据量,还会影响基因组Survey分析结果的准确性,所测物种基因组评估结果将会呈现误差,导致基因组组装策略出现偏差,影响后续基因组的组装效果 (赵乐等, 2020)。

为了判断提取的太行菊、长裂太行菊的基因组DNA是否受到污染,从过滤后的高质量Clean Reads数据中随机抽取10 000条Reads,用Blast软件比对NCBI核苷酸数据库(NT库),如果是同源比对,则认为样本不存在外源污染。

1.3.4 基因组特征预估 为了对基因组大小有个大致判断,用K-mer法进行(Liu et al., 2013;Chen et al., 2015)。以每个K-mer深度(depth)为横坐标,K-mer频度(frequency)为纵坐标,绘制K-mer深度频度分布图,根据曲线估计K-mer的深度值,对基因组大小进行估测。从测序数据中提取出的长度,视为K-mer的寡聚核苷酸序列,对太行菊、长裂太行菊预测序列有效数据进行K=17分析,根据公式:基因组大小 = 总碱基数 / 平均测序深度 = 总K-mer数 / 平均K-mer深度,计算基因组大小 (霍恺森等, 2018; 赵乐等, 2020)。

通过贝叶斯模型,根据K-mer的频率数和深度值,通过迭代修正所测物种基因组的杂合度和重复序列。根据杂合种类数百分比、纯合种类数百分比、所有种类数,计算太行菊、长裂太行菊的杂合度。同时,计算标准泊松分布及实际数据曲线峰值后的面积差,计算两物种基因组重复序列的百分比。

1.3.5 基因组组装 运用Soapdenovo软件(Vurture et al., 2017),对太行菊、长裂太行菊的Clean Reads有效序列进行拼接,用K=41组装到Contig和Scaffold。将组装好的基因组序列与Raw Reads进行比对,分析组装序列的GC含量、Contig覆盖深度、长度和数量分布。

根据基因组测序序列GC depth的分布图,分析两物种测序序列是否有明显的GC偏向。一般高GC或低GC区域,测序深度与正常区域会存在较大差异,覆盖度较低。本研究中,以10 kb无重叠区域作为窗口,计算太行菊、长裂太行菊基因组的GC含量。

2 结果与分析

2.1 流式细胞法估测太行菊、长裂太行菊基因组大小

对玉米、太行菊和长裂太行菊每个样品的相对荧光强度进行了检测(图1:A-C)。结果显示,玉米、太行菊、长裂太行菊样品基因组DNA相对荧光强度的峰值分别为58、56、41。玉米与太行菊混合样品基因组DNA相对荧光强度的峰值约为40(图1:D),玉米与长裂太行菊混合样品相对荧光强度的峰值同样约为40(图1:E)。根据流式细胞结果,太行菊基因组大小估算为2.1 Gb,长裂太行菊基因组大小约为2.4 Gb。

M1. Marker; A. 玉米单独样品; B. 太行菊单独样品; C. 长裂太行菊单独样品; D. 太行菊与玉米混合样品; E. 长裂太行菊与玉米混合样品。M1. Marker; A. Maize samples; B. Opisthopappus taihangensis samples; C. O. longilobus samples; D. Mixed samples of O. taihangensis and maize; E. Mixed samples of O. longilobus and maize.图 1 流式细胞法检测结果Fig. 1 Flow cytometry of Opisthopappus taihangensis and O. longilobus

2.2 Survey分析太行菊、长裂太行菊基因组大小

2.2.1 测序产量统计 通过文库构建,太行菊产出原始数据为99.94 Mb,过滤后高质量数据22.67 Mb;长裂太行菊原始数据109.74 Mb,过滤后高质量数据80.49 Mb。不论太行菊还是长裂太行菊,测序数据Q20均在97.42%以上,Q30均在92.53%以上,测序错误率0.04%(正常范围为<0.05%),表明测序质量较好,可进行进一步的后续分析。

2.2.2 样品污染评估 10 000条随机抽取的Clean Reads在NT库中进行同源比对,发现太行菊比对到、、、分别占比对上NT库Reads数的1.56%、0.72%、0.54%、0.27%。长裂太行菊比对到上述四个物种分别占比对上NT库Reads数的1.09%、0.48%、0.31%、0.09%。、与太行菊、长裂太行菊同属于菊亚族,但与亲缘关系更近,比对所占比例较高。由于太行菊、长裂太行菊基因组信息未知,在NT库中基因注释极少,所以与其他物种比对比例较低。

另外,比对结果中未发现动物、微生物等异常比对,表明太行菊、长裂太行菊基因组DNA样品测序数据没有污染,可用于Survey分析。

2.2.3 基因组大小估计 由图2可知,太行菊、长裂太行菊的K=17曲线具有严重拖尾,暗示都有很高的重复序列比例。在depth=28附近,出现太行菊主峰值,由公式K-mer-number/depth计算得到太行菊基因组大小为3.15 Gb左右,修正后基因组大小为3.13 Gb,基因组的杂合率为0.99%,重复序列比例为84.35%(表1);depth=26时出现长裂太行菊的主峰值,基因组大小为3.20 Gb左右,修正后的基因组大小为3.18 Gb,基因组杂合率为1.17%,重复序列比例为83.83%(表1)。由此可知,太行菊属太行菊与长裂太行菊都为高重复、杂合基因组。

A. 太行菊; B. 长裂太行菊。A. Opisthopappus taihangensis; B. O. longilobus.图 2 太行菊、长裂太行菊的K-mer分布曲线Fig. 2 K-mer distribution curve of Opisthopappus taihangensis and O. longilobus

表 1 太行菊、长裂太行菊K-mer分析数据统计Table 1 K-mer analysis data of Opisthopappus taihangensis and O. longilobus

2.2.4 基因初步组装结果 在太行菊中,共得到4 148 869条Contigs,序列总长为1.19 Mb,Contig N50长度445 bp,N90 114 bp,最长序列长度为24 674 bp,进一步组装后得到3 885 802条Scaffolds,总长1.22 Mb,最长序列长度为24 674 bp,Scaffold N50为510 bp,N90 118 bp(表2)。长裂太行菊中,共有4 776 945条Contigs,序列总长为1.30 Mb,Contig N50长度408 bp,N90 113 bp,最长序列长度为24 198 bp,进一步组装后4 453 317条Scaffolds,总长1.34 Mb,最长序列长度为24 198 bp,Scaffold N50为477 bp,N90 116 bp(表2)。其中,Contig N50和Scaffold N50的长度较短,可能是由于两个物种基因组杂合率在0.99%以上所致。从图3可以看出明显的峰,主峰前的峰为杂合峰,主峰后的峰为重复峰。不论是太行菊还是长裂太行菊,峰值在20 Х左右时的峰值为纯合峰,初步判断两物种基因组为复杂基因组。

2.2.5 GC含量及分布情况 太行菊属两物种中,窗口的GC含量几乎全部处于20%~60%之间,并主要集中在30%左右,其中太行菊GC 含量为36.56%,长裂太行菊为36.63%(表1)。两物种样品不存在明显异常,GC含量没有明显偏向,GC depth的分布可分为三层:高中低深度3个区域(图4)。中深度区域为高深度区域的50%左右,可能与太行菊、长裂太行菊一定的杂合有关。在组装过程中,杂合可能会导致同源染色体杂合部位单条组装,引起GC含量出现分层现象。

A. 太行菊Contig覆盖深度和长度、数量分布图; B. 长裂太行菊Contig覆盖深度和长度、数量分布图。A. Contig coverage depth, length and quantity distribution of Opisthopappus taihangensis; B. Contig coverage depth, length and quantity distribution of O. longilobus.图 3 Contig分布图Fig. 3 Contig distribution

A. 太行菊; B. 长裂太行菊。A. Opisthopappus taihangensis; B. O. longilobus.图 4 Contig GC含量和覆盖深度Fig. 4 Conting GC content and depth of coverage

3 讨论与结论

本研究通过流式细胞法和高通量测序K-mer法初步调查了菊科崖壁植物太行菊、长裂太行菊的基因组大小、杂合率和GC含量等特征(宋立肖等, 2018)。太行菊、长裂太行菊基因组初步估算大小分别为2.1 Gb和2.4 Gb;修正后,基因组大小分别为3.13 Gb和3.18 Gb。

目前公布的菊科植物中,最小的基因组为管状花亚科紫菀族(Astereae)的小蓬草,其基因组只有335 Mb(Peng et al., 2014),最大的是春黄菊族(Anthemideae)植物,基因组约为138.88 Gb(Garcia et al., 2013)。与太行菊、长裂太行菊亲缘关系较近的青蒿、野菊,基因组大小分别为1.74 Gb(Shen et al., 2018)和3.07 Gb(Song et al., 2018)。太行菊属太行菊、长裂太行菊基因组大小符合菊科植物的基因组特征(Garcia et al., 2013)。物种的进化与 DNA 含量之间的关系复杂, 基因组越大的物种,其濒危程度越高(Vinogradov, 2003)。相对于野菊、青蒿等,太行菊、长裂太行菊生长在相对恶劣的崖壁环境下,已被列为国家二级濒危物种。

本研究中,流式细胞法估测结果比K-mer分析法的结果小大约1 Gb。流式细胞法估测太行菊、长裂太行菊基因组较小,可能与选择基因组较小的玉米为对照样品(2.3 Gb)有关,而K-mer分析基因组法是基于数学计算可能更全面准确(Doležel et al., 2007; Wang et al., 2018)。在野菊基因组分析中,流式细胞法估测的结果大于K-mer分析结果(Song et al., 2018),而其他植物的基因组调查,两种方法估测的结果也不完全一致,如甘薯属的马鞍藤(-)(霍恺森等, 2019)、绣球属的绣球()(陈双双等, 2021)

在已释放的植物基因组中,GC含量大多在30%~47%之间(邓果特等, 2013;宋立肖等, 2019;于福来等, 2019)。太行菊、长裂太行菊基因组GC含量分别为36.56%和36.63%。同属管状花亚科的刺苞菜蓟基因组GC含量为32% (Scaglione et al.,2016),青蒿中GC含量31.5%(Shen et al., 2018),野菊为37.2%(Song et al., 2018)。太行菊、长裂太行菊基因组GC含量在所释放的植物基因组GC含量范围之内。

根据基因组杂合度大小,基因组分为微杂合基因组(0.5%≤杂合率 < 0.8%)、高杂合基因组(杂合率 ≥ 0.8%)和高重复基因组(重复序列比例 ≥ 50%)(伍艳芳等, 2014;周佳熠等, 2017;王雪等, 2018)。太行菊、长裂太行菊基因组杂合率分别为0.99%和1.17%,重复序列比例分别为84.35%和83.83%。植物基因组杂合受繁殖方式影响,一般具有自花授粉繁育方式的物种的杂合度低于异花授粉植物(王雪等, 2018;都明理等, 2019)。太行菊、长裂太行菊自交不亲和(胡枭和赵恩惠, 2008),可进行有性生殖形成种子,也可在茎节处长出新的枝条,即有性繁殖和无性繁殖并存,这种繁育方式使得太行菊、长裂太行菊基因组存在一定的杂合率。青蒿基因组的杂合率在1.0%~1.5%之间,重复序列比例61.57%(Shen et al., 2018);野菊基因组也呈现出高的杂合率且重复序列为69.6%(Song et al., 2018)。具有高比例的重复序列是菊科已公布的大基因组物种(3 Gb)的共有特征(Garcia et al., 2013)。这些高比例的重复序列在一定程度上加大了太行菊、长裂太行菊的基因组。

综上,从基因组基本结构特征看,太行菊和长裂太行菊基因组都属于高重复、高杂合、大基因组的复杂基因组。

另外,采用K-mer = 41进行基因组初步组装,太行菊Contig N50为445 bp,进一步组装后Scaffold N50为510 bp,最长序列长度为24 674 bp。长裂太行菊Contig N50长度408 bp,进一步组装后Scaffold N50为477 bp,最长序列长度为24 198 bp。根据两物种基因组的调查分析,建议后续研究采用第二代和第三代测序技术相结合,对太行菊、长裂太行菊基因组进行测序和组装,同时,辅以Hi-C,进行染色体水平组装,以期获得两物种高质量的全基因组图谱。

本研究获得的太行菊属太行菊、长裂太行菊基因组大小和特征等信息,为以后绘制两物种基因组的精细图谱奠定了基础,也为研究利用菊科野生种质资源提供了参考。

猜你喜欢
测序基因组长度
“植物界大熊猫”完整基因组图谱首次发布
新一代高通量二代测序技术诊断耐药结核病的临床意义
宏基因组测序辅助诊断原发性肺隐球菌
生物测序走在前
基因测序技术研究进展
爱的长度
特殊长度的测量
长度单位
长度学校里的故事