大球盖菇新品种“中菌金球盖1 号”的基因组Survey 分析*

2022-08-04 09:43李雪松刘绍雄孙达锋张俊波罗孝坤岳万松
中国食用菌 2022年7期
关键词:大球金黄色测序

李雪松,刘绍雄,孙达锋,张俊波,马 明,罗孝坤,岳万松,华 蓉**

(1.云南云菌(集团)有限公司,云南 昆明 650221;2.云南省食用菌产业发展研究院,云南 昆明 650221;3.中华全国供销合作总社昆明食用菌研究所,云南 昆明 650221)

大球盖菇(Stropharia rugosoannulata Farl. ex Murrill) 别名皱环球盖菇、酒红色球盖菇、皱球盖等,商品名为赤松茸[1-2],是一种营养丰富、味道鲜美的食用菌,也是极具开发潜力的药用真菌[3-4]。大球盖菇多糖对大鼠的精神疲劳、运动疲劳和免疫力、抗氧化、抗病毒等方面有积极影响,同时对癌细胞有极显著的抑制作用[5-8]。此外,大球盖菇凝集素对肝癌Hep-G2细胞和白血病L1210 细胞均有抗增殖活性[9-10]。

大球盖菇的市场需求在逐年扩大,现在普遍售卖的品种菌盖为红褐色至葡萄酒红色,或暗褐色品种。金黄色大球盖菇品种“中菌金球盖1 号”是大球盖菇新品种,具有菌盖颜色鲜艳、菌褶颜色浅、产量高等优良性状,市场潜力巨大[11]。目前对大球盖菇的研究,主要集中于其化学成分、胞外酶、生物学特性、原生质体再生和单核化、栽培、加工方法等方面[12]。对于大球盖菇各栽培种之间的遗传关系,不同品种的产量、颜色、出菇温度等具有较大差异的性状的控制基因,以及这些基因的遗传机理的相关研究尚未见报道[13]。

基因组是一个细胞或一个生物体的所有遗传信息的集合,这些信息可以阐明生物有机体与其所处环境之间的协调机制,让研究者可以通过某一物种特定的遗传背景上直接去分析相关的生物学问题。目前,随着高通量测序技术的快速发展,在大型真菌中已有近323 种(其中315 种分属于70 个科,另外有8 个种不确定科别) 已完成或部分完成基因组测序和基因组大小评估[14]。通过高通量测序技术,对金黄色大球盖菇品种“中菌金球盖1 号”(ZJJQG001) 的基因组大小、杂和率、(G+C) 含量及等信息进行评估,为后续大球盖菇全基因组的测序策略以及高质量完整基因组图谱的绘制打下基础,同时对大球盖菇颜色调控基因的挖掘、菌株筛选等研究具有重要意义。

1 材料与方法

1.1 主要试验材料

试验材料为金黄色大球盖菇“中菌金球盖1号”。样品于2021 年6 月采自中华全国供销合作总社昆明食用菌研究所宝峰基地实验大棚,带回实验室后取组织块放置于冻存管内,液氮速冻30 min 以上,后置于-80℃超低温冰箱保存,备用。

1.2 基因组DNA 提取、检测及测序

采用改良CTAB 法提取基因组DNA,使用德国Qiagen Q13343 试剂盒纯化。用NanoDrop 检测仪和Qubit 检测仪检测浓度和纯度。采用0.7%琼脂糖凝胶脉冲电泳检测,Marker 使用日本宝生物公司(TaKaRa) 15 kb DNA Marker 和λDNA /HindIII。

随机打断大球盖菇的DNA 样品,构建1 个片段大小为500 bp 的文库。构建好的文库通过武汉希望组生物科技有限公司的MGI PE150 测序平台进行双末端测序。

1.3 原始数据的质量控制及数据污染评估

原始数据需要进行质控处理,过滤低质量序列。首先利用软件fastp 对原始数据进行过滤,过滤标准包括:去掉reads 接头序列;截掉reads 两端测序不准确的左右各5 个碱基;去除当中含有N 的reads;当一条reads 中超过20%的碱基质量分数小于20%,则舍弃该reads 所对应的一对reads。然后使用软件FastQC 对有效数据(clean data) 进行质控,若质控合格,则进行后续分析。

随机取100 000 条质控后的reads,利用BLASTN 将其与NT 数据库进行比对[15],统计reads在NT 库中的具体比对物种及分布比例,以此来判断数据的污染情况。

1.4 基因组大小预估和杂合率估计

利用findGSE 软件[16]对序列文件中长度为k 的短序列(K-mer) 进行计数和统计;随后,使用python 的scipy 包,根据拟南芥的基因组测序数据,模拟目标序列对应深度下的杂合度,预估基因组大小和杂合度。

1.5 初步组装基因组

采用K-mer=17 构建Contigs 和Scaffold,利用高质量数据进行SOAP de novo[17]组装,得到Scaffold 序列后用SOAP 将过滤后的reads 比对到该组装序列上直接拼接,获得原始基因组序列及碱基深度[15]。对组装的基因组序列以5 kb 为窗口,无重复计算片段的平均(G+C) 含量和平均深度并作图,可以根据此图判断出测序数据的(G+C) 偏向性和存在污染等问题。

2 结果与分析

2.1 基因组DNA 检测

金黄色大球盖菇“中菌金球盖1 号”的子实体经过基因组DNA 提取后,获得107 uL 的提取液。经NanoDrop 检 测 质 量 浓 度 为447.1 ng·μL-1,OD260/280 比值为1.89,OD260/230 比值为2.32;Qubit 检测质量浓度为326.0 ng·μL-1,DNA 总量为34.9 ng。提取的基因组DNA 的Nc/Qc(NanDrop 检测质量浓度/Qubit 检测质量浓度) 的比值为1.37,说明提取DNA 质量较好。

采用0.7%琼脂糖凝胶脉冲电泳检测。样本DNA主带在20 000 bp 以上,轻微断裂,轻微降解,点样孔中有轻微残留,满足建库测序所需质量要求。

2.2 测序数据量、深度及污染评估

提取的基因组DNA 测序获得7.87 Gb 的原始数据(raw data),经过质控后得到约7.25 Gb 的有效数据(clean data)。正、反向测序数据分别为read1、read2,数据质量良好,可用于后续基因组大小估计、contigs 序列构建等分析。测序产出的原始read(raw read) 为52 442 796 条,过滤后的有效read(clean read) 为52 173 844 条,Q30 值为91.63%、(G+C)含量为47.25%。经过分析获得金黄色球盖菇的基因组的测序深度为140×。

在开展进一步分析前,可通过4 个碱基的含量与平均(G+C) 含量分布,初步判断数据的质量。质控后碱基含量分布见图1,平均(G+C) 含量分布见图2。

图2 平均(G+C) 含量分布图Fig.2 Distribution diagram of average (G+C) content

如图1 所示,由于第二代高通量测序技术本身特性的限制,导致测序的前十几个碱基含量会有一定的波动。但在十几个碱基以后,A 与T、G 与C含量基本一致,表明数据碱基含量合格。平均(G+C) 含量分布是否符合正态分布是判断测序数据污染或部分reads 构成子集偏差的重要标准之一。如图2所示,所得质控数据的平均(G+C) 含量分布曲线形状接近正态,说明数据质量良好。

随机取100 000 条质控后的reads,利用BLASTN将其与NT 数据库进行比对,统计reads 在NT 库中的具体比对物种及分布比例[15],结果见表1。

由表1 中可以看出,质控后的数据有93%未在数据库中找到对应序列,但比对匹配到的物种都是与试验材料近缘的大型真菌。其中,可以匹配上的数据中有一半以上都能比对到大球盖菇的片段,表明测序数据无污染,获得的数据就是大球盖菇的基因组数据。

果然,当我推开家里的门时,颖春正站在门口像迎接贵宾一样等着我,而且,屋子里摆满了鲜花。颖春笑眯眯地对我说,欢迎孙局长回家。我却没好气地说,现在,你该满意了吧?颖春一把拥住我说,怎么能说满意呢?那不是一般的满意,而是相当的满意。我却推开了她说,颖春,可能要让你失望了,今天下午,我已经找周书记辞职了。颖春听了,像看着一个癫子一样看着我,然后,便哭着一枝枝地撕碎了那些摆在屋子里的鲜花。

表1 物种比对统计Tab.1 Species comparison statistics

2.3 K-mer 分析及基因组大小和杂合率估计

用K-mer=17 进行分析时使用的是质控后的有效数据(7.25 Gb),获得了1 548 216 004 个K-mer,深度为140×,得出其频率分布详见图3。

图3 金黄色大球盖基因组K-mer 为17 的分布曲线及杂合率模拟曲线Fig.3 The frequency distribution of K-mer=17 and simulation curves of heterozygosity in S. rugosoannulat(golden yellow)

从图3 可以看出,深度为29×时出现的频率最高,分布曲线成峰的情况较好,即在29×附近有个主峰值。基因组中杂合子和重复序列的存在影响了K-mer 深度分布[18]。在最高峰值的一半左右会出现一个小峰,因此判断大球盖菇基因组具有一定的杂合率。利用KMC 进行评估,并利用模式物种拟南芥(杂合率0.80%) 的基因组模拟对应深度的短片段数据,在杂合率不同梯度组合情况下进行K-mer 曲线拟合来估计大球盖菇的杂合率[15],最终得到其杂合率为0.80%。

根据Survey 分析的结果,在深度为29×附近是主峰值,通过公式计算得到金黄色大球盖菇的初步基因组大小为53.39 Mb 左右。

2.4 基因组初步组装及(G+C) 含量分析

金黄色大球盖菇基因组组装分析结果见表2。

表2 金黄色大球盖基因组组装结果统计Tab.2 Genome assembly results of S. rugosoannulata(golden yellow) genome

如表2 所示,初步组装后的金黄色大球盖菇基因组大小为55.20 Mb,Contig N50 和Scaffold N50 为14 943 bp;scaffold 长度为55 195 731.00 bp,scaffold 数量为25 802.00 条;contig 长度为55 195 731.00 bp,contig 数量为25 802.00 条,其中最长为361 801 bp,总长为55 195 731 bp。金黄色大球盖菇的基因组信息显示该基因组为具有一定杂合率的复杂基因组,后续的测序和组装需要考虑采用更长的测序读长和更精确的测序方法来克服基因组的杂合问题。

金黄色大球盖菇的(G+C) 含量和覆盖深度见图4。

由图4 可知,大球盖菇的基因组碱基深度主要分布在50×~80×和100×~160×;基因平均(G+C)含量主要分布在40%~60%。基因组(G+C) 含量无明显分离的聚团现象,基因组碱基深度有少量分离,说明基因组中无明显其他外源污染,大球盖菇为高杂合的物种。

2.5 与其他球盖菇科的基因组比较

如表3 所示,目前球盖菇属已有1 种红色大球盖菇[19]完成了全基因组测序,基因组大小为50.41 Mb,(G+C) 含量为47.8%。本研究中,基于第二代高通量测序技术的金色大球盖菇的基因组大小为55.20 Mb,与红色大球盖菇的基因组大小相近,比其略大,在整个科的基因组中属于中等大小。

表3 大球盖菇基因组组装结果与12 个球盖菇科基因组比较Tab.3 Comparison of Stropharia rugosoannulata assembly results with twelve Strophariaceae genomes

同时,结合图4 可知,金黄色大球盖菇基因组的(G+C) 含量为47.25%,与目前已测的球盖菇科近缘物种基因组的含量相近[20-23]。虽然,球盖菇科的各个物种的(G+C) 含量存在一定的差异,但(G+C)含量都位于46%~51%之间,没有明显的过高或过低的现象。本次测序获得的数据的覆盖度为140×,在整个球盖菇科物种中属于高覆盖度的物种,仅次于红韧黑伞(Hypholoma sublateritium)[24]和古巴光盖伞(Psilocybe cubensis),结果是较为准确和可靠的。

图4 金黄色大球盖菇的(G+C) 含量和覆盖深度Fig.4 (G+C) content and average depth of Stropharia rugosoannulata

3 讨论

菌类在自然界中占据重要的生态位,同时又是人类的食用和药用资源的重要来源[13];同时,具有丰富的生物多样性,包括物种多样性、遗传多样性和生态多样性。但在我国食用菌产业的高速发展过程中,也出现了许多的科学问题[25],其中一些问题需要运用遗传学的方法来进行解答。目前随着高通量测序、遗传转化、基因编辑等分子生物学技术广泛、成功地运用于遗传学多个方面的研究,食用菌遗传学正在成为一个研究热点领域[25]。

通过对金黄色大球盖菇品种“中菌金球盖1号”进行全基因组调查,获得了7.87 Gb 的高通量测序数据,基于K-mer 为17 进行Survey 分析。金黄色球盖菇的基因组大小约为55.20 Mb ,GC 含量为47.25%,杂合率为0.80%,与球盖菇属的多脂鳞伞、砖红韧黑伞[23]、古巴光盖伞等物种的基因组特征相似。但由于大球盖菇的杂合度为0.80%,后续考虑采用三代测序(Nanopore) 结合二代测序(Illumina) 以及光学图谱(Bio-NANO) 的策略来获得高质量的基因组精细图,甚至是染色体级别的基因组完成图。

上述研究得到的金黄色大球盖菇Survey 分析结果,将为高质量基因组完成图谱的绘制提供重要的科学依据。同时,为下一步金黄色球盖菇的颜色调控等遗传机理研究和菌株筛选等提供了一定的理论基础。

猜你喜欢
大球金黄色测序
新一代高通量二代测序技术诊断耐药结核病的临床意义
宏基因组测序辅助诊断原发性肺隐球菌
生物测序走在前
一种陶瓷喷墨打印用金黄色色料及其制备方法
数理:大球和小球
蓝光漂白使葡萄球菌黄素降解
基因测序技术研究进展
那一抹金黄色
金黄色
有多少盏灯