王桂瑶,常延斌,郭建华,郭 超,奚家勤,胡利伟,蔡宪杰,宋纪真*
1.中国烟草总公司郑州烟草研究院,郑州高新技术产业开发区枫杨街2号 450001 2.广东省粮食科学研究所,广州市越秀区越秀北路222号 510050 3.上海烟草集团有限责任公司,上海市杨浦区长阳路717号 200082
烟草粉螟[Ephestia elutella(Hübner)],属鳞翅目(Lepidoptera)螟蛾科(Pyralidae),又名烟草粉斑螟、烟草螟蛾等,是一种世界性仓贮害虫[1]。烟草粉螟广泛分布于热带及温带地区,其幼虫可为害贮存期烟草、咖啡、可可和干果等,尤其喜食含糖多、含烟碱少的中高等级烤烟[1-4],给烟草行业造成巨大的经济损失。
随着测序技术的不断进步和生物信息学的持续发展,转录组、基因组、蛋白组和代谢组等组学研究手段被越来越多地应用于昆虫学研究,为昆虫学研究提供了新的机遇[5-6]。昆虫基因组学研究是当前的研究热点,目前,已有1 219项昆虫基因组测序计划在NCBI注册,其中有401种昆虫完成了基因组拼接,为昆虫分子生物学研究提供了丰富的数据资源[5-7]。例如,晋家正等[8]对药用美洲大蠊(Periplaneta americana)全基因组进行测序分析,为美洲大蠊药用基因资源挖掘奠定基础。二化螟(Chilo suppressalis)基因组研究揭示了二化螟耐寒性的遗传基础[9]。张屾[10]鉴定了棉铃虫(Helicoverpa armigera)基因组中与食性相关的基因家族,阐述了其多食性的分子机制,为棉铃虫的绿色防控奠定基础。然而,由于目前烟草粉螟基因组信息的匮乏,国内外有关烟草粉螟的研究主要集中在生物学特性、生态学特性、抗药性及生物防治等方面[11-21],而关于烟草粉螟遗传、进化、生长、发育和繁殖等分子水平的研究还较少。因此,对烟草粉螟基因组进行研究有助于从系统生物学层面阐述其爆发成灾的分子机制,筛选鉴定其潜在的生物防治或化学防治靶基因,从而为开发绿色、安全的新型害虫防治策略奠定理论基础。
昆虫基因组具有高杂合和高重复的特点,研究特定物种基因组,首先要对其进行初步研究,评估其基因组大小、杂合度和重复序列,为全基因组测序和组装提供重要依据[22]。昆虫基因组大小评估常使用两种方法,一是通过流式细胞仪分析得到染色体组型信息并推断其基因组大小,另一种是通过基因组调查分析预测基因组大小、重复序列和杂合度等[7,22]。昆虫之间基因组大小差异显著,目前动物基因组大小数据库(Animal genome size database)提供了超过1 300条昆虫基因组大小数值,其中最大的是直翅目的斑腿蝗(Podisma pedestris,约16.6 Gb),基因组最小的为海滨摇蚊(Clunio tsushimensis,约68.5 Mb)[22]。基因组大小是研究基因组进化、结构和功能的重要参数之一,而重复序列数量、基因间隔区长度和平均内含子大小是决定昆虫基因组大小的主要因素[6,22-23]。另外,昆虫基因组大小是不断变化的,碱基的插入和缺失、转座子转座和染色体变异等是个体水平基因组大小进化的原动力[22]。
本研究中基于低深度高通量测序对烟草粉螟基因组进行初步研究,采用K-mer法预测烟草粉螟基因组大小、杂合度和重复序列等信息,利用SOAPde novo软件对烟草粉螟测序数据进行初步组装,旨在为后续测序提供合理方案,并为烟草粉螟基因组的深度测序和组装提供参考。
烟草粉螟采集于中国烟草总公司郑州烟草研究院烟草仓贮实验室,并用人工饲料(小麦∶燕麦片∶全麦粉=7∶7∶1)饲养多代形成稳定种群。饲养条件:30℃±1℃,相对湿度70%±5%,全暗。挑选个头较大的烟草粉螟蛹0.5 g,去除体表附着的杂质,液氮速冻后,-70℃保存备用。
利用DNA提取试剂盒(Insect gDNA Isolation Kit,美国Biomiga公司)提取烟草粉螟基因组DNA。首先利用琼脂糖凝胶电泳定量对基因组DNA进行初步检测,待检测合格后,再利用Qubit Fluorometer(Invitrogen Qubit 2.0,美国Thermo Fisher Scientific公司)进行DNA浓度测定,利用琼脂糖凝胶电泳(胶浓度1%,电压180 V)进行DNA的完整性、纯度和片段大小检测,确保DNA质量达到建库测序要求。
烟草粉螟基因组调查由北京诺禾致源科技股份有限公司完成。检测合格的DNA样品通过超声波破碎随机打断成小片段(250 bp、500 bp),经末端修复、加A尾、加测序接头、纯化、PCR扩增等步骤完成整个文库制备。构建好的文库,通过Illumina Hiseq 2000测序平台进行PE150双末端测序。测序得到的原始序列(Raw reads)必须进行精细过滤,去除其中带接头的、低质量的Reads,得到Clean reads。
取全部Raw reads,统计测序Reads数量、数据产量、测序错误率、Q20含量、Q30含量和GC含量等。高通量测序中,每测一个碱基会产生一个相应的质量值,其中,Q20和Q30表示质量值大于等于20或30的碱基所占百分比,主要是用来衡量测序准确度的。测序数据质量分布在Q30(≥80%)以上才能保证后续分析正常进行。测序错误率分布检查用于检测在测序长度范围内,有无异常的碱基位置存在高错误率。一般情况下,每个碱基位置的测序错误率都应低于1%。GC含量分布检查用于检测有无AT、GC分离现象。
基于Clean reads,采用K-mer法对烟草粉螟基因组大小进行估计[7,22]。当K值为17时,统计Kmer频数分布,作K-mer分布曲线,计算K-mer的深度分布,并确定深度分布的峰值[24-25],使用SOAPde novo软件得到K-mer总数。根据公式(基因组大小=K-mer总数/峰深度)估算烟草粉螟基因组大小。通过排除错误K-mer带来的误差影响,修正基因组大小。通过计算序列中杂合位点的比例得到基因组杂合度。根据主峰后1.8倍的K-mer总数占所有K-mer数的百分比计算序列重复率。
使用SOAPde novo软件对不同片段大小的序列进行拼接[26],基本过程如下:首先利用Reads之间的重叠关系,并在重复边界位置进行剪切,得到Contigs序列,其次根据大片段数据的Pair-end关系,构建Scaffolds序列,最后用Reads对Scaffolds的空隙区域进行填补。
将本研究中获得的烟草粉螟基因组信息(基因组大小、GC含量和Contig N50)与NCBI上已公布的其他鳞翅目昆虫基因组(https://www.ncbi.nlm.nih.gov/genome)进行比较。
Qubit检测DNA浓度为198 ng/μL,A260/280=1.81,A260/230=1.69,提取的DNA质量较好。琼脂糖凝胶电泳检测显示(图1),样本DNA主带在48 000 bp以上,轻微断裂,轻微降解,满足建库测序质量要求。
图1 琼脂糖凝胶电泳检测结果Fig.1 Test results of agarose gel electrophoresis
本研究中共获得小片段文库测序15 Gb的原始数据量,覆盖深度大约26.9×,获得烟草粉螟Reads数量为52 552 733条。测序错误率为0.04%,Q20=97.48%,Q30=92.73%,说明碱基测序准确度较高,满足后续数据分析要求。烟草粉螟基因组测序数据中A与T、C与G的互补碱基数基本一致,位置碱基N基本为零,但由于前几个碱基测序质量值较低以及DNA模板扩增偏差等原因,常会导致每个Read前几个碱基有较大波动,属于正常情况(图2)。
图2 GC含量分布结果Fig.2 Results of GC content distribution
通过K-mer分析方法预测烟草粉螟基因组大小、杂合度和重复序列等基因组特征(表1)。当取K=17时,SOAPde novo软件预测得到的K-mer数为11 715 804 970个。根据K-mer深度分布(图3),利用公式估算出烟草粉螟修正基因组大小为546.4 Mb,基因组杂合度为1.93%,重复序列比率为48.59%。
表1 K-mer分析所得基因组特征统计分析Tab.1 Genomic characteristics by K-mer analysis
图3 深度和K-mer频率分布图Fig.3 Depth and K-mer frequency distribution
利用SOAPde novo软件对烟草粉螟测序数据进行初步组装(表2)。由于其基因组重复性较高,选择K=41作为初步组装的K-mer大小,首先组装成Contigs,组装得到的Contigs数量为3 192 823条,序列总长为713 127 860 bp,最长的序列长度为59 643 bp,N50为244 bp。而后将Contigs组装成Scaffolds,组装得到的Scaffolds数量为3 054 965条,序列总长为725 456 026 bp,最长的序列长度为162 813 bp,N50为288 bp。
表2 基因组组装结果Tab.2 Results of genome assembly
目前已有13种鳞翅目昆虫(7种蛾类和6种蝶类)的基因组被发表(表3),其中,蛾类基因组大小介于为337~824 Mb之间,蝶类基因组大小介于为227~389 Mb之间,最大的是二化螟(824 Mb),最小的是玉带凤蝶(Papilio polytes,227 Mb),而烟草粉螟(546 Mb)基因组大小介于它们之间。烟草粉螟基因组GC含量为36.9%,与已知鳞翅目昆虫相近。烟草粉螟Contig N50最小,组装质量低,主要是由于烟草粉螟的基因组测序深度低,只对其进行了初步组装。
表3 鳞翅目14种昆虫基因组信息Tab.3 Genomic information of 14 species of Lepidoptera
鳞翅目分为蛾类和蝶类,是昆虫纲中的第二大目,但目前已发表的鳞翅目昆虫基因组仍然较少[7]。另外,与流式细胞仪分析法相比,基因组调查分析是一种更精确的分析未知基因组特征的方法[24],二化螟[9]和小菜蛾[27]等鳞翅目昆虫均采用基因组调查分析的方法评估基因组大小。通过对鳞翅目昆虫基因组大小进行比较,发现大多数蛾类基因组比蝶类基因组大,而重复序列是导致不同昆虫基因组产生巨大差异的主要原因之一[22]。本研究中通过基因组调查分析预测烟草粉螟基因组大小为546.4 Mb,比大多数已知的蛾类基因组大,推测可能原因是烟草粉螟基因组具有相对较多的重复序列。另外,基因组调查分析结果表明烟草粉螟基因组杂合度很高(1.93%),重复片段多(重复率为48.59%),属于复杂昆虫基因组,组装难度较大。因此,一方面通过自交对烟草粉螟种群进行不断纯化,从而降低种群杂合度,另一方面通过构建烟草粉螟二代、三代文库,采用二代和三代相结合的测序策略,辅以Hi-C技术辅助基因组组装,有望获得高质量染色体水平的烟草粉螟全基因组图谱。
目前,二化螟[9]、棉铃虫[10]和小菜蛾[27]等多种鳞翅目害虫的基因组已被公开,研究人员利用基因组信息通过生物信息学方法鉴定了解毒代谢、嗅觉感受和食性等相关的关键基因,进而通过分子生物学和基因编辑验证这些基因的功能,为开发绿色的新型害虫防治策略提供理论依据[10]。然而,目前仅报道了烟草粉螟线粒体基因组序列[28],其全基因组还未见报道,制约了烟草粉螟生理习性和生长发育等分子机理的研究。本研究中利用低深度测序对烟草粉螟基因组进行初步研究,由于测序深度较低,组装质量较差,仍需进行烟草粉螟基因组的深度测序和组装。对烟草粉螟全基因组进行研究,进而利用生物信息学筛选鉴定一些与烟草粉螟生理习性相关的基因,或者潜在的生物防治或化学防治的靶基因,可为烟草粉螟新型绿色杀虫剂的研制奠定基础[29]。例如,利用烟草粉螟基因组鉴定其表皮几丁质降解酶基因和几丁质合成酶基因等昆虫表皮发育关键基因,通过基因编辑等方式研究其功能,从而筛选验证高致死率靶基因,有助于推动烟草粉螟新型绿色杀虫剂的研制[29]。另外,利用烟草粉螟基因组鉴定其中的嗅觉基因,通过开展嗅觉基因功能研究,利用反向化学生态学方法,有助于设计更高效安全的烟草粉螟引诱剂及交配干扰剂,从而为烟草粉螟的监测和绿色防控提供理论依据和应用指导[30]。
通过对烟草粉螟进行全基因组调查分析,预测其基因组大小为546.4 Mb,杂合度为1.93%,重复序列比例为48.59%,GC含量为36.9%,属于复杂昆虫基因组。由于测序深度低,采用K-mer 41进行初步组装,得到的Contigs总长为713 127 860 bp,其N50为244 bp,Scaffolds总长为725 456 026 bp,其N50为288 bp,组装质量较低。