摘要:[目的]本研究旨在解析对松枯梢病原菌Sphaeropsis sapinea具有强拮抗活性的生防菌株森吉木霉Trichoderma songyi M75的基因组基本信息。[方法]采用Illumina NovaSeq PE 150为依托的第二代测序技术对森吉木霉M75菌株进行基因组测序。[结果]M75菌株全基因组总长34 483 860 bp.GC含量49.50%,与木霉属真菌特征相吻合。在GO数据库中,森吉木霉M75共注释了28 494个基因;在KEGG数据库中有8192个基因富集在KEGG中的383条不同的在三级代谢通路中,主要集中表现在代谢途径通路(848个)、次生代谢产物的生物合成通路(330个)、抗生素的生物合成(243个)、微生物代谢通路(240个)、氨基酸的生物合成(118个)、碳代谢通路(112个)等相关的代谢与次生代谢产物合成通路中;共有2 184个基因在KOG数据库中获得蛋白功能注释;在碳水化合物活性酶CAZy数据库中,共注释了259个糖苷水解酶GHs基因,105个糖基转移酶GTs基因,7个多糖裂解酶PLs基因,21个糖类脂解酶CEs基因,54个糖类结合组件CBMs基因。森吉木霉M75全基因组中共包含41个基因簇,451个基因,多数与次级代谢产物的合成相关。[结论]本研究首次获得了生防真菌森吉木霉的基因组序列信息,为木霉的遗传信息、抑菌机制及抑菌物质的代谢通路等研究提供了数据支持和重要参考。
关键词:森吉木霉;基因组;基因功能注释;次级代谢
中图分类号:S763.15 文献标识码:A 文章编号:1001-1498(2024)05-0160-09
在我国,由C型松枯梢病原菌松球壳孢菌(Sphaeropsis sapinea (Fr.) Dyko&B.Sutton)侵染松属(PinUS)、冷杉属(Abies)、落叶松属(Larix)、雪松属(Cedrus)、云杉属(Picea)、刺柏属(Juniperus)、崖柏属(Thuja)和黄杉属(Pseudotsuga)8个属约60种针叶植物的嫩梢、针叶、芽和球果等多个部位引起的病害称为松枯梢病(又名松梢枯病)。其典型症状为松球壳孢菌侵染顶芽,导致顶芽受害,新梢萎蔫弯曲无法正常生长,新生的针叶颜色逐步变枯黄,发展成枯梢。松枯梢病已是目前世界范围内针叶树上最常见和分布最广的重要病害之一。
为了防治松枯梢病,现代营林措施高度依赖化学农药,通常大量使用杀菌剂和熏蒸剂,导致化学物质在土壤中逐年富集,对环境产生巨大的负面影响,此外,化学药剂的长期重复使用也会导致病原菌产生抗药性。这促使人们寻求减少或消除使用农药的有害生物控制新策略,即将生防菌剂与低剂量的化学药剂相结合使用,可有效控制植物病害且对环境危害较小。
已有众多研究表明,木霉属(Trichoderma)中丰富的真菌物种是可以用来当做生物防治剂开发的有益真菌种类,这种类群的真菌可以产生各种抗生素和拮抗作用酶等,同时可以通过诱导提高植物系统抗性以及对植物病原真菌的寄生作用来抑制病害的发生并降低危害,它们的代谢多样性和强大的资源竞争力,使木霉属中的很多有益真菌被开发制作为商业生物肥料和生物防控制剂。
2008年Martinez D等人首次对里氏木霉(Trichoderma reesei E.G. Simmons)展开基因组测序,里氏木霉由此成为第一个完成全基因组测序的木霉属真菌,此后,随着测序技术的不断发展以及测序成本的逐年降低,研究人员相继公布了深绿木霉(Trichoderma atroviride P.Karst.)和绿木霉(Trichoderma virens(J.H.Mill.,Giddens& A.A. Foster) Arx)的基因组信息,哈茨木霉(Trichoderma harzianum Rifai)和盖斯姆木霉(Trichoderma gamsii Samuels&Druzhin)也于2015和2016年相继完成测序。此后,更多的木霉属真菌相继完成测序,获得全基因组水平的基因信息,这标志着针对木霉属的研究正逐渐进入全基因组时代,而关注木霉属真菌基因表达层面的研究也为木霉基因功能的开发和利用奠定了基础。
截至目前,森吉木霉(Trichoderma songyiM.S.Park, Seung Y.Oh&Y.W.Lim)这一物种还未开展全基因组测序,为填补这一空白,获得森吉木霉完整的基因序列,本研究以实验室前期筛选获得的1株对松球壳孢菌具有较强抑菌活性且抑菌谱广泛的森吉木霉M75菌株作为研究对象,采用lllumina NovaSeq PE 150为依托的第二代测序技术对该菌株进行基因组测序,通过基因组组分分析,基因通用功能注释与效应因子注释,深入研究森吉木霉菌株M75生防功能的内在机制,阐述并推测森吉木霉具有高强度抑菌活性的可能原因,扩充生防木霉菌库,为生防木霉的拮抗机理研究奠定基础,同时为微生物防治松枯梢病及其他重要林木病害的技术开发和应用提供基因组水平上的数据支持和理论依据。
1 材料与方法
1.1 试验材料
供试菌株:森吉木霉M75由本实验室分离筛选获得,现保藏于中国林业微生物菌种保藏管理中心,保藏编号:CFCC54490。
1.2 试验方法
1.2.1 菌丝体收集
用打孔器打取直径5 mm的森吉木霉M75菌饼,接入装有250 mL PDB培养基的500 mL三角瓶中,置于28℃、180 r·min-1的摇床上振荡培养96 h,得到森吉木霉M75的发酵液,收集30 mL发酵液于50 mL离心管中,4℃下10 000 r·min-1离心10 min,弃上清,取沉淀,收集菌丝体。
1.2.2 文库构建及库检
采用SDS法提取森吉木霉M75菌株样本基因组DNA,通过凝胶电泳检测样本DNA的纯度,基于Qubit技术进行定量分析。选取质量检测合格的DNA,通过Covaris超声仪将目的DNA打断成长度约为350 bp的片段。处理完成后的DNA片段,按NEB试剂盒中的方法操作,进行末端修复、加PolyA尾、纯化和扩增处理后,获得所需文库。建立好所需文库后,通过Qubit 2.0荧光计(美国Invit-rogen公司)定量分析,先稀释到2.0 ng·μL-1,检测其插入片段,接头引物长度符合预期后,为保证文库质量,通过Q-PCR对其有效浓度准确分析。
1.2.3 测序、组装与组分分析
利用IlluminaNovaSeq PE 150,并按照有效浓度相关参数对不同文库进行测序。使用readfq(v10.0)软件对采集数据中的低质量数据部分过滤处理,过滤后得到的数据为有效数据。具体操作方法为:去除所含低质量碱基中(Mass value在20以下)超过40%的reads,删掉N碱基在10%及以上的reads,删掉接头引物序列重叠部分超过15 bp的reads,同时对可能来自于其他物种的信息进行过滤,除去重复样本污染。得到清洁数据后,对所获得的样本基因组进行组装,得到反映基因组基本情况的序列文件,并对组装结果进行评价。具体处理流程如下:经过预处理后得到Clean Data,使用SOAPdenovo(v2.04),SPAdes(v3.5.0)。ABySS(v1.4.8)组装软件进行组装,使用CISA(http://sb.nhri.org.tw/CISA/en/CISA)软件进行整合;而为使组装的序列更完整,需再次利用测序的双末端数据配对关系链接contigs,同时基于相应的覆盖关系填充空隙。应用Gapcloser(v1.1.2)软件工具进行数据处理,过滤长度低于50 bp的片段。使用Tandem RepeatFinder(v4.04)软件预测串联重复序列,根据重复单元长度及数目筛选出其中的微卫星以及小卫星序列。具体测序和组装过程由北京诺禾致源公司完成。
1.2.4 基本功能注释
使用Diamond软件(v0.9.10.111)针对编码基因序列进行不同数据库的功能注释,包括GO(Gene Ontology)、KEGG(Kyoto Encyclopedia of Genes and Genomes)、CAZy(Carbonhydrate-Active Enzymes Data-base)、KOG(Clusters of Orthologous Groupsfor Eukaryotic Complete Genomes)等功能基因数据库。GO注释采用InterPro(v66.0)软件完成,KO及Pathway注释使用KEGG的KAAS(v2.1)自动化注释系统,KOG注释使用egg-NOG-mapper(v4.5)完成。相关基因功能注释时依据如下的流程进行:(1)将所预测基因的蛋白序列与各功能数据库中的蛋白序列进行比较(evalue≤1e-5);(2)将按默认值(identity≥40%,coverage≥40%)对比对结果进行过滤,对所获得的各序列的比对结果,确定出其中分值最高的进行基因基本功能注释。
1.2.5 效应因子注释
效应因子注释主要包括样品全基因组中的分泌蛋白和次级代谢基因簇。在研究过程中通过SignaIP(v6.0)和TMHMM(v2.Oc)等软件工具对其进行预测,检测全基因组序列中是否含有信号肽等与分泌蛋白相关的生物信号或结构,并对所分析的蛋白序列是否为分泌蛋白进行全面预测。采用antiSMASH程序(v6.1.1)对基因组进行次级代谢基因簇预测。
2 结果与分析
2.1 组装结果统计
森吉木霉M75全基因组总长度为34 483 860bp,大小约34.5 MB,GC平均含量(鸟嘌呤和胞嘧啶与全部碱基的摩尔百分比)为49.50%,共预测到9 315个编码基因,编码区的总长度为15 352 435 bp,约1.50 MB,占全基因组总长的44.52%.统计分析确定出其中编码基因长度1 648 bp。散在重复序列共2 674个,总长度198 068 bp,在全基因组中占比0.57%;小卫星DNA 2 768个,总长度118 514 bp,占比为0.3%;微卫星DNA 388个,总长度16 186 bp,所占比例0.05%。详见表1。
2.2 基本功能注释
2.2.1 GO数据库注释
GO数据库分析所得结果如图1所示:分析此图结果可知相应的细胞组分共包括10类,其中细胞(cell)和细胞组分(cellpart)相关基因最多,分别注释了2 511个。分子功能共包含12类,其中催化活性(catalyticactivity)相关基因最多,注释了3 511个,其次为结合(binding)相关基因3 411个,相对较少的是伴金属活性(metallochaperone activity)4个、电子载体活性(electron carrier activity)1个、通道调节剂活性(channel regulator activity)3个。生物过程共包含25类,基因注释最多的功能为细胞过程(cellular process)3 527个、细胞代谢(metabotic process)3 560个,而节律过程(thythmic process)注释1个、氮素利用(hitrogen utilization)注释1个、细胞杀伤(cellkilling)注释3个、生长(gro注释wth)2个、免疫系统过程(immune system process)注释2个,这些功能涉及到的基因较少。
2.2.2 KEGG代谢通路数据库注释
在森吉木霉M75的代谢通路中,基因覆盖率最高的类型是新陈代谢(metabolism),在新陈代谢二级分类单元下,全球地图概览(gloabal and overviewmaps)基因最多,注释了927个,碳水化合物代谢(ca巾ohydrate metabolism)319个,氨基酸、脂类和能量代谢(Amino acids,lipids,andenergy metabolism)共596个;其他二级分类单元下,运输和分解代谢(transport and catabolism)277个,信号转导(signal transduction)238个,翻译(translation) 301个,折叠分类和降解(folding,sorting and degradation)221个(图2)。根据基因在KEGG数据库注释中的富集分析可知(表2),在三级代谢通路中,森吉木霉M75全基因组中8 192个基因富集在KEGG中的383条不同的代谢通路中,其中,代谢途径通路(metabolic pathways)共注释848个基因、次生代谢产物的生物合成通路(biosynthesis ofsecondary metabolites)注释330个基因、微生物代谢通路(microbial metabolism in diverseenvironments)240个、碳代谢通路(carbonmetabolism)112个。
2.2.3 碳水化合物活性酶(CAZy)数据库注释
森吉木霉M75菌株在CAZy数据库中的注释结果表明,在森吉木霉M75的全基因组序列中,有259个与碳水化合物相关联的糖苷水解酶GHs基因,30个氧化还原酶AAs基因,105个糖基转移酶GTs基因,54个糖类结合组件CBMs基因,7个多糖裂解酶PLs基因,21个糖类脂解酶CEs基因(图3)。
2.2.4 KOG数据库注释
如图4所示,在森吉木霉M75全基因组中,共有2 184个基因在KOG数据库中获得蛋白功能注释,蛋白质功能共分为24个类型,主要集中表现在一般通用功能预测(general function prediction only)241个、翻译后的修饰,蛋白质周转及伴侣蛋白(posttranslational modification,protein turnover,chaperones) 211个、翻译、核糖体结构与生物合成(translation,ribosomal structure andbiogenesis) 202个、能量的产生和转化(energyproduction and conversion) 191个、氨基酸的转运与代谢(amino acid transport and metabolism)171个。在防御机制(defense mechanisms)注释8个、核结构(nuclear structure)6个、细胞运动(cell motility)1个,功能注释较少。
2.3 效应因子注释
2.3.1 分泌蛋白预测
测序结果显示森吉木霉M75具有信号肽结构的蛋白个数为872个,具有跨膜结构的1 798个,分泌蛋白703个。
2.3.2 次级代谢基因簇分析
预测结果统计如图5所示:森吉木霉M75全基因组中共包含41个基因簇,共451个基因。其中,TIPKS型基因簇13个,包含135个基因,N RPS-like型10个,包含127个基因,NRPS型基因簇6个,包含75个基因,萜烯类terpene基因簇8个,包含43个基因,NRPS,TIPKS型3个,包含48个基因,NRPS,NRPS-like,TIPKS型1个,包含23个基因。
3 讨论
木霉属真菌由于其对各种生态条件及生存环境的高度适应性和寄生拮抗等功能,在当今农业领域中被广泛用作商业生物杀菌剂。除此之外,木霉能成功作为生物防治剂还归因于这些真菌能够产生较多的次生代谢产物,这些次生代谢产物如细胞壁水解酶可以破坏寄主植物细胞壁,这些次生代谢产物的合成与各种基因的调控息息相关,因此从基因组层面探究木霉的代谢途径及生物功能,成为全面开发利用木霉属真菌的必要手段。
本研究基于新一代测序技术对森吉木霉M75菌株完成了基因组测序,与哈茨木霉、绿木霉、深绿木霉等木霉属中的近缘物种相比,他们的基因组大小较为接近,都约为35 MB左右。其中,森吉木霉M75在GO数据库中获得注释的基因数目高达28 294个,远高于哈茨木霉Th-33的6 238个,碳水化合物酶相关的糖苷水解酶基因259个,高于子囊菌纲中发现的GHs的平均数量211个;糖基转移酶GTs基因105个,与里氏木霉的103个相差不大,略高于平均水平96个;糖类脂解酶CEs基因21个,也略高于平均水平16个,多糖裂解酶PLs基因7个,低于平均水平18个。在次级代谢基因簇中,森吉木霉M75具有8个萜烯类terpenes基因簇。Croteau等人在对萜烯类物质进行研究时发现,萜烯是一大类具有高度多样化功能的次生代谢产物,对植物病原菌具有一定的抵御能力。而TPS基因簇恰恰就是控制萜烯类物质合成的次级代谢基因簇,这表明森吉木霉M75菌株强大的代谢合成能力可能与萜烯类基因簇的控制有关,这或许是生防菌株森吉木霉M75具有强抑菌活性的原因。本研究结果首次解析了森吉木霉全基因组信息,获得了大量与次级代谢相关的功能基因,有助于全面了解木霉的生防机制,同时为更深层次进行木霉属真菌的功能基因研究奠定理论基础并提供数据支持。
4 结论
本研究获得了森吉木霉M75的基因组序列,全基因组总长34 483 860 bp,GC含量49.50%,与木霉属真菌特征相吻合。在GO数据库共注释了28 494个基因;在KEGG数据库中,森吉木霉M75全基因组中8 192个基因富集在KEGG中的383条不同的在三级代谢通路中,主要集中表现在代谢途径(848个)、次生代谢产物的生物合成通路(330个)、抗生素的生物合成(243个)、微生物代谢通路(240个)、氨基酸的生物合成(118个)、碳代谢通路(112个)等与代谢或代谢产物合成相关的通路中;共有2 184个基因在KOG数据库中获得蛋白功能注释;在碳水化合物活性酶CAZy数据库中,共注释了259个糖苷水解酶GHs基因,105个糖基转移酶GTs基因,7个多糖裂解酶PLs基因,21个糖类脂解酶CEs基因,54个糖类结合组件CBMs基因;森吉木霉M75全基因组中共包含41个基因簇,451个基因,多数与次级代谢产物的合成相关,存在较大开发潜力。
(责任编辑:崔贝)
基金项目:北京市公园管理中心科技课题(ZX2024012);国家重点研发计划课题(2018YFC1200402);国家自然科学基金面上项目(31270682)