利普斯他汀高产菌株毒三素链霉菌AP617-N12CA的全基因组测序与分析

2022-02-19 08:46李辉方志锴郭霞凌
中国抗生素杂志 2022年1期
关键词:基因簇线型质粒

李辉 方志锴 郭霞凌,*

(1 大邦(湖南)生物制药有限公司,长沙 410221;2 福建省微生物研究所,福州 350007)

利普斯他汀(lipstatin)是由毒三素链霉菌(Streptomyces toxytricini)产生的一种具有良好抑制脂肪酶活性的天然产物,其氢化还原产物奥利司他(orlistat)化学性质更加稳定,是目前全球唯一的OTC减肥药和非中枢神经减肥药[1-2]。以lipstatin为关键前体的发酵半合成技术是目前制备orlistat的主要方法,有关lipstatin的生物合成途径解析与菌种选育一直是该领域的研究热点[3-4]。由于lipstatin生物合成途径复杂且产生多种副产物和结构类似物,导致发酵单位产量较低且下游提取精制十分繁琐[5-6]。因此,构建高产低杂的生产菌株,提高工业化生产水平,是目前亟待解决的关键问题。然而lipstatin完整的生物合成途径与调控机制至今未全面阐明,从而无法找到合适的靶基因对其产生菌进行代谢工程定向改造[7-8]。通过对S.toxytricini进行全基因组测序,有助于从分子水平上了解其遗传变异规律、重要代谢途径和调控机制,可为高效基因工程菌株的构建提供丰富、可靠的遗传信息。

随着基因测序技术的不断迭代更新,越来越多的微生物基因组序列被破译[9]。然而,由于二代测序技术读长较短、高重复序列无法跨越、高GC区域无法准确测定等原因,很多已完成测序的微生物基因组中往往含有数目不等的空缺区域(gap)[10]。基因组空缺区域中可能存在重要的遗传信息,如果不能补齐所有的gap,不仅无法获得完整的基因组图谱,还会给后续关键信息解读(基因调控、SNP分析、比较基因组分析等)造成很大困难[11]。三代测序技术由于其超长的测序读长和无GC偏好性,不仅可以克服以上部分难题,还可以得到零gap基因组完成图,但目前三代测序在碱基读取准确度上较二代测序差。三代联合二代测序技术可克服两者的缺点,从而获得更准确、更深入的基因组数据挖掘结果。

本研究采用三代单分子测序长读长与二代测序纠错相结合的方式,对liptatin工业生产菌株毒三素链霉菌AP617-N12CA(S.toxytriciniAP617-N12CA )进行全基因组序列测定,不仅获得了AP617-N12CA的染色体全基因序列信息,还首次发现了一个长约0.61Mbp线型质粒。通过对染色体基因组和线型质粒进行基因功能注释和次级代谢产物合成基因簇预测,从线型质粒上定位了lipstatin生物合成基因簇,为AP617-N12CA的功能基因组学研究和代谢调控提供了理论依据。

1 材料与方法

1.1 菌株与培养基

本研究所采用的菌株S.toxytriciniAP617-N12CA为lipstatin工业化生产菌株,由大邦(湖南)生物制药有限公司保藏。摇瓶种子培养基:甘油2.0%,酵母提取物0.6%,黄豆饼粉2.0%,蒸馏水配置,pH6.5。YEME培养基:蛋白胨0.5%,酵母提取物0.3%,麦芽提取物0.3%,葡萄糖1.0%,蒸馏水配置,pH7.5。

1.2 基因组DNA提取

取少量AP617-N12CA孢子悬液接种于摇瓶种子培养基,28℃恒温培养36 h,然后以1%的接种量接种于YEME培养基,37℃恒温培养48 h。离心收集菌丝体,提取AP617-N12CA基因组DNA[12],使用Thermo NanoDrop 2000微量紫外分光光度计对提取的基因组DNA进行浓度测定,然后进行0.5%琼脂糖凝胶电泳检测DNA质量。

1.3 基因组测序与拼接

对质量和浓度测定合格样品进行基因组测序,由北京百迈克生物技术有限公司同时进行Illumina二代测序和ONT三代测序。三代原始数据经去除测序数据中的接头序列和低质量序列后,得到总的数据集。使用Canu v1.5 (http://github.com/marbl/canu) 软件[13]对过滤后的subreads进行从头组装,通过Racon v3.4.3软件利用三代subreads对组装结果进行矫正。通过Circlator v1.5.5软件进行环化和调整起始位点,采用Pilon v1.22软件利用二代数据进一步进行纠错,最终获得准确度更高且不存在gap的完成图序列进行后续分析。

1.4 基因预测与注释

通过软件Prodigal v2.6.3 (https://github.com/hyattpd/Prodigal/) 进行基因预测[14]。根据预测得到的 CDS 位置信息提取氨基酸序列,与COG/KOG数据库[15]、KEGG数据库[16]、Swiss-Prot蛋白质序列数据库、Pfam蛋白质家族数据库、NCBI-Nr数据库和CAZy碳水化合物活性酶数据库等进行蛋白质同源序列比对,完成基因注释。

1.5 次级代谢产物合成基因簇分析

利用次级代谢产物编码基因成簇存在的特点,采用在线软件AntiSMASH[17]和NRPSpredictor[18]预测AP617-N12CA中的次级代谢产物生物合成基因簇,并分析可能合成的代谢产物。

2 结果与分析

2.1 S.toxytricini AP617-N12CA基因组提取

对提取得到总量为200 μL的基因组进行凝胶电泳检测(图1),样品主条带清晰,存在轻度降解,DNA 样品浓度测定经NanoDrop定量检测,样品浓度为48.9 ng/ μL,符合测序要求。

2.2 S.toxytricini AP617-N12CA基因组特征

采用ONT测序与Illumina测序相结合的方式对AP617-N12CA进行全基因组测序,最终组装得到完整的零gap基因组序列,包含两个大小不等的线型复制子。其中一条可以确定为染色体,而另一条可能为游离质粒,暂将其命名为复制子2。AP617-N12CA基因组总长6985682 bp,GC含量为73.76%,预测含6134个基因,预测基因序列总长度6119307 bp,预测基因平均长度997 bp,长度最长的基因长度为18252 bp。其中染色体大小为6375543 bp,占基因组全长的91.3%,预测含5680个蛋白编码基因。与其他已测序的链霉菌染色体大小(8.5~9.0 Mb)相比,S.toxytricini的染色体相对较小,仅约6.38 Mb。复制子2长610139 bp,占基因组全长的8.7%,预测出454个蛋白编码基因。

根据Bentley等[19-20]提出的关于区分染色体和巨型质粒的理论依据并非根据它们携带的复制相关基因,而是判断它们是否是宿主生长所必需的以及是否携带rRNA操纵子。本研究通过对这条6.1 Mb的线型复制子中的编码基因进行预测来判断它是否为AP617-N12CA的生长所必需的元件。结果表明,主代谢过程必需的rRNA及tRNA编码基因无一例外地全部存在于染色体中(RNA预测结果显示该菌染色体上含有72个tRNA基因和21个rRNA基因)。此外,通过对复制子2上的基因组序列进行预测分析,预测结果显示的编码基因都不是AP617-N12CA初级代谢必需的遗传因子,说明复制子2并不是AP617-N12CA细胞正常生命活动所必需的。基于上述结果,本研究推断AP617-N12CA中的两个线型复制子,较大的为染色体,较小的为线型质粒,将其命名为pDBSW178,AP617-N12CA基因组完成图如图2所示。

2.3 S.toxytricini AP617-N12CA基因组功能注释

采用本地Blastp的方法对AP617-N12CA进行COG,KEGG,Swiss-Prot数据库比对注释。COG数据库共注释到6134开放阅读框编码可能具有一定功能的蛋白质,分为A~Z类,各基因数量和比例见图3。在这些进行COG分类的CDS中,除一般功能(general function prediction only)基因516个和未知功能(function unknown)基因1119个外,主要集中在能量代谢与转换(energy production and conversion)基因264个、氨基酸转运和代谢(amino acid transport and metabolism)基因337个、碳水化合物运输和代谢(carbohydrate transport and metabolism)基因263个、转录(transcription)基因395个。其中次级代谢产物的生物合成、运输和分解代谢(secondary metabolites biosynthesis, transport and catabolism)基因132个,这些将是研究lipstatin生物合成与代谢调控的重点。KEGG富集分析显示如图4,对应到KEGG pathway的2109个基因,富集在123条代谢通路中,其中涉及基因最多的通路主要有:氨基酸生物合成代谢途径(biosynthsis of amino acids,158个基因)、碳源代谢途径(carbon metabolism,144个基因)和ABC转运系统(ABC transporters, 108个基因)。可能与lipstatin及其结构类似物有关的通路有:支链氨基酸降解途径(valine, leucine and isoleucine degradation, 38个基因)、脂肪酸合成途径(fatty acid biosynthesis,30个基因)、脂肪酸降解途径(fatty acid degradation,29个基因)等,这些基因也是研究lipstatin生物合成与代谢调控的重点。Swiss-Prot是含有详细注释内容的蛋白质序列数据库,经注释基因准确度高。AP617-N12CA中共2847条蛋白序列得到Swiss-Prot注释,这些为后续该菌的功能基因组学研究提供了极大的便利。

2.4 次级代谢产物生物合成基因簇分析

通过次级代谢产物生物合成基因簇的在线预测工具antiSMASH对AP617-N12CA基因组中可能编码的次级代谢产物合成有关的基因簇进行了预测。共识别出22个可能的基因簇,其中18个位于染色体中,4个位于线型质粒中(表1)。在22个基因簇中,其中8个包含PKS、NPRS或杂合的PKS -NPRS,剩余的基因簇中,6个可能与萜类(terpene)分子生物合成有关,3个可能与铁载体(siderophore)生物合成有关。AP617-N12CA染色体中识别出的次级代谢产物合成基因簇总长度为534381 bp,只占染色体基因组的8.38%;而线型质粒识别出的次级代谢产物合成基因簇总长度为215998 bp,在线型质粒基因组中占比高达35.4%,说明在线型质粒上包含了高密度的次级代谢产物合成基因。

表1 S.toxytricini AP617-N12CA基因组中预测的生物合成基因簇Tab.1 Predicted biosynthesis clusters in S.toxytricini AP617-N12CA

另外,在antiSMASH预测结果分析时笔者意外发现,由lstA、lstB、lstC、lstD、lstE和lstF等呈簇分布的基因组成的lipstatin生物合成基因簇(cluster 22)并不位于染色体基因组中,而是分布在线型质粒的右臂区域。对AP617-N12CA中lipstatin生物合成基因簇通过GenBank数据库比对分析,发现AP617-N12CA中lipstatin生物合成基因簇与S.globosusstarin LHZ-48中相应序列在基因组成和排列顺序上均具有高度同源性(基因簇同源性高达94.39%),暗示lipstatin生物合成基因簇具备在不同菌株间穿梭或水平转移的可能性。

3 讨论

三代单分子实时测序测序读长可达到20 kb,测序过程不需要PCR扩增,是目前高比例重复序列、高杂合度、极端GC含量基因组测序的理想平台,三代和二代测序技术联合应用解析微生物全基因序列将成为主流。本研究运用ONT三代测序和Illumina二代测序两种测序技术相结合的方法对AP617-N12CA进行了全基因组的测序,首次获得了S.toxytricini基因组完成图。AP617-N12CA全基因组长度为6985682 bp,GC含量73.76%,包含6134个预测编码蛋白。同时对组装的基因组进行了基因预测、功能注释和聚类分析,进一步预测了次级谢产物生物合成基因簇。最终获得的这些基础数据有益于从分子水平上认识AP617-N12CA的生理功能、代谢特性和高产机理,同时对lipstatin的生物合成途径与调控机制的研究具有一定的参考价值。

链霉菌作为一类重要的工业微生物,能够产生大量结构复杂多样的活性天然产物,如抗生素、抗肿瘤药物和免疫抑制剂等,广泛应用于医药、农业和畜牧业等[21]。多数链霉菌的菌株中带有质粒[22],目前已报道的大多数链霉菌抗生素生物合成基因簇定位于染色体上,只有极少数抗生素的生物合成基因簇存在于游离状态的质粒上[23],如天蓝色链霉菌S.coelicolorA3(2)菌株中的次甲霉素A 生物合成基因簇位于长度350 kb的巨型线型质粒SCP1质粒上[24],娄彻链霉菌S.rochei中的卡杀菌素类抗生素(lankacidins)生物成合成基因簇位于长度200 kb的线型质粒pSLA2-L上[25]。本研究在对重要工业微生物S.toxytriciniAP617-N12CA进行全基因组测序时,首次发现和描述了一个长为610139 bp的线型质粒pDBSW178,质粒上汇聚了多个合成编码次级代谢产物的基因簇,AP617-N12CA主要次级代谢产物lipstatin生物合成基因簇也定位于pDBSW178上。后续进一步对线型质粒pDBSW178的检测与分离、复制机理和端粒结构等进行深入系统研究,不仅有助于开发出新型的链霉菌线型载体系统,还可为lipstatin优质高产菌株的构建与应用提供理论基础,并为lipstatin的高效异源生物合成提供研究思路。

猜你喜欢
基因簇线型质粒
农杆菌转化法中的“Ti质粒转化载体系统”的简介
——一道江苏高考题的奥秘解读和拓展
全基因组测序后质粒的组装与鉴定研究进展*
miR-101基因簇与食管癌发病风险的病例对照研究
湘潭高月塘大桥施工线型监控与合拢策略研究
真菌沉默基因簇激活策略研究进展
加权融合方法在船型开发中的应用
mcr-1阳性类噬菌体质粒与F33∶A-∶B-质粒共整合形成的融合质粒的生物学特性分析
四氢嘧啶基因簇在假单胞菌基因组中的分布研究
开发新方法追踪植物病害的全球传播(2020.6.7 iPlants)
AutoCAD中线型的开发定制技术