一株抗革兰阳性菌的戈登氏菌WA4-43 全基因组测序与分析

2023-03-07 12:56和梦颖刘文彬林震鸣黎尔彤汪洁金小宝
生物技术通报 2023年2期
关键词:基因簇基因组测序

和梦颖 刘文彬 林震鸣 黎尔彤 汪洁 金小宝

(广东药科大学生命科学与生物制药学院 广东省生物活性药物研究重点实验室,广州 510006)

目前使用的大多数抗生素均来源于链霉菌,但是链霉菌分离得到的次级代谢产物大多是已知重复的[1]。目前关于稀有放线菌产生生物活性物质的相关研究较少[2]。但已有研究从Mycobacteriumspecies分 离 获 得asukamycin 和 apramycin[3], 从Amycolatopsis species分离获得rifamorpholines 等抗生素[4]。因此,稀有放线菌的抗生素生产潜力未得到充分利用,值得进一步深入研究[5]。

戈登氏菌是一种稀有放线菌。戈登氏菌常见应用于产生类胡萝卜素[6],降解含油废水[7],以及吸附重金属等[8],而有关戈登氏菌抗菌活性和物质的研究较少。课题组前期从蜚蠊肠道中分离得到15 株戈登氏放线菌,并从WA8-44 菌株中分离出Actinomycin D、Actinomycin X2、Collismycin A 等 对真菌和细菌都有活性的化合物[9];从菌株WA4-31中分离出Actinomycin X2、Mojavensin A 等有一定抗真菌、抗肿瘤活性的化合物等[10]。

自天蓝色链霉菌完成全基因组测序以来[11],基因组测序技术与生物学信息分析技术越来越成熟,利用基因组挖掘可以帮助我们更好地预测编码基因和基因功能,预测出次级生物合成基因簇数量,具体基因功能以及与已知化合物同源性等。由于大多数基因在实验室常规条件下处于沉默状态,不表达或表达量低。除了常规的改变培养基参数,如添加化学诱导剂,共培养等方法可以激活沉默基因簇外[12],在全基因组测序的基础上,以基因组为导向的天然产物挖掘技术,基因组挖掘技术避免了传统挖掘方法的繁琐和随机,大大增加了新型天然产物的发现概率。采用基因组挖掘分析其生物合成基因簇,添加启动子、异源表达等方法能更好地发现新天然产物,避免不必要的浪费[13]。

本文在前期研究基础上,选取一株具抗革兰阳性菌的菌株WA4-43 进行全基因组测序,并分析其基因组数据和生物合成基因簇,为后续研究提供基础。

1 材料与方法

1.1 材料

1.1.1 实验菌株 菌株WA4-43 为本课题组前期从蜚蠊肠道中分离获得并保存于本室。白色念珠菌(ATCC 10231)、耐甲氧西林金黄色葡萄球菌(ATCC 43300)、金黄色葡萄球菌(ATCC 25923)、枯草芽孢杆菌(ATCC 6633)、表皮葡萄球菌(ATCC 25989)、大肠埃希氏菌(ATCC 25922)、肺炎克雷伯氏菌(ATCC 13883)和铜绿假单胞菌(ATCC 25924)均购置至于广东省微生物研究所。

1.1.2 主要试剂及仪器 2×Taq PCR Master Mix,TaKaRa 公司;琼脂糖凝胶,biowest 公司;EZUP 柱式细菌基因组DNA 抽提试剂盒,上海生工生物工程股份有限公司;T100TM PCR 仪,Bio-Rad 公司; LB培养基、PDA 培养基、PDB 培养基、高氏一号琼脂培养基、ISP-1 和ISP-2 培养基均购于广东环凯微生物科技有限公司。

1.2 方法

1.2.1 菌株WA4-43 培养及培养特征 将菌株WA4-43 接种于高氏一号固体平板上,28℃恒温培养箱培养 5-8 d,观察菌落形态、色素和产孢情况等特征,接种ISP-1,于28℃、180 r/min 摇菌 2 d。

1.2.2 16S rRNA 基因序列测定及系统发育分析 根据EZUP 柱式细菌基因组DNA 抽提试剂盒步骤提取菌株基因组DNA,使用16S rRNA 基因的通用引物27F(5′-AGAGTTTGATCMTGGCTCAG-3′)和1492R(5′-TACGGYTACCTTGTTAGGACTT-3′)[14]PCR 扩增16S rRNA。PCR 反 应 体 系(50 μL): DNA 模 板2 μL,2×Taq PCR Master Mix 25 μL, 引 物27F(10 μmol/L)和引物1492R(10 μmol/L)各 1 μL,ddH2O 21 μL。PCR 产物用1.0%琼脂糖凝胶电泳检测是否有相应大小条带,送至北京六合华大基因科技有限公司广州分公司测序。测序结果进行Blast 同源序列比对,下载NCBI 数据库中亲缘较近的40 株不同种类的戈登氏菌16S rRNA 基因核心序列,利用MEGA5.0[15]中的最大似然值法构建系统发育树。

1.2.3 菌株WA4-43 粗提物抗菌活性测定 接种ISP-1,于 28℃、180 r/min 摇菌 2 d,以5%的接种量接种ISP-2 发酵液,于28℃、180 r/min 发酵14 d。发酵液离心得到上清液,上清液分别使用乙酸乙酯和正丁醇萃取3 次,减压浓缩。粗提物用甲醇配置成10 mg/mL 样品备用。采用管碟法[16]测定样品对耐甲氧西林金黄色葡萄球菌、金黄色葡萄球菌、枯草芽孢杆菌、表皮葡萄球菌、大肠埃希氏菌、肺炎克雷伯氏菌、铜绿假单胞菌和白色念珠菌的抑菌活性。

1.2.4 菌株WA4-43 全基因组测序与组装 全基因组测序由北京百迈客生物科技有限公司完成。首先使用Canu v1.5[17]软件组合装配过滤后的subreads,再通过Racon v3.4.3 软件对组装的结果进行矫正,后通过Circlator v1.5.5 软件进行环化和调整起始位点,最后用Pilon v1.22 软件进一步进行纠错,以此来得到准确度更高的基因组序列。

1.2.5 菌株WA4-43 的基因组组分分析与基因组功能注释 使用Rfam[18]数据库、tRNAscan-SE v2.0[19]软 件、Nr[20]数 据 库、GO[21]数 据 库、eggNOG[22]数据库、Pfam[23]数据库、COG 数据库[24]和KEGG[25]等数据库对基因组序列进行比对分析,获得注释信息以及功能;通过软件Prodigal v2.6.3[26]动态编程算法较准确预测基因组中的编码基因;使用antiSMASH v6.0.1[27]进行菌株WA4-43 生物合成基因簇(biosynthetic gene clusters, BGCs)分析;利用PRISM 4[28]完成生物合成基因簇化合物的预测。

1.2.6 菌株WA4-43 的比较基因组分析 GenBank中下载2022年3月之前所有Gorclonia terrae菌属全基因组数据,进行生物信息学分析。

2 结果

2.1 菌株WA4-43培养特征

菌株WA4-43 在高氏一号固体培养基上生长良好,生长周期7 d 左右。菌落呈粉橘色,表面干燥不透明,呈不规则小圆型。经革兰染色可见,菌株WA4-43 为短小棒状革兰阳性菌,扫描电镜显示菌丝呈短杆状,无纵膈,如图1 所示。

图1 菌株WA4-43 菌株特征Fig. 1 Characteristics of strain WA4-43

2.2 菌株WA4-43分子生物学鉴定

2.2.1 菌株WA4-43 归属及系统发育树的构建 通过PCR 扩增16S rRNA 基因并测序用于菌株WA4-43鉴定,PCR 扩增产物经测序为1 372 bp 的16S rRNA序列。将序列上传至GenBank 数据库中进行Blast同源性比对,选取较相似的40 个戈登氏菌代表性菌株多序列比对,利用MEGA 5.0 中的最大似然值法构建系统发育树结果,如图2 所示。结果表示该菌株与G. terraestrain DSM 43249 处于同一分支,其16S rRNA 基因相似度为100%,与G. lacunaestrain BS2 基因相似度为98.91%,结合菌株生理生化特征[29-30](表1)和16S rRNA 基因分析,初步鉴定菌株WA4-43 为Gordonia terrae。

表1 菌株WA4-43 生理生化特征Table 1 Physiological and biochemical characteristics of strain WA4-43

图2 菌株WA4-43 系统发育树Fig. 2 Phylogenetic tree of strain WA4-43

2.2.2 菌株WA4-43 次级代谢产物抗菌活性初步测定 菌株WA4-43 乙酸乙酯部位对4 种革兰阳性菌:耐甲氧西林金黄色葡萄球菌、金黄色葡萄球菌、枯草芽孢杆菌和表皮葡萄球菌均有抑制作用(图3),抑菌圈分别为(19.0±0.47)cm、(19.7±1.25)cm、(21.0±0.82)cm、(15.0±0.47)cm。菌株乙酸乙酯粗提物对大肠埃希氏菌、肺炎克雷伯氏菌、铜绿假单胞菌和白色念珠菌无活性。此外菌株正丁醇部位对上述菌株均无活性。

2.2.3 菌株WA4-43 全基因组测序与分析 将菌株WA4-43 全基因序列上传至GenBank 获得登录号:CP084736.1。菌株WA4-43 基因全长5 438 735 bp,含有Contig 数量1 个,Contig N50 为5 438 735 bp,Contig N90 为5 438 735 bp,GC 含量为67.76%,基因组中包含4 963 个蛋白编码基因,其余数据库注释基因如表2 所示。非编码RNA 常具有特殊的二级结构,其中rRNA 9 个,包括23S rRNA 3 个,5S rRNA 3 个,16S rRNA 3 个;tRNA49 个;other ncRNA 40 个。

表2 菌株WA4-43 功能注释的基因数量和大小Table 2 Number and size of functionally annotated genes in strain WA4-43

利用菌株WA4-43 全基因序列预测得到的tRNA、rRNA、重复序列、GC 含量等信息,制作基因组圈图如图4 所示,可视化地看出基因组各组分在全基因组上的各种位置关系。

图4 菌株WA4-43 基因组圈图Fig. 4 Genome circle map of strain WA4-43

2.3.1 GO 功能注释 在菌株WA4-43 中,有3 563个基因在GO数据库得到注释,注释结果包含三大类,细胞组分(cellular component)、分子功能(molecular function)、生物过程(biological process),分析基因组各种功能注释信息,如图5 所示。蓝色: 细胞组分;红色: 分子功能;绿色: 生物过程。在细胞组分分类中共有9 类功能基因得到注释,其中基因比例较大的为membrane 和membrane part。在分子功能

图5 菌株WA4-43 基因组GO 功能注释Fig. 5 GO functional annotation on the genome of strain WA4-43

2.3 菌株WA4-43基因组注释

分类类别中共有11 类基因得到注释,参与catalytic activity 和binding 的独立基因比较多。在生物过程这个分子功能中,有10 类基因得到注释,其中参与metabolic process、cellular process 和single-organism process 过程的独立基因较多。

2.3.2 KEGG 功能注释 菌株WA4-43 共有1 870 个基因在KEGG 数据库中得到注释,如图6 所示,红色,生物遗传信息;紫色,环境因素;绿色,新陈代谢。共有3 大类代谢通路分别为genetic information processing、environmental information processing 和metabolism,分别有5、2、41 个小类。主要参与ribosme(59 kos),abc transporters(106 kos),biosynthesis of amino acids(129 kos)等代谢过程。

图6 菌株WA4-43 基因组KEGG 的功能注释Fig. 6 KEGG functional annotation of strain WA4-43 genome

2.3.3 COG 功能注释 通过将菌株WA4-43 基因信息于COG 数据库进行比对,共有4 178 个基因获得注释,共有22 类,如图7 所示,其中function unknown 和general function prediction only 类 别 基 因数量最多分别为1 069 个和417 个,占注释基因的25.22%和9.84%。其余功能基因占比较高的、大于5% 的 分 类 有energy production and conversion(253个,占比5.97%)、amino acid transport and metabolism(271 个,占比6.39%)、lipid transport and metabolism(224 个,占比5.29%)、transcription(321 个,占比7.57%)、replication,recombination and repair(283 个,占 比6.68%)、inorganic ion transport and metabolism(232 个,占比5.47%)。占比较少的类别为RNA processing and modification(1 个,占比0.02%)、cytoskeleton(1 个,占比0.02%)。

图7 菌株WA4-43 基因组COG 功能注释Fig. 7 Functional annotation of COG in the genome of strain WA4-43

2.3.4 次级代谢基因簇预测 使用软件AntiSMASH对菌株WA4-43 全基因组数据进行分析,如表3 所示,菌株WA4-43 有13 个次级代谢生物合成基因簇,包括四氢嘧啶类(ectoine)、萜烯类(terpene)、非核糖体多肽类(NRPS)、铁载体(siderophore)、核糖体合成和翻译后修饰肽(RiPPs)等,共预测到6 种可能的次级代谢产物,其中,同源性大于等于75%的次级代谢基因簇预测产物的有ectoine;同源性低于75%的预测产物有SF2575、ishigamide、oxalomycin B、kanglemycin A / kanglemycin V1/kanglemycin V2 和desferrioxamine。

表3 菌株WA4-43 基因组中次级代谢基因簇的预测Table 3 Prediction of secondary metabolic gene clusters in the genome of strain WA4-43

基因簇使用软件PRISM 4 可以预测出BGC4、5、6、7、11、12 化合物分子式,如图8 所示。

图8 菌株WA4-43 生物合成基因簇化合物预测Fig. 8 Prediction of biosynthetic gene cluster compounds of strain WA4-43

BGC10 中包含核心生物合成基因1 个,转运基因2 个,额外生物合成基因1 个,其他基因3 个,如表4 所示,其中核心生物合成基因GE002626 全长810 bp,通过Blast 对菌株WA4-43 蛋白序列与Nr数据库进行比对,该基因与Nocardia farcinica中对应基因相似,GO 数据库分析显示其生物过程与蛋白质水解有关,也与细菌的防御反应有关;分子功能与肽酶活性有关。

表4 BGC10 基因预测及数据库分析Table 4 BGC10 gene prediction and database analysis

2.3.5 比较基因组分析 将菌株WA4-43 与9 株G.terrae全基因序列进行比对分析,它们基因组大小范围为:5.17-5.71 Mb,其中基因组最大的为土壤来源的G. terraeNCTC10669 和G. terraeNRRL B-16283,最小的为G. terraeC-6;编码蛋白范围为:4 480-5 007 个,GC 含量范围为:67.7%-68%,均低于70%,其中GC 含量最高的为G. terraeK,最低的为G.terraeUMB0777。多数G. terrae为环状染色体,包括G.terraeWA4-43、G. terraeNCTC10669、G. terraeNRRL B-16283 等,如表5 所示。

经antiSMASH 预 测 和 分 析,10 株G. terrae次级代谢基因簇类型较少,但同源性均非常低。有154 个次级代谢基因簇,83 个次级代谢基因簇预测有已知化合物,如表5 所示,每个菌株都有RiPPlike 类化合物分别为pimaricin 和kanglemycin A /kanglemycin V1 / kanglemycin V2,都 有NRPS 类 的ishigamide 和ectoine 类的ectoine。

表5 10 种Gordonia terrae 基因组特征比对Table 5 Comparison of genomic characteristics of 10 Gordonia terrae species

比较G. terrae与6 种其他类型的戈登氏菌,可以看出,所有戈登氏菌均有ectoine 类的ectoine 同源性为75%,其他专有的预测化合物有,G. namibiensis有NRPS 类的atratumycin 同源性为7%,有PKS 类的GE81112 同 源 性 为7%;G. lacunae有NRPS 类的mycobactin 和glycinocin 同 源 性 分 别 为30% 和4%;G. ankookensis有NRPS 类 的pepticinnamin E 和pyxidicycline A、pyxidicycline B 同源性分别为10%和6%等,如图9 所示。

图9 AntiSMASH 预测Gordonia 生物合成基因簇Fig. 9 Predicting the Gordonia biosynthetic gene cluster by AntiSMASH

3 讨论

戈登氏菌次级代谢产物首次发现仅抗革兰阳性菌。通过菌株WA4-43 全基因测序分析及antiSMASH次级代谢产物合成基因簇预测,可以知道菌株WA4-43 较链霉菌基因组较小,次级代谢产物基因簇种类数量较少[31],有7 个假定基因簇,预测基因簇与已知分离出化合物合成基因簇相似度均小于等于75%,表明菌株WA4-43 有研究意义,具有合成新颖化合物的潜力。

BGC1 与四氢嘧啶类型的ectoine 的相似性为75%,ectoine 是重要的应对外界环境变化的相容性 溶 质[32];BGC2 与萜烯类型 的SF2575相似性为6%,SF2575 对多种癌细胞系具有抗癌活性,可以抑制DNA 拓扑异构酶[33]; BGC9 与萜烯类型的oxalomycin B 相似性为6%,oxalomycin B 具有抗肿瘤,抗病毒的作用,以及关于HIV 抑制剂方面的研究[34];BGC12 与非核糖体多肽类、铁载体类型的desferrioxamine 相似性33%等[35];BGC10 核糖体合成和翻译后修饰肽类型的Kanglemycin A/kanglemycin V1 /kanglemycin V2[36],相似性为5%,预测化合物最早由Amycolatopsis vancoresmycinaDSM 44592 菌株产生,是利福平同系物,对金黄色葡萄球菌、表皮葡萄球菌、单核细胞增生李斯特菌等革兰氏阳性菌有抑制活性,与菌株WA4-43 乙酸乙酯粗提物活性相似,但是同源性低,提示菌株有发现新抗革兰阳性菌药物的潜能。这些基因簇同源性均很低,预测到至少有3 种抗生素。

10 株G. terrae共有48 473 个蛋白编码基因,其核心基因可能涉及菌体的基础代谢以及适应环境等来维持其基本生命特征。如菌株WA4-43 COG 数据库分析所示,多为未知功能,提示菌种具有新颖性,多参与转录、DNA 复制、结合和修复、氨基酸转运与代谢、能源的产生交换、无机离子运输与代谢等使菌株具有基础的代谢和转运功能,使细菌适应环境来维持最基本的生命特征。G. terrae菌株之间次级代谢基因簇的差异可能与它们生活环境不同有关,是它们适应不同生长环境的表现。

比较不用类型的戈登氏菌,其中RiPP-like 类型 的pimaricin、kanglemycin A /kanglemycin V1/kanglemycin V2 至少有一个,pimaricin 对霉菌、酵母菌和真菌都有极强的抑制能力,但对细菌、病毒等其他微生物没有抑制作用[37],因为PiPP 类型天然产物是由遗传编码的前体肽及其同源修饰酶组成的[38],可能说明RiPP-like 类型的化合物可能决定戈登氏菌的抗菌专一性;特殊预测化合物一般是NRPS 类型,如NRPS 类 ishigamideG. terrae中均有且同源性为11%、5 株有NRPS 类oxalomycin B 而其他几类戈登氏菌没有,说明这两个基因簇有区别于其他菌株的特性,有研究意义。

4 结论

菌株WA4-43 是首次发现的具有抗革兰阳性菌戈登氏菌。该菌株生物合成基因簇新颖,具有合成独特结构化合物的潜能。前期研究发现菌株次级代谢产物产量较低,提示我们后续可通过异源表达等手段进行天然产物的研究。

猜你喜欢
基因簇基因组测序
牛参考基因组中发现被忽视基因
二代测序协助诊断AIDS合并马尔尼菲篮状菌脑膜炎1例
冬瓜高通量转录组测序及分析
基因测序技术研究进展
基因捕获测序诊断血癌
单细胞测序技术研究进展
肠球菌万古霉素耐药基因簇遗传特性
海洋稀有放线菌 Salinispora arenicola CNP193 基因组新颖PKS 和NRPS基因簇的发掘
基因组DNA甲基化及组蛋白甲基化
有趣的植物基因组