地芽孢杆菌(Geobacillus)YHL的全基因组测序及序列分析

2022-07-01 09:11陆紫云查双龙刘江崟马羊帅肖力婷杨慧林
关键词:基因组测序编码

陆紫云,查双龙,刘江崟,马羊帅,肖力婷,杨慧林

(江西师范大学生命科学学院,江西省亚热带植物资源保护与利用重点实验室,江西 南昌 330022)

0 引言

嗜热微生物是指可在温度较高的环境中生存并繁殖的一类微生物群体,它们在火山、温泉等自然栖息地和堆肥、工业生产等人为环境中都有一定的分布.许多嗜热微生物具有适于生物技术和商业应用的特性[1](如具有多种热稳定酶[2]),可用于工业应用,对某些矿物具有特殊的浸溶能力[3]及生物修复能力[4].

Geobacillus菌属是在2001年被T.N. Nazina等[5]提出从Bacillus菌属中分离出来作为一个新的菌属,该菌属内成员专性嗜热,是典型的嗜热微生物组群.迄今为止,该菌属在油田、火山口、温泉等自然环境和人为高温环境中都有发现,且该菌属物种在许多中温或低温地区也被分离得到[6].该菌属在生物技术和工业领域中具有重要应用.近年来,Geobacillus菌属受到研究者的广泛研究.R.E. Cripps等[7]利用代谢工程方法对2株Geobacillus嗜热菌进行改造,最后得到高效生产乙醇的菌株;A. Verma等[8]纯化和表征菌种GeobacillusthermocatenulatusMS5中的漆酶,能够在纺织工业中广泛有效地去除对环境造成污染的染料,在合成染料的生物修复中发挥着重要作用;唐赟等[9]发现可使苯酚降解的菌株;S. Bilge等[10]从嗜热菌中纯化和表征出耐高温淀粉酶等多种热稳定酶.

自从2004年T. Hideto等[11]提出第1个完整的嗜热杆菌相关物种GeobacilluskaustophilusHTA426的基因组序列至今,已经有大约200个该菌属物种的基因组序列被进行高通量测序.目前,基于生物信息学技术对基因组序列进行分析已成为人们广泛认可的分析方式.依托计算机学科和数学学科对基因组序列进行分析已成为普遍的分析方式[12],生物信息学研究从发展至今已为许多科学研究提供了一个探索方向[13].在利用生物信息数据研究生物的遗传密码以及物种进化的内容中[14],对基因组的分析是提供关于细菌如何应对高温的信息的重要一步,通过对基因组分析确定在其基因组中是否存在热相关蛋白,为微生物适应高温提供相关见解[15].有研究者将Geobacillus菌属物种与其他嗜中温细菌基因组进行对比分析发现其部分特有基因塑造了其对温度的某种耐受性[11],这也说明对于全基因组的测定并在进行比较基因分析中挖掘出有用的信息是非常必要的,这些独特基因对微生物适应极端环境至关重要.

本文研究的Geobacillus菌株是在工业管道中发现的1株嗜热菌,它能够在55 ℃下生长繁殖.为了获得该嗜热菌的分子信息,初步了解其嗜热机制,本文利用NGS技术测定该菌株的全基因组序列,同时利用生物信息学软件预测菌株的功能基因,对其基因功能进行进一步分析,为挖掘其潜在的生物学意义提供基础.

1 材料与方法

1.1 菌株YHL1的培养与基因组DNA提取

将菌株YHL接至LB培养基中于55 ℃条件下培养2 d,然后在超净工作台中取出样品,在低温(4 ℃)条件下离心后弃上清、收集菌体,基因组提取参照文献[16]的方法,在获得高质量基因组后送至测序公司进行高通量测序.

1.2 基因组测序、组装及注释

在提取基因组DNA后,对其进行质量鉴定,利用Qubit 3.0对提取的DNA浓度进行测定,当质量达标后测定菌株的全基因组,测序平台为Illumina Hiseq 2000.在测序完成后,利用拼接软件Velevt 1.2.10[17]优化Kmer值,将测定的序列进行组装.然后利用软件Glimmer 3.02[18]对菌株进行基因预测,得到的蛋白质通过与COG数据库、NR数据库、Swiss-prot数据库、Interpro数据库、KEGG和GO数据库进行比对来获得相应的注释信息.最后利用多种绘图工具对注释信息进行汇总.全基因组序列数据已提交到NCBI,登录号为JAEIGB000000000.

1.3 系统发育进化树构建

将16s rRNA序列的contigs进行拼接,基于16s rRNA的同源序列在EZbio上比对其同源序列,选取其亲缘关系较近的18株菌,使用MAGEX软件对共19株菌的16s rDNA序列构建Neighbor-joining(NJ)系统进化树.

1.4 次级代谢产物合成基因簇分析

采用次级代谢产物合成基因簇在线预测软件antiSMASH(https://antismash.secondarymetabolites.org)[19]对菌株次级代谢产物进行预测,获得代谢产物的预测结果.

2 结果与分析

2.1 基因组组装

在通过高通量测序对菌株基因组进行测序后,使用Velvet 1.2.10软件对测序的片段进行拼接,最终得到47个contigs,N50的长度为145 810 bp,N90长度为42 680 bp.基因序列全长为3 426 484 bp,GC含量为52.35%,包含了9个rRNA和85个tRNA.利用Glimmer预测软件对编码基因预测,预测得到编码基因3 609个,占总基因组的86.19%,总长度为2 953 284 bp,平均总长度为818.31 bp.基因组圈图如图1所示.

注:在YHL菌株基因组圈图中,最外圈为基因大小; 第2、第3圈分别为正、负链上的CDS;第4圈为rRNA和tRNA;第5圈为GC含量,指向外圈表示其GC含量高于平均水平;第6圈为GC-skew值.

2.2 系统发育树

基于16s rRNA基因序列信息,使用MAGE X软件构建邻接(NJ)系统进化树(见图2),以证明该菌株在谱系中的地位.根据进化树的分支距离可以发现:实验菌株和高温烷烃地芽孢杆菌GeobacillusthermoleovoransKCTC 3570(T)具有较高的同源性,分布在同一个系统分支上.

图2 Geobacillus sp. YHL邻接系统进化树

目前在NCBI上可查询到的属于Geobacillus属的全基因组测序的菌株有100多株,对目前已完成全基因组序列的属于Geobacillus属的31株菌进行统计分析,结果如表1所示.从表1可以看出它们的基本信息大致相似.菌株全基因序列大小相似,GC含量均在52%左右.本文研究的菌株GC含量为52.35%.同时,基于16s rRNA基因构建系统发育树可以初步确定菌株YHL归类为Geobacillus属.本文研究菌株命名为Geobacillussp. YHL.

2.3 基因注释

利用Glimmer软件对YHL菌株的蛋白基因数进行预测,共获得3 609个;接着对上述的蛋白序列进行COG注释,将注释结果与COG数据库进行比对,设定其Evalue≤1×10-5,最终得到3 051个蛋白注释(见图3).从图3可以看出:在YHL菌株的COG聚类中所有的假设基因和部分编码功能未知蛋白的基因对于基因组预测基因总数的占比最大.此外,预测得到的基因集中在氨基酸转运和代谢,碳水化合物转运和代谢,能量生产和转换,转录、复制、重组以及修复5个方面,它们分别对应图3中的E、G、C、K、L.这也反映出菌株需要不断修复DNA和蛋白质来应对极端环境以确保自身的生存.

图3 Geobacillus sp. YHL蛋白质COG聚类分析

表1 部分已完成全基因组测序的地芽孢菌属基本特征比较分析

表1(续)

基于上述预测结果,利用GO注释对预测结果进行注释,同时通过在线工具WEGO(http://wego.genomics.org.cn/cgi-bin/wego/index.pl)对预测的蛋白结果进行GO功能分类图的绘制(见图4(a)),GO功能分类(细胞组分、生物过程、分子功能)占据优势的基因数量主要是氧化还原过程(oxidation-reduction process)、膜的整体组成部分(integral component of membrane)、细胞质(cytoplasm)、细胞质膜(plasma membrane)、ATP结合(ATP binding)、DNA结合(DNA binding).数量众多的基因注释到细胞膜和DNA方面.同GO注释一样,将预测蛋白与KEGG数据库进行比对(见图4(b)),KEGG生物通路主要分布在代谢(metabolism)、基因信息加工(genetic information processing)和环境信息过程(environmental information processing)中.在代谢途径通路中基因显著富集的有糖代谢(carbohydrate metabolism)、global and overview maps、氨基酸代谢(amino acid metabolism)、辅助因子和维生素的代谢(metabolism of cofactors and vitamins)、能量代谢(energy metabolism).而在环境信息过程中基因富集的有膜转运(membrane transport).在基因信息加工途径中基因富集的有翻译(translation).

(a)蛋白质GO聚类分析 (b)KEGG生物通路分析注:为简化图示,图(a)中立柱从左至右分别以1~42表示,其含义如下:1为氧化还原过程;2为转录调控,DNA模板;3为转运;4为蛋白质水解;5为磷脂酶信号转导系统;6为代谢过程;7为磷酸化;8为翻译;9为跨膜转运;10为碳水化合物代谢过程;11为核酸磷酸二酯键水解;12为甲基化;13为细胞分裂;14为蛋白质磷酸化的信号转导;15为细胞质膜组成成分;16为细胞质;17为细胞质膜;18为胞内;19为核糖体;20为细胞膜组成成分;21为细胞;22为膜;23为病毒衣壳;24为ABC结合盒转运体复合物;25为胞外区域;26为细菌型鞭毛基体;27为染色体;28为核糖体大亚基;29为ATP结合;30为DNA结合;31为金属离子结合;32为水解酶活性;33为转录因子活性,序列特异性DNA结合;34为镁离子结合;35为转运活性;36为ATP酶活性;37为锌离子结合;38为氧化还原酶;39为转移酶活性;40为核糖体结构成分;41为RNA结合;42为黄素腺嘌呤二核苷酸结合.图4 Geobacillus sp. YHL蛋白质GO聚类分析和KEGG生物通路分析

2.4 次级代谢产物分析

次级代谢产物是指微生物培养到生长后期通过代谢产生的物质,它往往具有一定的应用价值,对人类的生产、生活具有一定意义.因此通过antiSMASH软件对YHL菌株进行预测,获得该菌株在基因组中基因簇分布情况,共预测到5个次级代谢产物合成相关的基因簇(见表2),包括聚酮(PKS)、萜类(terpene)、铁载体类(siderophore)、细菌素类(bacteriocin).

表2 YHL次级代谢产物合成基因簇预测

2.5 热相关候选基因

在菌株YHL基因组中发现了与温度应激相关的基因,包括热休克蛋白、冷休克蛋白和相关分子伴侣的基因,结果如表3所示.从表3可以发现:其中热休克蛋白Hsp20有较多基因数量.该蛋白属于一种小的热休克蛋白,也有研究发现Hsp20蛋白可能参与了低温和高温保护蛋白质的伴随过程,Hsp20是一个重要的氧化应激和温度应激反应基因[20],这或许帮助菌株YHL细胞在高温中维持蛋白的稳定.Hsp100家族对于蛋白质聚集物有清除功能.最新研究发现在Hsp100家族中的成员之一的依赖ATP酶活性的分子伴侣ClpB可通过拉动作用将蛋白链从蛋白聚集物中单个拉出.而当分子伴侣ClbB被去除以后,之前被拉出的蛋白链又可以重新进行折叠,同时恢复原有的功能[21].这对于由在高温影响下菌株YHL的蛋白质的错误折叠所产生的异常蛋白质的清除起到重要作用.在高温刺激后的蛋白质聚集物的再活化对于修复菌体自身机能有着重要的意义,这可以节省再翻译的时间以及避免消耗众多的能量.蛋白质聚集物的再活化需要1~2个协同作用的伴侣系统.在原核生物中,由伴侣蛋白DnaK、共伴侣DnaJ、GrpE和Hsp100伴侣蛋白ClpB组成.伴侣间的协同工作是细菌应对环境的重要功能.这或许是菌株YHL应对高温的重要策略之一.在冷相关蛋白(如冷休克蛋白Csp家族)中的冷休克蛋白CspB富含polyU的5′UTR以高亲和力结合富含T的单链DNA(ssDNA),这可防止在温度下降时mRNA 2级结构的形成,从而稳定mRNA结构,有助于翻译的启动[22-23].这些基因对于菌株YHL应对温度波动以维持细胞活力有重要作用.

表3 菌株YHL温度应激相关蛋白基因

2.6 菌株YHL的生物技术潜力

在工业上,通过微生物优化发酵或重组DNA技术来克隆嗜热菌酶基因异源表达是获得工业酶的重要手段[24].在菌株YHL中预测到多种编码酶基因,这表明YHL是个多酶编码菌.YHL能够编码糖苷水解酶、葡糖苷酶、木聚糖酶、淀粉酶、新型普鲁兰酶和脂肪酶.此外,编码多铜多酚氧化酶(漆酶)和抗癌酶谷氨酰胺酶(见表4),这些酶可用于食品、化学、制药和环境生物技术行业.α-淀粉酶和支链淀粉酶的组合在淀粉加工产业中扮演重要角色,淀粉酶的热稳定性对伴随高温的糖化过程非常重要.脂肪酶广泛应用于皮革、乳制品和生物柴油生产工业中[25].来自嗜热细菌GeobacillusthermocatenulatusKCTC 3921的脂解酶基因在大肠杆菌中异源表达出具有对长链脂肪酸有强脂解活性的热稳定脂肪酶[26].L-谷氨酰胺酶可以对抗肿瘤细胞,它可将L-谷氨酰胺水解为L-谷氨酸和氨,通过阻断从头蛋白质合成和通过促进癌细胞死亡的氧化应激增加超氧化物水平来选择性地抑制肿瘤生长,是治疗癌症的有效药物[27-28].

表4 菌株YHL编码酶基因

表4(续)

3 讨论

本文对1株嗜热菌进行全基因组测序,获得47个contigs,基于16s rRNA,将其归类为Geobacillus属,对于确定到种,还需结合生理生化实验来确定.COG聚类分析结果表明其主要代谢途径为氨基酸转运和代谢(E)、碳水化合物转运和代谢(G)2个方面.这表明其在高温环境中的基础生理活动代谢旺盛.在KEGG分析中菌株YHL主要集中在代谢方面,在代谢条目下的子条目和数量都是最多的,这说明YHL具有旺盛的初级代谢过程,其中主要包括与机体提供能量和能源的糖代谢、为生命提供物质基础的氨基酸代谢、维持机体健康和促进生长的维生素的代谢以及辅助因子.菌株YHL与D.N. Singh等[2]研究的菌株RL有高相似的COG聚类情况;菌株RL是一种嗜热多酶编码细菌,在降解木质纤维素和废水脱色等方面有广泛作用;在YHL中也被证实含有多种碳水化合物酶基因,菌株YHL具有基因工程的可操作性和工业应用潜能.菌株YHL在COG聚类分析中发现有高达999个蛋白未能进行归类,由此可推测因其中含有某些独特的基因而塑造了YHL耐高温的特点,菌株YHL的功能仍有待挖掘.

铁载体是微生物摄取在环境中的铁元素而形成的对铁离子高亲和的化合物.目前关于铁载体生物合成的方式主要包括2种:(i)由非核糖体肽合成酶(non-ribosomal peptide synthetases,NRPSs)的模块化多酶家族指导合成;(ii)不依赖于NRPS(NRPS-independent,NIS)指导合成.以NIS合成途径合成的铁载体涉及一个由Iuc酶为主导的新合成酶家族,主要由2种铁载体合成酶IucA和IucC来催化形成关键酰胺键,而IucA和IucC这2个合成酶也成为NIS生物合成途径的重要标志[29-32].目前,有关NIS的铁载体生物合成途径的研究仍处于起步阶段,需要进一步研究来了解NIS合成酶的底物特异性和产物控制的分子机制.在YHL基因组中预测到的铁载体基因簇中发现了铁载体生物合成蛋白IucA,这说明菌株YHL对在环境中铁元素的摄取是通过NIS合成途径来完成的.众多研究表明:由NIS途径产生的铁载体是病原菌的毒力因子,可增强菌株致病性.徐水宝等[33]研究发现由NIS途径合成的Aerobactin可增强高毒力肺炎克雷伯菌的毒力.联系到YHL菌株是在工业生产中发现的1株菌,可尝试以开发途径所涉及的通路蛋白抑制剂的方法来抑制该菌株,以达到在工业上有效清除杂菌的目的.

微生物基因组分析为人们提供由生活在热环境中的嗜热细菌遗传组成的信息.菌株YHL含有许多编码热应激相关蛋白质基因,这些蛋白质可能对细菌适应高温具有重要意义.基因组数据分析对确定微生物与温度适应相关的基因功能很重要.研究表明:细菌通过上调热休克蛋白、增强蛋白质合成和降低碳分解代谢来抵抗高温[34].在YHL中发现了许多热休克蛋白基因和蛋白质分子伴侣,并且发现了和其他菌株的热应激不同基因,在菌株YHL中存在CspB,而在其他的菌株(如Geobacillussp. TFV3)中存在CspD,它们同为Csp蛋白家族的一员,但CspB是冷激诱导的[35],而CspD则由其他条件诱导产生(如出现在大肠杆菌营养缺乏时期)[36].这说明不同的菌株对抗外界环境的作用模式不完全相似.

菌株YHL编码白色生物技术需要水解酶糖苷水解酶、葡糖苷酶、木聚糖酶、淀粉酶、新普鲁兰酶、支链淀粉酶和脂肪酶的混合物.此外,编码绿色生物催化剂多铜多酚氧化酶(漆酶)和抗癌酶谷氨酰胺酶的基因的存在分别反映了菌株YHL对于灰色和红色生物技术的潜力.克隆重组第1步要获得编码酶基因,而基因来源宿主的特性是选择的重要指标.通过对嗜热菌来源的遗传操作来获得具有热稳定性的酶,这是常用的手段.随着嗜热菌等极端微生物的特性越来越被重视,越来越需要研究和遗传改造这些物种,并在各种生物技术和工业应用中利用它们的特性.

对菌株YHL进行全基因组测序而获得其相关信息是有必要的,完整的基因组研究可能带来新的见解(如此类细菌代谢的差异以及各种蛋白质和酶在分子水平上的功能和热稳定性),并将提供许多与嗜热细菌细胞各方面相关的信息,同时也可丰富Geobacillus属的物种遗传信息,为后续遗传操作提供基础.

猜你喜欢
基因组测序编码
牛参考基因组中发现被忽视基因
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
外显子组测序助力产前诊断胎儿骨骼发育不良
血清HBV前基因组RNA的研究进展
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
中草药DNA条形码高通量基因测序一体机验收会在京召开
基因测序技术研究进展
Genome and healthcare
外显子组测序助力产前诊断胎儿骨骼发育不良