张彦位,杨 玲,路江浩,严 超,仵红岩,李 玲,刘明月,齐世华,何 方,2,
(1.河北一然生物科技股份有限公司,河北石家庄 050000;2.四川大学华西公共卫生学院,四川成都 610041)
乳酸菌(Lactic acid bacteria,LAB)在系统发育树中处在革兰氏阳性菌的梭状芽孢杆菌分支上,具有丰富的物种和菌株多样性,DNA 组成中GC 含量<50%[1]。目前,乳酸菌家族成员众多,其中乳杆菌属和双歧杆菌属作为益生菌的重要组成成员,在维持肠道、生殖道、口腔和皮肤等微生态系统平衡和调节全身免疫系统等方面发挥着重要的作用[2];链球菌属中的嗜热链球菌具有产酸快、产胞外多糖以及产香(双乙酰、乙偶姻)丰富的特点,可赋予发酵乳制品独特的质构和风味,作为优良的发酵型乳酸菌被广泛应用[3];乳球菌属中的乳酸乳球菌在发酵乳制品中发挥重要作用的同时,还可生成Nisin、lactococcin 和bacteriocin 等细菌素,作为天然的生物保鲜剂被广泛应用[4]。我国传统发酵制品的历史悠久,蕴藏着丰富的乳酸菌资源。基因组学技术可以对微生物体所有基因进行集体表征、定量及不同基因组的比较研究。乳酸菌全基因组测序与分析技术能够全局且系统性地解析菌株的代谢特征和遗传背景,揭示其益生功能的作用机制[5]。乳酸菌基因组学的迅猛发展大大加快了优良乳酸菌的开发和产业化应用。
基因组测序是指通过高通量DNA 测序和生物信息学组装获得整个基因组序列信息[6]。全基因组信息可以全面解析基因组成和结构特征,有助于研究人员了解菌株代谢特点并在菌株水平认识其遗传信息与生理功能之间的联系。1977 年,Walter Gilbert和Frederick Sanger 发明了第一台测序仪,并完成噬菌体X174-全长5375 个碱基序列的测定,被称为第一代测序技术[7]。高通量测序(High-Throughput Sequencing,HTS)单次运行即可同时得到几十万到几百万条核酸分子的序列,适用于基因组测序、转录组测序、扩增子测序和宏基因组测序等,在现阶段科研领域应用最为广泛,也被称为下一代测序(Next Generation Sequencing,NGS)或第二代测序[8]。第二代测序技术包括:Roche 公司的454 技术、ABI 公司的SOLiD 技术和Illumina 公司的Solexa 技术等。第二代测序技术序列读长较短,大多只有100~150 bp。测序过程主要包括DNA 文库制备、PCR 富集序列和测序3 个步骤,PCR 富集序列过程会引入一定概率的错误碱基,测序过程中454 技术如遇到PolyA时会因无法准确测量而一次加入多个T,进而引入插入和缺失的测序错误,SOLiD 技术由于双碱基确定一个荧光信号,因此荧光解码过程中易发生连锁解码错误,Solexa 技术使用可逆荧光和终止核苷酸的分步整合的方法进行DNA 测序,荧光信号去除不完全会导致背景噪声升高,仪器的错误率不断增加[9]。为增加序列的读长并保证基因序列的准确性,科研人员开发了可以对单条长序列进行从头测序的第三代测序技术也称为单分子测序技术。第三代测序技术以PacBio 公司的SMRT 技术和Oxford Nanopore Technologies 公司的纳米孔单分子技术为代表,其最大的特点在于测序过程无需进行PCR 扩增,且对核酸序列的长度无要求[10−11]。第三代测序技术结果的一致性和准确性很高,测序过程不存在碱基偏好性,但测序成本较贵[12]。Nanopore 技术平台通过电流变化检测并识别碱基,体积小、易操作,在测序过程中可以根据实时结果进行诊疗,适用于临床实践[13]。随着测序技术的不断成熟,利用测序技术从组学的角度研究生物问题将会成为越来越有效的方法。
基因组学研究对象包括染色体和质粒基因,是生物体包含的全部基因[6]。最初,微生物基因组测序技术主要应用于与人类健康息息相关的病原微生物的研究[4]。随着测序技术的不断发展,研究者开始关注作为重要工业微生物的乳酸菌的基因组信息[14]。世界上,第一株完成全基因组测序并公开的乳酸菌为乳酸乳球菌IL1403(GenBank:AE005176.1,2001 年),其基因组大小为2.4 Mb,包含超过2300 个基因(见图1)[15];我国在2008 年完成了第一株干酪乳杆菌的全基因组测序[16]。截止2021 年9 月,GenBank 已经收录了7055 种乳酸菌(乳杆菌属、乳球菌属、双歧杆菌属和嗜热链球菌)的基因组数据(包括全基因组和框架基因组等不同完成程度)。基因组数据显示乳酸菌基因组较小(1.3~3.3 Mb),GC 含量偏低,不同属种菌株的代谢具有多样性,研究人员将乳酸菌的基因组信息与表型特征相结合,探究菌株的进化历程与分类,评估菌株基因水平的安全性和遗传稳定性[14]。此外,基于乳酸菌的全基因组信息构建基因组规模代谢网络模型(Genome Scale of Metabolic Network Model,GSMM),可系统地模拟菌株在不同环境中特定的代谢过程,进而指导大规模产业化生产和菌株的定向改造[17]。
图1 Lactococcus lactis IL1403 的基因组圈图[15]Fig.1 The circle map of Lactococcus lactis IL1403 chromosome
作为益生菌的重要成员,乳酸菌具有耐酸、耐胆盐、抗氧化、高粘附和生成短链脂肪酸等优良特性。基因组学的研究将菌株的遗传信息与这些表型特性紧密联系起来,可以系统地探究乳酸菌的代谢特征、潜在的益生特性和应用方向[14]。植物乳杆菌NCU116基因组信息中注释到多个与寡/聚糖水解相关的糖苷水解酶、胆盐水解酶、抗氧化相关酶类(谷氨酸脱羧酶(gadB)、谷胱甘肽合酶(gshF)和谷胱甘肽还原酶(gor))和胞外多糖合成基因簇,为其适应植物基原料(淀粉和多糖)发酵、耐受胆盐、降胆固醇、抗氧化和合成胞外多糖等功能特性提供了重要依据[18]。全基因组测序与分析发现发酵乳杆菌JDFM216 基因组中包含的编码UDP-N-乙酰氨基葡萄糖1-羧基乙烯基转移酶(EC 2.5.1.7)、ErfK/YbiS/YcfS/YnhG 蛋白家族和特异性位点重组酶XerD 等的特征基因,可能与JDFM216 延长秀丽隐杆线虫寿命和增强免疫反应的功能特性有关[19]。植物乳杆菌LPL-1 可有效抑制单增李斯特菌54002 的增值。LPL-1 的基因组中包含Ⅱa 类细菌素的生物合成基因,分别编码前体、免疫蛋白、辅助蛋白和转运蛋白。细菌素是由核糖体合成的抗菌蛋白或肽,对病原菌具有较高的抑制活性。应用基因组学技术解析了LPL-1 抑菌作用的机制,提升了LPL-1 在营养保健食品和药品中潜在的应用价值[20]。
作为重要的食品工业微生物,乳酸菌的遗传背景与进化历程是工业化菌株开发与应用的基础。乳酸菌的遗传与进化主要研究选择压力对基因突变的作用和基因对表型性状的影响[21]。遗传与进化的研究方法在DNA 序列差异分析的基础上不断发展,包括早期基于单基因16S rRNA 基因间隔区分析技术、基于多个看家基因的多位点序列分型技术(Multilocus Sequence Typing,MLST)和基于基因组信息差异分析的全基因组测序技术(Whole-Genome Sequencing)[22]。全基因组测序技术是将测序获得的基因组序列与参考序列进行比对,确定基因组中插入与缺失位点、单核苷酸多态性位点和结构变异位点等,以研究菌株的进化与分类[23]。乳酸菌基因组包含了全部的遗传信息,因此全基因组测序技术是研究乳酸菌进化与分类的有效手段。
应用全基因组测序技术可以获得乳酸菌完整的基因组信息。乳酸菌基因组信息能够如实反馈菌株在进化历程中发生的遗传与变异。经基因组分析发现,在营养丰富环境中乳酸菌进化的总体趋势为将无用基因片段不断钝化、缺失,实现基因组的最小化[24]。嗜热链球菌和乳杆菌在进化过程中逐渐缺失了毒力和生成孢子的相关基因,不断从致病性链球菌和芽孢杆菌中分离出来,也因此作为公认的食品级安全微生物在发酵食品中被广泛应用[25]。除垂直遗传外,水平基因转移(Horizontal Gene Transfer,HGT)在乳酸菌进化历程中普遍存在。水平转移来的基因序列与基因组相比,在结构和组成(密码子偏好性、GC 含量等)上会存在显著差异[26]。应用全基因组测序与分析发现,产组胺的副布氏乳杆菌基因组中组氨酸脱羧酶(HDC)基因簇位于一个基因组岛中,其GC 含量明显高于基因组平均GC 含量,且与嗜盐四联球菌、希氏乳杆菌、发酵乳杆菌、罗伊氏乳杆菌和酒类球球菌的HDC 基因簇的相似性高达74.7%~89.2%,表明副布氏乳杆菌的组氨酸脱羧酶(HDC)基因簇来源于水平基因转移[27]。
理想情况下,基于生物体之间的进化关系可完成分类。最初,研究者利用微生物的表型特征(例伯杰细菌鉴定手册)来指导分类,但由于存在大量无法纯培养的细菌,庞大的细菌家族分类法的发展受到了阻碍。而不依赖于纯培养的测序技术的快速发展使得微生物分类进入依赖于全基因组比较的系统基因组学时代。基于基因组的鉴定分类方法包括平均核苷酸一致性(ANI)和总核苷酸一致性(TNI)2 个指标[28]。在TNI 指标中,同一科属的微生物通常具有20%的遗传相似性,而乳杆菌属的微生物其遗传相似性较低,约为10%;在ANI 指标中,同一科属的成员拥有约70%~80%的核苷酸同源性,而目前乳杆菌属的微生物仅有65%的同源性[29]。Salvetti 等[30]使用ANI、保守蛋白百分比等不同的方法,对222 株不同乳杆菌进行系统性及网络化分析后,建议将乳杆菌属分为10 个属。Parks 等[31]对94759 个原核微生物基因组的120 种蛋白质进行系统分析后,提议将乳杆菌属分为16 个亚群。然而,绝对的分类标准并不存在,使用不同的方法和判断阈值会得到不同的分类结果。基于全基因组分类方法的优势在于新属具有更好的同质性,且可以保证属的分类数量稳定,进而尽量避免将来发现的新菌种需要再重新分类的情况。
食品和医药用微生物及其发酵制品的安全性对于公共卫生至关重要,因此,在工业应用前需对新引入菌株及其发酵制品的安全性进行彻底评估。国际上用于安全性评估的参考指南包括:联合国粮农组织/世界卫生组织(2002)提出的ICMR-DBT 和欧洲食品安全局提出的Qualified Presumption of Safety(QPS)等。我国新颁布了《食品用菌种安全性评价程序》(意见稿),评价程序要求将拟评价菌株的基因组信息与对应的表型结合起来,综合评估菌株的安全性。
全基因组信息可以从耐药/毒力/致病性等相关基因的结构和功能信息反映菌株的安全性。嗜热链球菌、唾液链球菌和前庭链球菌同属于唾液链球菌群,但目前仅嗜热链球菌作为公认安全的食品级微生物(GRAS),广泛应用于发酵乳制品的生产[32]。唾液链球菌和前庭链球菌多与疾病感染(龋齿、心内膜炎等)有关。通过比较基因组分析发现,嗜热链球菌较其他致病种的显著特征是基因组中缺失或失活了毒力相关基因[25]。耐药基因依靠水平基因转移在相同或不同物种间进行传递。当乳酸菌对某些药物具有抗性时,应确定其抗性的遗传基础,不可转移性是具有抗生素抗性乳酸菌应用的前提[33]。Zhang 等[34]对植物乳杆菌JDM1 的全基因组序列进行分析,共发现51 个与抗生素抗性相关的基因,126 个毒力相关的基因和23 个与不良代谢产物相关的基因,且这些基因大都不可转移。Li 等[35]对从中国传统发酵乳品中分离到的瑞士乳杆菌KLDS1.8701 进行了安全性评价,全基因组测序与分析发现KLDS1.8701 的基因组中含有不可转移的抗生素抗性基因和不良代谢产物(生物胺、D-乳酸等)相关基因,表型实验证实KLDS1.8701 对6 种抗生素具有抗性,未见不良代谢产物的表达,经口毒性试验未见毒性,证明KLDS 1.8701 具有安全性,是可在食品领域应用的潜在益生菌。
微生物退化的现象在菌株冻存、高密度培养、冻干和流通过程中较为常见,表现为菌株典型形态改变、发酵异常和功能特性衰减等,严重影响和制约菌株产业化的发展。菌株的遗传稳定性一般通过表型特征和遗传信息两个层面来进行评价。微生物的遗传变异广泛存在于基因组的编码区和非编码区,而常用的分子生物学技术多以单个或几个基因为靶点,结果较为局限。随着全基因组测序技术的发展,通过菌株全基因组的深度测序在全基因组水平上扫描并检测基因的序列变异和结构变异等,以其高效、低成本、信息量完整准确的特点,正逐步成为研究菌株遗传变异的重要工具[36]。
乳酸菌作为重要的食品用菌株,其优良的遗传稳定性是保证其产业化顺利进行的关键。乳酸菌发酵过程中会面临酸胁迫、营养缺乏和冷冻胁迫等,暴露于压力条件下会增加其基因组变化的频率。Stage 等[37]应用全基因组测序与分析技术发现在产业化过程中鼠李糖乳杆菌GG 基因组的重叠群与参考基因组的覆盖率具有高度一致性,ANI 得分分布未见显著差异,单核苷酸多态性(SNP)未见积累,证明产业化过程中鼠李糖乳杆菌GG 基因组可稳定遗传。同样Feng 等[38]通过全基因组测序发现植物乳杆菌ATCC 14917 继代培养过程中碳水化合物代谢相关基因不可稳定遗传,其中编码磷酸甘油酸变位酶基因在第30 代、60 代和90 代菌株中产生6 个非同义突变,使得第30 代、60 代和90 代菌株不可利用葡萄糖酸和龙胆二糖,但却增加了d-山梨糖醇、α-甲基-d-甘露糖和d-棉子糖的利用能力。
乳酸菌具有优良的产香特性和丰富的益生代谢产物,作为发酵剂在发酵食品领域被广泛应用。在发酵过程中,噬菌体污染情况普遍存在。噬菌体侵染会严重影响乳酸菌的稳定遗传和生长代谢,导致发酵不完全或失败[39−41]。噬菌体污染包括外部来源的溶菌性噬菌体污染和内部来源的溶原性噬菌体(前噬菌体)污染,前者可通过环境控制等手段进行有效预防,而后者却无法控制[42]。前噬菌体在乳杆菌中普遍存在,研究表明,恶劣环境会诱导乳酸菌中前噬菌体的表达[43]。因此,在菌株产业化应用前,可应用全基因组测序技术阐明菌株基因组中是否存在前噬菌体相关基因,并通过验证试验将含有易诱导表达噬菌体的菌株排除在外。Wei 等[44]发现虽然植物乳杆菌NCU116基因组中携带3 个前噬菌体,但丝裂霉素C、乳酸、胆盐、乙醇和过氧化氢等压力处理均不能诱导其表达,表明植物乳杆菌NCU116 具有遗传稳定性,可用于大规模工业生产而不会导致发酵失败。
随着基因组测序和注释信息的大量获得,GSMM 成为系统生物学中众多建模工作的基础。微生物的基因组信息可以反馈它所能进行的全部生化反应[6]。基于基因组信息构建的GSMM 实质上是描绘微生物中酶效应组装(enzymatic assembly)线路的蓝图[17]。GSMM 可以表征基因-蛋白-反应三者之间相互作用关系,包括典型代谢模型、互作网络模型、泛基因组模型和宏基因组模型,在分析网络特性、预测细胞表型、指导菌株设计、驱动模型发现、研究进化过程和分析相互作用等系统生物学的六个方面得到了广泛地应用(见图2)[45−46]。
乳酸菌第一个GSMM 是基于乳酸乳球菌IL1403的基因组序列构建的,共包含621 个反应和509 种代谢物,成功预测并验证了用于菌株生长的最小培养基,指导了提升二乙酰产量的代谢工程策略[47]。Kristjansdottir 等[45]构建了罗伊氏乳杆菌JCM1112T的GSMM(Lreuteri_530),利用模型发现不同菌株之间糖酵解途径(PK 途径和EMP 途径)的通量分布有很大差异,罗伊氏乳杆菌JCM1112T的EMP 途径最大通量仅为总糖酵解通量的7%。Xu 等[48]以干酪乳杆菌LC2W 的全基因组序列为基础构建了干酪乳杆菌的第一个GSMM(iJL846)。iJL846 包含846 个基因,969 个代谢反应和785 种代谢物,重新注释了342 个基因的代谢功能,确定了菌株生长必需的10 种氨基酸和7 种维生素,鉴定出可以提高胞外多糖(EPS)的产量的11 种营养素以及生物合成途径中的重要反应,分析了氧气对风味化合物形成的影响,预测了3 个新的敲除靶标以提升乙酰辅酶的产量。为比较同种但不同来源的菌株的代谢能力的异同,Elena 等[49]分别构建了干酪乳杆菌ATCC 334 和玉米青贮分离株干酪乳杆菌12A 的GSMM,对比发现两株菌的代谢网络、遗传和直系同源基因高度相似。综上,GSMM 已成为研究和改良乳酸菌代谢必不可少的工具。此外,增加约束条件并整合转录组、蛋白组和代谢组的数据将进一步提高模型的准确性[50]。
乳酸菌作为重要的食品工业微生物,拥有广阔的应用前景。基因组测序技术飞速发展,成为促进乳酸菌研究的有力工具,有助于深入了解菌株的代谢特征、遗传背景、安全性及应用稳定性,为大规模产业化应用奠定理论基础。将乳酸菌的基因组与表型信息相结合可以为阐明功能菌株的具体作用机制提供线索;重构GSMM 可以准确、高效地指导菌株工业化生产与应用。未来几年,乳酸菌的研究必将受益于基因组学的最新进展以及新的生物信息学算法和分析工具的发展。然而,乳酸菌作为活的生命体,菌株与菌株或菌株与环境间的相互作用均会影响基因的选择性表达,使得基因组与表型信息间一致性水平较低。转录组、蛋白组和代谢组信息可反映菌株转录与表达的情况,将其与基因组学信息学整合能够更完整地展示菌体细胞的动态生命过程,这将是促进乳酸菌应用的重要技术手段。