基于全基因组测序的细菌进化研究进展

2018-03-30 05:18周江林彭小川胡明达周静任洪广梁龙靳远岳俊杰
生物技术通讯 2018年6期
关键词:毒力基因组测序

周江林,彭小川,胡明达,周静,任洪广,梁龙,靳远,岳俊杰

军事科学院 军事医学研究院 生物工程研究所,北京100071

近30年来,随着生物多样性的发展变化,各种传染性疾病在全球范围内流行并反复出现,新发感染性疾病的出现和经典传染病的死灰复燃表明人类与感染性疾病的斗争远未结束。其中,由病原菌引发的传染病疫情不胜枚举,如嗜肺军团菌引起军团病的发生与全球性蔓延[1];O104∶H4 大肠杆菌引起的震惊世界的出血性肠炎、溶血性尿毒综合征疫情的暴发[2];O139 血清型霍乱弧菌引起的新型霍乱流行带给人类巨大损失和惊恐[3]。细菌引发的感染性疾病不仅对人类健康有极大危害,而且严重影响社会稳定和经济发展。

在传染病疫情出现时,快速、可靠地鉴别追溯病原体源头、获得病原微生物的特性,掌握疾病流行扩散的趋势,对于指导临床治疗和疾病防控至关重要。基因组是物种遗传物质的载体,也是形成微生物特定表型的本源[4]。基于全基因组多态性的分型技术适用于所有病原菌的分析和溯源,分辨率和精度也是最高的[3]。随着高通量测序技术的进步,测序成本急剧下降[5-6],研究人员有能力测定自己所关注的细菌的全基因组并进行分析,同时公共数据库中微生物基因组序列数目快速增加,给生物信息学研究人员提供了数据基础。总之,微生物全基因组测序(whole-ge⁃nome sequencing,WGS)的发展,对于指导临床诊断和公共健康领域的“基因组流行病学”有很大的应用前景,而且WGS 在研究细菌进化、病原菌疫情暴发和传播方面有许多成果得到报告[2-3,7-9]。

除了垂直遗传以外,细菌种群中普遍存在基因重组或称水平基因转移(horizontal gene trans⁃fer,HGT)的过程[10-13],该过程通过转化、转导和接合途径将遗传物质在细菌之间交换传递[14],并且不受细菌谱系的约束,进化距离很远的2 种细菌仍然可以发生HGT。HGT 介导的毒力因子、耐药基因等在细菌中扩散[15-16],加速细菌基因组革新和进化,不断产生新型病原菌和流行亚型。细菌基因组忠实地记录了它们所经历的自然选择、遗传漂变和基因重组事件[17],通过测定细菌全基因组序列,并将该序列与已有的毒力因子数据库、耐药基因数据库等进行查询比对,我们可以获得待测菌株的毒力基因谱(toxome,毒力相关基因的分布情况)和耐药基因谱(resistome,所有抗性基因构成的图谱),从而判断细菌的毒力、耐药和致病性等重要表型。同时,通过分析细菌基因组的重组情况,我们可以进一步对该细菌的进化历史进行溯源,将其与遗传关系密切的姊妹菌株区分开来,构建待测菌的种群结构,从而指导临床治疗和疾病防控实践。

1 细菌基因组分析方法现状

当细菌性传染病疫情暴发时,医护或疾控人员亟须回答几个问题:①病原体是什么,它是哪一种或哪个亚型的菌株,从哪里来,可能的传播途径是什么?②病原体有哪些致病表型,其生存能力、毒力和耐药特性是什么情况?③暴发株是否存在基因重组情况,是否有哪些基因重组导致其流行暴发?全基因组测序技术的进步,以及与其相关的数据存储、分析和比较的生物信息学工具,为解决这些问题提供了新的思路与方案[4]。

病原菌溯源分析的传统技术可以分为表型方法和分子方法。表型方法也叫生物化学方法,它是通过微生物各种酶的生化反应来判定微生物种类,如血清学分型、噬菌体分型、抗生物耐药性分析法等。分子方法以细菌遗传物质的序列片段为研究对象,通过细菌个体的DNA 多态性“指纹”对细菌进行分类,如脉冲场凝胶电泳法(pulsed-field gel electrophoresis,PFGE)、多位点序列分型(multilocus sequence typing,MLST)技术等[18-19]。但这些方法都只能研究细菌基因组的一小部分片段,因而这些手段属于物种依赖(spe⁃cies-dependent)的方法,同时存在费时和分类分辨率低的问题,特别是通常不能分辨密切相关的暴发株或检测毒力/耐药特征[7,20]。全基因组测序能够克服这些传统方法的缺点,随着全基因组测序技术的进步和成本的降低以及相关生物信息学工具的增加,全基因组测序方法能够提供更加快速和高分辨率的暴发分析[20]。测序完成后,得到的测序片段(reads)一般经过专用软件de novo组装成较长的contig 或完整的基因组,之后进行物种鉴定、毒力或耐药预测,以及系统发生分析等;也有一些工具通过将测序片段映射(mapping)到参考基因组上进行类似目的的分析。当前相关的生物信息学工具主要有丹麦基因组流行病学中心(Center for Genomic Epidemiology,http://www.genomicepidemiology.org/)提供的KmerFinder[21]用于预测细菌种属,ResFinder[22]、KmerResistance[23]用于预测获得的耐药基因,VirulenceFinder[24]用于识别毒力基因,以及细菌分析流水线(Bacterial Analysis Pipeline,BAP)[25],集成了之前的工具进行自动批量分析细菌全基因组数据。其他用于预测耐药基因的工具有SRST2[26]、CARD/RGI[27]等,用于预测毒力因子的工具还有VRprofile 等[28-29](表1)。这些工具的优点是普遍基于Web 提供服务,用户界面比较友好且操作相对容易上手,基于组装分析的准确率也比较好。但是这些工具也存在许多缺点,它们大都基于组装后的contig或基因组数据进行分析,而测序原始数据组装需要消耗较多的计算资源和时间,产生高质量的组装数据需要对原始数据仔细的质量控制和筛选,以及对组装软件参数的精心调试,这对广大普通实验人员来说是巨大的挑战;并且已有工具只能单独提供耐药基因或毒力因子或物种预测功能,不能对病原菌提供较为全面的认识;基于Web 提供服务,存在吞吐量小、时延大的缺点,而且在不安全的web 服务器上用户数据存在受损或被盗的风险。

细菌基因水平转移的分析检测方法目前主要有3 类。第一类是参数方法,基于细菌基因组的结构和组成,在基因组上寻找与其他区域存在显著差异的区域,如GC 含量、密码子使用偏性或寡核苷酸组成等[30],推测细菌基因组存在的基因重组。这类方法计算速度快,可以较大规模地分析目标基因组,但存在假阳性高的缺点。第二类是系统发生学分析方法,这类方法依赖系统发生冲突(phylogenetic confilct),取一组要研究的基因构建它们的系统发育树,并将这棵树与其来源物种的系统发育树对比,当2 棵树之间分支有冲突时引入HGT 事件使2 棵树分支拓扑一致[31-33]。系统发生学方法能够整合多个细菌全基因组的信息,尤其是把它们整合在进化模型上,从而能更好地描述推断HGT 事件的特征,比如找到供体株和推断转移事件时间等[34],一般被认为是检测细菌基因重组的金标准。然而这类方法也存在明显缺点:一方面,这种方法需要完整组装注释的基因组做分析,序列组装和比对、构建系统发育树一般非常消耗计算资源和时间,传染病疫情暴发时可能会响应不及时;另一方面,模型的结果也须谨慎使用,例如系统发生学冲突也可能是模型没有考虑到未识别的旁系同源基因等[34]。第三类是基于原始测序数据读长绘制(reads mapping)的方法。Trappe[35]等报道了Daisy 工具,通过切分读长映射(split-read mapping)方法确定HGT 边界,并通过read pair 和覆盖深度信息评估候选区域。该方法直接利用高通量测序数据检测HGT而不需要de novo组装拼接,快速高效。但是该方法须提供基因重组的2 个亲本菌株,并且只能单个供体基因组的HGT 可能情况,实际情况下我们往往并不知道一株待测菌是否有基因重组以及其重组亲本是什么,这就需要进一步改进这类方法来增强实际应用价值。更多关于细菌基因重组检测的具体工具可参阅文献[36]。

2 细菌全基因组测序分析的应用

随着经济全球化的发展,全球各地区之间的联系越来越紧密,跨地区人流、物流、生物迁徙等愈发广泛,新型细菌和新发传染病流行扩散的可能性也越来越大,抗生素耐药细菌的传播扩散成为全球关注的公共卫生紧急事件,威胁着各级卫生保健服务的医疗干预手段。基于全基因组测序的细菌变异进化研究分辨率高、分析结果快速,能为应对这些挑战提供坚实的支撑,并且已经在多次医院内感染调查、传染病疫情调查和防控中大显身手。

基于全基因组测序的分型方法对于多耐药细菌的暴发检测和进化变异检测具有重要意义和帮助[37]。2010年,多耐药性鲍曼不动杆菌(mul⁃tidrug-resistantAcinetobacter baumannii,MDR-Aci)感染在英国一家医院暴发,传统的分子分型方法(如PFGE 等)无法提供足够的分辨率来确定明显是克隆性暴发的病原菌传播链,也无法提供关于传播模式的详细信息。研究人员采用高通量测序技术对MDR-Aci 分离株进行全基因组测序和单核苷酸多态性分析,证明MDR-Aci 是从军人患者M2 的伤口传播到平民患者C2 的呼吸道[7]。2012年7~9月,产CTX-M-15 的肺炎克雷伯菌导致荷兰一所大学医院暴发感染疫情,研究人员对暴发分离株进行了全基因组测序,并将测序结果与其他已知肺炎克雷伯菌基因组序列做核心系统发育和全基因组单核苷酸多态性分析,证实暴发株是一种新出现的序列型ST1427[38]。除此之外,同一课题组的研究人员对产CTX-M-15 的ST15 型肺炎克雷伯菌院内暴发株进行全基因组测序分析,结合流行病学数据,重构出肺炎克雷伯菌在单个治疗中心患者间的传播和患者转诊导致的机构内扩散感染路线[39]。这项研究表明全基因组测序方法有助于及早检测发现具有医院传播倾向或区域患者人群中长期循环的肺炎克雷伯菌高危克隆群。由于具有传统分型方法无可媲美的优点和广阔前景,基因组流行病学被Science杂志列为2012年最值得关注的六大科研领域之一[40]。

当前病原体鉴定的常规方法是基于大量细菌学的生化试验和分子实验,这个过程费时费力且代价高昂。通过细菌全基因组测序,将得到的序列数据与已有的毒力基因、耐药基因和病原宿主相互作用等数据库做比对分析,可以快速鉴定细菌多种病原特性。2011年大肠杆菌疫情在德国北部暴发,很快席卷了德国和欧洲其他国家,导致超过4000 人感染,50 例死亡。患者症状表现为典型的肠出血性大肠杆菌(enterohemorrhageEscherichia coli,EHEC)感染,但病原培养特性和MLST 分析却发现暴发菌株与EHEC 差距甚远,因此一度怀疑该菌株是一种完全新型的致病性大肠杆菌[41]。后来我国杨瑞馥教授团队通过对发病菌株的全基因组测序分析,发现导致暴发的菌株与肠聚集性大肠杆菌属于同一进化分支,但获得了编码志贺毒素的stx2基因,从而表现出EHEC的致病特点。该菌株还携带了Ⅰ型聚集性黏附菌毛蛋白等毒力因子以及多个耐药基因[2,42],正是上述基因的获得增强了菌株的环境生存能力,从而促进病原的大范围传播,造成了严重的公共卫生事件。另一个关于荷兰2 个地区的大规模队列研究中,全基因组测序手段被用于对产志贺毒素大肠杆菌(Shiga toxin-producingE.coli,STEC)的分子鉴定和系统发育分析,结果显示抗生素抗性基因在stx1阳性菌株中出现频率高于stx2和stx1+stx2阳性菌株,iha、mchB、mchC、mchF、subA、ireA、senB、saa和sigA基因在eae 阴性STEC 菌株中出现频率显著高于eae阳性菌株,编码三型分泌系统蛋白和黏附素毒力基因与血性腹泻患者体内分离株存在相关性,而无论stx亚型如何,分离株根据其序列型(ST)或血清型都能聚集成簇[43],从而清晰地构建出该地区STEC 种群结构和基因组可塑性。

随着测序技术的进步,测序成本和耗时不断下降,基于全基因组测序的方法可以代替整合多个传统的工作流,成为单个有效的全基因组测序研究工作流,待测菌的物种、分型、毒力特征、耐药情况等重要分子特征可以快速从基因组信息中提取分析,这些信息可用于临床诊断和治疗方案决策、切断院内感染传播途径等。利用全基因组测序数据进行细菌进化溯源、种群结构分析和基因重组检测,能够为应对传染病疫情暴发和重大生物安全事件提供信息保障和防控决策支持。

3 结语与展望

综上,我们介绍了基于全基因组测序的细菌进化研究背景和重要意义,简要综述了该领域国内外研究现状,介绍对比了不同生物信息学工具的优缺点,最后以2 个具体应用及相关文献报道实例阐述了全基因组测序方法研究细菌变异进化的实际应用。

基于全基因组多态性的分型技术已经开始应用于病原菌的分析与溯源,在院内感染调查、传染病疫情防控中显示了其无可比拟的优势,未来这类实际应用势必会更加广泛和高效。目前对基于组装注释后的分析工具的研究比较透彻,但也存在如上所述一些缺点;而基于kmer 频率、reads mapping 等非组装的细菌变异进化研究分析方法在一些科学研究中已崭露头角[44-45],具有不须组装、快速高效等优点,值得进一步探讨。

基于全基因组测序的细菌变异进化研究和应用也面临一些挑战。首先,当前存在多种测序平台,用不同的建库方法和测序误差得到的序列数据的可比性还没有被全面评估和验证[6],仅有少数几个物种、分离株和分析方法的研究评估被报道[46-47],急须对基于全基因组测序的菌株鉴定、分子鉴定、分型和发育分析等进行系统性研究。其次,目前公共数据库的序列数据质量参差不齐,不同实验室和测序平台产生的reads 和组装完成的基因组数据都存在不同的问题,这为基于全基因组的各类分析应用和大规模生物信息学分析带来了不可忽视的影响,未来需要探索建立一个较为标准化的序列数据质量控制流程和结果评估阈值,减少序列数据使用人员的困惑。第三,全基因组测序和数据分析迫切需要一个自动化的标准工作流,目前的数据分析方法和工具较为离散,一个工具往往只能完成1 个或2 个分析功能,使用者需要摸索设置各分析工具的输入参数,各工具的访问途径和结果格式也差异较大,这对使用者、特别是不具备较强生物信息学背景的实验或医护人员存在巨大障碍。尽管目前这方面的综合性工作流工具已有部分报道[24-25,48],但是其可用性和应用范围还比较有限,未来需要探索建立一个用户友好、结果美观的综合性全基因组数据分析平台。

随着全基因组测序技术的不断进步,测序成本必将不断下降,测序片段的读长和准确率也会越来越高,结合同一标准化的建库流程和综合性生物信息学分析工具,未来基于全基因组测序的方法必将在非培养临床诊断、病原体鉴定、传染病疫情实时监测防控和公共卫生调查等领域大展身手。

猜你喜欢
毒力基因组测序
牛参考基因组中发现被忽视基因
二代测序协助诊断AIDS合并马尔尼菲篮状菌脑膜炎1例
血清HBV前基因组RNA的研究进展
阿维菌素与螺螨酯对沾化冬枣截形叶螨的毒力筛选及田间防效研究
基因测序技术研究进展
外显子组测序助力产前诊断胎儿骨骼发育不良
紫花白及基因组DNA提取方法的比较
布鲁菌缺失疫苗株M5-ΔznuA和M5-Δbp26-ΔznuA的构建及毒力和免疫原性的评估
水稻白叶枯病菌Ⅲ型效应物基因hpaF与毒力相关
单细胞测序技术研究进展