白 云,万康林
分子生物学技术的不断成熟和生物信息学技术的广泛应用使生物的分子进化研究取得了迅猛进展。结核分枝杆菌的分子进化研究为结核分枝杆菌的溯源、致病机理研究、耐药性研究及毒力基因相关研究奠定了坚实的理论基础,同时也为结核病的预防控制提供重要依据。特对近年来国内外用于结核分枝杆菌分子进化研究进行综述。
1.1 结核分枝杆菌分类学地位 分枝杆菌属主要包括结核分枝杆菌复合群(Mycobacterium tuberculosis complex,MTBC)、麻风分枝杆菌(M.leprae)和非结核分枝杆菌(Non-tuberculous Mycobacteria,NTM)。MTBC主要包括结核分枝杆菌(M.tuberculosis,MTB)、牛分枝杆菌(M.bovis)、非洲分枝杆菌(M.africanum)和田鼠分枝杆菌(M.microti)等。其中结核分枝杆菌、牛分枝杆菌和非洲分枝杆菌均可感染人类并引发结核病。目前,发现的非结核分枝杆菌约有160种,其中37种已有病例报告[1]。常见的引起人类疾病的非结核分枝杆菌主要包括鸟分枝杆菌复合群(M.avium complex,MAC)、脓肿分枝杆菌(M.abscessus)和堪萨斯分枝杆菌(M.kansasii)等。
1.2 结核分枝杆菌起源 分枝杆菌属的祖先可能为一种自由生物体。与海洋生物发生长期、持续性联系的分枝杆菌,位于分枝杆菌进化树的根部,故海分枝杆菌可能相对最为古老。结核分枝杆菌与MTBC的其他成员,在表型、宿主范围及致病力方面存在较大差异,但是具有较高的遗传同质性,其基因组水平的序列相似性在99.95%以上,同义核苷酸变异率仅有0.01%~0.03%,并且基因水平转移也很少发生,所以有科学家认为:MTBC是由同一祖先进化而来,最近的进化瓶颈时期发生在2万到3.5万 年 前[2-4]。Cole 等[5]认 为 H37Rv中 含 有20种带有单加氧酶的细胞色素P450,这种酶可以催化疏水化合物的氧化,这也是与土壤腐生生物相关的特性之一,所以结核分枝杆菌的祖先可能为一种土壤内的分枝杆菌。Fabre等[6]认为在非洲发现的卡耐提分枝杆菌(M.canettii)可能是MTBC中最古老的谱系。Gutierrez等[7]最近的进化研究发现:结核分枝杆菌的进化与人类相似,可以追溯到3百万年前的非洲大陆,并认为结核分枝杆菌的进化与人类的迁徙和进化相关,即:结核分枝杆菌随着人类的迁徙由非洲逐渐传播到世界各地从而形成了目前这种不同基因型的全球分布形式。
2.1 插入序列(insertion sequences,IS)插入序列是广泛存在于细菌基因组中的一种转座元件。结核分枝杆菌研究中,常用的插入序列主要包括IS6110、IS1081等。IS6110隶属于IS3家族,序列长度为1.36kb,仅存在于 MTBC中[8]。包括结核分枝杆菌在内的几乎所有的MTBC的菌株在直接重复区都有一个IS6110元件,且此插入位点被认为是MTBC进化过程中最早的插入位点[9]。McEvoy等[10]认为结核分枝杆菌的进化能力绝大部分可能依赖于IS6110的转座,含有IS6110高拷贝数的菌株与低拷贝数的菌株相比具有更高的进化率和更多的进化优势。
2.2 单核苷酸多态性(Single nucleotide polymorphisms,SNP) SNP是指由单个核苷酸变异引起的基因组序列多态性。SNP分为同义(synonymous)SNP和非同义(nonsynonymous)SNP。同义SNP是指核酸的改变未造成基因编码的氨基酸序列改变。非同义SNP是指核酸的改变引起了氨基酸序列的改变。非同义突变可能是种群内在因素或者外部环境压力引起的趋同进化的结果。而同义SNP与其他的进化标识相比更少的受到选择压力的影响,属于中性突变,因此,被科学家认为是用于结核分枝杆菌进化研究理想的分子生物学标识。
2.3 大 片 段 多 态 性 (Large-sequence polymor-phisms,LSP) LSP是发生在基因组中容易产生插入-缺失位置的大片段的多态性。IS6110的重组及其它具有相似序列的基因重组和缺失可能是LSP产生的两个重要机制[11]。分枝杆菌基因组中的LSP大小一般为105bp到11 985bp。LSP很可能是MTBC大程度遗传变异与表型变异的重要原因之一。目前LSP是作为进化研究的主要分子标识。Alland 等[11]将 Fleischmann等[12]通过基因组 比对分析所确定的17个LSP划分为3组,并认为其中包括4个 LSP(LSP 1、9、13、16)的 A 组是用于结核分枝杆菌进化研究较好的分子标识。
2.4 直接重复片段 (Direct repeats,DR) 直接重复片段是仅出现于结核分枝杆菌复合群中,大小为36bp的DNA片段,被35~41bp的间隔区(spacer)分隔开。一个直接重复片段和一个间隔区共同组成了一个直接可变重复单元(direct variant repeats,DVR),多个 DVR组成整个 DR 区[13]。DR区被认为是结核分枝杆菌进化研究的重要染色体结构域。Fang等[9]认为DR区的进化主要是由DVR的缺失及IS6110引起的突变等介导。
2.5 可变数目串联重复序列(Variable number tandem repeat,VNTR) 可变数目串联重复序列是存在于基因组中大小为40~100bp的串联重复序列。VNTR属于小卫星序列,由中间的核心区和外围的侧翼区两部分组成,其侧翼序列具有高度的保守性[14]。不同的VNTR在不同的结核分枝杆菌中重复单元的拷贝数存在差异,具有高度的多态性。目前已发现48个VNTR位点,其中有明显多态性的位点有12个[15]。Smittipat等[15]对其研究的48个VNTR位点分析后发现,大多数VNTR都出现于结核分枝杆菌的非编码区或基因间隔区,有趣的是编码区的串联重复序列都多变,并编码多态性蛋白,这种多态性蛋白可能在结核分枝杆菌逃避宿主免疫屏障过程中发挥重要的作用。
3.1 单核苷酸多态性分析
3.1.1 管家基因SNP分析 管家基因的变异能够为生物进化提供重要信息。管家基因SNP相关进化研究是一种PCR与DNA测序相结合的方法,利用PCR扩增管家基因片段,应用DNA测序仪确定并验证不同菌株管家基因中的SNP,进而针对不同结核分枝杆菌管家基因的SNP应用生物信息学软件进行相关进化分析。这种方法相对省时、省力、较为经济,但是由于管家基因高度保守,提供的变异信息较为有限,因此这种进化分析结果不够全面。
3.1.2 全基因组多SNP位点分析 随着基因组测序技术的发展,人类获得越来越多微生物的全基因组序列,基因组序列比对分析提示出更全面的SNP信息。针对新的SNP信息,科学家开始了基于基因组内多个SNP位点的进化分析。如:Filliol和Gutacker等[16-17]选择来自于不同国家地区的实验菌株,通过比较基因组学及分子生物学的方法确定并验证用于进化分析的SNP,根据不同菌株SNP的信息,应用生物信息软件开展进化分析。这种方法不仅可以迅速、明确地将处于系统发育树不同位置的菌株划分为不同基因簇,并且为其毒力、感染性等生物医学相关的特性构建了基因框架。
3.2 基因缺失分析 基因缺失分析即应用PCR或自动基因芯片技术及DNA测序相结合的方法以确定并验证不同菌株的基因组某一区域缺失情况,并利用分子生物学软件进行相应分析。基因缺失分析目前是结核分枝杆菌进化研究的主要方法之一。常用于缺失分析的区域为变异区(regions of difference,RD)区。除RD区外,重复序列的缺失分析也是结核分枝杆菌分子进化研究的方法之一。如:Arnold等[18]根据VNTR及DR区spacer的缺失情况并结合katG、gyrA和gyrB基因的SNP分析结果绘制了结核分枝杆菌遗传事件发生的时间表,清晰的显示了MTBC各成员如何从共同祖先进化而来。
3.3 IS6110-荧光标记扩增片段长度多态性分析曾被认为是结核分枝杆菌分子分型金标准的方法是IS6110限制性片断长度多态性[IS6110-RFLP(restriction fragment length polymorphism)]分析,但因影响IS6110转座的因素较复杂、数据分析较繁琐等原因,使IS6110-RFLP在结核分枝杆菌的进化研究中一直受到限制。最近Thorne等[19]的研究表明以IS6110-targetting PCR为基础的一种优于IS6110-RFLP的分型方法,IS6110-荧光标记扩增片段长度多态性[IS6110-fAFLP (fluorescent amplified fragment length polymorphism)]分析可以用于现代结核分枝杆菌菌株的系统发育研究。IS6110-fAFLP基本操作方法为:首先,选用限制性内切酶MseⅠ、TaqⅠ等将菌株全基因组酶切消化;然后,将消化后DNA加入到含有TaqⅠ特异性接头的连接液中进行连接反应;连接反应结束后进行特异的PCR扩增。扩增后的特异片段加样于ABi 3130xl基因分析仪中并应用GeneMapper v4.0进行分析。分析后的片段作为有效数据并运用BioN-umerics version 4.5构建系统发育树[19-20]。这种方法对Haarlem、LAM、X、T、S等不同基因型都有较好的分辨能力。但不适用于IS6110低拷贝数的古典型菌株。
3.4 间隔寡核苷酸分型和多位点数目可变串联重复序列分析 间隔寡核苷酸分型(spacer oligonucleotide typing,Spoligotyping)和多位点数目可变串联重复序列分析(multiple locus VNTR analysis,MLVA)是目前国际上用于结核分枝杆菌快速分型的两种方法,在结核分枝杆菌的分子进化研究中常作为辅助方法与其他分子进化研究方法联合应用以提供实验菌株的基因分型信息并丰富进化研究结果。如:Gutacker 等[17]将 Spoligotyping、MLVA、IS6110分析与基于SNP的系统发育分析结合起来,不仅将结核分枝杆菌划分为9大基因簇,并且揭示了结核分枝杆菌稳固的种群结构。
4.1 结核分枝杆菌与牛分枝杆菌的进化关系 结核分枝杆菌与牛分枝杆菌是引起人类结核病的两大病原菌,二者的进化关系一直是科学家争论的焦点。Stead等[21]曾认为结核分枝杆菌是由牛分枝杆菌进化而来的。然而,比较基因组学分析表明,结核分枝杆菌不可能直接来源于牛分枝杆菌[22],Brosch等[4]开展的系统发育研究较深入的构建了MTBC的进化结构,他推测:牛分枝杆菌、田鼠分枝杆菌及非洲分枝杆菌在TbD1出现之前就从现代结核分枝杆菌的祖先中分化了出来,牛分枝杆菌与结核分枝杆菌相比,存在更多的缺失基因,进一步证实牛分枝杆菌是比结核分枝杆菌更为年轻的致病菌。
4.2 结核分枝杆菌的年龄 在结核分枝杆菌的研究中,许多科学家试图应用分子钟去追溯结核分枝杆菌的年龄,但结核分枝杆菌存在着多态性的进化标识物,如插入序列、SNP等,各自有着不同的进化速度。所以,基于不同分子钟的进化研究常得出不同的结论。如:Hughes等[23]认为 H37Rv和CDC1551的共同祖先可能有着3.4万~3.8万年的历史。但Kapur等[24]认为结核分枝杆菌约有1.5万年的历史。Smith等[25]认为应用分子钟最重要的是区分突变、多态性和置换的概念。在最近的共同祖先出现之前,结核分枝杆菌已感染人类千百年,甚至更长时间,但是一些古老谱系已从现代种群中消失,因此分子水平的年代推定并不能够提示结核分枝杆菌与人类共同进化的时间。
4.3 三大基因群的划分 Sreevatsan等[2]进行的基于katG463和gyrA95两个管家基因SNP情况的进化研究是结核分枝杆菌较为重要的进化研究之一。这项研究将MTBC划分为3大基因群:group1、2和3。其中,group1中除了包括部分结核分枝杆菌外,还包括了牛分枝杆菌、田鼠分枝杆菌和非洲分枝杆菌。Sreevatsan等[2]认为group1内的菌株与group2和3内的菌株相比具有更高水平的基因变异,可能经历了更长时间的进化过程,即更为古老。
4.4 六大SNP聚集群(SNP cluster groups,SCGs)的划分 Filliol等[16]基于SNP的分析,将结核分枝杆菌分为六大SNP聚集群即SCG-1、SCG-2、SCG-3、SCG-4、SCG-5和 SCG-6六大深支,并将SCG-3和 SCG-6进一步划分为 SCG-3a、SCG-3b、SCG-3c、SCG-6a和SCG-6b五个亚群。这一结果有力地支持了Sreevatsan等人提出的3大基因群的观点。Spoligotyping分型确定的主要基因型的分布情况如下:EAI基因型主要分布于SCG-1;Beijing基因型主要分布于SCG-2;CAS(Central Asian)基因型部分分布于SCG-3a;X基因型主要分布于SCG-3c和SCG-4。
近年来国内外已经开展了许多有关结核分枝杆菌及MTBC分子进化方面的研究。在结核分枝杆菌分子标识的进化方式、菌株进化模式和种群划分等方面取得了不俗的研究成果。通过这些研究不仅使我们了解了不同结核分枝杆菌菌株间毒力差异机制,为抗结核药物和疫苗的研发提供了理论支持;在流行病学方面,也提供了传播模式和感染模式的信息,为结核病预防、控制策略的制定与实施提供了重要参考。尽管如此,寻求更为稳定的进化标识、高致病性菌株北京基因型的溯源、毒力进化研究、进化与免疫机制关联研究都是我们未来需要努力的方向。
[1]王睿,李聪然,梁蓓蓓,等.非结核分枝杆菌感染特点与药物选择研究进展[J].国际呼吸杂志,2006,26(4):280-282.
[2]Sreevatsan S,Pan X,Stockbauer KE,et al.Restricted structural gene polymorphism in the Mycobacterium tuberculosis complex indicates evolutionarily recent global dissemination[J].Proc Natl Acad Sci U S A,1997,94(18):9869-9874.
[3]Gutacker MM,Smoot JC,Migliaccio CA,et al.Genome-wide analysis of synonymous single nucleotide polymorphisms in Mycobacterium tuberculosis complex organisms:resolution of genetic relationships among closely related microbial strains[J].Genetics,2002,162(4):1533-1543.
[4]Brosch R,Gordon SV,Marmiesse M,et al.A new evolutionary scenario for the Mycobacterium tuberculosis complex[J].Proc Natl Acad Sci U S A,2002,99(6):3684-3689.
[5]Cole ST.Learning from the genome sequence of Mycobacterium tuberculosis H37Rv[J].FEBS Lett,1999,452(1-2):7-10.
[6]Fabre M,Koeck JL,Le Fleche P,et al.High genetic diversity revealed by variable-number tandem repeat genotyping and analysis of hsp65gene polymorphism in a large collection of"Mycobacterium canettii"strains indicates that the M.tuberculosis complex is a recently emerged clone of"M.canettii"[J].J Clin Microbiol,2004,42(7):3248-3255.
[7]Gutierrez MC,Brisse S,Brosch R,et al.Ancient origin and gene mosaicism of the progenitor of Mycobacterium tuberculosis[J].PLoS Pathog,2005,1(1):e5.
[8]Thierry D,Brisson-Noel A,Vincent-Levy-Frebault V,et al.Characterization of a Mycobacterium tuberculosis insertion sequence,IS6110,and its application in diagnosis[J].J Clin Microbiol,1990,28(12):2668-2673.
[9]Fang Z,Morrison N,Watt B,et al.IS6110transposition and evolutionary scenario of the direct repeat locus in a group of closely related Mycobacterium tuberculosis strains[J].J Bacteriol,1998,180(8):2102-2109.
[10]McEvoy CR,Falmer AA,Gey van Pittius NC,et al.The role of IS6110in the evolution of Mycobacterium tuberculosis[J].Tuberculosis(Edinb),2007,87(5):393-404.
[11]Alland D,Lacher DW,Hazbon MH,et al.Role of large sequence polymorphisms(LSPs)in generating genomic diversity among clinical isolates of Mycobacterium tuberculosis and the utility of LSPs in phylogenetic analysis[J].J Clin Microbiol,2007,45(1):39-46.
[12]Fleischmann RD,Alland D,Eisen JA,et al.Whole-genome comparison of Mycobacterium tuberculosis clinical and laboratory strains[J].J Bacteriol,2002,184(19):5479-5490.
[13]van Embden JD,van Gorkom T,Kremer K,et al.Genetic variation and evolutionary origin of the direct repeat locus of Mycobacterium tuberculosis complex bacteria[J].J Bacteriol,2000,182(9):2393-2401.
[14]Supply P,Mazars E,Lesjean S,et al.Variable human minisatellite-like regions in the Mycobacterium tuberculosis genome[J].Mol Microbiol,2000,36(3):762-771.
[15]Smittipat N,Billamas P,Palittapongarnpim M,et al.Polymorphism of variable-number tandem repeats at multiple loci in Mycobacterium tuberculosis[J].J Clin Microbiol,2005,43(10):5034-5043.
[16]Filliol I,Motiwala AS,Cavatore M,et al.Global phylogeny of Mycobacterium tuberculosis based on single nucleotide polymorphism (SNP)analysis:insights into tuberculosis evolution,phylogenetic accuracy of other DNA fingerprinting systems,and recommendations for a minimal standard SNP set[J].J Bacteriol,2006,188(2):759-772.
[17]Gutacker MM,Mathema B,Soini H,et al.Single-nucleotide polymorphism-based population genetic analysis of Mycobacterium tuberculosis strains from 4geographic sites[J].J Infect Dis,2006,193(1):121-128.
[18]Arnold C,Thorne N,Underwood A,et al.Evolution of short sequence repeats in Mycobacterium tuberculosis[J].FEMS Microbiol Lett,2006,256(2):340-346.
[19]Thorne N,Borrell S,Evans J,et al.IS6110-based global phylogeny of Mycobacterium tuberculosis[J].Infect Genet Evol,2011,11(1):132-138.
[20]Thorne N,Evans JT,Smith EG,et al.An IS6110-targeting fluorescent amplified fragment length polymorphism alternative to IS6110restriction fragment length polymorphism analysis for Mycobacterium tuberculosis DNA fingerprinting[J].Clin Microbiol Infect,2007,13(10):964-970.
[21]Stead WW.The origin and erratic global spread of tuberculosis.How the past explains the present and is the key to the future[J].Clin Chest Med,1997,18(1):65-77.
[22]Gordon SV,Brosch R,Billault A,et al.Identification of variable regions in the genomes of tubercle bacilli using bacterial artificial chromosome arrays[J].Mol Microbiol,1999,32(3):643-655.
[23]Hughes AL,Friedman R,Murray M.Genomewide pattern of synonymous nucleotide substitution in two complete genomes of Mycobacterium tuberculosis[J].Emerg Infect Dis,2002,8(11):1342-1346.
[24]Kapur V,Whittam TS,Musser JM.Is Mycobacterium tuberculosis 15,000years old?[J].J Infect Dis,1994,170(5):1348-1349.
[25]Smith NH,Hewinson RG,Kremer K,et al.Myths and misconceptions:the origin and evolution of Mycobacterium tuberculosis[J].Nat Rev Microbiol,2009,7(7):537-544.