吕 冰,高守一,万康林
自从1882年科赫发现结核病由结核分枝杆菌感染引起以来,结核病一直是人类想要攻克的传染病之一。但是,经过百年来人们的努力,结核病仍然是影响人类健康的重要传染病之一。在上世纪九十年代,以分子分型技术为基础的分子流行病学,给研究结核病病原特征、感染传播和致病机制等提供了新的手段。尤其是结核分枝杆菌H37Rv全基因组序列测序完成后,结核分枝杆菌的分子分型研究取得飞速的发展,进入了一个全新的领域,也进而使结核病流行病学的研究取得了很大的进展。建立在基因序列基础上的分子分型技术可以了解病例间的相互关系,使得流行病学研究中对病例的追溯更加直观,易于了解结核病病原在人群中的传播动态特征。本文将介绍近年来国内外经常应用的及新建立的结核分支杆菌分子分型研究的主要方法,包括插入序列6110限制性片段长度多态性分析、寡核苷酸多态性分析、长片段多态性分析、富GC含量多态性、多位点可变数目重复片段多态性分析、以及单核苷酸多态性分析等。
插入序列(Insert sequence,IS)是一种比较简单的转座元件,通常小于2.5kb,并且广泛分布于大多数细菌的基因组中〔1〕。插入序列一般不会携带表型基因,而只带有一些与其转座作用有关的基因,当它们转座到某一基因中使该基因失活或产生极性效应时才会被发现。插入序列位置的置换经常会使基因断裂,影响相邻基因活性或是改变其表达〔1-2〕。从进化的角度看,插入序列在基因组中的作用目前有两种假设。其一是插入序列作为基因组中的“寄生者”,是对宿主的一种危害〔3〕;而另一种认为插入序列是在细菌的进化中起着重要的作用,保存宿主菌在自然选择中产生的有利的变异〔4〕。
在结核分枝杆菌基因组中,作为分型应用的插入序列包括IS6110和IS1081等,其中IS1081曾应用到牛结核分支杆菌分型,而IS6110是最为重要和独特的。Thierry等人最初报道IS6110序列为1355bp,隶属于IS3家族,并且只存在于结核分枝杆菌基因组中〔5〕。这种插入序列广泛分布于结核分枝杆菌的基因组中,在不同的临床分离株中其重复次数也比较宽泛,为0-26个重复〔6-7〕,也有些文献报道为0-25个重复〔8〕。不过,IS6110片段在基因组中的分布并不是随机的,有研究表明基因组中分布了一些IS6110插入的“热点”〔6〕。IS6110插入位置和重复次数在不同菌株基因组中的多态性具有地域分布特点,并且这种“标识物”具有足够的分辨力来区分不同的菌株。所以以IS6110分子分型为基础的分子流行病研究被广泛的应用〔9〕。1993年,Van Embden等人介绍了IS6110限制性片段长度多态性(restriction fragmentlength polymorphism,RFLP)(IS6110-RFLP)分型法的标准操作方法〔10〕,现已广泛应用于结核病分子流行病学的研究领域中。该标准方法对实验操作中的内切酶应用、分子量标准对照等细节进行了明确的规范。试验方法的标准化使得到的结果在实验室间比对成为可能,世界范围内的菌株追溯也成为可能。由于分型分辨率比较高,IS6110-RFLP方法目前依然被认为是结核分枝杆菌基因分型的“金标准”。中国疾病预防控制中心传染病所结核研究室也曾对IS6110-RFLP方法进行标准化应用的探讨〔12〕。但是这种方法存在一定的局限性,如对IS6110低拷贝(拷贝数小于5)的菌株难以分型、操做技术繁琐、杂交带识读困难等。
实验方法为:选用限制性内切酶PvuⅡ酶切菌株全基因组,经琼脂糖凝胶分离酶切后的基因组片段,转至尼龙膜上,再由标记过的探针杂交,放射自显影技术检测结果。为了实验室间的比对及实验室内部的质控,必须应用内对照及外对照。外对照选用Lambda/HindⅢ和PhiX174/HaeⅢ,内对照选用Super Coiled Ladder DNA与PhiX174/HaeⅢ两个核苷酸相对分子量标准,二者同被检菌株一同用PvuⅡ酶切,外对照作为Marker单独加样,而内对照与被检的结核分枝杆菌DNA混合后一起电泳,内对照与被检DNA采用各自的探针分别杂交(即双杂交技术)。该实验得到的结果以 TIFF图片格式储存,用Bionumerics软件分析结果〔10,12〕。
在结核分枝杆菌基因组中有一种36bp大小的DNA片段,在基因组中重复出现,被称为直接重复片段(DR,Direct repeats),这些片段被35-41bp大小的间隔区分隔开,每个重复片段间的间隔区是唯一的,而且其顺序在所有菌株几乎是相同的,一个直接重复片段加上一个间隔区称为一个DVR(direct variant repeats),整个DR区是由多个DVR片段组成〔13〕。不同菌株会发生某一间隔区的插入或缺失,并且能稳定传代,针对检测该间隔区的存在或缺失,利用间隔寡核苷酸分型(spacer oligonucleotide typing,Spoligotyping)方法就可以对结核分枝杆菌进行分型鉴定。目前国际已有该方法的数据库(SploDB4),该数据库已经收录了全世界122个国家的39295株结核分枝杆菌临床分离株的Soligotyping分型数据〔14〕,在中国疾病预防控制中心传染病所结核病研究室也建立了中国Spoligotyping数据库,并收录全国2千多株临床分离株的Soligotyping分型数据(论文待发表)。
结核分枝杆菌间隔区寡核苷酸分型方法是一种独特的以PCR为基础的分子分型方法〔15-16〕。这种方法目前已经有标准操作,中国疾控中心传染病所结核研究室也有关于此方法的标准化应用探讨〔17〕。该方法选取结核分枝杆菌基因组DR序列间的间隔区序列,设计各自特异的寡核苷酸探针,并固定在Biodyne C膜上,用生物素标记的引物PCR扩增被检菌株的间隔区序列,将带有标记的扩增产物与膜上结合的寡核苷酸探针杂交,再通过ECL增强化学发光法检测〔18〕,得到较为特异的结果。结果判断杂交阳性即间隔区存在用“1”表示,阴性即间隔区缺失用“0”表示,这样每间隔区的检测结果就获得0或1的数字编码,用 BioNumerics软件进行结果分析〔17〕。
该方法同IS6110-RFLP相比有两个优点,一是不需大量的菌株DNA,二是结果为数字编码,便于分析。但是缺点也不容忽视,即该方法的分辨率比较低〔19〕,尤其是对北京家族菌株。
可变数目串联重复序列(variable number tandem repeats,VNTR),又称为分枝杆菌分散重复单元(mycobacterial interspersed repetitive units,MIRU),广泛存在于原核和真核生物的基因组中。近似于哺乳动物基因组中的微卫星区域〔20〕。在已完成全基因组测序分析的结核分枝杆菌 H37Rv、CDC1551、和AF2122/97菌株基因组中均富含VNT R,并且许多临床分离菌株的研究中证实,不同VNTR位点在同一菌株中、同一VNTR位点在不同菌株间,其重复单元的拷贝数不同,即存在明显的多态性〔21-24〕,但其侧翼序列具有高度保守性。自1998年Forthingham和Meeker等人报道结核分枝杆菌基因组中的VNT R位点,并且发现了11个具有基因多态性的位点(5个MPT R及6个ETR位点)〔25〕之后,更多关于VNTR 的研究被陆续的报道出来。被检测的菌株根据不同位点的VNTR重复单元的拷贝数的多少来进行数字化编码,然后利用相关软件通过计算机来对这些菌株进行聚类分析〔25〕。基本操作方法是:常规培养菌株,水煮法制备样品DNA,PCR扩增选取的位点片段,琼脂糖凝胶电泳确定PCR产物的大小,确定位点的串联序列重复次数,所有位点的重复序列次数可成为该菌株的数字编码,用 BioNumerics软件聚类分析〔26〕。2000年Supply等人确认了41个VNTR位点,经过研究分析选择了其中的12个位点,用该方法分型结果每株菌株以12个数字标记,采用数字化结果进行细菌的分子分型〔20〕。目前Supply等人又建立了VNTR(MIRU)分析网站,在该网站中全世界菌株的VNTR位点数据都可进行比对〔27〕。
多个VNT R位点组合的分型技术称为多位点VNTR分析(Multiple Loci VNT R Ananlisis,MLVA)。MLVA的分辨率取决于所选择的位点及位点数量。一般来说当选择12个位点时,分型分辨率较IS6110低,但是12个位点与 Spoligotyping合并分型,或是应用 15个位点,其分型分辨率较IS6110 高〔28〕。
该方法操作简单,分辨率高,结果容易分析,具有很高的可重复性,在实验室内和实验室间具有非常好的可比性,并能提供数字化的分型信息,适宜于进行大量样本和网络化分析〔29〕。这种结果数字化的特点,更有利于分析及实验室间比对及实验室内的质控。同IS6110-RFLP方法相比有着很大的优势,在以后很有可能取代IS6110-RFLP方法成为新的金标准〔30〕。美国疾病控制中心已建议作为结核分枝杆菌基因型分型的首选方法〔31〕。中国疾病预防控制中心传染病所结核病研究室通过对VNT R位点分析,对北京、安徽、福建、西藏各省市自治区的菌株进行分型研究〔21-24〕,确定了15个位点的ML-VA分型操作作为中国结核分枝杆菌MLVA分型的标准化操作〔26〕。
随着全基因组序列分析技术的快速发展,结核分枝杆菌基因组间的比对也成为了可能。在核酸水平的基因多态性使研究者发现要研究不同临床分离株的进化差异,单核苷酸的变异也可以成为新的基因标志物。单核苷酸多态性(single nucleotide polymorphism,SNP)包括非同义SNP,和同义 SNP。非同义SNP是指核酸的改变引起了氨基酸的变化,可能是细菌适应内外环境选择压力产生的变异,例如耐药相关位点的突变;同义SNP是指核酸的改变没有产生氨基酸的改变,这种中性的变异尤其是发生在结构相关基因或是管家基因,能够为菌株间的进化相关研究提供基础数据。Sreevatsan等人发现DNA促旋酶亚基的编码基因上第95密码子和一种过氧化物酶触酶编码基因的463密码子的非同义SNP可以使结核分枝杆菌分至3种主要的基因群(PGGs)中〔32〕。
多位点序列分型(Multiple locus sequence typing,MLST)是基于病原微生物管家基因位点上的SNP建立的分型方法,通过确定管家基因并且直接测定这些管家基因的核苷酸序列,发现不同菌株在这些序列上的差异进行分型研究。现在已经有MLST数据库网站(www.mlst.net),建立了十几种病原的MLST数据,但是尚没有结核分枝杆菌MLST数据库,亟待研究工作者的完善。
对基因组的比对分析除了得到基因组间SNP差异以外,也揭示了基因组间的长片段多态性(large-sequence polymorphisms,LSP)。LSP的产生可能是由于基因组大片段的基因缺失或重排,而不是由于基因间的水平转移〔33〕。已经发现临床分离株基因组中大约 4.2%基因会发生缺失〔34〕。Brosch等人发现大片段的缺失一旦出现,绝大多数会遗传到子代基因组中。所以特定的LSP也会成为研究菌株分型进化的基因标识物,目前对LSP的研究主要集中于分枝杆菌的进化研究。例如 TbD1片段的缺失可以确定结核分枝杆菌的现代型,同样拥有这一片段的菌株被称为是结核分枝杆菌的古典型〔35〕。LSP并不是随机发生在全基因组,而是有聚集倾向,也就是说一些位点可以是DNA缺失的“热点”。而且有些热点同插入序列的转移有关系〔34〕。
一些LSP对于疫苗及结核感染检测的研究具有重要的作用,例如M.bovis、BCG基因组中一些片段的缺失可以成为疫苗研究的突破口,而一些片段包含分泌蛋白的编码基因,这样的片段缺失可以提示我们菌株的毒力或引起的机体免疫能力产生差异。
表1 几种分型方法优缺点比较
结核病分子流行病研究是一个很大的范畴,包括分子生物学、临床医学、统计学及流行病学几种学科的联合应用,是从基因水平了解菌株亲缘关系,研究结核病的病原分子特征、遗传变异机制、人群中传播规律及危险因素等。其核心技术是分子分型技术。在过去的近十年里,分子分型技术在不同地区的结核病流行研究中起到了重要的作用,使研究者对于结核病流行动态特征的了解、对于各地区疾病流行趋势的掌控、从而起到了对结核病预防控制的作用。近年来结核病流行病学研究中又有新的问题出现,HIV合并感染、耐药及多耐药菌株的出现,使得研究工作者的任务更加艰巨。
在各种分型方法中,目前IS6110-RFLP、Spoligotyping及MLVA三种方法是在国际上流行病研究实际工作中最经常使用的方法,并且在各国的疾控工作中起到了重要的作用,也已经有相应的标准操作方法发表,而且Spoligotyping和MLVA方法都有国际数据库网站,有利于各个国家研究者发布或比对数据。理想的分型方法应具有快速、分辨率高、重复性好、容易操作、费用低廉等特征,但是现有的方法没有一种能完全符合以上条件,都是各具有自己的优点,又各自有其不足之处(表1是几种分型方法优缺点比较)。在研究工作中我们无法提供一种完美的分型方法,但是不同种方法的联合应用可以尽可能达到我们要求的结果,IS6110-RFLP方法耗时长,不适于大流行中样本的快速鉴定,而Spoligotyping和MLVA方法快速简便,适用于大量样本的快速鉴定,所以这两种方法联合应用比较多见。在我国北京、安徽、福建、西藏各省市自治区的菌株的分型研究中都有应用〔21-24〕。
〔1〕冯作化.医学分子生物学〔J〕.北京:人民卫生出版社,2008:6928.
〔2〕Safi H,Barnes PF,Lakey DL,et al.IS6110 functions as a mobile,monocyte-activated promoter in Mycobacterium tuberculosis〔J〕.M ol Microbiol,2004.52(4):999-1012.
〔3〕Charlesworth B,Sniegowski P,Stephan W.et al.The evolutionary dynamics of repetitive DNA in eukaryotes〔J〕.Nature,1994,371(6494):215-220.
〔4〕Blot M.Transposable elements and adaptation of host bacteria〔J〕.Genetica,1994;93(1-3):5-12.
〔5〕Thierry D,Cave M D,Eisenach K D,et al.IS6110,an IS-like element of Mycobacterium tuberculosis complex〔J〕.Nucleic Acids Res,1990.18(1):188.
〔6〕Kurepina NE,Sreevatsan S,Plikaytis BB,et al.Characterization of the phylogenetic distribution and chromosomal insertion sites of five IS6110 elements in Mycobacteriumtuberculosis:nonrandom integration in the dnaA-dnaN region〔J〕.Tuber Lung Dis.1998.79(1):31-42.
〔7〕M cHugh TD,Gillespie SH.Nonrandom association of IS6110 and Mycobacterium tuberculosis:implications for molecular epidemiological studies〔J〕.J Clin Microbiol,1998,36(5):1410-1413.
〔8〕van Soolingen D,Hermans PW,de Haas PE,et al.Occurrence and stability of insertion sequences in Mycobacterium tuberculosis complex strains:evaluation of an insertion sequencedependent DNA polymorphism as a tool in the epidemiology of tuberculosis〔J〕.J Clin Microbiol,1991,29(11):2578-86.
〔9〕van Soolingen D.Molecular epidemiology of tuberculosis and other mycobacterial infections:main methodologies and achievements〔J〕.J Intern Med,2001;249(1):1-26.
〔10〕Van Embden JD,Cave MD,Crawford JT,et al.Strain Identification of My cobacterium tuberculosis by DNA Fingerprinting:Recommendations for a Standardized Methodology〔J〕.Journal of Clinical Microbiology,1993;31(2):406-409.
〔11〕Murray M,Nardell E.Molecular epidemiology of tuberculosis:achievements and challenges to current knowledge〔J〕.Bulletin of the World Health Organization,2002,80(6):477-482.
〔12〕刘敬华,Kristin Kremer,Christine Pourcel,等.IS6110限制性片段多态性分析标准方法的建立及其在结核分枝杆菌分子分型中的应用〔J〕.中华流行病学杂志,2008,29(8):801.
〔13〕van Embden JD,van Gorkom T,Kremer K,et al.Genetic variation and evolutionary origin of the direct repeat locus of Mycobacterium tuberculosis complex bacteria〔J〕.J Bacteriol,2000;182(9):2393-401.
〔14〕Karine Brudey,Jeffrey R Driscoll,Leen Rigouts,et al.Mycobacterium tuberculosis complex genetic diversity:mining the fourth international spoligotyping database(SpolDB4)for classification,population genetics and epidemiology〔J〕.BMC Microbiology,2006,6:23.
〔15〕Groenen PM,Bunschoten AE,Van Soolingen D,et al.Nature of DNA polymo rphism in the direct repeat cluster of Mycobacterium tuberculosis;application for strain differentiation by a novel typing method〔J〕.Mol Microbiol,1993,10(5):1057-1065.
〔16〕Kamerbeek J,Schouls L,Kolk A,et al.Simultaneous detection and strain differentiation of Mycobacterium tuberculosis for diagnosis and epidemiology〔J〕.J Clin Microbiol,1997,35:907-914.
〔17〕董海燕,吕冰,张媛媛,等.中国结核分枝杆菌间隔区寡核苷酸分型方法标准化操作程序的探讨〔J〕.中华流行病学杂志,2009,30(4):384-387.
〔18〕Hemans PWM,Van Soolingen D,Bik EM,et al.Insertion element IS987 from Mycobacteriumtuberculosis bovis BCG is located in a hot-spot integration region fo rinsertion elements in Mycobacterium tuberculosis complex strains〔J〕.Infect Immun,1991,59:2695-2705.
〔19〕Kremer K,van Soolingen D,Frothingham R,et al.Comparison of M ethods Based on Different M olecular Epidemiological Markers for Typing of Mycobacterium tuberculosis Complex Strains:Interlaborato ry Study of Discriminato ry Power and Reproducibility〔J〕.Journal of Clinical Microbiology,1999,37(8):2607-2618.
〔20〕Supply P,Mazars E,Lesjean S,et al.Variable human minisatellite-like regions in the My cobacterium tuberculosis genome〔J〕.Mol Microbiol,2000,36(3):762-771.
〔21〕石荔,杨敏,Christine Pourcel,等.M LVA 和 Spoligotyping用于西藏地区216株结核分枝杆菌临床分离株的基因分型研究〔J〕.中华微生物学和免疫学杂志,2007,27(8):711-718.
〔22〕阚晓宏,万康林,金玉莲,等.DNA数目可变串联重复序列用于结核分枝杆菌分型研究〔J〕.中国防痨杂志,2005,27(2):77-81.
〔23〕曹晓慧,刘志广,赵秀芹,等.220株结核分枝杆菌北京临床分离株的基因分型研究〔J〕.中国人兽共患病学报,2008,24(5):412-417.
〔24〕曹晓慧,蒋毅,张媛媛,等.13个VN TR位点用于113株结核分枝杆菌基因分型的研究〔J〕.中华流行病学杂志,2006,27(8):705-708.
〔25〕Frothingham R,Meeker-O'Connell WA.Genetic diversity in the My cobacterium tuberculosis complex based on variable numbers of tandem DNA repeats〔J〕.Microbiology,1998.144:1189-1196.
〔26〕吕冰,Pourcel C,刘敬华,等.结核分枝杆菌多位点可变数目重复序列分型方法标准化程序的建立〔J〕.中华流行病学杂志,2008,29(9):919-924.
〔27〕Supply P,Lesjean S,Savine E,et al.Automated highthroughput genotyping for study of global epidemiology of Mycobacterium tuberculosis based on mycobacterial interspersed repetitive units〔J〕.J Clin Microbiol,2001;39(10):3563-71.
〔28〕M athema B,Kurepina N E,Bifani PJ,et al.Molecular Epidemiology of Tuberculosis:Current Insights〔J〕.Clincal Microbiology Reviews,2006,19(4):658-685.
〔29〕刘敬华,万康林,成诗明.结核分枝杆菌株水平鉴定技术及其研究进展〔J〕.中华流行病学杂志,2003,24(12):1153-1157.
〔30〕Peter F.Barnes,M.D.,and M.Donald Cave.M olecular Epidemiology of T uberculosis〔J〕.The New England Journal of Medicine,2003,349(12):1149-1156.
〔31〕Crawford J T.Genotyping in contact investigations:a CDC perspective〔J〕.Int J Tuberc Lung Dis,2003,7(12):S453-S457.
〔32〕Sreevatsan S,Pan X,Stockbauer KE,et al.Restricted structural gene polymorphism in the Mycobacterium tuberculosis complex indicates evolutionarily recent global disseminationJ T.Proc Natl Acad Sci USA,1997,94:9869-9874.
〔33〕Brosch R,Pym AS,Gordon SV,et al.The evolution of mycobacterial pathogenicity:clues from comparative genomics〔J〕.T rends Microbiol,2001,9(9):452-458.
〔34〕T solaki AG,Hirsh AE,DeRiemer K,et al.Functional and evolutionary genomics of Mycobacterium tuberculosis:insights from genomic deletions in 100 strains〔J〕.Proc Natl Acad Sci USA,2004,101(14):4865-4870.
〔35〕Sun YJ,Bellamy R,Lee AS,et al.Use of mycobacterial interspersed repetitive unit-variable-number tandem repeat typing to examine genetic diversity of My cobacterium tuberculosis in Singapo re〔J〕.J Clin Microbiol,2004.42(5):1986-1993.