李 涛,王 鹏
(1.同济大学海洋地质国家重点实验室,上海 200092;2.广州海洋地质调查局,广州 510760)
自然界中存在的微生物可能多达上百万种[1],然而,它们中的大多数没有被观测到甚至没有被检出,这些微生物的存在只能根据预测来推断;不过,这种预测也仅仅是基于猜测,以目前的技术还无法完全检测出微生物多样性(本文仅讨论微生物种数或丰度)全貌。基于非培养的rRNA技术是研究环境微生物多样性最有效的工具[2],16S rRNA克隆文库相比其他研究手段能更多地揭示群落多样性信息,基于16S rRNA克隆文库对微生物丰度的预测更能趋近于客观真实,在土壤、水体、潮间带等环境中的细菌丰度的估计得到了广泛应用[3]。
从已发表的文献来看,常用于预测物种丰度的方法主要有两大类:参数模型法和非参数估计法。共有5种参数模型:逆高斯分布、对数正态分布、负二项式分布、双参数(形状+标尺)帕雷托分布、双指数分布等,Hong等基于Maple软件开发出相应的计算程序[3],供研究使用。基于丰度覆盖估计法(ACE)以及适用于高异质种群的ACE-1法是两种用得较多的非参数估计法,基于此算法,Chao等开发SPADE(Species Prediction And Diversity Estimation)软件[4]免费下载使用。
为防止估计模型的选择不当对估计值可靠性的影响,本文综合使用了以上参数模型法和非参数估计法共7种方法对来自南海陆坡的一沉积物柱中的细菌丰度进行估算,并通过比较各种方法与观测数据的吻合程度,找到最佳估计。此外,由于单一样品16S rRNA基因文库规模较小,不能全面反映细菌的多样性,本文从该沉积物柱不同深度采集12个微生物样品来构建细菌16S rRNA基因文库。
2005年5月15日—6月8日IMAGES147航次获得的深海沉积物柱MD05-2896,采样点位于南海陆坡区的南沙珊瑚礁台地西部边缘(08°49.50'N,111°26.47'E,水深1 657 m)。采用无扰动箱式采泥器采集沉积物柱,总长11 m,从表层到底层以1 m等间距采样,共12个微生物样品,船上于 -20℃ 下保存,运回实验室后储存于-80℃。
12个微生物样品各称取5 g,采用Zhou抽提法[5]分别提取总DNA,使用细菌16S rRNA通用引物Eubac 27F和Eubac 1492R进行PCR扩增[6]。PCR扩增得到的片断经纯化后克隆到pMD-18T(TaKaRa)载体上,并转化到大肠杆菌DH5α感受态细胞,挑取阳性转化子,利用PCR扩增引物重新扩增插入片断。使用内切酶MspⅠ(Fermentas)切割,分析电泳带型,挑选不同带型克隆子测序,并统计不同带型的克隆子数,将序列提交到RDPⅡ(ribosomal database project)数据库,利用CHECK-CHIMERA检验,去除不合理序列。应用BLASTN程序(www.ncbi.nlm.nih.gov/BLAST/)搜索相似性序列,采用ClustalX(Version 1.8)进行比对分析,通过PAUP(Version 4.0b10)[7]构建系统发育树,使用Neighbor-Joining建树方法,选择Jukes-Cantor进化距离。细菌16SrRNA基因序列在 Genbank核苷酸数据库中的接受号为 EU048662—EU048694和EU385666—EU385826。
利用CLUSTUALW软件对沉积物柱MD05-2896细菌16S rRNA序列进行序列比对分析,计算序列相似性,以99%、98%、97%、95%、90%和80%的序列一致性作为分界标准,根据 OS clustering程序的算法(http://www.compbio.dundee.ac.uk/Software/OC/oc.html),利用无加权组群方法对序列进行聚类分析,将群组定义为“分类单元”(OTU),计算每个分类单元中的出现次数,即分类单元中的16S rRNA序列数。将分类单元出现次数依次从小到大排列,统计出现次数相同的分类单元个数。以分类单元出现次数和对应的分类单元个数的频次作为进一步分析的基础数据。
参数模型通过对样品数据进行拟合,构建相应的物种丰度分布模型,预测群落中未观测到的物种数据[8]。首先区分统计意义上“丰富的”和“稀有的”分类单元。选取一个适当的右截点(τ),当分类单元出现次数>τ时,则为“丰富的”;当分类单元出现次数<τ时,则为“稀有的”。然后利用文献[3]提供的5种参数模型方法进行估计。通过比较不同的估计方法,得出最合理的估计值。选取的标准有:(1)拟合优度(GOF)检验:自然拟合优度(naïve GOF)和渐进拟合优度;(2)能得到有生物学意义的标准差;(3)使用物种频率观测数据的最大限度值(即最大的右截点)。
无参数估计法采用“标记释放回捕法”(MRR)[9],认为被再次观测到的物种(“回捕”)与仅观测到一次的物种能达到均衡,即在多样性高的群落中,物种被再次观测到的几率较小,数量丰富的物种仅能被观测到一次;相反在一个多样性很低的群落,数量丰富的物种被再次观测到的几率则较高。该类方法基于“丰富的”物种和“稀少的”的物种的相对丰度,来建立估算公式,并利用标准差检验。本文利用SPADE软件[4]中提供的2种方法对细菌丰度进行估计。
由于非参数模型估计一般会低估微生物多样性;因此,本文主要讨论参数模型对细菌丰度的估计。
以97%序列相似性作为代表型的分界标准,1 329条细菌16S rRNA基因序列分别属于190个系统发育型,系统发育分析结果表明这些系统发育型主要来自17个已知的类群(“门”):浮霉状菌(Planctomycetes)、变形杆菌(Proteobacteria)、绿屈挠杆菌(ChloroFlexi)、放线菌(Actinobacteria)、螺旋体(Spirochaetes)、疣微菌(Verrucomicrobia)、酸杆菌(Acidobacteria)、拟杆菌(Bacteriodetes)、铁还原杆菌(Defferribacteres)、硝化螺菌(Nitrospirae)以及 candidate division OP1、OP3、OP8、OP11、JS1、WS3、TM6。细菌16S rRNA 基因克隆子数和代表型数在细菌“门”中的分布见表1。
以99%、98%、97%、95%、90%、80%序列相似性作为分类单元的分界,利用无加权组群方法对1 329条细菌16S rRNA基因序列进行聚类分析,分别组群成212、194、190、168、115、和50个分类单元。利用参数模型来估算分类单元丰度值,结果见表2。
从结果来看(表2),参数模型得到的预测值一般高于非参数估计法,应从参数模型中寻找最佳估计。Hong等认为应优先考虑与观测数据拟合程度最好的模型,如果存在多个模型与观测数据的拟合程度都较好,则比较他们的标准差[3],得到最优模型,本文也依此寻找最佳估计。从本研究数据来看,出现次数较少(<5次),尤其出现次数为1次的分类单元个数最多,它们是群落的主体;模型拟合的结果是否与观测数据吻合,关键是出现次数小于5次的分类单元个数的预测值是否接近观测值。结果表明当分类单元分界为99%和
90%序列一致性时,双指数分布为最佳估计模型,估计值分别为326±40(SE)和127±4(SE);当分类单元分界为98%和80%序列一致性时,帕雷托分布为最佳估计模型,估计值分别为251±9(SE)和62±4(SE);当分类单元分界为97%和95%序列一致性时,负二项式分布为最佳估计模型,估计值分别为244±10(SE)和220±6(SE)。图1显示了以99%、97%、90%和80%序列一致性为分类单元分界标准,最优分布模型估计的分类单元出现次数及对应的分类单元个数与实际数据的拟合情况。从图上看,分类单元个数预测与实际值较吻合,尤其是出现次数较少的分类单元个数的预测与实际数据基本一致,选取的模型符合对细菌丰度的估计。
表1 沉积物柱MD05-2896克隆子在细菌“门”中的分布Table 1 Bacterial phyla detected among sequenced clones in sediment core MD05-2896
表2 沉积物柱MD05-2896中细菌的丰度Table 2 Bacterial richness of the core MD05-2896
续表
图1 细菌克隆子库中的分类单元频率分布及参数模型拟合Fig.1 Frequency distribution of OTUs in the bacterial library versus parametric model's fitted values
目前,利用16S rRNA基因序列对细菌“种”的划分还存在较大争议,1%和3%的序列差异都被用于“种”的定义,较合理的办法是以1%序列差异作为菌株分类标准,以3%作为“种”的分类标准[3],在此标准下,估计约326±40(SE)个菌株,244±10(SE)个种。
细菌的“属”、“科”/“纲”和“门”等分类单元很难通过16S rRNA基因序列的差异来准确划分,已有文献分别将5%、10%和20%的序列差异作为以上各分类单元的界限[10-12]。依此推断沉积物柱MD05-2896中细菌群落大约包括62±4(SE)个“门”,127±4(SE)个“科”/“纲”和220±6(SE)个“属”。
发射台架控制系统双机冗余热备份控制技术研究……………………………………………… 李博,赵慧莉(4-255)
从已发表的文献来看,来自不同环境的样品,对细菌丰度的估计值相差很大,如耕地或重金属污染的土壤中细菌丰度估计值为300—1 500[8,13];而未开发土壤中的细菌丰度的估计值则高达6 000—10 000[14],甚至达到500 000[15]。16S rRNA基因技术从环境样品中检出的细菌一般只有几十种,最多不过几百种,不同环境中细菌丰度是否有如此大的差别?Hong等认为环境中细菌丰度不应有如此大的差别,这些估计值并不可靠,原因在于研究者选择了错误的模型[3],但该观点并未获得证实。
为进一步探讨细菌丰度估计值的可靠性,本文与Hong等的研究结果进行了比较。本文与Hong等的基础数据都来自16S rRNA基因文库,并采用了完全相同的估计模型,但得到细菌“种”数的估计值却相差很大。造成差异的原因可能与样品本身或构建的文库质量等因素有关。
从估计的结果来看,本文对细菌“种”数的估计值与观测值相差不大,都为102量级,而且对采自西沙海槽的沉积物柱MD05-2902中的细菌丰度预测值为179±9(SE),也只达到102量级;然而,Hong等细菌物种数量的估计值约为观测值的10倍左右,为103量级[3]。利用分布模型估计细菌丰度的原理是利用分类单元出现次数的频率分布对观测值拟合,得出各参数值,进而估计未检出分类单元个数。在频率分布曲线上表现为:曲线左端越陡,利用模型预测次数为0(未检出)的分类单元个数则越多,预测值与观测值差别越大。Hong样品的细菌克隆文库中绝大多数分类单元出现次数只有1,即样品中绝大多数分类单元被再次观测到的几率小,出现次数为1的分类单元个数远大于出现次数为2(被再次观测)的分类单元个数,频率分布曲线左端很陡,表明样品中存在大量未检测出的分类单元,估计值就远大于观测值。本文研究样品的细菌克隆文库有较多的分类单元出现次数大于1,频率分布曲线左端相对较缓(图1);利用分布曲线预测未检出的分类单元个数较少,即分类单元被再次观测到的几率很高,遗漏的分类单元数量则较少,因而估计值接近观测值。
影响细菌丰度估计值可靠性的因素主要有两个:首先是估计模型的选择,不同的估计模型得到的结果可能有较大的差异;其次是用于估计的基础数据,而这种基础数据是通过实验手段来获取的,数据质量主要取决于对实验技术的评价。
3.2.1 估计方法
目前,对参数模型和非参数估计法孰优孰劣存在较大的争议[9],即便只使用参数模型,存在如何选择模型的困惑。
对参数模型而言,很难建立一个足够大的微生物多样性数据库来支持模型的使用和对各模型中的分布参数进行赋值。因为没有经验值,只能通过理论上来推断最佳模型。但不同的学者对最佳模型的选取标准完全不同。Curtis等认为细菌群落具有高动态性,增长随意,群落分布符合对数正态分布[14];不过Jeon指出当出现次数为1的分类单元占很高比例时,逆高斯分布模型对微生物丰度有较好的估计[16];Hong等认为并不存在一个普遍适用的模型[3],只能通过综合利用各种模型来以增加估计的可靠性。
非参数估计法完全依赖于分类单元相对丰度的估计,在调查微生物多样性的过程中难免出现取样偏差;此外,非参数估计法提供的是一个更小范围的分类单元多样性,即只从观察到的分类单元中获取信息,与参数模型不同,非参数估计法不能给出分类单元相对丰度的假想分布,容易忽略了那些“稀少的”分类单元,导致对微生物丰度的低估。
3.2.2 实验技术
就实验本身而言,任何实验都无法检测自然界中的全部微生物。基于16S rRNA基因的PCR-RFLP方法也不例外,同样会造成对生物多样性的低估,该技术影响微生物多样性低估的主要因素是克隆文库的规模和实验偏差。
图2 细菌16S rRNA基因克隆文库稀疏曲线Fig.2 Rarefaction curves of bacterial 16S rRNA gene library从上到下依次为:8m,7m,4m,6m,2m,11m,3m,surface,1m,9m,10m和5m
(1)克隆文库的规模
克隆文库并非越大越好,因为哪怕构建最大的克隆文库,也不能穷尽所有的微生物。不过,如果克隆文库选取过小,则会丧失部分物种多样性信息。文库要达到何种规模,才能满足完全反映多样性的要求?稀疏分
析[13]以及克隆文库的覆盖度 C值[17]能提供判断依据。使用Analytic Rarefaction软件对本文研究的12个样品分别绘制16S rRNA基因克隆文库稀疏曲线(图2),从图上可以看出,所有稀疏曲线在克隆子数达到100后趋于平缓,部分达到平台期。从表层往下,C值分别为
89%、90%、93%、92%、79%、92%、87%、79%、85%、97%、77%和83%,这些样品的克隆文库的C值多数在90%左右或大于90%以上。综合稀疏分析和覆盖度计算结果,细菌16S rRNA基因克隆文库能大致反映微生物多样性。
(2)实验偏差
实验过程中的偏差主要表现在总DNA的损耗、PCR扩增效率以及PCR偏嗜性。
环境样品总DNA的提取,无论是物理裂解,化学裂解,还是生物裂解,在提取过程中都会引起DNA的损耗。如物理裂解造成长片断DNA的物理剪切;化学裂解法不能完全去除腐殖酸、色素和重金属等杂质;抽提后残余的苯酚等会影响PCR的扩增效率[18]。
PCR的偏嗜性主要表现在:(1)PCR扩增过程中,模板浓度过低会引起模板的随机扩增[18],高GC含量的模板比低GC含量的模板扩增效率低[19],低GC含量模板更易于扩增,结果扩增产物中低GC含量DNA偏多。(2)目前通用的16S rRNA基因引物扩增范围并不能完全覆盖所有目标类群[18],尤其是针对深海环境中的微生物,据Webster等的估计,27F和1492R引物分别覆盖自然界中全部细菌的72.9%和16.3%[18];不过,Webster的观点可能过于保守,目前还很难找到替代的通用引物,更别说针对深海环境的通用引物。
虽然基于16S rRNA基因的PCR-RFLP方法会低估环境中微生物多样性,但却是目前最成熟的方法,对微生物丰度的预测也多基于由该方法所获取的多样性数据。随着技术的发展,16Sr DNA-DGGE(变性凝胶电泳)、宏基因组文库中的数据也将逐渐用于估计环境样品中微生物的丰度,对PCR-RFLP方法进行进一步的验证。
总之,本文对南海陆坡沉积物柱细菌丰度进行最优估计估计,以97%序列一致性作为“种”的划分标准,负二项式分布模型最优,估计细菌的种数为244±10(SE),鉴于16S rRNA基因的PCR-RFLP实验技术会低估细菌的多样性,该值可能偏低。
[1] Tiedje J M.Microbial diversity:of value to whom?ASM News,1994,60:524-525.
[2] Olsen G J,Lane D J,Giovannoni S J,Pace N R,Stahl D A.Microbial ecology and evolution:a ribosomal RNA approach.Annual Review of Microbiology,1986,40(1):337-365.
[3] Hong S H,Bunge J,Jeon S O,Epstein S S.Predicting microbial species richness.Proceedings of the National Academy of Sciences of the United States of America,2006,103(1):117-122.
[4] Chao A,Shen T J.Program SPADE(Species Prediction and Diversity Estimation).Program and user's guide Available from:http://chao.stat.nthu.edu.tw.
[5] Zhou J Z,Davery E,Figure J B,Rivkina E,Gilichinsky D,Tiedje J M.Phylogenetic diversity of a bacterial community determined from Siberian tundra soil DNA.Microbiology,1997,143(12):3913-3919.
[6] DeLong E F.Archaea in coastal marine environments.Proceedings of the National Academy of Sciences of the United States of America,1992,89(12):5685-5689.
[7] Swofford D L.PAUP:Phylogenetic Analysis Using Parsimony(*and Other Methods).Version 4.0.Sinauer Associates:Sunderland,Massachusetts,1999.
[8] Hughes J B,Hellmann J J,Ricketts T H,Bohannan B J M.Counting the uncountable:statistical approaches to estimating microbial diversity.Applied and Environmental Microbiology,2001,67(10):4399-4406.
[9] Bohannan B J M,Hughes J.New approaches to analyzing microbial biodiversity data.Current Opinion in Microbiology,2003,6(3):282-287.
[10] Schloss P D,Handelsman J.Status of the microbial census.Microbiology and Molecular biology Reviews,2004,68(4):686-691.
[11] Hugenholtz P,Goebel B M,Pace N R.Impact of Culture-Independent Studies on the Emerging Phylogenetic View of Bacterial Diversity.Journal of Bacteriology,1998,180(18):4765-4774.
[12] Sait M,Hugenholtz P,Janssen P H.Cultivation of globally distributed soil bacteria from phylogenetic lineages previously only detected in cultivation-independent surveys.Environmental Microbiology,2002,4(11):654-666.
[13] Kemp P F,Aller J Y.Bacterial diversity in aquatic and other environments:what 16S rDNA libraries can tell us.FEMS Microbiology Ecology,2004,47(2):161-177.
[14] Curtis T P,Sloan W T,Scannell J W.Estimating prokaryotic diversity and its limits.Proceedings of the National Academy of Sciences of the United States of America,2002,99(16):10494-10499.
[15] Dykhuizen D E.Santa Rosalia revisited:Why are there so many species of bacteria?Antonie van Leeuwenhoek,1998,73(1):25-33.
[16] Jeon S O,Bunge J,Stoeck T,Barger K J A,Hong S H,Epstein S S.Synthetic statistical approach reveals a high degree of richness of microbial eukaryotes in an anoxic water column.Applied and Environmental Microbiology,2006,72(10):6578-6583.
[17] Lee S M,Chao A.Estimating population size via sample coverage for closed capture-recapture models.Biometrics,1994,50(1):88-97.
[18] Webster G,Newberry C J,Fry J C,Weightman A J.Assessment of bacterial community structure in the deep sub-seafloor biosphere by 16S rDNA-based techniques:a cautionary tale.Journal of Microbiological Methods,2003,55(1):155-164.
[19] Wintzingerode F V,Göbel U B,Stackebrandt E.Determination of microbial diversity in environmental samples:pitfalls of PCR-based rRNA analysis.FEMS Microbiology Reviews,1997,21(3):213-229.