张广毅
摘 要:宏基因组即环境微生物遗传物质的总称,该技术通过测序并对比分析微生物菌落的DNA序列,以理解环境微生物的组成及其与环境的相互作用。宏基因组技术可以通过免培养的方式了解复杂生物系统中的微生物群落,克服了传统实验室培养方法的一些缺点。宏基因组中,基于标签基因(16S rRNA基因)分析和基于全基因组分析是微生物实验中最常用的两种手段,本文重点对全基因组测序和标签序列测序进行说明和对比。全宏基因组技术是全面了解微生物的分子进化、基因组成和基因调控等方面的重要微生物实验工具,而标签基因测序更适合于设置为本科教学实验。
关键词:宏基因组;微生物实验;菌落
目前,多数本科微生物实验教学主要包括典型微生物观察、培养基配置、微生物培养与分离等,主要依靠显微镜对微生物个体形态观察,而对环境中微生物菌落的结构、代谢功能等缺少了解,同时综合性、设计性实验较少,难以满足一流本科的建设需求。随着高通量测序技术的发展,宏基因组越来越广泛地应用于微生物相关的科研、教学当中。另外,环境中绝大多数微生物无法通过传统的培养分离获得,因此,宏基因组学成为研究环境微生物的主流方法。基于标签基因(16S rRNA)的分析和基于全基因组的分析是微生物实验中最常用的两种手段,论文介绍了各自特点并探讨其作为本科微生物实验的可能性。
宏基因组数据分析的主要任务是:对环境微生物群落物种组成结构进行鉴定,对环境微生物群落的功能进行分析,比较不同环境中微生物群落的差异。即对宏基因组样本进行分析与比较,通过对宏基因组样本数据的分析,可以获得环境微生物样本的分类学构成、各类微生物的相对丰度及复杂微生物群落的功能等信息,在此基础上的比较可以进一步发现不同环境下微生物的差异,揭示微生物群落与环境之间的相互作用。
1 全基因组测序
微生物全基因组测序相对于标签序列(典型的标签序列为16S rRNA测序)的测序数据,其包含了群落中所有基因组数据,是整个基因组序列。通过整个基因序列的基因信息,在数据库中对比分析微生物群落的种群结构与功能信息。
环境微生物所有基因组序列数据集合获取的方法如下:首先将微生物基因从样本中提取出来;随后通过超声等方法将基因序列打断生成DNA片段,建立DNA片段文库并进行测序;然后对DNA序列数据进行质量评估和预处理,去除质量较低的数据及噪声影响;宏基因组还需对预处理后的数据进行拼装,拼装前的短序列称为reads,拼接后的长序列称为contig;最后通过数据库检测、对比、分析处理宏基因组序列。
微生物群落中,所有微生物的遗传信息都来自于全基因组序列数据,通过宏基因组测序数据分析,可以比较全面的获取环境微生物样本的信息,如微生物菌落组成、各组成菌种的丰度以及微生物各基因的代谢功能信息。另外,全基因组序列数据从理论上是包括16S rRNA序列数据的。有实验人员从获取的宏基因组测序数据中读取到了群落的16S rRNA数据,说明宏基因组测序数据广度远远大于标签序列数据信息。近年来,随着高通量测序技术的高速发展以及测序技术的成本的下降,微生物实验教学及科研人员可以更广泛地获得宏基因组测序数据。
2 标签序列测序
标签序列(tag sequence)也被称为扩增子序列,在长期的进化过程中,有部分长度适中的DNA序列高度保守,同时又含有一定的可变区。核糖体RNA就具有上述特征,16S rRNA广泛存在于原核微生物中,由于它们碱基长度合适(约1500 Kb),具有高度保守性,常用于系统发生学的研究,所以这一类的序列被统称为标签序列。
实验室条件下,绝大多数微生物无法培养。为了能够突破传统的实验室培养微生物的限制且获取环境中比较完成的微生物数据,直接从环境中获取微生物的基因就变得很重要。其简要过程如下:首先采集微生物样品并提取其中所有DNA序列,然后以高可变区碱基序列为模板设计引物,对样品DNA进行PCR扩增,对扩增后的16S rRNA基因序列进行测序;对获取的原始数据需进行二次处理,去除测序准确度低以及部分二聚体序列;最后,通过以上步骤得到的基因序列数据即可用于后续的数据库对比分析。
将16S rRNA基因序列数据输入至已建立的16S rRNA序列数据库进行比对分析,即可获取数据库中己知的微生物物种信息。16S rRNA基因序列分析时通常通过序列间的差异性,即远近关系,通过聚类等切分为不同的操作分类单元(operational taxonomic units,OTUs),将划分后的数据输入至Greengene、RDP和SILVA等己知的序列数据库,即可得到OTU的分类学信息,通过一定的算法即可获取环境中微生物菌群的物种结构目录。不同的相似性比例标准阈值(通常为97%),可以获取不同精度的分类单元。标签序列技术的局限性在于:16S rRNA数据易于估计低稀有物种的种类,但对物种丰度数据的判断不是十分准确,因为各种因素影响扩增过程,扩增后数据存在偏差;另一问题是,此类数据通常只能估计微生物菌落结构,缺少其他基因如代谢功能等数据。
3 两种方法的比较
通过16S rRNA基因序列,能够了解到环境中到底有哪些微生物存在,以及它们各自在群落中的数量比例;基于这种微生物群落结构的信息,进而就能够对微生物之间以及微生物与环境的关系进行分析说明。
基于标签序列(16S rRNA)的宏基因组测序数据的样本比较方法较为简单且成本較低,但是,16S rRNA基因序列仅仅代表生物体当中许多基因的一种,其所提供的基因信息仅仅是很小一部分,有很多局限性,如此类数据集以OTU频率为主要特征,仅能提供微生物群落中的种群结构和丰度信息,对于宏基因组样本基因功能差异的分析就显得力不从心,无法获得环境微生物当中所关心的功能信息。
随着高通量测序技术的不断发展,全宏基因组数据的获得难度及成本不断降低。与单一基因序列16S rRNA数据相比,全宏基因组数据即提取出微生物群落中菌群的全部遗传信息,这无疑是一种更全面地表征环境微生物样本的方法。对比分析全宏基因组数据不仅可以获取微生物群落的结构组成信息(物种的组成和丰度等),而且可以获得较全面的代谢功能信息。例如,微生物蛋白质编码基因,生物代谢反应功能酶的表达,乃至更详尽的代谢反应网络。由于全宏基因组数据包含了微生物中的所有遗传信息,故可以通过一定的手段,从高质量的全宏基因组数据提取出特定的核酸序列,如16S rRNA数据,通过这种途径可以较好地避免扩增偏差。目前,实际的宏基因组学研究中往往同时使用16S rRNA基因测序和宏基因组测序数据。
4 結论
宏基因组分析包括标签基因(16S rRNA)分析和全基因组分析。相比于单一的16S rRNA数据,全宏基因组数据包括了群落中菌群的全部遗传信息,能更好地表征环境微生物样本,但是目前成本较高、数据量大、分析复杂,适用于科学研究。虽然16S rRNA数据单一,但能够培养锻炼学生熟悉主流的微生物分子生物学技术,使学生接触现代的微生物技术发展及表征手段,加深微生物理论课堂中“遗传与变异”相关章节的理解与掌握。
参考文献
[1]罗幸.宏基因组分类分析方法的研宄和应用[D].东南大学,2015.
[2]程福东,丁啸,李晟,等.宏基因组样本数据的分析比较与分类[D].生物技术通报,2016,32(5):1-10.
[3]Yuan C,Lei J,Cole J,et al.Reconstructing 16S rRNA genes in metagenomic data [J].Bioinformatics,2015,31(12):35-43.
[4]Jaccard P.Etude comparative de la distribution florale dans une portion des Alpes et du Jura[M].Impr.Corbaz,1901.
[5]ShinJ,Lee S,Go M J,et al.Analysis of the mouse gut microbiome using full-length 16S rRNA amplicon sequencing[J].Sci Rep,2016,(6):29681.
[6]Chang Q,Luan Y,Chen T,et al.Computational methods for the analysis of tag sequences in metagenomics studies[J].Frontiers in Bio-science(Scholar Edition),2012,(4):1333-1343.
[7]Yang B,Wang Y,Qian P Y.Sensitivity and correlation of hypervariable regions in 16S rRNA genes in phylogenetic analysis[J]. BMC Bioinformatics, 2016,(17):135.
[8]Yilmaz P,Parfrey L W,Yarza P,et al.The SILVA and "All-species Living Tree Project (LTP)" taxonomic frameworks[J]. Nucleic Acids Res, 2014, 42(Database issue): D643-648.
[9]Brooks JP,Edwards D J,Harwich M D,et al.The truth about metagenomics: quantifying and counteracting bias in 16S rRNA studies[J]. Bmc Microbiology,2015,(15).
[10] 张军毅,朱冰川,徐超,等.基于分子标记的宏基因组16S rRNA基因高变区选择策略[J].应用生态学报,2015,26(11):3545-3553.
[11] 黄循柳,黄仕杰,郭丽琼,等.宏基因组学研究进展[J].微生物学通报,2009,36(07):1058-1066.