程福东 丁啸 李晟 孙啸
(东南大学生物科学与医学工程学院 生物电子学国家重点实验室,南京 210096)
综述与专论
宏基因组样本数据的分析比较与分类
程福东 丁啸 李晟 孙啸
(东南大学生物科学与医学工程学院 生物电子学国家重点实验室,南京 210096)
宏基因组学研究试图通过测序并分析微生物群落的DNA序列,以理解环境微生物的组成及其与环境的交互作用。宏基因组学革命性地改变了微生物学,使得以免培养的方式研究复杂生物系统中的微生物群落成为可能。第二代测序技术的不断进步和生物信息学的高速发展促进了高通量宏基因组研究的发展,大批高质量的宏基因组数据不断产生并对科学界开放,宏基因组学的重要作用被科学界广泛认可。与此同时,对应个体不同健康状态和人体不同部位的大量宏基因组样本数据不断产生,使得比较和分类宏基因组样本在微生物学研究上变得更加重要,比较宏基因组学成为宏基因组学的重要分支。主要介绍了宏基因组数据的分析比较,以及样本分类的相关研究和算法。
宏基因组;样本分析比较;样本分类;分类特征
宏基因组学研究以微生物群落为单位,不经分离培养,直接从环境中提取所有微生物的遗传信息,试图通过测序等手段获得并分析群落中微生物的DNA序列,以理解环境微生物的组成及其 与环境的交互作用[1]。大量的宏基因组学项目为研究不同微生物群落提供了宝贵的素材和新的视角。对宏基因组的研究聚焦于人类健康相关的环境微生物群落,环境可分为外环境和内环境,其中外环境包括空气、水体及土壤等微生物生存环境;内环境包括人体口腔、呼吸道及肠道等人体内的微生物生存环境。
人体内环境的微生物群落对人体健康、行为和疾病非常重要。迄今为止的微生物组研究已表明其在个体化医疗上的重要影响。例如,某些药物在一些个体上的失活[2],微生物代谢副产物可以提高心血管疾病的几率[3]。这些细菌群落参与人类的新陈代谢、营养吸收、人体免疫[4]及具有其他一系列重要功能,目前已确认哮喘、二型糖尿病及炎症性肠病[5]等多种疾病与人体微生物群落息息相关。因此越来越多的研究聚焦于人体微生物群落。
自2008年以来,美国国立卫生研究院(national institutes of health,NIH)资助的人类微生物组计划(human microbiome project,HMP)[6]产生了一大批高质量的宏基因组数据并对科学界开放。这些对应于不同个体健康状态和人体不同部位的大量宏基因组样本不断产生,使得比较和分类宏基因组样本在微生物学研究上变得更加重要,比较宏基因组学[7]成为宏基因组学的重要研究方向。高质量的宏基因组数据诞生,也使得信息量更多,更全面的全宏基因组样本数据取代16S rRNA数据成为新的研究热点。
其中人类肠道宏基因组信息量大(150倍于人类基因组),所含物种复杂(约千种),分析难度大[8],是一项极具挑战性的研究。人类肠道宏基因组对人体健康有着极其重要的影 响,被一些研究者称为人类的“第二大脑”[9]。有研究表明,人类肠道微生物群落与克氏病[10]、溃疡性结肠炎[10]、炎症性肠病(inflammatory bowel disease,IBD)[8]、二型糖尿病(T2D)[5]及动脉粥样硬化[11]等多种疾病相关,直接影响血糖和胰岛素代谢。因此,如何更好的分析人类肠道宏基因组数据是一项重要的研究任务。
从研究方向上 看,宏基因组样本的分析比较着力于揭示宏基因组所反映的环境微生物群落 结构,发现不同环境下微生物的差 异。宏基因组的样本分类侧重于归纳宏基因组样本的共性,找出能够鉴别样本某种表型的特征。这些都离不开信息的提取,即从原始数据中找出表征某些方面信息的特征,并利用特征进行比较和分类。以下将就宏基因组样本分析比较与宏基因组样本分类两个方面对比较宏基因组学进行较全面的介绍。
宏基因组学研究的基础是宏基因组样本的分析与比较,通过对宏基因组样本数据的分析,可以获得环境微生物样本的分类学构 成、各类微生物的相对丰度及复杂微生物群落的功能等信息,在此基础上的比较可以进一步发现不同环境下微生物的差异,揭 示微生物群落与环境的交互作 用。
1.1 基于16S rRNA数据的分析
对rRNA子单元,尤其是16S rRNA的测序,可以为研究不同环境中的不同微生物群落提供有价值的数据。16S rRNA广泛存在于原核微生物中,由于它们在进化中的高度保守性,常用于系统发生学的研究,所以这一类的序列被统称为标签序列。
16S rRNA数据可以有效反应不同环境中的不同微生物群落组成特征。在基于16S rRNA的研究中,被测得的16S rRNA首先被聚集为不同的分类单元(operational taxonomic units,OTUs),然后每一个OTU通过比对已知的16S rRNA数据库(常见数据库如RDP、Greengene 和 SILVA[12])被分入特定分类项,即可获得菌群的分类学目录,通过设定比对的不同阈值可以调整OTU的精度。16S rRNA的数据集获得成本低,通过对16S rRNA数据集的分析可以较为准确的获得样本所含的微生物种类及对应的丰度(以OUT频率估计获得),许多基于16S rRNA 的分类流程已经被广泛使用,如mothur[13]、Qiime[14]及 the RDP pipeline[15]等。
通过对16S rRNA的分析,可以获得微生物群落中菌种的组成和各自的丰度信息。但是,基于1 6S rRNA的研究所提供的信息有很多局限性,如此类数据集以OUT频率为主要特征,只能提供微生物群落中的种群结构和丰度信息,无法获得生物学研究者所关心的功能信息。此外,有研究者认为,由于扩增偏差的存在,基于OUT频率特征所估计的物种相对丰度并不十分准确[16-18]。相较而言,全宏基因组数据可以针对微生物群落提供更全面的信息,可以使人们更深入的研究微生物群落与环境的交互作用。
1.2 基于全宏基因组数据的分析
随着高通量测序技术的不断发展,测序通量不断提高,测序成本不断降低,全宏基因组数据的获得难度不断降低。相比于单一的16S rRNA数据,全宏基因组数据包括了群落中菌群的全部遗传信息,无疑能更好地表征环境微生物样本。分析全宏基因组数据既可以获得微生物群落的组成性信息,包括物种的组成和丰度等,又能获得较全面的功能信息。例如,微生物蛋白质编码基因,生物代谢反应的关键酶的表达,乃至更详尽的代谢反应网络。较高质量的全宏基因组数据还可以从中提取出特定的核酸序列,如有算法提出可以从全宏基因组数据中提取出16S rRNA数据[19],并能较好地避免扩增偏差。
全宏基因组数据分析的重要思路之一是基于比对,即利用blast算法(或是改进的比对算法如BWA[20]或DIAMOND[21])将宏基因组样本中的测序片段(reads)与相关数据库进行比对以获得生物学研究者所关心的信息,结果可以表示为系统发生树或反应网络,以便使用主成分分析等算法得到进一步结论。例如,想要获得微生物群落组成性方面的分析信息,可以与NCBI的分类学数据库比对;要想得到群落的功能分析可以用SEED数据库比对;要想提炼蛋白质编码基因可能的功能信息,可以使用COG数据库;使用KEGG数据库则可以得到较为详细的代谢网络。目前使用较多的分析工具MEGAN[22],FCMM[23]等都是采用类似的算法流程。
这种方法得到的信息由其所比对的数据库决定,其优点在于原理简单,软件使用难度低,可以较方便的得到一个初步的分析结果,但当前还存在一些短期内难以克服的缺陷。一个重要的问题是数据库中信息的缺失与错误,这一点后面会有进一步的阐述。(2.1.1 基于比对的方式获得分类特征)此外,样本数据量太大时,比对花费时间较长,尽管比对算法在不断改进。例如,最新的TreeSeq[24]算法在较传统的blast算法比对效率提高了数倍,但在处理大规模数据时所花费的时间仍不令人满意。MetaCV算法[25]通过重构序列和参考基因组,将比对效率提高了数百倍,是目前使用比对算法确定reads归属的最优方法之一,适用于大规模数据的分析。
另一类基于全宏基因组数据分析方法是通过免比对的方法进行分装,即通过序列特征对测序片段依据种系关系进行归类。高质量的分装结果可以拼接出未知菌种的基因组[26],这种方式可以最大化的利用样本的序列信息,但分析难度较大,目前尚没有较权威的分析流程。目前应用广泛的算法有Kislyuk等[27]提出的LikelyBin、Wu等[28]提出的AbundanceBin、Wang等[29,30]提出的MetaCluster等,但其在处理复杂样本时准确率较低。Ding等[31]在2014年提出了一种基于组合序列特征(ICO和四联核苷酸频率)和谱聚类算法的无监督宏基因组分装算法、HSS-bin 算法,使用不同的数据集测试,较目前常用的MetaCluster等算法准确率提高了5%-30%。但单纯使用这类方法目前还无法完成复杂样本中种属级别的分装。通过对全宏基因组数据的分析可以获得微生物群落的物种组成和相对丰度,相关的蛋白质功能信息,以及代谢网络的信息。尽管还有很多问题有待解决,但已经极大的促进了微生物学的发展。
由于宏基因组数据分析的复杂,已有研究者尝试将单细胞测序技术应用于宏基因组研究[32]。随着对微生物群落的研究不断展开,对特定微生物的深入研究的需求也越来越多,单细胞测序技术有效地避免了宏基因组数据中装配基因和分装的难题[33]。在研究已知的特定基因功能和通路时,使用单细胞测序技术数据处理难度较低,由于测序的DNA/RNA取自同一个细胞,测序结果很好地避免了由于细胞间差异导致的异质性,可以获得同一菌种的不同亚种[34]。单细胞测序技术扩展了宏基因组学的应用范围,对于宏基因组中特定菌株的研究有很大帮助。这一技术的主要难度在于单细胞的隔离与分选,目前比较成熟的有荧光激活细胞分选技术(fluorescence-activated cell sorting,FACS)[35],但成本较高,仪器价格高昂。且如何由单细胞中扩 增获得足够的DNA样本也是很有挑战性的课题[36]。
1.3 宏基因组样本比较
宏基因组样本的比较是建立在样本分析的基础上的,通过对样本数据的分析,提炼出有价值的信息作为样本的一组特征,再通过不同样本的比较直观的反映样本间的不同。因此,现有的样本比较算法流程多是基于宏基因组样本分析流程,对分析后的结果进行比较。典型的算法如MEGAN、FCMM[23]等。
随着生物信息技术的不断发展,人体微生物群落与人类健康的密切联系得到了越来越广泛的关注,研究者试图比较疾病样本与健康样本 之间的区别,为部分疾病的诊断和治疗提供新的思路。典型的研究有针对二型糖尿病患者的人类肠道宏基因组研究[5],研究者首先对疾病组和对照组中样本数据做了初步的分析,获得了3个量化的数据集:(1)功能基因的列表。(2)KEGG的同源性分析文件。(3)eggNOG同源性分析 文件。通过比较3个数据集,可以在基因组成和功能层面上相对全面的比较疾病组和对照组的区别,研究者通过比较疾病组和对照组的不同,确定了与二型糖尿病相关的52 484个基因标记(特征),并通过关联性分析从中找出了47组相互关联的基因群。通过比较这47个基因群,可以直观的展示样本间的差异。可以看出,比较的主要难点在于样本分析时如何对数据信息进行特征化的提取。其他典型的研究有不同水域的宏基因组样本比较,水体污染后环境微生物的变化[37]等。
此外,一些分析软件,如FCMM[23],在多样本比较时,会直接得到相同功能基因列表和某一样本的特殊功能基因列表。由此得到的结果更有利于下一步的统计分析。当比较所获得的信息较为复杂时,也可以采用主成分分析的方法得到主要特征,以便进行比较。
样本数据的比较能够较直观的发现不同数据集的差异,所得到的结果可以方便的应用于生物学研究。但是,常规的比较方法在比较水体、土壤等较简单的宏基因组数据时有很好的效果,但人体微生物群落更复杂多变,疾病对不同个体的影响也各不相同,样本比较的结果往往很难得到有统计学意义的结论。
相比于宏基因组样本的分析与比较,宏基因组样本分类更关注于如何识别样本,因此样本分类需要对信息进一步提炼,以获得有区分度的分类特征。宏基因组样本的分类,可以是按不同微生物群落类型将其分类。例如,不同的宏基因组样本,可能是来自水体和土壤,也可能来自人体的不同部位。由于来自不同环境的宏基因组样本差异往往较大,所以这种分类较为简单。更复杂的问题是如何识别同样环境下不同表型的宏基因组样本,如对炎症性肠炎患者与健康人群的肠道宏基因组进行分类。
宏基因组样本的分类研究在高效组织与搜索高速膨胀的宏基因组样本数据集,检测临床样本的疾病表型,法医学鉴定[38]上均可能有很好的应用。例如,建立宏基因组的大型数据库,判定未知样本的来源,通过宏基因组样本推断宿主的健康状态等。然而,尽管分类技术已经在生物信息学领域广泛应用,如微阵列癌症样本[39]、基因表达谱[40]及蛋白质组[41]分类等。但是,到目前为止复杂宏基因组样本的分类问题尚未得到很好的解决。
目前宏基因组样本分类的方法可以分为两类,即基于比对的方法和免比对的方法,其区别主要在于分类特征的获取方法。基于比对的方法通过样本与数据库的比对,通过对样本数据的分析,提炼出有价值的信息作为样本的一组分类特征,可能是微生物的丰度信息,也可能是蛋白质编码基因的功能信息。使用机器学习的方法进行特征筛选,找到其中有识别度的分类特征进行样本分类。免比对的方法,主要使用序列特征,即通过序列本身的固有性质,找出有区分度的特征参数,而不依赖数据库。
针对宏基因组样本分类研究的基本过程如下:(1)确定数据集:为了研究能够反映样本间差异的特征和分类方法,所选数据集中两类样本的数量应尽量大,正负样本数偏差要小,数据集质量较高以包括足够的信息。(2)分类特征获取:有两种常规途径,一是从已有的相关研究资料中获得较为可信的有区分度的样本特征应用于样本分类[42],为了提高特征的区分度,可以在此基础上进行筛选(软件或人工的方式);二是分析两类样本,使用特别的算法从分析比较后的数据中筛选出有区分度的特征[43]。(3)数据集的预处理:确定特征后,将数据集中的样本进行特征化处理,用得到的多维特征代表各样本,以便进行下一步计算 。(4)对于针对特征的研究,使用有监督或无监督的分类方法,对样本进行分类,验证特征的有效性。(5)对于针对分类算法的研究,使用被广泛认可的特征,用模拟数据集和实际数据集验证算法是否优于已有算法。
目前,国际上多数的针对宏基因组样本分类的研究集中在分类特征的选取和分类算法的研究。宏基因组样本分类研究的关键点在于分类特征和分类算法。
2.1 分类特征
分类特征的选取取决于宏基因组本身的性质以及对宏基因组样本的分析比较。高区分度或有针对性的特征可以使样本分类事半功倍。从特征的获取方式上可以分为基于比对和免比对两种 方式。
2.1.1 基于比对的方式获得分类特征 基于比对的方式获取特征,前期工作与样本分析相似,通过样本与不同的数据库比对生成各样本的分类学描述,功能分析图表,化学反应网 络等作为原始特征。由于分析的结果较为复杂,原始特征维数较高且区分度很低,很难直接用于分类,所以会使用多种 方式进行特征提取。
2014年,Pookhao等[43]针对比对分析结果设计了一种基于弹性网络和逻辑回归的特征提取方法,研究者选取了124个人类肠道宏基因组样本[8],分为4个组,其中肥胖组42例,包含3例IBD样本,瘦削组82例,包含22例IBD样本,通过将样本中的基 因丰度与NCBI的蛋白质直系同源簇(COGs)数据库比对得到每组样本中数百种蛋白质直系同源簇的丰度,作为原始的功能特征,通过研究者开发的特征提取算法确定了25个在4组中丰度差异最明显的功能簇,由此找到了一组对IBD和肥胖的人类肠道宏基因组有区分度的特征。这个方法也可以应用于其他原始特征,如通过blast将数据比对到NCBI的微生物基因组库,获得样本中微生物的丰度信息作为原始特征,同样通过特征提取,可以获得有区分度的特征。Shafiei等[44]设计了一个多层的贝叶斯网络模型对样本代谢网络的分析结果进行归类,研究者使用了同样的IBD数据集,通过贝叶斯模型找出了对IBD患者有区分度的代谢子网络,可以作为区分IBD样本的特征。两者用不同的特征提取方法从数据中都获得了有高区分度的特征。2015年,Korem[10]及其同事使用了另一种思路,他们认为reads的覆盖模式能够反映微生物的生长(DNA复制)的速率,通过对高质量的数据集进行reads的覆盖度分析,得到了一种新的特征——覆盖度峰谷比(PTR),首次提出了从宏基因组样本中获得微生物动态信息的方法。
基于比对的方法最大限度的利用了已有的数据库,可以利用数据库中的已知信息解析样本,直观的展示样本序列中隐藏的生物学信息。由此进一步处理可以得到有区分度的特征,此类特征往往表现为系统发生树的某种特殊性,某几种蛋白或反应的活跃,这些特征不仅能对两类样本进行很好的区分,更重要的是此类特征有较明确的生物学意义,有利于进一步研究其内在的生物学原理,甚至可以由已知的大量信息推导未知信息,由此对生物学实验方向起指导性作用。这应该是基于比对的方法在宏基因组分析与分类中应用广泛的重要原因。
但是,基于比对的方式其局限在于所得到的结果依赖数据库,但目前数据库中的数据并不全面,在宏基因组学出现前,微生物基因组学的研究局限在少数模式菌和不足1%的可培养微生物上,更严重的是,来自不同隔离群的同种微生物基因组经常表现出相当大的基因组异质性。这种变化可能来自于克隆偏差,环境适应性,或是培养过程中很可能发生的人工误差[45]。因此,即使是十几年后的今天,数据库中的微生物基因组数据也仅能代表自然界中微生物的一小部分[45],阈值选取较严格的比对会去除超过50%的reads,相当部分的属于未知菌种的序列会被忽视,这意味着在比对所获得的组成信息是有大量缺失的。
比对所获得的功能信息高度依赖于数据库中基因组后期的注释质量。许多情况下人们认为原核生物基因组结构简单,因此目前数据库如GenBank和EMBL中注释的蛋白质编码基因都是准确的。然而,近年越来越多的研究表明微生物基因组中蛋白质编码基因预测问题远没有达到人们预期的准确度,数据库中基因组的注释质量也不断地被人质疑。大量研究结果证明数据库中微生物基因组已经注释的蛋白质编码基因并不都是真正的蛋白质编码序列,而存在错误预测为编码基因的随机序列,这种现象被称为过注释[46]。Yu等[46,47]开发了一种基于改进的TN曲线(一种基于三联体核苷酸的几何分析方法)的微生物蛋白质编码基因重注释方法,可以提高微生物基因组的注释质量。
另一个难解的问题是当样本数据量极大时,其用于比对的计算量极大,计算时间也变得难以控制。比对算法仍在不断改进,有算法声称其效率3倍于BLAST算法[24],极大提高了比对效率,但仍不令人满意,比对算法效率上的改进仍未停止。
因此发现,提取关键的分类特征、比对算法效率上的改进和数据库的完善是这方面研究的重点和难点,近年来备受关注,都是生物信息学中极有挑战性的工作。
2.1.2 基于免比对的方式获得分类特征 另一种特征以免比对的方式,即利用宏基因组或是微生物基因序列的本质属性,从样本中直接获得多维序列特征。序列特征 辨识物种或者基因的能力直接影响分类方法的性能,基于统计的序列特征可分为组成性特征和关联性特征。
简单的序列组成性特征如单核苷酸频率,即A、T、C、G四种核苷酸在序列中所占的比例,尤其是其中的GC含量特征很早就因其在不同基因组中差异较大且被应用于基因组分类[48],GC含量在不同环境的宏基因组样本中同样有很大差异,可以作为宏基因组数据分析的重要参数之一[49]。
为了更好的表征基因组,生物信息学研究者尝试使用信息量更大的序列特征,如三联核苷酸频率(长度为3的碱基子串如AA A的频率),四联核苷酸频率(长度为4的碱基子串如AATT的频率)。已有文献证实四联核苷酸 频率用于物种层级有最优的分类效果[50],四联核苷酸频率成为用于基因组识别分类的‘基因组特征’,而广泛应用于宏基因组分装[27,28,51]以聚类宏基因组片段。2009年,有研究试图将此特征的使用拓展到宏基因组的比较与识别,取得了较好结果[42]。四联核苷酸频率作为一种“宏基因组特征”也得到了广泛应用。
然而宏基因组样本所包含的信息远大于单个基因组,研究者尝试计算长度更长的碱基子串频率发现,其作为宏基因组特征有更好的分类效果。例如,碱基子串长度k=8时(如AAAAATTC),分类效果明显强于四联核苷酸频率[52]。
随着对特征研究的进一步深入,有研究者发现,单纯使用组成性特征并 无法很好的完成宏基因组的分析与分类,处理复杂宏基因组样本尤其困难[52],由此,一些基于碱基对关联性的特征被开 发出来以应对新的挑战。
序列关联性特征则反映了基因组中两两组分之间或者多个组分之间的关联信息。应用 较多的如二核苷酸相对丰度(偏性)(dinucleotide relative abundances,DRA)[42],研究人员计算不同二核苷酸的使用频率之比(如AC/GT)作为特征,这一特征在某些表型中非常稳定,这意味着当某种二核苷酸的相对丰度出现差异时可以被快速识别出来。此种特征的信息量较小,只能应用于部分特殊情况,如估计环境微生物的被污染状况[42]。
为了更好的表征宏基因组样本,Ding等[31]提出了一种基于互信息的序列关联性特征(intrinsic correlation of oligonucleotides,ICO),它反映了一个寡核苷酸中两个连续组分之间的关联信息。例如,对于一个四联核苷酸,我们可以将它分割成一个单碱基和一个三联核苷酸,或者分割成相邻的两个碱基对。那么,ICO特征向量就表示第一个单碱基和后续的三联核苷酸,或者第一个三联核苷酸和后续的单碱基,再或者是两个碱基对之间关联性的量化。将ICO 特征应用于宏基因组样本分类,结果表明结合ICO特征后分类结果优于单独使用多核苷酸频率特征[52]。
免比对的方法近年来发展迅速,通过对不同长度碱基子串(k-mer)频率的统计结合不同的统计学算法,使用免比对方法用4k维的特征空间可以表征序列所属的物种,序列功能甚至表观遗传信息[53]。基于免比对的方式获得分类特征仍有很多潜力有待挖掘。免比对的方法不依赖于数据库,可在本地直接处理样本得到分析结果,但很难就结果作出令人信服的生物学解释。如果特征的计算方法复杂,其运算量与计算时间和基于比对的方式相比并不占优势。
2.2 分类算法
分类算法是宏基因组样本分类研究的另一重点,由于样本本身的复杂性,为了更好地表征样本,所使用的特征向量往往是高维度的。本文中所讨论的分类方法都是便于处理高维度特征的机器学习算法。
机器学习是人工智能的核心部分,机器学习算法主要包括两大类:无监督分类算法和有监督分类方法。无监督分类算法也称聚类方法,可以看作观察学习(learning from observation)。给定一些观察对象,即一群客体,但是在无监督的情况下对客体进行分类,这种分类往往基于某种事先定义的距离。研究的目标是寻找模式的相似性,也即自动把这群客体分成若干组,属于同一组的客体,彼此相似。有监督分类是一种示例学习,也即给定N个例子(训练集),通过训练确定判别规则,以测试集判断判别规则是否高效准确。聚类在分类问题中很少单独使用,但可以作为有力的辅助工具,典型的如HabiSign算法[54],提出了基于参考点的独特特征,然后使用层次聚类法获得了很好的分类效果。
有监督分类在比较宏基因组学[7]的一个较早的应用是,200 6年Yang等[7]使用支持向量机(support vector machines,SVM)和k近邻算法分类不同环境下的土壤及水体沉淀样本。2011年,Knights等[38]通过研究人体微生物的一些标准数据集验证有监督分类技术应用在宏基因组/16S rRNA数据上的可行性。上述算法均证实有效的机器学习技术可以解决宏基因组/16S rRNA数据处理上的某些挑战。此后多种有监督分类算法被引入宏基因组/16S rRNA数据处理,使 用较广泛的有逻辑回归模型(LR模型),贝叶斯方法,支持向量机(SVM)等。
MetaDistance[55]算法是第一个专用于人体微生物多类别分类的算法。这个算法结合使用基于实例和基于模型的算法(如k近邻算法和SVM)的优势,以同时满足最小化的组内距离和最大化的组间距离,在算法设 计时考虑到了宏基因组相关特征的稀疏性,用于宏基因组多样本识别和特征选择都有不错的效果。
2013年, Cui和Zhang[56]将一种改进的SVM(R-SVM)用于宏基因组样本分类,其主要思路是使用碱基子串频率(k-mer频率)作为特征,使用R-SVM算法进行机器学习。研究者使用IBD数据集[8]作为真实数据集进行测试,分类准确率超过80%。R-SVM相较于传统的支持向量机方法,其优势在于机器学习的过程中对特征不断进行筛选,k-mer的原始特征空间的维度为4k维,通过 R-SVM算法,可以筛 选出高区分度的20维特征作为分类特征。
2014年,Tanaseichuk等[57]使用系统发生树作为分类特征,通过多项式LR模型训练一个由分类特征到分类标签的映射,通过这种方式可以得到一个高准确率的分类模型。与传统的SVM、随机森林(RF)等算法相比,错误率降低了约20%。这种方法的优势是以微生物群落的系统发生关系作为特征的组织结构,将生物学信息引入机器学习过程,使得分类准确率明显提高,而此前大多数研究将OUT频率作为互相孤立的特征使用。
Ding等[52]于2015年也提出了一种分类方法,DectICO算法,这种算法结合了动态的 KPLS特征筛选算法和ICO序列特征,对原始特征进行多轮筛选,可以由用户自行确定特征筛选的轮数,最后得到 的分类特征可以让SVM分类器性能最优。该研究分别使用哮喘(asthma)数据集[58]、炎症性肠炎 数据集[8]及二型糖尿病数据集[5]对算法进行验证,证明DectICO 算法较同类算法有更好的通用性和稳定性,而动态的特征筛选算法明显提高了分类算法的性能。
宏基因组样本分类算法仍在不断的发展中,弹性网络(elastic net)[43]、决策树及最近邻等常见算法思想都可以应用于宏基因组样本分类。
宏基因组学是以对宏基因组数据本身的分析比较为基础的,对宏基因组样本比较和分类问题的研究可以加深对宏基因组数据的理解。宏基因组学近几年来发展迅速,新的成果不断出现,宏基因组样本的分析与分类成为新的研究热点,大量的机器学习算法和统计学相关理论知识被引入这一领域,许多简明易用的生物信息学工具被开发出来投入使用,我们将宏基因组分析相关的部分软件工具列在了表1中。但由于宏基因组数据的复杂性以及科学界目前对宏基因组数据本身了解的局限性,该领域仍有许多空白亟待填补。如对样本分类问题的研究较少,几乎所有的算法工具在关于肠道宏基因组的分类问题上准确率都不超过85%,在分析、比较的流程上大多数工具也都趋于同质化。这些问题的解决需要更高效的特征,更优秀的算法,同时也依赖于宏基因组学研究和生物信息学技术的进一步发展。
表1 部分算法工具的用途及获取地址简表
[1]Hu son DH, Mitra S, Ruscheweyh HJ, et al. Integrative analysis ofenvironmental sequences using MEGAN4[J]. Genome Research, 2011, 21(9):1552-1560.
[2]Ha iser HJ, Gootenberg DB, Chatman K, et al. Predicting and manipulating cardiac drug inactivation by the human gut bacterium Eggerthella lenta[J]. Science, 2013, 341(6143):295-298.
[3]Ko eth RA, Wang Z, Levison BS, et al. Intestinal microbiota metabolism of L-carnitine, a nutrient in red meat, promotes atherosclerosis[J]. Nat Med, 2013, 19(5):576-585.
[4]Ra makrishna BS. Role of the gut microbiota in human nutrition and metabolism[J]. J Gastroenterol Hepatol, 2013, 28(Suppl)4:9-17.
[5]Qin JJ, Li YR, Cai ZM, et al. A metagenome-wide association study of gut microbiota in type 2 diabetes[J]. Nature, 2012, 490(7418):55-60.
[6]Grou p NHW, Peterson J, Garges S, et al. The NIH human microbiome project[J]. Genome Res, 2009, 19(12):2317-2323.
[7]Yang CY, Mills D, Mathee K, et al. An ecoinformatics tool for microbial community studies:supervised classification of Amplicon Length Heterogeneity(ALH)profiles of 16S rRNA[J]. Journal of Microbiological Methods, 2006, 65(1):49-62.
[8]Qin J, Li R, Raes J, et al. A human gut microbial gene catalogue established by metagenomic sequencing[J]. Nature, 2010, 464(7285):59-65.
[9]Rida ura V, Belkaid Y. Gut microbiota:the link to your second brain[J]. Cell, 2015, 161(2):193-194.
[10]Kor em T, Zeevi D, Suez J, et al. Growth dynamics of gut microbiota in health and disease inferred from single metagenomic samples[J]. Science, 2015, 349(6252):1101-1106.
[11]Wan g Z, Roberts AB, Buffa JA, et al. Non-lethal inhibition of gut microbial trimethylamine production for the treatment of atherosclerosis[J]. Cell, 2015, 163(7):1585-1595.
[12]Qua st C, Pruesse E, Yilmaz P, et al. The SILVA ribosomal RNA gene database project:improved data processing and web-based tools[J]. Nucleic Acids Res, 2013, 41(Database issue):D590-D596.
[13]Sch loss PD, Westcott SL, Ryabin T, et al. Introducing mothur:open-source, platform-independent, community-supported software for describing and comparing microbial communities[J]. Appl Environ Microbiol, 2009, 75(23):7537-7541.
[14]Cap oraso JG, Kuczynski J, Stombaugh J, et al. QIIME allows analysis of high-throughput community sequencing data[J]. Nat Methods, 2010, 7(5):335-336.
[15]Col e JR, Wang Q, Cardenas E, et al. The Ribosomal Database Project:improved alignments and new tools for rRNA analysis[J]. Nucleic Acids Res, 2009, 37(Database issue):D141-D145.
[16]Bro oks JP, Edwards DJ, Harwich MD, et al. The truth about metagenomics:quantifying and counteracting bias in 16S rRNA studies[J]. Bmc Microbiology, 2015, 15:66.
[17]Soh n MB, An LL, Pookhao N, et al. Accurate genome relative abundance estimation for closely related species in a metagenomic sample[J]. Bmc Bioinformatics, 2014, 15:242.
[18]Xia LC, Cram JA, Chen T, et al. Accurate genome relative abundance estimation based on shotgun metagenomic reads[J]. PLoS One, 2011, 6(12):e27992.
[19]Yuan C, Lei J, Cole J, et al. Reconstructing 16S rRNA genes in metagenomic data[J]. Bioinformatics, 2015, 31(12):i35-43.
[20]Li H, Durbin R. Fast and accurate short read alignment with Burrows-Wheeler transform[J]. Bioinformatics, 2009, 25(14):1754-1760.
[21]Buchf ink B, Xie C, Huson DH. Fast and sensitive protein alignment using DIAMOND[J]. Nature Methods, 2015, 12(1):59-60.
[22]Huson DH, Richter DC, Mitra S, et al. Methods for comparative metagenomics[J]. BMC Bioinformatics, 2009, 10(Suppl)1:S12.
[23]Lee J, Lee HT, Hong WY, et al. FCMM:A comparative metagenomic approach for functional characterization of multiple metagenome samples[J]. J Microbiol Methods, 2015, 115:121-128.
[24]Winterm ans B, Brandt B, Vandenbroucke-Grauls C, et al. TreeSeq, a fast and intuitive tool for analysis of whole genome and metagenomic sequence data[J]. PLoS One, 2015, 10(5):e0123851.
[25]Liu J, Wang H, Yang H, et al. Composition-based classification of short metagenomic sequences elucidates the landscapes of taxonomic and functional enrichment of microorganisms[J]. Nucleic Acids Res, 2013, 41(1):e3.
[26]Alberts en M, Hugenholtz P, Skarshewski A, et al. Genome sequences of rare, uncultured bacteria obtained by differential coverage binning of multiple metagenomes[J]. Nature Biotechnology, 2013, 31(6):533-538.
[27]Kislyuk A, Bhatnagar S, Dushoff J, et al. Unsupervised statistical clustering of environmental shotgun sequences[J]. Bmc Bioinformatics, 2009, 10:316.
[28]Wu YW, Ye YZ. A novel abundance-based algorithm for binning metagenomic sequences using l-tuples[J]. Journal of Computational Biology, 2011, 18(3):523-534.
[29]Wang Y, Leung HCM, Yiu SM, et al. MetaCluster 5. 0:a tworound binning approach for metagenomic data for low-abundance species in a noisy sample[J]. Bioinformatics, 2012, 28(18):I356-I362.
[30]Wang Y, Leung HCM, Yiu SM, et al. MetaCluster-TA:taxonomic annotation for metagenomic data based on assembly-assisted binning[J]. Bmc Genomics, 2014( Suppl1)1:S12.
[31]Ding X, C ao CC, Sun X. Intrinsic correlation of oligonucleotides:a novel genomic signature for metagenome analysis[J]. J Theor Biol, 2014, 353:9-18.
[32]Rodrigue S, Malmstrom RR, Berlin AM, et al. Whole genome amplification and de novo assembly of single bacterial cells[J]. PLoS One, 2009, 4(9):e6864.
[33]Kodzius R, Gojobori T. Single-cell technologies in environmental omics[J]. Gene, 2016, 576(2 Pt 1):701-707.
[34]Kashtan N, Roggensack SE, Rodrigue S, et al. Single-cell genomics reveals hundreds of coexisting subpopulations in wild Prochlorococcus[J]. Science, 2014, 344(6182):416-420.
[35]Bergquist PL, Hardiman EM, Ferrari BC, et al. Applications of flow cytometry in environmental microbiology and biotechnology[J]. Extremophiles, 2009, 13(3):389-401.
[36]Lasken RS. Genomic sequencing of uncultured microorganisms from single cells[J]. Nat Rev Microbiol, 2012, 10(9):631-640.
[37]Paerl HW, Xu H, Hall NS, et al. Controlling cyanobacterial blooms in hypertrophic Lake Taihu, China:will nitrogen reductions cause replacement of non-N2 fixing by N2 fixing taxa?[J]. PLoS One, 2014, 9(11):e113123.
[38]Knights D, Kuczynski J, Charlson ES, et al. Bayesian communitywide culture-independent microbial source tracking[J]. Nat Methods, 2011, 8(9):761-763.
[39]Glaab E, Garibaldi JM, Krasnogor N. Learning pathway-based decision rules to classify micro array cancer samples[J]. German Conference on Conformations, 2010:123-134.
[40]Asyali MH, Colak D, Demirkaya O, et al. Gene expression profileclassification:a review[J]. Current Bioinformatics, 2006, 1(1):55-73.
[41]Yi G, Tho n MR, Sze SH. Supervised protein family classification and new family construction[J]. Journal of Computational Biology, 2012, 19(8):957-967.
[42]Willner D, Thurber RV, Rohwer F. Metagenomic signatures of 86 microbial and viral metagenomes[J]. Environ Microbiol, 2009, 11(7):1752-1766.
[43]Pookhao N, Sohn MB, Li Q, et al. A two-stage statistical procedure for feature selection and comparison in functional analysis of metagenomes[J]. Bioinformatics, 2015, 31(2):158-165.
[44]Shafiei M, Dunn KA, Chipman H, et al. BiomeNet:a bayesian model for inference of metabolic divergence among microbial communities[J]. Plos Computational Biology, 2014, 10(11):e1003918.
[45]Nielsen H B, Almeida M, Juncker AS, et al. Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes[J]. Nature Biotechnology, 2014, 32(8):822-828.
[46]Yu JF, Xi ao K, Jiang DK, et al. An integrative method for identifying the over-annotated protein-coding genes in microbial genomes[J]. DNA Res, 2011, 18(6):435-449.
[47]Yu JF, Su n X. Reannotation of protein-coding genes based on an improved graphical representation of DNA sequence[J]. J Comput Chem, 2010, 31(11):2126-2135.
[48]Rocha EPC, Danchin A. Base composition bias might result from competition for metabolic resources[J]. Trends in Genetics, 2002, 18(6):291-294.
[49]Raes J, F oerstner KU, Bork P. Get the most out of your metagenome:computational analysis of environmental sequence data[J]. Current Opinion in Microbiology, 2007, 10(5):490-498.
[50]Pride DT, Meinersmann RJ, Wassenaar TM, et al. Evolutionary implications of microbial genome tetranucleotide frequency biases[J]. Genome Res, 2003, 13(2):145-158.
[51]Chatterji S, Yamazaki I, Bai Z, et al. CompostBin:a DNA composition-based algorithm for binning environmental shotgun reads[M]//Vingron M, Wong L, editor, RECOMB, LNIB 4955, 2008:17-28.
[52]Ding X, C heng F, Cao C, et al. DectICO:an alignment-free supervised metagenomic classification method based on feature extraction and dynamic selection[J]. BMC Bioinformatics, 2015, 16:323.
[53]Pinello L, Lo Bosco G, Yuan GC. Applications of alignment-free methods in epigenomics[J]. Brief Bioinform, 2014, 15(3):419-430.
[54]Ghosh TS, Mohammed MH, Rajasingh H, et al. HabiSign:a novel approach for comparison of metagenomes and rapid identification of habitat-specific sequences[J]. BMC Bioinformatics, 2011, 12 Suppl 13:S9.
[55]Liu Z, Hs iao W, Cantarel BL, et al. Sparse distance-based learning for simultaneous multiclass classification and feature selection of metagenomic data[J]. Bioinformatics, 2011, 27(23):3242-3249.
[56]Cui H, Zh ang X. Alignment-free supervised classification of metagenomes by recursive SVM[J]. BMC Genomics, 2013, 14:641.
[57]Tanaseich uk O, Borneman J, Jiang T. Phylogeny-based classification of microbial communities[J]. Bioinformatics, 2014, 30(4):449-456.
[58]Hinks TSC, Handley S, Keller B, et al. Analysis of the lung microbiome in human asthma using whole genome shot-gun metagenomics[J]. Thorax, 2013, 68:A14.
(责任编辑 李楠)
Analysis,Comparison and Classification of Metagenomic Samples
CHENG Fu-dong DING Xiao LI Sheng SUN Xiao
(State Key Laboratory of Bioelectronics,School of Biological Science & Medical Engineering,Southeast University,Nanjing 210096)
Metagenomics attempts to understand the diversity of the environmental microbial community and the interaction between microorganisms and environment by analyzing the sequence data of metagenomic samples. Microbiology has been revolutionized by metagenomics,which makes it feasible to research the microbial communities in complex biological systems without cultivating the microbes. The high-throughput metagenomic study is promoted by the rapid development of next-generation sequencing technology and bioinformatics. As a mass of high-quality metagenomic sequencing data are produced,also are accessible to the scientific community,the role of metagenomics has been recognized by various scientific areas. On the other sides,huge metagenomic data for individuals with different health status,or for different habitats of the human body makes the comparison and classification of metagenomic samples more important,leading the comparative metagenomics to become an important branch of metagenomics. This review mainly introduces the related researches and algorithms in the analysis,comparison and classification of metagenomic sequencing data.
metagenome;sample analysis and comparison;sample classification;classification feature
10.13560/j.cnki.biotech.bull.1985.2016.05.001
2015-11-26
国家自然科学基金项目(61472078)
程福东,男,硕士,研究方向:宏基因组学;E-mail:220143745@seu.edu.cn
孙啸,男,教授,研究方向:生物信息学;E-mail:xsun@seu.edu.cn