微生物二元网络作用关系研究

2015-07-28 12:40高红艳
现代电子技术 2015年11期
关键词:信息论生物信息学

高红艳

摘 要: 基因测序技术的快速发展产生了大量海洋微生物数据,使难培养的海洋微生物种群研究成为可能。很多学者在海洋微生物种群作用模式多样性、组成多样性及功能多样性方面展开了相应研究,有助于大家认识海洋微生物的分布特征及其在海洋生态系统中的功能和所扮演的角色。然而,海洋微生物在生长过程中不仅受到其他微生物的影响,也受到海洋环境(温度,盐度等)的影响,而在这方面的研究进展很小。通过信息论的方法构建微生物与环境因子的二元网络,并对其进行社团挖掘,从环境的角度去发现海洋微生物种群作用模式的多样性。

关键词: 生物信息学; 网络构建; 信息论; 社团挖掘

中图分类号: TN99?34 文献标识码: A 文章编号: 1004?373X(2015)11?0091?04

Research on interaction relationship in microorganism binary networks

GAO Hong?yan

(Institute of Physics and Optoelectronics Technology, Baoji University of Arts and Science, Baoji 721016, China)

Abstract: With the rapid development of gene sequencing technology, a large number of marine microorganism data is produced, which makes the research of more hard cultivating marine microbial population possible. The corresponding researched in diversity of interaction mode, constitute, function for marine microbial population were conducted by many scholars, which is helpful to understand the distribution features of marine microorganism, and functions and characters in marine ecosystem. The growth process of marine microorganism is not only influenced by other microbes, but also influenced by marine environment (temperature, salinity, etc.). However, the research progress in this field is little. The binary networks of microorganism and environment factors are constructed by information theory, the community detection for binary networks is proceeded. The diversity of interaction mode in marine microbial population is discovered in the view of environment.

Keywords: bioinformatics; network construction; information theory; community detection

0 引 言

海洋微生物是海洋生态系统中的重要组成部分,对海洋微生物种群作用模式多样性、组成多样性及功能多样性开展研究,将有助于人们认识海洋微生物的分布特征及其在海洋生态系统中的功能和所扮演的角色,对深入开展海洋生态环境研究具有重要的意义[1?2]。现代微生物学研究表明,99%以上的海洋微生物目前不能(或很难)被纯培养,也就是说目前对海洋微生物的认知只占其总量[1]的l%。近几年,随着微生物基因组学、PCR和高通量、低成本测序技术的发展,环境基因组学推动了海洋微生物多样性研究的快速发展。运用环境基因组学技术(如16S/18S rRNA基因序列分析)研究海洋微生物生态系统,不仅可以获得有关海洋微生物生理多样性和生物功能的详细信息,还有助于了解微生物如何响应环境胁迫,并将其应用于海洋病害防治。

16SrRNA基因是细菌染色体上编码rRNA相对应的DNA序列,存在于所有细菌的染色体基因组中,由于其高信息量、高保守性及与大多数生理、遗传标记一致,16SrRNA基因检测技术已经成为微生物种群多样性及作用模式研究的有力工具。如Hewson等在澳大利亚莫顿湾的八个采样点上取样本[3],采用Pyrosequencing技术产生细菌浮游生物16S/23S rRNA序列,在不同序列相似度阈值水平上生成微生物操作分类单元(Operation Tax Unit,OTU),通过统计OTU在不同采样点的微生物丰度值,研究不同地点的海洋微生物种群分布特性;Huhrman和Martiny等人采用遗传指纹图谱技术[4],基于判别分析、时间序列分析、多元回归分析等多种统计方法对美国加州南部海域微生物的时间和空间分布模式进行了研究;Andersson等在波罗的海海域一个采样位点上进行8次表层海水采样[5],时间跨度长达两年,采用Pyrosequencing技术产生269 420条细菌浮游生物16SrRNA序列,在97%序列相似性水平下聚类生成4 624个OTU,基于Spearman秩相关性分析了OTU与环境因子的作用模式;Gilbert等人在2003~2008年间从西英海峡观测站采样点采集76个表层海水样本[6],采用Pyrosequencing技术产生968 140条16SrRNA序列,采用α?多样性计算、判别分析等统计方法分析了不同季节下的海洋微生物分布特性,发现了丰度值最高、分布最广泛的微生物种群,并且得出了微生物种群在不同季节下的分布差异较大,而不同年份间分布差异较小的结论。上述这些研究为分析海洋微生物种群组成多样性、物种间复杂联系多样性及生物功能提供了基础。然而这些研究大多基于统计学方法,且没有考虑海洋环境因子的影响,无法深程度地挖掘隐含在这些大量数据中的海洋微生物作用模式。

一般地,同一个生态系统下的各个物种与环境因子(Environment,ENV)之间也存在相关关系,可以通过种群数量随时间的变化趋势来判断,当物种和环境之间的数量呈同步变化时,它们可能存在依赖关系;也有可能存在非线性关系,有时从曲线变化趋势中很难得到。本文以季节为时间单位,分别构建春、夏、秋、冬四个季节下的OTU?ENV二元作用网络,通过二元网络挖掘方法研究海洋微生物的作用模式。

1 数据集和理论方法

1.1 数据集

本文16SrRNA数据和环境因子来自文献[6],在2003年1月—2008年12月共采集76个样本,通过多种子策略的启发式454序列聚类方法,获得969 400条16SrRN序列,这些序列可从VAMPS(http://vamps.mbl.edu/index.php)上下载。其春(4~6月)、夏(7~9月)、秋(10~12月)、冬(1~3月)四个季节的采样数分别为24、21、15和16,四个季节相应的16SrRNA序列数分别为276 932、247 907、212 921和231 640条。环境因子共有18个,也是76个时间点,与16SrRNA的采样时间点一一对应,但有的时间点有缺失值,本文通过取近邻平均值来补全缺失值,得到18个ENV。

生物学研究表明,序列相似性越高的物种在生物进化树上越相近,一般认为相似度大于99%的序列在微生物分类学上属于同一物种。本文采用多种子策略基于启发式的序列聚类算法[7],该算法具有良好的鲁棒性能,与传统的启发式序列聚类算法相比,该算法能降低OTU过估计问题,提高聚类精度,有效地进行操作分类单元计算。在99%序列相似性阈值下对968 140条16SrRNA序列进行聚类,可生成6 793个OTUs。

1.2 理论方法

信息论:相对于皮尔逊相关系数而言,互信息考虑了向量间的非线性关系[8]。在介绍互信息之前,先介绍一下信息熵。一个随机向量[X={x1,x2,…,xN},][D=][max(X)-min(X)]。将[D]分成[M]个区间,得到一个区间集[{Dj}, j=1,2,…,M。]满足[?j{Dj}=D]和[Dj?Dk=?,]如果[j≠k,][M]是将[D]分成的区间个数。定义[δ]函数:

[δ(Δxi,Dj)=1,if Δxi∈Dj0,else, i=1,2,…,N;j=1,2,…,M]

区间[Dj]的概率为:

[pX(Dj)=1Ni=1Nδ(Xi,Dj), j=1,2,…,M] (1)

根据香农理论,变量[X]的信息熵是:

[H(X)=-j=1MpX(Dj)logpX(Dj)] (2)

根据上文提到的[δ]函数,现有两个随机向量[X={x1,x2,…,xN}]和[Y={y1,y2,…,yN}。]定义联合[δ]函数:

[δ(Δxi,Δyi,Dj,Dk)=1, if Δxi∈Dj and Δyi∈Dk0, else, i=1,2,…,N;j,k=1,2,…,M]

联合区间[{Dj,Dk}]的概率是:

[pX,Y(Dj,Dk)=1Ni=1Nδ(Δxi,Δyi,Dj,Dk), j,k=1,2,…,M]

类似的,可定义联合熵[H(X,Y)]:

[H(X,Y)=-j=1Mk=1MpX,Y(Dj,Dk)logpX,Y(Dj,Dk)]

联合熵不大于各自的熵之和,即:

[H(X,Y)≤H(X)+H(Y)] (3)

如果[X]和[Y]在统计上是独立的,则有:

[H(X,Y)=H(X)+H(Y)] (4)

两个向量间的互信息定义为:

[MI(X,Y)=H(X)+H(Y)-H(X,Y)] (5)

根据等式(3),有:[MI(X,Y)≥0。]根据等式(4)可知:如果[X]和[Y]在统计上是独立的,则它们的互信息是0。综上所述,由公式(5)得到的互信息可以用来度量两个OTU之间或OTU与ENV之间的依赖关系,不管是线性的还是非线性的。

LP(Label Propagation)算法,目前,二元网络的研究通常有两种思路:第一种把二元网络投影到单顶点网络,然后进行网络分析。单顶点网络无法完整描述出原始二分网络的全部信息,即造成了原始二分网络信息的丢失。第二种是直接基于原始二分网络进行分析,最大程度上保留了原始二分网络的信息。Newman将科学家合作网投影到单顶点网络进行了研究[9],网络的连边是带权重的。Lambiotte和Ausloos提出了一种聚类方法——PIB(percolation Idea?Based),并在听众与歌曲网中加以实现[10],得到听众节点的社团结构和歌曲的社团结构,但无法得出两类节点之间的联系。Barber在二元网络模块度[Q]基础上去挖掘二元网络[11],当[Q]值最大时得到最佳社团结构,但其方法得需先知道分团数。本文采用Raghavan等人提出的LP算法[12]去分析海洋微生物网络,LP算法思想简单,复杂度小,准确度也高。LP算法思想如下:

(1) 初始化,二元网络中每个节点都有一个单独的标签,即开始时都属于一个单独的团。

(2) 更新每个节点的标签。使每个节点的标签等于其邻居节点标签个数最大的标签。如果其邻居节点标签个数最大的标签不止一个,则随机选取。

(3) 重复步骤(2),直到每个节点的标签都等于其邻居节点标签个数最大的标签。

2 实验结果仿真分析

为了研究四个季节微生物与环境因子之间的相互作用,用互信息构建海洋微生物相关作用网络,得到四个季节下的OTU?ENV作用网络。春季网络有29个节点,22条边;夏季网络有45个节点,45条边;秋季网络有106个节点,159条边;冬季网络有66个节点,64条边。其中秋季的作用网络如图1所示,圆点表示OTU,三角形表示ENV。由此可知,春、夏、冬三个季节的网络图比较简单,有的就是一个单独的团,秋季网络图节点比较多,相对来说复杂一点。

用LP算法直接在四个季节网络中进行挖掘,秋季网络的挖掘结果如图2所示。每个季节挖掘出的团数如表1所示。实验结果显示,环境因子E3、E5和E12在四个季节里均出现,说明这三个环境因子在微生物的生长阶段有一定的影响。E3、E5和E12分别是DX1、PAR和NO2+NO3。

文献[6]也构建了微生物和环境因子的网络,可以看出E12(NO2+NO3)在微生物的四季生长中起着重要作用。本文通过二元网络的挖掘,也发现E12对海洋微生物的重要影响,所以重点分析E12。生物分类学家用域、界、门、纲、目、科、属、种七个类对生物进行分类,本文参照此分类对各个季节的网络进行了分析。其中秋季网络中有7个OTUs和E12相连,7个OTUs全是变形菌门(Proteobacteria)。在纲级下,5个OTUs是α?变形菌纲(Alphaproteobacteria),1个OTU是γ?变形菌纲(Gammaproteobacteria),1个OTU是δ?变形菌纲(Deltaproteobacteria)。在目级下,有3个OTUs是立克次体目(Rickettsiales),1个OTU是红螺菌目(Rhodospirillales),1个OTU是交替单胞菌目(Alteromonadales),1个OTU是脱硫杆菌目(Desulfobacterales),1个OTU是海洋螺菌目(Oceanospirillales)。在科级下,2个OTUs是SAR11群,1个OTU是红螺菌科(Rhodospirillaceae),1个OTU是交替单胞菌科(Alteromonadaceae),1个OTU是Nitrospinaceae科,其他2个OTU未知。

通过四个季节对E12(NO2+NO3)所在团的分析,得出E12(NO2+NO3)环境因子在变形菌的生长过程中起着一定的作用,而且在不同的季节里,变形菌和拟杆菌共同出现的可能性很大,说明这两种菌类在生长过程中相互影响,究竟是共生、寄生、捕食和竞争哪种关系,需要进一步的研究。

3 结 语

挖掘海洋微生物的多样性对海洋资源的开发起着关键的作用。运用宏基因组技术研究海洋微生物,不仅可以获得有关海洋微生物的作用模式、生理多样性和生物功能的详细信息,还有助于了解微生物如何响应环境胁迫。本文采用多种子策略基于启发式的序列聚类算法将16SrRNA基因序列聚类成OTU,用微生物丰度向量表示OTU单元,基于互信息定义OTU单元与环境因子间是否存在网络连接边,分别构建春、夏、秋、冬四季微生物二元作用网络,进而采用二元网络LP算法进行挖掘。挖掘结果分析表明:春、夏、秋、冬海洋微生物与环境因子间作用网络满足复杂网络“小世界”和“无尺度”特性;四个季节下的海洋微生物与环境因子的作用模式存在一定的差异,且四个季节下海洋微生物间的作用模式也存在一定差异。

参考文献

[1] KARL D M. Microbial oceanography: paradigms, processes and promise [J]. Nature Reviews Microbiology, 2007, 5(10): 759?767.

[2] FALKOWSKI P G, VARGAS C D. Shotgun sequencing in the sea: a blast from the past? [J]. Science, 2004, 304(5667): 58?60.

[3] HEWSON I, FUHRMAN J A. Richness and diversity of bacterioplankton species along an estuarine gradient in Moreton Bay, Australia [J]. Applied and Environmental Microbiology, 2004, 70(6): 3425?3433.

[4] FUHRMAN J A, STEELE J A, HEWSON I, et al. A latitudinal diversity gradient in planktonic marine bacteria [J]. Proceedings of the National Academy of Sciences of the United States of America, 2008, 105(22): 7774?7778.

[5] ANDERSON A F, RIEMANN L, BERTILSSON S. Pyrosequencing reveals contrasting seasonal dynamics of taxa within Baltic Sea bacterioplankton communities [J]. The ISME Journal, 2009, 4(2): 171?181.

[6] GILBERT J A, STEELE J A, CAPORASO J G, et al. Defining seasonal marine microbial community dynamics [J]. The ISME journal, 2011, 6(2): 298?308.

[7] CHEN W, CHENG Y, ZHANG C, et al. MSClust: A multi?seeds based clustering algorithm for microbiome profiling using 16S rRNA sequence [J]. Journal of Microbiological Methods, 2013, 94(3): 347?355.

[8] COVER T M, THOMAS J A. Elements of information theory [M]. New York: Wiley, 1991.

[9] NEWMAN M E. Scientific collaboration networks. I. Network construction and fundamental results [J]. Physical Review E, 2001, 64(1): 543?551.

[10] LAMBIOTTE R, AUSLOOS M. Uncovering collective listening habits and music genres in bipartite networks [J]. Physical Review E, 2005, 72(6): 1102?1108.

[11] BARBER M J. Modularity and community detection in bipartite networks [J]. Physical Review E, 2007, 76(6): 326?331.

[12] RAGHAVAN U N, ALBERT R, KUMARA S. Near linear time algorithm to detect community structures in large?scale networks [J]. Physical Review E, 2007, 76(3): 426?432.

猜你喜欢
信息论生物信息学
信息论与应用数学关联教学法研究
基于超像素和信息论的SAR图像目标检测研究
从信息论角度探析汉译英过程中文化信息的冗余平衡
浅谈医学院校生物信息学专业青年教师规范培训模式的建立
“PBL+E—learning”教学模式探索
移动教学在生物信息学课程改革中的应用
中医大数据下生物信息学的发展及教育模式浅析
生物信息学课堂危机及对策研究
安全通论(11)——《信息论》、《博弈论》与《安全通论》的融合:刷新您的通信观念
信息论翻译的多维度探索