应用支持向量机评价太湖富营养化状态

2013-12-20 11:27:10张成成沈爱春张晓晴陈求稳
生态学报 2013年23期
关键词:维空间训练样本富营养化

张成成,沈爱春,张晓晴,陈求稳,3,*

(1.中国科学院生态环境研究中心,北京 100085;2.太湖流域管理局水文水资源监测局,无锡 214024;3.三峡大学,宜昌 443002)

富营养化评价结果不仅可以客观反映水环境的质量和污染状况,而且能为富营养化防治、管理和决策提供依据和指导。从本质上讲,富营养化评价是一个多指标分类问题,各指标与分类等级之间存在复杂、非线性和不确定的关系[1]。近年来,智能方法在富营养化评价方面获得了大量应用,如模糊评价法[2-4]、灰色理论评价法[5-6]、进化算法评价法[7-8]、人工神经网络评价法[9-10]等。这些方法对富营养化评价的发展起到了一定的促进作用,但在评价过程中尚存在不足[11]。其中,模糊评价法和灰色评价法在确定评价函数结构和评价指标权重方面存在较大的主观性,进化算法评价法主要用于对现有评价模型进行参数的优化选取,而人工神经网络评价法存在固有的网络结构难以确定、容易陷入局部最优以及无法保证模型泛化性等问题。支持向量机(Support Vector Machine,SVM)是一种基于统计学习理论的新型机器学习算法[12],比较适用于解决富营养化评价这类非线性多指标分类问题[13-15]。虽然它在建模过程和形式上与人工神经网络法相似,但理论基础完全不同,且有效克服了人工神经网络法收敛性和泛化性的不足,具有较好的应用前景。

目前,应用支持向量机法进行太湖富营养化评价方面的研究尚比较少,本研究采用该方法建立了太湖的富营养化评价模型,并进行了实际应用,以期为太湖的富营养化评价提供一种新的可选方法。

1 支持向量机简介

支持向量机(SVM)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[16]。其基本思想是,利用核函数(Kernel Function)将低维空间中线性不可分的点映射成高维特征空间中线性可分的点,并通过划分超平面,使所有的点到分类超平面的距离最大化。

所谓的支持向量,指的是高维空间中那些距离分类超平面最近的点对应的低维空间点。它们来源于原始样本,对分类超平面的位置起决定作用。换言之,就是它们支持起了分类超平面。

将向量从低维空间向高维空间映射,会使计算复杂度变大。为此,SVM中引入了核函数,从而巧妙地避免了这个问题。核函数能接受两个低维空间向量,计算出它们在高维空间中的内积值。常用的核函数有:

线性核函数

多项式核函数

径向基核函数(Radial Basis Function,简称RBF)

Sigmoid核函数

式中,K为核函数;xi、xj为两个低维空间列向量,在本研究中,代表两组不同的样本,且列向量中的每一个分量对应一个输入变量;d、γ和r为核参数。

由于RBF核函数能够将样本非线性地映射到更高维空间,且数值条件和参数数目相对较少,对模型选择的复杂度影响较小[13],一般都将其作为首选。确定核函数后,需对相应参数进行优化选取,通常采用基于交叉验证思想的网格搜索法[17]。SVM的输入和输出,一般如图1所示。

2 富营养化评价模型

2.1 评价标准

选取合适的评价标准,对于评价结果的合理性与客观性至关重要。目前,我国广泛使用的富营养评价方法有两种,一是中国环境监测总站于2001年底推荐使用的综合营养状态指数法(简称TLI法)[18],二是中国水利部《地表水资源质量评价技术规程》(SL395—2007)中采用的线性插值评分法(简称SCO法)。在评价指标选取和营养类型划分上,二者是一致的。本研究采用与SCO法对应的湖库富营养化程度评价标准(表1)。

图1 支持向量机的输入和输出Fig.1 The inputs and outputs of SVM

表1 湖库富营养化程度评价标准Table 1 The eutrophication evaluation standard of lakes and reservoirs

2.2 指标归一化

为了消除不同量级数据对评价结果的影响,按照公式5对表1中的评价指标和太湖实测数据进行了归一化处理:

式中,X'为数据X归一化后的值,Xmin、Xmax分别为表1中与X对应的评价指标的最小值和最大值。

2.3 训练样本生成

在经过归一化处理的每个区间范围内随机生成100组样本,以其中的60组作为训练样本,剩余的40组作为验证样本。共获得训练样本540组,验证样本360组。将5种营养等级分别“标记”为{1,2,3,4,5},作为模型输出的目标值。

2.4 评价模型建立

研究中采用LIBSVM-3.16[19]软件,对SVM分类算法进行了实现。首先,设置核函数为RBF,相应参数为惩罚因子 c和核参数 g(公式 3 中的 γ);然后,设置 c∈{2-10,2-9,…,210},g∈{2-10,2-9,…,210},对训练样本进行5折交叉验证,得到最佳参数为c=4,g=32;接着,按最佳参数取值,代入训练样本进行训练,即可建立评价模型;最后,将验证样本代入评价模型,得到验证准确率为100%(360/360)。

3 实例应用

3.1 研究区域和数据

由《2012太湖健康状况报告》可知,太湖通常被划分为9个湖区(图2),各湖区富营养化状况不同。每年的夏季和秋季,为蓝藻水华发生较为严重的时期。为使评价结果更具代表性,选取对太湖33个监测点(图2)2012年7—9月份的月监测数据(共99组)进行营养状况评价。研究所采用的数据通过合作从太湖流域管理局水文水资源监测局获得。

图2 太湖分区及33个监测点位置Fig.2 The partitions of Taihu Lake and the locations of 33 monitoring sites

3.2 评价结果和讨论

分别运用SVM评价法和SCO评价法,对99组数据进行评价,得到33个监测点7—9月的营养类型如图3所示,评分值以及两种方法的评价营养等级如表2所示。经统计,两种评价法的结果一致率为78.8%(其中,7月份为100%,8月份为60.6%,9月份为75.8%),其中不一致的个例均属于相邻营养等级。

通过对两种方法的评价结果进行综合可知,2012年7—9月份,太湖水体共出现3种营养类型,分别为中营养、轻度富营养和中度富营养。其中,中营养主要分布于东太湖,轻度富营养主要分布于湖心区和东部沿岸区,中度富营养主要分布于西北部湖区,这种水质分布状况与张晓晴等[20]的研究结果基本一致。太湖水体整体表现为轻度到中度富营养状态。

图3 SVM和SCO方法对太湖33个监测点7—9月营养状态的评价结果比较Fig.3 Comparison results of Taihu Lake's 33 monitoring sites from July to September evaluated by the two methods

表2 评分值以及两种方法的评价营养等级Table 2 Scores and the evaluated eutrophication degrees of two methods

续表

在7月份的评价结果中,SVM法得出太湖大部分水域的营养类型为轻度富营养,竺山湖为中度富营养,东太湖为中营养;SCO法得出的结果和SVM法结果一致。

在8月份的评价结果中,SVM法得出太湖大部分区域为轻富,竺山湖、梅梁湖为中富;SCO法评价结果显示大部分区域为中富,和SVM结果差异较大。

在9月份的评价结果中,SVM法得出太湖大部分区域为轻富,竺山湖、梅梁湖为中富;SCO法评价结果显示竺山湖、梅梁湖和少量西部湖区为中富,其余部分为轻富,总体上和SVM结果比较一致。

两种方法评价结果存在不一致的原因主要如下:

(1)评价原理不同 在SCO评价法中,首先采用线性插值法将各评价指标浓度值转换为相应的评分值,然后计算评分值的均值,并按其所处的区间范围判断营养等级;而在SVM评价法中,首先通过在评价标准各区间范围内,随机生成若干训练样本,然后利用SVM的分类算法,对样本进行训练,获得相应的评价模型,最后利用模型对水体的营养类型进行评价。两种方法评价原理的不同,会使评价结果产生差异。

(2)SVM评价法的建模过程存在随机性 由于SVM法所用的训练样本是随机产生的,而不同的训练样本,一般会得出不同的模型。这在一定程度上,也会对SVM评价模型的表现产生影响。

虽然两种方法的评价结果一致率为78.8%,但以上的结果及其分析表明SVM评价法是有效的,能够作为太湖富营养化状态评价的一种可选的新方法。但由于SVM方法基于低维变量和小样本数据,具有更好的泛化性;同时核函数的引入,提高了模型收敛性。

4 结论

本研究根据已有的湖库富营养化程度评价标准,建立了太湖富营养化评价的支持向量机模型,然后分别运用该模型和线性插值评分法(SCO),对太湖2012年7—9月33个站点的99组水质数据进行了评价。通过对评价结果的对比分析,得到以下结论:

(1)2012年7—9月份,太湖水体共出现3种营养类型,中营养主要分布于东太湖,轻度富营养主要分布于湖心区和东部沿岸区,中度富营养主要分布于西北部湖区,太湖水体整体表现为轻度到中度富营养状态。

(2)本研究建立的支持向量机评价模型能够有效应用于太湖富营养化状态评价。实际应用表明两种方法的评价结果一致率为78.8%,存在不一致的个例均属于相邻营养等级。考虑到两种方法的评价原理不同,且建模过程存在随机性,78.8%的一致率是可以接受的,说明运用支持向量机建立太湖富营养化评价模型是有效的,且具有更好的收敛性和泛化性。

[1]Wu M,Li ZY,Liu ZY,Li D P.Application of improved set pair analysis to assessment of lake eutrophication.Water Resources Protection,2009,25(2):5-9.

[2]Taheriyoun M,Karamouz M,Baghvand A.Development of an entropy-based fuzzy eutrophication index for reservoir water quality evaluation.Iranian Journal of Environmenal Health Science& Engineering,2010,7(1):1-14.

[3]Pappas J L.Phytoplankton assemblages,environmental influences and trophic status using canonical correspondence analysis,fuzzy relations,and linguistic translation.Ecological Informatics,2010,5(2):79-88.

[4]Zhang P,Huang Y L,Chen Y Y,Hu X L,Liu D F.Fuzzy mathematics for evaluation of eutrophication in Xiangxi Bay.Environmental Science&Technology,2012,35(6):173-179.

[5]Jiang L X,Yu SJ,Wei D B,Liu T,Zhang Z F.Grey situation decision method aplying to eutrophication evaluation for Lakes.Environmental Sciences and Management,2006,31(2):10-12.

[6]Hu L H,Pan A,Li T S,Li C Z,Wang Y H.Application of the grey clustering method to assessing the eutrophication of Shengzhong Reservoir.Journal of Agro-Environment Science,2008,27(6):2407-2412.

[7]Zou CW,Jin X C,Xiong J Q,Li Z Y.Evolutionary ant colony algorithm and its application in evaluating the eutrophic state of lake.Research of Environmental Sciences,2006,19(5):149-153.

[8]Dang Y,Li Z Y,Zou Y L.Lake eutrophic evaluation based on bee immune evolutionary algorithm.Journal of Anhui Agricultural Sciences,2010,38(16):8618-8619,8695.

[9]Lin G S,Huang X Y,Li J.Application of artificial neural network method on eutrophication assessment for Shenzhen Reservoirs.The Administration and Technique of Environmental Monitoring,2010,22(1):59-63.

[10]Cui D W.Applications of several neural network models to eutrophication evaluation of lakes and reservoirs.Water Resources Protection,2012,28(6):12-18.

[11]Zhang C L,Fang C,Huang W J.Comprehensive evaluation method of projection pursuit based on particle swarm optimization in lake Eutrophication.Journal of Anhui Agricultural Sciences,2010,38(27):14823-14825,14830.

[12]Vapnik V.The nature of statistical learning theory.New York:Springer Verlag,1995.

[13]Shi X,Xiong Q Y,Lei L N.A comparative study of eutrophication evaluation models based on SOM neural network and SVM.Journal of Chongqing University,2010,33(3):119-123.

[14]Yang D J,Wang R,Shen G.SVM and ANN applied to evaluation of lake eutrophication:A comparative study.Environmental Science&Technology,2012,35(1):173-177.

[15]Xu L,Wang JY,Zhang B,Li Z Y.A hybrid TS-SVM model for evaluation of lake eutrophication.Advanced Materials Research,2012,463-464:917-921.

[16]Liu X,Lu W.Study on the application of SVM in text classification.IT Education,2007,2:72-77.

[17]Hsu CW,Chang C C,Lin C J.A practical guide to support vector classification.http://www.csie.ntu.edu.tw/—cjlin/libsvm/index.html.

[18]Wang M C,Liu X Q,Zhang JH.Evaluate method and classification standard on lake entrophication.Environmental Monitoring in China,2002,18(5):47-49.

[19]Chang CC,Lin CJ.LIBSVM:a library for support vector machines.ACM Transactions on Intelligent Systems and Technology,2011,2(3):1-27.

[20]Zhang X Q,Chen Q W.Spatial-temporal characteristic of water quality in Lake Taihu and its relationship with algal bloom.Journal of Lake Sciences,2011,23(3):339-347.

参考文献:

[1]邬敏,李祚泳,刘智勇,李大鹏.一种改进的集对分析法在湖泊富营养化评价中的应用.水资源保护,2009,25(2):5-9.

[4]张平,黄钰铃,陈媛媛,胡响铃,刘德富.模糊数学在香溪河库湾富营养化评价中的应用.环境科学与技术,2012,35(6):173-179.

[5]蒋利鑫,于苏俊,魏代波,刘涛,张子峰.湖泊富营养化评价中的灰色局势决策法.环境科学与管理,2006,31(2):10-12.

[6]胡丽慧,潘安,李铁松,李成柱,王佑汉.灰色聚类法在升钟水库水体富营养化评价中的应用.农业环境科学学报,2008,27(6):2407-2412.

[7]邹长武,金相灿,熊建秋,李祚泳.进化蚁群算法及其在湖泊富营养化评价中的应用.环境科学研究,2006,19(5):149-153.

[8]党媛,李祚泳,邹艳玲.基于蜜蜂免疫进化算法的湖泊富营养化评价.安徽农业科学,2010,38(16):8618-8619,8695.

[9]林高松,黄晓英,李娟.人工神经网络在深圳市水库富营养化评价中的应用.环境监测管理与技术,2010,22(1):59-63.

[10]崔东文.几种神经网络模型在湖库富营养化程度评价中的应用.水资源保护,2012,28(6):12-18.

[11]张春乐,方崇,黄伟军.基于粒子群算法湖泊富营养化评价的投影寻踪方法.安徽农业科学,2010,38(27):14823-14825,14830.

[13]石欣,熊庆宇,雷璐宁.SOM网络与SVM在水质富营养化评价中的对比.重庆大学学报,2010,33(3):119-123.

[14]杨道军,王冉,沈刚.SVM与ANN在湖泊富营养化评价中的对比研究.环境科学与技术,2012,35(1):173-177.

[16]刘霞,卢苇.SVM在文本分类中的应用研究.计算机教育,2007,2:72-77.

[18]王明翠,刘雪芹,张建辉.湖泊富营养化评价方法及分级标准.中国环境监测,2002,18(5):47-49.

[20]张晓晴,陈求稳.太湖水质时空特性及其与蓝藻水华的关系.湖泊科学,2011,23(3):339-347.

猜你喜欢
维空间训练样本富营养化
基于临界点的杭州湾水体富营养化多年变化研究
海洋通报(2022年4期)2022-10-10 07:41:48
Update on Fengyun Meteorological Satellite Program and Development*
洪口水库近年富营养化程度时间分布的研究
人工智能
洞庭湖典型垸内沟渠水体富营养化评价
从零维到十维的空间之旅
大众科学(2016年11期)2016-11-30 15:28:35
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
电视技术(2016年9期)2016-10-17 09:13:41
基于稀疏重构的机载雷达训练样本挑选方法
富营养化藻的特性与水热液化成油的研究