河流健康评价的回归支持向量机模型及应用

2014-05-12 07:31
水资源保护 2014年3期
关键词:样本容量清水河河流

刘 艳

(云南省水文水资源局文山分局,云南文山 663000)

河流健康评价的回归支持向量机模型及应用

刘 艳

(云南省水文水资源局文山分局,云南文山 663000)

建立河流健康评价指标体系、分级标准及回归支持向量机(SVR)河流健康评价模型,并以云南省文山州清水河健康评价为例进行研究。首先,利用层次分析法(AHP)从水文水资源、物理结构、水质、水生生物和社会服务功能5个方面遴选出13个评价指标,构建3个层次的河流健康评价指标体系和5个等级的分级标准;其次,基于SVR原理,利用随机生成和随机选取的方法,在等级标准阈值间构造5种不同容量大小的训练样本和检验样本,提出5种不同容量方案的SVR河流健康评价模型,设计合理的输出模式,并构建具有良好性能的RBF(radial basis function neural network)回归模型作为对比模型,利用模型随机5次运行的平均相对误差绝对值、最大相对误差绝对值和运行时间对各方案模型性能进行评价;最后,利用达到期望精度的SVR模型对实例进行评价分析。结果表明:①无论是训练样本还是检验样本,5种方案的SVR模型的预测精度和泛化能力均优于RBF模型。在相同参数设置条件下,SVR模型随着样本容量的增加其精度和泛化能力变化不大;而RBF模型随着样本容量的增加其精度和泛化能力均有提高。表明SVR模型具有较高的精度和泛化能力,可以用于河流健康评价,尤其在小样本情况下,SVR模型的精度和泛化能力是RBF模型不可比拟的。②5种方案的SVR模型对清水河2011—2012年3次调查的评价结果均为健康,但已接近于亚健康。

河流健康;指标体系;分级标准;回归支持向量机;综合评价;云南省

1 研究背景

河流水系是地表水资源最重要的载体,是维系生态系统健康的主要因子,在维系地球水循环、能量平衡、气候变化和生态良性循环中具有重要作用。近年来,随着我国经济社会的快速发展,以及工业化、城市化进程的持续推进,水资源开发过度、水质下降、河湖萎缩和生态环境功能退化等问题日益凸显,河流生态安全受到严重威胁。开展河流健康评价对了解河流生态状况,掌握河流健康变化规律,保障河流水生态系统健康,实现水资源的可持续利用具有重要意义[1]。河流健康状况是多种因素综合影响的结果,是一个涉及自然、社会、经济和生态等多方面的庞大系统工程,其评价表现出多指标、高维、非线性等特征。人工神经网络(artifical neural network,以下简称ANN)是一种模仿动物神经网络行为特征,进行分布式并行信息处理的数学模型。ANN依据系统的复杂程度,通过调整内部大量节点之间相互连接的关系来处理信息。在处理复杂、高维、非线性系统和不确定性问题方面,ANN有着广泛的应用[2]。然而,由于传统ANN算法是基于渐近理论,是当样本容量趋向于无穷大时的解决方案,因此,在实际应用中存在着当样本容量有限时可能出现较差的推广能力、结构及参数选择困难、收敛速度慢和易陷入局部极值等问题[3-4]。支持向量机(support vector machine,SVM)是20世纪90年代中后期发展起来的基于统计学习理论构建的典型神经网络,是一种通用的前馈神经网络,用于解决模式识别和非线性映射问题。SVM具有严谨的数学基础,通过统计学习中的VC维(vapnik-chervonenkis dimension)理论和寻求结构风险最小化原理来提高泛化能力,已成为继ANN之后机器学习领域新的研究热点,尤其在解决小样本容量问题时,很大程度上解决了传统ANN在模型选择、高维和局部极值等方面的问题,在模式识别和回归预测中有着广泛的应用[5-6]。将SVM引入河流健康评价主要存在着2个方面的问题:一是我国河流健康评价工作正处于试点阶段,与发达国家相比还存在较大差距,主要表现在未建立统一、完善的河流健康评价指标体系和分级标准,评价方法主要以主观赋分或赋权法为主,存在一定的缺陷;二是如何科学、合理评价河流健康评价模型的性能,以及如何解决数据样本、样本容量及输出模式等问题。

笔者参考文献[7-10],利用层次分析法(analytical hierarchy process,AHP)构建包含目标层、准则层和指标层3级的河流健康评价指标体系和“理想状态”、“健康”、“亚健康”、“不健康”和“病态”5个等级的分级标准;基于回归支持向量机(support vector regression,SVR)基本原理,提出基于不同样本容量的SVR河流健康评价模型,并构建具有良好性能的RBF(radial basis function neural network,RBF)回归模型作为对比模型,以云南省文山州清水河为例进行验证,为即将全面开展的河流健康评价提供借鉴和参考。

2 河流健康内涵及评价指标体系

2.1 河流健康内涵

自从“河流健康”概念被提出以来,其内涵至今仍存在着争议,但由于“健康”比喻对于大众而言易于理解,引起了人们对河流生态状况的广泛关注。河流健康评价在西方发达国家和一些发展中国家得到了应用,以欧盟水框架指令、美国河湖健康评价、澳大利亚河流及湿地健康评价、南非河流健康计划等的影响最大[1,8]。我国河流健康评价正处于试点阶段。从国外河流健康评价历程来看,河湖健康评价中提出的社会背景是人类经济社会的快速发展和水资源的过度开发严重威胁到河流生态系统生态服务功能的可持续提供,同时也严重威胁到河流生态系统所支撑维持的生物多样性。因此,河流健康可理解为:河流自然生态状况良好,同时具有可持续的社会服务功能。河流健康概念源于人类对河流环境退化的关注,其内涵不仅包含了河流为人类所提供的服务,还包含维持河流自身复杂特征,满足人类需求。河流健康的主体由河流生态系统以及所支撑的经济社会系统构成[11-12]。

2.2 指标体系的建立

我国在构建评价指标体系过程中需考虑以下制约因素:①由于我国流域内人口密集,生态用水和经济社会用水竞争激烈,导致在健康河流评价指标上更强调维持河流自身生命及其功能的健康,更关注和突出人水关系;②在河流健康评价时,仍侧重于借助化学手段以及少量生物监测手段评估河流水质状况;③实例研究多以单条河流为主,缺乏对流域、水系、河流不同空间尺度的探讨;④迄今国内尚未形成统一或公认的河流健康评价指标体系。笔者充分考虑我国河流生态系统的特征及经济社会发展背景,遵循科学性、系统性、层次性、独立性和指标定量性与可操作性的指标选取原则,利用AHP方法从水文水资源(HD)、物理结构(PF)、水质(WQ)、水生生物(AL)和社会服务功能(SS)5个方面遴选出13个评价指标构成河流健康评价指标体系,将河流健康评价分为目标层A、准则层B和指标层C 3个层次。

河流健康评价指标体系见表1。

2.3 指标体系等级的建立

按照上述所构建的河流健康评价指标体系,参考文献[7,9-10],构建河流健康评价指标分级标准,将河流康评价分为理想状态、健康、亚健康、不健康和病态5个等级,分别用5~1级表示,见表2。

3 SVR评价模型

SVM最初是为研究线性问题而提出的,其用于模式识别的基本思想是通过非线性变换将输入空间变换到一个高维空间,在此新空间通过求解凸二次规划问题,寻求最优线性分类超平面;而用于回归预测时,其基本思想不再是寻找最优分类面来将样本分开,而是寻找一个最优超平面,使得所有训练样本离该最优超平面距离最短,这个超平面可看作拟合好的曲线。将SVM用于逼近函数的方法称为SVR。SVR 实现回归预测步骤归纳如下[5,13]。

步骤1 设含有l个训练样本的集合{(xi,yi),i=1,2,…,l},其中,xi(xi∈Rd)是第i个训练样本的输入列向量为对应输出值。在高维特征中建立的线性回归函数为

式中:f(x)为回归函数返回的预测值;Φ(x)为非线性映射函数;w为超平面的权值向量,b为偏置项。

步骤2 定义ε线性不敏感损失函数为

式中:y为对应真实值;ε为不敏感损失函数所定义的误差。

表1 河流健康评价指标体系

表2 河流健康评价指标分级标准

式中:C为惩罚因子,C越大表示对训练误差大于ε的样本惩罚越大,ε规定了回归函数的误差要求,ε越小表示回归函数的误差越小。求解式(3)时,同时引入Lagrange函数,并转换成对偶形式:

其中,只要部分参数(ai-a*i)不为0,其对应的样本xi即为问题中的支持向量。

4 网络训练与性能评价

4.1 指标数据归一化处理

为了消除表2中各评价指标不同量纲及“方向”对评价结果的影响,需对评价指标数据进行归一化和一致性处理。对于指标值越大河流健康状态越理想的指标,按式(8)进行归一化处理;对于指标值越小河流健康状态越理想的指标,对其取倒数后乘以100,再按式(8)进行处理。

式中:^x为经过归一化处理的数据;x为原始数据;为了使各评价指标具有相同的权重,这里取xmax为各评价指标上限阈值的2倍;xmin为各评价指标下限阈值的10%。经过标准化处理后,数据处于0~1范围之内,有利于网络训练。

4.2 样本及输出设计

在解决小样本回归预测问题上,基于结构风险最小化原则的SVR比基于经验风险最小化原则的传统ANN有着较大优势。为验证不同样本容量对SVR模型性能的影响,采用随机生成样本的方法在各评价等级阈值间生成5种不同容量大小的样本方案,随机选取样本总量的3/5作为训练样本,余下的样本作为检验样本。设计各模型的输出模式见表3。

4.3 网络训练及性能评价比较

本文基于Matlab环境和libsvm工具箱,创建SVR及RBF回归模型对表3设计的5种方案的样本进行训练和检验,经过反复调试,SVR及RBF模型参数设置如下时,模型具有较好的预测精度(为使模型在不同样本容量情况下具有可比性,SVR及RBF的5种模型方案除样本容量大小不一致外,其余参数设置均相同)。

表3 5种方案的样本及期望输出设计

SVR模型:SVR在选定核函数条件下,模型中的惩罚因子C和核函数参数g的选取对模型的识别精度有着关键性影响。参考文献[4-5,10],选择径向基核函数为SVR的核函数,设置惩罚因子C和核函数参数g的搜索空间均设置为2-2~26,交叉验证折数K设置为5,g和C的步进大小均取0.5,不敏感系数ε为0.001(其他参数采用默认值),利用交叉验证法(cross validation,CV)确定模型中的惩罚因子C和核函数参数g(由于采用随机生成及随机选取样本,因此每次运行的参数可能不同)。

RBF模型:编写循环训练算法程序,最终确定RBF神经网络在径向基函数分布密度spread和期望误差分别为1和0.0001时,模型性能达到最优。

本文以平均相对误差绝对值、最大相对误差绝对值和模型运行时间作为评价SVR及RBF回归模型性能优劣的指标。由于训练样本和检验样本是通过随机生成和随机选取产生,因此模型每次运行结果均不一样。某次随机连续5次运行的统计指标平均值见表4。

表4 SVR及RBF回归模型误差及运行时间

由表4可得出以下结论:①从SVR模型方案1至方案5的误差值来看,其训练样本及检验样本的平均相对误差绝对值和最大相对误差绝对值分别在1.65%~2.49%、2.26% ~3.10%和7.76% ~16.46%、9.60% ~14.52%之间,均优于对应的RBF模型,表明SVR回归模型具有较好的预测精度和泛化能力,将其用于回归预测评价是合理可行的。②从同一模型不同方案的误差值来看,SVR模型随着样本容量的增加,其预测精度和泛化能力变化不大;RBF模型随着样本容量的增加,其预测精度和泛化能力均有提升,表明SVR模型对样本容量大小不敏感,尤其在小样本情况下,SVR模型的预测精度和泛化能力是RBF所不可比拟的。③从模型的运行时间来看,SVR模型随着样本容量的增加运行时间显著增加,RBF模型随着样本容量的增加运行时间略有增加,表明增加样本容量无助于提高SVR模型的预测精度和泛化能力,反而使SVR模型性能下降。

本文主要基于模型的预测精度和泛化能力考虑,选取不同样本容量的SVR模型作为文山州清水河健康评价模型。

5 实例应用

5.1 研究区概况

清水河又名北门河,位于云南省丘北县境内,发源于丘北县八道哨乡五家寨西缘,自源地向东流经普者黑湖,于天星乡小法白村汇入清水江,属珠江流域西江水系,为南盘江的二级支流。清水河河长61.5km,落差727m,平均坡降0.77%,有清平河、旧城河、高枧槽河、碧松就河等多条支流,集水面积1533.5 km2,多年平均流量18.2m3/s,多年平均径流量5.11亿m3。清水河上游建有红旗水库,又称摆龙湖,总库容5 400万m3;中游是普者黑湖,为河道型湖泊群,水面面积约为6 km2,水深3~4 m。近年来,随着流域内经济社会及旅游业的迅猛发展,清水河受到了不同程度的污染,河流生态系统结构、社会服务功能等随之发生了变化。因此,开展清水河健康评价对了解河流生态健康状况、掌握健康变化规律、制定流域规划具有重要意义[1]。清水河2011—2012年3次调查评价指标数据详见表5。

表5 清水河健康评价指标数据[1]

5.2 评价结果及分析

利用上述训练好的5种样本容量方案的SVR模型对清水河健康状况进行评价,并将表2中河流健康评价分级阈值进行模拟计算,将输出结果作为划分河流健康等级的依据。输出及评价结果见表6和表7。

表6 SVR模型河流评价等级临界值输出结果(随机5次平均)

从表6和表7可以得出以下结论:①5种样本容量方案的SVR模型对清水河的3次调查评价结果均为4级,即处于健康状态,但从输出结果来看,已接近于亚健康状态。评价结果基本反映了目前清水河健康状态。②从清水河健康调查评价指标值可以看出,随着流域内水资源的开发利用和人类活动的加剧,河流在生态流量满足程度、河岸稳定性、植被覆盖率,以及防洪设施、公众满意度等方面表现较差,导致清水河目前虽处于健康状态,但已接近亚健康状态。

表7 SVR模型清水河健康评价结果(随机5次平均)

6 结语

河流健康是一个相对概念,具有一定的主观性。依据《湖泊健康评估指标、标准与方法(试点工作用)》,从河流的功能属性出发,以河流健康概念为基础,笔者提出了包括水文完整性、物理结构完整性、化学完整性、生物完整性和服务功能完整性5个方面的河流健康评价指标体系和分级标准,构建了不同样本容量的数据样本,提出基于SVR回归原理的河流健康评价模型,对清水河健康状况进行了评价。但由于河流健康评价属于多学科交叉综合评价问题,其评价指标体系涉及多个领域,内容广泛,加之制约河流健康的因素众多,因此,本文所提出的河流健康指标体系及评价方法还有待进一步研究和完善。

[1]云南省水文水资源局.云南省文山州清水河健康评估试点报告(送审稿)[R].昆明:云南省水文水资源局,2012.

[2]田景文,高美娟.人工神经网络算法研究及应用[M].北京:北京理工大学出版社,2006.

[3]田雨波.混合神经网络技术[M].北京:科学出版社,2009.

[4]王雷.支持向量机在汽轮机状态监测中的应用[M].北京:北京师范大学出版社,2012.

[5]崔东文.支持向量机在湖库营养状态识别中的应用研究[J].水资源保护,2013,29(4):26-30.(CUI Dongwen.Application of support vector machine to lake and reservoirtrophic statusrecognition[J].Water Resources Protection,2013,29(4):26-30.(in Chinese))

[6]张楠,夏自强,江红.基于多因子量化指标的支持向量机径流预测[J].水利学报,2010,41(11):1318-1323.(ZHANG Nan,XIA Ziqiang,JIANG Hong.Prediction of runoff based on the multiple quantity index of SVM[J].Journal of Hydraulic Engineering,2010,41(11):1318-1323.(in Chinese))

[7]办资源〔2010〕484号 河流健康评估指标、标准与方法(试点工作用)[S].

[8]孙雪岚,胡春宏.河流健康评价指标体系初探[J].泥沙研究,2007(4):21-27.(SUN Xuelan,HU Chunhong.River health evaluation index system[J].Journal of Sediment Research,2007(4):21-27.(in Chinese))

[9]崔东文.RBF与GRNN神经网络模型在河流健康评价中的应用:以文山州区域中小河流健康评价为例[J].中国农村水利水电,2012(3):56-61.(CUI Dongwen.RBF and GRNN neural network model in the evaluation of river health[J].China Rural Water and Hydropower,2012(3):56-61.(in Chinese))

[10]崔东文,郭荣.基于GRNN模型的区域水资源可持续利用评价:以云南文山州为例[J].人民长江,2012,43(5):26-31.(CUI Dongwen,GUO Rong.Evaluation of sustainable utilization of regional water resources based on GRNN neural network model:case of Wenshan Prefecture of Yunnan Province[J].Yangtze River,2012,43(5):26-31.(in Chinese))

[11]杨文慧,严忠民,吴建华.河流健康评价的研究进展[J].河海大学学报:自然科学版,2005,33(6):607-611.(YANG Wenhui,YAN Zhongmin,WU Jianhua.Advances in river health assessment[J].Journal of Hohai University:Natural Sciences,2005,33(6):607-611.(in Chinese))

[12]蔡守华,胡欣.河流健康的概念及指标体系和评价方法[J].水利水电科技进展,2008,28(1):23-27.(CAI Shouhua,HU Xin.Concept of river health and index system for its evaluation[J].Advances in Science and Technology of Water Resources,2008,28(1):23-27.(in Chinese))

[13]史峰,王辉,郁磊,等.MATLAB智能算法30个案例分析[M].北京:北京航空航天大学出版社,2011.

Regression support vector machine for river health assessment and its application

LIU Yan
(Wenshan Branch of Yunnan Provincial Hydrology and Water Resources Bureau,Wenshan 663000,China)

A river health assessment index system,grading standards,and a support vector regression(SVR)river health assessment model are proposed for health assessment of the Qingshui River in Wenshan,in Yunnan Province.In this study,first,13 evaluation indices were selected with the analytic hierarchy process(AHP)in terms of hydrology and water resources,physical structure,water quality,aquatic organisms,and social services,in order to construct a three-level river health assessment index system as well as five-level grading standards.Then,based on the SVR principle,the random generation and random selection methods were used to construct five training and testing samples with different capacities in grading thresholds.Five models with different capacity solutions were developed for the SVR river’s health assessment.A reasonable output mode was designed,and the corresponding radial basis function neural network(RBF)regression model,which showed a good performance,was built as a comparison model.After the model ran five times stochastically,the absolute value of the average relative error,the absolute value of the maximum relative error,and the runtime were used to evaluate the performance of the model in each program.Finally,the SVR model that achieved the desired accuracy was evaluated and analyzed in a case study.The results are as follows:(1)For either the training sample or the testing sample,the SVR model in five programs had a higher prediction accuracy and better generalization ability than the RBF model.Under the same parameter setting conditions,as the sample size increased,the SVR model’s accuracy and generalization ability changed insignificantly,while the RBF model’s accuracy and generalization ability improved,indicating that the SVR model has higher accuracy and better generalization ability and can be used for river health assessment,especially in the cases of small samples.In this regard,the RBF model is totally uncompetitive.(2)The SVR model in the five programs was applied to the evaluation of the Qingshui River during the period from 2011 to 2012.The results of the survey carried out three times show that the river was healthy,but nearly sub-healthy.

river health;index system;grading standards;support vector regression machine;comprehensive assessment;Yunnan Province

X824

A

1004-6933(2014)03-0025-06

10.3969/j.issn.1004-6933.2014.03.006

刘艳(1966—),女,工程师,主要从事水环境监测评价及水资源保护等工作。E-mail:1464531959@QQ.com

(收稿日期:2013-08-26 编辑:彭桃英)

猜你喜欢
样本容量清水河河流
清水河边
清水河生态清洁小流域
采用无核密度仪检测压实度的样本容量确定方法
河流
流放自己的河流
陆西地区清水河组一段储层特征及差异性分析
一条清水河
当河流遇见海
广义高斯分布参数估值与样本容量关系
多种检测目标下样本容量设计的比较