支持向量机在珠江流域片地下水水质评价中的应用

2016-08-22 09:58钱党钳
地球 2016年3期
关键词:珠江流域水质评价分类器

■ 钱党钳

(广东省地质灾害应急抢险技术中心广东广州510425)

支持向量机在珠江流域片地下水水质评价中的应用

■钱党钳

(广东省地质灾害应急抢险技术中心广东广州510425)

本文采用支持向量机方法,结合珠江流域片的地下水实际特征与水质监测数据,选取pH、Mn、铁离子、氨氮、F-、NO3-、NO2-七项指标作为评价因子,对区域地下水水质进行评价。研究结果表明:区内地下水多为I类和Ⅲ类水,少部分为Ⅴ类水,且水质较差的地区集中在一些地下水开采量较大的地区,这说明地下水的开采使浅层地下水受到不同程度的污染,对地下水环境造成了不良影响,应引起有关部门关注。

向量机水质应用

0 引言

地下水污染是当今世界面临的亟待解决的水环境问题之一。地下水水质评价是正确认识和研究地下水环境问题的重要内容,评价工作目的在于准确反映区域地下水环境质量和污染状况并预测未来的水质趋势,是地下水环境管理保护和治理恢复的基础性工作之一。

在进行地下水水质评价过程中,选择正确合理的、能够准确反映水环境质量状况的评价方法至关重要。支持向量机(Support Vector Machine,SVM)是近年兴起的一种新算法,由于其优越的分类性能与计算速度,在许多领域得到了应用和研究。本论文在已有成果的基础上,研究支持向量机在珠江流域地下水水质评价中的应用,将支持向量机算法引入到地下水水质评价过程中,对区域地下水水质进行评价。通过基于支持向量机的地下水水质评价,可为珠江流域片地下水资源的开发利用和管理提供科学的依据。

1 SVM基本原理

SVM是Vapnik于20世纪90年代开发的一种非线性回归预测方法,其思想主要是通过非线性变换将输入向量映射到高维空间,在高维空间中寻求最优分类面。在映射过程中引入的函数称为核函数。

1.1线性支持向量机分类

SVM核心问题为寻求最优超平面,其基本思想可用图1的情况来说明:H为最优分类超平面可将两类样本正确无误的分开,而且使H1与H2之间的分类间隔最大,距最优分类超平面最近的向量称为支持向量(SV)(范昕炜,2003)。

图1 线性可分示意图

设线性可分样本集为(xi,yi),i=1,2,…,n;类别标号y={1, -1},超平面程为:

最优判断函数为:

1.2非线性支持向量机分类及核函数

对于非线性问题,主要是依据Cover定理(梁宏霞,2009),可通过核函数的内积变换,将输入向量转化为某个高维空间中的线性问题,在高维空间中寻求最优分类超平面。

首先,在约束条件上加入一个松弛变量ξi≥0,则优化问题为:

支持向量机的这种非线性变换通过定义适当的核函数来实现,选择不同的核函数就构成不同的支持向量机,常用的核函数有以下4类:(1)线性核函数(linear);(2)多项式内核(polynomial);(3)径向基函数核函数(RBF);(4)二层神经网络核函数(sigmoid核函数)。

1.3多类支持向量分类

以上介绍的支持向量机仅能解决二分类问题,在实际应用中常常会遇到多分类问题,多分类问题有很多解决方法,常见的多分类器有:一对多分类器,一对一分类器,支持向量机决策树等(曹晓强等,2008)。

(1)一对多方法。是最早实现SVM对多类别进行分类的方法。其基本想法是将所有的样本变成一个二分类的问题进行解决,即选取其中的一种类别样本作为一个类别,剩下的类别样本作为另一个类别。此种算法的优点是对于k类问题,只需训练k个子分类器,得到的分类函数个数较少,分类速度也随之加快。但是因为每个分类器的训练都是把全部样本作为训练样本,就要求多个变量来实现二次规划问题,导致训练时间加长。(2)一对一方法。具体做法是在整个样本中随意地抽取2类进行两两配对,就把多分类问题转化成二分类问题来进行训练学习,一般采用投票来完成多分类的识别。其优点在于对结果的推广进行了分析,其缺点在于测试的速度很慢,因为将整个样本转化为二分类后就会产生有过多的子分类器,在测试时要对每两类一一进行比较。不过与一对多的方法对比,一对一方法所需训练的时间还是要短的。(3)支持向量机决策树。通常和二叉树结合起来,构成多类别的识别器。该方法的缺点是如果在某个节点上发生了分类错误将会把错误延续下去,该节点后续下一级点上的分类就失去了意义。

2 珠江流域地下水水质评价

2.1研究区概况

珠江流域片(简称珠江片),包括珠江流域、韩江流域以及广东、广西沿海诸河、云南和广西的国际河流范围,涉及云南、贵州、广西、广东、海南、湖南、江西、福建8个省(自治区),地理位置为E102° 06′~117°18′、N43°41′~26°49′,流域面积为79.63万Km2,约占我国国土总面积的8.3%。区域属亚热带季风气候,温和多雨,多年平均温度在14~22°C之间,降雨量充沛,多年平均年降雨量1525.1毫米。

流域地处珠江三角洲断陷区,属平沙断裂和横琴—三灶断裂向的梯形断块。总体地形由西北向东南倾斜,主要山脉呈北东向分布。区内充沛的降雨,为地下水补给创造了良好条件。地下水类型主要包括潜水、承压水和基岩裂隙水。潜水主要赋存于中粗砂和粘土质粗砂砾中;承压水主要赋存于粗砾砂层及细砂中;基岩裂隙水赋存于强风化花岗岩及中风化花岗岩裂隙中,具有微承压性。

2.2数据资料

本研究所采用的水质资料主要来源于广西、广东和海南等省的地下水监测数据,水质监测数据见表1。

表1 地下水水质监测数据表 mg/L

3 模型应用过程及结果讨论

3.1评价因子及样本集数据处理

首先参照地下水环境质量标准,实验性的构造随机数据 (用Matlab中的Rand()函数来实现),最后选择合乎要求的数据作为训练样本。结合珠江流域水质特点及地下水水质标准,在水质评价中选择pH、Mn、铁离子、氨氮、F-、NO3-、NO2-七项指标作为评价因子。

由于水质评价中各项指标的量级不同,须在评价之前进行数据的归一化处理,此处采用极差化处理方法。对训练样本集合按每类中样本数量进行排序,样本数量最多的为第一类,以此类推;构造支持向量机的训练样本集合,如果训练的是第k个支持向量机,则其训练样本集合为

3.2评价模型

支持向量机水质评价按以下基本步骤进行。

(1)核函数及惩罚系数C的选择:

使用LibSVM软件包进行参数推求,通过改变其中的参数来实现核函数、惩罚系数C等的选择。最终选择惩罚系数在100~500,与核函数组合,吻合率最高为96.8661%,对应的惩罚系数为500,核函数选择为高斯核函数,即

(2)将学习样本xi和所对应的分类值yi带入式(5),并求解最大值。求出非零并小于C的拉格朗日算子对应样本作为支持向量。

(3)将支持向量重新组合,并输入学习机中,求出学习机核函数后,将待预测的数据输入评价模型中,得到评价结果。

3.3模型应用及结果

以采样分析数据为例进行实证研究,对研究区水质进行评价,评价结果见表2。

表2 SVM模型运行结果

从上表中可以看出,本区地下水水质多属于III类,占总数的59.1%,I级水占全部评价点的21.74%,特别值得关注的是水质较差的地区集中在广西北海和广东湛江一些地下水开采量较大的地区,这说明地下水的开采使区域浅层地下水受到不同程度的污染,应引起有关部门的关注。

4 结语

(1)本文建立了地下水水质量评价的支持向量机模型,并应用该模型对研究区地下水水质数据进行了评价,评价结果表明,本区地下水水质普遍良好,水质较差的地区集中在广西北海和广东湛江一些地下水开采量较大的地区,这说明地下水的开采使浅层地下水受到不同程度的污染,对地下水环境造成了不良影响。

(2)通过本次评价也发现,在利用支持向量机进行训练的过程中,对训练数据的选择没有统一的规则,而具还存在一定的的随机性,这对最后的训练结果产生一定的影响,有待进一步改进。

[1]范昕炜.支持向量机算法的研究及其应用[D].杭州:浙江大学,2003.

[2]梁宏霞.支持向量机模型研究及应用[D].大连:辽宁师范大学,2009.

[3]曹晓强,黄学敏,刘胜荣,等.微波改性活性炭对甲苯吸附性能的实验研究 [J].西安建筑科技大学学报, 2008,40(2):249-253.

P641[文献码]B

1000-405X(2016)-3-2-2

钱党钳(1965~),男,中专学历,助理工程师,研究方向为水工环。

猜你喜欢
珠江流域水质评价分类器
基于CMIP6的珠江流域未来干旱时空变化
浅谈珠江流域内灯塔旅游的开发
滻灞河水质评价方法研究
我国珠江流域水文化遗产数字化保护策略
基于概率统计和模糊综合评价法的水质评价模型及其应用——以拉萨河水质评价为例
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于SPAM的河流水质评价模型
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别
主体功能区划下的生态补偿标准