李 昂,水西霞,员佳慧,李 嫣
(1.华北水利水电大学,河南 郑州 450046;2.三门峡市陕州区计划节约用水管理中心,河南 三门峡 472000;3.中建七局总承包公司河南分公司,河南 郑州 450012)
水质评价是解决水体污染和保护水环境的基础[1],客观有效的评价结果能为水资源利用和改善水环境等工程措施提供科学支撑,对水源地防污治理、保障饮用水源安全有重大意义[2]。支持向量机是20世纪末提出的一种分类器,属于统计学的分支。随着模式识别中最大边距决策边界的理论研究发展、基于松弛变量的规划问题求解技术和VC维的提出,支持向量机得到极大的发展,目前被广泛地应用在各个领域用来解决分类或回归问题。模糊综合指数法可以用来判断受多个模糊因素影响的事物或事件的总体性质,优点在于能定量地反映系统综合属性。本文利用分类支持向量机、回归支持向量机和模糊综合指数法对云南省文山州13个饮用水水源地进行水质综合评价,并比较评价结果的合理性,为相关水利工作者在进行水质评价时提供更好的选择。
文山壮族苗族自治州(如图1所示),地处我国西南边陲云南省的东南部,总面积约为3.2万km2,区内水系交错,地形复杂多变,多为山区、半山区,平均海拔在1 000~1 800 m,州内辖有8个县区。该州水资源总量较为丰富,但各县区水资源及降水时空分布差异较大。年平均降雨量为1 200 mm,降雨量总体呈北少南多的趋势。
图1 文山壮族苗族自治州水系示意图
本文根据2014年文山市环保局对该州饮用水水源地的监测数据,利用以下评价模型对该州水源地进行水质评价。
本文用到的评价模型分别是FA-SVR(基于萤火虫算法[2]优化学习参数的回归支持向量机)、FA-SVM(基于萤火虫算法优化学习参数的分类支持向量机)和模糊综合指数法。各模型详细描述如下。
由萤火虫算法(FA)及回归支持向量机(SVR)模型原理可知,FA-SVR的原理即为使回归支持向量机模型的误差最小,可通过萤火虫算法来搜寻一组向量(C,g,ε)。其实现步骤为:
(1)根据模型对实测样本数据进行归一化处理;
(2)初始化萤火虫算法相关参数(如萤火虫个数,迭代次数、初始吸引度、步长因子等),确定均方误差MSE为目标函数,对应萤火虫的亮度;
(3)模型运算结束后,进行反归一化处理,最后进行综合水质判断。
由FA算法及SVM模型原理可知,FA-SVM的思想就是通过FA算法搜寻一组向量(C,g)使SVM模型的正确识别率最高。正确识别率依赖于对综合水质的先验判断,应合理地进行先验判断,提高模型可靠性。其实现步骤:
(1)根据模型对实测样本数据进行归一化处理;
(2)初始化萤火虫算法相关参数(如萤火虫个数,迭代次数、初始吸引度,步长因子等),设定惩罚因子C和核函数参数g的搜寻范围,确定正确识别率Accuracy为目标函数,对应萤火虫的亮度;
(3)模型运算结束后,能直接输出对应的水质类别。
模糊综合指数法实现水质评价的主要步骤如下[4]。
(1)设水体中有m个因素可以影响水质,这些因素的有n个评价指标(a=1,2,...,m;b=1,2,...,n),可得评价因素的特征矩阵X=(rij)n·m。综合考虑a中因素,可建立隶属度函数R:
(2)R的现实意义为每个因素对其评价指标的隶属程度。各水质级别的隶属函数由以下函数确定。
第一级:
第二级至第m级:
第m级水的隶属函数:
式中:Wij为第i种因素第j级的评价指标,Ei为第i种因素检测值。
(3)设a=1,2,...,m中各因素的权重为l,L=(l1,l2,...,lm)为所有权重的集合,且,则该模型可以以式(5)表达:
基于GB 3838—2002《地表水环境质量标准》,构造向量PT=(1,2,3,4,5)为水质分级标准。则模糊综合指数(Fuzzy comprehensive index)为:
本文采用2014年云南省文山州内8个县区中13个饮用水水源地水质数据[5]。模型均在Matlab 2018a环境下进行仿真,支持向量机模型利用libsvm工具箱进行编程;计算机配置:Intel(R)Core(TM)i7-8750H CPU@2.20 GHz;内存8 GB。模糊综合指数法部分代码如图1所示。
图1 模糊综合指数法部分代码
萤火虫算法的初始化参数包括:萤火虫数量为20个,迭代次数5 000次,初始光吸收指数1,吸引指数0.2,初始步长系数0.2。
SVR模型学习参数惩罚因子C的搜索空间设为0.1~2 000,核函数参数g的搜索空间设为0.1~1 000,不敏感系数ε的搜索空间设为0~1;SVM模型学习参数惩罚因子C设搜索空间为0.1~2 000,核函数参数g的搜索空间为0.1~1 000。插值法随机生成20组样本,并内插得到120组样本,实测数据及对应评价结果的后8组数据作为测试样本。输出评价结果见表1,仿真图如图2所示。
表1 水质综合评价成果表
图2 回归支持向量机仿真结果
由结果可以看出:评价结果主要在样本4、样本11和样本12存在差异。这3个样本各项因子实测值见表2,各项因子标准见表3。
表2 样本4、11、12的几种因子实测值 单位:mg/L
表3 样本4、11、12的单因子评价结果
根据各项水质评价因子标准,3个样本的单因子评价结果为:
以某类别因子数占优为标准,3个样本的水质综合类别应为1类、1类和2类,样本水质达标。例如针对样本12,两者的结果显示,其水质综合类别虽为3类,但很接近2类水的标准,符合国家GB 5749—2006《生活饮用水卫生标准》相关要求。
模型的改进对水质综合评价的精度有着明显的提高。本文利用新型元启发式算法——萤火虫算法,对SVR模型和SVM模型的学习参数进行优化,建立模糊综合评价模型以文山州13处水源地样本因子进行评价,结果显示13处水源地水质符合国家标准。经参数优化的模糊综合指数法易操作,可以作为水质评价的辅助性参考工具。