周勇 李龙 唐四薪
摘 要:对城市区域水体数据采用改进BIRCH聚类方法进行异常点筛查,运用神经网络技术对水质数据进行预测,然后采用基于熵的正交投影方法对水质进行评价,从而得出水质的变化趋势。
关键词:BIRCH聚类;TOPSIS法;正交投影法
基金项目:湖南省教育厅高校科研计划一般项目(项目编号:15C0202)。
1 引言
随着现代社会的发展,人类工业生产范围不断扩大,城市不断扩张,整个社会的用水量急剧增加,相应地排放的污水量也大量增加。目前许多城市区域的水体都遭受了工业及生活污水的污染,水污染防治已经成了全球性的难题,这种情况在发展中国家尤甚。在水污染的防治中,水质的评价和预测非常重要,它可以为防治工作提供很好的决策支持。目前科学工作者分别对水质的评价和预测提出了不少方法,评价方法主要有:模糊数学法、灰色聚类法、综合指数法等,预测方法主要有:灰色系统理论预测法、数理统计预测法、神经网络模型预测法等[1]。
在防治工作决策中,水质的预测和评价是紧密相关的两个环节。预测水质数据的变化、评价水质的等级以此来得出水体质量的变化趋势,对水体污染防治工作非常重要。本文将采用数据挖掘的相关技术对影响水质的数据变化进行预测,并根据预测数据对未来水质进行评价,以此为防治工作提供决策支持。
2 水质数据预测
1)数据预处理。由于水质数据维度不高,且同一参数的数据类型一致,结构简单,都是数值型,因此采用改进的BIRCH聚类分析可以快速地筛除异常点,排除意外干扰。BIRCH聚类算法只需扫描一次数据库,聚类特征是一个包含簇的三元组CF=(N,LS,SS)。找异常点时可采用多棵CF树,每棵CF树代表一个簇,并结合DBSCAN算法的点密度的思想,每棵树的叶子结点都是由相邻的核心点构成,聚类结束后不属于某棵树的对象就是噪聲点[2],作为异常点删除。
2)数据预测。将去除异常点的水质数据,分为训练集和测试集(通常测试集规模小于训练集规模),现采用BP神经网络进行数据预测,其中训练集用来训练BP神经网络,测试集用来测试训练后得到的BP神经网络是否合理。表1是湘江流域某监测点经过处理后的2015年二季度的一组水质相关数据(单位:mg/L,除PH无量纲外)。
任选15组数据作为训练输入,剩下1组数据作为训练输出来训练BP神经网络。训练结束后,另选15组(组号与训练集不同)数据作为测试输入,剩下1组数据作为测试输出。在MATLAB中选用tansig和purelin作为激活函数。
训练过程如图1:
结果表明训练得到的网络精度符合要求。预测结果与实际数据对比如表2:
均方误差MSE的值为0.0051,符合要求。说明得到的BP神经网络的预测效果达到预期目标,可以用于下一时段该区域的水质指标的预测。
3 水质的评价
运用上述方法得到流域内几个不同监测点的预测数据后,参考中华人民共和国《地表水环境质量标准》,采用基于熵权的正交投影TOPSIS方法进行水质评价[3],可以高效地得到各监测点的水质预测等级。
评价结果与实际检测等级对比如表3:
由此可知,该预测结果与实测结果吻合度高,方法可行。
4 结语
在保障用水安全上,水质的预测和评价是紧密相关的两个环节,实验证明运用数据挖掘的相关技术对水质数据进行预处理,然后再进行预测分析以及最后对预测水质数据进行评价,结果可信,可以为保障用水安全提供有力的预警支持。
参考文献
[1]郑一华.基于支持向量机的水质评价和预测研究[D].河海大学,硕士学位论文,2006.
[2]韦相.基于密度的改进BIRCH聚类算法[J].计算机工程与应用,2013,49(10):201-205.
[3]张先起,梁川,刘慧卿.基于熵权的改进TOPSIS方法在水质评价中的应用[J].哈尔滨工业大学学报,2007,39(10):1670-1672.
作者简介
周勇(1972-),男,湖南衡阳,衡阳师范学院讲师,硕士,研究方向:智能计算。