张云簧 熊珏
摘要:指出了随着经济社会的高速发展,水资源安全问题日益凸显。竹皮河及其支流作为荆门城区的纳污河流,承接荆门中心城区90%以上工业废水和生活污水,竹皮河及其支流的地表水情况关乎荆门市的经济发展与社会民生。以竹皮河流域为研究对象,通过机器学习的方法对地表水水污染等级进行预报,对竹皮河肖家岗水质自动监测站的周度数据进行了分析,运用最小二乘支持向量机对8周的数据进行了测试。分析结果可知:只有第六个污染等级预报错误,其他的七个污染等级均预报正确。这可充分的说明,五个指标与水污染等级之间存在一种强烈的对应关系,也说明所使用的LS-SVM算法的正确性和有效性。同时为了对比说明,运用RBF神经网络进行了预测。训练数据和测试数据与LS-SVM预测法一致。对比预测结果发现:RBF神经网络的预测结果与LS-SVM预测结果相比,存在预测精度不高的问题。同时,LS-SVM算法具有简便的操作性。通过对竹皮河水质自动监测站评价和预报,可为将来的优化空间布局、调整产业结构和划定重点生态保护区等措施提供理论支撑。
关键词:竹皮河;水污染;最小二乘支持向量机
中图分类号:X703文献标识码:A 文章编号:1674-9944(2019)16-0100-05
1研究意义
研究选定竹皮河为研究对象,评价各个监测站的优劣,并对水污染的等级进行实时预报,推进解决水污染共同治理机制建设。通过实时预报地表水水污染等级,为处理突发环保事件做好预警,并提供相应的应对措施,推动健全相关水域协调机制的运行。通过对湖北荆门市境内的各个监测站进行评价和预报,为未来的优化空间布局、调整产业结构和划定重点生态保护区等措施提供行政支撑和保障。
2研究内容
通过机器学习的手段,对竹皮河肖家岗水质自动监测站的数据进行了深度挖掘。本文欲求得挖掘溶解氧、化学需氧量、氨氮、水温和pH值五个指标与水污染等级之间的对应关系,通过最小二乘支持向量機(LSS-VM)对训练数据进行训练得到了指标与污染等级之间的关系模型,将测试数据导人该模型中,即可得到测试数据的污染等级。为了说明最小二乘支持向量机算法的有效性,利用神经网络算法对数据进行了同样的处理,并将结果进行了对比。
3基于LS-SVM的地表水污染等级预报机制
3.1数据分析与算法流程
3.1.1数据分析
通过荆门市环保局监测站获得了竹皮河肖家岗水质自动监测站的2017年1月12日到2017年8月20日的31周的周度数据。数据内容包括:pH值、溶解氧(mg/L)、化学需氧量(mg/L)、氨氮(mg/L)、水温(℃)和水污染等级。数值大小为一周之内的平均值。图1为周数与各个指标的关系图。
由图1可知:水污染等级决定于pH值、溶解氧(mg/L)、化学需氧量(mg/L)、氨氮(mg/L)和水温(℃)5个指标。本文通过机器学习中的最小二乘支持向量机来挖掘5个指标和水污染等级的关系。
3.1.2算法流程算法流程见图2。
3.2主成分分析法
对各个监测站的数据进行提取后,可知样本的特征变量间存在着某些程度的相关性,即变量间所对应的特征信息存在着一定程度的互相涵盖。主成分分析(Principal Component,Analysis,PCA),这一分析方法有着对所挑选出的样本特征其提取出的因子进行二次筛选的能力,继而建立数量较小的全新的变量(理论上当提取的特征能够表现总体特征的85%时,即可认为降维成功),使所得到的新变量之间的相关性更小,各个新变量更能有效地反映其所代表的特征,相比于原变量,极大地降低了特征间的信息冗余,从而成功地提高了对于样本特征的有效信息和噪声的有效性,同时也提高了向量机回归时的精度。
假设某变量的样本数据xo,x1,…,xp,运用PCA后筛选出m个新变量E1,E2,…,Ex,m
假设X是具有n个样本点和p个变量的一个样本数据矩阵,即:
3.3支持向量机
支持向量机(Support Vector Machines)开始出现于20世纪90年代,Vapnik等用于解决数据分类问题,隶属机器学习方法。SVM的作用在于可凭借着有限的样本信息,平衡着模型的复杂度和学习能力两个不可调和的矛盾,寻求获得最佳推广能力。当支持向量线性可分时,SVM可以根据使用的支持向量将数据分开;当支持向量线性不可分时,SVM可以使用核函数来将数据映射到高维空间,从而将数据分开。SVM不仅进行二分类和多分类,也可以用于回归。回归和分类在本质上是一样的。在回归问题上,可以简单的理解为将分类类别替换为回归数值。图3为支持向量机两种分类情况。
求解式(6)可得最优分类超平面,其中支持矢量满足距最优超平面最近的点λi>O,其余点满足λi=O,即支持矢量可反映最多的分类信息,其数量同时可反映出超平面所依赖的独立界面。决策函数表示如下:
3.4最小二乘支持向量机
在1999年Suykens和Vandewalle提出最小二乘支持向量机(LS-SVM),LS-SVM对于目标函数的表示,用误差的平方来表示目标函数,用等式条件来表示其约束条件,则面临的情况即为符合KKT(Karush-Kuhn-Tucker)时,算出一组N维线性方程组的解,最终得到所需的决策函数。综上可知,相比SVM在解决大规模问题方面的表现,LS-SVM简化了整个计算过程的复杂程度,同时提升了其训练过程的工作效率。
3.5预报结果分析及对比
经过主成分分析后,将数据分为23组训练数据和8组预测数据。将23组训练数据置入最小二乘支持向量机中,选择RBF内核为核函数,并将参数gam设置为r1.038e+001 1.7435e+006]、sig2设置为[13.6777357]。经过训练后,即可得到5个指标和水污染等级的对应关系模型。将8组测试数据置入得到的模型,即可得到预测的水污染等级大小,结果如图5所示。