黄 鹤,梁秀娟*,肖 霄,邱淑伟,肖长来,王 重(.吉林大学环境与资源学院,地下水资源与环境教育部重点实验室,吉林 长春 300;.吉林森工开发建设集团有限公司,吉林 长春 30000)
基于粗糙集的支持向量机地下水质量评价模型
黄 鹤1,梁秀娟1*,肖 霄1,邱淑伟1,肖长来1,王 重2(1.吉林大学环境与资源学院,地下水资源与环境教育部重点实验室,吉林 长春 130021;2.吉林森工开发建设集团有限公司,吉林 长春 130000)
摘要:以辽宁绥中县第四系松散岩类孔隙水的10组水质监测数据为基础,选取pH值、Cl-、S O42-、NH4+、NO2-、NO3-、F-、总硬度、总溶解固体等14项水质评价指标,采用粗糙集对指标进行约简,将基于属性依赖度和信息熵的启发式算法结合,获得属性约简集,应用支持向量机分别评价约简前后的地下水质量.结果表明,属性约简将14项水质指标精简为8项,水质评价结果与约简前保持一致,区域地下水普遍在III类以上,部分地区铁、“三氮”等超标,不适宜饮用.粗糙集和支持向量机的联合应用,在保证分类能力的前提下有效地减少冗余指标,降低运算维度,保证水质评价的合理性.
关键词:粗糙集;支持向量机;地下水;水质评价
* 责任作者, 教授, lax64@126.com
地下水污染具有过程缓慢、不易发现和难以治理的特点,地下水一旦受到污染,水质复原一般需要十几年甚至几十年.在预防和治理地下水污染过程中,需进行合理的水质评价[1].目前常用的水质评价方法除加附注评分法外还有主成分分析法[2]、因子分析法[3]、层次分析法[4]、模糊理论法[5]、神经网络法[6]等.由于水质指标众多,污染源多样,无论单独选用哪种评价方法,都会面临处理大量水质监测数据的问题,就特定研究区而言,考虑所有的指标和污染源不仅识别效率低且效果不佳[7].因此,如何方便、快速、有效地精简数据,确保水质评价结果准确已成为众多环境学者研究的热点[8-9].科学的识别方法是进行属性约简,降低运算维度.Pai等[10]选择9项影响人类健康和环境的水质因素,结合回归分析法,对指标进行属性约简并提出决策规则,将规则约简了62.5%.Li等[11]针对干旱地区的水质进行了约简,并耦合TOPSIS法,快速有效地评价区域水质.
粗糙集不依靠附加信息和先验知识,仅从数据集本身出发,揭示数据间存在的规律,有效地刻画出数据中的关键因素.近年来,因其具有模糊处理多分类问题的能力和独特的数据分析观点而备受关注[10],在数据的特征选择、特征提取、决策支持与分析、机器学习、数据挖掘等领域均有成功的应用[12].支持向量机借助核函数,以结构风险最小化为原则,成功的将非线性分类转变为高维空间中的线性问题[13],其在文本分类、遥感图像分析、人脸图像识别、信号处理、语音识别等领域均表现出优越的分类性能[14].目前,粗糙集与支持向量机的联合应用已在很多领域展开,在水质分析方面,学者们的研究主要集中在河湖、水产养殖等地表水的水质预警和预测[15-16],将二者共同应用于地下水质量评价的实例较少.本研究将粗糙集和支持向量机联合应用于地下水质量分析,在粗糙集属性约简的基础上,充分利用支持向量在非线性数据集中的分类能力,合理地评价地下水质量,为地下水质量评价的研究提供一种新的方法.
1.1 粗糙集
粗糙集(Rough Set,RS)由Pawlak于20世纪80年代提出,是一种刻画不完备性和不确定性的数学工具[17].该理论以代数学的等价关系和集合运算为基础,定义信息系统和可辨识矩阵,通过寻求信息系统的约简集来获得数据的决策规则.
粗糙集以信息系统为研究对象,表示为:
若去除属性ai后信息系统的不可辨识关系与未去除时保持一致,则表明ai为冗余属性.设B⊆A,如果I(B)=I(A),则B是A的一个约简,所有约简的集合记为red(A),所有约简的交集构成属性的核,记为core(A).寻找信息系统的核并不容易,若系统呈现一致性,即决策属性D依赖于条件属性C时,则该信息系统存在核,若不一致,则各属性均为相对重要属性,该信息系统没有核,需计算最小约简.
1.2 支持向量机
支持向量机(SVM)由Vapnik于20世纪90年代提出,是一种基于统计学习理论的机器学习方法[19].该方法以结构风险最小化为准则,构建最优分类超平面,将样本数据正确无误地分开,且分类间隔最大.在多维数据空间中,通过核函数将向量映射到高维特征空间,在特征空间中寻找最优分类超平面[20],提高非线性数据分类的准确性.
式中:ω为权向量;b为偏置;ξi为松弛变量;c为惩罚因子,c>0.
根据Lagrange乘子法,引入乘子α,β ,得到优化问题的对偶问题:
求解该对偶问题,得到判断函数:
1.3 属性重要度
采用启发式算法确定属性重要度,常用的启发式算法有基于属性依赖度的属性重要度计算和基于信息熵的属性重要度计算.
基于属性依赖度的属性重要度:决策属性D对条件属性C的依赖度为r(C,D),对于∀a∈A,则属性ai的重要度SGF(ai)定义为去除ai时引起的决策属性对条件属性依赖度的变化[22]:
基于信息熵的属性重要度:信息量的大小由所消除的不确定性的大小来度量,设R⊂C,向R中增加一个属性ai后信息的增量即为ai的重要度,表示为[22]:
其中,H(D|R)表示已知R时,D的条件熵.
2.1 研究区自然地理
研究区位于辽宁省绥中县狗河下游平原区,面积71.4km2.狗河是绥中县境内一条独流入海河流,发源于绥中县加碑岩乡窝岭村大锥子山板石顶,源头海拔高程946.3m,河长为86.7km.该区地处中纬度,属于温带季风气候,年均降水量为671mm,年均蒸发量为1755mm,多年平均气温在9.5℃,地势平坦,自西北微向东南倾斜,主要为冲洪积倾斜平原以及河谷冲积河床漫滩.
2.2 水文地质条件
图1 水文地质剖面Fig.1 Hydrogeologic profile
地下水主要赋存于第四系松散岩类孔隙含水层中,以全新统上部冲积砂砾石卵石层和全新统洪积—冲积亚黏土及砂砾石层为主.狗河左岸单井涌水量1000~3000m2/d,右岸单井涌水量500~1000m2/d.从研究区水文地质剖面图(图1)可以看出,含水层岩性以砂砾石及砾卵石为主,顶部覆盖一层2~3m厚的壤土,底部太古界混合花岗岩构成含水层底板.沿河流纵向剖面地势逐渐降低,地下水位逐渐下降:横向剖面地势平稳,含水层厚度变幅较大:地下水流向自西北至东南方向.区域地下水的主要补给来源为大气降水入渗补给,沿河地带丰水期可接受河水的季节性补给,排泄方式主要为潜水蒸发和人工开采,近海1.5km宽度向海排泄.
2.3 数据来源
选择位于研究区的10个第四系松散岩类孔隙水监测孔,作为水质分析基础数据,监测孔位置如图2所示.实验室测定各水质指标浓度,以地下水环境质量标准(GB/T14848-93)[23]为参照,选取包含pH、NH4+、NO2-、NO3-、Cl-、SO42-、F-、总硬度(TH)、总溶解固体(TDS)、铁、锰、锌、氰化物和挥发性酚类在内的14项水质指标进行分析评价.
图2 监测孔位置Fig.2 Locations of monitoring drilling
水质评价涉及化学指标众多,各指标对综合水质影响大小存在差异,粗糙集根据数据间的关联性去除冗余指标,是进行知识约简的有效途径.
支持向量机对非线性数据的分类具有优势.将粗糙集与支持向量机联合运用,以达到有效约简冗余指标,提高学习效率,保证水质评价结果合理性的目的.基于RS的SVM水质评价步骤为:
Step 1:建立水质等级评价的信息系统,进行数据离散化;
Step 2:判断信息系统的一致性,依据RS理论进行属性约简;
Step 3:按式(8)对约简后的样本进行归一化处理,控制其在0~1范围内;
Step 4:确定核函数并寻找最优参数,建立基于RS的SVM水质评价模型;
Step 5:将测试样本代入模型,实现分类评价.
4.1 属性约简
在水质评价的信息系统中,评价因子作为属性集,各因子的属性值作为集合V,构成论域U.以地下水环境质量标准(GB/T14848-93)[23]为原则划分单因子水质级别,将连续的水质浓度以I~V类划分,使其离散化,离散结果见表1.
表1 地下水水质离散化Table 1 Discretized for groundwater quality
经分析,上述信息系统呈现不一致性,由于求解最小约简属于NP-hard问题[24],本次通过计算各属性的重要度来确定最小约简.根据文献[22],基于属性依赖度和基于信息熵的属性重要度算法在刻画重要度时都是不完备的.因此,对两种算法加权平均,计算出各属性的重要度,以属性依赖度作为主要决策标准,赋权值0.9,信息熵作为辅助决策标准,赋权值0.1.
编写关于该信息系统的属性约简程序,借助Matlab R2011b软件,精简属性集,获得信息系统的最优约简集合为{a3,a4,a6,a9,a10,a11,a13,a14},即TDS、NO3-、NO2-、SO42-、酚、铁、锌和氰化物是评价研究区水质的关键性指标.
4.2 SVM水质分析
分别将约简前的全部水质指标和约简后的TDS、NO3-、NO2-、SO42-、酚、铁、锌、氰化物指标,及其对应的惩罚因子(c)和内核参数(γ)代入Matlab水质评价程序,输出结果如图4.水质评价结果见表2.
通过对约简前后信息系统的分别评价,两次评价结果一致,约简前共有14项评价指标,程序运行时间1.53s,约简后共有8项评价指标,程序运行时间仅用1.23s.粗糙集将pH值、TH、NH4+、F-、Cl-和锰指标去除,在本信息系统中,以上6项指标的重要度小于其他指标,据表1可知,这些指标的水质等级相对简单,对分类结果的影响较弱.可见,经过粗糙集的属性约简,去除了冗余的评价指标,同时较好地保持了原信息系统的分类能力.
图3 参数交叉验证曲线Fig.3 Parametric cross validation curve (a)约简前;(b)约简后;c惩罚因子;gamma内核参数
表2 属性约简前后评价结果Table 2 Assessment results of before and after reduction
根据各监测孔水质综合评价结果(图5)可以看到,研究区地下水水质以II、III类居多,其中,II类水占20%,III类水占50%,IV类水占20%,V类水占10%.根据水质标准GB/T14848-93[23],该区地下水有70%(II、III类)满足饮用条件,主要分布在研究区域河流上游西部及北部地区,20%(IV 类)的地下水经处理后方可饮用,主要分布在河流下游,研究区域东部及东南部,10%(V类)的地下水不适宜人类饮用,分布在河流下游入海口处.IV类水在监测孔SK6和SK9处出现,SK6铁超标8.3倍,SK9铁超标36.7倍,NO3-超标1.4倍,两处地下水水质均较差,未经处理不可作为饮用水;在监测孔SK8中,水质呈现出V类极差水,其中铁超标18.7倍,NH4+超标2.8倍,NO2-超标1.5 倍,Cl-超标1.3倍,此外pH和TDS亦少量超标,可见SK8处地下水不宜作为饮用水.研究区主要污染因子为铁和“三氮”,分析其原因是由于狗河上游存在黄铁矿,致使下游地下水铁超标,此外化肥和农药等农村非点源污染,导致地下水“三氮”超标.从监测井的平面位置来看,IV、V类水主要分布在沿海地区,考虑到研究区位于狗河下游入海口处,地势由高变低明显,水力梯度较大,上游溶解于地下水中的铁、“三氮”等污染物随水流运移,在下游积聚,致使沿海地区水质恶化.
图4 Matlab水质分类输出结果Fig.4 Matlab output for water quality classification (a)约简前;(b)约简后;2,3,4,5分别为II,III,IV,V类
图5 监测孔综合评价结果Fig.5 Results of monitoring drilling comprehensive assessment
5.1 研究区地下水部分适宜饮用,以II、III类为主.部分地区出现IV类较差水、甚至V类极差水,主要污染因子为铁、“三氮”等,其中铁超标严重,多在8.3倍以上.
5.2 影响地下水环境质量的化学指标众多,其中不乏冗余指标,粗糙集的属性约简方法将14项指标精简为8项,约简前后的指标经支持向量机法评价,水质等级一致.粗糙集与支持向量机的联合使用,不仅在保证分类能力的前提下有效地减少冗余指标,降低运算的复杂程度,同时机器算法缩减了计算时间,且其在多维计算中的优势使评价结果更加准确.
5.3 粗糙集与支持向量机的运算过程均依据于数据间的相关性,在揭示数据规律的同时实现指标约简和水质评价,在地下水质量评价中具有普遍的适用性.
参考文献:
[1] Viala E. Water for food, water for life a comprehensive assessment of water management in agriculture [J]. Irrigation and Drainage Systems, 2008,22(1):127-129.
[2] Shrestha S, Kazama F. Assessment of surface water quality using multivariate statistical techniques: A case study of the Fuji river basin, Japan [J]. Environmental Modelling and Software, 2007, 22(4):464-475.
[3] 刘 博,肖长来,梁秀娟,等.吉林市城区浅层地下水污染源识别及空间分布 [J]. 中国环境科学, 2015,35(2):457-464.
[4] 梁小俊,张庆庆,许月萍,等.层次分析法-灰关联分析法在京杭运河杭州段水质综合评价中的应用 [J]. 武汉大学学报(工学版), 2011,44(3):312-316,325.
[5] Dahiya S, Singh B, Gaur S, et al. Analysis of groundwater quality using fuzzy synthetic evaluation [J]. Journal of Hazardous Materials, 2007,147(3):938-946.
[6] Maier H R, Morgan N, Chow C W K. Use of artificial neural networks for predicting optimal alum doses and treated water quality parameters [J]. Environmental Modelling and Software, 2004,19(5):485-494.
[7] Huang H, Liang XJ, Xiao CL, et al. Analysis and assessment of confined and phreatic water quality using a rough set theory method in Jilin City, China [J]. Water Science and Technology: Water Supply, 2015,15(4):773-783.
[8] 董海彪,卢文喜,安永凯,等.基于对应分析法的鄂尔多斯盆地东北部地下水污染分析 [J]. 中国环境科学, 2015,35(11):3371-3378.
[9] 肖传宁,卢文喜,安永凯,等.基于两种耦合方法的模拟-优化模型在地下水污染源识别中的对比 [J]. 中国环境科学, 2015,35(8): 2393-2399.
[10] Pai P F, Lee F C. A rough set based model in water quality analysis [J]. Water Resources Management, 2010,24(11):2405-2418.
[11] Li Peiyue, Wu Jianhua, Qian Hui. Groundwater quality assessment based on rough sets attribute reduction and TOPSIS method in a semi-arid area, China [J]. Environmental Monitoring and Assessment, 2012,184(8):4841-4854.
[12] 胡可云,陆玉昌,石纯一.粗糙集理论及其应用进展 [J]. 清华大学学报:自然科学版, 2001,41(1):64-68.
[13] 李祚泳,张正健.基于回归支持向量机的指标规范值的水质评价模型 [J]. 中国环境科学, 2013,33(8):1502-1508.
[14] 刘双印,徐龙琴,李道亮,等.基于时间相似数据的支持向量机水质溶解氧在线预测 [J]. 农业工程学报, 2014,30(3):155-162.
[15] Zhang D Z; Xia B K. Soft measurement of water content in oil-water two-phase flow based on RS-SVM Classifier and GA-NN Predictor [J]. Measurement Science Review, 2014,14(4):219-226.
[16] Liu Shuangyin, Xu Longqin, Li Daoliang. Water quality earlywarning model based on support vector machine optimized by rough set algorithm [J]. Systems Engineering - Theory and Practice, 2015,35(6):1617-1624.
[17] Pawlak Z, Skowron A. Rudiments of rough sets [J]. Information Sciences, 2007,177(1):3-27.
[18] Swiniarski R W, Skowron A. Rough set methods in feature selection and recognition [J]. Pattern recognition letters, 2003, 24(6):833-849.
[19] Vapnik V N. The nature of statistical learning theory [M]. Berlin: Springer-Verlag, 1995.
[20] 牛瑞卿,彭 令,叶润青,等.基于粗糙集的支持向量机滑坡易发性评价 [J]. 吉林大学学报(地球科学版), 2012,42(2):430-439.
[21] 梁雪春,龚艳冰,肖 迪.一种多核加权支持向量机的水质预测方法 [J]. 东南大学学报(自然科学版), 2011,41(s):14-17.
[22] 石 峰,娄臻亮,张永清.一种改进的粗糙集属性约简启发式算法 [J]. 上海交通大学学报, 2002,36(4):478-481.
[23] GB/T14848-93 地下水质量标准 [S].
[24] 乌兰图雅,李东魁.求解一类NP-HARD问题的一个快速算法[J]. 内蒙古大学学报(自然科学版), 2012,43(1):85-88.
Model of groundwater quality assessment with support vector machine based on rough set.
HUANG He1, LIANG Xiu-juan1*, XIAO Xiao1, QIU Shu-wei1, XIAO Chang-lai1, WANG Zhong2(1.Key Laboratory of Groundwater Resources and Environment, Ministry of Education, College of Environment and Resources, Jilin University, Changchun 130021, China;2.Jilin Forest Industry Development and Construction Group Corporation Limited, Changchun 130000, China). China Envrionmental Science, 2016,36(2):619~625
Abstract:A total of 10 quaternary loose rock pore water samples were collected from Suizhong County, Liaoning. The pH, Cl-, SO42-, NH4+, NO2-, NO3-, F-, total hardness, total dissolved solids, iron, manganese, zinc, cyanide and volatile phenols were considered as the water quality parameters. Rough set theory was employed for data reduction. Meanwhile, to find attribute reduction set, the attribute dependence degree and information entropy heuristic algorithms were combined. Support vector machine was employed to evaluate groundwater quality for all parameters before and after reduction, respectively. The results showed that rough set theory reduced the number of chemical parameters from 14 to 8, and assessment results with attribute reduction were the same as those without attribute reduction. The groundwater quality in the study area was mainly class II and III, which meets the permissible limits. However, iron and three nitrogen were exceeded drinking water quality standard. Although the combination of rough set and support vector machine reduced redundant indices, the accuracy of water quality classification remained effective, while the complexity of calculation was reduced and the rationality of assessment results was guaranteed.
Key words:rough set;support vector machine;groundwater;water quality assessment
作者简介:黄 鹤(1988-),女(满族),吉林长春人,吉林大学博士研究生,主要从事水资源与水环境研究.发表论文7篇.
基金项目:吉林省科技攻关项目(20100452);吉林省自然科学基金(20140101164JC);吉林省水资源专项(0773-1441GNJL00390)
收稿日期:2015-08-25
中图分类号:X824
文献标识码:A
文章编号:1000-6923(2016)02-0619-07