基于典型相关系数和随机森林的水质预警方法

2021-09-24 02:06李若楠刘书明
中国环境科学 2021年9期
关键词:模拟实验基线预警

李若楠,王 琦,刘书明

基于典型相关系数和随机森林的水质预警方法

李若楠1,王 琦2*,刘书明3

(1.中国政法大学民商经济法学院,北京 100088;2.广东工业大学土木与交通工程学院,广东 广州 510006;3.清华大学环境学院,北京 100083)

针对突发水污染事件提出一种高精度的预警方法.首先,通过模拟实验建立包含22种常见污染物的突发水污染事件数据库,然后采用典型相关系数准确揭示污染事件发生后多元水质参数之间的协同反馈规律.最后,基于多参数协同反馈规律构建“典型相关系数-随机森林”水质预警模型.结果表明预警模型对已知和未知污染物的平均准报率分别为96.78%和98.33%,对水质监测基线的平均误报率为0.16%.本研究成果可为降低突发水污染事件损失和保障供水安全提供有效的技术支撑.

突发污染;水质预警;多参数协同反馈;典型相关系数;随机森林

建立有效的水质在线监测预警系统是保障供水安全的重要举措.目前我国已建成了2767个国控地表水监测点,覆盖约80%的县区[1].相较于紫外荧光等新兴在线监测技术,基于常规水质参数的传统监测技术发展较为成熟,运行成本较低,维护方便且不易受消毒剂影响,具有广阔的应用前景[2-3].当前基于常规水质参数的水质预警方法研究亟需解决的问题主要包括:(1)污染事件数据基础薄弱;(2)预警模型准确率低.因此,现有预警系统的有效性受到了广泛质疑.例如,在2017年5月四川发生的铊污染事件中,水质预警系统未能发出污染警报.

本研究旨在通过构建较为完善的突发水污染事件复合数据库,揭示多参数协同反馈规律,提出表征参数间关联性的量化方法.通过对比分析表征水质参数之间关联性的多种方法,遴选出最适于污染事件探测的相关系数——典型相关系数.在此基础上,将典型相关系数作为输入变量代入随机森林分类模型.样本和特征选择的随机性、投票机制均可使随机森林模型的分类结果免受极端样本、极端特征的影响[4-5].本研究通过构建面向突发水污染事件的高精度水质预警方法,提高了现有水质预警系统的有效性.

1 数据来源

1.1 水质参数

选取实际水质在线监测中应用较为广泛的水质参数[6-7],搭建了1套水源模拟实验系统和2套供水管网模拟实验系统.每套模拟实验系统均包含7种常规水质参数,具体情况见表1.

表1 水质在线监测参数

1.2 污染物

表2 22种污染物的国家标准限值及实验浓度[8-10]

依据以下两个标准来确定目标污染物的种类和浓度:(1)近年来我国突发水污染事件中造成显著生态环境影响的主要污染物,(2)国家水质标准(包括《地表水环境质量标准》[8]、《生活饮用水卫生标准》[9]和《地下水质量标准》[10])中的典型污染物.本研究所选择的22种污染物的实验浓度和对应的国家水质标准限值如表2所示.实验浓度指模拟实验中污染物在水中达到的最高浓度,其中化学药品类(包含无机盐、无机酸、碱和重金属)的浓度单位为mg/L;废水、再生水类的浓度单位用百分比表示.需要注意的是废水和再生水是作为污染物参与供水系统污染预警实验.如式(1)所示,废水、再生水类的浓度()等于所投加污染物的体积(C)与基线水总体积(B)之比.

2 实验步骤

水源和供水管网突发污染事件的模拟实验包括建立水质基线和模拟突发污染事件两个阶段.如图1所示,在建立水质基线阶段,关闭加药泵和阀门1、2,水源水或管网水在系统内循环流动约4~6h.设备A、B、C分别为水源模拟实验、管网模拟实验1和2使用的在线监测装置.在模拟污染事件阶段,打开加药泵和阀门1、2,污染物和水混合通过在线监测设备,最后一起排入废液桶.

图1 突发污染事件模拟实验系统示意[11]

3 实验结果

突发污染事件后水质参数监测值的变化包括上升、下降和无变化三类.表3为水源突发污染事件模拟实验、管网突发污染事件模拟实验1和2结果的汇总.通过分析表3中监测数据的变化规律,发现所有污染物在水源和供水管网突发污染模拟实验中均可引起多种水质参数监测值同时发生变化,即污染事件发生后存在多参数协同反馈现象,这与已有研究的结论一致[11-12].污染物进入水体后,污染物本身的物理化学性质(例如颜色、状态、溶解性等),污染物与水分子、余氯等发生的化学反应以及水质参数之间的关联性等原因共同导致了多参数协同变化,这是污染事件导致多参数协同反馈现象的根本原因.

以无机盐污染事件为例进行说明.实验所选择的无机盐类污染物包括NaF、Na2S和NaNO3三种.图2、图3和图4分别为0.8mg/L NaF、0.4mg/L

表3 模拟实验中突发污染引发的水质参数变化规律

图2 0.8mg/L氟化钠实验结果(河流水)

图3 0.4mg/L硫化钠实验结果(地下水)

图4 2.4mg/L硝酸钠实验结果(地下水)

Na2S、2.4mg/L NaNO3污染事件模拟实验的结果.污染物浓度是指模拟实验过程中污染物在水中能够达到的最高浓度.例如, 0.8mg/L NaF突发污染事件是指通过加药泵以2mL/分钟的流量,向300L水源水中持续注入NaF溶液约30分钟,直至水源水中NaF浓度为0.8mg/L.无机盐类污染物导致的突发污染事件,增加了水中的离子浓度,因此,导致电导率参数值上升.此外,NaF和Na2S具有较强还原性,会导致ORP参数值下降.无机盐对pH值的影响取决于无机盐本身的酸碱性,例如,NaF、Na2S为碱性,会导致pH值升高;而NaNO3为中性,则对pH值没有影响,但NO3-会导致水中硝态氮含量明显增加.

4 水质预警模型

利用多元水质参数协同反馈现象进行污染事件预警的关键问题在于如何定量表征协同反馈现象.协同反馈现象可解析为水质参数之间关联性增加[11-12].相较于人工神经网络(ANNs)和支持向量机(SVM)等数据挖掘算法,相关系数能够更直接、高效地表征水质参数之间的关联性[13-14].因此,本研究利用相关系数对水质参数之间的关联性进行定量表征,实现利用协同反馈现象进行污染事件预警的目标.

4.1 相关系数遴选

4.1.1 相关系数遴选标准 为实现对污染事件探测的目的,相关系数在污染事件发生前后需满足以下两个基本条件:(1)在基线状态下相关系数波动较小;(2)污染发生前后变化明显.在基线状态下相关系数波动较小能够保证较低的误报率;而污染事件发生前后相关系数有明显差异能够实现对污染事件的准确识别.

4.1.2 相关系数种类与原理 选取的相关系数包括两两水质参数之间的线性相关系数(皮尔逊相关系数、斯皮尔曼相关系数、肯德尔相关系数)和非线性相关系数(最大信息系数)、复相关系数以及多元相关系数(典型相关系数).需要说明的是、变量在每次计算时,分别代表两个或两组不同的水质参数.所有水质参数按排列组合顺序,依次代入、变量,参与相关系数计算.

皮尔逊相关系数(ρ)为两个变量之间的积差相关系数,是分析两个变量、之间线性相关关系最常用的系数,其计算公式如式(2)所示[11,15].在本研究中、分别代表一种水质参数.式(2)中,()代表协方差,()、()代表方差.

斯皮尔曼相关系数(S)是两个等级变量之间的相关系数,其计算公式如式(3)所示,其中,为两个等级变量之间的差值,为、变量中包括的元素个数[15].

肯德尔相关系数()也是一种线性等级相关系数,其计算公式如式(4)所示,其中,表示、中具有一致性的元素对数(两个元素为一对),表示、中不具有一致性的元素对数,为、变量中包括的元素个数[16].假设(X,Y)与(X,Y)为当、中任意两个元素对,当X>XY>YX<XY<Y,则认为(X,Y)与(X,Y)一致,否则认为(X,Y)与(X,Y)不一致.

2011年Reshef提出基于信息熵的最大信息系数[17](MIC)来计算两个变量、之间的非线性相关关系,其计算公式如式(5)所示:

典型相关系数是一种用来量化两组向量之间相关性的多元统计分析工具[12,19].首先定义一个指数与每一个样本的其他变量指标之间的相关性得到最大化.对于随机变量ÎR和ÎR,构建随机变量的线性组合:

假定:

其中,协方差结构的子矩阵为:

则:

对于任意的,存在(,)=(,).基于单位不变性,可以调节映射和以等价求解.

约束条件为:

定义:

矩阵可以分解为:

其中:

2³…是1=KK和2=KK的非零特征根,是1和2的标准特征向量,=1,…,,=2即为典型相关系数.

4.1.3 遴选结果与分析 图5为基线状态下6种相关系数的标准差.其中,典型相关系数波动幅度最小,复相关系数的波动低于两两水质参数之间的相关系数.图6为污染事件发生前后各相关系数的均值变化规律.典型相关系数在污染事件发生前后变化最明显.皮尔逊相关系数、肯德尔相关系数、斯皮尔曼相关系数的变化规律相似,但均较难用于区分是否发生了污染事件.在两两之间的相关系数中,最大信息系数在污染事件前后的变化最为明显,但其中5个最大信息系数在污染事件前后没有显著变化(4个没有变化,1个有微小变化).7个复相关系数中有5个在污染事件前后变化较为明显.56个典型相关系数在污染事件前后均有明显变化.图6为所有污染物的平均结果,典型相关系数对污染事件更敏感,因此,典型相关系数对协同反馈现象的表征作用优于两两参数之间的相关系数和复相关系数.

图5 基线状态相关系数的波动

图6 污染事件前后相关系数均值变化

4.2 模型框架

基于4.1节相关系数的遴选结果,本研究构建了基于典型相关系数的水质预警模型.模型框架分为离线训练和实时在线监测预警两个部分.模型的建立在离线训练过程完成,主要包括如下步骤:(1)典型相关分析,获得典型相关系数向量;(2)利用分类模型进行水质在线监测数据分类;(3)利用评价标准对模型效果进行评价,并对模型参数进行优化.在线监测过程利用优化后的模型进行实时水质状况判断.本研究所采用的分类模型为多棵决策树通过Bagging方式构建的随机森林分类模型.样本和特征选择的随机性、投票机制均使随机森林模型具有较高鲁棒性,有利于利用典型相关系数变化实现水质预警[4-5].典型相关系数-随机森林污染预警模型的框架如图7所示.

图7 预警模型框架

4.3 模型评价标准

污染预警模型的结果主要有以下四种:(1)真阳性(TP),判断出污染事件发生,实际也有污染事件发生;(2)伪阳性(FP),判断出污染事件发生,实际却没有污染事件发生;(3)真阴性(TN),判断为基线状况,实际也没有污染事件发生;(4)伪阴性(FN),判断为基线状况,实际有污染事件发生.采用的评价指标为准报率(TPR)、误报率(FPR)和准确率(Accuracy). TPR越高,则污染事件被探测出的概率越高,FPR越高,则基线被误判为污染事件的概率越高,Accuracy则综合考虑上述两类错误[20].

5 模型参数优化与结果

通过分析预警模型参数灵敏性,确定模型参数优化的范围和步长,优化过程仅在训练集进行.采用遗传算法和10折交叉验证的方法进行参数优化,保证模型参数优化结果对应稳定的效果[21].

5.1 训练集和测试集

在本研究中将全部样本随机分为两组,分别为训练集和测试集.训练集和测试集分别占总数据量的70%和30%.训练集的数据量大于测试集的数据量,但测试集中包括的污染物种类多于训练集中的污染物种类.TPR、FPR和Accuracy的均值作为一组模型参数组合的结果.

5.2 优化结果

5.2.1 对水质基线测试集的探测效果 在线监测数据中水质基线数据量远高于污染事件数据量.决定水质预警模型能否实际应用的标准既包括能够对污染事件进行快速、准确探测,即对污染事件有很高的TPR,还包括对水质基线具有很低的FPR.为检验该模型对水质基线的探测效果,采用6组水质基线数据进行检测.6组水质基线的监测时长均为24~72h.模型对6组水质基线的探测FPR如表4所示,6组水质基线的平均FPR为0.16%.

5.2.2 对已知污染物测试集的探测效果 已知污染物是指同时出现在训练集和测试集中的污染物.如表5所示,已知污染物测试集包含12种不同浓度污染物(2种无机盐、3种重金属、6种有机物和1种混合物),共31组突发污染事件模拟数据.水质预警模型在31组测试集上的平均准确率为98.04%,平均TPR为96.78%,平均FPR为0.73%.其中,20组测试集的准确率为100.00%,即有64.52%测试集的探测效果完全准确.同时,测试结果表明污染物浓度越高,则典型相关系数-随机森林水质预警模型对于污染事件的探测准确率越高.导致这一现象的根本原因:相较于低浓度污染物,高浓度污染物引起的多元水质参数之间的协同反馈现象更为明显,即水质参数之间的关联性变化更明显.因此,模型更易于识别高浓度污染物引起的典型相关系数变化,即对应更高的探测准确率.

表4 水质基线状态下的探测效果

表5 已知污染物测试集的探测效果

续表5

表6 未知污染物测试集的探测效果

5.2.3 对未知污染物测试集的探测效果 未知污染物是指仅出现在测试集未出现于训练集中的污染物.如表6所示,未知污染物测试集包含7种不同浓度污染物(1种无机盐、2种重金属、1种有机物、3种混合物),共21组突发污染事件模拟数据.模型对未知污染物测试集的平均探测准确率为98.82%,平均TPR为98.33%,平均FPR为0.18%.其中,16组测试集的准确率为100.00%,占未知污染事件测试集的76.19%.未知污染物并未出现在训练集中,测试结果表明该预警模型对于未知污染物表现出较高的准确率.同已知污染物测试集相似,未知污染物测试集中,模型对于高浓度污染物的探测准确率也高于低浓度污染物.需要说明的是与已知污染物测试集的效果相比,未知污染物测试集的效果略好,仅说明该模型具有较好应用潜力,但并不意味着该模型适用于所有污染物引起的污染事件探测.

6 结语

对22种常见污染物的突发水污染事件进行了模拟实验,建立了相关污染事件数据库.针对突发污染事件引起的多参数协同反馈现象,提出了定量表征方法,并建立了相关系数的遴选原则.通过与其他相关系数进行对比,发现了典型相关系数具备探测污染事件的突出优势,即在未发生污染时波动较小,而在污染发生后变化较明显.因此,典型相关系数可以作为准确表征突发水污染事件引起的多水质参数协同反馈现象的工具.

构建了典型相关系数-随机森林水质预警模型,建立了模型参数优化框架.该模型对已知污染物和未知污染物的准报率分别为96.78%和98.33%,对水质监测基线的平均误报率为0.16%.污染物浓度越高,对应的模型探测准确率越高.

建议未来应系统地建立国家层面的突发水污染事件风险管理数据库,广泛搜集各层级水质在线监测系统长期监测的水质数据,尤其是真实污染事件数据,共享水质实时监测信息,为我国水质预警研究提供完备的基础数据,为突发水污染事件应急制度研究提供技术支持.

[1] Cui B, Meng Q H. Smart water monitoring and management system based on the architecture of internet of things [J]. Applied Mechanics & Materials, 2013,278-280(5):1822-1825.

[2] 吴 静,崔 硕,谢超波,等.好氧处理后城市污水荧光指纹的变化 [J]. 光谱学与光谱分析, 2011,31(12):3302-3306.

Wu J, Cui S, Xie C B, et al. Fluorescence fingerprint transformation of municipal wastewater caused by aerobic treatment [J]. Spectroscopy and Spectral Analysis, 2011,31(12):3302-3306.

[3] 袁永钦,匡 科,沈 军.广州市西江引水工程水质预警系统研究与实践 [J]. 中国给水排水, 2011,27(6):1-5.

Yuan Y Q, Kuang K, Shen J. Research and application of early- warning system for source water quality Xijiang River water diversion project [J]. China Water and Wastewater, 2011,27(6):1-5.

[4] Roy M, Larocque D. Robustness of random forests for regression [J]. Journal of Nonparametric Statistics, 2012,24(4):993-1006.

[5] Bonissone P, Garrido M C. A fuzzy random forest [J]. International Journal of Approximate Reasoning, 2010,51(7):729-747.

[6] 姜 旭,舒 强,纪 峰.城市供水管网水质在线监测预警系统构建及应用研究 [J]. 给水排水, 2017,S1:282-284.

Jiang X, Shu Q, Ji F. Urban water supply network on-line early warning automatic monitoring system for early warning and applications. Water and Wastewater Engineering, 2017,S1:282-284.

[7] 张锡辉,郑振华,欧阳二明.水源水质在线监测预警系统的建设 [J]. 中国给水排水, 2005,21(11):14-17.

Zhang X H, Zheng Z H, Ouyang E M. Construction of on-line monitoring and warning system for raw water quality [J].China Water and Wastewater, 2005,21(11):14-17.

[8] GB3838-2002 地表水环境质量标准[S].

GB3838-2002 Environmental quality standards for surface water [S].

[9] GB5749-2006 生活饮用水卫生标准[S].

GB5749-2006 Standards for Drinking Water Quality [S].

[10] GB14848-2017 地下水质量标准[S].

GB14848-2017 Stand for ground water quality [S].

[11] Liu S, Che H, Smith K, et al. Contamination event detection using multiple types of conventional water quality sensors in source water [J]. Environmental Science Processes & Impacts, 2014,16(8):2028-2038.

[12] Li R, Liu S, Smith K, et al. A canonical correlation analysis based method for contamination event detection in water source [J]. Environmental Science: Processes & Impacts, 2016,18:658-666.

[13] Perelman L, Arad J, Housh M, et al. Event detection in water distribution systems from multivariate water quality time series [J]. Environmental Science & Technology, 2012,46(15):8212-8219.

[14] Oliker N, Ostfeld A. A coupled classification-evolutionary optimization model for contamination event detection in water distribution systems [J]. Water Research, 2014,51(3):234-245.

[15] De Winter J C, Gosling S D, Potter J. Comparing the Pearson and Spearman correlation coefficients across distributions and sample sizes: a tutorial using simulations and empirical data [J]. Psychological Methods, 2016,21(3):273-290.

[16] Puth M T, Neuhäuser M, Ruxton G D. Effective use of Spearman's and Kendall's correlation coefficients forassociation between two measured traits. Animal Behaviour, 2015,102(1):77-84.

[17] Kinney J B, Atwal G S. Equitability, mutual information, and the maximal information coefficient [J]. Proceedings of the National Academy of Sciences of the United States of America, 2014,111(9):3354-3368.

[18] Barnhart H X, Haber M, Song J. Overall concordance correlation coefficient for evaluating agreement among multiple observers [J]. Biometrics, 2002,58(4):1020-1027.

[19] Kelley K. Sample size planning for the squared multiple correlation coefficient: accuracy in parameter estimation via narrow confidence intervals [J]. British Journal of Mathematical & Statistical Psychology, 2008,43(4):524-555.

[20] Ma S, Huang J. Regularized ROC method for disease classification and biomarker selection with microarray data [J]. Bioinformatics, 2005,21(24):4356-4362.

[21] Marcell S, András L, Ádám N, et al. Cross-validation of survival associated biomarkers in gastric cancer using transcriptomic data of 1,065patients [J]. Oncotarget, 2016,7(31):49322-49333.

Water quality warning method based on canonical correlation coefficient and random forest.

LI Ruo-nan1, WANG Qi2*, LIU Shu-ming3

(1.Civil, Commercial and Ecnomic Law School, China University of Political Science and Law, Beijing 100088, China;2.School of Civil and Transportation Engineering, Guangdong University of Technology, Guangzhou 510006, China;3.School of Environment, Tsinghua University, Beijing 100083, China)., 2021,41(9):4457~4464

This study proposed a high-precision early-warning method for detecting sudden water pollution incidents. Firstly, a database of sudden water pollution incidents containing 22common pollutants was established through simulation experiments. Secondly, the canonical correlation coefficients were used to accurately reveal the synergetic feedback law among various water quality parameters after pollution incidents. Finally, a water quality early-warning model, called “canonical correlation coefficients-random forest”, was developed based on the multi-parameter synergetic feedback law identified above. Results show that the early-warning model's average true positive rates for known and unknown pollutants are 96.78% and 98.33%, respectively, while the average false positive rate under baseline status of water quality monitoring is 0.16%. The proposed early-warning model can provide practical technical support for reducing the loss of sudden water pollution incidents and ensuring the drinking water supply's safety.

sudden pollution;water quality warning;multi-parameter synergetic feedback;canonical correlation coefficient;random forest

X832

A

1000-6923(2021)09-4457-08

李若楠(1990-),女,山东东营人,博士,主要从事水质预警研究.发表论文3篇.

2021-02-01

水体污染控制与治理科技重大专项(2017ZX07201002)

* 责任作者, 副教授, wangqiguangzhou@163.com

猜你喜欢
模拟实验基线预警
航天技术与甚长基线阵的结合探索
一种SINS/超短基线组合定位系统安装误差标定算法
断块油藏注采耦合物理模拟实验
法国发布高温预警 严阵以待备战“史上最热周”
园林有害生物预警与可持续控制
输气管道砂冲蚀的模拟实验
一种改进的干涉仪测向基线设计方法
机载预警雷达对IFF 的干扰分析
射孔井水力压裂模拟实验相似准则推导
弹道修正模拟实验装置的研究