朱延平,吴霖璟,于佳丽,顾赵福,舒诗湖
(1.东华大学环境科学与工程学院, 上海 201620;2.上海市供水管理事务中心, 上海 200092;3.上海污染控制与生态安全研究院, 上海 200092)
在城市化进程中,我国部分城市通过构建水质在线监测系统以应对日益凸显的二次供水环节的问题。目前,上海市已在部分住宅小区安装超过200个二次供水水质在线监测仪表,远期将实现每小区至少安装1套水质在线仪表的目标。在线水质监测仪可实现对二次供水水质连续采样、实时检测、数据反馈和信息处理等任务[1]。然而由于设备异常、外界干扰等原因,采集的数据有时不能满足分析的需求,因此,需要梳理二次供水在线监测数据中常见的错误,并进行数据质量评估,从而支撑二次供水的智慧化管理。
经过多年水质提升工程的实施,二次供水的水质可满足微生物指标、毒理指标、放射性指标等国家标准[2]。二次供水水质在线监测系统需要满足监测数据容量大、实时性强等特点,同时具有监测对象有限、信息密度低、稳定性不足等问题。常见的饮用水水质分析方法有神经网络法[3]、投影寻踪方法[4]、灰色指数法[5]、物元分析法[6-7]等,不适用于分析二次供水在线监测水质。因此,二次供水水质在线监测大数据应选择快速、有效的处理方法,以便后续分析和水质预警工作的展开。K-means聚类分析被广泛应用于水质分析[8],其显著优点是可以定量和客观地应用聚类有效性指标评估聚类结果[9]。熵值法在确定权重上可以从某种程度上避免传统方法在权重确定中主观因素的影响[10-11]。本文研究基于K-means聚类法和熵值法的二次供水水质在线监测评价方法及其应用。
二次供水监测点通常设置在泵房泵后、屋顶水箱、一体化箱式泵站泵后的出水口,方便在配电箱或电梯机房就近取电。因此,致错因素大概可归纳为3类:1)环境因素,主要影响因子为通讯信号和工作环境温度;2)设备因素,主要影响因子为设备时钟故障、远程传输单元、电池状态和设备稳定性能;3)其他因素,主要归纳为自互联网攻击风险和设备运行管理两方面的影响[12]。
常见的二次供水水质在线监测数据根据以上3类致错因素又可分为4种数据错误类型,分别为时间间断型、时间错位型、记录缺失型、短暂数值尖峰型(又称“毛刺”)。4类数据错误主要可归纳为2大数据特征:数据特征对数据质量的影响较大,但易于识别和发现;数据特征对数据质量的影响较小,但排查困难、致错环节复杂。具体的数据错误类型、致错因素和数据错误特征三者的关系如图1所示。
图1 致错因素、数据错误类型、数据错误特征关系图Fig.1 Factors of errors, types of wrong data and data error characteristics diagrams
运行正常的智能设备根据设定时间记录数据,当上传数据的时间间隔超过用户设定时,可视为时间间断型数据错误,根据间断时间的长短可以分为数分钟、数小时和数天。
时间间断型数据错误主要由2种因素引起数据故障:1)较弱的通讯信号可能造成监测设备未能在传输时间内上传全部数据[13];2)尽管在线监测设备的就近取电方式可以保障稳定的运行,但电池状态可能会导致数据中断,一般水质在线监测设备的电池寿命为5年左右。
相邻数据时间间隔正确,但数据记录的时刻发生了改变,这种数据错误被认为是时间错位型错误,主要归因于设备的远程传输单元的时钟故障。
当对应记录时间的记录值为空白或“0”认定为缺失型数据错误,此类错误通常是由于设备故障或环境恶劣引起的数据“丢包”导致。该类数据错误一般包含2种情况:1)水质在线监测仪器对温度敏感,通常工作环境温度为5~40 ℃,当工作环境温度超出适用范围则可能导致设备灵敏度下降,甚至失灵(这类问题可以通过设备的维护管理工作得到改善);2)由于设备自身的远程传输单元故障,导致设备上传错误的检测值至工作站。
短暂数值尖峰类型的错误表现为部分记录数值在时间序列上呈“毛刺”状,这通常与设备稳定性和适应监测环境能力有关:1)刚运行的智能监测设备,监测探头或分析单元的稳定性不足导致出现许多极端数据;2)刚运行远传水表的监测灵敏性较强,对监测环境敏感。
长期无波动型数据错误表现为同一监测点的时间相邻检测差值超过1 h的情况下始终为0,这与工作环境(环境温度)和运维管理有关:1)监测设备未及时进行设备管理导致灵敏度下降;2)工作环境的恶劣造成智能设备故障(如检测探头失灵)导致分析结果始终不变。
本研究对L市的36个监测点(检测时间为2020年1—10月)的数据监测结果进行质量评估分析,具体数据质量说明和数据错误的判定标准如表1所示。
表1 数据质量分析总体结果汇总Table 1 Summary of overall results of data quality analysis
由表1的数据质量分析结果可知:1)间断数分钟的时间间断型错误是普遍存在的数据错误类型;2)记录缺失型数据是数据错误的首要类型,使用GPRS会发生包丢失现象;3)不同在线监测设备所导致的数据错误程度也不同,但此类错误一般可以通过加强设备运行维护管理和网络安全管理的方式优化。
L市由4个不同的水源地供水,按二次供水方式分为水箱水池联合供水、水池加变频泵供水、无负压供水等方式。供水企业全面接管2000年以前建设并在近年完成改造的二次供水设施,同步建设了共36个二次供水水质在线监测系统。政府出于对二次供水监管的目的,自主安装了若干水质在线监管点,并接入供水企业的在线监测点数据。本研究采用基于K-means聚类法和熵值法的二次供水水质在线监测数据评价方法,技术路线如图2所示。
图2 二次供水水质评价方法及相关分析技术路线图Fig.2 Water quality assessment methods and related analysis technology roadmap of secondary water supply
大数据分析的理论核心是数据挖掘算法,包括聚类分析、回归分析、因子分析等。聚类算法是常用的大数据分析方法,最大应用优势在于能够简单快速地处理大数据,并可自主设定初始聚类中心K,通常选用常规的欧几里得距离作为相似度指标[14],如式(1)所示。
(1)
式中:xi、yi分别为不同样本x、y的N维数值;N为二次供水监测指标数,此处为2维。
现以L市二次供水在线监测结果为数据样本(监测指标为余氯和浊度),对比设定聚类中心分别为2、3时的两种聚类结果(k=2,k=3):
1)当设定k=2类时,余氯对水质分类的影响较大,分界线约为0.35 mg/L,工程经验表明,针对小区内而言,余氯值为0.05~0.30 mg/L,较为理想。
2)当设定k=3类时,浊度与余氯共同作用水质分类,二次供水水质聚类分析结果如图3所示。由图3可知,目前存在的3类二次供水水质特点:Ⅰ类水的余氯值适中且浊度控制最好,Ⅰ类水样本占比为79.1%;Ⅱ类水的余氯值相对较低(处于合适的范围),同时浊度适中,Ⅱ类水样本占比为14.5%;Ⅲ类水的余氯值相对较高(处于合适的范围),同时浊度普遍较高,且水质季节性变化最明显,Ⅲ类水样本占比为6.5%。浊度和余氯会共同影响水质分类,Ⅰ类、Ⅱ类和Ⅱ类、Ⅲ类水浊度的界限分别为0.2 NTU左右、0.4 NTU左右,Ⅰ类、Ⅱ类和Ⅱ类、Ⅲ类水余氯的界限分别为0.3 mg/L和0.8 mg/L。
图3 二次供水水质聚类分析结果(k=3)Fig.3 Cluster analysis results of water supply of secondary water supply (k=3)
根据上述的两种聚类中心(k=2,3)的分析结果,并结合实际经验,人为确定了水质评价的划分标准,具体如表2所示。并依据水质评价的划分标准和所有监测点的检测平均值进行评分,初步得出计算结果。
表2 水质评价划分标准Table 2 Criteria for water quality assessment
熵值法通过各项评价指标观测值所提供信息量的大小来确定评价指标权重系数,也可用作指标离散程度的评判方式,离散值越大代表该指标对综合评价的影响越大[15]。
通过熵值法细化上述划分的4类水质可较好地对数量较多的监测点进行后续分析,规定熵值法得分(S波动)不超过1从而保证表2中划分的水质区别,将表2计算所得的初步得分结合熵值法,可得出各点的水质波动得分S余氯和S浊度,代入式(2)和式(3)得出最终水质得分结果S得分。
S波动=S余氯+S浊度
(2)
S得分=S标准-S波动
(3)
分别采用单因素方差分析(one-way analysis of variance, ANOVA)和交叉列联表法,利用LSD(least significant difference)、皮尔逊数等显著性计算方法,对水源地、水处理工艺、供水方式和管网年限等4个因素与二次供水水质得分单独和综合的相关性分析,当p<0.05时,单因素与水质得分存在相关性,具体结果如表3所示。表4为主体间效应检验。
表3 单因素与水质得分的相关性分析
表4 主体间效应检验Table 4 Intersubjective effect test
由表3和表4可知:
1)供水方式将直接影响监测点的浊度和余氯指标(p<0.05),水源地也存在直接影响监测点二次供水水质的可能(p=0.07)。尽管水处理工艺和管网使用年限并未直接影响二次供水水质,但二次供水方式和管网使用年限与水质存在协同效应,共同影响二次供水水质。
2)结合4种因素的综合影响上看,按照影响比重从大到小排序分别为供水方式、管网使用年限和水源地共同影响二次供水水质情况,水处理工艺并不能对二次供水的浊度和余氯造成直接或间接影响。
将2020年1月、2月二次供水水质得分协方差分析法与2019年1月、2月二次供水水质得分进行对比(即分析相隔一年的同月份二次供水水质得分,当p<0.05时,存在相关性)。分析结果表明4种因素导致水质在2年内水质变化的影响十分有限,因此,水质的长期监测显得更有意义。
结合第2.4小节相关性分析和协方差的结果可知,2年内水质的变化与以上4类因素不具备相关性,其中管网使用年限的显著性最小(p=0.19,但是远大于0.05)。从协同影响角度上看,管网使用年限和水源地的共同作用最有可能对逐年二次供水水质产生影响(p=0.12,大于0.05),但并不能认为两者间存在相关性;其次为供水方式和水源地的协同影响(p=0.17,大于0.05),因此,水源地对二次供水水质的间接影响也不可忽视。
箱形图是一种显示数据分散情况资料的统计图,主要用于反映原始数据分布的特征,并进行多组数据分布特征的比较,其数据上边缘和下边缘分别代表上、下两个四分位数,箱体中间为中位数。将余氯、浊度两个指标以月份为组别进行对比,以观察供水环节对水质分散度的影响。L市12个月份总体余氯水平如图4所示,L市12个月份总体浊度水平如图5所示。
图5 L市12个月总体浊度水平Fig.5 Overall turbidity level of L city in 12 months
由图4的余氯散度水平可知:L市12个月余氯波动为0.25~0.75 mg/L,异常值较少,总体余氯水平良好;其中6月、7月的余氯合格率最低,但也达到95%以上;普遍温度高的月份余氯水平低于其他月份,但从散度分布上看差别不大,这表明二次供水环节中对余氯的管控较为到位,基本可以满足余氯标准。
由图5的浊度散度水平可知:L市12个月总体浊度水平良好,各月份浊度普遍低于0.2 NTU,合格率几乎达到96%以上,各月浊度水平和浊度散度水平相差不大,但异常值较多,这表明部分点的供水设施需要管理,某些检测点需要重点关注。
1)不同水质在线监测仪器对应的数据质量有所不同,本研究发现浊度仪的数据质量明显高于余氯仪。以间断数分钟型为主的时间间断型数据错误是普遍存在的(占比约1.5%),区别于余氯仪和浊度仪的主要数据错误类型为记录缺失型。
2)供水方式和水源地改造工程应当作为二次供水水质提升工作的方向,其中供水方式的改造工程更为重要。目前并未发现城市采用的水处理工艺(主要为“常规处理+深度处理或深度处理)与二次供水水质存在明显的直接或间接联系,说明二次供水水质目前不受水处理工艺影响。
3)供水方式、水源地、水处理工艺和管网使用年限均单独对逐年二次供水水质变化的影响有限,但水源地的影响不可忽略,因此未来可以从供水方式、水处理工艺和管网使用年限3个方面保证二次供水水质稳定性,其中管网运维管理是保障逐年水质稳定性的关键。从水质散度分析上看,目前供水企业对余氯指标的管控较为到位,而浊度指标应是未来重点优化的对象,尤其应关注少数浊度异常的检测点。
此外,建议除了余氯和浊度,可适当增加高锰酸盐指数(CODMn)、pH等少数检测简单、代表性强的水质指标作为二次供水在线监测对象。