机器学习在供水网络管理系统的应用研究

2022-07-30 13:09卢冰锋
山西建筑 2022年15期
关键词:供水机器变量

卢冰锋

(晋能控股煤业集团供水分公司,山西 大同 037003)

1 概述

在完整的水循环中,有许多可能的机器学习应用程序来优化流程和支持决策。例如,关于下水道网络,目前有新兴技术可以对管道内部的图像进行处理和分类,以检测泄漏和异常情况。实时查看数千张图像对人类来说是一项艰巨的任务;然而,机器学习系统可以在几秒钟内完成。因此,将这些系统集成为支持工具可以大大减少意外事件的数量,从而缩短应急响应时间。基础设施老化明显,意外泄漏和中断的发生仍然是供水网络管理公司关心的问题,利用数据并应用机器学习算法可减少意外的管道故障[1]。本文介绍了机器学习及其在供水网络管理中的应用。回顾了其实施的主要阶段及其关键问题。此外,8项研究描述了用于解决这些关键问题的机制,这些研究均是使用监督机器学习系统来预测供水网络的管道故障。它们中的大多数都展示了来自世界各地的真实案例研究并包含了可靠的数据。此外,选定的研究修改了领域内常用的机器学习技术,并为其在案例研究中的应用提供了详细的解释。

2 机器学习定义及其发展

机器学习是通过构建算法和技术来创建能够从经验中学习的系统,必须概括行为并从数据中识别模式。目前有三种不同的机器学习系统,即监督学习系统、无监督学习系统和强化学习系统。

监督学习需要标记数据,即输出变量必须被识别和可用。如果输出变量是一个实值,回归方法是最合适的,当输出变量是类别或类时,分类系统是合适的,最终目标是预测。当没有数据标签或没有明确标识时,使用无监督学习。强化学习系统与环境交互,接收反馈,因此,它的性能会随着时间的推移而提高。

本研究侧重于监督学习应用作为供水网络中的预测系统。监督学习技术在供水行业中较为常见,因为它们易于与支持决策系统工具集成。

图1为监督学习系统的具体实施阶段。首先,将数据分为训练集和验证集;其次,训练数据用于估计定义机器学习模型的参数;然后通过验证集上的某些质量指标来衡量模型的性能。

为了展示使用供水网络数据实施监督学习系统可能出现的主要问题和解决方案,对8项国内外研究进行了分析。表1列出了参考文献及其应用的模型、预测的输出变量以及他们用来评估这些模型性能的真实案例研究的一些参数。

表1 模型、输出变量与案例研究统计表

根据网络长度将其分为三类,即大型(长度大于3 000 km),中等(1 000 km~3 000 km)和小型(1 000 km以下)。此外统计了管道故障数量。另一方面,案例研究包含多个国家,以证明这些技术广泛应用于世界各地,有关案例研究的更多信息见参考文献。

2.1 机器学习模型的特征与应用

物理和统计模型能够描述供水网络行为并分析管道故障以发现模式和弱点,但其主要限制是无法发现变量之间的复杂关系。统计模型为机器学习算法的基础。机器学习系统确实需要大量数据,系统既可以用作描述模型,也可以用作预测模型,并且可以发现复杂的隐藏特征。

表1中有许多应用于供水网络的监督学习模型,下面对其主要特征及英文缩写进行简要定义。

人工神经网络(ANN),因其准确性和从数据中提取模式而闻名,该模型试图模拟人脑的功能,其中神经元由节点表示,神经冲动由输入变量的加权和表示,学习过程包括对其参数的调整,而网络结构通常不会改变。它们具有出色的泛化能力,但此类模型不允许解释每个变量在预测过程中的作用,需要大量数据进行训练,支持向量机可用于回归(SVR)和分类(SVC)目的。这种方法通过非线性结构将解释变量映射到高维空间,然后生成对数据进行最佳调整或分离类的超平面ANN和SVM都非正式地称为“黑箱”系统。相比之下,生存模型(SM)和逻辑回归(LR)提供了对结果的可解释性,但它们在从数据中提取模式方面存在更多局限性。

遗传编程(GP)是一种进化方法,它使用迭代过程来找到最适合多个变量之间关系的方程。该方法给出了系统行为的详细描述,但是如果方程太复杂,则结论提取困难,训练过程计算效率低下。

模糊逻辑使用模糊集和规则矩阵对样本进行分类或归类。该技术已在许多供水研究中实施,根据管道或网络区域的故障风险对其进行分组。然而,在所有这些研究中,规则都是根据专家意见生成的。目前出现了一种新的模糊逻辑应用,包括用于估计系统规则和参数的进化算法,被称为进化模糊系统(EFS),并且比传统系统更加独立和准确。EFS的主要优点是以简单规则的形式直接解释结果。缺点是它的训练计算成本很高,并且这些系统的设计很大程度上依赖于案例研究,因为必须提前确定许多参数。需要说明的是,该方法在供水领域还没有得到充分的探索和应用。

贝叶斯信念网络(BBNs)是直接无环图的图形表示,其中节点表示参数,并将它们之间的概率关系弧化,它给出了每对变量之间关系的全局视野。

决策树(DT)是一种简单且计算效率高的方法,可用于回归和分类目的。使用分层组合成树的分割规则将预测器空间分层为有限数量的区域。它的主要优势在于变量之间关系的直接可视化,可以检测供水网络中最脆弱的点。作为缺点,DT容易导致数据过拟合。Almheiri等[2]提出了一种提升技术来减少单个决策树的预测误差。另一种选择是使用随机森林(RF),它结合了大量决策树并聚合它们的预测。随机森林技术用于预测下水道管道的管道状况,以便根据每个区域的故障风险优化计划检查。

RankBoost可以进行二分排名,供水网络管理的最终需求是根据管道的风险或故障概率对管道进行排名,因此,该方法适合应用于此类问题。

选择模型之前必须定义结果的准确性、可解释性和变量的作用之间的优先级。优先考虑结果准确性时使用ANN和SVM;分析解释结果与变量的作用,推荐选择统计模型、决策树或BBNs[3]。

2.2 供水网络应用中的数据处理方法

数据处理是构建预测系统的重要阶段,多数供水网络的数据具有相似的特征,可使用相同的技术进行处理。表2收集了引用研究不同的数据处理方式,编号与表1对应。

表2 每项研究的数据处理方式

缺失值和异常值在数据库中常见,通常是由于数据收集错误或某些异常情况造成的。若包含这些异常的观测值被认为不具有代表性,则建议剔除它们。但剔除意味着信息丢失,因此最好使用变量的平均值、中位数或代理来填充或替换。

输入大量变量会导致训练缓慢或结果解释困难等。供水网络数据变量较少,但并非所有变量都会影响破损,建议根据某些质量指标来寻找最佳变量集,有时是根据专家意见选择的或使用一些特征选择技术。

变量的缩放和变换与机器学习模型有更多的关系,因为其中一些对变量尺度表现出很高的敏感性。式(1)为变量的归一化,已证明对训练ANN很有用。其次,式(2)为标准化,减少了数据库中典型的异常值的影响。

Xi=(xi-xmin)/(xmax-xmin)

(1)

xi=(xi-xmean)/xstd

(2)

2.3 供水网络应用中的训练与验证方法

训练和验证阶段训练和验证是机器学习预测系统的核心,训练阶段需要估计控制模型的参数,目的是使用一组数据(通常称为训练集)来找到优化某些质量指标的参数,多数情况下均使用相同的指标来训练和验证模型[4]。

交叉验证是一个迭代的训练验证过程,可得到更为准确的结果,并避免过度拟合。首先将数据分组,用其中的一部分数据来训练模型,然后用剩余的数据对模型进行验证,图2显示了3层交叉验证过程的示意图。通过统计研究表明,如表3所示多数研究均采用了该技术,在研究6中,数据集分为三组,即训练、测试和验证。验证数据不参与训练过程,使用训练集和测试集实现交叉验证,以估计最终模型的参数。

表3 不同研究的训练与验证阶段方法

另一方面,有必要处理不平衡类问题,该问题存在于所有供水网络历史管道故障数据库中。通常供水网络中未发生故障的管道比发生故障的管道多,如果比率超过了1∶10,监督学习任务将被认为是一个不平衡的学习问题。此类情况可能会对模型的行为产生负面影响,尤其是如果它是一个分类器。但部分研究认为,不平衡类的存在并不总是会使预测模型的性能恶化,因为预测模型的性能取决于模型本身和模型的数据结构。大多数分类研究是通过对数据进行采样来解决此问题(见图3)。

包括消除样本(欠采样)或生成新的人工样本(过采样),以减少数据集中两个类之间的不平衡问题。欠采样的缺点是会丢失有价值的数据,而过采样会产生错误的模式,因此训练集不具有代表性。选择一种技术或另一种技术必须基于数据集中记录的管道故障数量来决定。如果记录的管道故障数量具有代表性,则最好使用欠采样,若供水网络中管道故障数量很少,则过采样是最佳选择。

一般来说,这些研究的结果必须由通常不是机器学习专家的供水公司的员工来解释。因此,应仔细选择质量指标,以准确表示模型行为,使其更易于解释。质量指标是代表模型性能的数字度量,每个模型都建议制定一个质量指标。

回归方法通过误差测量进行验证,如均方误差(MSE)、平均绝对误差(MAE)或决定系数(R2)。 他们的公式在式(3)~式(5)中给出。这些指标量化了预测系统与实际系统输出之间的差异或偏差[5]。

(3)

(4)

(5)

混淆矩阵和接收器操作特征(ROC)曲线是评估分类模型的特定工具。一方面,混淆矩阵量化了每个类别的正确和错误预测数量。这是一个易于解释的指标,可以提取大量信息。另一方面,ROC曲线以图形方式表示不同阈值的真阳性率与假阳性率(见图4)。曲线下面积(AUC)是一个介于0和1之间的数值度量,可用于比较不同的模型,AUC越接近1,模型越准确[6]。

8项研究中,研究1~4获得了一个实际值作为输出变量,而研究6~8获得了管道的分类。研究6是一个特例,因为它估计了每个区域的所有变量,虽然研究6是一个分类系统,但它的质量指标更像是回归系统。

3 结语

本文研究了机器学习技术在供水网络管理中的应用趋势。研究发现,机器学习应用时,当结果的准确性占优势时建议使用ANN或SVM模型,目标是分析和解释结果以及变量的作用时,统计模型或BBNs模型是更好的选择。数据处理时重要的是应用特征选择技术而不是专家意见的趋势,此外,变量的缩放和转换有利于模型的性能提升。本文研究鼓励了供水网络行业应用机器学习系统。

在未来的研究中,可以分析每项研究中使用的变量及其对管道故障的影响,更换和维护供水网络管道的计划通常包括供水管和下水道,因此,后续可对应用于下水道的机器学习模型进行分析。

猜你喜欢
供水机器变量
美国供水与清洁基础设施不足造成每年85.8亿美元经济损失
各地完成农村供水工程建设投资466亿元 农村水利建设再提速
机器狗
机器狗
寻求不变量解决折叠问题
抓住不变量解题
四会地豆镇加快推进农村集中供水全覆盖
毗河供水一期工程
未来机器城
分离变量法:常见的通性通法