基于GWO-XGBoost 的工业污水水质关键数据预测算法

2024-01-25 11:02牛景辉
工业水处理 2024年1期
关键词:污水处理断面水质

牛景辉

(天津石油职业技术学院,天津 301607)

在工业污水处理领域,对水质指标的变化进行预测能更好地优化工业污水设施管理水平〔1-3〕。以实际工业污水处理过程的pH 和浊度为例,进出水水质的预测任务对污水处理工艺控制非常关键。对污水指标预测的相关理论研究近年来获得了国内外高度关注。预测工业污水数据的方法主要分成两大类,一类是基于水质处理过程建模的方法〔4-5〕,另一类是数据驱动预测方法〔6-7〕。水质处理的机理建模存在较多的非线性参数,机理数学建模过程复杂繁琐,预测精度容易受到数据噪声的干扰影响,且一般只能针对特定污水处理工艺过程进行,迁移性具有很大的限制。随着污水处理的计算机自动化控制技术的发展,数据信息化积累了大量的污水处理监测数据。如何有效地利用污水处理的监测数据是亟需解决的问题。有许多数据驱动类方法被引入污水处理数据的预测中,如:回归统计、时间序列分析、BP 神经网络、长短时回忆网络等方法可以对数据做到较为准确的预测。N. BHOJ 等〔8〕提出了融合深度学习算法的时间序列预测方法,该方法可识别数据特征和异常情况,能够较准确地预测数据变化趋势,并指出利用优化算法提升预测算法效果具有很大空间。Fenghua YANG 等〔9〕将提出了基于长短时回忆神经网络算法预测水质的方法,该方法用于预测水质处理药剂的投加量,提升了污水处理的运行管理水平。K. BANERJ 等〔10〕研究了使用SVM 回归等多种机器学习算法,该方法结合了多种水质数据变量,实现了较为准确的水质数据变化预测。唐亦舜等〔11〕将非线性自回归算法用于神经网络模型进行优化,实现了对污水pH 和DO 等水质数据良好的预测效果,但是调整参数比较繁琐。何丹等〔12〕通过粒子群算法改进BP 神经网络进行污水处理过程的预测,使神经网络预测算法的收敛速度进一步提升,跳出局部极值点,实现了算法预测效果的优化。王立辉等〔13〕基于灰狼优化(Grey Wolf Optimizer,GWO)算法改进的循环神经网络能够减少参数调整的复杂程度进而执行数据预测,在水流量预测中发现具有良好的效果。王春玲等〔14〕对水质的COD数据采用了XGboost 构建预测算法模型,并且利用了主成分分析算法进行了数据预处理,提升了算法训练速度和水质预测精度,与多种机器学习算法对照,表明XGBoost 算法预测效果最优。

因此,笔者提出了通过XGBoost 模型构建污水的关键水质数据预测算法,另外针对其需要调整参数较多的问题,采用了灰狼优化算法进行模型参数的优化调整。此外考虑到水质数据的复杂随机非线性特征,数据经过预处理后,预测算法能够更好地提取水质数据的特征,最后通过与默认参数的XGBoost、LSTM 算法进行预测对照,检验了该算法的稳定性和能达到预期效果的能力。

1 预测模型方法

1.1 灰狼优化原理

狼群有其独特的狩猎方式,GWO 通过研究其行为模式进行了数学建模。借由模仿狼群的移动模式来实现目标的最优化。在种群内部,个体有α、β、δ3 个等级,分别是头狼、第二级别、第三级别。其围猎过程如下:

第一步是包围猎物:

式中:t——当前的代数;

A、C——协同系数向量;

Xp——猎物的位置向量;

X——灰狼的位置向量;

D——灰狼与猎物之间的坐标距离。

A、C的计算方法如下:

式中,a是收敛因数,伴随迭代次数变多,从2 线性降低到0;r1、r2是[0,1]的随机数向量。

第二步是抓捕猎物:由于猎物的坐标未知,可以知道目标的最优值也未知。采用以下思路:假定α是最接近猎物的,β、δ其次,用式(5)~式(7)测算α、β、δ与猎物的距离。伴随着不断更新α、β、δ狼的坐标〔式(8)~式(10)〕来召唤其他灰狼不断接近猎物〔式(11)〕,最后认定α狼的坐标就是猎物的坐标。为增加随机性,减小陷入局部极值的概率,在位置迭代计算公式上增加了随机项rand。因本研究中所有的参数被归一化到[0,1]区间内,所以随机项为[0.01,0.1]之间的随机数。其计算式如下:

式中,Xα(t)、Xβ(t)、Xδ(t)分别为t代时α、β、δ的位置。

1.2 XGBoost 算法原理

XGBoost 即极端决策提升树算法,由GBDT 提升树算法模型演变改造优化而来〔15-16〕,通过反向叠加算法,集成Boost 策略改进多个弱学习算法融合成1 个高度精确的学习预测算法,将多个学习器结合与预测实际值进行评估误差叠加加权求和不断迭代,改进了回归分类决策树的结构,从而最终实现提升模型的预测效果。XGBoost 算法最重要的核心问题是决策树叠加融合评估误差的目标函数:

式中,Loss是实际值与预测值偏差的损失函数,yj是预测数据的实际值,ŷi是上一个决策树算法的结果,x是输入数据,从而拟合多个决策树的算法结果,而fm是决策树所采用的近似函数,γ是对决策数的结果正则化改进惩罚系数项,而基本的决策树近似求取函数为:

XGBoost 模型优化调整的主要问题是以所需要预测数据样本的特征为输入,训练改进各项函数的系数调整取值,并且最优化的数据预测结果为目标,建立最优化的XGBoost 模型算法预测所需数据的结果。在XGBoost 模型中,通常对模型预测表现影响较大的超参数有:最大生成树计数、学习率、树的最大深度和最小叶子节点样本权重之和。为降低在参数调优过程中产生计算工作量过大的风险,仅使用GWO 优化以上4个参数。

2 工业污水水质关键数据GWO-XGBoost预测算法构建

XGBoost模型超参数多,难以同时优化。通过GWO优化模型超参数的取值方法进一步增强XGBoost 模型的预测能力。在XGBoost 模型参数优化阶段,狼群种群个体的适应度函数为该个体参数下XGBoost 模型的预测结果与真实数据的均方根误差(RMSE)。当RMSE达到全局最小值时,认为GWO 已经寻找到了XGBoost的最佳参数组合。

使用GWO 优化XGBoost 算法流程示意如图1所示。

图1 使用GWO 优化XGBoost 算法流程示意Fig.1 Using GWO to optimize the XGBoost algorithm process

首先随机初始化GWO算法的种群,确定搜索范围。把当前轮的种群所指代的参数数据按照顺序导入XGBoost 模型,通过对XGBoost 模型的训练,获得XGBoost 模型的计算结果。再使用验证集对此次完成训练的模型进行求证,最后获得适应度函数。以适应度函数的大小评估种群内部各个体的水平,并计算得到下一轮的迭代种群内各个体的移动方向。如果满足算法收敛条件,则停止迭代,输出XGBoost 优化后的参数。若不满足收敛条件,则按照迭代规则,更新种群内部各个个体的位置,重复上一轮操作。

在启动GWO 算法前,首先确定XGBoost 参数的取值范围,其中最大生成树数目,取值范围为100~1 500;学习率默认值初始设置为0.30,取数区间最小值为0.01、最大值为0.5;树的最大深度一般初始值设定为6,取数区间最小值为3、最大值为12;最小叶子节点样本权重和一般默认数值设定为1,取数区间最小值为1,最大值为10;确定取数区间后,将所有参数进行Min-Max归一化,即种群的所有个体为四维空间内的向量。同时设置狼群数量为20,最大迭代次数为200 次。

3 数据处理与数据集的构建

为验证所提算法的有效性,选取了某处水体断面的部分关键水质监测数据。选区的样本数据时间跨度从2019 年1 月1 日到2019 年8 月9 日,总共221 个自然日合计2 652 个时间点,采样间隔为120 min。在数据预处理环节使用了四分位距法移除了异常数值点,并采用多项式插值法(二阶)补齐了缺失数据。数据包含了pH、溶解氧、浊度、总磷和总氮等各项指标记录13 260条。训练集为前2 232 个时间点的数据(186个自然日),验证集包括了288 个时间点的数据(24 个自然日),测试集为最后120 个时间点的数据(10 个自然日)。

对所有的原始数据采用滑动窗口的方式进行构造训练集、验证集与测试集。本研究中,数据滑窗宽度取l=12,滑窗步长取s=1。训练集数据和验证集、测试集数据分别进行了均值方差归一化(化为均值为0,方差为1 的数据)与最值归一化(数据被映射到[0,1]区间)。

4 预测算法对比分析

本次优化XGBoost模型的4个重要超参数,分别是:最大生成树数目(n estimator)、学习率(learning rate)、树的最大深度(max depth)和最小叶子节点样本权重和(min child weight)。最大生成树数目取数区间最小值为100,最大值为1 500,默认值为500;学习率默认值为0.30,取数区间最小为0.01,最大为0.5;树的最大深度默认值为6,取数区间最小为3,最大为12;最小叶子节点样本权重和默认值为1,取数区间最小为1,最大值为10。

首先对XGBoost 上述4 个超参数进行初步手动调参,得到手动调参后的初始值如表1 所示,其余超参数则采用默认值。同样地,对于对照组LSTM 也进行了手动调参,得到的参数值如表1 所示。为了验证GWO对XGBoost 预测表现的提升效果,在测试部分与手动调优后的XGBoost、LSTM 相比较,将三者分别用于预测同一水质指标的变化。使用GWO 优化XGBoost 的初始超参数与手动调优后的XGBoost 相同。

表1 各算法初始参数Table 1 Initial parameters of each algorithm

测试集的数据时间跨度从2019 年7 月30 日开始到8 月9 日为止,共计10 个自然日(包括了用于预测7月31 日指标的输入数据)。GWO-XGBoost、XGBoost与LSTM 分别用于预测pH、溶解氧、浊度、总磷和总氮的预测结果如图2~图6 所示,各算法的RMSE 与决定因数(R2)如表2 所示。

表2 各算法在不同水质指标下的预测表现比较Table 2 Comparison of the prediction performance of the algorithms for different water quality indicators

图2 用于pH 指标的预测结果Fig.2 Prediction results for pH

由实测结果可知,目标断面pH 在7.0~7.5 之间波动。预测结果如图2 所示。GWO-XGBoost、XGBoost与LSTM 的R2分别是0.86、0.79 和0.69,RMSE 分别为0.01、0.02 和0.04。

在预测断面的溶解氧数值时,目标断面溶解氧在5.1~9.5 mg/L 之间波动。预测结果如图3 所示,GWOXGBoost、XGBoost 与LSTM 的R2分别为0.90、0.78 和0.71,RMSE 分别为0.14、0.82 和1.51。

图3 用于溶解氧指标的预测结果Fig.3 Prediction results for dissolve oxygen

在预测断面的浊度数值时,目标值在1.1~12.2 NTU之间波动。预测结果如图4 所示,GWO-XGBoost、XGBoost 与LSTM 的R2分别为0.85、0.74 和0.73,RMSE分别为0.53、2.01 和1.98。

图4 用于浊度指标的预测结果Fig.4 Prediction results for NTU

在预测断面的总磷数值时,目标断面总磷在0.009~0.053 mg/L 之间波动。预测结果如图5 所示,GWO-XGBoost、XGBoost 与LSTM 的R2分别为0.86、0.85和0.81,RMSE分别为0.001 9、0.002 3和0.002 7。

图5 用于总磷指标的预测结果Fig.5 Prediction results for TP

在预测断面的总氮数值时,目标断面总氮质量浓度在2.2~12.3 mg/L 之间波动。预测结果如图6 所示,GWO-XGBoost、XGBoost 与LSTM 的R2分别为0.87、0.84 和0.80,RMSE 分别为0.64、0.93 和1.31。

图6 用于总氮指标的预测结果Fig.6 Prediction results for TN

由图2~图6、表2 可知,基于GWO 算法优化的XGBoost 模型对目标断面的pH、溶解氧、浊度、总磷和总氮的预测值与实测值的变化趋势基本保持一致,并且R2均达到0.71以上。在预测断面的pH时,结合RMSE值可知:与默认参数的XGBoost 模型相比,经过超参数优化后,基于GWO 算法优化的XGBoost 模型的预测精度和自相关检验通过率均得到显著改善;各时间序列预测结果出现的差异主要是由原始时间序列的波动和量级的影响所致。

5 结论

污水水质数据具有很强的随机性和非线性特征,一般的预测算法难以实现高精度的预测,但是更高精度的预测模型对优化污水处理运行管理有重要指导作用。本研究利用灰狼算法优化后的XGBoost模型对污水的关键水质数据进行了预测。首先,对GWO 进行了简化,降低了计算复杂性,同时强化了随机性,降低了GWO 在迭代过程中容易陷入局部最优区域的风险。其次,将水质时间序列数据进行了预处理,选取了其中部分对XGBoost模型表现影响大的参数,并使用GWO 进行了优化。最后,由GWO 优化后的XGBoost模型与手动调参的XGBoost、LSTM 进行了对比,证明由GWO 优化后的XGBoost模型有着更高的预测精度和更强的泛化能力。与手动调参的XGBoost模型相比,由GWO 优化过的XGBoost模型在预测pH、溶解氧、浊度、总磷和总氮的决定因数R2分别提高了8.86%、15.38%、14.86%、1.18%和3.57%,实现了较为准确的水质关键数据预测。

猜你喜欢
污水处理断面水质
水质抽检岂容造假
我国乡镇污水处理模式的探讨
파금과 염상섭 문학 비교연구의 한 단면(断面)
太原市61个村要建污水处理设施严禁直排入河
一月冬棚养虾常见水质浑浊,要如何解决?这9大原因及处理方法你要知晓
涌浪机在污水处理中的应用
基于Dijkstra算法的最优解列断面快速搜索方法
国内首台全断面煤巷高效掘进机诞生并交付
天钢Ф210mm断面圆坯的开发与生产实践
水质总磷测定存在的问题初探