BP 神经网络在水库蓝藻水华预测中的应用

2024-04-25 07:59刘亚平鲁言波李彤李晓芳
资源节约与环保 2024年3期
关键词:水华蓝藻水体

刘亚平,鲁言波,李彤,李晓芳

(广东省生态环境监测中心,广东 广州 510308)

引言

水华是水体中藻类在一定条件下大量繁殖使水体达到富营养化状态的现象,是水体中物理、化学和生物过程等多种因素共同作用的结果。治理水华通常采用化学处理方法,如通过铜绿原溶液、高锰酸钾、聚合氯化铝、硫酸亚铁等化学药剂进行处理。但经常性、长期性使用这些化学药剂,会引起化学物质的积累,容易引起水体中毒,造成水体二次污染。加强叶绿素a(Chl-a)浓度预测,能有效减少蓝藻水华治理中化学溶液的使用,最大程度降低对水环境的影响。近年来,不少学者在水华和藻类生长预测研究方面取得了一些进展,如CHEN Q 等[1]应用决策树和分段非线性统计回归方法预测了荷兰海岸带水华Chl-a 浓度的变化趋势;刘载文等[2]研究了基于改进后支持向量机的LSSVM 水华中长期预测模型和RBFNN 水华短期预测模型,并进行了分析和比较;李大刚等[3]通过采用过程神经网络对水华进行建模预测,为水华的预测提供了一种新的途径;吴羽溪[4]、徐文欣[5]基于图像视觉技术对河湖蓝藻水华进行了研究,将深度学习方法应用至多光谱蓝藻水华检测中,为图像视觉技术在蓝藻水华的识别预警应用提供借鉴。BP 神经网络对于蓝藻水华的预测也曾有学者[6~8]提出,但大多是采取临时性布点的手工采样,通过线性插值获得数据,难以满足准确性和连续性要求。本文采用的BP 神经网络模型是在水质自动监测数据场景下应用,是当前以自动监测为主要监测模式下预测Chl-a 浓度的新方法,具有较强的推广性。

1 BP 神经网络模型算法介绍

BP 神经网络(Back-Propagation Network),也叫误差反向传播神经网络,是一种采用Sigmoid 功能函数的多层前馈式神经网络[9][10],其通过自适应学习训练来调整神经元之间的连接权值,具有非常高的非线性映射能力。BP神经网络算法的核心思路是找到误差下降最快的方向,按照该方向修正网络的连接权值和神经元的阈值,先通过输出层的实际输出与期望输出来调整输出层与隐层之间的权值,再调整隐层与输入层之间的权值,也就是说,网络是双向进行的,信号是从前向后,而误差调整权值是从后向前,即为反向传播,BP 神经网络拓扑结构如图1 所示。

图1 BP 神经网络拓扑结构图

2 研究对象

本研究采用广东省韶关市南水水库2021年6 月10 日至8 月31 日共401 条有效水质自动监测数据。湖库水华的生消伴随着各种物理、化学和生物过程,是内因和外因共同作用的结果[11],影响湖库水华形成的特征因素既包括水温(T)、pH、溶解氧(DO)、高锰酸盐指数(CODMn)、氨氮(NH3-N)总磷(TP)、总氮(TN)9 个指标,又包括藻密度及水生物毒素等表征因素指标。Chl-a 是表征水体富营养化现象及程度的重要指标之一,也是水体理化和生物指标的综合表现,故而以Chl-a 浓度作为网络模型输出变量,各指标统计量见表1。

表1 监测数据各因子统计量指标

3 研究方法

3.1 数据预处理

3.1.1 数据标准化

由于监测数据中各变量的量纲和数量级不同,变量的单位也各异,因此为了数据在分析过程中具有统计学意义,模型训练前需对数据进行标准化处理,以提高数据的可比性,本文采用数据Z-Score 标准化处理,见式(1)。

原始数据经过标准化处理后,符合标准正态分布。

3.1.2 确定模型参数

为减少变量间共线性问题,加快模型算法收敛,首先对多维变量进行降维处理,尽可能在保留原有信息的基础上将高维空间样本映射到低维空间。通过变量在主成分上的载荷因子,找出原始变量的线性表达,9 个指标参数降维处理后的主成分分析结果见表2。

表2 主成分分析结果

从各主成分贡献结果看,第一主成分Z1贡献率是34.24%,其中以T、W_cond 和Turb的主成分系数较大,表示Chl-a 的信息主要通过T、W_cond 和Turb 来表达;第二主成分Z2贡献率是18.01%,其中以pH、DO 和TP 的主成分系数较大;第三主成分Z3贡献率是12.28%,其中以CODMn和NH3-N 的主成分系数较大;前5 个主成分累计贡献率达83.59%。

3.2 BP 网络模型的建立

由于不同输入变量会对Chl-a 浓度预测结果产生不同的影响,且最优的网络算法在很大程度上是不确定的,因此在BP 网络比较复杂的情况下,训练的误差往往会收敛于局部最小值,即使BP 网络在训练过程中表现出很好的泛化性能,也不一定总能找到最优解,这就需要进行反复训练。由于pH、DO、TP 对Chl-a浓度影响最大,又有一些研究表明T 的变化和蓝藻的生长有着密切关系[12],因此最初以T、pH、DO、TP 这4 个主要因子为输入变量建立多种模型,然后再逐一改变输入变量建立网络模型,直到剩2 个输入变量为止,共11 种方案。不同的模型均反复训练2000 次,误差阈值0.01时停止训练,结果见表3。

表3 不同变量的网络模型预测结果

从结果看,方案4 中当输入变量为pH、DO、TP 时均方根误差收敛于局部最优值,说明 Chl-a 建立以pH、DO、TP 为输入变量的预测效果最好。

4 结果与分析

根据以上方法,以pH、DO、TP 这3 个输入变量建立模型来预测Chl-a 的浓度,通过R 软件自带的neuralnet 包来训练BP 神经网络模型[13],用80%的样本数据做训练,20%的样本数据进行预测,结果如图2 所示。

图2 叶绿素a(Chl-a)预测值与实测值

由图2 可知,基于pH、DO、TP 这3 个输入变量建立的BP 神经网络对Chl-a 的预测值和实测值之间拟合程度较好,预测值和实测值相关系数R2达到0.972,具有高度相关性,表明模型对样本数据有很好的预测效果。

为进一步比较性地研究BP 神经网络模型对于Chl-a 的预测效果,在图2a 的基础上加入经典广义线性回归预测模型对Chl-a 浓度的预测曲线,结果如图3 所示。

综上可知,BP 网络模型对Chl-a 的预测效果远高于线性回归模型的预测效果,特别是在Chl-a 浓度变化较大时,BP 网络模型的优势更加明显。

结论

湖库生态系统是一个多因素耦合的复杂系统,浮游植物变化源于各生态要素间复杂的相互作用,表现出极大的随机性、不确定性和非线性。本文引入BP 神经网络模型中的误差反向传播算法,建立以水温(T)、pH、溶解氧(DO)等9 个因子为输入变量,以叶绿素a(Chl-a)为输出变量的BP 神经网络模型,通过主成分分析法对因子变量进行降维处理,得出pH、DO、TP 是影响Chl-a 浓度的3 个主要因子,且前5 个主成分的贡献达83.59%。结果表明,BP 神经网络模型的预测效果很好,预测值和实测值相关系数R2为0.972,具有高度相关性。Chl-a 为水体中浮游植物生物量的一项重要指标,而当前国内没有Chl-a 自动监测标准和质量控制标准,监测Chl-a 浓度的难度较大。通过建立pH、DO、TP 为输入变量的BP 神经网络模型可以作为叶绿素a 浓度预测的一种有效方法,该模型的数据依托已在全国广泛建立的水质自动监测站,不需要额外增加投入成本,能够有效控制氮、磷等营养物质的排放,为水环境治理、水环境保护及水生态安全提供了一种节能、安全、环保的技术方法,能极大地降低水华治理过程中对生态环境造成的二次污染,避免对生态环境造成不可逆转的伤害。

猜你喜欢
水华蓝藻水体
农村黑臭水体治理和污水处理浅探
藻类水华控制技术及应用
生态修复理念在河道水体治理中的应用
南美白对虾养殖池塘蓝藻水华处理举措
南美白对虾养殖池塘蓝藻水华处理举措
针对八月高温蓝藻爆发的有效处理方案
广元:治理黑臭水体 再还水清岸美
可怕的蓝藻
油酸酰胺去除蓝藻水华的野外围隔原位试验
欧盟将禁止八种水体有毒物质