基于机器学习算法的水质预测及相关算法比较研究

2023-08-04 14:41薛亚婷吴升伟王江涛

水资源开发与管理 2023年7期

薛亚婷吴升伟王江涛

(1.中煤航测遥感集团有限公司,陕西西安 710199;2.中煤地西安地图制印有限公司,陕西西安 710199)

随着社会的发展,水环境污染日益加重,水体污染带来的危害也日益凸显。因此找到一种合适的方法对小流域水环境质量进行评估,并对变化趋势进行预测,提前采取行动缓解污染速度,改善水质是非常必要的。机器学习算法提供了一种可靠、有效、先进的水质预测方法,它建立的水质预测模型属于非机理型模型,不依赖于水质变化的化学原理,而是依据数据本身的规律和特点进行预测[1]。

当前,各国开始将神经网络、回归分析、灰色系统理论等融入水质预测中,提高了预测的广泛性及准确度[2-5],如肖金球等[6]提出了一种改进型的 GA-BP神经网络,采用双隐含层和7个隐含层节点进行仿真训练;Amir et al.[7]探讨了不同的核函数对水质预测结果的影响;周志青等[8]提出了一种将ARIMA和RBF-NN耦合的模型;马晋等[9]基于地下水水质指标,通过逻辑分析将地下水分为4个等级。本文在现有研究的基础上,为提高预测精度,避免模型单一造成的区域水质预测结果偏差,分别利用神经网络模型、支持向量机模型和逻辑回归模型对赤水河流域的水质进行预测,并分析比较3种模型的预测结果。将一部分水质、环境、气象数据作为训练集,利用3种机器学习方法对数据进行训练建模,对之后一段时间的水质等级进行预测,对赤水河流域水质治理提供思路。

1 数据获取

1.1 研究区概况

赤水河为简阳市管河流绛溪河的支流,自成都市龙泉驿区开始,从北向南,途中经过石盘水库、赤水铺等地区,最终汇入绛溪河,流域面积约60km2,平均流量0.68m3/s,流域内存在15个采样点。流域近年来存在严重的污染问题,一是居民在河边丢弃大量建筑废料;二是流域内养殖业管理不严,加之一些农家乐整改不到位,使该流域的水质问题一直受到环保部门的关注。

1.2 实验数据

实验数据包括2019年流域内15个采样点的日实测水质数据、研究区气象数据、研究区环境数据。

a.水质数据:利用水质监测设备,采集了2019年流域内15个采样点的总氮、总磷、COD、氮磷日数据。

AntConc统计结果表明，在52篇中方报道中出现906处介入资源的表达形式，其中“对话性扩展”737处（81.35%），“对话性压缩”169处（18.65%），具体分布见表1：

b.气象数据:数据由中国气象数据网下载,选择离流域最近的龙泉驿区气象站点数据。气象数据包含累计降水量、风速、风向、气温、湿度、气压6项指标。

c.环境数据:数据包含PM2.5、PM10、SO2、NO2、AQI、CO、O37项指标。

1.3 相关Python库

Python是近些年来非常流行的一种深度学习语言,相对于Matlab、SPSS这些常规的水质预测研究平台来说,它能够对算法进行修改,将成果制作成程序,既可以用于研究学习,也可以用于产品开发。研究中主要使用了Python中的statsmodels模块,以确定计算自相关、偏相关系数,完成ADF单位根检验等数据统计功能;使用了matplotlib模块,以实现绘制自相关图和偏相关图功能;使用了sklearn模块,以实现对训练集和算法的封装等功能。

1.4 数据预处理

在建模之前需要对数据进行预处理,确定参数之后再建立模型,具体流程见图1。

图1 3种模型的预测流程

1.4.1 数据归一化

BP神经网络由输入层、隐含层、输出层构成[13]。输入层神经元即输入的水质指标,包括2019年每日的总磷、总氮、温度等17个指标。隐含层层数及每层神经元个数需要根据实际情况确定,由于输入神经元个数过多,为避免神经元过载,故采用4层隐含层,每层神经元个数分别为8、16、16、8。输出层即为水质预测等级,由《地表水环境质量标准》(GB 3838—2002)将水质分为Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ5个等级,将其分别对应数字1、2、3、4、5,并以输出等级作为输出层。

采用双盲法阅片，与1位病理医师一起独立观察每张切片中随机5个不重叠的视野。评分及阳性判断标准[7，8]：①按着色强度：无染色为0分，浅黄色为1分，棕黄色为2分，深褐色为3分；②按阳性细胞比例：＜5%为 0分，5%～25%为 1分，26%～50%为2分，51%～75%为3分，＞75%为4分；两项相乘，0～1分为阴性，2～4分为弱阳性，5～8分为中度阳性，9分以上为强阳性。

y=(x-xmin)/(xmax-xmin)

(1)

逻辑回归建模主要过程为:收集各项相关数据,确定正则化项及其参数,以及优化方法,进行模型训练和精度检验。本研究选用2019年前255天的17项水质影响因子作为训练样本,将2019年后110天的水质预测结果作为验证集,设置最大循环次数为100次,参数C为1,选用L2正则化项,运行模型得到预测结果。

1.4.2 划分训练集与测试集

本研究以2019年日采样数据作为实验数据,共有365组实验数据,将数据以7∶3的比例划分为训练样本和测试样本,具体来说,前255组数据为训练样本,后110组数据为测试样本。

2 基于实测数据的赤水河流域水质等级评价

2.1 评价因子及方法

本文选取总氮、总磷、化学需氧量(COD)3个指标作为评价因子。采用《地表水环境质量标准》(GB 3838—2002)作为评价标准,其中总磷、总氮、COD 3项因子具体分类标准见表1。

表1 水质等级分类标准

本研究根据每个采样点的水质等级,利用空间插值的方法实现水质等级的空间可视化,从而对水质污染空间分布和时间分布进行分析。

国网德阳供电公司所辖10 kV风孟线线路以110 kV风光变电站10 kV母线为电源点，线路主要信息如下：

a.根据《地表水环境质量标准》(GB 3838—2002)划分等级。

b.利用反距离权重插值表达空间分布。对区域内15个采样点进行空间插值,得到了整个河流的等级分布[11],结果见图2。

临床常用糖皮质激素助减剂还包括羟氯喹、甲氨蝶呤、环孢素A等。羟氯喹通过对白细胞的抑制作用起到抗炎效果，同时可阻止免疫反应，对治疗DM有一定的效果，与激素同服能显著改善皮疹症状，患者耐受性好，且不良反应相对其他免疫抑制剂小，但也需注意神经、肌肉、眼部视网膜的损害。甲氨蝶呤长期以来被用于治疗IIM 及IIM合并ILD，但此药可能导致的肺毒性常难以与渐进的IIM合并ILD相区分，因而目前应用很少[32]。环孢素A联合激素能更好地改善患者的生存率[33-34]，但须监测其血药浓度及不良反应。本研究1例患者治疗ARDS后，应用环孢素A效果良好，激素剂量减半。

图2 2019年每月平均水质等级空间分布

2.2 评价结果

根据评价标准进行综合评价后,最终将赤水河流域水质划分为5级,各采样点的水质等级占比见表2。

表2 各采样点水质等级占比

从图2来看,流域上游水质污染相对较轻,基本为Ⅱ类水或Ⅲ类水;而流域中游及下游污染较重,大多数河段为Ⅲ类水或Ⅳ类水。水质在不同的季节出现了不同的污染情况:当天气逐渐变得炎热多雨时,水质开始从Ⅱ类、Ⅲ类水逐渐过渡到Ⅳ类、Ⅴ类水;而在降温、降水减少之后,水质开始好转。7—9月全河段污染最为严重,而其他月份污染相对较轻。主要是因为从7月初开始赤水河流域进入雨季,一直到9月中旬降雨强度都较大,化肥农药、生活污水、牲畜排泄物等随着地表径流进入河道,加重了水中的氮、磷等污染。随着温度的升高,水中的氮、磷等元素为藻类的生长提供了条件,水体持续恶化。大约10月左右,由于雨水的减少及温度的下降,水质开始好转。

3 基于神经网络算法的水质预测

神经网络建模主要过程为:收集各项相关数据,确定模型参数和模型框架,进行模型训练和精度检验。本研究选用2019年前255天的17项水质影响因子作为训练样本,将2019年后110天的水质预测结果作为验证集,最大循环次数200次,选用L2正则化项,设置最初学习速度0.001。

3.1 BP神经网络原理

BP神经网络模型训练过程分为信号正向、反向传播两部分,每一相邻神经元之间具有一定初始权值。水质影响因子作为输入神经元由输入层进入模型,经过隐含层以及激活函数计算处理后,将输出的结果与预计的结果进行对比,如果相差过大,则向反方向传输信号,从而根据误差反馈结果重新调节各层之间的权值。不断重复上述过程,经过反复的权值修正,最后误差信号被控制在一定范围内,样本训练结果也更加接近预期要求[12](见图3)。

图3 神经网络原理示意图

3.2 BP神经网络建模

3.2.1 确定网络结构

在进行样本训练前需要进行归一化操作,以保证各项因子数量级在一个层面,避免某些因子过大导致占比较大,或某些因子过小导致占比较小,从而导致一些因子没有发挥作用[10]。归一化公式为

3）开关量接点丰富，继电保护测试仪7路接点输入和2对空接点输出，输入接点为空接点和0～250V接点兼容；同时其自我保护结构设计具备一定散热性，本身具有可靠完善的多种保护措施和电源软启动，因此，微机继电保护装置整体性价比较高。

对方似乎是在对第一句“飞翔的种子”进行解释，但这种解释，反而令他更加觉得云山雾罩。鸿鹄、月酌、朱雀、鸢楚……这些东西，他隐约觉得有些耳熟，似乎是以前从哪里听说过，但直到对方最后说出了“青鸾”，他才终于想起，这些东西都是什么了。

网格搜索法(GridSearchCV)是确定最佳参数C和γ的一个普遍方法,顾名思义其主要思想就是通过搜索网格节点来确定参数[14]。设置C可取数值为0.1、1、10、100、1000,γ可取数值为0.001、0.01、0.1、1、10,在网格交点处便可形成两个参数的任意组合,共有20种组合方式,通过自动调参容器对这20种组合进行遍历,便可得到精度最佳的一组参数。经过实验,得到最佳参数C为100,γ为1。

石城地区含矿伟晶岩一般分带状构造不明显，仅在部分矿体内见到一、二带或部分矿体局部地方见到较好的带状构造，经综合研究分析，石城地区含矿伟晶岩原生带状构造和交代的带状构造在水平和垂直空间上的变化规律如下：

选择L2正则化项。正则化项其实是对原函数的一种约束,它可以避免出现过度拟合的情况。常见的正则化项有L1、L2,其中,L2正则化适应性强,能够有效地抗干扰,它倾向于建立一个参数较小的模型,具有较广的应用性。

3.2.3 确定激活函数

选择relu作为激活函数。relu是一种非线性激活函数,对于深层网络具有意义,能够利用各层的复杂组合及运算,模拟各种函数,被广泛应用于神经网络之中,效率高且精度高,没有经过预训练也能达到很好的效果,被广泛应用于深度学习。

4 基于支持向量机的水质预测

支持向量机建模主要过程为:收集各项相关数据,确定核函数、参数C和γ,进行模型训练和精度检验。本研究选用2019年前255天的17项水质影响因子作为训练样本,将2019年后110天的水质预测结果作为验证集,设置初始参数C为1,γ为10,并利用网格搜索法确定最佳参数,最后运行模型得到预测结果。

4.1 支持向量机原理

利用支持向量机进行回归预测,其实质就是找到一个分割面来对不同类别进行分类,这个平面称为超平面。一般来说样本都是非线性的,只能找到一个曲面来划分类别,不可能通过一个平面来实现,由此引入核函数的概念,通过升高维数来解决这个问题。

式(2)代表了超平面,其中ω为权值向量,xi为样本向量,a为分类界值。

ωxi+a=0

(2)

(3)

4.2 支持向量机建模

4.2.1 确定核函数

榜样是在学习过程中表现突出的一个典范，他能带动其他人一起奋进，影响其他人的学习进程。教师在教学活动中充当着学生的榜样，教师的一言一行都在无形中影响学生的学习态度、学习效果。在小学生的心里，教师的语言和行为就是自身语言和行为的指标，他们遵循这个指标来规范自己的言行，从而完善自身。教师要注意自己的言行举止，为学生打下良好的榜样，促进学生的发展。教师还可以将优秀的学生树立为班级的榜样，以优秀生带普通生，实现全班的进步。在教学过程中，教师要让优秀生充分发挥榜样的作用，让学生跟随他们的脚步，共同发展，共同进步。

车辆在运行过程中，随着线路曲线的变化，车端跨接线缆被动地进行伸展和收缩运动，因此跨接线缆的复杂受力运动情况成为影响跨接线缆使用寿命的重要因素[2]。

(4)

式中:xc为核函数中心;σ为函数宽度。

4.2.2 确定相关参数

模型参数的选择决定了模型的优劣,当参数过小时,可能出现训练不够、精度不高的情况,反之,可能出现过度学习浪费系统资源的情况。惩罚系数C决定了对实验误差的忍受度,C的值越高,表示越不能容忍;γ为径向基函数参数,决定了数据的学习程度。

语言的丰富意蕴体现在它所塑造的人物形象身上。从小说的语言描写中，可以发现苏比是一个可怜而又让人鄙视的人。说其可怜，那是因为文中的苏比生活在一个贫穷的环境里。他在寒冷的冬天因没有自己的住所而露宿街头，只好躺在那里因为寒冷而辗转反侧。说其让人鄙视，那是因为他凭借自己健壮的身体足以改变自己的命运，但他却把监狱当作自己的最高追求。于是他想尽办法来实现自己的这一伟大的构想：

3.2.2 确定正则化项

(1)深一含粉细砂压缩层(B5)：处于该层组顶部，由细砂及粉细砂层组成，底板埋深80～100 m，厚度10～20 m，一般呈中密～密实状态。

选择径向基核函数。径向基核函数运用广泛,与其他核函数相比其参数较少,可以通过升维实现样本线性可分。其定义为

5 基于逻辑回归的水质预测

式中:y为归一化后的数值;x为处理前的数值;xmin、xmax分别为处理前数据的最小值和最大值。

5.1 逻辑回归原理

逻辑回归模型可以通过分类实现水质的等级划分,常规的模型只能实现二分类,为实现5个等级的划分,引入累计回归模型,其表达式为