基于LSTM的河北省径流量预测研究

2023-09-22 13:43高永华

水利技术监督 2023年9期

高永华

(河北省衡水水文勘测研究中心，河北衡水 053000)

径流量预测是基于历史水文气象数据预测未来时段内径流变化，是自然灾害预报、水资源管理、水文环境研究等领域中的热点之一[1-3]。传统径流量预测方法局限于自回归模型如ARIMA等，其显著缺点在于基于线性关系，对于非线性的水文数据预测效果不佳，且无法考虑历史径流对未来水文过程影响[2-3]。近年来，深度学习技术在时间序列变量预测中得到成功应用，其中LSTM(Long Short-Term Memory)网络作为一种特殊的循环神经网络，具有优异的数量级优化和记忆管理能力[3-5]。河北省是我国北方重要的粮食生产和工业基地，由于区域特殊气候环境、城镇化等因素，地表径流量发生了很大变化。本文以河北省的水文气象数据为基础，提出一种基于LSTM网络的河流径流量预测新方法，通过实验分析评估LSTM模型应用性，进而为水文预测预报研究提供新途径。

1 研究区与研究方法

1.1 研究区概况

河北位于华北腹地，东临渤海、西连太行、北依燕山，坐标为35°30′～42°47′N，113°27′～119°50′E，区域面积18.7万km2，如图1所示。总体地势特点为东北高、西南低，海拔介于4～2033m，形成北部山地、中西部丘陵、东侧平原的分异地貌。受海陆位置与季风相互作用影响，形成温带大陆性季风气候，具有冬寒夏雨、春暖秋凉、降雨集中的特点，其年平均气温约8～15℃之间，年均降水量440～650mm之间，无霜期110～220d，平均日照时数2500h，有效积温2600℃～3700℃，年蒸发量1105～1600mm。该地地跨黄、海、怀、漳河等水系，多年平均径流量约120×108m3，约占区域水资源总量的7%，该地地表径流存在干旱持续时间长、水体污染严重、河流断流频现等问题。

图1 研究区河川距离分布

1.2 径流量相关数据

本研究选取河北省1961—2020年径流量数据进行研究，数据来源为国家河流水文站台历史径流量观测数据库和已有文献研究。另从气象数据共享服务网站搜集到研究区近60年来的降水量、蒸发量、气温等3项指标数据，全部数据集不存在异常值和缺失项。

1.3 LSTM网络

作为循环神经网络(RNN)的一种改进，LSTM网络结构中新建立了在时间方向上了含有反馈连接的记忆单元，具体是添加了3个门结构：输入门、遗忘门和输出门，用于控制网络状态信息的输入、删除和输出，其核心公式如下[4]：

输入门控制器：i(t)=σ(wixx(t)+wihh(t-1)+bi)

(1)

遗忘门控制器：f(t)=σ(wfxx(t)+wfhh(t-1)+bf)

(2)

输出门控制器：o(t)=σ(woxx(t)+wohh(t-1)+bo)

(3)

式中，i(t)—t时刻的输入变量；σ—sigmoidal函数；w、b—各门的权重、偏置；h、s—隐藏、单元状态。

本研究使用Rstudio平台中的keras程序库设计LSTM网络模型，在实际应用中需对网络结构层次、优化器、损失函数进行优化[5]。其中n表示网络层次数量，决定了模型收敛速率，Adam优化器可自适应调整参数学习率，损失函数为预测输出与真正之间误差衡量[6]。本文选用grid方法进行参数优化，进而调整LSTM网络结构，使模型训练达到最优状态。

1.4 数据处理与模型精度验证

LSTM算法具有很强的适应性，这意味着该算法性能依赖于数据结构和模型参数。为此，本文对全部输入数据进行Min-Max归一化处理，使其范围介于0～1之间，以便减小数据噪声。此外，采用Grid搜索法进行超参数寻优，以保持模型稳健性[8-9]。全部样本数据被随机分成两部分，第一部分(1961—2000)用于模型校准，第二部分(2001—2020)用于验证。将LSTM网络模型迭代运行100次，最后基于100次运行结果的平均值评价模型精度。利用决定系数(R2)、均方根误差(RMSE)和平均绝对误差(MAE)评价径流量预测性能，计算公式如下。

(4)

(5)

(6)

2 结果与分析

2.1 径流量数据统计特征

研究区1951—2020年逐月径流量序列的变化特征如图2所示。期间月径流量最大、最小值分别为63.16亿、-1.75亿m3，中值、平均值和标准差依次为5.77亿、9.11亿、10.37亿m3，但其变异系数达1.14，说明月际之间径流量变异性显著。利用线性回归拟合其变化趋势，结果表明其变化形式为y=-0.0012x+9.6289，R2=0.0008，但并未通过5%水平信度检验。

图2 研究区逐月径流量序列特征

研究区月序列径流量呈现明显峰谷特征变化，经分析发表径流量峰值集中于6—9月，谷值多为12～2月，这符合区域水文气候特征实际。由于研究区受大陆性季风影响，降雨呈现明显季节性分配，而径流量年内变化与之俱有同步性[10]。

2.2 LSTM预测模型设计

利用Rstudio软件平台中的keras程序包设计LSTM网络。利用研究区1950—2000年近600个月的逐月径流量序列为训练集进行建模。由于LSTM是参数化模型，模型拟合能力不仅依赖于输入数据特征，还受算法的超参数影响。该网络模型包含隐藏层大小(hidden_size)、网络层数(n_layer)、Dropout、滑动窗口大小(window size)、学习率(learn rate)、梯度截断(Gradient Clipping)等关键参数；其中hidden_size影响模型所能捕捉的训练数据的复杂度；n_layer控制模型的复杂度；Dropout是为了防止模型过拟合而添加的正则化项，以减小过拟合的风险；window size为记忆单元长度、learn rate控制收敛速度、Gradient Clipping是防止梯度爆炸或梯度消失。利用网格搜索法进行超参数寻优过程，最终模型超参数设置见表1。

表1 LSTM网络模型超参数配置

2.3 LSTM模型在预测径流量中的应用性

利用近20年共48个月序列径流量数据进行独立验证，径流量预测值与实际值之间的散点图如图3所示。LSTM网络模型的R2达0.89、MAE和RMSE分别为3.06亿、3.95亿m3，并且离散度分离性较低，均聚集于1∶1线附近，表明该LSTM模型较好拟合了径流量与历史径流序列、环境变量之间的关系。而经典ARIMA模型验证结果表明，其R2仅为0.79、MAE和RMSE分别为4.68亿、5.87亿m3，尽管其模型性能稳定，但仍存在明显离散点，部分离散信息偏离度较大，说明该模型对于极值信息拟合能力欠缺。相较而言，LSTM模型的R2比ARIMA模型提升了12%，而MAE和RMSE分别降低了35%、33%，这反映了LSTM模型在预测研究区径流量方面的优势，因此该算法具有一定应用潜力。

图3 径流量预测值与实际值之间的散点图

3 结语

为改进月径流预测精度，本研究利用LSTM深度学习模型联合历史径流序列、环境变量数据，对河北省径流量展开预测研究。结果表明。

(1)LSTM网络通过加入时间序列历史信息更好地发掘月径流序列中的隐藏信息，模型验证精度R2达0.89、MAE和RMSE分别为3.06亿、3.95亿m3，相较于传统ARIMA模型有较大改进，在径流量时间序列模拟中具有良好应用前景。

(2)LSTM网络模型性能受超参数影响敏感，采用网格搜索法可快速配置模型优化参数。

(3)尽管LSTM网络模型在地表径流量模拟中展现出一定优势，许多方面值得改进，建议未来研究中利用小波分析、EEMD分解算法对径流序列进行多尺度重构进而充分发掘时间序列特征信息，将其与LSTM、CNN-LSTM模型耦合，进一步改善径流量预测准确性。