朱非林,侯添甜,梁一帆,任瑞杰
(河海大学水文水资源学院,江苏 南京 210024)
中长期径流预报是流域水资源配置、水旱灾害防御、水利工程运行调度等诸多工作的重要决策依据。影响中长期径流预测的多方面因子与预测要素之间具有十分繁杂的联系,中长期径流预报一直是水文水资源和大气科学领域内的一个难点方向。
近十几年来,中长期径流预报得到了国内外学者的普遍关注,相关预报理论方法得到了快速发展。与短期径流预报相比,因为没有可靠的气象预报,且预见期较长、大气环流等影响因素异常复杂,中长期径流预报的方法原理普遍缺乏机理。现有的中长期径流预测方法可分为时间序列统计模型和机器学习模型。时间序列预测方法是指通过类比推导或时间序列线性延伸所反映出的发展方向,以预测未来情况[1]。该方法一般适用于线性或平稳的数据序列,难以刻画序列中的非平稳特征[2-3]。机器学习通过研究计算机如何模拟或实现人的学习行为来获得提高自身性能的新知识,它具有从大数据集中自动总结归纳信息的能力,可以捕获径流序列中的非平稳和非线性特征[4]。例如,卢敏等将支持向量机(SVM)应用于径流预测中,可以较好地处理高度非线性问题[5]。赵铜铁钢为提高径流预报精度,将随机森林模型应用于长江中上游枯水期径流预报中[6]。Sivakumar等利用人工神经网络和相空间重构方法对河流动态进行了预测[7]。尽管机器学习方法已在水文预报领域取得大量应用,仍难以满足复杂情形下的应用需求。近年来,计算机技术和人工智能已经发展至新阶段,以深度学习为代表的机器学习方法受到广泛关注[8]。作为更有效的深度学习方法,长短期记忆神经网络(LSTM)可以从原始数据中辨析出更深层次的特征数据,解决现有径流预测方法存在的长期记忆能力欠缺和梯度消失、梯度爆炸等问题,在进一步提升中长期径流预测的精度和效率方面具有明显优势。
受气候、下垫面及人类活动等综合作用,由多种频率组成的径流序列具有随机性强、平稳性低且线性特征不明显的特点,采用单一预报模型直接预测径流的精度受到一定限制。信号分解技术可将径流序列分解为若干相对稳定的分量,有效去除序列中的干扰信息,提高信噪比,将其与机器学习模型结合,可提高预测精度。近年来,信号分解技术在诸多领域取得了成功应用[9]。Meng等将经验模态分解与支持向量机相结合,实现渭河流域的月径流预测[10]。周婷等构建了基于小波分解的WD-SVM-PSO模型,并对响洪甸水库径流过程进行了预测[11]。李继清等采用极点对称模态分解(ESMD)方法处理原始径流序列,提出了ESMD-BP耦合模型[12]。现有研究表明,组合预测模型是进一步提升原始模型预测效果的有效手段;但传统分解方法仍面临最佳筛选次数难以确定、抗噪能力弱、分量波形混叠、趋势项粗略等问题。变分模态分解(VMD)可以有效克服现有分解方法存在的端点发散效应和分量波形混叠的缺点,具有良好的抗噪性和更坚实的数学理论基础。
鉴于此,本文采用“分解-预测-重构”的思路,结合变分模态分解方法与长短期记忆神经网络,构建中长期VMD-LSTM组合预测模型。先利用VMD方法将径流分解为若干相对平稳的子序列,再构建LSTM模型对子序列进行单独预测和二次重构;从而探讨不同预测步长对径流预测精度的影响,为水库中长期径流预测提供借鉴和参考。
变分模式分解(Variational Modal Decomposition,VMD)具有自动调整的能力,是一种完全非递归的处理信号和分解模态的方法[13]。该方法利用非递归方式,可以降低非平稳性和非线性强的时间序列复杂程度,分解得到多个不同频率的分量[14]。
构建、分析和求解变分问题是VMD的核心,分解原始序列为K个子序列,其具体步骤为:①为获取各子分量的单向频谱,利用希尔伯特变换对其解析信号进行逐个计算;②针对各子分量,根据其中心频率,把频谱调至相应基带;③依据高斯平滑度对信号进行解调,估算分解模态的频率范围,构建以模态估计带宽之和最小为目标,以所有模态之和与原始信号相等为约束条件的变分问题,数学表达式为
(1)
式中,uk和ωk分别为第k个模态分量和其中心频率;δ(t)为单位脉冲函数。
利用VMD算法进行径流序列分解的计算流程见图1。
图1 VMD算法用于径流序列分解的计算流程
长短期记忆神经网络(Long Short-Term Memory,LSTM)是一种特殊的循环神经网络(Recurrent Neural Networks,RNN)。对于有长程依赖关系的时间序列预测问题,LSTM神经网络可以解决传统神经网络存在的弊端,如梯度消失和梯度爆炸等,在非线性径流序列预测方面具有更明显的优势[15]。
如图2所示,LSTM单元由遗忘门ft、输入门it、细胞状态Ct和输出门Qt构成:
图2 LSTM径流预测原理结构
(1)遗忘门,决定应遗忘的信息。即
ft=σ(Wf[ht-1,xt]+bf)
(2)
(2)输入门,选择记录到细胞状态的信息。即
it=σ(Wi[ht-1,xt]+bi)
(3)
(4)
(3)更新细胞状态。即
(5)
(4)输出门,选择携带到下一个神经元的信息。即
Ot=σ(Wo[ht-1,xt]+bo)
(6)
ht=Ottanh(Ct)
(7)
本文采用“分解-预测-重构”的思路,将VMD与LSTM两种方法相耦合,发挥两种方式各自的长处,构建了基于VMD-LSTM的中长期径流组合预测模型。模型计算过程如图3所示,主要有以下几个步骤:
图3 基于VMD-LSTM的中长期径流组合预测模型计算流程
(1)调试VMD参数,分解径流序列,得到一系列从高频到低频的平稳模态分量(IMF1,IMF2,…,IMFK)。
(2)对于VMD分解得到的每个分量,单独构建相应的LSTM模型。将一系列平稳分量作归一化处理,设置预测步长为1、2、3个月,通过已分解的实际径流序列训练和预测LSTM模型,得到各成分的预测值。
(3)加和重构各分量预测值,得到组合模型预测结果。
(4)选取一些误差指标,如均方根误差等,评价模型性能。
为了评估径流预测效果,本文以均方根误差(Root Mean Square Error,RMSE)、平均绝对误差(Mean Absolute Error,MAE)和平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)作为评价指标。计算公式如下
(8)
(8)
(8)
金溪作为福建省闽江支流富屯溪的最大一级支流,其流域属于亚热带湿润季风型山地气候,降雨具有量大但年内时程分配不均的特点。池潭水库作为金溪干流水电梯级的第一级龙头水库,设计以发电为主,兼顾防洪等综合利用,其地理位置如图4所示。研究所采取的数据为池潭水库1951年~2020年共70 a逐月径流资料,其中前49年数据用于模型训练,后21年的数据用于模型验证。
图4 池潭水库的地理位置示意
VMD分解效果主要受分解层数K影响,若K取值过大,相邻模态分量的中心频率则会过于相近,引起分量波形混叠问题;若K取值偏小,部分原始信号中的信息容易被忽略,影响后续预测精度。不同的模态区别主要在于中心频率的差异,当出现相似频率,即选取此模态数K。为确定合适的模态数值,本文观察不同K值下中心频率的分布[16]。表1为不同分解层数下各分量的中心频率,K为7与K为8时中心频率趋于稳定,因此选取K=7作为最终的分解层数。
表1 不同分解层数下各分量的中心频率
将实际径流序列分解为7个分量,分解结果见图5。与原始单一径流序列相比,分解后的各分量均具有较为明显的变化趋势。其中,分量IMF1的波形起伏最为平缓,振荡及频率大幅降低。后续各分量的变化幅度逐渐减小,但振荡频率则逐渐增大。例如,IMF5、IMF6、IMF7波动十分剧烈,但由于其变幅相对较小;故,在径流重构中IMF1仍占主导地位。
图5 月径流序列的VMD分解结果
为探究VMD方法对中长期径流预测模型效果的影响,分别采用LSTM单一模型与VMD-LSTM组合模型对径流进行预测,预测结果见图6。
图6 VMD-LSTM组合模型与LSTM单一模型径流预测结果对比
由图6可知,在相同预测步长下,两组模型预测的径流变化与实际径流过程较为吻合,表明LSTM方法的非线性拟合能力较强。与单一模型相比,基于分解-重构策略的VMD-LSTM组合预测模型的预测值与实测值的接近程度明显较高,尤其在径流极值处,组合模型预测的效果更优,精度更高。结合误差分析,组合模型的预报误差与单一模型的直接预报误差相比显著降低,表明VMD分解可以有效提升LSTM单一模型的径流预测精度。
3种不同预测步长下VMD-LSTM组合模型对池潭水库径流序列预测结果对比分析如图7所示。当预测步长为1时,点线吻合程度最高;随着预测步长增加,吻合程度逐渐降低。为得到更直观的结果,将不同预测步长下实测径流与组合模型预测结果做线性拟合分析,得到右列散点图,其中R2为确定性系数,表示因变量Y的变异中可由自变量X解释的部分所占的百分比,即拟合程度,计算公式为
图7 不同预测步长下的VMD-LSTM组合模型预测结果对比
(11)
可以看出,随着预测步长增加,R2逐渐减小,拟合效果降低;同时,拟合线斜率分别为0.765、0.706、0.630,图像偏离1∶1直线的程度逐渐加大,预测精度降低,表明预测步长的增加会导致模型预测性能降低。
为了进一步对VMD-LSTM组合模型的有效性进行定量评估,本文选取RMSE、MAE、MAPE三种误差指标对经过变分模态分解和未经分解的模型预测结果进行了对比(见表2)。由表2和图7可知,当预测步长一定时,与LSTM单一模型相比,VMD分解能显著降低LSTM模型的预测误差。当预测步长为1时,组合模型的RMSE、MAE、MAPE指标值降幅分别为52.6%、49.9%、45.1%,确定性系数为0.84;当预测步长为2时,组合模型的指标值分别降低了51.4%、50.1%、49.9%,确定性系数为0.77;当预测步长为3时,组合模型的指标值分别降低了46.3%、44.4%、43.1%,确定性系数为0.68。由此可见,VMD-LSTM组合模型在预测精度上明显提高。
表2 单一LSTM模型和VMD-LSTM组合模型评价指标计算结果
图8、9分别为LSTM单一模型、VMD-LSTM模型多步预测的径流误差。由表2以及图8、9可知,不管是LSTM单一模型还是VMD-LSTM模型,预报误差均随预报步长增加而增大。随着预测步长的增加,单一预测模型的误差指标增幅为15%左右,组合预测模型的指标值增幅为10%左右。
图8 LSTM单一模型多步预测的径流误差
图9 VMD-LSTM组合模型多步预测的径流误差
综上所述,本文构建的VMD-LSTM中长期径流组合预测模型可以充分发挥VMD与LSTM方法各自的优势,表现出明显优于LSTM单一模型的预测精度和稳定性。
中长期径流预测是水资源开发与调度、水旱灾害防治、水库运行与管理的重要支撑。按照“分解-预测-重构”的模型架构,本文结合信号分解与神经网络,构建了基于VMD-LSTM的中长期径流组合预测模型。以金溪流域池潭水库的月径流预测为实例对模型预测性能进行了分析论证,主要结论如下:
(1)基于“分解-预测-重构”策略的VMD-LSTM组合预测模型结合了VMD方法平稳化处理技术和LSTM神经网络模型深度学习的优势,可有效降低径流序列非平稳性对预测精度的影响,具有预测准确率高和稳定性好等优点。
(2)耦合VMD分解方法可以显著提高LSTM单一模型的预测精度。
(3)时间尺度的选择影响径流预报的准确性,对于LSTM单一模型和VMD-LSTM组合模型,预测步长增加,预测误差随之增大。
(4)VMD-LSTM模型径流预测效果良好,可以为水库中长期调度计划编制与水资源规划管理提供决策依据,也提供了相关时间序列预测的研究思路。