宋尚波
(淄博市水文中心,山东 淄博 255000)
径流量是水文学和水资源管理中的一个关键指标,准确预测径流量对防洪、供水和水电等具有重要意义[1-3]。径流过程是一个复杂的水文过程,受多种因素的影响产生高度非线性和非稳定性,这使得径流量预测成为一个富有挑战性的任务。近年来,各种人工智能算法应用于水文学领域,取得较好的成果。作为一种预测技术的随机森林回归(RFR)由于在处理图像、语音和文本数据方面表现出色的预测能力而引起了研究者的广泛关注。本文基于RFR提出了一种改进的径流量预测模型[4-5]。该模型首先使用变方差最小分解(Variational Mode Decomposition,VMD)对输入的历史径流序列进行分解,以获得更清晰和稳定的信号模态。然后,这些分解后得到的模态再输入到RFR算法进行学习和训练,以建立各模态之间的关系[6-7]。最后,利用RFR网络预测未来的径流量并将各模态的预测值进行合成。VMD的特点之一是高度自适应性。可适应不同类型的信号及其时频特性,无论是非平稳信号、非线性信号还是多组分信号,VMD都能准确地将其分解成若干个自然模态,提取出各个模态的特征信息。此外,VMD还具有很强的鲁棒性和稳定性,对于噪声和冗余信息有很好的抑制效果,能够更准确地还原信号的本质。当前,VMD被广泛应用于音频信号分解、图像压缩、语音识别等任务中,能够准确地提取出信号中的关键信息。其次,在天文学、地震学和生物医学等领域,VMD也发挥着重要作用,可以从复杂的观测数据中提取出特定的模态,帮助更好地理解序列数据背后的物理机制[7-9]。此外,VMD还在通信系统中有着广泛应用,如通信信号的解调和干扰抑制等方面。在径流量时间序列预测中的应用潜力尚未得到探究。
淄博地处鲁中山地向黄泛平原过渡区,总面积5965km2,土地利用率达89.96%。属齐河-广饶断裂带,地势自南部鲁西台背斜隆起区向北部济阳坳陷区倾斜,高程介于0~1108m之间,形成山地、丘陵、平原分异地貌,分别占区域总面积的42.0%、29.9%、28.1%。受海陆位置与西北太平洋季风影响,形成半湿润半干旱的大温带季风气候,多年年平均气温12.5~14.2℃,降水量640.5mm,日照时数2209.3~2523.0h,无霜期190~210d。市内均为雨源型河流,主要河流为沂河、汶河、小清河等,平均河流密度达0.295km/km2,另有湖区面积13926.8hm2。淄博市多年地表水资源补给总量为14.11亿m3,人均水资源占有量稀缺。
本研究中径流量数据来自新疆昌吉水文水资源勘测局,其涵盖了区域3个水文站1987—2020年逐月径流量资料,共408个月序列。
VMD(Variational Mode Decomposition)是一种基于变分原理的时频域信号分解算法,能够将非平稳信号分解为一系列模态函数(intrinsic mode portion,IMF)和残差余项,从而揭示不同频率的信号成分。区别于EMD方法,其利用迭代搜索确定分量中心频率和带宽进而将每一IMF调解为平滑基带,即使对噪声序列也具有较好鲁棒性,对非正态分布序列不敏感。VMD算法的目标是寻找一组满足变分原理的模态函数,使得每个模态函数在频率和幅值上都具有较好的局部调整能力。在这个过程中,VMD将信号分解为多个窄带调制分量,这些分量是由频率和幅值不断调整而成的。
其数学原理过程如下:
(1)首先,将待分解径流序列信号表示为时间域的函数形式,记uk(t),该信号具有有限的带宽,其中心频率e-jωkt对模态函数变换为:
(1)
(2)定义一组辅助目标函数,使得每个目标函数对应一个带通滤波器,用于从信号中提取特定频率范围内的成分。
(2)
(3)构建一个约束优化问题,其中目标函数的集合表示满足约束的模态函数集合,约束条件是每个模态函数的频率和带宽应尽可能调整得最合理,此外应用变分原理,对约束优化问题进行数学推导和求解。通过求解欧拉-拉格朗日方程,找到最优解,即最佳的模态函数集合。
(3)
(4)设置最大的迭代次数N,且存在正数n满足n≤N、ε>0,迭代过程满足下式:
(4)
据此可将将原径流量信u(t)分解成若干个IMP,且每一IMP对应一个频率范围的成分[4-5]。
随机森林回归算法(Random Forest Regression,RFR)是一种从决策树演化而来的集成学习算法,广泛应用于数据分析、预测和模式识别等领域,能够解决回归问题并有效地处理高维数据。RFR由多个决策树组成,每一决策树均基于不同数据子集构建;在训练过程通过抽样方法选择部分样本再随机选择部分特征,生成多个决策树。RFR的输出结果为每个决策树的预测结果会被集成平均值[6-7]。
使用决定系数(R2)、均方根误差(RMSE)、平均绝对误差(MAE)评估VMD-RFR模型在径流预测中的应用性。具体定义如下:
(5)
(6)
淄博市1987—2020年逐月径流量时间序列波动如图1所示。线性拟合表明,其总体变化特征曲线为:
图1 淄博市月径流量序列变化特征
y=0.0013x+3.381
R2=0.0017
(7)
但并未通过0.05水平检验假设,因此其线性特征不显著,可能存在非稳态非线性复杂特征。最大值出现在第164月,达20.24亿m3,最小值为第142月的0.24亿m3,不同月份之间径流量变异性较大。另外可直观看出不同月份之间径流量丰枯交替变化,丰水月多为5—9月,其他为枯水月,这与区域年内降水量分布特征极为一致。
使用VMD算法在搜寻最优分解IMP数量后和适宜带宽约束后,得到淄博市近34年来逐月径流量序列IMP结果,如图2所示。可知,VMD将长度为408个径流序列分解得到了11个IMP和1个残差余项,各IMP信号呈现一定起伏变化,随着IMP数量增多其时变性增强、承载的信量增加。将上述全部IMP经过周期图法得到其方差贡献值。计算结果显示,①模态1解释了32.52%的径流变化信息;②模态2解释了23.34%的径流变异性;③其他IMP3~11承载的信息量依次为15.48%、11.98%、7.34%、3.13%、2.93%、1.73%、0.86%、0.51%、0.11%。需指出的是,模态IMP1~4承载了径流序列波动频率、振幅的83.33%的信息量,对捕捉径流变化最为重要。该模态分解结果能够提取出径流变化更多的内在规律。
图2 淄博市月径流序列VMD分解结果
将VMD分解后得到的1987—2010年(共24年,即第1—288月)的径流序列的模态分量数据为自变量,相应时期的径流量为因变量,构建RFR模型,预测2010—2020年(共10年,即289—408月)的逐月径流量序列。RFR模型是典型非参数回归模型,为确保模型性能,实验grid搜索法对超参数寻优,最终配置结果见表1。
表1 RFR模型中超参数配置
经上述模型配置后,对预见期(即289—408月)的逐月径流序列进行回归预测,输出结果如图3所示。可见,径流量预测值与实际值之间具有良好吻合度(图3a),并显示出丰枯相位交替变化,二者之间相对误差介于0.06%~40.51%之间,统计得到决定系数R2=0.87,MAE和RMSE依次为0.17、0.22亿m3。表明RFR算法基于VMD分解特征,较好逼近实际径流量变化序列,具有一定溯源性。
图3 径流量预测结果
本文以淄博地区月径流量为研究对象,通过对历史数据的分解,采用VMD-RFR模型进行预测,验证VMD-RFR模型的有效性和准确性。结果表明,采用VMD-RFR模型的月径流量预测值与实际值之间具有良好吻合度,可准确模拟非线性非稳态月径流量变化。VMD方法更好地捕捉到径流量的变化趋势,增加模型物理解释机制;RFR作为VMD的拟合器提供了精确的预测结果。在同类问题的研究中,VMD-RFR模型也是一种有效的预测模型,可应用于其他地区月径流量预测。由于预测验证时段较短,变量数量较少,应结合其他输入变量进一步探索VMD-RFR模型的适用性,不同时间尺度(如日、年)的径流数据用于模型验证,进一步提高模型的实用性与可依赖性。