基于EEMD-BRNN组合算法唐山逐月径流量预报研究

2024-01-24 05:29:54李海楠
水利科技与经济 2024年1期
关键词:唐山市径流量极值

李海楠

(河北省唐山水文勘测研究中心,河北 唐山 063000)

0 引 言

径流量预测模拟是海绵城市建设、旱涝灾害预报、水利工程设计的先导[1-3]。为了解决径流序列呈现的非平稳性、非线性特点,国际水文科学协会(IAHS)于2003年发起开发新型径流预测方案的倡议。目前,径流量预测主要有物理与数据驱动模型。其中,前者是模拟降水-截留-蒸散-渗流-产流等物理过程机制,但因其需要大量输入参数,且约束条件繁琐,而不宜应用于普通地区[3-5]。数据驱动模型通过稀疏观测径流值为目标,以相关环境参数、径流本身内涵特征参量为输入,采用机器学习,对预见期径流进行针对性模拟。BPNN作为一种前向传播神经网络算法,通过深层次网络上神经元,将输入特征向目标逼近,在函数拟合、回归分量问题中得到广泛应用[6-8]。EEMD作为时间序列数据分解分析方法,其基于最小二乘法对原数据序列极值点的中点构造插值曲线,将模态分量成为整个数据序列的“自适应全局均线”,由此进行多重分解、提取,挖掘出能反映原径流规律中隐含信息[6-9]。

在已有文献中,将EEMD与Xgboost相结合的组合模型预测研究至今未有尝试。鉴于此,本文拟利用EEMD算法,对径流逐月序列进行多模态分解,并以此作为输入特征,以BPNN算法作为回归器,测试EEMD-BRNN模型的有效性,研究成果可为进一步改善径流预报准确性提供参考依据。

1 研究区与研究方法

1.1 研究区概况

研究区为河北唐山市,地理坐标E117°31′-E119°19′、N38°55′-N40°28′之间,见图1。区域河流呈脉状,自北部燕山流向南部渤海,流速平缓而量小。由于夏季风影响,6-9月份降水量集中性可达65%,易造成强降水和水土流失问题。区域地表水是用水量重要来源之一,地表径流资源量仅为146 200×104m3,主要灾害是干旱,洪涝偶有发生。

图1 研究区径流量格点值

1.2 数据来源

本研究使用的数据来自文献《CNRD v1.0: A High-Quality Natural Runoff Dataset for Hydrological and Climate Studies in China》中的数据,从网站https: // doi.org/ 10.11888 /Atmos.tpdc.272864中获取,搜集了研究区1961-2018年逐月径流量资料。

1.3 集合经验模式分解法

集合经验模式分解(Complete Ensemble Empirical Mode Decomposition, EEMD)用以对逐月径流序列进行多维分解[3-5],进而提取输入特征。EEMD分解算法特点在于基于时间尺度,对径流量变量隐含模态进行分离,以提出整个数据序列的“自适应全局均线”。算法流程为:

①求解径流序列中的X(t)极值Ei(1≤i≤n)、相邻极值之间中值Fi(1≤i≤(n-1)),t为时间,n为极值点数。

②对n+1个极值点构造k个最小而成拟合插值曲线Lk,利用包络分析得到曲线均值L*:

L*=(L1+L2+…+Lk)/k

③生成的序列(X(t)-L*)重复执行步骤①和②,直至筛选次数达到预设最大值q或满足|L*|≤ε(ε为允许误差),由此分解到第一模态分量IMF1,类似得到IMF1,IMF2,……,IMFr,直至得到r个IMF。

1.4 BRNN回归算法

贝叶斯正则化神经网络(BRNN)算法是经典非线性拟合技术,其特点在于引入贝叶斯(Bayes)函数,对神经网络中的误差函数进行约束,并以正则化的形式加入误差迭代过程[6-8]。定义一般性的神经网络中训练性能函数的平方误差函数E如下:

式中:N为训练样本数;mi、oi分别为i次网络训练的期望输出、实际输出。

在Bayes正则化算法中加入惩罚项,进而得到:

F=αEw+βE(α+β=1)

式中:Ew为网络权值;α、β均为Bayes正则化参数。

1.5 模型评价

使用Nash-Sutcliffe效率(NSE)、均方根误差(RMSE),定量评估EEDM-BRNN模型在径流预测中的可靠性。公式如下:

2 结果与分析

2.1 月径流量序列特征

唐山市1961-2018平均径流量逐月时间序列变化见图2。由图2可知,月径流量呈现规律性峰谷交替变化,总体趋势为波动性减小,其线性拟合形式为y=-0.0125x+23.327,R2=0.011,但该趋势不具有统计学意义(P>0.05)。由图2观测到,最大径流量值出现在第80个月(即1956年7月),达到165.2×106m3;最低值出现在第505个月(1993年1月),仅为2.17×106m3,表明月际之间径流量变率较大。

图2 唐山市月径流量序列特征

为了更深入了解径流量变化特征,使用R语言wavelet程序包,解析其小波功率谱,结果见图3。由图3可知,在12个月的尺度上,功率图谱呈现极显著性,表明其为月径流序列最主要变化特征;其次为6个月、2-5个月的周期性特征。这种周期解释了1961-2018年来径流量的年际、半年、季节性变化。

图3 唐山市平均逐月径流序列小波功率谱

2.2 径流量的EEMD分解特征

利用R语言Reemd程序包中的相关函数,以月序列径流数据为输入,得到其EEMD模态(IMF)分解结果,见图4。在此基础上,利用Pearson相关性分析,计算其与原径流序列之间相关性,利用FFT 周期图法得到方差贡献,见表1。

表1 月径流序列各模态分量的方差贡献率

图4 唐山市逐月径流序列EEMD分解结果

分析可知,IMF1与原径流序列相关性最强,二者之间相关系数达0.71,解释了径流量变化信息的27.45%;IMF2次之,与径流序列的相关性为0.57,解释了22.04%的径流变化信息。前两个模态是径流量变化的主要分量,与径流量之间关系达到极显著(P<0.01)水平,共解释了49.49%的信息。IMF3~IMF4是次重要分量,与原径流量之间的相关性依次为0.37、0.27,分别解释了14.28%、10.47%的信息。其他模态分量与径流量之间关系不显著,因此是不重要分量;残差解释了3.72%的信息。

2.3 BRNN建模与模型精度评估

在BRNN建模过程中,以1961-2000年(第1-480月) 的8个径流模态分量作为自变量,以相应年份内径流量序列为自变量,经过z-score函数归一化后,进而构建BRNN模型进行建模训练。同时,经过多次试错分析发现,Bayes优化后的神经元层数为6时,模型的RMSE最小,仅为1.23。因此,设置好最优参数后,对预见期(第481-696个月)的径流量进行预测,预测结果见图5。

图5 BRNN模型预测值与实际径流量之间的偏差

分析可知,BRNN模型准确拟合了EEMD分解的模态分量与径流量之间非线性关系,预测值较好地逼近了实际值,并且能直观反映径流量丰枯相位交替变化以及极值特征。利用评估函数,计算得到模型验证的NSE为0.94,而RMSE仅为4.04×106m3,见图6。EEMD分解的模态可将非线性水文数据转化为若干简易、静态序列变量,极大地去除了数据噪声,而仅保留有益的信息,从而有助于提高预测效果。

图6 BRNN模型验证精度散点图

3 结 论

本文构建了基于EEMD-BRNN的月径流预测模型,实施了对唐山市58年来逐月径流量的模态分解——预测重构过程,结论如下:①1961-2018年,唐山市总体径流量趋势表现为弱减少,但并不显著;②EEMD提取的多个模态分量准确提取了径流量序列隐含信息,与径流量之间具有显著相关性,主要模态分量的解释能力达49.49%,因此具备一定溯源性;③BRNN模型拟合能力良好,离散值稀疏。

本研究从特征提取、数值拟合方面为提升径流量预报能力进行了新思考,后续可从径流量序列特征分解与回归拟合方面尝试新的改进算法。

猜你喜欢
唐山市径流量极值
极值点带你去“漂移”
中国人民银行唐山市中心支行
唐山市
唐山市还乡河水污染综合治理
唐山市
极值点偏移拦路,三法可取
一类“极值点偏移”问题的解法与反思
水文比拟法在计算河川径流量时的修正
匹配数为1的极值2-均衡4-部4-图的结构
SCS模型在红壤土坡地降雨径流量估算中的应用