冯仲恺 付新月 纪国良 刘亚新 牛文静 黄海燕 杨涛
摘要:径流具有非线性和随机性特征,单一点预测模型难以精确刻画和描述径流演化过程。为此,提出了一种可有效量化径流波动范围的智能区间预测方法。首先采用自适应噪声完备集合经验模态分解将非线性径流序列划分为若干子序列,并采用样本熵方法重构得到修正序列;其次以孪生支持向量机为基础,分别对复杂度较高的子序列构建区间预测模型、复杂度较低的子序列建立点预测模型,同时采用鲸鱼优化方法寻求满意的模型参数组合;最后将各子模型的预测结果叠加得到最终的预测区间。结果表明:所提方法具有良好的稳健性和可靠性,在点预测、区间预测等不同场景、不同预见期的性能指标均优于对比模型;如预见期为3 d时,对于黄河流域唐乃亥水文站,所得预测区间具有较高的可靠度与清晰度,其预测区间覆盖率PICP值为 98.30%,预测区间平均宽度PINAW值为0.079 2,可靠度、清晰度分别平均提高了9.47%和32.66%。研究成果可为智能化径流预测提供行之有效的方法。
关键词:径流预测; 孪生支持向量机; 自适应噪声完备集合经验模态分解; 鲸鱼优化方法; 黄河流域
中图法分类号: TV124
文献标志码: A
DOI:10.16232/j.cnki.1001-4179.2024.04.014
0引 言
受人类活动与气候变化影响,径流序列呈现非线性、非平稳等复杂特征,加之极端水文气象灾害频繁发生并持续加剧,导致单一模型难以精确刻画和表征径流演化过程,而且基于点预测模型获得的确定值并不能反映径流的可能波动范围[1]。径流区间预测模型可以给出径流值的置信区间,并且定量化描述径流序列的不确定性,因此,近年来得到国内外学者广泛关注。传统的区间预测模型大致分为3种类型:第一类方法核密度估计方法(Kernel Density Estimation,KDE)需要先进行点预测,而后根据点预测的误差累积获得概率分布函数,得到给定置信水平下的区间预测信息,该方法既可得到预测区间,也可实现概率预测[2-3]。第二类方法需要事先确定分位点、构建分位数回归模型,同时需要较复杂的数学计算[4-6]。第三类方法则是通过上下边界估值理论(Lower Upper Bound Estimation,LUBE)[7]构建双输出神经网络,直接得到预测区间的上下界,该方法以预测区间评价指标作为目标函数进行迭代优化、率定参数,从而得到具有较高可靠度与清晰度的预测区间[8]。此外,也可通过聚类、模糊信息粒化等方法对原始序列进行预处理得到上、下边界,从而建立预测模型得到预测区间[9-10]。然而,这些方法需要先对预测数据进行较复杂的处理,而且经粒化后的序列与原始序列存在一定的误差。
作为经典的人工智能方法,孪生支持向量回归机(Twin Support Vector Regression,TSVR)[11]利用两个非平行超平面求得上、下边界函数,在点预测中的性能表现优于传统方法,但难以适用于区间预测。研究表明,耦合智能优化方法可有效提高模型参数辨识精度[12-15],分解方法可充分提取徑流序列中的模态信息[16-19],从而有效提高模型泛化性能和预测精度。自适应噪声完备集合经验模态分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,CEEMDAN)可有效降低分解序列的非平稳性与非线性,常被用于时间序列特征分解[20-22];鲸鱼优化算法(Whale Optimization Algorithm,WOA)是元启发式算法,具有操作简单、寻优能力强等优势,已被广泛应用于复杂约束优化问题[23-25]。
基于此,本文提出了一种用于径流区间预测的混合孪生支持向量机方法(Hybrid Twin Support Vector Regression,HTSVR)。首先通过CEEMDAN方法将原始径流序列分解为多个子序列,将复杂度相似的子序列叠加得到修正序列;其次基于偏自相关和样本熵方法,选择最大滞时作为输入因子,进而以改进TSVR模型为基础,对复杂度较高、较低的子序列分别建立区间预测模型、点预测模型,同时采用WOA方法优选模型参数;最后,将点预测值与区间预测值相加可得到最终的预测区间。应用表明:CEEMDAN方法可显著降低径流序列的非平稳性;WOA方法可有效提高模型参数辨识精度、避免陷入局部最优;本文所提方法可有效提高径流预测区间的可靠度与清晰度,定量化描述径流序列的不确定性。
1研究方法
1.1自适应噪声完备集合经验模态分解
CEEMDAN的分解过程具有完备性,且几乎没有重构误差,有效克服了传统方法存在的模态混叠、噪声残留等问题。假定原始信号为f(x),经验模态分解(Empirical Mode Decomposition,EMD)与CEEMDAN得到的第k阶模态分量分别记为Ek与IMFk,Bn(x)为第n次加入且服从标准正态分布的白噪声序列,具体步骤如下[26]。
1.2鲸鱼优化方法
WOA通过随机搜索模仿鲸群的捕食习性,并利用螺旋式方程模拟鲸群的猎物攻击模式。鲸群在特定条件下会以螺旋运动游向猎物,执行泡泡网攻击机制,亦有可能偏离猎物并随机选择猎物。假定X(t)表示迭代次数为t时当前鲸群个体的空间位置,D表示X(t)与鲸群最优位置Xbest之间的距离。引入一个[0,1]之间的随机数p,当p≥0.5时,鲸群将以螺旋运动游向猎物,执行泡泡网攻击机制,则其位置更新模型如下所示[23]:
1.3孪生支持向量回归机
不同于传统的支持向量机(Support Vector Regression,SVR),TSVR将较为复杂的二次规划问题转换成了两个相对简单的二次规划问题,有效提高了模型的训练速度与泛化能力。设定训练样本的输入数据记为Al×n,输出数据记为Yl×1,构造的2个二次规划问题如下[11]:
1.4混合孪生支持向量机区间预测方法
为提高径流预测精度,本文提出了耦合CEEMDAN、WOA和TSVR方法性能优势的混合孪生支持向量机(Hybrid Twin Support Vector Regression,HTSVR):首先采用CEEMDAN将原始径流序列分解为若干子序列,并根据样本熵(Sample Entropy,SE)评估子序列复杂度,对样本熵值相近的子序列进行合并,重构得到修正序列xIMF1~xIMFn;其次利用偏自相关分析法选择最大滞时作为模型输入因子,而后对复杂度较高(即样本熵值较大)的子序列建立区间预测模型(Prediction Interval Models,PI Models),其余子序列建立点预测模型(Prediction Point Models,PP Models);最后,将各子模型的预测结果合并得到径流预测区间[LB,UB]。具体计算流程如图1所示。
2评价指标
2.1点预测
对点预测模型,本文选取的评价指标[26]包括:均方根误差(Root Mean Square Error,RMSE)、平均绝对误差(Mean Absolute Error,MAE)、相关系数(Correlation Coefficient,R)、确定性系数(Deterministic Coefficient,DC)。RMSE与MAE可以评估模型的预测误差,R与DC用来描述预测值与观测值的拟合程度。
2.2区间预测
对于区间预测模型,常从覆盖率、宽窄度两个方面来衡量预测质量,高质量的区间预测一般具备较高的覆盖率、较小的区间宽度[27]。预测区间覆盖率(Prediction Interval Coverage Probability,PICP)可体现预测区间的可靠度:若预测值yi落在预测区间时,则ci=1;否则,ci=0。平均覆盖误差指标(Average Coverage Error,ACE)表示实际计算所得与预设的区间置信度(Prediction Interval Nominal Confidence,PINC)之间的偏差。
3案例分析
3.1数据预处理
以黄河流域两个水文站(龙羊峡(LYX),2008年1月1日至2014年12月31日;唐乃亥(TNH),2004年5月1日至2011年4月30日)的日径流为研究数据,将数据划分成训练集、验证集与测试集3部分,对应的比例为5∶2∶3。样本熵虽受数据维数、容限取值等因素影响,但具有良好的一致性,其变化趋势不受参数取值的影响[29]。图2为CEEMDAN方法所得LYX水文站径流子序列的样本熵值,可看出,IMF2与IMF3、IMF8与IMF9的样本熵值相近,表明具有相似的复杂度,可将相似子序列合并,重构得到修正序列xIMF1~xIMF10。进一步对修正序列开展偏自相关分析,确定LYX与TNH水文站的输入滞时因子均为6;并对前4个复杂度较高的子序列xIMF1~xIMF4进行区间预测、后6个复杂度较低的子序列xIMF5~xIMF10进行点预测,最终将点预测、区间预测结果叠加得到最终的预测区间。
3.2模型性能分析
3.2.1点预测模型
构建人工神经网络(Artificial Neural Network,ANN)、最小二乘支持向量机(Least Squares Support Vector Regression,LSSVR)、极限学习机(Extreme Learning Machine,ELM)、TSVR等点预测模型作为对比模型;同时引入灰狼优化算法(Grey Wolf Optimizer,GWO)来率定参数,并建立耦合WOA的混合模型WOA-TSVR以及HTSVR预测模型,以验证优化方法和分解方法的可行性与有效性。从表1可知,相比对比模型,WOA-TSVR模型对2个水文站径流均表现出相对较好的预测性能。以TNH水文站为例,除MAE高于GWO-TSVR外,其余指标均表现突出。各模型预测过程、误差图如图3~5所示。可以看出,各模型在2个水文站的点预测误差有明显区别,而HTSVR在不同场景下均有良好的预测效果。CEEMDAN分解方法将非平稳性、非线性的径流序列转换成若干相对平稳的子序列,对各子序列分别进行预测后叠加求和得到最后的预测结果,可使得模型的预测误差显著减小,预测精度显著提高。由此可知,HTSVR点預测模型可以得到更精确的预测结果,可靠性较强。
3.2.2区间预测模型
为检验HTSVR的区间预测性能,本节仍将2个水文站径流序列作为研究对象,利用不同原理构建5个对比区间预测模型。① 基于LUBE方法的LSSVR和ELM区间预测模型。分别以CWC为目标函数,利用GWO寻找最优比例参数,并对数据进行扰动得到预测区间。② 利用非参数KDE方法建立GWO-TSVR、WOA-TSVR区间预测模型(分别记为GWO-TSVR-K、WOA-TSVR-K)。首先利用GWO-TSVR模型进行点预测,然后通过分析误差序列来获得预测区间。③ 基于TSVR模型的区间预测方法(记为WOA-TSVR-P)。根据TSVR模型的上下边界函数来构建区间范围,并利用WOA优化参数。
表2给出了预见期为1 d时的区间预测结果。可以看出:各模型ACE值均为正值,表明预测区间的覆盖度均超过预设的置信水平90%。图6~7给出了流量峰值附近的区间预测结果。对比GWO-TSVR-K、WOA-TSVR-K区间预测模型,以LYX水文站为例,其预测区间的CWC指标值分别为1.149 5和1.148 9,说明KDE方法易受点预测结果影响。相较于对比模型,WOA-TSVR-P模型的区间宽度更窄、PICP值最小,表明模型区间清晰度较高,但牺牲了区间可靠度;HTSVR进一步耦合了CEEMDAN方法,有效弥补了该缺陷,增强了预测区间的可靠度与准确度,使得流量峰值落入预测区间并降低了区间宽度。例如,所提模型的ACE值最大,PINAW值最小,其中LYX水文站分别为9.35%和0.073 8,TNH水文站分别为6.48%和0.047 2。由此可知,HTSVR可以有效均衡在区间覆盖率与区间宽窄度,保障径流区间预测精度。
为进一步验证所提模型的鲁棒性,本文开展了多步预测实验。如表3~4所列,对比模型的多步预测PICP值可能会低于置信水平,使得ACE为负值。例如,对LYX水文站径流开展预见期3 d的区间预测时,GWO-LSSVR、GWO-ELM和GWO-TSVR-K模型的PICP指标均低于置信水平90%;对TNH水文站进行预见期2~3 d的区间预测时,GWO-LSSVR和GWO-ELM模型的ACE指標也都是负值,表明预测区间低于置信水平,可靠度较差。由图8可知,随着预见期的增加,对比模型CWC值逐渐增大,表明区间预测性能均有所下降;而HTSVR的ACE值总是能保持正值且CWC值小于对比模型,表明所提方法预测区间的覆盖度高于置信水平,具有较强的稳健性与可靠性。
3.3结果讨论
本文将TSVR方法拓展至区间预测,并耦合WOA和CEEMDAN方法,构建了一种可进行点预测和区间预测的混合模型,并应用于两个水文站的日径流序列。从点预测实验结果来看,WOA-TSVR模型的预测准确度要略高于其他对比模型;CEEMDAN分解方法可显著提高模型的预测精度,降低预测误差,增加预测值与实测值的拟合度。例如,LYX水文站,RMSE、MAE值平均减小58.96%和51.17%,R、DC值平均增加 0.80%和1.65%。
从区间预测实验结果来看,预见期为1 d时,各模型的预测区间均能保障可信度满足置信水平。如WOA-TSVR-P模型较对比模型具有较小的CWC值,但可靠度较低,仅略高于置信水平;通过耦合CEEMDAN分解方法,所提方法有效弥补了此缺陷,具有较高的PICP值,如TNH水文站的PICP值平均增加了3.25%,PINAW值平均减小42.14%。从各水文站多步预测实验结果可知,所提模型HTSVR的ACE值均为正且CWC值较小,具有较强的可靠性和稳定性。随着预见期的增加,由于预测误差的累积,模型的预测性能均有所下降,CWC指标值逐渐增大。如TNH水文站,GWO-LSSVR和GWO-ELM在预见期为2~3 d时,ACE<0,说明预测区间的可靠度较差。GWO-LSSVR模型的CWC值从1.189 0增大至1.292 3,GWO-ELM模型的CWC值从1.228 6增大至1.304 0。
4结 语
本文提出了基于孪生支持向量机的径流智能区间预测方法。首先利用样本熵和自适应噪声完备集合经验模态得到重构子序列,而后以改进的孪生支持向量机和鲸鱼优化方法为基础,根据修正后子序列的复杂程度分别建立区间预测模型与点预测模型,将子模型预测结果叠加得到最终的预测结果。同时采用不同的对比模型和评价指标来验证所提模型的可靠性与清晰度。应用结果表明:所提模型无需假设误差分布即可提供高质量的点预测和区间预测结果,可有效减少径流预测的不确定性,能够为径流预测提供更加全面的信息。
参考文献:
[1]YE L,ZHOU J,GUPTA H V,et al.Efficient estimation of flood forecast prediction intervals via single- and multi-objective versions of the LUBE method[J].Hydrological Processes,2016,30(15):2703-2716.
[2]徐冬梅,王亚琴,王文川.基于VMD-GRU与非参数核密度估计的月径流区间预测方法及应用[J].水电能源科学,2022,40(6):1-5.
[3]熊鸣.基于BP神经网络与非参数核密度估计的短期风电功率概率区间预测[J].北京信息科技大学学报(自然科学版),2020,35(4):51-56.
[4]杨锡运,邢国通,马雪,等.一种核极限学习机分位数回归模型及风电功率区间预测[J].太阳能学报,2020,41(11):300-306.
[5]贾德香,吕干云,林芬,等.基于SAPSO-BP和分位数回归的光伏功率区间预测[J].电力系统保护与控制,2021,49(10):20-26.
[6]戴领,骆光磊,周建中.基于分位数回归森林的水库调度滚动模拟方法研究[J].人民长江,2023,54(7):218-224.
[7]KHOSRAVI A,NAHAVANDI S,CREIGHTON D,et al.Lower upper bound estimation method for construction of neural network-based prediction intervals[J].IEEE Transactions on Neural Networks,2011,22(3):337-346.
[8]VAHID N,MINA S F,MOHAMMAD T A,et al.Data pre-processing effect on ANN-based prediction intervals construction of the evaporation process at different climate regions in Iran[J].Journal of Hydrology,2020,588:125078.
[9]章超波,刘永政,李宏波,等.基于加权残差聚类的建筑负荷预测区间估计[J].浙江大学学报(工学版),2022,56(5):930-937.
[10]张娜,王守相,葛磊蛟,等.一种光伏短期出力区间预测方法[J].太阳能学报,2020,41(8):173-179.
[11]PENG X.TSVR:an efficient twin support vector machine for regression[J].Neural Networks,2010,23(3):365-372.
[12]方威,周建中,周超,等.基于G-LSTM模型的短期径流预报:以长江上游寸滩断面-三峡入库断面为例[J].人民长江,2021,52(2):66-71.
[13]张钰彬,练继建,王孝群,等.基于PSO -水量平衡- BP耦合模型的短期水位预测[J].人民长江,2023,54(3):90-95.
[14]张勇,李旋,尹燕良,等.基于萤火虫算法优化BP神经网络的爆破振速预测[J].人民长江,2023,54(5):231-236.
[15]洪敏,艾萍,岳兆新.基于FPA-ELM模型的中长期径流预测:以雅砻江流域为例[J].人民长江,2022,53(6):119-125.
[16]包苑村,解建仓,罗军刚.基于VMD-CNN-LSTM模型的渭河流域月径流预测[J].西安理工大学学报,2021,37(1):1-8.
[17]王佳,王旭,王浩,等.基于EEMD与ANN混合方法的水库月径流预测[J].人民黃河,2019,41(5):43-46.
[18]范琳琳,李亚龙,乔伟,等.基于EMD及BPNN的云南省昭通市径流量预测[J].人民长江,2020,51(9):79-83,211.
[19]张晓煊,宋松柏,张炳林.基于变分模态分解的分频径流预测模型[J].水资源与水工程学报,2023,34(1):84-90.
[20]付智勇,陈文强,唐伟雄.基于CEEMD-RF模型的渣土边坡地下水埋深预测[J].人民长江,2020,51(1):141-148.
[21]张金萍,许敏,张鑫,等.基于CEEMDAN-ARMA模型的年径流量预测研究[J].人民黄河,2021,43(1):35-39.
[22]胡斯曼.基于CEEMDAN-LSTM模型的中长期径流预报研究及系统集成[D].武汉:华中科技大学,2020.
[23]王璞,姬联涛,陈龙翔,等.基于WOA-VMD-TCN的水电机组振动趋势预测[J].水电能源科学,2023,41(6):175-179.
[24]曹梦茜,郑东健.基于FCM-WOA-LSTM的大坝变形预测模型及其应用[J].水电能源科学,2023,41(5):71-75.
[25]周有荣,王凯.改进鲸鱼算法优化混合核支持向量机在径流预测中的应用[J].中国农村水利水电,2020(7):50-53.
[26]王文川,杜玉瑾,和吉,等.基于CEEMDAN-VMD-BP模型的月径流量预测研究[J].华北水利水电大学学报(自然科学版),2023,44(1):32-40,48.
[27]TANG G,WU Y,LI C,et al.A novel wind speed interval prediction based on error prediction method[J].IEEE Transactions on Industrial Informatics,2020,16(11):6806-6815.
[28]HAO Q,SRINIVASAN D,KHOSRAVI A.Construction of neural network-based prediction intervals using particle swarm optimization[C]∥The 2012 International Joint Conference on Neural Networks (IJCNN),Brisbane,2012.
[29]孙娜,周建中.基于正则极限学习机的非平稳径流组合预测[J].水力发电学报,2018,37(8):20-28.
(编辑:谢玲娴)