谭政宇,周 曼,胡 挺,张 松,郭 率
(中国长江三峡集团有限公司流域枢纽运行管理中心,湖北宜昌443100)
水电入库径流预测是水库日常运行管理中的重要基础性工作,精准的入库径流预测结果对于水电站发电调度安排、防洪度汛方案编制、船舶通航管理等方面具有重大意义。为此,较多学者围绕水电入库径流预测开展了大量的研究工作。然而,由于径流涉及流域下垫面、地形地貌、人类活动等诸多影响因素,径流过程的高度非线性和其混沌行为特征较为明显[1],由此也引发了径流难以精准预测的难题[2]。
按照研究方法的不同,径流预测可分为基于物理成因和基于数据驱动两大类型[3]。前者是利用GIS和遥感数据来构建水文模型实现模拟预测,该方法对于数据资料和水文系统规律的准确性要求很高,且模型参数具有较大的不确定性[4];后者则是以站点实测数据为模型输入,利用各种先进算法预测水电入库径流[5]。由于不需要考虑复杂的物理成因,基于数据驱动的预测模型具有较强的普适性,在时间序列预测分析上逐渐表现出其独特的优势[6],早期研究多以单一的预测模型或回归算法为主[3],随着研究的深入,不少学者验证了结合其他学科理论或融合多种模型的组合预测方式可显著提高径流预测精度[7],同时发现模型算法参数优化是提升模型预测性能的有效手段[8]。由于径流序列的水文特性,径流数据非平稳性也引发了一些学者的关注,通过引入变分模态分解[9]、奇异谱分析[10]、小波分解[11]作为原始数据预处理方法,以优化处理后的数据为模型输入,对比分析表明模型预测精度得到提升。通过上述研究发现,数据输入质量与模型算法是影响径流预测精度的重要因素,对于大型电站而言,入库径流预测精度的高低直接影响到其调度运行安排;然而,受到流域特性的诸多影响,长江干流径流序列呈现复杂混沌系统特征[1],若直接将原始径流序列直接作为数据输入可能限制模型预测性能的发挥。
为此,本研究引入在能源、系统等领域应用较多的相空间[12]和支撑向量回归模型方法[13]。其中,相空间重构(PSR)作为一种混沌时间序列分析的常用方法,具有技术成熟、算法参数少、实现简单的优点[12];而支撑向量机(Support Vector Machine, SVM)是由Vanpik提出的一种典型机器学习算法[14]。两种算法相结合后(PSR-SVR)尝试开展如下研究工作:①结合相空间理论,利用互信息和虚假邻近点理论重构水电入库径流向量以消除序列混沌特性的影响;②利用网格搜索和交叉验证方法对支撑向量机回归模型进行参数率定,以提高预测模型的泛化能力;③与单一支撑向量回归、单一岭回归、单一K近邻回归模型以及相空间重构-K近邻耦合模型(PSR-KNN)、相空间重构-岭回归耦合模型(PSR-RR)进行了对比,验证分析了PSR-SVR模型的可靠性。研究以三峡水库实际入库径流序列为研究对象,将所提方法与单一回归方法、组合方法等进行比较,以期获得一种能够用于实践的径流预测方法。
本文利用PSR对原始径流数据进行优化预处理,使得升维重构后的数据样本能更好的还原水文径流序列的运动演变规律,以获得更高质量的预测模型数据样本,从而提升模型预测性能。在PSR中,延迟时间τ和嵌入维数d是两个关键参数,分别采用互信息和虚假邻近点理论[15]作为PSR关键参数优选方法,具体步骤如下:
(1)对于实测水电入库径流序列R={ri:i=1,2,…,N},信息熵为
(1)
式中,P(ri)为事件ri发生的概率;N为径流数据个数。
(2)给定径流序列延迟时间参数τ,构造延迟时间序列S={ri+τ:i=1,2,…,N-τ},并根据以下两式分别计算序列S的信息熵及序列R和序列S的联合信息熵。即
(2)
(3)
式中,H(S)为延迟时间序列S的信息熵;P(rj+τ)为事件rj+τ发生的概率;H(R,S)为序列R和S的联合信息熵;P(Ri,Sj)为事件Ri和Sj的联合分布概率。
(3)互信息理论[15]研究表明序列R和序列S的交互信息可用式4表示,且是关于τ的函数I(τ)。通过调整自变量τ,当I(τ)取得第1个极小值时表示R和S为最大可能不相关,此时τ即为PSR最优参数。则
I(R,S)=H(R)+H(S)-H(R,S)
(4)
式中,I(R,S)为序列R和S的交互信息;其他参数含义同上。
(4)基于最优延迟时间τ,给定嵌入维数d,根据式5重构相空间
(5)
式中,Ti=(T1,…,Tm)为相空间中的一个矢量点;m=N-(d-1)τ为重构相空间中矢量点数量。
(5)对于重构相空间T中的各个矢量点,通过遍历分别找到其对应最邻近点,矢量点之间距离计算
(6)
式中,Ti和Tj为相空间中的两个不同矢量点;Rd为两矢量点之间的欧几里德距离。
(7)
(8)
(7)利用优选得到的延迟时间τ和嵌入维数d,按照式(5)重构相空间即可得到SVR预测模型的输入矩阵O,并按照式(10)进行标准化处理。即
O=[r1+(d-1)τ,r2+(d-1)τ,…,rm+(d-1)τ]
(9)
T′i=(Ti-s)/σ
(10)
式中,s和σ分别为序列平均值和标准差。
支撑向量回归算法(Support Vector Regression, SVR)的核心思想是通过核函数将数据映射到高维特征空间中,从而实现线性回归,其基本原理详见文献[14]。根据已有研究表明,影响支撑向量回归模型预测能力的主要参数有正则化常数C、不敏感损失系数ε、核系数γ和核函数类型[17],四类超参数含义及对回归效果的影响参见文献[18]。
交叉验证是机器学习中评价模型泛化能力的常用方法[19]。其核心思想是通过将训练集进一步拆分为K组不相交子集,共训练K次,每次训练中取其中K-1份数据进行训练,预留一份数据进行验证,训练完成后返回模型预测效果最好的参数组合。网格搜索(Grid Search)[20]作为一种结合穷举搜索机制和交叉验证方式的调参算法,具有适用性强、效率高的优势,故本文中模型参数率定均选用该方法。
基于上述处理,利用PSR-SVR的入库径流预测方法具体流程见图1。
图1 基于PSR-SVR的预测流程
本文以三峡水库为例,选取2020年日内时间尺度全年入库径流历史数据共1 616个进行仿真分析。原始入库径流数据样本序列如图2所示。
图2 原始入库径流数据样本
基于互信息和虚假邻近点理论,得到互信息-延迟时间及虚假邻近点比例-嵌入维数变化情况(见图3)。由图3可知,互信息出现第一个极小值时延迟时间为55,当嵌入维数为4时,虚假邻近点比例低于5%,故序列延迟时间和嵌入维数取为55和4。按照式(5)对原始入库径流序列进行相空间重构,得到重构样本为1 441个,随后按照75%和25%的比例分割训练集和测试集,得到训练集样本1 078个,测试集样本363个。
图3 相空间重构关键参数选取
参考文献[16]并结合模型可接受的计算难度,设定SVR参数搜索范围(见表1)。
表1 参数率定情况
网格搜索优化得到SVR最优参数组合为:正则化常数9 000、允许误差2×10-4、核系数0.3、高斯核。从网格搜索结果来看,正则化常数优选取值越大,不敏感损失系数越小,模型泛化能力越强。这是因为不敏感损失系数表征SVR模型对于预测值与真实值之间的允许偏差,正则化常数表示对于预测值落在允许误差以外的惩罚程度,允许偏差越小,惩罚程度越大,模型预测效果越好。将测试集输入至最优参数组合下的SVR模型,得到预测结果如图4所示。
图4 SVR预测与实际值对比
由图4可知,SVR预测数据除个别值与测试数据有一定偏差外,整体基本处于重合状态。从预测绝对相对误差分布来看,预测百分误差在1%~5%之间的数据共有332个,累计百分占比为91.56%;预测百分误差在10%以内的数据共有350个,累计百分占比96%。根据水文预报误差标准规范,径流预报误差在20%以内的视为合格预报,利用PSR-SVR模型的入库径流预报合格率为99.2%。预测值与真实值平均绝对百分误差为2.19%,平均绝对误差为519,说明模型预测效果较好。
为充分验证本文构建的PSR-SVR回归模型在水电入库径流预测应用中的优越性和可靠性,本文选取K近邻回归(k-Nearest Neighbor,KNN)、岭回归(Ridge Regression,RR)和SVR为单一对比模型,选取PSR-KNN、PSR-RR为组合对比模型,分别对同一组三峡实际入库径流进行预测,选取平均绝对误差(MAE)、平均百分误差(MAPE)和均方根误差(RMSE)和相关系数R2等指标评价分析模型预测效果。表2为各模型在同一组入库径流上的预测误差统计。由表2可知,在同一组预测数据样本上,本文所提模型预测误差评价指标MAE、RMSE、MAPE均小于对比单一预测模型和组合预测模型,并且预测值与实际值之间的相关系数达到了0.966 8,说明本文所提模型具有较高可靠性。
表2 各模型预测效果
图5和图6为所建模型PSR-SVR与单一径流预测模型和组合预测模型的对比情况。图5为本研究模型PSR-SVR与单一预测模型的预测效果对比。结合图5和表2可以看出,经过数据优化处理的PSR-SVR模型相比于单一SVR、单一RR、单一KNN预测模型表现出明显的优越性,单一模型MAE、RMSE预测误差指标多在2 300以上,MAPE指标超过20%,且预测值与实际值之间的相关系数R2为0.791 2~0.887 8。而本文所提模型相应预测误差指标较小,且相关系数为0.966 8;从而说明PSR技术能充分挖掘原始径流系列的有效信息,改善模型输入数据质量,提升模型预测精度。
图6 组合模型对比
本文所提模型PSR-SVR与其他组合预测模型的预测效果对比情况见图6。对比单一预测模型和相应组合预测模型可以发现,入库径流时间序列经过相空间重构技术处理后,3种组合模型的预测精度均处于较高水平,且较对应单一模型预测精度得到明显提升,以相关系数R2为评价模型预测精度标准,PSR-SVR、PSR-KNN、PSR-RR相比单一SVR、KNN、RR预测精度提升了8.9%、15.7%、22.2%。这说明相空间重构技术能有效还原水文系列原始演变规律,在充分掌握系列变化趋势的情况下,回归模型能发挥出更好的预测性能。本文所提模型相比组合模型PSR-RR、PSR-KNN的预测精度提升了4.1%、7.2%。
由图6和表2可知,在采用不同回归算法的情景下,本文所建模型仍显示出一定优势。因为KNN算法的原理是利用最相近的样本标签来对输入数据进行预测,如此便导致在样本平衡性较差时,对于稀有类别数据预测效果较差;岭回归通过损失部分信息而获得更为显著的回归系数,但以损失精度为代价可能导致模型欠拟合;而对于SVR模型来说,经过网格搜索所得到的正则化常数较大,允许偏差较小,因此训练所得到的模型对于误差容忍度小,预测精度较高。
本文研究结果表明,PSR-SVR是一种能直接应用于水电日内入库径流预测的有效方法。在未来水电入库径流预测工作应用中,可根据预测时刻前已有入库径流数据实现相空间重构,也有望结合新的实测数据实现自动实时滚动更新重构关键参数,以最新重构向量作为模型数据输入来获得更为精准的入库径流预测。由此可见,本文所提方法可为电站日常调度运行工作提供更为智能科学可靠的技术支撑。
本研究还可以在一些细节方面得到进一步的改进。如,模型所采用的支撑向量回归算法适用于解决小样本、非线性问题,随着实测数据的积累,大规模数据样本下模型预测性能可能受限。另外,当前模型数据预优化仅采用了单一的PSR技术来还原水文系列在高维空间演变规律;但对数据非平稳性的处理还有所欠缺。针对上述不足,未来研究可考虑选取更加适用于大规模样本训练的随机森林回归、长短期记忆网络等作为预测模型算法,进一步提高方法的普适性;同时,可考虑在本文基础上融合经验模态分解等信号数据处理技术,最大程度地从有限数据中挖掘更多有效信息,进一步提升模型预测精度。
(1)本文构建了一种利用相空间重构和支撑向量机回归算法组合预测水电入库径流短期预报的方法,研究表明这种方法较好考虑了入库径流的混沌特性。
(2)通过调整影响SVR模型预测性能的相关参数值,最优参数下的组合模型在径流的预测上R2能够达到0.966 8。
(3)通过以三峡实测入库径流数据为实例对模型的适用性和可靠性进行了验证。结果表明,相空间重构是提升模型预测性能的有效技术手段,本文所建模型较单一回归模型和其他组合回归模型准确度更高。