中长期降雨预报模型比较研究

2020-01-07 11:46王艺晗樊孔明
治淮 2019年12期
关键词:降雨精度样本

王艺晗 樊孔明

(1.河海大学水文水资源学院 南京 210000 2.加州大学洛杉矶分校土木与环境学院3.淮河水利委员会水文局(信息中心) 蚌埠 233001)

中长期径流预报成果是月、年调度计划编制的重要基础,运用典型年、时间序列分析、遥相关等多种径流预报模型方法对关键水文断面、水利工程的来水过程进行滚动预报,为流域可供水量分析、水资源调度计划制定提供数据支撑。

该研究以史灌河流域主要站点的1956~2016年系列水文资料为基础,采用常见的中长期预报模型,包括AR(AutoRegression)、KNN(k-nearest Neighbor)、BPNN(Back-Propagation Neural Network) 及LSTM(Long-Short term memory neural network)共四种方法进行中长期来水预测。以前期径流量、前期降雨量作为预报因子输入,对重点流域的各计算分区进行年、月尺度的中长期来水预报。

根据《流域水资源调度方案编制技术指导(草案)》要求,考虑到BMA(Bayesian Model Averaging)模型在水文水资源领域的广泛应用,且能够提供确定性、概率预报两类预报结果,能提供未来有多大的可能性出现各种等级的降水,该模型研发过程中采用BMA 模型作为多模型集合预报的核心算法,用于综合AR、KNN、BPNN、LSTM四类模型的预报结果。

1 方法介绍

1.1 AR 模型

AR 模型是最常见的平稳时间序列模型之一,是统计上一种处理时间序列的方法,用同一变量xt的历史数值,即xt-1至xt-p来预测xt,并假设它们为一线性关系。自回归模型被广泛运用在经济学、信息学、自然现象的预测上。一个p 阶自回归模型可以表示如下:

1.2 KNN 算法

KNN 算法是数据挖掘分类技术中最简单的方法之一。所谓k最近邻,就是k 个最近的邻居的意思,说的是每个样本都可以用它最接近的k 个邻居来代表。KNN 算法的核心思想是如果一个样本在特征空间中的k 个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。基于KNN 的方法依赖于历史样本中最有价值的少数样本进行预报,而不是盲目地选择时间上最近的样本或全部可用样本。

1.3 神经网络模型

神经网络模型主要有以下几种类型:前向型、反馈型、随机型和竞争型。

1.3.1 BPNN 模型

BPNN 是前馈神经网络的一种,就是在前馈型网络的结构上增加了后向传播算法。后向传播是用于训练时网络权值和阈值的调整,该过程是需要监督学习的。在训练网络阶段,输出与训练集之间的偏差逐级向前传递,通过梯度下降等算法求得目标函数的取值,尽可能使得期望和输出之间的误差减小。

1.3.2 LSTM Networks

LSTM 是递归神经网络(RNNs)的一种,在处理大复杂非线性系统问题时往往表现出优异的性能。相对于BPNN 在传统的工程科学、简单的时间序列中获得应用,LSTM Networks 已经被广泛应用在机器人控制、文本识别及预测、语音识别、蛋白质同源检测等领域。LSTM 的优点在于解决了 SimpleRNN 梯度消失的问题,可以处理 long-term sequence,并在一定程度上缓和了梯度爆炸问题。其缺点是计算复杂度高,采用LSTM 的谷歌翻译技术也只是7~8 层LSTM,LSTM 的实时应用较为困难。

1.4 BMA 集合预报算法

Leamer 最早地将贝叶斯理论引入到多模型集合预报,提出了Bayesian Model Averaging (BMA)模型,并指出BMA 能够处理模型选择所带来的不确定性,避免过分依赖某单一的所选模型所带来的计算误差。以年降雨Q 作为预报变量,Tobs表示本年度以前实测降雨数据。设有m 个单一的降雨预报模型,某时刻的最优模型为M,则模型j为最优的概率为p(M=j|Tobs),j=1,2,…m。根据贝叶斯理论,降雨量预报值Q 的后验概率分布为:

式中:p(Q|M=j,Tobs)为在给定数据集Tobs和最优模型为j 的条件下,预报变量Q 的后验分布;ωj表示模型j 为最优的概率或模型j 的权重值,且满足ωj=p(M=k|Tobs),

由于模型结构等不确定因素的存在,事先并不知道哪个模型为最优模型,需要根据已知的实测与预报序列计算得出其为最优的概率。一般以BMA 算法所得预报变量分布的平均值作为BMA 确定性预报结果发布;其0.05 与0.95分位数上的值被认为是90%置信度的置信下限、上限。

2 数据介绍

2.1 数据准备

准备史灌河流域1956~2016年逐年降雨、径流数据;史灌河流域代表站蒋家集的历年逐月降雨、径流数据。

为了得到月径流量的的预报值,为调度计算及调度方案的制定提供数据支持,需要根据历史降雨数据,筛选出不同频率对应典型年,根据预报降雨量相应频率、典型年,确定预报年的月分配比例系数。我国水文频率计算一般采用P-Ⅲ型频率曲线进行经验频率适线。

2.2 参数设定

(1)将AR 模型的回归阶数、KNN 的特征向量维数、BPNN 与LSTM 的输入层节点数目统一设置为2,BMA 算法的集合预报成员数目为4;(2)依据现有1956~2016年的重点流域年降雨序列,按照75%∶25%的比例将完整系列划分为训练期、验证期,对所建立中长期预报、集合预报模型进行率定与检验;(3)由于设定阶数、特征向量维数、输入层节点数等均为2。例如采用2015年、2016年降雨分别代入上述4 个预报模型预测2017年降雨,然后将2016年、2017年降雨分别代入预测2018年降雨,如此循环直到预测得到2030年降雨。

表1 史灌河流域降雨预报结果精度评定表

已确定BMA 集合预报成员数目为4,其各成员即上述四个中长期预报模型。依据现有1956~2016年的重点流域年降雨序列,按照75%∶25%的比例将完整系列划分为训练期、验证期,对所建立集合预报模型进行率定与检验。约定目标函数为绝对误差值。收敛条件为:(1)最大循环次数50000;(2)最小改进程度为0.1%。模型检验通过后,采用训练好的BMA 模型综合四个集合预报成员对2017~2030年逐年的年降雨预报结果,BMA 集合预报均值作为各年份集合预报的确定性结果,同时,其5%~95%置信区间的预报结果作为概率预报结果提供。

3 降雨预报结果

3.1 预报精度统计

根据《水文情报预报规范》,采用纳什效率系数(确定性系数)、均方根误差两指标用于模型精度评定。整理分析各模型在训练期、验证期的预报结果评定结果,如表1所示。

从表1中可以直观看到在采用RMSE 评价时,各模型在验证期的RMSE 指标往往都比训练期略高;而NSE 指标在验证期更低,即各模型在采用训练期的参数进行验证时,往往会出现模型的模拟误差放大的情况。BMA 集合预报算法在训练期、验证期的精度评定指标值的变化较小,其NSE 指标的变化为0.03,远低于四个单一模型中的BPNN 指标的0.13,而RMSE 指标在验证期比训练期还要小,这也一定程度上说明了BMA 集合预报在中长期降雨预报中比传统模型相对更稳定、可靠。

3.2 单一模型的预报结果

根据表1分析,认为相对其他三个模型来说,LSTM模型预报年降雨的过程与实测降雨的匹配程度更高,在评价指标上就直观地反映为LSTM 的NSE 指标比其他几个模型的NSE 指标更大。AR、BPNN 两种常见的传统预报方法所得到的预报过程与实测之间的差距相对更为明显,表现在评价指标上就是NSE 指标更小、RMSE 指标相对更大。AR、BPNN 两模型表现较差说明采用AR、BPNN 模型所默认存在序贯相关关系进行降雨预报,在中长期降雨预报这种紊动程度较高的应用场景是相对不那么适用的。而BPNN、LSTM 在验证期的误差放大得相对较为明显,说明采用历史样本训练的参数去预报未来降雨在一定程度上也是相对不够可靠的。

图1 BMA 概率预报结果图

3.3 BMA 集合预报结果

图1展示了BMA 均值预报结果。BMA 集合预报结果的精度相对并不高,但是无论是其精度评定指标、验证期预报的稳定性还是模型对年降雨过程的拟合精度,都不会出现明显劣于单一模型的情况,采用BMA 算法能够提高中长期降雨预报的精度与可靠性,尤其对预报结果可靠性程度的提升较为显著。

由图1、表1可知,率定期LSTM、BMA 均值预报结果的NSE 指标均达到0.4 以上,其中LSTM 率定期预报结果的NSE 指标达到0.43,RMSE 为四个模型、集合均值中的最小值为187.42。就预报精度而言普遍偏低,未能达到《水文情报预报规范》规定的预报作业要求。LSTM 模型预报精度相对最高,BMA 均值预报结果最为稳定,可以避免上述各集合预报成员出现预报可靠性降低的情况。

图1中阴影区域表示的是BMA 集合预报的90%置信度区间,从其中可以观察到BMA 的置信区间一定程度上能够覆盖各年度实际降雨量值,其覆盖度指标为61.9%。这表明BMA 所提供的概率预报结果,具有可靠性。BMA集合预报的可靠性会随着各单一预报模型精度的提高而显著提升。

4 结语

该研究以1956~2016年蒋家集站的长系列降雨量数据为基础,采用了AR、KNN、BPNN、LSTM 四种单一的预报模型,模拟进行年降雨预报;并引入BMA 算法综合四种模型的预报结果,给出多模型集合预报的确定性及概率预报结果。经研究结果统计分析可知,单一的模型在进行中长期降雨预报的时候,往往会出现预报精度不高、预报误差较大、验证期预报结果稳定性较差的情况,这也是在中长期洪水预报应用中常会遇到的问题。研究发现,在采用BMA 集合预报算法对初步的预报结果进行综合之后,算法所能够给出的预报结果在模拟精度、验证期预报结果稳定性上有了提高,说明多模型综合对于提高中长期预报结果的可靠性程度是有积极意义的。

根据中长期预报技术精度要求,下一步需要引入由中国气象局国家气候中心气候监测室提供的大气环流指数、海温等数据,优化筛选预报因子,进一步完善各中长期预报模型,提高模型预报精度与可靠性■

猜你喜欢
降雨精度样本
热连轧机组粗轧机精度控制
降雨型滑坡经验性降雨型阈值研究(以乐清市为例)
用样本估计总体复习点拨
超高精度计时器——原子钟
分析误差提精度
龙王降雨
规划·样本
基于DSPIC33F微处理器的采集精度的提高
泥石流
随机微分方程的样本Lyapunov二次型估计