基于支持向量回归机的长期径流预报及不确定性分析

2018-11-13 10:24郦于杰梁忠民唐甜甜
南水北调与水利科技 2018年3期
关键词:遗传算法

郦于杰 梁忠民 唐甜甜

摘要:根据汉江流域皇庄站1981-2008年逐月径流量与1980-2007年逐月74项环流指数、北太平洋海温场、500 hPa高度场的相关关系,利用逐步回归挑选预报因子,构建基于遗传算法的支持向量回归机模型(GASVR),并对2009-2013年逐月径流量进行预报;结果表明,径流预报精度较高,汛期平均相对误差在30%以内,非汛期、年总量平均相对误差在20%以内,均优于随机森林和多元线性回归模型。将GASVR模型的预报结果作为概率预报的基础,采用贝叶斯理论中的水文不确定性处理器(HUP)对预报的可靠度进行分析;结果表明,HUP不仅可以提供精度更高的定值预报,还能以置信区间的方式量化预报的可靠度,提供更为丰富的预报信息。

关键词:汉江流域;长期径流预报;支持向量回归机;遗传算法;贝叶斯概率预报

中图分类号:P338文献标志码:A文章编号:16721683(2018)03004506

Longterm runoff forecasting based on SVR model and its uncertainty analysis

LI Yujie,LIANG Zhongmin,TANG Tiantian

(Hohai University, College of Hydrology and Water Resources,Nanjing 210098,China)

Abstract:In accordance with the Huangzhuang Station′s monthly runoff from 1981 to 2008 and the correlativity from 1980 to 2007 among the 74 circulation indexes of each month,the monthly north pacific sea surface temperature field,and the 500 hPa geopotential height,we used the stepwise regression method to select the forecast factors and built a GASVR Model (Genetic Algorithm Support Vector Regression Model) on the basis of GA (Genetic Algorithm),in order to forecast the monthly runoff from 2009 to 2013.The results showed that the accuracy of the runoff forecast was relatively high:the average relative error in flood season was within 25%;the yearly runoff amount was within 20% in nonflood season.It was superior to Random Forest and Multiple Regression Model.With the forecast results of the GASVR Model as the basis of the probability forecast,we used the Hydrologic Uncertainty Processor (HUP) of the Bayesian Theory to analyze the forecast reliability.The outcome indicated that HUP could not only give a constantvalue forecast with relatively high accuracy,but also quantify the forecast reliability in the form of a confidence interval to provide more forecast information.

Key words:Hanjiang River basin;longterm runoff forecast;support vector regression;genetic algorithm;bayesian probability forecast

径流的长期预报是指预见期在15 d以上、一年以内,并提供各月径流量的预报,其对防汛抗旱、水资源调度和高效利用具有重要意义[1]。目前,长期径流预报大致可分为物理成因分析法、数理统计法和智能方法三大类[2]。物理成因分析法通过研究陆地海洋下垫面情况、太阳活动、大气环流等要素,推求降水变化规律,再通过水文模型进行径流预报[3]。由于影响径流的因素复杂,该方法实施难度较大,仍处于摸索发展之中。数理统计法根据预报因子类别的不同可分为两种:一是寻求水文要素自身的演变规律进行预报,如根据径流的周期性、趋势性、随机性等特征,采用Morlet小波、方差分析、ARMA等方法构建基于徑流自相关关系的预报模型[47];二是寻求水文要素间相互作用的物理机制进行预报,如根据径流与前期大气环流指数、海温场、高度场等遥相关关系,构建多元回归、逐步回归等预报模型[811]。智能方法是当前重点研究和应用的预报技术,随着数学、计算机技术的快速发展,如随机森林、灰色系统、混沌理论、支持向量机等开拓了长期径流预报的新途径,有效提高了预报精度[12]。

第16卷 总第96期·南水北调与水利科技·2018年6月郦于杰等·基于支持向量回归机的长期径流预报及不确定性分析支持向量机(Support Vector Machine,SVM)是Vapnik等人1995年提出的一种基于统计学习理论的新型机器学习算法,最初从线性可分情况下的最优分类面发展而来,其核心思想是最优分类面不但正确将两类样本分开,而且使分类间隔最大化,平行最优分类面且距离最短的直线上的训练样本即为支持向量;在线性不可分情况下,引入松弛变量和误差惩罚参数,建立广义最优分类面;对于非线性问题,通过核函数将低维非线性分类问题变换为高维线性分类问题,其形式上类似神经网络,输出的是中间节点的线性组合,每个节点对应一个支持向量。 SVM采用结构风险最小化准则(Structural Risk Minimization,SRM),具有避免过学习、全局最优、泛化能力好等性能,较好的解决了小样本、非线性、高维度等水文中的常见问题[1315]。

1支持向量回归机

支持向量回归机(Suppport Vector machine for Regession,SVR)是建立在SVM上的回归算法,其基本思想是用少数支持向量代表整个样本集,利用非线映射(x),将低维非线性函数估计问题转换为高维线性函数估计问题。设非线性回归函数:

f(x)=〈ω,(x)〉+b,ω、x∈Rn,b∈R

min12‖ω‖2+C∑ni=1(ξi+ξ*i)(1)

式中:x为样本输入;f(x)在不敏感损失函数ε范围内的线性回归问题转换为寻求最小‖ω‖问题,针对精度ε不能处理的问题,引入松弛变量ξi,ξ*i和误差惩罚参数C,此时优化方程的约束为:

s.t.yi-f(xi)≤ε+ξi

f(xi)-yi≤ε+ξ*i

ξi,ξ*i≥0(2)

为求解此凸二次规划,根据KKT条件,引入Lagrange函数:

L(ω,b,α,α*)=12‖ω‖2+C∑ni=1(ξi+ξ*i)-

∑ni=1αi(ξi+ε-yi+〈ω,φ(xi)〉+b)-

∑ni=1α*i(ξ*i+ε-yi-〈ω,φ(xi)〉-b)-

∑ni=1ηi(ξi+ξ*i)(3)

得到原优化问题的Lagrange对偶问题:

min12∑ni,j=1(a*i-ai)(a*j-aj)K〈xi,xj〉-

∑ni=1a*i(yi-ε)+∑ni=1ai(yi-ε)

s.t.∑ni=1(a*i-ai)=0

0≤a*i,ai≤C(4)

求解上述对偶问题,得到最优解α=(α1,α*1,…,αn,α*n)T,最优解中非零向量αi或α*i所对应的样本点(xi,yi)的输入xi即为支持向量,从而构造非线性回归函数:

f(x)=∑(αi-α*i)K〈xi,xj〉+b(5)

式中:K〈xi,xj〉为核函数,本文采用径向基核函数:

K〈xi,xj〉=exp(-‖x-xi‖2/σ2)(6)

误差惩罚参数C起到调节模型复杂度和训练误差的作用,取太小或太大,将出现“欠学习”或“过学习”现象,使训练误差增大,泛化能力减弱;核参数σ反映了训练样本数据的分布特性,确定了局部领域的宽度。因此,SVR回归问题的推广性能取决于误差惩罚参数C与核参数σ。由于遗传算法(Genetic algorithm,GA)在复杂优化问题中只需构造一个适应度函数,通过选择、杂交、变异等遗传机制,完成对问题最优解的自适应搜索过程,且算法成熟,在水文中应用广泛,故本次选择构建GASVR算法进行参数优选,既保证参数的准确性,又保证计算的时效性,算法流程见图1。

2预报因子挑选

本次所选的气象因子分为北太平洋海温场(SST)、500 hPa高度场、74项环流指数三大类,前两类下载自NCEP再分析数据,第三类下载自中国气象数据网。首先根据汉江流域的地理位置、水系分布等特征,选取SST的空间范围为525°N-125°S,1175°E-775°W,分辨率为5°×5°,500 hPa高度场的空间范围为80°N-10°S,0°E-360°E,分辨率为25°×25°及全范围74项环流指数等作为初选预报因子,之后计算径流序列与前一年气象因子序列的相关系数,利用相关系数显著性检验表剔除不显著相关的初选预报因子。由于中长期径流预报的物理成因复杂,预报因子与预报对象的本构关系仍处于摸索阶段,故本次假定三类气象因子的重要度相似,最终利用逐步回归从每类气象因子中各挑选5个作为最终预报因子。考虑到历史资料存在非一致性,本文只选取1980年以后的数据。下面以1月、7月、年总量为例说明,其他不予赘述,预报因子见表1。

将Matlab作为本次编程平台,将1980-2007年逐月预报因子作为输入量,1981-2008年逐月径流量作为输出量,训练GASVR模型。将2008-2012年逐月预报因子输入训练完毕的GASVR模型中,对2009-2013年逐月径流量进行预报。预报精度的评价指标采用平均相对误差(MRE)、均方根误差(RMSE)和确定性系数(DC),公式见式(7)-式(9)。将预报结果与随机森林(RF)、多元线性回归(MLR)结果作对比,结论见图2至图4,表2至表3所示。

由图2至图4可知,非汛期在年际间的变化较小,以1月为例,其径流量变化范围在200~600 m3/s之间;而汛期在年际间的变化很大,以7月为例,其径流量最小仅1 000 m3/s,最大可达7 000 m3/s;年径流的变化也较大,且并无明显规律可循,这在一定程度上加大预报难度同时,也表明GASVR模型不仅能反映各月、年際间的变化趋势,也能较好地预测极值月与极值年的径流量。

由表2可知,在平均相对误差上,多元线性回归表现最佳,GASVR次之,随机森林较差。GASVR的平均相对误差在非汛期第一阶段(1月-5月)为8%-17%之间,汛期(6月-9月)为21%~39%之间,非汛期第二阶段(10月-12月)为17%~38%之间,年总量的平均相对误差为13%,这表明GASVR模型在1月-5月与年总量上率定良好,在汛期仍有一定的差距,而非汛期第二阶段率定不佳的原因可能是随着预见期的增长,预报因子的时效性与可靠性降低。在确定性系数上,GASVR与多元线性回归相近,且均优于随机森林。GASVR除6月的确定性系数为077外,其余各月均在085以上,年总量的模拟也达到089,表明GASVR模型整体上率定精度良好,可靠性较高。

由于验证期序列时间较短,不宜采用确定性系数作为评价指标,故本次只采用平均相对误差。由表3可知,两种智能方法在验证期表现均远优于多元线性回归。GASVR的平均相对误差在非汛期除2、4、11月在26%~29%外,其余均在20%以下;在汛期(6月-9月)为23%~33%之间;在年总量上也表现最佳,平均相对误差仅13%,这表明GASVR模型不仅可预报逐月径流,也可预报年总量的丰枯趋势。

4預报不确定性分析

Krzysztofwicz在1999年提出的贝叶斯预报系统(Bayesian Forecasting System,BFS)将预报的总不确定性分为降雨不确定性和水文不确定性,分别采用降雨不确定处理器(Precipitation Uncertainty Processor,PUP)和水文不确定处理器(Hydrological Uncertainty Processor,HUP)处理,最后通过集成器(Integrator,INT)综合输出[1719]。设H0为预报时已知的实测流量,Hn和Sn分别表示实际流量过程和预报流量过程,hn为Hn的实测值,sn为Sn的估计值,对于任意时刻n及Hn=hn,由贝叶斯原理可得在Sn=sn的条件下Hn的后验概率密度函数为[20]:

φn(hn|sn,h0)=fn(sn|hn,h0)gn(hn|h0)∫+∞-∞fn(sn|hn,h0)gn(hn|h0)dhn(10)

将GASVR预报值作为确定性预报输入,采用HUP计算径流的后验概率分布,并给出90%置信区间与50%分位数,结果见图5至图7。GASVR预报值与HUP50%分位数比较见表4。

由以上分析表明,GASVR模型的90%置信区间几乎包括所有实测值,且50%分位数与实测值拟合更好,预报精度更高。将50%分位数与GASVR预报值相比,确定性系数进一步增大,平均相对误差和均方根误差均有一定程度的减小,说明经过HUP处理后,不仅能以置信区间的方式量化预报的可靠度,提供更为丰富的预报信息,同时若以某一分位数(如50%)作为定值预报,由于贝叶斯方法本身所具有的校正能力,可进一步提高预报精度。

5结论

(1)根据皇庄站1981-2008年逐月径流量与1980-2007年逐月74项环流指数、北太平洋海温场、500 hPa高度场的相关关系,利用逐步回归挑选预报因子,构建GASVR模型,并对2009-2013年逐月径流量进行预报,结果表明,径流预报精度较高,汛期平均相对误差在30%以内,非汛期、年总量平均相对误差在20%以内,均优于随机森林和多元线性回归模型。但个别年份中的个别月平均相对误差较高,这表明预报因子的时效性与稳定性仍需提高,其中的物理成因仍需进一步研究。

(2)将GASVR模型作为确定性预报结果,采用HUP可以实现径流的概率预报。将概率预报的50%分位数与GASVR预报值进行对比,结果表明,50%分位数与实测值拟合更好,精度更高。HUP不仅可以提供精度更高的定值预报,还能以置信区间的方式量化预报的可靠度,提供更为丰富的预报信息,为防汛抗旱、水资源优化调度提供参考。

参考文献(References):

[1]CLOKE H L,PAPPENBERGER F.Ensemble flood forecasting:a review[J].Journal of Hydrology,2009,375(3):613626.DOI:10.1016/j.jhydrol.2006.05.017.

[2]张俊.中长期水文预报及调度技术研究与应用[D].大连:大连理工大学,2009.(ZHANG J.Midandlong term hydrological forecasting and operation techniques research and application[D].Dalian:Dalian University of Technology,2009.(in Chinese))

[3]PIECHOTA T C,CHIEW F H S,DRACUP J A,et al.Seasonal streamflow forecasting in eastern Australia and the El NioSouthern Oscillation[J].Water Resources Research,1998,34(11):30353044.DOI:10.1029/98WR02406.

[4]KRSTANOVIC P F,SINGH V P.A univariate model for longterm streamflow forecasting[J].Stochastic hydrology and hydraulics,1991,5(3):173188.DOI:10.1007/BF01544057.

[5]KALRA A,AHMAD S.Using oceanicatmospheric oscillations for long lead time streamflow forecasting[J].Water Resources Research,2009,45(3).DOI:10.1029/2008WR006855.

[6]BOX G E P,JENKINS G M,REINSEL G C.Time series analysis:forecasting and control[M].John Wiley & Sons,2011.

[7]Mohammadi K,Eslami H R,Kahawita R.Parameter estimation of an ARMA model for river flow forecasting using goal programming[J].Journal of Hydrology,2006,331(1):293299.DOI:10.1016/j.jhydrol.2006.05.017.

[8]PIECHOTA T C,CHIEW F H S,DRACUP J A,et al.Development of exceedance probability streamflow forecast[J].Journal of Hydrologic Engineering,2001,6(1):2028.DOI:10.1061/(ASCE)10840699(2001)6:1(20).

[9]范钟秀.中长期水文预报[M].南京:河海大学出版社,1999.(FAN Z X.Midandlong term hydrological forecasting.Nanjing:Hohai University Press,1999.(in Chinese))

[10]BROWN C,XU K,KWON H H,et al.Climate teleconnections to Yangtze River seasonal streamflow at the Three Gorges Dam,China[J].International Journal of Climatology,2007,27(6):771780.DOI:10.1002/joc.1437.

[11]PIECHOTA T C,CHIEW F H S,DRACUP J A,et al.Development of exceedance probability streamflow forecast[J].Journal of Hydrologic Engineering,2001,6(1):2028.DOI:10.1061/(ASCE)10840699(2001)6:1.

[12]王富强,霍风霖.中长期水文预报方法研究综述[J].人民黄河,2010,32(3):2528.(WANG F Q,HUO F L,Review on study of medium and long term hydrological forecasting technique[J].Yellow River,2010,32(3):2528.(in Chinese)) DOI:10.3969/j.issn.10001379.2010.03.011.

[13]林剑艺,程春田.支持向量机在中长期径流预报中的应用[J].水利学报,2006,37(6):681686.(LIN J Y,CHENG C T.Application of support vector machine method to longterm runoff forecast[J].Journal of Hydraulic Engineering,2006,37(6):681686.(in Chinese)) DOI:10.13243/j.cnki.slxb.2006.06.007.

[14]VAPNIK V.Estimation of dependences based on empirical data[M].Springer Science & Business Media,2006.

[15]VAPNIK V.The nature of statistical learning theory[M].Springer Science & Business Media,2013.

[16]杨晓华.参数优选算法研究及其在水文模型中的应用[D].南京:河海大学,2002.(YANG X H.Study on parameter optimazation algorithm and its application in hydrological model[D].Nanjing:Hohai University,2002.(in Chinese))

[17]KRZYSZTOFOWICZ R.Bayesian theory of probabilistic forecasting via deterministic hydrologic model[J].Water Resources Research,1999,35(9):27392750.DOI:10.1029/1999WR900099.

[18]KRZYSZTOFOWICZ R,KELLY K S.Hydrologic uncertainty processor for probabilistic river stage forecasting[J].Water Resources Research,2000,36(11):32653277.DOI:10.1029/2000WR900061.

[19]KRZYSZTOFOWICZ R.Bayesian system for probabilistic river stage forecasting[J].Journal of Hydrology,2002,268(1):1640.DOI:10.1016/s00221694(02)001063.

[20]梁忠民,戴榮,李彬权.基于贝叶斯理论的水文不确定性分析研究[J].水科学进展,2010,21(2):274281.(LIANG Z M,DAI R,LI B Q.A review of hydrological uncertainty analysis based on Bayesian theory[J].Advances in WaterScience,2010,21(2):274281.(in Chinese)) DOI:10.14042/j.cnki.32.1309.2010.02.008.第16卷第3期

猜你喜欢
遗传算法
面向成本的装配线平衡改进遗传算法
基于多层编码遗传算法的智能车间调度方法研究
基于遗传算法对广义神经网络的优化
基于遗传算法对广义神经网络的优化
基于遗传算法的临床路径模式提取的应用研究
基于遗传算法的临床路径模式提取的应用研究
遗传算法在校园听力考试广播系统施工优化中的应用
物流配送车辆路径的免疫遗传算法探讨
遗传算法在机械优化设计中的应用研究
遗传算法的应用