魏光辉
(新疆农业大学 水利与土木工程学院,乌鲁木齐 830052)
基于FPSTWD算法与时间序列支持向量机的河流径流量预报
魏光辉
(新疆农业大学 水利与土木工程学院,乌鲁木齐 830052)
为及时掌握河道径流量变化趋势,为下游水库防洪调度提供依据,提出了基于时间序列的最小二乘支持向量机河道径流量实时预测模型。采用特征点分段时间弯曲距离算法对实时采集的时间序列数据进行分段与相似度计算,以缩减规模的子序列数据集对LSSVR模型进行训练优化,实现多个LSSVR子模型建模,将预测数据序列与LSSVR子模型的相似度匹配,自适应地选取最佳的子模型作为预测模型。应用该模型对某河径流量进行实时预测,模型评价指标中最大相对误差、平均相对误差绝对值和均方根误差分别为9.08%、3.25%与303 m3。研究结果表明,该模型具有较好的预测性能,能够满足河道径流量预测的实际需求,并为下游水库防洪调度与水资源管理提供了重要参考。
河川径流量;支持向量机;时间序列;预测
河川径流量预测是水资源研究领域中的重点和难点,具有高维、非线性等特征,寻求能够表征径流特性、预测精度高的河川径流量实时预测模型对区域水资源管理、下游水库优化调度具有极其重要的指导意义[1]。
近年来,国内外研究者提出了各种实时预测模型和方法,如滑动时间窗方法[2]、动态神经网络方法[3-4]和基于增量训练的实时支持向量机算法[5-7]等。滑动时间窗方法采用时间窗滚动或滑动的方式进行实时预测,但模型自身不具备随时间序列实时更新和动态学习的能力,致使预测精度不理想;动态神经网络方法通过改进网络结构和调整网络参数,实现模型的动态更新与实时预测,但存在计算复杂等缺陷;最小二乘支持向量回归机(least squares support vector regression,LSSVR)具有计算效率高、泛化性能强等优点,但若直接用于实时数据建模,则随着时间序列获取样本数据的逐渐增加,易产生数据过饱和、泛化能力差,甚至模型失效等问题[8-9]。为此,一些国内外学者采用剪枝算法、增减式学习、滑动窗和加权等改进策略提出了性能各异的LSSVR实时学习算法,并取得了较好预测效果[8-12]。
本文结合河流径流量时间序列的相似性和连续变换的规律,在前人研究的基础上,根据“特征相似输入产生相似输出”原则,提出了基于时间序列的LSSVR河流径流量预测模型,给出了模型推导过程,并以新疆某融雪型河流径流量时间序列数据为例进行建模和实时预测验证。与其他模型相比,该预测模型综合性能较好,具有一定的应用前景。
1.1 最小二乘支持向量机
对于非线性时间序列样本数据(x1,y1),(x2,y2),…,(xi,yi),…,(xn,yn),xi∈Rn和yi∈R,采用最小二乘支持向量回归机进行函数估计,则优化问题变成:
(1)
约束条件:
(2)
式中J为损失函数;ω为权重向量;T为向量转置符号;ξi∈R为经验误差;b为偏置量;C∈R+是正则化参数;φ(·)为输入空间到特征空间的非线性映射。
为求解上述约束优化问题,其对偶问题的Lagrange函数为:
(3)
式中αi为拉格朗日乘子。由Karush-Kuhn-Tucher(KKT)条件,分别对ω、b、ξi和αi参数求偏导数并令其分别等于0,则有:
(4)
根据式(4),进而求得最小二乘支持向量回归机函数为:
(5)
由式(5)可知,LSSVR的训练问题归结为求解线性方程组的问题,具有计算简单,快速的特点;但LSSVR的解缺乏遗忘机制,随着时间序列样本的不断增加,需要保持很多样本参与训练,这将导致矩阵维数剧增,严重制约学习效率,甚至导致训练失败。因此处理新增样本点,简化学习算法,提高模型精度,是LSSVR算法预测的关键。
1.2 时间序列相似度计算
鉴于特征点分段时间弯曲距离(feature points segmented time warping distance,FPSTWD)具有能提供一种全局趋势信息,缩减经典时间弯曲距离计算数据维数,时间序列相似度高、计算复杂度低等特点。本文采用FPSTWD方法对时间序列数据进行相似度计算,即运用FPSTWD对历史数据的数据序列进行特征点分段,构建多个分段子序列簇(cluster)或分段子序列集合,以特征点分段时间弯曲距离作为相似测度,使同一个簇内的对象之间具有较高的相似度,而不同的簇中的对象差别比较大。因此,准确定义并获取特征点是时间序列数据相似度计算中的重要环节。
定义1:时间序列x的特征点:给定阈值Ψ和时间序列{x1=(a1,…,aN)},如果xi是一个特征点(1≤i≤N),它必须满足2个条件:①xi必须是时间序列的极值点或拐点,其中序列的起点与终点均默认为特征点;②若xi>xi-1,则xi/xi-1>Ψ必须成立,否则,xi
阈值Ψ是极值点的影响因子取值的最小范围,取值与具体应用领域知识、序列长度及用户关注角度有关,一般情况下Ψ∈[0.01,0.1]。在得到时间序列的特征点后,对相邻的特征点间的点集进行直线拟合,即可得到时间序列的分段线性表示。
定义2:假定时间序列x与y经线段化后分别为xS与yS,其中xS=
(6)
利用式(6)以行或列的顺序填充矩阵d,最后矩阵d中(m,n)元素中的值即为两序列的FPSTWD值。
1.3 基于FPSTWD的LSSVR预测模型
1.3.1 模型思路
本文将特征点分段时间弯曲距离(FPSTWD)与最小二乘支持向量回归相结合构建实时预测模型。建模过程中采用FPSTWD算法对样本序列数据进行分段与相似度计算,组成特征相似的子序列集合,然后应用特征子序列样本集对LSSVR进行训练优化,构建相应的分段LSSVR子模型,并获得相应的支持向量,实现了多个LSSVR子模型实时建模;对新增样本序列,运用FPSTWD方法对新增样本序列进行分段和相似度计算,获得与新增样本最相似的子序列样本所对应的分段预测模型,将新增样本子序列输入到该模型进行实时预测,提高了预测模型随时间序列数据变化的自适应能力。
1.3.2 模型构建
1)模型参数初始化。需设置的参数有惩罚参数C、核函数参数σ2、精度阈值ϑ、阈值Ψ和相似度阈值μ;LSSVR核函数类型,子分段模型LSSVR(S),S=1,2,…,训练集初始长度TL。
2)历史数据训练样本集与当前第q批次时间窗训练样本点的表示。因预测模型的需要,在构造训练样本集时应将输入输出样本错位结合,那么第p个历史批次的训练样本集可用Up={(X1,Y1),…,(Xp,Yp)}表示,其中训练样本集中任一个样本点表示为(xi,yi+1),l
3)利用FPSTWD的时间序列数据相似度计算方法对历史样本集US中的时间序列数据进行分段处理,组成特征相似的子序列样本集R(S)(S=1,2,…)。应用R(S)对LSSVR进行训练优化,对每个子序列样本集R(S)构建相应的子分段预测模型LSSVR(S),获得子分段的支持向量LSSVRSV(S),以分段方式将LSSVR(S)模型和LSSVRSV(S)分别保存分段预测模型库及相应的支持向量样本表TbSV(S)。
4)新增时间序列数据U′分段与相似度计算。搜索时间序列数据U′的特征点,由特征点对U′进行分段处理;采用式(6)计算U′子序列与所有子序列样本集R(S)的特征点分段时间弯曲距离,FPSTWD距离越小相似度越大,找出与U′子序列相似度最大的R(j),j∈[1,S];在R(S)中若找不到与U′子序列相匹配的子序列,或者FPSTWD距离大于指定相似度阈值μ,将U′作为新的子序列样本集或做删除处理,并记下该时间序列U′对应的时刻以及相应的状态信息。
5)模型预测。把R(j)所对应的子分段预测模型LSSVR(j),j∈[1,S],作为最佳的LSSVR预测模型,将U′子序列输入到LSSVR(j)模型中进行预测,输出预测结果;若新增数据序列U′的子序列因奇异值或噪声找不到相匹配的子序列R(j),此时采用与U′的子序列相似日期相似时刻的历史数据替代并进行预测,同时输出预测结果;若预测精度小于指定的精度阈值θ,则将新增样本序列U′与LSSVRSV(S)一起训练LSSVR,并将符合精度要求的预测模型和支持向量保存下来,这样不断完善分段预测模型库和各分段的支持向量。
6)时间序列数据更新,重复执行步骤4)~6)。
某河流地处新疆南疆地区,水文站以上控制河长为38 km,集水面积为257 km2。河流地处塔里木盆地南缘,属温带大陆性干旱气候,夏季酷热,冬季寒冷,降水稀少,蒸发强烈。多年平均气温为10.8 ℃,多年平均降水量<50 mm,多年平均蒸发量为2 760 mm,多年平均径流量为0.683×108m3,主要以冰川融水补给为主,兼有部分雨雪水
和地下水补给。
该河流水文站处设有河道水尺及气象数据自动采集系统,可实时监测河道径流量、气温、太阳辐射、大气压、风速、风向、相对湿度等7要素。本文数据采集时间为2012年7月2日零点至7月16日零点,数据自动记录1次/30 min,共计14 d 673个样本,取前11 d的529个样本为训练集,剩余3 d的144个样本作为测试集,对河道径流量进行实时预测。河流径流量及各气象因子变化过程见图1。
3.1 算法实现与测试
本文以径向基函数(radial basis function,RBF)为LSSVR模型的核函数,采用Visual C语言对FPSTWD-LSSVR算法进行编程。最终惩罚参数C取0.5、核函数参数σ2取0.2、精度阈值ϑ取0.1、阈值Ψ取0.05、相似度阈值μ取0.1,训练集初始长度TL取80,运用FPSTWD方法对训练样本序列进行分段与相似度计算,形成6个子序列集合S1,S2,S3,S4,S5,S6,每个子集的样本个数分别为107、125、133、95、112、101,以这6个子序列集合样本分别对LSSVR进行模型训练,得到对应6个LSSVR(S)预测子模型和支持
(a)河流径流量变化过程
(b)平均气温变化过程
(c)相对湿度变化过程
(d)大气压变化过程
(e)平均风速变化过程
(f)太阳辐射变化过程
向量LSSVRSV(S),S∈[1,…,6]。采用FPSTWD-LSSVR算法对2012年7月13日至7月15日72 h的144个时间序列数据进行单步预测,结果见图2。模型预测相对误差曲线见图3。
图2 模型预测值和实测值过程曲线Fig.2 Curves of forecasting value and actual value
图3 模型预测误差曲线Fig.3 Forecasting error curves of model
由图2可见,本文构建的模型预测值能够与河流径流量实测值拟合较好。由图3可见,该算法输出结果最小相对误差为0.02%,最大相对误差为-9.08%,平均相对误差为3.25%,能够满足河流径流量实时预测的需要。
3.2 结果对比分析
为了验证FPSTWD-LSSVR预测模型性能,利用Matlab软件,选择LSSVR算法进行对比分析;分别采用最大相对误差、平均绝对相对误差、均方根误差和运行时间t作为算法性能评价指标,综合比较2种算法的预测精度,其预测结果对比见图4,模型评价结果见表1。
表1 2种模型预测结果对比
由图4和表1可见,采用FPSTWD-LSSVR算法可较好的实时拟合河流气象因子与径流量之间的复杂非线性关系,且预测曲线与实测值拟合效果明显好于LSSVR预测模型。FPSTWD-LSSVR算法评价指标均明显优于LSSVR算法。
由图4和表1对比分析可见:本文所提算法采用基于特征点的分段策略很好地保留了时间序列的历史知识特征信息,有效缩减实时建模和预测数据的规模,并且能够根据新增样本的序列特征,采用FPSTWD距离相似度计算实现预测子模型的自适应筛选,能在保证算法预测精度的同时降低时间复杂度;此外,由于本文提出的FPSTWD-LSSVR算法采用实时训练数据建模长度较小,与LSSVR算法相比,各项评价指标均较优,能够满足河道径流量实时预测要求。
(a)FPSTWD-LSSVR模型预测值与实测值对比
(b)LSSVR模型预测值与实测值对比图4 2种模型预测值和实测值对比Fig.4 Comparison of prediction value and observed value with two models
本文以特征相似输入产生相似数据输出为指导思想,构建了基于时间序列相似性度量和LSSVR模型的河道径流量预测模型,并对新疆某融雪型河流进行预测验证,取得了较好的效果,得到如下结论:
1)在相同条件下与LSSVR预测模型对比分析,结果表明,本文提出的FPSTWD-LSSVR预测模型各项性能评价指标均优于LSSVR模型。从实时预测的角度出发,该文提出的预测算法不仅降低了计算复杂度,还具有较高的预测精度,这为河流径流预报、水库运行调度提供了重要参考,具有一定的理论指导意义及工程应用价值。
2)在FPSTWD-LSSVR建模过程中,采用特征点分段相似性度量策略,使得特征相似、规模适中、邻域信息宽泛的历史时间序列样本参与LSSVR模型的快速训练优化,实现了多个LSSVR子模型实时建模;通过FPSTWD距离算法对待预测
的时间序列与LSSVR子模型相似性匹配,自适应选择特征相似和性能较佳的LSSVR子模型进行实时预测。本文所提出的实时预测算法在一定程度上解决了以往预测算法存在的动态学习能力差、计算复杂、预测精度不理想等问题。
[1]李彦彬.河川日径流预报的混沌神经网络模型[J].华北水利水电学院学报,2012,33(4):19-21.
[2]黄 强,赵雪花.河川径流时间序列分析预测理论与方法[M].郑州:黄河水利出版社,2008.
[3]Vairappan C, Tamura H. Batch type local search-based adaptive neuro-fuzzy inference system(ANFIS) with self-feedbacks for time-series prediction[J].Neurocomputing, 2009,72(7):1 870-1 877.
[4]Chen Y M, Lin C T. Dynamic parameter optimization of evolutionary computation for on-line prediction of time series with changing dynamics[J].Applied Soft Computing,2007,7(4): 1 170-1 176.
[5]Wang W J, Men C Q, Lu W Z. Online prediction model based on support vector machine[J]. Neurocomputing,2008,71(4): 550-558.
[6]Wen Y, Li X O. On-line fuzzy modeling via clustering and support vector machines[J]. Information Sciences,2008,178(22):4 264-4 279.
[7]Gu B, Wang J D, Yu Y C, et al. Accurate on-line v-support vector learning[J]. Neural Networks,2012,27: 51-59.
[8]张浩然,汪晓东.回归最小二乘支持向量机的增量和在线式学习算法[J].计算机学报,2006,29(3):399-406.
[9]Zhao Y P, Sun J G, Du Z H, et al. Online independent reduced least squares support vector regression[J].Information Sciences,2012,201: 37-52.
[10]Zhang W P, Niu P F, Li G Q, et al. Forecasting of turbine heat rate with online least squares support vector machine based on gravitational search algorithm[J].Knowledge-Based Systems,2013,39: 34-44.
[11]张淑宁.在线鲁棒最小二乘支持向量机回归建模[J].控制理论与应用,2011,28(11):1 601-1 606.
[12]陈 磊.遗传最小二乘支持向量机法预测时用水量[J].浙江大学学报:工学版,2011,45(6):1 100-1 103.
Prediction of river runoff based on FPSTWD algorithm and time series support vector machine
WEI Guang-Hui
(School of Water Resources and Civil Engineering, Xinjiang Agricultural University, Urumqi 830052,China)
In order to grasp the change trend of river runoff, provide the basic information for the flood control of reservoir. A least squares support vector machine time series of river runoff forecasting model is proposed. Using feature point segmented time warping distance algorithm on the real-time data of time sequence and similarity calculation, the sequence data reduction scale set for training and the optimization of the LSSVR model, the LSSVR sub model, the forecasting data sequence similarity with the LSSVR model to adaptively select the best matching, sub model as the predictive model. Application of the model of a river runoff forecasting, the absolute value of the maximum relative error, average relative error of the model evaluation index and the root mean square error of 9.08%, 3.25% and 303 m3respectively. The results show that, this model has better prediction performance, which can satisfy the actual demand of river runoff prediction, and provide an important reference for flood control reservoir and water resources management.
runoff; support vector machine; time series; prediction
10.13524/j.2095-008x.2015.01.007
2014-02-08;
2014-03-04
http://www.cnki.net/kcms/detail/23.1566.T.20150119.1616.001.html
新疆水文学及水资源重点学科资助项目(XJSWSZYZDXK2010-12-02)
魏光辉(1981-),男,新疆石河子人,高级工程师,博士研究生,研究方向:干旱区水资源利用,E-mail:xndwgh@sina.com。
P338
A
2095-008X(2015)01-0032-06