张群 张超 李岭 谷炜
[摘要] 在目前研究较多的组合预测模型中加权系数是不变的。事实上,假定加权系数为常数,组合预测模型并不能很好地反映预测方法的有效性。基于以上事实,本文提出基于PLS的变权重组合预测方法,利用偏最小二乘回归方法求得组合预测的权重函数。最后通过实例分析验证了方法的有效性。
[关键词] 变权组合预测模型;偏最小二乘;蚁群算法
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 05. 015
[中图分类号]F201[文献标识码]A[文章编号]1673 - 0194(2012)05- 0028- 03
1引言
1969年,Bates和Granger首次对组合预测方法进行了系统的研究,其研究成果引起预测学者们的重视[1]。文章认为选择单个预测是不太明智的,因为被放弃的预测结果中包含了一些有用的、独立于被选择的预测的信息。正是由于这些信息使得组合预测的结果往往优于单个预测。
所谓组合预测就是设法把不同的预测模型组合起来,综合利用各种预测方法所提供的信息,以适当的加权平均形式得出组合预测模型[2]。组合预测最关心的问题就是如何求出加权平均系数,使得组合预测模型更加有效地提高预测精度。组合预测在国外被称为Combination Forecasting或Combined Forecasting,在國内也被称为综合预测等。
近年来,国内外学者在组合预测方法研究方面取得了很多研究成果,对国内外文献分析研究,可以看出关于组合预测的研究呈现以下特点:
提出多种准则下的组合预测模型,对组合预测模型的求解和有效性的实证研究较为深入,但缺乏多种准则框架下的组合预测模型有效性的理论研究成果。目前,国内外学者主要提出以下一些组合预测方法:最小方差方法、无约束最小二乘方法、约束最小二乘方法、Bayes方法、基于不同准则与范数的组合预测方法、递归组合预测方法等。
对组合预测方法有效性的理论研究已经引起学术界的关注。文献[3]针对无非负约束的以误差平方和达到最小的组合预测模型提出了优性组合预测的概念,并利用组合预测绝对误差信息矩阵的性质判断简单平均方法是优性组合预测的条件;文献[4]研究了该模型组合预测误差的界;文献[5]提出了基于预测有效度的组合预测模型,并给出组合预测权系数的线性规划的求解方法;文献[6]针对此模型探讨其有效性。
目前研究较多的组合预测模型的加权系数是不变的。事实上,假定权系数为常数,组合预测模型并不能很好地反映预测方法的有效性,而且会使组合预测精度降低。产生权系数变化的原因有很多,主要有以下两个:
一是不同的预测方法特点不同,每种预测方法表现出“时好时坏性”,反映在权重上表现为“时大时小”。
二是不同的预测者对事物的客观规律的认识有差异,某种预测方法可能随时间的推移越来越优于其他单项预测方法,从而导致组合预测权系数的变化。
基于以上两种原因,学者们提出了变权重组合预测方法。文献[7]提出了变权重组合预测的模型,假定权重函数是连续的,依据Weierstrass定理利用多项式一致逼近权重函数,通过求解逼近多项式的系数矩阵可得权重函数。文献[8]在此基础上,利用矩阵的行展开和克罗内克积的概念对逼近多项式的系数矩阵进行分析,并在系数矩阵列满秩的条件下用带约束最小二乘方法对系数矩阵进行估计。但一般情况系数矩阵并不满足列满秩的条件。文献[9]提出了一种估计系数矩阵的构造性算法,并证明了算法的收敛性。
本文在前人的研究基础上提出了一种基于PLS方法的变权重组合预测方法。
2变权重组合预测模型
现有n个历史观测数据Y=(Y1,Y2,…,Yn)T, 对每个历史数据Yt(t=1,2,…,n)用m个预测模型进行预测,预测结果分别为ft1,ft2,…,ftm,由这些预测结果组成的变权重组合模型,可用下式表示:
Yt=■gi(t)fu+u(1)
式中,ut为随机噪声;gi(t)为第i个参与组合预测模型t时的权重。为了讨论简便,假设gi(t)是连续函数。依据Weierstrass定理,任意区间[a,b]上的任一连续f(t)函数皆可由多项式一致通过逼近。而通常gi(t)满足:0≤gi(t)≤1,因gi(t)可用t的多项式表示:
gi(t)=gi0+gi1t+gi2t2+…+giptp
因而,式(1)可表示为:
yt=[ft1,ft2,…,ftm]g10 g11 … g1pg20 g21 … g2pfm0 gm1 … gmpt0t1tp+ut
=g10 f t1+g11 ft1t+…+g1p ft1tp+…+gm0 ftm+…+gm1 ftmtp+ut
=■■gijtj-1fti+ut=G·Ft+ut
式中,G=[g10,…,g1p,…,gm0,…,gmp],
Ft=[ft1t0,…,ft1tp,…,ftmt0,…,ftmtp]T
因此,估计出G即可求得变权重组合预测模型。
3基于PLS的变权重组合预测模型
由以上分析可知,如何估计G是求解变权重组合预测模型的关键。模型参数估计应用最广泛的方法是最小二乘法。但是简单最小二乘法在自变量之间存在线性相关性时会导致方法失效。已有研究表明用m个预测模型进行预测,预测结果f1,f2,…fm,呈强相关性,在本文研究的模型中,显见自变量Ft=[ft1t0,…,ft1tp,…,ftmt0,…,ftmtp]T也呈强相关性,需要考虑用其他参数估计方法。偏最小二乘(PLS)方法能够在自变量存在严重多重相关性的条件下进行参数估计。
变权重组合预测模型的偏最小二乘的建模方法:
因变量Y和(p+1)×m个自变量Ft=[ft1t0,…,ft1tp,…,ftmt0,…,ftmtp]T。观测了n个样本点,由此构成了自变量与因变量的数据表Y=(y)n×1和F=(F1,F2,…,Fn)T,其中,Ft=[ft1t0,…,ft1tp,…,ftmt0,…,ftmtp]T,t=1,2,…,n。记X=(x1,x2,…,x(p+1)×m),其中xi+j×(p+1)=(ftjti)n×1。偏最小二乘法在X中提取成分u1(也就是说u1是x1,x2,…,xp的线性组合)。在提取成分时,有如下要求:
(1)u1应尽可能多地携带它们各自数据表中的变异信息。
(2)u1和Y的相关程度能够达到最大。
在第1个成分u1被提取后,偏最小二乘实施X对u1的回归。如果回归已经达到满意的精度,则算法终止;否则,将利用X被u1解释后的残余信息进行第2轮的成分提取。如此反复,直到能达到一个较满意的精度为止。若最终对X共提取了k个成分u1,u2,…,uk,偏最小二乘将通过施行y对u1,u2,…,uk的回归,然后表达成y关于变量{x1,x2,…,xp}的回归方程。将xi+j×(p+1)=ftjti代入回归方程,得到变权重组合预测模型。
4实例仿真
为了说明方法的有效性,采用1975-2004年中国工业总产值进行研究。数据来源于《中国工业经济年鉴》。本文选用4种单个预测方法对中国工业总产值进行预测,4种单个预测方法分别为简单移动平均法、指数平滑预测法、ARMA方法和数据重心预测法。本文用1975-1994年的20个数据对方法进行训练,用1995-2004年的10个数据对方法进行测试。
图1为各单个方法预测的结果。用单个预测结果分别乘t0,…,tp(1975年记t=1)得Ft=[ft1t0,…,ft1tp,…,ftmt0,…,ftmtp]T。其中, 简单移动平均法为ft1,指数平滑预测法为ft2,ARMA方法为ft3,数据重心预测法为ft4。本文取p=2。
表1是Ft各列的相关系数,记X=(x1t,x2t,…,x(p+1)×m,t),其中xi+j×(p+1),t=(ftjti)n×1,j=1,2,3,4。从表1中可以看出,各列之间具有很强的正相关性。
采用偏最小二乘回归得到变权重组合预测模型。模型如下:
yt=0.306 2 ft1-0.007 5 ft1t+0.000 2 ft1t2+0.176 6 ft2+0.006 8 ft2t+0.000 2 ft2t2+0.276 9 ft3+0.002 2 ft3t+0.190 3 ft4-0.001 6 ft4t-0.000 4 ft4t2(2)
采用式(2)对测试样本进行预测,并将预测结果与实际中国工业总产值进行比较,结果如图2所示。
根据文献[9],选取两个误差指标评价预测的效果。
误差的标准差,即:
MSE=■
平均绝对百分比误差,即:
MAPE=■■■
其中,yt为指标序列第t时刻的实际观测值。■t为某预测方法第t时刻的预测值。N为测试样本数。各预测结果的精度比較见表2。
从表2可以看出,本文提出的变权重组合预测方法的预测精度比各单个预测方法的预测精度有较大改进。同时,比一般组合预测方法的预测精度也有所提高。
5结论
本文在前人研究的基础上提出了基于PLS的变权重组合预测方法。文章首先分析了变权重组合预测模型,而后利用偏最小二乘方法对变权重组合预测的权重函数进行回归,最后通过实例验证了方法的有效性。
本文考虑了单个预测方法随时间的变化对组合预测的影响。假设权重函数是一个连续函数,而权重函数是否还有其他形态,不同的函数形态对预测结果是否有影响,这些都是需要进一步考虑的问题。
主要参考文献
[1]Bates J M, Granger C W J, The Combination of Forecasts[J]. Operational Research Quarterly, 1969, 20(4), 451-468.
[2]Bunn D W. Combining Forecasts[J]. European Journal of Operation Research, 1988, 33(3):223-229.
[3]傅庚,唐小我,曾勇. 广义递归方差倒数组合预测方法研究[J]. 电子科技大学学报, 1992, 21(5):545-550.
[4]X W Tang, Z F Zhou, Y Shi. The Error Bounds of Combined Forecasting[J]. Mathematical and Computer Modeling, 2002, 21(2):58-62.
[5]陈华友. 基于预测有效度的组合预测模型研究[J]. 预测, 2001, 20(3):72-73.
[6]陈华友, 侯定丕. 基于预测有效度的优性组合预测模型研究[J]. 中国科学技术大学学报, 2002,32(2):172-180.
[7]谢如贤, 成盛超, 吴健中. 变权重组合预测模型的建立与应用[J]. 预测,1992,11(4):62-65.
[8]唐小我,曾勇,曹长修. 变权组合预测模型研究[J]. 预测, 1993, 12(3):46-48.
[9]Lu Xu, Jiang Jian-Hui, Lin Wei-Qi,et al. Optimized Sample-weighted Partial Least Squares[J]. Talanta,2007,71(2):561-566.
[收稿日期]2012-01-30
[基金项目]国家自然科学基金资助项目(70672102)。