基于PLS的变权重组合预测方法

2012-04-29 00:44:03张群张超李岭谷炜

中国管理信息化 2012年5期

张群张超李岭谷炜

［摘要］在目前研究较多的组合预测模型中加权系数是不变的。事实上，假定加权系数为常数，组合预测模型并不能很好地反映预测方法的有效性。基于以上事实，本文提出基于PLS的变权重组合预测方法，利用偏最小二乘回归方法求得组合预测的权重函数。最后通过实例分析验证了方法的有效性。

［关键词］变权组合预测模型；偏最小二乘；蚁群算法

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 05. 015

［中图分类号］F201［文献标识码］A［文章编号］1673 - 0194（2012）05- 0028- 03

1引言

１９６９年，Ｂａｔｅｓ和Ｇｒａｎｇｅｒ首次对组合预测方法进行了系统的研究，其研究成果引起预测学者们的重视［１］。文章认为选择单个预测是不太明智的，因为被放弃的预测结果中包含了一些有用的、独立于被选择的预测的信息。正是由于这些信息使得组合预测的结果往往优于单个预测。

所谓组合预测就是设法把不同的预测模型组合起来，综合利用各种预测方法所提供的信息，以适当的加权平均形式得出组合预测模型［２］。组合预测最关心的问题就是如何求出加权平均系数，使得组合预测模型更加有效地提高预测精度。组合预测在国外被称为Cｏｍｂｉｎａｔｉｏｎ Fｏｒｅｃａｓｔｉｎｇ或Cｏｍｂｉｎｅｄ Fｏｒｅｃａｓｔｉｎｇ，在國内也被称为综合预测等。

近年来，国内外学者在组合预测方法研究方面取得了很多研究成果，对国内外文献分析研究，可以看出关于组合预测的研究呈现以下特点：

提出多种准则下的组合预测模型，对组合预测模型的求解和有效性的实证研究较为深入，但缺乏多种准则框架下的组合预测模型有效性的理论研究成果。目前，国内外学者主要提出以下一些组合预测方法：最小方差方法、无约束最小二乘方法、约束最小二乘方法、Ｂａｙｅｓ方法、基于不同准则与范数的组合预测方法、递归组合预测方法等。

对组合预测方法有效性的理论研究已经引起学术界的关注。文献［３］针对无非负约束的以误差平方和达到最小的组合预测模型提出了优性组合预测的概念，并利用组合预测绝对误差信息矩阵的性质判断简单平均方法是优性组合预测的条件；文献［４］研究了该模型组合预测误差的界；文献［５］提出了基于预测有效度的组合预测模型，并给出组合预测权系数的线性规划的求解方法；文献［６］针对此模型探讨其有效性。

目前研究较多的组合预测模型的加权系数是不变的。事实上，假定权系数为常数，组合预测模型并不能很好地反映预测方法的有效性，而且会使组合预测精度降低。产生权系数变化的原因有很多，主要有以下两个：

一是不同的预测方法特点不同，每种预测方法表现出“时好时坏性”，反映在权重上表现为“时大时小”。

二是不同的预测者对事物的客观规律的认识有差异，某种预测方法可能随时间的推移越来越优于其他单项预测方法，从而导致组合预测权系数的变化。

基于以上两种原因，学者们提出了变权重组合预测方法。文献［７］提出了变权重组合预测的模型，假定权重函数是连续的，依据Ｗｅｉｅｒｓｔｒａｓｓ定理利用多项式一致逼近权重函数，通过求解逼近多项式的系数矩阵可得权重函数。文献［８］在此基础上，利用矩阵的行展开和克罗内克积的概念对逼近多项式的系数矩阵进行分析，并在系数矩阵列满秩的条件下用带约束最小二乘方法对系数矩阵进行估计。但一般情况系数矩阵并不满足列满秩的条件。文献［９］提出了一种估计系数矩阵的构造性算法，并证明了算法的收敛性。

本文在前人的研究基础上提出了一种基于PLS方法的变权重组合预测方法。

2变权重组合预测模型

现有ｎ个历史观测数据Ｙ＝（Ｙ１，Ｙ２，…，Ｙｎ）Ｔ，对每个历史数据Ｙｔ（ｔ＝１，２，…，ｎ）用m个预测模型进行预测，预测结果分别为ｆｔ１，ｆｔ２，…，ｆｔｍ，由这些预测结果组成的变权重组合模型，可用下式表示：

Yt=■ｇｉ（ｔ）ｆｕ＋ｕ（１）

式中，ut为随机噪声；ｇi（ｔ）为第i个参与组合预测模型t时的权重。为了讨论简便，假设ｇｉ（ｔ）是连续函数。依据Ｗｅｉｅｒｓｔｒａｓｓ定理，任意区间［ａ，ｂ］上的任一连续ｆ（ｔ）函数皆可由多项式一致通过逼近。而通常ｇｉ（ｔ）满足：0≤ｇｉ（ｔ）≤１，因ｇｉ（ｔ）可用ｔ的多项式表示：

ｇｉ（ｔ）＝ｇｉ０＋ｇｉ１ｔ＋ｇｉ２ｔ２＋…＋ｇｉｐｔｐ

因而，式（１）可表示为：

yt=［ｆｔ１，ｆｔ２，…，ｆｔｍ］ｇ１０ｇ１１ … ｇ１ｐｇ２０ｇ２１ … ｇ２ｐｆｍ０ｇｍ１ … ｇｍｐｔ０ｔ１ｔｐ＋ｕｔ

＝ｇ１０ｆｔ１＋ｇ１１ｆｔ１ｔ＋…＋ｇ１ｐｆｔ１ｔｐ＋…＋ｇｍ０ｆｔｍ＋…＋ｇｍ１ｆｔｍｔｐ＋ｕｔ

＝■■ｇｉｊｔｊ－１ｆｔｉ＋ｕｔ＝Ｇ·Ｆｔ＋ｕｔ

式中，Ｇ＝［ｇ１０，…，ｇ１ｐ，…，ｇｍ０，…，ｇｍｐ］，

Ｆｔ＝［ｆｔ１ｔ０，…，ｆｔ１ｔｐ，…，ｆｔｍｔ０，…，ｆｔｍｔｐ］Ｔ

因此，估计出G即可求得变权重组合预测模型。

3基于PLS的变权重组合预测模型

由以上分析可知，如何估计G是求解变权重组合预测模型的关键。模型参数估计应用最广泛的方法是最小二乘法。但是简单最小二乘法在自变量之间存在线性相关性时会导致方法失效。已有研究表明用m个预测模型进行预测，预测结果ｆ１，ｆ２，…ｆｍ，呈强相关性，在本文研究的模型中，显见自变量Ｆｔ＝［ｆｔ１ｔ０，…，ｆｔ１ｔｐ，…，ｆｔｍｔ０，…，ｆｔｍｔｐ］Ｔ也呈强相关性，需要考虑用其他参数估计方法。偏最小二乘（PLS）方法能够在自变量存在严重多重相关性的条件下进行参数估计。

变权重组合预测模型的偏最小二乘的建模方法：

因变量Y和（ｐ＋１）×ｍ个自变量Ｆｔ＝［ｆｔ１ｔ０，…，ｆｔ１ｔｐ，…，ｆｔｍｔ０，…，ｆｔｍｔｐ］Ｔ。观测了n个样本点，由此构成了自变量与因变量的数据表Ｙ＝（ｙ）ｎ×１和Ｆ＝（Ｆ１，Ｆ２，…，Ｆｎ）Ｔ，其中，Ｆｔ＝［ｆｔ１ｔ０，…，ｆｔ１ｔｐ，…，ｆｔｍｔ０，…，ｆｔｍｔｐ］Ｔ，ｔ＝１，２，…，ｎ。记Ｘ＝（ｘ１，ｘ２，…，ｘ（ｐ＋１）×ｍ），其中ｘｉ＋ｊ×（ｐ＋１）＝（ｆｔｊｔｉ）ｎ×１。偏最小二乘法在X中提取成分u1（也就是说u1是ｘ１，ｘ２，…，ｘｐ的线性组合）。在提取成分时，有如下要求：

（１）u1应尽可能多地携带它们各自数据表中的变异信息。

（２）u1和Y的相关程度能够达到最大。

在第１个成分u1被提取后，偏最小二乘实施X对u1的回归。如果回归已经达到满意的精度，则算法终止；否则，将利用X被u1解释后的残余信息进行第２轮的成分提取。如此反复，直到能达到一个较满意的精度为止。若最终对X共提取了ｋ个成分ｕ１，ｕ２，…，ｕｋ，偏最小二乘将通过施行ｙ对ｕ１，ｕ２，…，ｕｋ的回归，然后表达成ｙ关于变量｛ｘ１，ｘ２，…，ｘｐ｝的回归方程。将ｘｉ＋ｊ×（ｐ＋１）＝ｆｔｊｔｉ代入回归方程，得到变权重组合预测模型。

4实例仿真

为了说明方法的有效性，采用１９７５-２００４年中国工业总产值进行研究。数据来源于《中国工业经济年鉴》。本文选用４种单个预测方法对中国工业总产值进行预测，４种单个预测方法分别为简单移动平均法、指数平滑预测法、ＡＲＭＡ方法和数据重心预测法。本文用１９７５-１９９４年的２０个数据对方法进行训练，用１９９５-２００４年的１０个数据对方法进行测试。

图１为各单个方法预测的结果。用单个预测结果分别乘ｔ０，…，tp（１９７５年记t=1）得Ｆｔ＝［ｆｔ１ｔ０，…，ｆｔ１ｔｐ，…，ｆｔｍｔ０，…，ｆｔｍｔｐ］Ｔ。其中，简单移动平均法为ft1，指数平滑预测法为ft2，ＡＲＭＡ方法为ft3，数据重心预测法为ft4。本文取p=2。

表１是Ｆｔ各列的相关系数，记Ｘ＝（ｘ１ｔ，ｘ２ｔ，…，ｘ（ｐ＋１）×ｍ，ｔ），其中ｘｉ＋ｊ×（ｐ＋１），ｔ＝（ｆｔｊｔｉ）ｎ×１，ｊ＝１，２，３，４。从表1中可以看出，各列之间具有很强的正相关性。

采用偏最小二乘回归得到变权重组合预测模型。模型如下：

yt=0.306 2 ft1-0.007 5 ft1t+0.000 2 ft1t2+0.176 6 ft2+0.006 8 ft2t+0.000 2 ft2t2+0.276 9 ft3+0.002 2 ft3t+0.190 3 ft4-0.001 6 ft4t-0.000 4 ft4t2（2）

采用式（2）对测试样本进行预测，并将预测结果与实际中国工业总产值进行比较，结果如图２所示。

根据文献［9］，选取两个误差指标评价预测的效果。

误差的标准差，即：

MSE=■

平均绝对百分比误差，即：

MAPE=■■■

其中，yt为指标序列第t时刻的实际观测值。■ｔ为某预测方法第t时刻的预测值。N为测试样本数。各预测结果的精度比較见表２。

从表２可以看出，本文提出的变权重组合预测方法的预测精度比各单个预测方法的预测精度有较大改进。同时，比一般组合预测方法的预测精度也有所提高。

5结论

本文在前人研究的基础上提出了基于PLS的变权重组合预测方法。文章首先分析了变权重组合预测模型，而后利用偏最小二乘方法对变权重组合预测的权重函数进行回归，最后通过实例验证了方法的有效性。

本文考虑了单个预测方法随时间的变化对组合预测的影响。假设权重函数是一个连续函数，而权重函数是否还有其他形态，不同的函数形态对预测结果是否有影响，这些都是需要进一步考虑的问题。

主要参考文献

［１］ＢａｔｅｓＪＭ，ＧｒａｎｇｅｒＣＷＪ，ＴｈｅＣｏｍｂｉｎａｔｉｏｎｏｆＦｏｒｅｃａｓｔｓ［Ｊ］．ＯｐｅｒａｔｉｏｎａｌＲｅｓｅａｒｃｈＱｕａｒｔｅｒｌｙ，１９６９，２０（４），４５１-４６８．

［2］ＢｕｎｎＤＷ．ＣｏｍｂｉｎｉｎｇＦｏｒｅｃａｓｔｓ［Ｊ］．ＥｕｒｏｐｅａｎＪｏｕｒｎａｌｏｆＯｐｅｒａｔｉｏｎＲｅｓｅａｒｃｈ，１９８８，３３（３）：２２３-２２９．

［3］傅庚，唐小我，曾勇．广义递归方差倒数组合预测方法研究［Ｊ］．电子科技大学学报，１９９２，２１（５）：５４５-５５０．

［4］ＸＷＴａｎｇ，ＺＦＺｈｏｕ，ＹＳｈｉ．ＴｈｅＥｒｒｏｒＢｏｕｎｄｓｏｆＣｏｍｂｉｎｅｄＦｏｒｅｃａｓｔｉｎｇ［Ｊ］．Ｍａｔｈｅｍａｔｉｃａｌａｎｄ Cｏｍｐｕｔｅｒ Mｏｄｅｌｉｎｇ，２００２，２１（２）：５８-６２．

［5］陈华友．基于预测有效度的组合预测模型研究［Ｊ］．预测，２００１，２０（３）：７２-７３．

［6］陈华友，侯定丕．基于预测有效度的优性组合预测模型研究［Ｊ］．中国科学技术大学学报，２００２，３２（２）：１７２-１８０．

［7］谢如贤，成盛超，吴健中．变权重组合预测模型的建立与应用［Ｊ］．预测，１９９２，１１（４）：６２-６５．

［8］唐小我，曾勇，曹长修．变权组合预测模型研究［Ｊ］．预测，１９９３，１２（３）：４６-４８．

［9］ＬｕＸｕ，ＪｉａｎｇＪｉａｎ－Ｈｕｉ，ＬｉｎＷｅｉ－Ｑｉ，ｅｔａｌ．ＯｐｔｉｍｉｚｅｄＳａｍｐｌｅ－ｗｅｉｇｈｔｅｄＰａｒｔｉａｌＬｅａｓｔＳｑｕａｒｅｓ［Ｊ］．Ｔａｌａｎｔa，２００７，７１（２）：５６１-５６６.

［收稿日期］2012-01-30

［基金项目］国家自然科学基金资助项目（７０６７２１０２）。