基于ARMA模型的河川年径流量预测

2011-03-12 06:25顾海燕徐文科
关键词:差分均值建模

王 勇,顾海燕,徐文科

(1.哈尔滨商业大学基础学院,哈尔滨150028;2.东北林业大学理学院,哈尔滨150040)

径流过程是受天气、气候、地形等自然因素和流域开发程度、当地经济文化水平等人为因素影响的复杂的动力系统,含有多种不确定成分,使得传统方法构筑其模型十分困难,尤其针对年径流量这种较长期的预报,模型的建立更为困难.所以对年径流运动规律的认识,不仅需要传统的理论分析工具,而且有必要借助新技术、新理论,从不同的角度,以不同的方法对年径流运动规律进行深人剖析,以期找到准确刻画年径流运动系统的工具、提高年径流量的预测精度.

时间序列分析是概率统计学的一个重要组成部分,通过概率统计的方法分析随时间变化的随机数据序列,包括对随机数据序列的建模、参数估计及最佳预测和控制等内容.时间序列分析在经济领域中的研究和应用一直很活跃,并扩展到气象、金融、水利、交通、信息、农业和工业等领域.近年来,随着计算技术和信号处理技术的迅速发展,一方面,时间序列分析的理论和方法更趋完善,特别是在参数估计算法、模型结构识别与定阶方法以及智能计算技术的融合大方面都取得了丰硕的成果.另一方面,时间序列分析的应用范围日益广泛,并且应用成果都处在一个较高水平层面上.本文就是利用时间序列分析方法中一种重要的模型(自回归移动平均模型)对年径流量进行预测.

1 自回归移动平均模型

时间序列分析方法是伯克斯-詹金斯(Box-Jenkins)1970年提出的[1-4].这种建模方法不考虑以经济理论为依据的解释变量的作用,而是依据变量本身的变化规律,利用外推机制描述时间序列的变化.建立时间序列模型的前提是时间序列必须具有平稳性.基本模型主要有3种:自回归模型AR (p);移动平均模型MA(q)以及自回归移动平均模型ARMA(n,m).这里主要介绍自回归移动平均模型ARMA(n,m).

定义1:一个系统,如果它在时刻t的响应Xt不仅与其以前时刻的自身值有关,而且还与其以前时刻进入系统的扰动存在一定的依存关系,那么,这个系统就是自回归移动平均系统,相应的模型记做ARMA[5].

ARMA(n,m)可表示为Xt-φiXt-1-…-φnXt-n=at-θ1at-1-…-θjat-m.

其中φi,i=1,…,n为自回归系数,θj,j=1,…,m为移动平均系数,at为随机干扰项,且at~N(0,σ2a).

2 ARMA(n,m)模型的自协方差函数和自相关函数及特征

构成时间序列的每个序列值X1,…,Xn之间的简单相关关系称为自相关.自相关程度由自相关系数ρk度量,表示时间系列中相隔k期的观测值之间的相关程度.

ARMA(n,m)模型的自相关系数ρk可由下式求出:

偏自相关是指对于时间序列{Xt},在给定Xt-1,Xt-2,…,Xt-k+1的条件下,Xt与Xt-k之间的条件相关关系.其相关程度用偏自相关系数φkk度量,且φkk∈[-1,1].可用Yule-Wolker方程获得,如下:

可以通过零均值平稳时间序列的自相关函数和偏自相关函数的统计特性初步判断序列的阶数.见表1.

3 平稳化和零均值化

大多数的时间序列是非平稳的,在建模之前要对序列进行平稳化处理,一般采用差分方程的方法.看序列有什么样的趋势性,如存在线性趋势就进行一阶差分,如存在二次趋势就进行二阶差分,依此类推;要是有周期性就采用季节差分.如果自回归部分的特征根在单位圆内且移动平均部分的特征根在单位圆内,说明序列既是平稳的,也是可逆的,这样模型设定才合理,可以进行下一步的计算.

表1 零均值平稳时间序列的自相关函数和偏自相关函数的统计特性

我们一般假定所讨论的序列是零均值的,所以在建模前要判断是否为零均值过程.如果样本均值在0±2S.E.[X-]范围内可以认为是零均值过程其中为观测值个数.但是,如果不在此范围内,那么要进行简单的处理,用样本均值作为序列的估计值,建模前用样本数据减去均值,然后对所得的零均值过程建模.

4 实例分析

本文选用松花江流域哈尔滨站年径流量进行分析预测.

选取某年哈尔滨站年径流量.在处理数据过程中,使用了7步来对数据进行分析预测:

第1步:数据输入.

第2步:判断平稳性

使用Eview对数据附表进行分析,得出时间序列的自相关和偏相关数值及分析图1可以明显看出序列的自相关系数没有很快趋于0,说明序列{Xt}是非平稳的.因此我们对数据进行处理,为了减弱数据的震荡,首先对数据取对数,再零均值化,然后差分,将数据转变为平稳序列,并做其(偏)自相关图1.

图1 不稳定序列示意图

第3步:模型定阶

根据两次一阶差分稳定后的序列自相关及偏自相关图2可见,序列的自相关与偏自相关系数很快地落入随机区间,故序列已变为平稳的了,由此建立ARMA模型,可能的模型有ARMA(3,1),ARMA(3,2),ARMA(4,1),ARMA(4,3)各模型检验结果如表1所示,就此选出最好的一个模型.

图2 稳定序列示意图

经计算,4个模型都满足ARMA过程的平稳条件及可逆条件,模型设定合理.另外,残差序列白噪声检验的相伴概率(P-Q)显示,各模型残差都满足独立性假设,模型拟合不错.比较表2中各个模型的检验结果.与前两个模型相比,第一个模型的AIC和SC值较小,调整后的样本决定系数(Adjusted R2)是最大的,优于后三个模型.预测模型的选择应力求简洁、有效,因而选择第一个即ARMA (3,1)模型比较合适.

表2 各模型检验结果

第4步:模型参数估计

根据前面内容,通过Eviews软件直接得出.

表3 模型系数

第5步:建立模型

首先对数据取对数,再零均值化,然后进行两次一阶差分的数据建立ARMA(3,1)模型.其表达式为:

第6步:模型检验

Eviews软件提供了对残差进行检验的方法,使用软件得出模型残差检验图3.图3最后2列采用检验得到的结果,包括Q统计量和检验的相伴概率.从K=10一行找到检验统计量Q为4.381 5,从Prob列读出拒绝假设所犯第一类错误概率为0.928,数据表明,残差序列相互独立即白噪声的概率很大,所以不能拒绝序列相互独立的假设,检验通过.

图3 模型x2检验

第7步:结果预测,见表4,图4.

表4 部分预测值与实际观测值对照表

图4 预测值与实际观测值对比图

通过模型的建立,参数估计,模型检验三个步骤,使我们已经得到一个完整的模型,但预测结果并不理想.但我们在建立上面4个模型的时候发现ARMA(3,1),ARMA(3,2)两模型的预测结果很像,因此我们用ARMA(3,2)模型产生的误差作为ARMA(3,1)模型的随机项,其表达式为:

其中:at为ARMA(3,2)模型所产生的误差.表3给出了预测值与真实值的对照,从表中我们看到预测值与实际观测值很接近,经计算的平均绝对百分误差MAPE值为2.68,远低于10,说明预测精度很高.其中

5 结语

在对松花江哈尔滨站年径流量建模和预测过程中,对数据使用了零均值化和差分,将存在趋势性的数据转化为平稳数据,分别使用模型自相关函数和偏相关函数对数据平稳性检验,建立了ARMA (n,m)模型,通过模型自相关函数和偏相关函数拖尾和截尾性进行模型定阶;Y-W方程对模型进行参数估计;使用χ2检验对模型进行检验,得到完整ARMA(n,m)模型,并最终作出预测.

通过检验结果可以看出数据预测结果基本令人满意,表4预测值与实际观测值对照表,其相对误差在10%以内,平均绝对百分误差MAPE值为2.68,远低于10,说明预测精度很高,说明此模型建立的效果是比较好的.在实际生活中,由于自然条件,人为因素的影响,实际观测值和预测值不可能完全相同.

[1] AN H Z.Research Announcements General ARMA Models[J].Advances in Mathematics.1986,15(2):215-217.

[2] DONALD B P,ANDREW T W.Wavelet Methods for Time Series Analysis[M].Beijing:Machine Press,2004:88-112.

[3] [美]S·M·潘迪特.时间序列及系统分析与应用[M].北京:机械工业出版社,1973,97-103.

[4] BLANCHARD O,QUAN D.The Dynamic Effects of Aggregate Demand and Supply Disturbances[J].Amesican Economic Review,1989,79:655-673.

猜你喜欢
差分均值建模
数列与差分
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
关于均值有界变差函数的重要不等式
基于差分隐私的大数据隐私保护
相对差分单项测距△DOR
关于广义Dedekind和与Kloosterman和的混合均值