基于虚拟变量回归与SARIMA组合模型的GDP预测

2017-01-09 02:44许金炜上海大学理学院上海200444

统计与决策 2016年24期

许金炜（上海大学理学院，上海200444）

许金炜
（上海大学理学院，上海200444）

文章根据我国1992年至2015年的GDP季度数据，建立了虚拟变量回归（DVR）模型、SARIMA模型及其组合（DVR-SARIMA）模型，并进行了比较与分析，结果发现组合（DVR-SARIMA）模型的拟合效果最好，预测性能亦是最好，且利用组合（DVR-SARIMA）模型对我国未来的季度GDP进行了预测，以期对我国未来的总体经济增长情况做出合理的分析与判断。

虚拟变量回归模型；SARIMA模型；组合模型；GDP；预测

0 引言

国内生产总值（Gross Domestic Product），简称GDP，是指按市场价格计算的一个国家（或地区）所有常住单位在一定时期内生产劳动的最终成果。GDP不仅能够在总体上度量国民产出和收入规模，也能够在整体上度量经济波动和经济周期状态，因此GDP被认为是衡量一个国家（或地区）经济状况的最重要的指标之一，同时也是政府制定经济发展战略和经济政策的重要依据。

目前，国内已经有很多学者尝试使用各种预测模型，包括时间序列分解法、线性回归模型、指数平滑法、趋势外推法、灰色预测以及时间序列模型等方法，对我国GDP进行建模分析预测，但预测精度并不算高，依旧有待改善。本文通过将虚拟回归（DVR）模型与SARIMA模型进行组合，从而更加精确地拟合了我国季度GDP数据，并且有效降低了预测误差，对我国未来的GDP数据也进行了更加精确地预测。

1 模型的概述

1．1 虚拟变量回归模型

在回归分析中，因变量不仅受到定量变量（如收入、产出、价格、成本、身高、温度等）的影响，还会受到定性变量的影响，如季节、文化程度、性别、种族、宗教和地区等因素，这些因素在某些情况下是因变量的重要影响因素，建立模型时不能忽略。量化这些因素的途径之一，就是构造一个取值为0或1的人工变量，取1表示这种因素起影响作用，取0表示这种因素不起影响作用。假定这种取值为0或1的变量被称为虚拟变量（Dummy Variable）。这种变量实质上就是一个将数据区分为相互排斥类别（如男性或女性）的工具。

引入虚拟变量后，回归方程中同时含有一般解释变量和虚拟变量，这种结构的模型便被称为虚拟变量回归模型（Dummy Variable Regression Model），在本文中简称为DVR模型。此外，需注意虚拟变量的设置原则：若定性变量有m个类别，则回归方程中只需引入m-1个虚拟变量，否则就会陷入“虚拟变量陷阱”，即多重共线性。

由于许多基于季度或月度数据的经济时间序列都表现出季节特征（规则地摆动），因此在建立模型时，需要考虑季节因素变动的影响，而虚拟变量法便是其中一种研究方法，本文在应用DVR模型研究我国季度GDP时间序列时，根据虚拟变量设置原则，需引入如下三个虚拟变量：

则可建立如下DVR模型：

1．2 SARIMA模型

ARMA模型是一种常用的随机时序模型，是时间序列模型中的经典模型，由美国统计学家Box和英国统计学家Jenkins创立，亦称B－J方法。ARMA模型共有三种基本类型：自回归模型、移动平均模型以及自回归移动平均模型，这三种模型都是平稳随机过程，如果对于一个时间序列，经过差分之后可以变换成一个平稳的ARMA过程，那么该过程则称为单整自回归移动平均过程。

（1）自回归（AR）模型

如果时间序列{Yt}是它的前期值和随机项的线性函数，则可表示为：

称该时间序列{Yt}为自回归序列，式（2）为p阶自回归模型，记为AR(p)。c为常数项，实参数θ1，θ2，…，θp称为自回归系数，是AR(p)模型的待估参数；随机项εt是相互独立的白噪声序列，且服从正态分布N(0，σε2)，且随机项εt与滞后变量yt-1，yt-2，…，yt-p不相关。

记Bk为k步滞后算子，即Bkyt=yt-k，则式（2）可表示为：

令θ(B)=1-θ1B-θ2B2-…θpBp，则式（2）可简写为：θ(B)yt=c+εt。

（2）移动平均（MA）模型

如果时间序列{Yt}是它的当前和前期的随机误差项的线性函数，则可表示为：

称该时间序列{Yt}为移动平均序列，式（3）为q阶移动平均模型，记为MA(q)。c为常数项，实参数ϕ1，ϕ2，…，ϕq称为移动平均系数，是MA(q)模型的待估参数。

引入滞后算子，并令ϕ(B)=1-ϕ1B-ϕ2B2-…ϕqBq，则式（3）可简写为：yt=c+ϕ(B)εt。

（3）自回归移动平均（ARMA）模型

如果时间序列{Yt}是它的当前和前期的随机误差项以及前期值的线性函数，则可表示为：

称该时间序列{Yt}为自回归移动平均序列，式（4）为（p，q）阶的自回归移动平均模型，记为ARMA(p，q)。c为常数项，实参数θ1，θ2，…，θp称为自回归系数，ϕ1，ϕ2，…，ϕq称为移动平均系数，都是ARMA(p，q)模型的待估参数。

引入滞后算子，则式（4）可简记为：

（4）单整自回归移动平均（ARIMA）模型

如果时间序列{Yt}的d阶差分 Xt=(1-B)dYt是一个平稳的ARMA(p，q)过程，其中d≥1是整数，则有：

称该时间序列{Yt}为单整自回归移动平均序列，即式（5）为（p，d，q）阶的单整自回归移动平均模型，记为ARIMA(p，d，q)。

（5）季节单整自回归移动平均（SARIMA）模型

在一些时间序列中，存在明显的周期性变化，这种周期是由于季节性变化（包括季度、月度等变化）或者其他一些固有因素引起的，这类序列就称为季节性时间序列，季节时间序列模型（Seasonal ARIMA Model），或者称为乘积季节模型（Multiplicative Seasonal Model），便是处理这类时间序列的模型之一，记为SARIMA。

设季节序列的变化周期为s，则一次季节差分可以表示为：(1 -Bs)yt=yt-yt-s。对于非平稳时间序列，有时需要进行D阶季节差分之后才能转换为平稳序列。记P表示季节自回归最大滞后期，Q表示季节移动平均最大滞后期，于是SARIMA模型的一般表达式可定义如下：

称式（6）为(p，d，q)×(P，D，Q)阶的季节时间序列模型或者乘积季节模型。如果含有时间趋势项，则可以定义如下模型：

1．3 组合模型

结合模型式（1）与模型式（7），则可定义DVR-SARIMA组合模型，其一般表达式如下：

称式（8）为(p，d，q)×(P，D，Q)阶的虚拟变量季节时间序列组合模型或者虚拟变量乘积季节组合模型。

1．4 ADF单位根检验

考虑如下回归方程：

其中，εt为纯粹的白噪声误差项，Δyt=yt-yt-1，Δyt-1=yt-1-yt-2，以此类推。常数项c表示漂移项，t表示时间或趋势变量。

ADF单位根检验的原假设（含有单位根）为H0:δ=0，备择假设（不含单位根）为H1:δ＜0。对于式（9），如果拒绝原假设，则认为原时间序列{Yt}具有平稳性或退势平稳性；如果不能拒绝原假设，则依次剔除时间或趋势变量项、漂移项继续进行ADF单位根检验，直至拒绝原假设，若一直不能拒绝原假设，则说明原时间序列{Yt}是一个单位根序列，建立模型前还需做进一步的平稳性处理。

1．5 模型选择准则

（1）R2准则

一个回归模型拟合优度的度量指标之一就是R2，定义为：

其中，TSS表示离差平方和，反映因变量波动的大小；ESS表示回归平方和，反映由模型解释变量计算出来的拟合值的波动；RSS表示残差平方和，反映因变量总的波动中不能通过回归模型解释的部分。

但是用R2作为衡量标准存在一个问题，即如果将某个对因变量影响非常小的变量添加到模型中后，R2并不会变小。如果仅仅依据R2增加就将这个变量包含于模型中，将是不合理的，因为新增变量降低了自由度。于是可用调整后的R2进行度量，记为Rˉ2，定义为：

其中，n表示样本量，k表示解释变量个数，这样就可以在一定程度上避免将影响微弱的变量添加到模型中，显然，

（2）赤池信息准则（AIC）

在AIC准则中，进一步对模型中增加自变量进行了惩罚，其定义为：

其中，2(k +1)/n为惩罚因子。

（3）施瓦茨信息准则（SC）

与AIC准则思想类似，SC准则的定义为：

在进行模型选择时，通常Rˉ2的值越大越好，而AIC与SC的值则越小越好。

2 模型的建立与分析

2．1 数据来源

本文所使用的我国1992年至2015年的GDP季度数据（单位：亿元）均来自于国家统计局网站。

2．2 模型建立

2.2.1 ADF单位根检验

根据我国1992年至2015年的GDP季度数据，可以绘制原GDP季度序列折线图以及取自然对数后的LOG(GDP)季度序列折线图，分别如图1和图2所示：

图1 GDP季度序列图

图2 LOG(GDP)季度序列图

从图1和图2可以看出，无论是原GDP季度序列，还是LOG(GDP)季度序列，随着时间的推移，它们均有明显的上升趋势，但LOG(GDP)季度序列与时间的线性关系更强。

下面分别对这两个序列进行ADF单位根检验，其检验结果如表1所示：

表1 ADF单位根检验

从ADF单位根的检验结果可以看出，只有含漂移项与时间趋势项的LOG(GDP)序列通过了ADF单位根检验，于是便可以根据LOG(GDP)序列建立带有漂移项与时间趋势项的模型。

2.2.2 模型的参数估计

记t=1表示1992年第一季度，t=2表示1992年第二季度，以此类推，t=94表示2015年第二季度，则根据式（1）、式（7）与式（8）模型的具体表达式，用EViews软件对其进行参数估计，所得具体模型的表达式如下：

DVR模型：

SARIMA模型：

DVR-SARIMA模型：

2．3 模型分析

首先分析模型的基本统计性质，如表2所示：

表2 模型的基本统计性质

（2）根据模型选择准则：AIC与SC准则，DVR-SARIMA模型的AIC与SC值明显小于DVR模型和SARIMA模型的AIC与SC值；而且DVR-SARIMA模型的残差平方和也是最小的。

（3）从模型的异方差性来看，根据White检验的P值可以看出SARIMA模型的随机误差项序列存在异方差，这将会影响模型的预测精度。而DVR模型与DVR-SARIMA模型均通过White检验，可认为随机误差项序列不存在异方差性。

再来分析模型的预测性能，如表3所示：均相对误差均是最小的，而且DVR-SARIMA模型的Theil系数的值更接近于0，说明其单位均方根误差最小，预测值更接近于实际值，模型的拟合效果最好。此外，偏差比率表示预测均值与实际均值的偏离程度，方差比率表示预测方差与实际方差的偏离程度，协方差比率衡量非系统误差，三者和为1，根据表3分析比较，DVR-SARIMA模型的偏差比率与方差比率最小，协方差比率最大，说明DVR-SARIMA模型的预测值与实际值更接近，误差更小。

表3 模型预测性能

2．4 模型预测

本文通过横向比较各模型本身的预测性能，确定预测区间为2012年第三季度至2020年第四季度，这也避免了2008年金融危机对未来季度GDP预测序列的持续影响，同时样本内预测区间共3年，12个季度，即2012年第三季度至2015年第二季度，可用于比较模型之间的预测误差。上述3个模型的预测结果如表4所示：

表4 模型的预测结果

从DVR-SARIMA模型的预测结果来看，尽管我国近几年经济增速放缓，但在这样一个全球化、信息化日益增强的大数据时代，随着我国资源配置和经济发展方式的转变，我国的经济在未来第十三个五年规划中，将会得到进一步的提升，至2020年，我国GDP总量超过100万亿元将不再是梦想，此外，如果未来五年不发生经济危机或者经济振荡，经济能平稳发展，至2020年，我国GDP总量甚至有可能突破150万亿元。

3 总结

本文主要对我国的季度GDP预测做了更精确地研究，从而为我国的经济决策提供一定的参考价值。本文首先对实证分析所涉及的模型进行了概述，包括虚拟变量回归（DVR）模型、季节单整自回归移动平均（SARIMA）模型以及本文提出的虚拟变量季节时间序列组合（DVR-SARIMA）模型；然后根据我国实际GDP季度数据进行建模分析，并从模型的基本统计性质和模型的预测性能两方面对上述三种模型进行了具体比较与分析，结果发现，无论是基于模型的基本统计性质，还是模型的预测性能，DVR-SARIMA模型都表现出了极强的优越性，最后，本文根据DVR-SARIMA模型对我国未来的GDP进行了预测，对我国未来的经济增长形势做了简要分析：在我国第十三个五年规划中，我国经济将会持续增长，此外，随着我国经济转型的成熟化，至2020年，我国GDP总量将会突破100万亿元，甚至会有更大的突破。

[1]徐国祥.统计预测与决策（第四版）[M].上海：上海财经大学出版社，2012.

[2]Gujarati D C.Basic Econometrics[M].New York：Irwin McGraw Hill，2008.

[3]高铁梅.计量经济分析方法与建模：EViews应用及实例（第二版）[M].北京：清华大学出版社，2009.

[4]张晓峒.EViews使用指南与案例[M].北京：机械工业出版社，2007.

[5]张晓峒.应用数量经济学[M].北京：机械工业出版社，2009.

[6]范剑青，姚琦伟.非线性时间序列[M].北京：高等教育出版社，2005.

[7]赵喜仓，周作杰.基于SARIMA模型的我国季度GDP时间序列分析与预测[J].统计与决策，2010，(22).

[8]赵盈.我国GDP时间序列模型的建立与实证分析[J].西安财经学院学报，2006，19(3).

（责任编辑/易永生）

F224

1002-6487（2016）24-0038-04

许金炜（1991—），男，江苏如皋人，硕士研究生，研究方向：统计学。