陈满丽 张慧娟 焦楠楠 李虎军 张岩
摘 要:国内生产总值(GDP)是衡量国家经济发展水平的重要指标,准确预测GDP对政府进行有效宏观调控意义重大。文章对我国1978-2022年国内生产总值(GDP)进行分析,采用MATLAB软件,通过数据平稳性检验、模型参数的识别、模型检验等过程确定了ARIMA(4,2,2)模型。预测得到我国2023-2026年GDP分别为得到1280449.47 亿元,1361738.1621亿元,1433275.0123亿元,1502150.4505亿元。
关键词:GDP;MATLAB;ARIMA模型
中图分类号:F222 文献标识码:A 文章编号:1005-6432(2024)09-0000-00
引言
GDP是反映一个国家经济发展水平的重要指标,其对于国家宏观经济政策制定、产业结构调整和国际贸易等方面都有着较为重要的影响。因此,对GDP的准确预测和分析一直是经济学领域的研究热点[1]。基于时间序列模型的GDP预测方法,由于其简单可行、高精度的优点,受到了广泛关注。近年来,众多学者对我国历年GDP数据利用时间序列模型进行分析预测。如2013年李娜[2]运用EVIEWS6.0软件建立ARIMA模型,進而运用多重筛选机制,确定了最优ARIMA(6,1,3)模型,对2009-2011年的GDP进行预测。2018年邵明吉[3]运用Box-Jenkins方法建立ARIMA模型,对我国1978-2015年国内生产总值进行了分析,结果表明预测相对误差较小,预测精度较高。2020年杜洁[4]采用SAS软件建立ARIMAX模型对我国GDP进行预测研究,2017年和2018年预测相对误差分别为0.07%和3.92%,均不超过5%,预测较为精确。
突如其来的新冠疫情,改变了这个预测模型的走势。因此,进一步研究疫后中国经济走向和探索中国未来GDP预测模型具有重要意义[5]。目前,大多数学者研究时间序列采用的软件多为SAS、Eviews、R语言、SPSS等,而MATLAB作为一种强大的数学计算平台和程序设计语言,具备语言简洁、可视化强等优点,却很少有学者研究。因此,文章将基于MATLAB平台构建ARIMA模型,以我国GDP的时间序列数据为样本,对我国GDP未来的发展趋势进行分析和预测。
1 ARIMA模型
ARIMA(自回归差分移动平均)模型是由美国统计学家G.E.P.Box和G.M.Jenkins于1970年首次提出的一种经典的时间序列分析和预测模型。经过多年的发展,ARIMA模型已经成为经济学中时间序列预测的一种主流方法,其具有精度高、可靠性强等特点。它由自回归(AR)、差分(I)和移动平均(MA)三部分组成。AR部分描述了当前值与历史值之间的关系,差分部分对序列进行差分操作以实现平稳性,移动平均部分引入误差项来捕捉数据的随机波动。该模型可以在经济、金融、气象、地质、生物等领域中用于时间序列分析和预测,它的优点在于能够更好地描述数据的特征和规律,提高预测的准确性。
2 建立ARIMA模型
2.1 数据导入
文章数据来源于《中国统计年鉴2023》,得到1978-2022年的国内生产总值GDP,如表1所示。将数据分为训练组(1978-2018)和测试组(2019-2022)。前者用于建立模型,后者用于检验模型预测效果。
利用函数xlsread读入数据,并用plot函数画出时间序列图
MATLAB语法:xlsread('国家GDP(1978-2018).xlsx');
plot(time,GDP);
2.2 检验序列的平稳性
观察时间序列的原始数据,包括其波动性、趋势性和季节性等。若时间序列具有这些特征,则需要对其进行预处理,例如差分操作、对数变换等使数据平稳,便于后续建模分析。从图1可看出随着年份的增长,GDP呈指数递增。在MATLAB中,用函数ADF检验序列的平稳性,主要通过检验数据是否有单位根判断序列是否平稳。
MATLAB语法:[h,pValue,stat,cValue] = adftest(GDP)
若h=1,说明序列平稳,若h=0,说明序列不平稳,需对数据进行平稳化处理。若pValue<0.05,时间序列平稳。若stat 输出结果为:h=0;(h=0→有单位根→序列不平稳) pValue=0.9990;(p>0.05→有单位根→序列不平稳) stat=18.8308;(stat>cValue→有单位根→序列不平稳) cValue=-1.9475; 从图1折线图和返回结果看,该序列都是不平稳的。 2.3 序列平稳化 利用函数diff对数据进行一阶差分操作 MATLAB语法:GDPd1=diff(GDP,1) [h,pValue,stat,cValue]=adftest(GDPd1); 输出结果为:h=0;pValue=0.6614;stat=0.0425;cValue=-1.9476; 从图2可看出一阶差分结果仍然具有上升趋势,序列不平稳,与平稳性检验输出结果契合。 利用函数diff对数据进行二阶差分操作 输出结果为:h=1;pValue=1.0000e-03;stat=-6.0900;cValue=-1.9478;
从图3可看出,数据在0附近随机波动,表现为平稳序列,与平稳性检验输出结果契合。
2.4 确定模型参数
ARIMA模型参数主要有p、d、q这三个,其中参数d的估计值就是差分的阶数。因此,这里取d=2。对于参数p,q可以利用差分后平稳序列的自相关函数(ACF)和偏自相关函数(PACF)的统计特性选择合适的阶数,也可以利用AIC准则(赤池信息量准则)或BIC准则(贝叶斯信息准则)来确定最优的模型阶数。其中AIC准则偏向从预测的角度确定最优的模型阶数,BIC准则偏向于拟合的角度,选择一个对现有数据拟合最好的模型[6]。因此,这里依据AIC准则确定模型的阶数。取p、q=1,2,3,4,5,利用MATLAB中的aicbic函数,计算不同模型的AIC值。AIC值越小,代表模型越好。
MATLAB语法:[aic,~]=aicbic(logL,numParam,length(GDP));
输出aic矩阵为:
最小值为856.0992,所以选择p=4,q=2,所以最终选择ARIMA(4,2,2)对序列进行建模分析。
2.5 建立并检验ARIMA模型
为了确保模型的阶数为最优,需要对ARIMA(4,2,2)模型进行残差检验。如果残差是一段白噪声信号,也就说明确定的模型为最优模型。在MATLAB中利用函数arima建立模型,estimate函数确定模型中的移动平均系数和自回归系数,infer函数计算残差。
MATLAB 语法: best_mdl=arima(4,2,2);
EstMdl=estimate(best_mdl,GDP);
Residuals=infer(EstMdl,GDP);
对残差进行标准化处理后,画出残差直方图、QQ图如图4-5所示。理想的残差直方图接近正态分布,QQ图中蓝点应该靠近红线。显然,残差检验结果为白噪声,确定ARIMA(4,2,2)模型为最优模型。进一步运用函数 lbqtest 对残差序列进行 Ljung-Box Q 检验(相关性检验)。
MATLAB 语法:[h,pvalue] = lbqtest(Residuals);
输出结果h=0,pvalue=0.99717说明残差序列是不相关的白噪声序列。
2.6 预测分析
通过建立的ARIMA模型,进行时间序列的预测,利用函数forecast对2019-2022年的GDP进行预测。预测值的趋势与实际值的趋势保持一致,ARIMA(4,2,2)模型平均预测误差为1.82%,预测精度较高。利用此模型对我国2023-2026年GDP进行预测,得到2023年GDP为1280449.47 亿元,2024年GDP为1361738.1621亿元,2025年GDP为1433275.0123亿元,2026年GDP为1502150.4505亿元。
MATLAB语法如下:
3 结论
文章通过对我国1978-2022年的国内生产总值GDP进行分析,平稳化处理,模型定阶等过程确定了ARIMA(4,2,2)模型。一方面经过模型的残差检验过程,如残差直方图,QQ图,相关性检验等都表明残差为白噪声;另一方面经过实证分析,利用ARIMA(4,2,2)模型对我国2019-2022年的GDP进行预测,平均预测误差为1.82%,预测精度较高。残差检验结果和实证分析结果都表明ARIMA(4,2,2)模型为最优模型。因此,利用ARIMA(4,2,2)模型对我国2023-2026年的GDP进行预测,预测结果符合我国GDP的增长趋势,2022年和2023年GDP增长变缓,可能是受疫情影响,处于恢复期。本研究结果对于政府进行制定有效宏观调控政策具有重大的参考价值。在未来的研究中,将进一步探索和优化ARIMA模型,使其在更多领域发挥更大的作用。
参考文献:
[1]江安.组合预测建模方法在GDP数据预测中的应用[J].红河学院学报,2021,19(6): 128-131.
[2]李娜,薛俊强.基于最优ARIMA模型的我国GDP增长预测[J].统计与决策,2013(9): 23-26.
[3]邵明吉,任哲勖,赵周慧等. ARIMA模型在中国GDP预测中的应用[J].价值工程,2018, 37(9):205-207.
[4]杜洁,高珊,金欣雪.基于ARIMAX模型的我国GDP预测分析[J].阜阳师范学院学报(自然科学版), 2020,37(1):1-5.
[5]张正华,段树乔. 疫后中国经济走向及未来GDP预测[J].当代经济,2023,40(6):10-17.
[6]曾志崧. 基于BIC准则的基桩声波透射法管距修正研究[J].福建建筑, 2022(11):61- 64.
[基金项目]甘肃省大学生创新创业训练计划项目(项目编号:S202211562017);兰州文理学院校级科研项目(项目编号:2020QNRC10)。
[作者简介]陈满丽(1994—),女,甘肃兰州人,碩士,讲师,研究方向:进化算法、时间序列预测;张慧娟(1991—),女,甘肃兰州人,硕士,讲师,研究方向:通信工程、序列预测;焦楠楠(2001—),男,甘肃庆阳人,本科,研究方向:广播电视工程;李虎军(2002—),男,甘肃庆阳人,本科,研究方向:广播电视工程;张岩(2001—),男,甘肃平凉人,本科,研究方向:广播电视工程。