王丹俊 张占阳 王奉伟
摘要:基于1992-2022年GDP数据,文章分析了我国近30年经济增长及各产业分量情况,并利用时间序列模型和高斯过程进行建模预测,研究各产业在GDP总量中的占比。分析结果发现我国GDP在1992-2019年增长较为平稳,受国际复杂形势等影响,2020年第一季度GDP总量增速减缓,其中第二和第三产业受影响较大,而第一产业受影响相对较小。利用1992-2019年数据预测了2020-2022年的GDP,结果显示,二次多项式时间序列模型预测结果明显优于高斯过程模型。
关键词:GDP;经济分析;预测
一、引言
近30年来,我国经济发展迅速,GDP总量从1992年的27194.5亿元增长至2022年的1210207.0亿元。1992-2011年GDP以7.7%~14.2%的速度快速增长,随着国家经济结构调整政策的出台,2012-2019年期间GDP以6.1%~7.9%的速度平稳增长。近三年来,学者们深入全面地研究评估了国际复杂形势对全国及区域GDP的影响。例如,韩爱华等分析了我国经济韧性测度及相关影响因素,发现各省份存在差异。朱启荣等研究分析了国际复杂形势等因素对我国经济产生的冲击。李守玺和昝文娇使用我国的季度GDP数据定量研究预测了我国GDP总量。此外诸多研究还探究了疫情等因素对世界各国GDP的影响路径,并对各国制定的经济刺激政策的效用进行了评估。
以上研究主要从定量或定性的角度针对不同国家或地区分析预测了GDP总量,如何优选建立适合的预测模型提高预测精度成为关键问题之一。当前主流的预测方法有多元线性回归、时间序列模型、灰色理论和高斯过程等。其中,高斯过程机器学习技术因其处理小样本和非线性数据方面的优势而被广泛应用于各个领域。鉴于各个国家或地区经济产业结构不同,因此,受疫情影响程度亦不尽相同。考虑到我国GDP数据序列呈二次曲线增长模式,本文对我国1992-2022年年度和季度GDP数据进行深入分析,通过使用1992-2019年GDP数据,利用高斯过程和二次多项式时间序列模型进行拟合,预测2020-2022年期间我国GDP数据,从年度GDP总量和第一、二和三产业层面预测我国GDP总量及各产业分量,探究适合的GDP预测模型。
二、研究方法
(一)基于二次多项式的时间序列预测模型
由图1中可以发现,我国年度GDP序列呈现二次曲线特性,因此本文利用二次多项式模型对1992-2019年GDP序列建模,以预测2020-2022年GDP数值。具体如下:
y=at2+bt+c(1)
式中a,b,c为模型系数。
(二)高斯过程预测模型
高斯过程机器学习技术,在处理非线性小样本数据方面具有明显优势,由协方差和均值函数定义。首先回归模型可表示如下:
y=f(x)+ε(2)
其中y表示观测值,x为输入向量,噪声ε~N(0,σ )。根据贝叶斯概率公式可推导出预测值y′的期望和方差。
μ =C(x′,X)[C(X,X)+σ In]-1y(3)
σ =C(x′,x′)-C(x′,X)[C(X,X)+σ In]-1C(X,x′)(4)
高斯过程机器学习方法的协方差函数表示如下:
C(xi,xj)=σ exp[- (xi,xj)TM(xi,xj)]+σ σij(5)
其中σij为克洛内克尔符号,l为方差尺度,M=diag(l-2)为超参数对角阵,σ 为协方差函数信号方差,利用对数函数极大似然法解算超参数θ={M,σ ,σ },具体原理见参考文献。
三、实验分析
(一)我国年度GDP数据分析
本文采用的数据为1992-2022年中国GDP年度和季度数据,共31年,总计124个季度数据,数据来自国家统计局。年度GDP序列总体上呈现稳定上升的趋势,1992-2008年上升幅度较小,而自2008年之后增速明显。如图1所示,1992-2012年,GDP总量由第二产业和第三产业主导,第一产业占比最少。2013年以后,我国GDP逐渐形成以第三产业为首,第二产业为辅,第一产业为补的新型经济结构形式,随着经济结构的进一步优化,到2022年,第一、二、三产业分别占年度GDP總量的7.30%、39.92%和52.78%。从图1可以看出,2020年GDP总量增速减缓,第二产业(制造业等)和第三产业(服务业等)GDP分量增速减缓,由国际复杂形势等因素导致,而第一产业(农林牧渔业等)保持稳定。图2给出了1992-2022年中国季度GDP总量和各产业分量对比情况。从季度时间尺度层面可以看出,2020年第一季度GDP出现了短期下滑,但随着我国政府采取高效的疫情防控措施,其在第三季度开始基本恢复到历史趋势水平。
(二)我国年度GDP数据预测
综合考虑现有GDP预测方法和GDP数据序列特性,本文选取二次多项式时间序列模型和高斯过程两种预测方法对我国年度GDP总量进行拟合并比较分析(其中高斯过程算法均值函数采用MeanZero,协方差函数选择covPoly核函数),以{X=(ti,Xi),i=1992,1993,…,2019}为高斯过程GP训练样本,{X=(ti,Xi),i=2020,2021,2022}作为检验样本。同时利用两种预测模型来预测2020、2021和2022年的GDP总量,对相应的实际值进行验证,并计算MAE=(∑|e|)/n和MAPE=(∑(|e|/y))/n作为评价指标,e为残差值,n为数据个数。
具体建模结果见表1,结果发现高斯过程预测模型的拟合精度与二次多项式时间序列模型的拟合精度较为接近,其拟合平均绝对百分比误差为11.60%和14.56%。对于2020-2022年我国GDP的预测,二次多项式预测模型的预测平均绝对误差为26788.8亿元,而平均绝对百分比误差仅为2.50%;明显小于高斯过程模型的51931.6亿元和4.71%。综上所述,与高斯过程预测模型相比,基于二次多项式的时间序列模型更适合用于预测我国未来GDP总量變化。由此可以得出,与高斯过程相比,基于时间序列预测模型预测的2020-2022年我国GDP总量更接近于实际数据,平均绝对误差和相对误差分别为26788.8亿元和2.50%。特别说明,李守玺等(2022)预测的2020年第一季度至2022年第四季度GDP预测值换算成年度GDP,预测结果明显差于本文结果,具体相关结果见表1。
(三)我国不同产业GDP分量预测
在前述分析基础上,本小节将分别对第一、二和三产业GDP序列进行分析预测。考虑到二次多项式时间序列模型在GDP预测上的优越性和适用性,下文仅采用时间序列模型对三个产业分量进行预测。各产业GDP分量拟合和预测值与实际值对比情况,相关数据统计见表2。结果显示,从长期趋势层面来看,疫情等国际复杂形势对于第一产业影响较小;第二产业在2020年虽受到一定影响,但在2021年和2022年已恢复到历史趋势预测水平。
四、结语
本文深入分析了我国1992-2022年年度和季度GDP数据,利用高斯过程和时间序列模型两种预测算法从长期趋势角度预测了我国GDP总量增长,结果发现二次多项式拟合和预测GDP的精度较高,明显优于高斯过程和现有相关研究文献。此外,从各产业预测结果可以断定,2022年第一和第二产业已恢复到历史GDP变化趋势预测水平。
参考文献:
[1]裴凯欣,杨晓丹.新冠疫情对我国经济影响的研究[J].产业与科技论坛,2021,20(18):52-54.
[2]陈勇鸣.新冠肺炎疫情对上海经济的影响及应对思考[J].上海企业,2022(06):76-82.
[3]邓阳,董洪光.新冠疫情对江苏省经济发展的影响研究[J].中国商论,2022(24):18-20.
[4]韩爱华,李梦莲,高子桓.疫情冲击下经济韧性测度及影响因素分析[J].统计与决策,2021,37(18):85-89.
[5]朱启荣,孙明松,杨伟东.新冠肺炎疫情对我国经济影响的评估:基于GTAP模型的实证[J].统计与决策,2020,36(21):91-96.
[6]李守玺,昝文娇.新冠肺炎疫情对我国GDP影响的实证分析[J].河北企业,2022(05):24-26.
[7]赵晨曦.疫情对各国GDP的冲击路径分析及经济刺激政策效用评估[J].商展经济,2022(06):31-33.
[8]苏国韶.基于高斯过程机器学习的冲击地压危险性预测[J].辽宁工程技术大学学报:自然科学报,2009,28(5):762-765.
[9]赵娴,户天舒.新冠肺炎疫情对我国第三产业影响实证分析[J].中国市场,2021(14):78-79.
[10]王建丰,王伟丽.后疫情时期新冠肺炎疫情对我国经济影响的量化模拟分析[J].工业技术经济,2022,41(01):86-93.
(作者单位:王丹俊,上海财经大学金融学院;张占阳,内蒙古呼和浩特供电分公司科技城园区供电公司;王奉伟,同济大学测绘与地理信息学院。王奉伟为通信作者)