基于ARIMA模型的云南省第三产业发展预测

2023-12-13 01:23赵珂一ZHAOKeyi
价值工程 2023年33期
关键词:置信区间阶数第三产业

赵珂一 ZHAO Ke-yi

(昆明理工大学津桥学院,昆明 650106)

0 引言

自2013年我国制造业的产值首次被第三产业服务业超越以来,第三产业服务业逐渐替代制造业成为主导产业,并且服务业内部仍在持续深化分工,不仅成为制造业而且也成为现代化农业发展的重要支撑力量[1]。在此背景下,云南省第三产业也得到了快速发展,其中,旅游业是第三产业发展的中坚力量。从2016年开始,云南三次产业比例不断演变,第三产业占据经济半壁江山,成为推动经济增长的主要拉动力。目前,第三产业已经逐渐替代第二产业成为云南省经济发展的支柱产业,走向“三、二、一”模式,但与全国平均水平比较还有一定差距,产业结构还有待进一步调整和优化[2]。

有关第三产业发展的实证分析,有学者运用灰色关联度分析,发现居民总消费水平和就业人员劳动报酬的增长对第三产业产值影响是最大的[3]。还有学者运用ARIMA-BP神经网络组合模型预测了我国旅游业在疫情过后的短期发展趋势[4]。另一些学者运用ARIMA模型对山东[5]和甘肃省[6]的GDP进行了预测。本文采用云南省1991年到2022年的第三产业(服务业)产值数据,通过构建ARIMA模型来对第三产业(服务业)产值的未来增长趋势进行预测。

1 云南省第三产业发展概况

除受疫情影响的几年,云南省第三产业产值增速放缓外,其他年份都在正常提升,如图1所示。受政策的引导与支持,如图2所示,从2016年开始,除受疫情影响的2021年为50%外,第三产业在GDP中的占比都超过了50%。而从图2中,云南省旅游业产值在第三产业产值的占比变化中,可以看出旅游业对云南省第三产业发展贡献较大,尤其在2019,达到91%,之后年份也都在50%以上。说明云南省第三产业的发展较为依赖旅游业。

图1 云南省GDP与第三产业产值变化情况(1991-2022)

图2 第三产业与旅游业占比变化

近年来,为了进一步提高第三产业中生活性服务业的品质、多样化服务种类,同时,提高生产性服务业对制造业高质量发展的支撑,云南省政府提出了《云南省产业强省三年行动(2022-2024年)》。

2 云南省第三产业发展的实证分析

2.1 ARIMA模型简述

自回归差分移动平均(ARIMA)模型,是差分处理后的自回归移动平均(ARMA)模型,可以被写为ARIMA(p,d,q)。其中,p代表AR(自回归)滞后阶数、d是差分阶数,q则是MA(移动平均)阶数。

等式(1)是ARIMA模型的预测公式,其中,Yd(t)代表d阶差分后的序列,c是常数项,Φ1,Φ2…Φp是自回归项的系数,μ(t)是时间t下的误差项,θ1,θ2…θq是移动平均项的系数。而Yd(t-1),Yd(t-2)...Yd(t-p)表示过去p个时间点的差分后观测值,用于自回归部分的计算;ε(t-1),ε(t-2)…ε(t-q)表示过去q个时间点的模型误差项,用于移动平均部分的计算[7]。

2.2 ARIMA模型分析

2.2.1 平稳性分析

由图1可知,云南省第三产业的产值三十年来呈现非线性上升趋势,是非平稳时间序列。因此,需要对观测值序列进行差分处理后,进行平稳性检验。ADF(Augmented Dickey-Fuller test)检验结果可以用来判断序列是否平稳。ADF检验的原假设是存在随机游走,不平稳,因此,只要Z(t)的检测值在1%、5%、10%的三个置信区间中都显著,就可以否定原假设。再结合p值(MacKinnon approximate p-value for Z(t))的大小,如果小于0.05,就可以确定序列是平稳序列。据此标准,如表1所示,二阶差分后的序列是平稳的。

表1 ADF检验结果

2.2.2 模型构建与参数估计

为得到模型预测所需的移动平均阶数q和自回归阶数p,需要通过分析自回归(AC)图和偏自回归(PAC)图的特征来初步确定。

如图3所示,横轴Lag表示滞后阶数,纵轴表示二阶差分后的第三产业产值序列自相关系数(Autocorrelations of D2.iii)与偏自相关系数(Partial autocorrelations of D2.iii)。阴影部分是95%的置信区间。由AC图可知,Lag3处的相关系数在置信区间之外,且小于0,而其他各滞后阶数上的相关系数取值都在置信区间内。这说明,该序列在第3个滞后时间点上与当前值之间存在较强的负相关性。同时,Lag4处的相关系数在置信区间内,且为正数,可以判断序列在Lag3处截尾。由PAC图可知,Lag3处的偏自相关系数显著偏离置信区间,这说明存在较强的负偏自相关性。而Lag2和Lag4处的偏自相关系数都在置信区间的边界上,这说明存在较弱的负偏自相关性,图形在Lag4处截尾。另外,从AC图和PAC图中的前四阶的回归系数变化上看,Lag1到Lag3之间有拖尾趋势。

图3 二阶差分后的序列自相关(AC)与偏自相关(PAC)图

由此可知,自回归阶数p和移动平均阶数q的可能取值组合(p,q)为:(1,3)、(3,1)、(2,2)(3,2)、(2,3),五种组合的预测模型。结果如表2所示。表2中,卡方分布的P值(Prob>chi2)都是非常趋近于0或者等于0的,所以,五个模型都是相对显著的。但是通过比较模型之间的AIC(Akaike Information Criterion)值和BIC(Bayesian Information Criterion)值,结合信息准则判断标准,最后得出ARIMA(2,2,2)是比较合适的模型。模型的预测等式如下,其中,^Yd(t)表示d次差分后的预测值,其他变量的定义与等式(1)相同,由表1可知,等式(2)中的d为2,代表对观测序列进行了二次差分。

由表3可知,除了常数项c的卡方分布P值大于0.05的显著标准,说明对预测结果的影响不够显著外,其他各个系数的P值都小于0.05,说明对预测结果会有显著的影响。另外,所有系数值也都处在置信区间中,初步说明该模型可用于预测云南省第三产业增长。由于软件只能直接输出2023一年的预测结果,为16684.18亿元。随后几年,则是通过预测模型公式推测得出,分别为17982.82亿元,19549.14亿元,20306.15亿元,21982.79亿元。

表3 ARIMA(2,2,2)模型系数的显著性

2.2.3 模型的拟合度检验

由图4可知,代表第三产业产值预测值的曲线(由“iii,arima(2,2,2)”表示)与代表第三产业产值真实值的曲线(由“iii”表示),在2019年之前的大多数年份里是几乎重合的。而2019年后两条曲线之间出现了小幅度的分离。反映了2020年到2021年新冠疫情这一突发事件,对云南省第三产业发展的不良影响。要确定这一随机事件会在多大程度上影响模型的预测准确性,需要对模型进行拟合度测试。

图4 ARIMA(2,2,2)模型预测曲线

通常一个拟合度较好的模型,其残差序列是平稳的白噪音序列,序列没有自相关性,并且呈现正态分布。残差序列等式如式(3)所示,其中,Residual表示残差,Y(t)表示真实观测值,表示预测值。

首先,是平稳性检验,如表4所示,ADF单位根检验中,p值为0,拒绝原假设,序列是平稳的。由于ADF检验在序列存在自相关性的情况下可能会产生虚假拒绝,所以还要用到对自相关情况更敏感的PP检验。其中,Z(rho)主要用于检验是否存在单位根;而Z(t)主要用于检验总体均值是否存在差异,是否拒绝随机游走的原假设。由表4可知,PP检验的结果也表明,序列是不存在单位根,且拒绝原假设的。综合上述两种检验方法的结论,残差序列是平稳的。

表4 残差序列的平稳性检验结果

其次,是白噪音检验(Portmanteau test for white noise)。检验结果显示,Portmanteau(Q)统计量为13.2269,P值为0.4304,大于0.05的统计显著标准,无法拒绝存在白噪声的原假设。残差序列为白噪声,说明会影响模型变化的随机因素已经被包含在了残差序列中,模型本身不存在较大的预测误差。

再次,是自相关分析,如图5所示,纵轴(Autocorrelation of Residual)为残差的自相关系数,横轴(Lag)为滞后阶数,所有滞后阶数上的自相关系数都在95%的置信区间内,且距离边界较远,不显著。这说明残差序列是随机和无自相关的,结合前面的白噪声检验结果,二者结论一致,说明ARIMA(2,2,2)模型的拟合效果相对较好。

图5 残差序列自相关图

最后,是正态分布检验,如图6所示,残差序列近似正态分布。在偏度与峰度联合检验中,检验结果显示,偏度的P值为0.1826,峰度的P值为0.1594,联合检验的卡方统计量的P值为0.1359,都大于0.05的显著性水平,说明不能拒绝原假设,残差序列符合正态分布,说明预测模型的拟合效果较好。

图6 残差序列的正态分布图

3 问题与对策

近年来,虽然云南省第三次产业有了一定发展,但仍需进一步优化。首先,第三产业的发展过于依赖旅游业,一旦发生疫情这样的突发事件,就会对地方经济产生较大影响。因此,要尽快优化第三产业内部结构,鼓励其他服务业的发展。另外,从旅游业发展的角度看,云南旅游业的目标群体绝大部分都是国内游客,国际游客占比很小,且一日游的游客超过一半以上[8]。每年长假过后,国内游客对云南旅游的负面评价都会增加。由此可见,云南省旅游产品的吸引力和质量都有待提升,对省内旅游资源的粗放式开发并不符合可持续发展的精神。其次,从统计数据上看,以2021年云南省内各主要州市的第三产业法人主要分布为例,排第一的昆明市服务企业数量是排第二的曲靖的五倍,是排第三的红河的六倍。说明大部分服务企业都集中在昆明市,第三产业服务业发展地区分布不平衡。这说明,支撑第三产业发展的合格人才,在高等教育普及度较高、服务企业相对集中的省会城市更易获得,其他地区则相对供给不足。

云南省第三产业的健康发展,离不开政府政策的引导和扶持。首先,要合理适度地开发省内旅游资源,维持好原有的自然生态优势,推进文化和旅游深度融合。建立景区服务质量监督制度,畅通投诉渠道,提高景区服务质量,推进服务智慧化。规范景区附近的餐饮、住宿、购票等服务的提供,提高热门景区商家的准入门槛,严防宰客现象出现。其次,扶持地州服务企业发展,提高当地年轻人的受教育程度,为企业培养所需人才[9]。同时,制定合理的人才培养和引进政策,并完善企业人才绩效考评制度,留住人才。另外,通过完善区域交通网络系统,减少地区间的运输成本,从而产生外部经济性,促进地区产业发展与融合,也有利于区域产业结构调整[10]。

4 结论

ARIMA模型可以用于预测云南省第三产业产值的变化,结果显示,云南省第三产业未来短期内仍然会保持增长。而要实现这一目标,需在政府的引导和扶持下,进一步优化云南省第三产业的内部结构。本文主要针对云南省第三产业产值进行分析和预测,对其他暂时未涉及到的问题的探讨,会在未来的研究中补齐。

猜你喜欢
置信区间阶数第三产业
定数截尾场合三参数pareto分布参数的最优置信区间
关于无穷小阶数的几点注记
p-范分布中参数的置信区间
确定有限级数解的阶数上界的一种n阶展开方法
多个偏正态总体共同位置参数的Bootstrap置信区间
列车定位中置信区间的确定方法
1995年-2015年营业税与第三产业增加值相关关系
一种新的多址信道有效阶数估计算法*
关于动态电路阶数的讨论
提高第三产业占比缘何欲速不达?