官 银,李新月,朱家明
(1.安徽财经大学会计学院,安徽 蚌埠 233000;2.安徽财经大学统计与应用数学学院,安徽 蚌埠 233000)
随着我国经济的高速发展,人口的流动速度越来越快,越来越多的年轻人选择在大城市发展,从而导致我国农村人口的数量急剧下降[1]。农村人口变迁和其生产、组织、社会保障等问题密切相关,而农村的发展好坏直接关系着我国总体的发展水平,农村好的发展离不开足够的劳动力[2]。因此,对我国农村人口未来变化的预测与分析是十分有必要的,通过观察其未来的人口变化趋势,可以为政府等相关部门提供制定相关政策的依据。
目前,预测的方法有很多种,如:灰色预测、指数平滑法、线性回归预测等,这些方法都有其各自的优势。但是,对于时间序列数据目前最常用的并且也最准确的就是ARIMA 模型预测和ARMA 模型预测。其中,ARMA 模型预测主要用于平稳性时间序列预测,ARIMA 模型预测主要用于非平稳时间序列预测。因此,在使用前都需要对时间序列进行平稳性分析,然后再选择用哪一种方法进行预测分析。但是,即使是ARIMA 模型最终还是回归于ARMA 模型,在对非平稳时间序列数据进行若干次差分之后,数据将会变为平稳性数据,此时仍然是做出自相关图和偏自相关图从而确定模型的参数p 和 q,ARIMA 模型的建模基本步骤[1]见图1,主要有:数据的平稳性检验、模型的识别与定阶、参数估计、模型适应性检验、模型误差分析和模型预测六个方面。
图1 ARIMA 模型建模步骤
赵华、薛红艳[3]指出预测人口数量对引导适当人口规模的重要性,在文章中对河北省1952-2010年总人口数据进行分析,得出河北省在此期间人口数量呈持续上升状,且其原始序列数据是非平稳的。为消除原始序列数据趋势并降低其波动性,文章针对原序列数据进行一阶逐期差分处理,经过检验大致消除了原序列趋势。运用此模型预测该省2013-2017年人口数量,得出河北省人口数量将持续增长的结论。
郑红云[4]根据深圳市1979-2010年常住人口数据进行了 ARIMA(1,1,0)模型拟合,得出未来十年深圳市常住人口的预测数据,并运用ARIMA(1,0,0)拟合了深圳市 1979-2010年常住人口中每千人床位数,拟合效果较好。预测结果表明,预期该市今后十年的常住人口量超过1300 万人,且该市每千人床位数将持续位于较低状态,而市民将需要继续面临较大的就医压力。
郑小凤,沈姮等[5]在文章中简要介绍了时间序列分析对动态数据预测的重要性,通过分析我国2013年底总人口数情况,利用Stata 软件进行单位根检验,确定所用序列具有平滑性。在此基础上建立ARIMA 模型,对2014年和2015年中国人口数进行预测,得出我国人口增长总体态势较平稳的结论。
郭敏,田荟等[6]对ARIMA 方法进行了简要介绍,并结合历年来人口政策对我国1950-2016年人口出生率进行分析。借助EVIEWS 软件与ARIMA建模方法,将ARIMA 模型运用到我国人口出生率预测中,根据不同模型SC 和AIC 的值,识别确定选取ARIMA(0,1,2)模型,依此预测我国2018年人口出生率约为13.06%,可为我国政府政策制定提供参考。
根据以上研究,可发现时间序列模型在人口数量分析中备受青睐。本文以全国农村人口为总体建立ARIMA 模型,对未来农村人口数量进行预测研究,以期为政府制定相关政策提供一定判断依据。
本文所用到的1970~2015年中国农村人口数量数据均来自于世界银行公开数据库。为了对数据的总体情况有一个大概的了解,本文将数据进行了描述性统计分析,具体结果见表1。
表1 1970~2015年中国农村人口数据描述性统计分析单位:万人
通过统计分析可以看出我国农村人口的均值为76612.8 万人,最多的时候达83647.9 万人,最少的时候达60862.9 万人,可以看出我国农村人口的数量变化较大。
同时,做出1970~2015年我国农村人口的时序图,见图2。通过时序图可以看出我国农村人口先迅速增长,到了20 世界90年代开始逐年下降。
图2 1970~2015年中国农村人口时序图
通过图2可以明显看出我国农村人口的变化数据是不平稳的,对于非平稳的时间序列,可以采用差分的方法将其变成平稳的时间序列数据。首先可以利用公式(1)对其进行一阶差分,如果一阶差分之后,数据仍然为非平稳数据,则利用公式(2)对其进行二阶差分,以此类推直到数据变为平稳的时间序列数据。
为了更具有说服力,首先对原始数据进行ADF检验[8-9],计算结果见表2。
表2 原始数据ADF 检验表
通过ADF 检验可以看出t-统计量在0.1 置信区间之外并且P 值为0.9273 远大于0.05,因此可以看出原始数据的确为非平稳数据。接下来,对原始数据进行一阶差分,并对差分后的数据进行ADF检验,具体结果见表3。
表3 一阶差分后数据ADF 检验表
通过表3可以看出一阶差分后的数据仍然为非平稳数据。接下来,对其进行二阶差分,二阶差分后继续进行ADF 检验,得到的检验结果见表4。
表4 二阶差分后数据ADF 检验表
通过检验结果可以看出二阶差分之后的数据为平稳性数据,P 值为0.0179 小于0.05。与此同时,绘制出二阶差分后的中国农村人口时序图 (见图3),可以直观地看出二阶差分后数据为平稳的。因此,可以确定参数d 的值为2。
图3 二阶差分后时序图
绘制二阶差分后的时间序列的自相关图(ACF)和偏自相关图(PACF)初步识别 p,q 的值。通过图4可以看出,ACF 第一阶后呈截尾状。通过图5看出,PACF 第一阶后呈拖尾状,因此可初步判定差分后的序列适合ARIMA(1,2,1)模型。
图4 序列自相关图
图5 序列偏自相关图
重复拟合ARIMA(p,d,q)模型中的参数p 和q的各种可能取值,并计算相应参数对应的AIC 值和BIC 值来初步判定模型的最佳阶数,计算结果见表5。
表5 农村人数的AIC 值和BIC 值
通过观察表5的计算值,可以看出参数(1,1)使 BIC 的值最小,参数(2,1)使 AIC 的值最小。因此进一步比较他们的拟合效果,对参数 (1,2,1)和(2,2,1)对应的模型分别作出模型的拟合图(见图6和图7)。
图6 ARIMA(1,2,1)拟合曲线
通过比较 ARIMA(1,2,1)和 ARIMA(2,2,1)模型拟合的结果,看出两者相差不大,拟合结果几乎一样。因此,在这里无法判断ARIMA(1,2,1)和ARIMA(2,2,1)模型哪一个更好,再继续对其做相关的检验。
图7 ARIMA(2,2,1)拟合曲线
为了得到模型的适应性,模型残差序列进行白噪声检验,得到它们的残差序列图见图8和图9。与此同时进行了Box 检验,得到ARIMA(1,2,1)在6阶延迟和12 阶延迟下 p 值为 0.8285 和 0.7192,得到 ARIMA(2,2,1)在 6 阶延迟和 12 阶延迟下 p 值为0.9119 和0.8425,说明残差为白噪声序列,建立的ARIMA 模型是适用的。
图8 ARIMA(1,2,1)模型残差序列图
图9 ARIMA(2,2,1)模型残差序列图
分别对 ARIMA(1,2,1)和 ARIMA(2,2,1)模型进行误差分析,选用平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分误差(MAPE)作为评估模型效果的标准。
MAE、RMSE、MAPE 的表达式分别为:
通过计算结果 (见表6)可以看出,ARIMA(1,2,1)比 ARIMA(2,2,1)模型稍好,误差相对较小,因此最终选定ARIMA(1,2,1)模型对我国的农村人数进行预测。
表6 不同参数对应模型误差
利用得到的ARIMA(1,2,1)模型对我国未来十年的农村人口进行了预测(见图10),为了更加精确的看出预测结果,将得到的预测结果做成表格见表7。通过预测结果,可以看出我国农村的人口数量逐年减少,农村人口严重流失。这也与我国真实的情况相符,越来越多的人离开了农村,导致我国农村人口大量流失。
图10 ARIMA(1,2,1)模型预测结果
表7 未来十年我国农村人口预测数量
本文建立了ARIMA 模型对我国的农村人口进行预测,通过数据的平稳性检验、模型的识别与定阶、参数估计、模型适应性检验和模型误差分析五个步骤确定了ARIMA 模型的三个参数,最终选择了ARIMA(1,2,1)模型对数据进行拟合以及预测。根据预测结果可以看出我国未来的农村人数呈现逐年下降的趋势,这可能会让我国的农村劳动力严重下滑,对未来的发展产生深远影响[10]。
基于上述结论,对于我国农村人口数量发展给出以下政策建议:
第一,对农村劳动力涌向城市的过程进行规范与引导。在农村劳动力的转移过程中,提高其转移有序性,避免发生农村耕地无人照料而城市农民工过剩的现象。
第二,对农村人口发展现状进行实地调研,适时适度对我国人口政策进行调整,为城市和农村劳动力的平稳有效供给提高保障。
第三,提高政府支持力度。一方面,完善三农政策。鼓励和号召更多的农民留在农村,吸引那些常年在外工作具备经验和胆识的农民回村,为农村建设添砖加瓦。另一方面,政府可出台相关政策鼓励高技术人才加入农村建设中,保证其工作条件,为其提供一片广阔天地大展身手[11]。
第四,大力发展农村生产力,加速农业现代化发展进程。国家应制定相关政策提升农业科技水平,让机器代替手工劳动,修缮农村相关水利设施,为农村发展和农民生活谋福。此外,应注重引导适量的规模化企业往农村农业投资,给农业可持续发展铺好道路。
因此,政府等相关部门应该尽快制定相关的政策,减少农村人口的流失,让我国的农村保持竞争力和活力。