基于组合模型的新生儿数量预测

2022-03-01 05:21:36李浩迪刘一帆李夫明
关键词:人口数量残差生育

李浩迪,刘一帆,李夫明

(山东理工大学 数学与统计学院, 山东 淄博 255049)

受经济发展、社会转型以及生育政策等因素的影响,我国的人口发展近些年表现出超低生育率、人口老龄化和新生儿性别比例失调等情形。为改变这一现状,中国政府在 2013年末启动单独二孩政策,2016年初推出全面二孩政策。政策实施后,我国新生儿人口数量短期内有一定程度的回升,但未能改变生育水平持续走低的趋势。基于近些年的新生儿人口数量对未来几年新生儿人口数量进行预测,不仅有利于掌握我国未来人口的数量变化情况,还可以为国家及时制定相关政策提供信息支撑,具有重要的现实意义。

人口预测[1]是根据现有的人口状况并考虑影响人口发展的各种因素,按照科学的方法,测算在未来某个时间的人口规模、水平和趋势。在已有的研究中,出现了多种人口预测的方法,如人口增长率推算法、Leslie模型、Logistic增长模型、神经网络预测等。刘晓艳等[2]应用变参数年龄移算法模型,对我国未来20年人口数量和人口结构变化趋势进行预测;孟令国等[3]采用PDE模型,以第六次全国人口普查数据为基础,设定生育率低、中、高3种不同方案进行推演, 预测了我国2015—2050年人口结构变化走势;郭震威等[4]从人口总量冈波斯 (Gompertz) 和逻辑斯蒂 (Logistic) 基本预测模型出发,依据2010年人口普查数据, 采用孩次递进生育预测方法对未来中国人口发展过程进行情景模拟,给出了未来人口政策建议。

本文将在获取历年新生儿出生量数据的基础上,分别使用时间序列预测模型与灰色预测模型进行短期预测。由于两种预测模型在预测效果上各有优劣,为了得到更好的预测效果,通过构建组合预测模型实现最终预测。由于刚刚出台的一对夫妻可以生育三个子女政策,通常会对未来几年新生儿的数量带来一定冲击,因此本文也对组合预测得出的结果进行必要的修正。

1 单项预测模型及组合模型

1.1 时间序列ARIMA模型

ARIMA模型[5]在ARMA模型的基础上发展而来。

1.1.1 三大经典的ARMA模型

1)自回归模型(AR)。自回归模型假定时间序列的未来值主要由其前期的历史观测值决定。p阶自回归模型可表达为

(1)

式中:yt是当前值;μ是常数项;γi是自相关系数;εt是白噪声扰动,通常取E(εt)=0,var(εt)=σ2。

2)移动平均模型(MA)。移动平均模型假定时间序列的未来值主要由其前期的历史扰动值决定。q阶的移动平均模型可表达为

(2)

式中:yt是当前值;μ是常数项;θi为误差项系数;εt是白噪声扰动,通常取E(εt)=0,var(εt)=σ2。

3)自回归移动平均模型(ARMA)。将自回归模型和移动平均模型相结合,可得到自回归移动平均模型。ARMA(p,q)模型可表达为

(3)

式中参数及有关假设与上述两个模型保持一致。

1.1.2 差分自回归移动平均模型ARIMA

将自回归移动平均模型和简单差分相结合,得到差分自回归移动平均模型。ARIMA(p,d,q)模型可表达为

(4)

式中:B是后移算子;d是使得差分序列首次达到宽平稳的阶数;其他参数及有关假设与ARMA模型保持一致。

1.1.3 ARIMA建模的一般过程

一般来说,建立ARIMA模型要历经以下几个阶段:数据的平稳化处理、模型识别和定阶、参数估计、模型检验以及模型预测。

1)数据的平稳化处理

为减小数据的振动幅度,使线性规律更加明显,对原始序列进行平方根或取对数的处理。

对上述经过变换后的序列进行差分后,还需要实施单位根检验来判断差分序列是否达到平稳。

对yt进行d阶差分的公式为

d(yt,d)=(1-B)dyt,

(5)

式中:d(yt,d)是序列yt的d阶简单差分序列;d是使序列yt首次达到平稳的阶数;B为后运算子。

2)模型识别和定阶

(1)自相关函数ACF(autocorrelation function)与偏自相关函数PACF(partial autocorrelation function)定阶法。根据(偏)自相关函数拖尾与截尾的特征,确定模型的阶数,判别准则见表1。

表1 模型判别准则

该方法对AR模型和MA模型定阶较为有效,但对ARMA模型定阶则较为困难,通常还需采用一些经验准则。

(2)准则函数定阶法。常用的信息准则有AIC准则和BIC准则,各自的计算公式如下:

AIC=2r-2ln[L],

(6)

式中:r是模型的独立参数个数;L是模型的极大似然值。

BIC=ln(N)r-2ln[L],

(7)

式中:N是观测数据的个数;r是模型的独立参数个数;L为模型的极大似然值。

通过多次尝试计算,使得AIC或者BIC最小的阶数,即为最适合数据的阶。

3)参数估计

确定出序列适合的模型及对应的阶数之后,可以使用矩估计、条件最小二乘估计以及条件最大似然估计等方法对模型中的参数进行估计。

4)模型检验

所建ARMA模型的合理性,主要看“过滤”出的残差是否具有纯随机性,即考察残差序列是否为零均值的白噪声序列。原假设为残差序列是白噪声序列,常用的检验统计量为Box-Pierce统计量,即

(8)

5)模型预测

模型检验通过后,则可进一步采用正交投影预测法、条件期望预测法等对时间序列未来几期的取值进行短期预测。

1.2 灰色系统预测模型GM(1,1)

1.2.1灰色模型GM(1,1)

灰色系统理论[6]基于关联空间、光滑离散函数等概念定义灰导数与灰微分方程,进而用离散数据列建立微分方程形式的动态模型,即灰色模型是利用离散随机数经过生成变为随机性被显著削弱而且较有规律的生成数,建立起的微分方程形式的模型,这样便于对其变化过程进行研究和描述。G表示grey(灰色),M表示model(模型)。

定义x(1)的灰导数为

d(k)=x(0)(k)=x(1)(k)-x(1)(k-1),

(9)

令z(1)(k)为数列x(1)的邻值生成数列,即

z(1)(k)=αx(1)(k)+(1-αx(1)),

(10)

于是定义GM(1,1)的灰微分方程模型为

d(k)+αz(1)(k)=b

(11)

x(0)(k)+αz(1)(k)=b,

(12)

式中:x(0)(k)是灰导数;α是发展系数;z(1)(k)是白化背景;b是灰作用量。

将时刻k=2,3,…,n代入式(12)有

(13)

引入矩阵向量记号

(14)

于是GM(1,1)模型可表示为Y=Bu。

a和b的值可以用一元线性回归求解,也就是用最小二乘法求它们的估计值,即

(15)

1.2.2GM(1,1)的白化型

(16)

1.2.3GM(1,1)灰色预测的步骤

1)数据的检验与处理

为保证GM(1,1)建模方法的可行性,需要对已知数据进行必要的检验处理。

设原始数据列为x(0)=(x(0)(1),x(0)(2),…,x(0)(n)),计算数列的级比为

(17)

y(0)(k)=x(0)(k)+c,k=1,2,…,n,

(18)

取c使得数据列的级比都落在可容覆盖区间内。

2)建立GM(1,1)模型

不妨设x(0)=(x(0)(1),x(0)(2),…,x(0)(n))满足上面的要求,以它为数据列建立GM(1,1)模型为

x(0)(k)+αz(1)(k)=b。

(19)

用回归分析求得a,b的估计值,于是相应的白化模型为

(20)

解为

(21)

于是得到

k=1,2,…,n-1,

(22)

从而相应地得到预测值为

k=1,2,…,n-1。

(23)

3)检验预测值

(1)残差检验

残差

(24)

相对误差

(25)

(2)后验差检验

均值

(26)

方差

(27)

残差的均值

(28)

残差的方差

(29)

后验差比值

(30)

小误差概率

(31)

(3)预测精度等级

预测精度等级对照如下:

(32)

1.3 组合模型

单个预测模型考虑的因素有限,可能出现信息利用不全面、甚至模型误用风险;同时,新生儿出生数量序列作为一个复杂系统,包含诸多随机和不确定因素。因此,选用组合模型[7]进行预测是较为合适的。组合模型可以通过对各个预测模型加权平均,把单一预测模型的优点集合起来,形成预测精度更高的预测模型,使得结果更加准确。

1.3.1 权值的确定

(33)

1.3.2 模型组合

基于上述权重,求得组合预测公式为

(34)

2 实证分析

2.1 数据分析

根据国家统计局编著的《中国统计年鉴——2020》中的每年总人口数 (年末) 以及每年出生率计算出近十几年的出生人口数 (截至2019 年),又由中国新闻网得知,全国2020年出生人口为1 200万人,得到历年出生人口数据见表2,绘制的折线图如图1所示。

表2 历年人口出生数据

图1 出生人口折线图

由图1可以看出,2000—2003年我国每年新生儿人口数量有轻微下降,2003—2012年我国每年新生儿人口数量较稳定,2013—2016年有轻微的上升趋势,但 2016—2020年我国每年新生儿人口数量便出现了急剧暴跌的趋势。

2.2 时间序列预测模型ARIMA

2.2.1 时间序列预处理

1)初步判断原始序列的平稳性。从图1看出,2000—2020年我国每年新出生婴儿的数据是不平稳的,这个判断比较粗糙,需要用统计方法进一步验证。

2)利用eviews对原始序列进行单位根检验(见表3)。

表3 原始序列单位根检验

3)原始数据平稳化。对原始序列yt进行以下处理:

其次,对序列zt进行二阶差分运算,得到序列d(zt,2),对其进行单位根检验,结果见表4。

表4 预处理后序列单位根检验

2.2.2 模型的识别与定阶

根据截尾、拖尾的特征(如图2所示),并进行了必要的试算,最终确定的最佳阶数为p= 1,q= 1,则确定的模型为 ARIMA(1,2,1)。

图2 平稳化序列的自相关序列图

2.2.3 参数估计

回归模型各参数见表5。基于2000—2020年全国历年新生儿人口数据所建立的时间序列预测模型为

表5 回归模型表

d(zt,2)+0.489 9d(zt-1,2)=

εt-0.157 0εt-1,

(35)

式中:εt是第t年的随机扰动;d(zt,2)是平稳化序列的观测值。

2.2.4 模型验证及预测

1)模型验证。残差序列的白噪声检验结果见表6。由表6可得,当选择显著性水平为 10% 时,各期残差的P-值均大于 0.1,不能拒绝原假设,则上述模型的残差序列通过了白噪声检验,即基于原始数据所建立的 ARIMA 模型是可行的。

表6 残差序列的自相关序列表

2)模型预测。对未来3年全国新生儿人口数据进行预测,结果见表7。

表7 预测结果表

2.3 滚动GM(1,1)模型预测

2.3.1 级比检验

基于 Matlab 实现GM(1,1)模型后,通过代入历年出生人口数据对比预测精度等级,确定了以5期数据为代入数据,预测期数为1期的滚动GM(1,1)模型效果最佳。滚动的含义是:首先将5年历史数据代入模型中,设定预测期数为1期,再将得到的新数据代入模型,并移除最早一年的数据,保证带入模型的数据始终为5期,最终迭代得出期望的多年预测数据。

由前述内容可知,原始数据列的级比应落在可容覆盖区间内才可建立GM(1,1)模型并进行灰色预测,因此先对2016—2020年的出生人口进行级比检验。设数列为x(0)=(1 790.609 45,1 727.869 44,1 526.545 72,1 467.252 4,1 200)

根据式(17)计算数列的级比,得到的结果为

2.3.2 预测结果

根据2016—2020年的出生人口,预测2021—2023年出生人口,结果见表8。

表8 预测结果及预测误差表

通过预测精度等级对比可知,模型预测精度良好。

2.4 组合模型的建立

2.4.1 权重的确定

基于2000—2020年我国历年新生儿人口数据,第一个单项预测模型(ARIMA模型)的离差平方和为18.784 09,均方误差为0.939 204 5;第二个单项预测模型(滚动灰色预测模型)的离差平方和为124 776.686 8,均方误差为7 798.542 925,得到两个预测模型的权数为

α1=0.999 88,α2=0.000 12。

2.4.2 组合模型

基于上述权重,求得组合模型为

(36)

因此,利用组合模型对我国未来3年新生儿人口数量的预测值见表9。

表9 组合模型预测结果表

2.5 预测结果改进

由图1可以看出,2015年前,我国每年新生儿人口数量均保持在1 600万左右的水平上。2015年10月,中国共产党第十八届中央委员会第五次全体会议公报指出:坚持计划生育基本国策,积极开展应对人口老龄化行动,实施全面二孩政策。此政策的颁布使得我国新生儿人口数量在2016—2017年有较大幅度的提升,但此影响的效应持续时间不长,在2018—2020年间,我国新生儿人口数量呈现急剧下滑的趋势,在此趋势下,我们运用组合模型预测了2021—2023年我国新生儿人口数量。但在2021年5月31日,中共中央政治局召开会议并指出,为进一步优化生育政策,实施一对夫妻可以生育三个子女政策及配套支持措施。因此,基于上述组合模型做出的预测与实际存在一定的偏差,则需要我们对最终的预测结果进行改进,以适应今年刚刚提出的三孩政策。

由文献[8]可知:从实施全面二孩政策后的实际生育状况的统计看,大约有 40%~50% 的育龄夫妇生了一个孩子,40%~50%的育龄夫妇生了两个孩子,不到 10% 的育龄夫妇生了三个及以上的孩子。换言之,二孩育龄人口的规模基本只占一孩育龄人口的 40%~50%,而三孩生育的规模和比例将直接受到这一规模和比例的限制。考虑到生育政策的影响,因此假设二孩育龄人口的规模基本只占一孩育龄人口的 45%,则三孩育龄人口的规模将占二孩育龄人口的35.56%。根据上述比例改进2022—2023的预测结果分别为934.296 700 0 万人和633.752 531 0 万人。

3 结论及建议

时间序列分析预测模型与灰色预测模型都有自身的局限性,不能完全准确地拟合原始数据,造成一些信息的损失,进而影响预测的准确性。但是通过均方倒数法加权的方式将两个模型组合起来,获得的组合模型能够更好地反应原始数据的变化趋势,即能够有效利用原始数据的更多信息,从而使得预测结果更加准确。将灰色系统预测模型GM(1,1)和时间序列预测模型ARIMA(1,2,1),通过加权组合的方式组合在一起,基于2000—2020年我国新生儿人口数据,对2021—2023年我国新生儿人口数量做了短期预测。预测结果表明:我国未来3年新生儿人口数量会继续呈下降趋势,虽然其下降速率会出现改变,但其总趋势仍为下降趋势。之后,将二孩政策的发布对我国新生儿的影响趋势与我国现阶段人们所面临的各种社会压力结合起来,对2021年5月31日发布的三孩政策对我国新生儿人口数量的影响做出了估计,并据此调整了预测结果,调整后的预测结果仍表明:我国未来几年的新生儿人口数量仍呈现大幅下滑趋势,没有回增趋势。因此,想要改变我国现阶段的人口结构矛盾,仅通过生育政策的改变是远远不够的,还需要从生育观念等根部究其原因。

二孩政策的开放,没有使得我国新生儿人口数量持续增加。除前两年有较为明显的增长外,接下来的几年均呈明显的下降趋势,造成这种现象的原因是多方面的,如社会生育观念的转变、经济社会的发展等因素。究其根本,只从生育政策出发,就想要改变我国目前人口的主要矛盾是不够的,还需要从以下几个方面做出改变:

1)提升公众的生育意愿。政府需加强全面二孩政策的宣传工作,科学规范地介绍实施全面二孩政策的好处,改变以往独生子女的观念[9],随着三孩政策的出台,政府应该提高社会生产和人均收入,不断修正公共政策、优化公共服务,才能够让人们“敢于生,愿意生”。

2)保障生育假相关措施。政府应完善产假相关措施,保障女性就业机会,加大对用人单位的监督力度,同时引入合理的男性“产假”,以缓解女性生育、抚养等压力,并改善存在已久的职场性别歧视。在社会舆论方面,应积极倡导男女平等思想,呼吁社会和企业正确认识生育三孩。

3)完善相关的配套措施。全面三孩政策的实施效果离不开各种保险以及教育设施等配套措施的完善,也离不开财政税收上的大力支持。因此,一方面,要适度提高生育保障水平、医疗保障水平[10],合理保障女性在生育期间的收入,并引导用人单位予以财政上的支持,做好生育的基本保障;另一方面,要加大教育资源的投入,促进教育公平,解决“上学难,上好学难”的问题。与此同时,还要加大正规托儿机构的建设力度,实现智能化信息管理, 让家长们“放心生”。

猜你喜欢
人口数量残差生育
基于双向GRU与残差拟合的车辆跟驰建模
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
自动化学报(2019年6期)2019-07-23 01:18:32
我国60岁以上人口数量首超15岁以下人口
妇女生活(2019年7期)2019-07-16 04:16:19
决不允许虐待不能生育的妇女
红土地(2018年12期)2018-04-29 09:16:40
应对生育潮需早做准备
中国卫生(2016年12期)2016-11-23 01:10:18
不能生育导致家庭破裂
2020年前俄人口数量将增至1.475亿
人民周刊(2016年9期)2016-05-26 17:07:27
平稳自相关过程的残差累积和控制图
河南科技(2015年8期)2015-03-11 16:23:52
“十三五”期间江西省老龄人口数量预测