基于多元线性回归解决人口问题

2021-11-25 19:08王心悦颜亮梁炜恒顾伟成王冉
科学与生活 2021年16期
关键词:灰色预测多元线性回归

王心悦 颜亮 梁炜恒 顾伟成 王冉

摘要:2015年10月,中国共产党第十八届中央委员会第五次全体会议公报指出:坚持计划生育基本国策,积极开展应对人口老龄化行动,实施全面二孩政策。该政策被认为是推动我国经济长期持续较快发展的重要改革措施。所以研究影响人口变化的因素,调整人口政策更具有较强的现实意义。本文针对目前的人口问题,结合影响人口变化的因素,对未来人口的数量和结构进行了预测。从近几年来中国的人口数据,挑选了几个重要的指标,然后运用了熵权法去计算各个指标的权重,从而建立了一个具有科学性的指标体系,在该体系以及人口数据的基础上,对未来人口的变化趋势进行了预测:未来人口会先上升后下降。三个影响人口变化的主要因素:经济因素、文化因素、医疗因素,然后计算模型的判定系数和调整判定系数来判断模型的拟合情况数据的共线性,通过运用了多元线性方程建立了自然增长率和这三个主要因素间的关系,其中经济因素、医疗因素和自然增长率呈负相关,文化因素和自然增长率呈正相关。本文运用了灰色预测,建立了多元线性回归方程,解决了影响人口问题因素的问题,结果较好。

关键词:人口问题,多元线性回归,灰色预测

1. 引言

二孩政策,是中国实行的一种计划生育政策,规定符合条件的夫妇允许生育“二胎”。2011年11月,中国各地全面实施双独二孩政策,2013年12月,中国实施单独二孩政策;2015年10月,中国共产党第十八届中央委员会第五次全体会议公报指出:坚持计划生育基本国策,积极开展应对人口老龄化行动,实施全面二孩政策。

在全面二孩政策正式实施之前,卫计委牵头进行了全面二孩政策影响生育的预测研究。根据最后完成的《实施全面两孩政策人口变动测算总报告》,2016年放开全面二孩,2017到2021年5年间增加二孩出生数将为1719.5万人,平均每年增加340万左右。其中,2017年出生人口总量将达到2109.9万人,2018年达到峰值,为2188.6万人。

国家统计局2018年01月18日公布数据显示,去年全国出生人口数量和人口出生率双双下降。2017年全年共出生人口1723万人,比预测数据“少了387万人”,低于2016年的1786万人。人口出生率也同样出现了明显下降,去年全国人口出生率为12.43‰,2016年这一数据为12.95‰。由于与之前预测相差甚远,这个数据甚至令不少人口学界人士感到意外。

2. 模型分析

人口问题一直是人类社会发展的主要问题,中国是一个人口数量大国,人口政策作为调控人口各项指标的重要手段,关系到中国人口数量、人口规模以及经济、资源、环境的协调发展。建立人口结构可持续发展指标体系,指标体系是指由多个反应社会现象总体数量特征的统计指标而组成的整体,每个统计指标之间既相互独立又相互联系。并且相关指标应具有科学性、代表性、全面性。

2.1.人口变化影响因素指标体系和预测

指标体系是指由多个反应社会现象总体数量特征的统计指标而组成的整体,每个统计指标之间既相互独立又相互联系。在统计研究问题时,如果要分析问题的总体全貌,那么只使用和该问题有关的一个指标是往往不够的,单独的指标只能反应出问题总体某一个方面的数量特征;所以需要同时使用和该问题有关多个相关指标,而这多个相关指标构成的统一整体,即为指标体系。

指标体系为了通过定量分析的方法描述多个相关指标与人口变化的合理程度,从而去发掘出人口变化的深层次原因,从而制定和人口变化切实有效的措施。为了构建一个合适的指标体系,不但要遵循指标体系的基本原则,主要指标还应该是可量化的指标,并且该指标有可靠的统计来源。我们通过将影响人口变化的几个因素定为指标,它们从不同的角度去反应了在一定时间、状态下人口总体中的结构。人口变化影响因素指标有:人口出生率、人口死亡率、自然增长率、性别比、 老年人口比例五个指标。

这五个指标都影响了未来人口变化:

①人口出生率(XB)指某一个地区在某一个时期内(通常为一年)出生人数与平均人口之比,反映了人口的出生水平,是研究人口自然增长的一个重要因素和研究人口变动的重要数据;

②人口死亡率(XD)指某一地区一段时间内死亡的人数与该时期平均总人数的比率;

③自然增长率(XI )指某地区某一段时间人口的自然增长数与这一地区这段时间内平均总人数之比;

④性别比(XS)是某地区某时期中男孩与女孩的比值,通常用女孩数量为1时所对应的男孩数,是评价当前人口工作的重要指标;

⑤老年人口比例(XO)是指处于老年年龄界限以上的人口(65岁以上的人口)占该时期平均总人数的比率。

一般情况下,在综合评价指标中,各指标值可能属于不同类型、不同单位或不同数量级,从而使得各指标之间存在着不可公度性,给综合评价带来了诸多不便.为了尽可能地反映实际情况,消除由于各项指标间的这些差别带来的影响,避免出现不合理的评价结果,就需要对评价指标进行一定的预处理,包括对指标的一致化处理和无量纲化处理.使用熵权法确定各个指标的权重。

熵权法的基本思路是根据指标变异性的大小来确定客观权重。一般来说,若某个指标的信息熵Ej越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指标的信息熵越大,表明指标值得变异程度越小,提供的信息量也越少,在综合评价中所起到的作用也越小,其权重也就越小[1]。

(1)由于指标体系的五项指标的数量级、单位均有差异,所以需要对5项指标进行赋权,以便可以更加合理地建立指标体系。

信息的基本作用就是消除人们对事物的不确定性。熵表示一种能量在空间中的分布的均匀程度,熵越大说明系统越混乱,熵越小说明系统越有序。信息熵就就相当于某种特定信息的出现概率,当一种信息出现概率更高的时候,这个信息被引用的程度就更高。可以认为,信息熵表示信息的价值,从而就有了一个去衡量信息價值高低的标准,对五项指标进行信息熵的计算,哪项指标出现的概率大,它出现的机会就多,不确定性就相对小。可以计算出5项指标各自的信息熵如下:

最终利用熵权法估算出了各个指标的权重,指标的权重越高,指标信息的价值系数也就越高,对评价的重要性也就越大,影响人口变化也就越明显。从而建立了人口变化影响因素的指标体系.

2.1.1.未来人口的变化趋势

从以上的数据可以看出,在2016年全面开放二孩后,中国的出生率和死亡率、自然增长率都到了新高,而后又恢复了稳定。从2017年的人口结构图中我们可以看到中国0-14岁的人口较少,而35-49岁的人口较多,再过20年,中国将进入老龄化。所以在未来,首先中国会因为全面开放二孩政策,使得人口持续增多,到达一个峰值;然后人口的老年占比持续增长,老年人口增多,死亡率开始增大,中国人口开始减少。

3. 建立人口增长与主要因素的关系

3.1.模型的建立

模型引入国内生产总值, 全国医疗机构数, 全国高等院校数三个变量,没有变量被剔除。

该表显示模型的拟合情况。从表中可以看出,模型的复相关系数为0.866,说明模型的拟合程度高,判定系数为0.750,调整判定系数为0.562,估计值的标准误差为0.23782,Durbin-Watson检验统计量为3.362,当DW≈3时说明残差独立。预测变量: (常量),国内生产总值, 全国医疗机构数, 全国高等院校数。因变量: 自然增长率。

根据各模型的方差分析结果。可以看出,模型的F统计量的观察值为3.999,概率p值为0.107,在显著性水平为0.05的情形下,可以认为:自然增长率与国内生产总值, 全国医疗机构数, 全国高等院校数之间有线性关系。

该表为多元线性回归的系数列表。表中显示了模型的偏回归系数、标准误差、常量、标准化偏回归系数、回归系数检验的t统计量观测值和相应的概率p值、共线性统计量显示了变量的容差和方差膨胀因子。

令XM表示国内生产总值(亿万),XU表示全国高等院校数(所),XH表示全国医疗机构(所)根据模型建立的多元线性回归方程为:

方程中的常数项为0,偏回归系数β1为-1.826,β2为8.148,β3为5.694;经T检验,b1和b2、b3的概率p值分别为0.052和0.003、0.004,按照给定的显著性水平0.05的情形下,全国医疗机构数有显著性意义。VIF值过大,说明共线性较明显。这可能是由于样本容量太小造成的。

该表是多重共线性检验的特征值以及条件指数。模型的最大特征值为3.973,其余依次快速减小。第三列的各个条件指数,可以看出模型有多重共线性

该图为回归标准化残差的直方图,正态曲线也被显示在直方图上,用以判断标准化残差是否呈正态分布。

该图回归标准化的正态P-P图,该图给出了观测值的残差分布与假设的正态分布的比较,由图可知标准化残差散点分布靠近直线,因而可判断标准化残差呈正态分布。

该图显示的是因变量与回归标准化预测值的散点图,其因变量为x轴变量,标准化预测值为y轴变量。

3.2.模型分析

多元线性方程说明,在假定其他变量不变的条件下,国内生产总值每增加1亿万元,人口自然增长率减少千分之5.694;在假定其他变量不变的条件下,国内高等院校数每增加1所,人口自然增长率增加千分之8.148;在假定其他变量不变的条件下,国内医疗机构每增加1所,人口自然增长率减少千分之1.826。经济因素和医疗卫生因素和人口自然增长率间存在负相关关系,而科技文化因素和人口自然增长率间存在正相关关系。

4. 模型的评价与改进

本文利用了多元线性回归分析多因素模型,更加直观和方便。多元线性回归中尽可能得考虑到了影响人口变化的主要因素,并且剔除了一些无关因素,并且可以准確地计量各个因素之间的相关程度与回归拟合程度的高低,提高预测方程式的效果。灰色预测可以在数据较少的情况下,进行预测精度较高的预测;并且模型本身的参数少、容错性小,适合做中短期的预测。多元线性回归中的各种因素只是一种推测,影响了某些因素的多样性和不确定性。灰色预测有快速衰减或者递增的特性,并且中国人口的发展特点复杂多变,所以该模型不适合做长期分析。

参考文献

[1]米尔斯切特,数学建模方法与分析,机械工业出版社出版,2005。

[2]王丰,中国人口科学,中国社会科学院出版,2006。

[3]郭昱,我国人口自然增长率影响因素的实证研究,中国社会科学院出版,2009。

[4]卓金武,MATLAB在数学建模中的应用,北京航空航天大学出版社出版,2011。

[5]司守奎等,数学建模算法与应用,国防工业出版社出版,2011。

作者简介:王心悦,1999.05,女,汉,陕西西安,西藏大学文学院古代文学研究生,方向是数字人文

猜你喜欢
灰色预测多元线性回归
2016年世界园艺博览会对唐山经济的影响
收益还原法在房地产估价工作中的应用与改进
基于组合模型的卷烟市场需求预测研究
基于多元线性回归分析的冬季鸟类生境选择研究
我国上市商业银行信贷资产证券化效应实证研究
云学习平台大学生学业成绩预测与干预研究
全面放开二胎政策对蚌埠市人口结构的影响的探索
基于灰色预测模型的中国汽车市场预测
全国主要市辖区的房价收入比影响因素研究
组合预测法在我国粮食产量预测中的应用