基于机器学习算法的预测研究

2023-06-03 18:27王佳欣韩越刘思佳董思源王雪艳周焕明
中国信息化 2023年5期
关键词:人口数量老龄人口老龄化

王佳欣 韩越 刘思佳 董思源 王雪艳 周焕明

一、引言

近年来随着计算机、通信技术及互联网的普及,各行各业存储了大量数据,而在大量的数据中挖掘出有效信息的手段是使用机器学习算法。机器学习算法通过归纳和综合数据建立模型来解决预测问题,能够为各行业的决策及快速发展提供数据支持。另一方面,随着社会的高速发展,我国人口老龄化形势较为严峻,65 岁以上老龄人口占比由1999年的6.72%增长到2021年的14.2%。即将面临着“未富先老”的一系列问题。本研究基于国家统计局数据利用机器学习算法构建灰色预测模型GM(1,1)和支持向量回归模型(SVR)进行老年人口数量的预测,为解决我国的养老问题、基础设施建设和公共事业发展提供有利的数据支持。

二、资料来源与方法

(一)资料来源

本研究使用的数据来源于1999~2022年的《中国统计年鉴》和《中国卫生统计年鉴》。

(二)研究方法

使用Pearson相关系数法分析10个影响因素与老龄人口数量的相关性。通过Lasso回归去掉影响因素之间的共线性问题,提取出影响预测结果的关键特征。根据本研究数据集不大的情况,选用灰色模型GM(1,1)预测关键特征的值,可具有优良性能。本研究属于高维非线性问题,用关键特征构成的数据子集构建支持向量回归模型(SVR)预测我国老龄人口数据。

三、研究步骤

本研究首先在统计年鉴中获取数据;其次,进行特征的相关性分析;再次,通过Lasso回归筛选变量;最后,使用GM(1,1)和SVR模型进行预测。

四、数据预处理

(一)老龄人口数量的影响因素及相关性分析

影响老龄人口数量(y)的因素很多,本研究将与老龄人口关系密切且直观上有线性关系的10个属性作为自变量,分析各特征之间及各特征与y之间的关系,这些属性为老龄化指数(x1),生育率(x2),全国人口出生率(x3),人均GDP(x5),自然增长率(x6),性别比(x7),城镇化率(x8),医院卫生机构床位(x9),人均可支配收入(x10)。

通过编写Python代码对各特征之间及各特征与y之间进行相关性分析,得到x7与y为极弱相关,x2与y为中等程度相关,x3、x4与y为强相关,其他属性与y为极强相关,因此,除x7外其他属性均可用作老龄人口预测分析的关键属性,但这些属性之间存在着信息的重复,需要对关键特征进一步筛选。

(二)老龄人口预测的关键特征提取

考虑到传统的特征选择方法具有一定的局限性,本研究采用Lasso回归方法老龄人口预测的关键特征提取,得出x5、x9和x10系数分别为-0.0899、-11.2996和0.7834,其余属性系数均为0,因此影响老龄人口预测的关鍵影响因素为x5、x9和x10。

五、模型构建与模型评价

本研究首先通过灰色预测函数——灰色模型G(1,1)得出2023~2027年的人均x5、x9和x10的预测值。

使用预处理后的数据集,调用s k l e a r n库的LinearSVR函数构建我国老龄人口预测模型,函数参数采用默认值,得出2023~2027年老龄人口数(单位为:万人)依次为:19495.1、22767.4、24300.2、26628.2和28645.2。

将1999~2022年的预测值与真实值,以及2023~2027年的预测值绘制出折线图1,其中红色折线是预测模型得出的数据,蓝色曲线为实际老龄人口数据。可看出本研究建立的模型可很好的拟合实际老龄人口变化情况,且模型具有很高的精度,可以用来预测未来5年的老龄人口数据。

六、结论与建议

(一)结论

本研究预测数据表明我国人口老龄化速度明显加快,老龄人口数量由1999年的8679万增长为2022年的20978万,未来5年预计将达到28645多万。

(二)本研究的局限性

本研究采用Lasso回归方法能有效甄别出具有多重共线性、筛选变量并减少模型复杂程度,但影响老龄人口数量的因素较多且不能全部覆盖,因此该模型的预测结果可能存在偏差。

本文中采用的灰色模型和SVR模型组合预测,对短期预测效果较好,中长期预测偏差可能较大。

(三)建议

根据上述预测的数据结果,为更好的应对人口老龄化的加速态势,特提出以下三点建议。

1.养老服务体系建设

我国应尽快建立健全养老服务体系,创新养老服务模式,加快养老服务产业发展。一方面,可有效应对人口老龄化问题,提高老年人生活质量和寿命、维护老年人能尊严和权利,增进社会和谐。另一方面,老年群体蕴含着很大的市场需求,大力开发老年服务市场,可促进经济发展。

2.延迟退休政策及早落地

延迟退休有利于积极应对老龄化,不仅可以解决劳动力供求不平衡,而且可以支持社会经济的可持续运行,增加老年劳动力供给,降低老年抚养比,有效缓解政府财政负担。

3.全面放开生育政策

全面放开生育政策是应对人口老龄化的国家战略。全面放开生育政策有助于促进人口长期均衡发展,缓解未来劳动力短缺,改善我国人口结构,保持我国人力资源的禀赋优势。

作者单位:王佳欣、韩越、刘思佳、董思源、王雪艳牡丹江医学院卫生管理学院

周焕明 牡丹江医学院图书馆

基金项目:牡丹江医学院第十二届大学生科研项目“基于灰色模型GM(1.1)和支持向量回归模型SVR的我国老龄人口数量预测研究”,项目编号:2022016;牡丹江市应用技术研究与开发计划项目“基于机器学习组合算法的牡丹江市人口预测研究”,项目编号HT2022JG129;2022年度黑龙江省省属高等学校基本科研业务费科研项目“基于灰色预测和支持向量回归模型的黑龙江省居家养老服务需求的预测研究”,项目编号:2022-KYYWF-0725;黑龙江省教育科学十四五规划2022年度重点课题,项目编号:GJB1422274。

猜你喜欢
人口数量老龄人口老龄化
《老龄科学研究》(月刊)欢迎订阅
老龄苹果园“三改三减”技术措施推广
我国60岁以上人口数量首超15岁以下人口
世界人口老龄化之住房问题
技术创新视角下人口老龄化对经济增长的影响
技术创新视角下人口老龄化对经济增长的影响
《老龄工作者之歌》——老龄工作者的心声
人口老龄化背景下的财政支出与经济增长
2020年前俄人口数量将增至1.475亿
内蒙古地区人口老龄化问题研究