基于随机森林模型的辽宁省收缩城市未来发展趋势探究

2023-02-18 08:13范文玉
科技创新与应用 2023年3期
关键词:平均收入常住人口失业

张 伟,范 晶,张 旭,刘 达,邢 晋,范文玉

(沈阳化工大学,沈阳 110142)

在城镇水平高速发展的大背景下,由于城市间各行业与地区发展的不均衡,城市收缩问题日益严峻,其所带来的危害不仅限制了个人与社会的发展,更对国家的高速发展起着潜移默化的阻碍作用。如何合理地判别收缩城市,将城市进行分类,找出阻碍城市发展的影响因素,高效进行城市的改革,成为人们关注的重要话题。

1 关于判定收缩城市问题的分析

城市的收缩判别对于国内外而言还未有准确的定论。时至今日,国际上依然对收缩城市的定量分析有不同的声音。但用人口的减少作为收缩城市的判定被大多数学者所认可。

结合所收集资料中的各项数据和辽宁省各地区人口流失的大背景,本文定义辽宁省各地区的收缩城市为给定时间内(2009—2020 年),某一特定地区的人口增长率低于全辽宁省人口增长率,计算公式如下

式中:Δp 代表所给时间范围内辽宁省某个地区的人口变化率;ΔP 代表所给时间范围内辽宁省的人口变化率;D代表辽宁省某个地区的人口变化率与辽宁省全部人口变化率的差值。根据上式可推断出收缩强度为

式中:I 为一定的时间范围内辽宁省某地区的收缩强度,当I<0 时称其为收缩城市,且值越大说明该城市收缩程度越大,反之则越小。

2 基于城市发展指数对收缩城市未来发展问题的分析

利用城市发展指数的变化,对各个收缩城市的发展演化趋势进行预测。通过城市发展指数对收缩城市进行定量分析,但由于预测模型有局限性,单独利用定量预测会影响预测结果趋势,所以采用定性和定量的方法,进行收缩城市的发展演化趋势分析。

3 问题的解决与数据的处理

3.1 合理的建立收缩城市的识别指标,对辽宁30 座城市进行分类判别

本文将常住人口平均增长率作为判别收缩城市的核心变量。通过计算2009—2014 年(第一阶段)、2015—2020 年(第二阶段)的常住人口增长率,利用常住人口计算公式来衡量城市收缩的程度。常住人口增长率的计算公式如下

式中:Pc表示某一研究阶段内城市常住人口的增长率;P0表示阶段初期常住总人口数;P1表示阶段末期时城市的常住总人口数。

参照国内外的相关案例,根据Pc不同的取值可以将收缩城市大致分为5 类:当Pc≥-5%时,定义其为均衡发展型城市;当-5%>Pc≥-10%时,定义其为轻度收缩城市;当-10%>Pc>-20%时,定义其为中度收缩城市;当-20%≥Pc>-40%时,定义其为高度收缩城市;当Pc≥-40%时,定义其为塌陷收缩城市。

3.1.1 数据的处理

以沈阳市为例,沈阳市在2009 年常住人口数为512.23 万人,2014 年常住人口数为528.44 万人,由式(3)可知,沈阳市在第一阶段时的人口增长率约为3.16%,根据分析可知,沈阳市在第一阶段为均衡发展型城市;沈阳市在2015 年常住人口数为529.86 万人,2020 年常住人口数为620.17 万人,根据式(3)可知,沈阳市在第二阶段常住人口增长率约为17.04%,根据分析可知,沈阳市在第二阶段为均衡发展型城市。

同理可得辽宁人口在第一阶段与第二阶段的常住人口增长率,详见表1。

表1 辽宁人口在第一阶段与第二阶段的常住人口增长率(%)

由表1 可得2009—2020 年辽宁省30 座城市的收缩情况分类,详见表2。

上述为根据常住人口增长率对辽宁30 座城市的分类结果。图1 为根据Pc绘制出的常住人口增长率的极坐标图。

图1 根据Pc 绘制出不同城市的常住人口增长率的极坐标图(图片来源:作者绘制)

3.1.2 小结

根据常住人口的增长率分析可知,在第一阶段(2009—2014 年)内,辽阳市灯塔区为轻度收缩城市,其人口出现了大于10%的负增长。第二阶段(2015—2020 年)内,抚顺、本溪、调兵山、开原和北票等城市出现了城市轻度收缩的情况。

3.2 根据经济社会及各种因素的影响程度, 对影响进行定量分析,并根据分析结果进行讨论

3.2.1 前提假设

假设所取样本量而产生的噪音不会使随机森林模型陷入过拟合状态。

假设所取样本的特征划分较少,不会影响到随机森林模型的拟合效果。

经过分析,选取了影响城市收缩的15 个较为突出的变量,详见表3。

表3 15 个影响城市收缩的重要因素

其中人口维度的影响包括人口变化、年底人口数量、年龄密度和家庭结构等;社会维度的影响包括失业情况、平均收入水平、生活水平、公共服务和城镇化水平;经济维度的影响包括GDP 水平、工业水平、产业结构、资产投资和消费情况。图2 为各种影响因素之间的相互制约与作用图。

图2 各种影响因素之间的相互制约与作用图

多元线性回归模型的定义:假设因变量Y 与自变量X1,X2,X3,···,Xp-1之间有如下关系

式中:β0为常数项;β1,···,βp-1为回归系数(均为未知参数);e 为随机误差。

相关系数R2的计算公式如下

式中:pre_y 为测量数据;y 为实际数据;l 为每个指标的样本个数。

而MSE 的相关计算如下

在得到的15 个变量中有8 个影响因素通过了0.01 显著性检验,进一步分析可知,只有6 个变量与收缩城市的形成相关性比较大(r≥0.3),将筛选出来的6个变量进行初步的多元线性回归处理,处理过程将剔除掉VIF 值较高的数据(VIF≥10)的影响因素,剩下的6 个影响因素(失业情况、资产投资、平均收入水平、年底人口数量、GDP 水平和城镇化水平)进行第二次多元回归方程的计算。第二次多元回归模型选择出了4 个最终的相关性系数,其绝对值从大到小依次是失业情况(-0.271)、平均收入水平(0.183)、资产投资(0.109)和年底人口总数(0.049)。

综上选出了4 个相关影响因素,将这几个影响因素输入多元线性回归模型及随机森林模型中,分别计算出2 种模型的R2与MSE 值,并通过Matlab绘制出了相关拟合模型下的散点图。分析结果可知:随机森林模型求得R2=0.896、MSE=0.006 37,而多元线性回归模型求得R2=0.569、MSE=0.031 69,经对比可知随机森林模型的误差要远远小于多元线性回归模型(如图3 所示),其对数据的拟合性质更强,而且相关系数也明显高于多元线性回归所求得的相关系数,因此用随机森林模型来探究接下来的影响因素的问题。

图3 多元线性回归模型和随机森林模型对Pc 的拟合图像

3.2.2 基于随机森林模型的变量分析

本文采用IncMSE 的方法将上述4 个影响因素进行重要性的排序。所谓IncMSE 正是精度的平均减少值,这种方法实用的前提是控制有关变量的不变性,将自变量进行多次赋值与计算,在原有的模型上进行预测拟合,最后计算测量结果与拟合值之间的MSE,MSE在数值上增加的越多则表示这个影响结果越重要。根据IncMSE 方法分析可得,影响因素的重要程度排名前二的是失业情况(12.563%)、平均收入水平(9.251%),而排在三四位的分别为资产投资(5.743%)和年底人口数量(1.257%),三四位的值与前二者相差较远,且年底人口数量与前三相差较远,即说明年底人口数量对一个城市的收缩影响较小。综上可知失业情况和平均收入水平是影响城市收缩的主导因素。

根据上述分析,对失业情况及平均收入水平进一步讨论。将2 个主导影响因素几点标准化值输入到随机森林模型当中,分别做出了2 个平均拟合图像。

3.2.3 小结

由图4 分析失业情况及平均收入水平对应的曲线可知,大体上失业情况的标准化值与收缩强度的标准化值呈现负相关,失业情况越大城市收缩得就越严重,这也从侧面反应出一个城市是否可以提升就业率,是合理降低城市收缩的关键。当失业情况趋于某一特定的数值时,失业情况的标准化值与收缩强度的标准化值呈现平稳的趋势。由图5 分析曲线可知,平均收入水平和收缩强度标准化值成正相关,即某个城市的平均收入水平上升时,这个城市的收缩现象就越小,扩张现象就越大,个人收入水平的上升有助于缓和城市的收缩。

图4 失业情况的标准化值与收缩强度标准化值的平均拟合图像

图5 平均收入水平的标准化值与收缩强度标准化值的平均拟合图像

3.3 分析各个收缩城市的未来发展演化趋势

由于预测模型有局限性,单独利用定量预测会影响预测结果趋势,同时利用定性及定量的方法,进行收缩城市的发展演化趋势分析。

本文参考相关文献后,筛选出辽宁省12 个地级市作为研究对象,保证了研究区域的指标选取的系统性及科学合理性,利用了熵值法,对辽宁省各地级市城市发展指数进行研究,计算如下。

(1)数据的标准化

(2)计算评价指标权重

(3)计算第i 个城市发展指数

(4)计算第i 个城市收缩度SSD

式(7)—式(11)中:X′ij和Xij分别为第i 个评价单元第j项评价指标的原始值和标准化值;maxXj和minXj分别为第j 项发展指数评价指标的最大值和最小值;Zi为第i 个评价单元发展指数的指标;Wj为第j 项评价指标的权重;n 为样本个数;m 为评价指标数量;SSD 为城市收缩度;t 为时间年份。

根据上述计算,做出了2009—2020 年辽宁省各地级市城市发展指数变化折线图,如图6 所示。

基于辽宁省各地级市的城市发展指数变化折线图对未来发展演化趋势进行分析,因为地级市相较县级市有较好的代表性、准确性、系统性和全面性,特此对辽宁省各县级市展开分析。

根据预测图(图6)总体来看,辽宁省各个城市发展指数呈上升的趋势,在2009 年辽宁各个地级市的发展指数平均值为0.453,2020 年上升到0.455。2020 年各市城市发展指数排序从前到后的顺序为沈阳市、大连市、营口市和鞍山市等。

图6 2009—2020 年辽宁省各地级市城市发展指数变化折线图

4 结束语

本文对2009—2020 年间辽宁地区的30 座城市进行了城市收缩情况的研究,确定城市收缩的空间分布,利用随机森林的方法分析了城市收缩的影响因素及其重要程度,最终对城市发展做出了合理的预测,具体分析如下。

(1)关于城市收缩的分析:将常住人口平均增长率作为判别收缩城市的参考变量,经分析灯塔市为显著收缩城市。此外,抚顺、本溪等为不同程度的轻度收缩城市,其余城市表现为均衡发展型城市。

(2)关于影响因素重要程度的分析:根据IncMSE方法分析可得,影响因素的重要程度排名前二的分别是失业情况(12.563%)、平均收入水平(9.251%)。失业情况促使着城市收缩的进程,失业情况越严重城市收缩就越严重。当大于0.40 时,失业情况的标准化值与收缩强度的标准化值呈现平稳的趋势;平均收入水平和收缩强度标准化值成正相关,也对城市收缩或扩张有着重要的影响。

(3)关于对城市未来发展的预测(排名):辽宁省各个城市发展指数总体呈现为波动上升的趋势,在2009年辽宁地级市的发展指数平均值为0.453,到2020 年上升为0.455,2020 年各市城市发展指数排序从前到后的顺序为沈阳市、大连市和营口市等。

目前常见的收缩城市定义有多种,本文的相对收缩判断方法也只能适用于大部分城市都发生人口流失的地区,对于影响因素的选择和获取也存在数据不够完善等缺陷。当前对城市收缩的研究已经由定性分析转为定量本质研究阶段。综上所述,根据城市的不断发展及数据的不断更新,本文将在后续的研究中结合各地区的具体情况,不断完善城市收缩定量识别与研究的方法和理论,发现影响城市收缩的潜在因素。

猜你喜欢
平均收入常住人口失业
2021 年内蒙古自治区常住人口主要数据公报
总量增加,平均收入上涨,城镇归属感较稳定——这代农民工,就是不一样
北京城市副中心:常住人口控制在130万以内
失业预警
无人机 会有时——飞行员的失业时代
被高估的工作
2015年上海市常住人口首现负增长
美国这些医疗保健岗位在2016年最热
美国这些医疗保健岗位在2016年最热
不同类型失业青年的生存现状与发展趋势