基于数据挖掘算法的成都市流动人口状况研究

2020-04-14 04:42王灿
经济研究导刊 2020年3期
关键词:关联规则聚类流动人口

王灿

摘 要:为充分挖掘成都市流动人口包含的信息,对流动人口基本数据进行统计分析,并基于层次密度对流动人口进行聚类和影响因素的关联规则挖掘。结果显示,流动人口的聚类和经济圈层的划分是一致的。

关键词:流动人口;数据挖掘;聚类;关联规则

中图分类号:C923        文献标志码:A      文章编号:1673-291X(2020)03-0129-03

引言

2019年3月成都市召开了“流动人口服务管理工作推进会议”,这与成都市的经济改革密切相关,比如“改革创新、转型升级”“五大兴市”等各项改革措施的颁布和实施,随着这些发展工作的推进,本身就作为西南地区的中心城市的成都又跃然成为我国“新一线”城市,势必会成为流动人口的“吸铁石”。面对新的形势,如何正确面对流动人口的现状和问题刻不容缓。从“推—拉”理论角度出发,人口的流动直观上就是从成本和效益出发,这种决策取决于流入地的机会和流动人口自身的发展需求。作为流动人口的接纳地,运行城市首先要有接纳的能力,做好相应的管理服务工作,才能当好“东道主”。目前国内学者对流动人口的研究比较全面,比如对流动人口的规模变化、空间分布、机制形成、社会保障等各方面都有了深入的分析,然而为更具体地讨论区域人口流动问题,从大量的数据本身出发,深层次挖掘基本信息,为中心城市的建设提供数据支撑将更有意义。

一、区域数据概况

成都又称蓉城,是一所副省级城市,管辖22个区县(含代管),经济圈层可分化三个层级,一是中心层,包含锦江区、金牛区、青羊区、成华区和武侯区五个主要中心城区;二是以温江区、郫都区、龙泉驿区、双流区、青白江区等为代表的二環圈层;其余管辖区县为第三层。近年来在经济、医疗、旅游、交通运输、教育文化等方面,根据改革方案不断优化,以近三年几项主要数据为例,具体(如图1所示)。可见,发展成绩是瞩目的,这是成都市人口数量出现“孔雀开屏”现象的一大契机。

人口的崛起是成都市“弯道转车”飞速发展的机会,因此做好人口的服务和指引尤为重要。根据流动人口动态监测数据报告,结合成都市统计局和成都市流动人口信息数据库,整理得出基本数据(如下页表1所示)。

根据流动人口基本数据统计分析,成都市流动人口占总比增高,也逐渐向外扩散,在程度上实施经济战略初期,流动人口主要聚集在中心主城区,随着经济改革重心的转移,流动人口也逐渐向第二三圈层迁移。从性别分布来看,流动人口男女比例逐渐持平,且越来越多以家庭式模式进行流动;从受教育程度上看,流动人口受高等教育的比例也在逐渐提高,这使得该类人群的收入增加,同时文化融入和社会认同感较以往明显好转,作为成都市建设的一支生力军,流动人口这个群体越来越不可或缺,因此做好相应数据的信息挖掘十分必要,以保证为成都市的发展不断注入新鲜血液。

二、聚类分析

为甄别讨论流动人口与社会经济关系,将借助聚类这一无监督学习方法进行充分的信息挖掘。目前常用的聚类算法需要把变量转化为区间标度,或对数据进行标度处理,最终获得数据间的距离,根据距离大小来实现聚类分析,然而这种聚类容易出现不稳定性。结合成都市的行政区域划分,根据流动人口的居住地、居住时间、学历结构和来蓉原因等,把流动人口数量划分为不同层次,为避免聚类中心点不在一个不存在的行政区域内,提出一种新的密度聚类。算法思路是:首先,建立平衡决策树,在各结构上进行编码;其次,以决策枝为层次节点,顺次遍历各支编码;最后,以层次点的密度为中心得出聚类中心。

利用这种聚类算法可以实现流动人口与社会经济数据的自动聚类,从而进行相关分析工作。算法实施前请工作在人口管理服务第一线的专家们进行定性分析,稍微调整聚类结果,以得到更加符合实际情况的结果。这样由基本聚类算法的定量,再到结合实际工作的定性研究,把成都市流动人口按区域聚为四类,结果(如表2所示)。

由聚类结果已把成都市流动人口聚为四个类别,然而各类别和其他因素间的关联规则还不明确,因此需要对影响流动人口聚类的因素进行关联挖掘。

三、关联规则挖掘

为全面挖掘各因素之间的关联规则,首先建立指标量化后的多维数据集,确定每一个事务的唯一标识,把元组分为维部分和项集部分,然后进行两步规则挖掘,第一步是挖掘维度模式的信息,旨在找出频繁项集,第二步利用改进的BUC算法挖掘多维模式的频繁项集,首先对第一维的元组进行排序,其他不相关的维度允许是任意的组合,然后不断重复该步骤,只是开始维度不同,随着迭代次数增加每次维度都减少一维,搜索过程持续简化,具体算法思路(如图2所示)。

为方便数据库的建立,首先把各因素指标进行标准量化,结合各区县与人口流动密切相关的经济、交通旅游、教育文化和生产生活等自然环境指标做为体系建立,确保所构建的指标体系更加符合实际情况。其中,样本矩阵表示如下:

样本之间的远近关系是规则挖掘的关键,因此在建立事务数据库前先利用“欧式距离”把个体间的差异测度化,就是把成都市所管辖的22个区县看成多维集中的空间点。其中,事务数据集计算距离的公式为:

上式中,i,j=1,2,…是参与流动人口聚类的区县,m=1,2,…,n是系统维度数。优化后的距离模型,可以得到一个对角方阵。这样的距离描述了不同区县之间的密切关系,距离越大表示因素关联规则越强,对应的类别之间的关系也越紧密。该关联事务矩阵表示为:

建立好基基础事务集后,接下来就将在大型数据集中进行信息的“挖掘淘金”,虽然关联不意味着因果关系,但被挖掘出来的“金子”就是一些有价值、有意义的规则,以明确开始不能准确表达的基本信息,而这也是进行数据挖掘的根本目的。由Python语言实现算法,得出关联规则结果(如表3所示)。

由关联规则挖掘结果可见,影响流动人口变化的主要因素和各类别对应的经济发展主题密切相关,且关联因素并不单一,而是多因素综合作用。

结语

根据聚类结果,成都流动人口聚为四类,同成都经济圈层划分相拟合。类区域是经济发展较高的主城区,最好的教育、医疗和合理的产业结构、便利的交通使其成为流动人口的较高集聚区;类区域由社会经济发展相对较高“二圈层”城区组成,该区域合理的房价收入比和持续发展的经济、教育和医疗等方面提供了较多的就业机会,使其成为流动人口聚焦区;类区域包含了经济发展水平相对较低的“三圈层”城区,该类区域旅游及相关产业的发达吸引着大量流动人口;类区域是社会经济发展水平相对欠发达的区县,造成部分流动人口边缘化聚居。从影响因素关联规则挖掘结果看,类区域流动人口的聚集受交通运输和工作岗位的提供影响比较大,结合实际情况来看这也是人口流动和经济关联的主体结果;类区域是成都市经济战略实施对象的重点,尤其是高等教育的發展,高校在该类区域的云集和相对较低的房价,是人口流动聚集的不错选择;类区域是成都市旅游行业发展的重点对象,由此与人口流动的关联影响比较显著;类区域是成都市边缘区县,经济发展相对其他三类没有明显优势,但较低的消费指数吸引着劳务型人口的流动。

经济的发展使成都成为流动人口的集聚区,流动人口无疑又促进了经济的发展,流动人口的聚类和成都经济圈层划分相拟合,结合影响因素的关联规则挖掘,课件聚类区域的聚集划分不仅能反映成都市流动人口的空间分异化,更在一定程度上体现流动人口聚集与经济发展水平的一致性。

参考文献:

[1]  成都市人民政府官网,http://www.chengdu.gov.cn/chengdu/index.shtml.

[2]  郭田勇.我国流动人口规模为何先增后减[J].人民论坛,2019,(5):70-72.

[3]  杜良杰,周怡.流动人口参与城市“三变”改革的路径构建[J].经济研究导刊,2018,(30):135-136.

[4]  张少尧,时振钦,宋雪茜,邓伟.城市流动人口居住自选择中的空间权衡分析——以成都市为例[J].地理研究,2018,(12).

[5]  马志飞,尹上岗,张宇,李在军,吴启焰.中国城城流动人口的空间分布、流动规律及其形成机制[J].地理研究,2019,(4):926-936.

[6]  马银坡,陈体标,史清华.人口流动:就业与收入的区域差异[J].农业经济问题,2018,(5):80-91.

[7]  莫旋,易雨瑶,谢晓.衡阳流动人口社会保障状况及影响因素研究[J].现代商贸工业,2019,(26):86-87.

[8]  郭长帅,卓建伟.基于数据挖掘算法的流动人口定居意愿研究[J].管理现代化,2019,(3):81-86.

[9]  刘涛,陈思创,曹广忠.流动人口的居留和落户意愿及其影响因素[J].中国人口科学,2019,(3):80-91.

猜你喜欢
关联规则聚类流动人口
基于双变量probit的流动人口社会融入研究
基于模糊聚类和支持向量回归的成绩预测
基于流形学习的自适应反馈聚类中心确定方法
基于密度的自适应搜索增量聚类法
数说流动人口
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
流动人口二孩可在居住地登记