基于K-means算法的居民数字画像促进基层治理研究
——以CS市XZ社区为例

2024-01-23 06:13夏广伟周玉梅
长沙民政职业技术学院学报 2023年4期
关键词:画像类别聚类

夏广伟 周玉梅

(长沙民政职业技术学院,湖南 长沙 410004)

基层治理作为现代社会和政府体系的基石,扮演着关键的角色,直接影响着民众的生活质量、社会稳定和国家发展。基层治理不仅仅是政府机构的职责,还涉及广泛的社会参与和各种层面的政策制定。因此,理解和改进基层治理尤其重要。近年来,基层治理在数字化及智能化进程[1],“智治”赋能市域社会治理方式现代化[2]等方面取得了不俗成绩。但是仍然存在人工化管理模式低效率问题[3]、目标弱等典型问题[4],其根本原因是基层部门对居民的分类不够精准,依靠传统基层治理手段和方式,很难解决当前基层治理问题[5],在满足现代社会多元化需求和变化的背景下,无法充分考虑居民多样性和个体需求。

因此,基层治理需要采用更现代、灵活和多维度的分类方法,以确保服务更加精准和有效,以提高分类的质量。

1 居民画像研究现状

居民画像方法的研究是一个关键领域,它旨在理解和划分不同居民群体,以满足他们的需求和制定相关政策。这一领域的研究涵盖多种分类方法,主流的方法有两类:一是传统的以居民社会属性为分类对象的主观经验分析方法。如,刘浩等提出通过分析居民的静态属性构造数字画像来提升城市公共服务水平[6]。罗金满等探讨了基于客户年龄、性别、家庭人口等基本信息的画像方法,得出目标人群的大致框架[7]。但此类方法的分类标准具有刚性和静态性等弊端,忽略了研究对象的文化和社会背景等情况的特殊性,导致资源不均衡分配。

另一种是基于多维数据的机器学习算法,如郑明超等提出了一种基于决策树的居民评估模型[8]。尽管可以将居民有效地进行分类画像,但也存在一些不足之处:在树的深度很大时,决策树容易过度匹配训练数据;对于包含复杂关系的数据,决策树可能无法捕捉到这些关系等。因此,本文提出一种基于K-Means的居民数字画像算法,通过构建B-EWE特征模型来对社区居民进行更精准和多维的分类分析。

2 基于CS市XZ社区的居民数字画像模拟

2.1 算法设计

K-means(K均值)算法是一种常见的无监督学习算法[9-10],用于数据聚类,即将数据集中的样本分为不同的组或簇,以便相似的数据点归为同一组。其目标是将数据点分为K个不同的簇,以最小化每个数据点与其所在簇中心之间的距离,使得簇内的数据点足够相似,而不同簇之间的数据点差异较大。工作流程如图1所示。

图1 K-means算法流程图

原数据中存在大量非数值型字段值,不利于进行算法计算,需要对其进行预处理。如将性别、是否有车的值设置为1和0,表示“是”和“否”两种状态;将是否结婚的值设置为0、1和2,分别代表“单身”“已婚”和“离异”。同理,将年收入的范围、不同的受教育程度以及职业类型的归属分别以不同的值来代表其所在区间。使用python工具对数据进行预处理并按以上规则转换。为使结果更加精确集中,将数据进行标准化处理。

设计数据模型阶段,根据居民基本情况(Basic information)、经济状态(Economic status)、工作情况(Work situation)、受教育程度(Education Background)等主要信息,构建居民B-EWE特征模型,即基本情况特征(B)、经济状态特征(E)、工作情况特征(W)、受教育程度特征(E)。最后,通过计算簇内误差平方和(SSE)来选择合适的k值。

式中,Ci代表数据样本空间,p代表样本聚类中心,mi为簇内每个样本点。通过公式生成SSE图像,再结合不同聚类中心数目的得分可以得出最佳聚类中心个数。

2.2 数据描述分析

本文使用的数据来源于CS市XZ社区的居民,经过预处理后剩余1454条数据,数据集主要包括性别、是否有车、是否有房、子女数量、年收入、受教育程度、是否结婚、住户类型、职业、同住总人数、年龄、工龄等12个关键字段。部分字段的具体值如表1所示。

表1 数据表部分字段值

通过统计分析得到居民的以下基本数据信息,可以看出该小区居民中女性住户占比为47.25%,男性居民占比为52.75%,男性居民数量略多于女性居民数量。其中,已婚居民占比为74.35%;单身19.33%;离异6.33%。只抚养1个孩子的家庭数量最多;没有抚养孩子的家庭数量大概为前者的一半;少数家庭抚养2个或多个子女。同住人口方面,3人家庭数量最多;其次是独居和只有2人同住的家庭。如图2所示。

图2 家庭基本情况

居民经济情况如下,该小区居民中有车居民占比为54.88%,无车居民占比45.12%,二者相差不大。住户中,有房的居民占比75.72%,无房的24.28%,其中是本小区业主的居民占比71.60%,说明在此居住的居民中有的在别处也有房产。小区居民家庭的年收入在15万-18万的居多,收入过低和过高的较少,数据分布如图3所示。

图3 居民经济情况

住户的工作情况如图4所示,小区居民年龄大部分分布在30岁到50岁之间,符合正态分布。工龄整体呈跳跃性趋势,说明自由职业者的工龄比较难以界定,对整体数据存在一定的影响,工龄年限在15年到25年的最多,与年龄分布大体一致。

图4 居民工作情况

居民职业及受教育程度如图5所示。从职业分布看,高级白领所占比例最大,为11.21%;经理、工人、教师占比都在7%以上;IT工程师、销售、公务员和高级职员占比相近;保洁、服务员、客服等服务类职业人数较少,总占比为10%左右。其中部分职业对学历要求较高,如金融白领、工程师、公务员和事业单位工作人员(教师、医务工作者)等,从事此类职业的人数总占比达到了62.42%。受教育程度看,本科学历的居民占比最多,达到了69.94%;其次是大专学历的居民,为20.84%;硕士研究生学历的居民占比为7.08%;博士研究生和专科以下学历的占比最少。

图5 职业及受教育程度

通过相关性计算如图6所示,可以看出住户类型与是否有房、同住总人数与子女数量、年龄和工龄、年收入和职业这4对变量存在着明显的相关性。

图6 变量相关性分析

2.3 数字画像模拟结果及分析

应用公式(1),将数据进行计算,结果如图7和图8所示,可以看出当聚类中心个数为4的时候,SSE图像中出现了明显的拐点,且分数达到最高,说明k值最优。

图7 簇内误差平方和

图8 不同k值所得分数

计算出最佳聚类中心数目后,将数据进行聚类,得到每条数据所属类别图,可以看到数据被分别分类到“0”“1”“2”“3”四个类别中。部分结果如表2所示。

表2 聚类中心

将聚类中心数据进行处理,可得到居民分群,如表3所示。可以看出类别为“0”的居民个数为297个,类别为“1”的居民个数为533个;类别为“2”的居民个数为278个;类别为“3”的居民个数为346个。其中类别为“1”的居民所占比例最大,分布如图9所示。

表3 居民聚类分群表

图9 居民聚类分布

由上述的表3和图9可以得出4个聚类中心,聚类类别中的“0-3”分别表示不同类型的居民,图9中的图像面积与表3中的类别个数相吻合,都表示类别内居民的具体数值。其中,经济特征数值越大,说明收入越高;工作情况特征值越大,说明工作越稳定;受教育特征值越大,说明受教育程度越高。可以根据居民的经济状态、工作情况、受教育程度这三个特征来结合居民的基本情况进行数字画像。

3 基层居民治理策略优化

结果显示小区居民数字画像的类型最佳可分为4类,分别定义为:改善型居民、提升型居民、带动型居民、稳定型居民。现结合社区实际情况提出治理与服务策略建议如下。

改善型居民指的是聚类类别序号为“0”的居民:此类居民经济状况中等偏下、工作状况极不稳定、受教育程度一般。针对此类居民,社区基层应采取重点关注的治理和服务策略,如:提供兼职、职业培训和技能发展,以帮助他们改善生活状况、提高就业机会。定期提供政策信息和资源,帮助居民获取社会福利、补助金、低收入家庭支持等。鼓励并培训家长参与孩子的教育,提供教育咨询。建立互助网络,促进邻里互动。提供社交和文化活动,增进社区凝聚力。促进居民参与社区决策,建立开放和包容的对话机制,以改善居民的生活状况。

提升型居民指的是聚类类别序号为“1”的居民:此类居民经济状况很好、工作状况很稳定、受教育程度很高。对于此类居民,社区基层的治理重在提供高品质的服务。如:组织各种社交、文化和艺术活动等;促进交流提升,鼓励居民分享自己的经验和知识;提供高级教育和技能培训机会,以支持个人和职业发展;组织并鼓励居民在社区内分享技能,支持其他社区居民的学习;提供高级医疗保健服务,包括健康检查、专业医疗服务和心理健康支持;鼓励居民参与社区治理和决策,包括社区会议、项目规划和政策制定,提升居民参与基层治理能力和社会责任感。

带动型居民指的是聚类类别序号为“2”的居民:此类经济状况很差、工作状况比较稳定、受教育程度不高。针对此类居民,社区基层需要提供多方面支持,以帮助他们改善生活状况,同时提升社会融入感。如:组织基础职业培训,包括技能培训、求职技巧等,以帮助提高就业技能;提供低门槛的就业信息,如临时工作、兼职工作和季节性工作,帮助他们提高就业机会;提供基本医疗保健服务,包括健康检查、药物配方和紧急医疗服务;提供基础教育机会,包括学历提升课程和基本文化课程,以提高受教育程度;支持儿童和青少年教育,以帮助家庭改善下一代的机会;鼓励居民参与社区决策,以带动居民走出现有困境。

稳定型居民指的是聚类类别序号为“3”的居民:此类居民经济状况一般、工作状况很稳定、受教育程度一般。针对此类居民,社区基层需要提供综合的治理和服务策略。如:提供社会互助和社交支持,促进邻里关系和社交互动,以促进社交联系;提供继续教育机会,包括技能培训、文化课程和职业发展课程;为家庭教育和学习资源提供支持,以提高居民和子女的教育水平;开展多元化的活动交流,提升居民的幸福感和参与感;鼓励居民参与分类服务的制定和评估过程,帮助基层更好地理解他们的需求,从而有效地提高生活质量。

本文所设计的基于K-means聚类分析法的BEWE评价模型,通过对社区居民的信息数据进行处理分析,提出居民分类标准,从而将其分配到适当的服务类别中。居民数字画像分类完成后,制定针对每个分类的政策和服务,以满足不同群体的需求。与传统的居民数字画像分类方法相比较,本文算法能从多个维度和角度对居民的状况进行评估,不仅可以更精确地实现居民画像分类、实时准确了解辖区居民的情况,也能够针对不同类型的居民进行有效的管理,进而及时制定相应的服务策略。

猜你喜欢
画像类别聚类
威猛的画像
“00后”画像
画像
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
服务类别
一种层次初始的聚类个数自适应的聚类方法研究
论类别股东会
中医类别全科医师培养模式的探讨
潜行与画像