基于ID3算法对农民工城市融入影响因素分析

2023-10-08 13:50:28陈韬宇安海燕
软件工程 2023年10期
关键词:社会福利决策树增益

陈韬宇, 安海燕, 陈 杰

(1.贵州大学经济学院, 贵州 贵阳 550025;2.贵州师范大学国际教育学院, 贵州 贵阳 550001)

0 引言(Introduction)

近年来,在我国经济快速发展下,产生了特有的农民工群体。城镇化发展至今,农村劳动力转移的同时,也导致了各式各样的问题[1-3]。从经济学的视角来看,不论是生活的本质——衣食住行,还是社会保障、教育等都会影响农民工在城市的融入感[4-6]。如今,新生代农民工逐渐成为老一代农民工的接班人,而不同的成长环境和经历,造成其在融入城市的过程中又产生了新的问题[7-9]。因此,有必要对影响农民工城市融入的因素进行进一步探究。本文采用信息学的ID3算法分析经济、社交、社会福利和心理4个方面对农民工城市融入问题的影响,并为解决农民工城市融入问题提出相应的建议[10]。

本文以直观的数据结果分析影响农民工城市融入的因素。其中,决策树算法的典型应用在文献[11]至文献[13]中有提及,同时有许多学者对其进行了优化[14-16]。本文以大数据挖掘为基础,对城市融入问题的研究进行方法上的创新[17-18]。

有别于传统回归分析方式,采取数据挖掘算法ID3分析农民工的城市融入问题,对影响因子的重要性进行树形排列,得到直观的信息,为该问题的深入研究提供方向和参考。

1 ID3算法模型(ID3 algorithm model)

ID3算法就是决策树模型算法,它是一种基本的分类回归方法,通常运用于大数据挖掘方面,与ID3算法类似的有C4.5算法(ID3算法的一种扩展算法)和CART算法。C4.5算法的优点在于产生的规则容易被理解,正确率比较高,操作实现的难度不高,但是它的缺点也同样明显,例如数据需要进行多次遍历和排序,效率很低。ID3算法在剪枝和数据丢失值处理等方面区别于C4.5算法和CART算法。针对本文的问题,采取ID3算法更简洁、有效,能够准确地挖掘数据中隐藏的含义,体现影响农民工城市融入的主要因素和次要因素,也就是重要性的排序。

1.1 算法的介绍

ID3算法是一种经典的决策树算法,常用于分析数据的重要性排序;它的原理是建立在奥卡姆剃刀原理的基础上,用较少的样本获取更多的隐藏信息。在信息理论中,期望信息越小,那么信息增益(Gain)就越大。ID3算法的核心思想就是通过信息增益大小作为属性的选择理论依据进行分裂挖掘。

1.2 ID3算法中数值的基本定义

(1)信息熵。熵的概念是在物理学中被定义的,它是在物理学中用作测量一个热力学系统的无序程度,在信息学的理论中,熵是对不确定性信息的度量。香农(Claude Shannon)对物理学中的熵重新进行定义,出现了信息学中的信息熵,并将其定义为离散随机事件出现的概率。一个数据集或者系统当中的数据越有序,信息熵就越低;一个数据集或者系统当中的数据越无序,信息熵就越高。假如一个随机变量D的取值为D={d1,d2,d3,d4,…,dn},每一种取到的概率分别是{p1,p1,p3,…,pn},那么D的熵定义如下:

(1)

其中,Entropy(D)为数据总信息熵,pi为取到该项数据的概率。

一个变量的变化越多,那么它携带的信息量就越大。本文研究通过ID3算法对调研数据进行处理,分析调研数据的信息量并用信息熵表示。由熵的定义可知,熵只决定了X的分布规律,与X的取值大小没有关系。

(2)期望信息也称为分类系统的熵或者条件熵,对于分类系统来说,特征A是拥有不同的类别{A1,A2,…,An}变量,它的样本个数分别记为{C1,C2,C3,…,Cn},而每一个类别出现的概率分别是P(C1),P(C2),…,P(Cn),其中n表示类别的总数量。所以,期望信息(条件熵)就可以用公式(2)表示:

(2)

(3)信息增益是ID3算法中最核心的判别特征,也是区别重要性的依据。将信息增益定义为Gain,信息增益是数据集D分裂前与分裂后的差,表示由于特征的分裂引起数据集的不确定性程度降低。通过计算得到数据分裂的根据是由于当特征的取值较多时,以此特征划分更容易得到纯度更高的子集,表现为如图1所示的经济因素特征下还有特征可以分裂,也就是决策树根节点顺序由高到低表示重要程度的高低。

图1 决策树算法模型结果图Fig.1 Result graph of decision tree algorithm model

信息增益越高,意味着划分后的子节点纯度越高,对于分类的贡献越大。因此,ID3算法须选择信息增益最大的节点作为父节点。表示信息增益的公式如下:

GainA(D)=E(D)-H(D/A)

(3)

其中,GainA(D)表示特征A中的信息增益,E(D)表示原始样本的信息熵,H(D/A)表示特征A的条件熵。

2 调研数据处理及分析(Research data processing and analysis)

2.1 数据来源和数据的初步处理

数据来源于实地调研,有效的调研问卷总计359份,所有数据均来自调研对象农民工。在问卷中设计了包括经济(收入)、社会福利(教育和医疗水平)、社交(亲友数量)及心理(受到歧视心理影响程度)等方面的问题。将调查的实验数据进行汇总并归纳分析,将其分为15个大类,重复的数据归为一个类别,得到的归纳分析结果如表1所示。

表1 数据归纳分析表Tab.1 Data summary and analysis table

本文研究将影响城市融入的影响因素分为经济(收入)、社会福利(教育和医疗水平)、社交(亲友数量)、心理(受到歧视心理影响程度)4个方面。问卷调查中将收入变化和生活成本变化程度由弱到强分为5个。但是,由于问卷中的问题过于细分化,所以将5个程度减少为3个程度,分别是低、中、高,并且由于在调查问卷中调研对象选择的程度在3~5的范围,所以可以将程度1~2去除,最后的结果为低(3)、中(4)、高(5),分别代表了调研对象对经济部分问题的感知和反馈程度。社会福利、社交和心理三个影响因素进行同样的量化分类,具体如表1所示。

2.2 数据计算处理过程

2.2.1 计算总体熵

经归纳分析后的问卷结果见表1。表1中有15个例子,共有两个大类,即城市融入的“是”与“否”,同时拥有4个特征,分别经济、社会福利、社交和心理。感到融入“是”的比例为7/15,感到融入“否”的比例为8/15。

计算总体熵,假设D为表1所有的数据集合,经计算可得:

这里将Entropy(D)记为缩写E(D),所以E(D)≈0.997(保留三位小数,下同)。

2.2.2 计算特征下的条件熵

4个特征即C1为经济、C2为社会福利、C3为社交、C4为心理,将两个大类记为B1与B2,分别用A1、A2和A3代表经济因素影响的高、中、低三个程度。

(1)以经济为特征计算条件熵表(如表2所示)。

表2 经济特征条件熵表Tab.2 Entropy table of economic characteristic conditions

根据经济为特征的熵:

H(D/C1)=PC1×H(D/C1A1)+

PC1×H(D/C1A2)+PC1×H(D/C1A3)

(4)

根据公式(2)可得样本特征为经济的高、中、低的熵:

以经济为特征的熵:

(2)以社会福利为特征计算条件熵(如表3所示)。

表3 社会福利条件熵表Tab.3 Entropy table of social welfare conditions

根据社会福利为特征的条件熵:

H(D/C2)=PC2×H(D/C2A1)+

PC2×H(D/C2A2)+PC2×H(D/C2A3)

(5)

H(D/C2A3)=-0log20-log21=0

以社会福利为特征的熵:

(3)以社交为特征计算条件熵(如表4所示)。

表4 社交特征条件熵表Tab.4 Entropy table of social feature conditions

根据社交为特征的条件熵:

H(D/C3)=PC3×H(D/C3A1)+PC3×H(D/C3A3)

(6)

以社交为特征的熵:

(4)以心理为特征计算条件熵(如表5所示)。

表5 心理特征条件熵表Tab.5 Entropy table of psychological feature conditions

根据心理为特征的条件熵:

H(D/C4)=PC4×H(D/C4A1)+PC4×H(D/C4A3)

(7)

以心理为特征的熵:

2.2.3 计算信息增益

信息增益通过以下公式计算,并选取出最大的信息增益作为树的根节点,也就是最重要因素的决出。

Gain(D/Ci)=E(D)-H(D/Ci)

(8)

Gain(D/C1)=E(D)-H(D/C1)=0.997-0.805=0.192
Gain(D/C2)=E(D)-H(D/C2)=0.997-0.860=0.137
Gain(D/C3)=E(D)-H(D/C3)=0.997-0.990=0.007
Gain(D/C4)=E(D)-H(D/C4)=0.997-0.971=0.026

选取具有最大增益的特征作为树的根节点,也就是经济因素C1作为根节点。

(1)接下来进行数据集划分,经济因素影响程度高(C1A1)对应表1的数据集为X1={1,2,3,4,5};经济因素影响程度中(C1A2)对应表1的数据集为X2={6,7,8,9,10};经济因素影响程度低(C1A3)对应表1的数据集为X3={11,12,13,14,15}。

(2)进行数据集的划分后,对每个数据集进行决策树算法,在数据集的子集中求出各个子集信息增益,从而得到X1中C2特征最为显著,也就是信息增益最大,将其设置为分枝根节点。同理,在X2中的信息增益最大的也是C2,对C2再进行决策树算法,同时对其数据集划分得到C2特征中高的信息增益为特征C4,C2特征中的信息增益较高的为C3,所以得到信息增益在各个特征下的信息增益排序,各个特征下低的部分皆为否类,并画出决策树的图(如图1所示)。

3 结论(Conclusion)

根据实验结果和数据决策树分析图可知,经济因素是第一影响因素,社会福利因素是次要影响因素,这反映了农民工对社会福利的关心程度较高,从侧面反映了农民工只有在强烈感受到社会保障(如医疗和教育)的福利之后,才会降低城市无法融入感,甚至认可自身融入城市。对政府来说,完善社会福利体系,医疗、教育、保险都是很重要的方面。同时,对于社会福利的微观方面,应该尽力帮助农民工对享受到保障措施的程序简单化,杜绝各种享受福利需要各种部门盖章的烦琐程序,让农民工感受到城市对其的包容。研究表明,心理和社交因素对于农民工城市融入的影响程度比较低。农民工是否觉得自己受到歧视以及影响其城市融入的程度并不是那么在意,更多的是关心自己的经济收入和社会福利是否得到保障。政府需要加强农民工的心理健康建设,例如让农民工重视工作的长远规划,建立职业信心与生活信念等。

猜你喜欢
社会福利决策树增益
基于增益调度与光滑切换的倾转旋翼机最优控制
基于单片机的程控增益放大器设计
电子制作(2019年19期)2019-11-23 08:41:36
一种针对不均衡数据集的SVM决策树算法
基于Multisim10和AD603的程控增益放大器仿真研究
电子制作(2018年19期)2018-11-14 02:37:02
决策树和随机森林方法在管理决策中的应用
电子制作(2018年16期)2018-09-26 03:27:06
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
可否把宽带作为社会福利
社会福利
江苏年鉴(2014年0期)2014-03-11 17:10:04