决策树算法在高校学生就业分析中的应用研究

2016-11-14 03:27:51张永雄余丙军邓志虹
现代计算机 2016年29期
关键词:英语水平决策树类别

张永雄,余丙军,邓志虹

(1.广州工商学院经济贸易系,广州 510850;2.华南理工大学计算中心,广州 510641)

决策树算法在高校学生就业分析中的应用研究

张永雄1,余丙军2,邓志虹1

(1.广州工商学院经济贸易系,广州510850;2.华南理工大学计算中心,广州510641)

随着大数据分析技术的快速发展,对于高校就业信息的海量数据,如何有效地利用这些数据,发掘有价值的知识,是目前高校研究的热点课题。提出一种利用决策树算法分析就业信息的方法,并通过实例验证其可行性,为高校决策部门改进教学管理提供有价值的参考方案。

决策树;信息增益;准确率

2015广东省青年创新人才类项目(No.2015WQNCX160)

0 引言

近年来,全球经济面临下行压力,随着高校招生规模的扩大,会导致毕业生就业形势不乐观,毕业生就业方式变得自主化和多元化。如何充分利用过去毕业生的就业信息资源,来挖掘有价值的信息,使得高校相关部门做出正确的决策,是目前高校研究的热门课题。尽管数据挖掘技术在商业界上的应用取得了显著的效果,但在教育界上的应用却比较少。本文利用决策树算法对电子商务专业毕业生的就业信息进行分析,找出影响毕业生就业的主要因素及其之间的关系,为高校决策部门提供一种数据分析的可行方案。

1 分类分析与决策树算法

1.1分类分析的概述

分类就是要把一个事件或对象划定到给定的类别上。例如,小额贷款公司可以根据收入水平、工作情况和教育程度等信息给客户进行信用风险的分析,确定客户的风险等级。分类的过程一般是包含两个步骤:首先,分析已有的数据,建立一个分类的模型以描述数据属性与类别之间的对应关系;其次,利用所获得的分类模型对新数据进行类别预测。

在分类分析过程中,对于分类模型准确率的分析是必不可少的。要使得一个分类模型被认可,那么分类模型的准确率必须要符合规定的要求。

1.2决策树算法

决策树是一个类似流程图的树形结构[1],决策树分类方法以树的形式采用自上而下的方式给出分类规则。决策树包含两类节点:内部节点和叶子节点。其中,每个内部节点代表对一个属性的测试,该属性是分裂属性,这是由于根据该属性的不同取值可以把数据分成不同的部分。

使用决策树方法一般分为两个阶段:一是决策树构建;二是决策树剪枝。决策树构建是指训练集得到一个基础的树形结构。但是,在决策树构建的过程中,会有许多由噪声或异常数据所产生的分枝。因此,决策树减枝就是识别并消除这些分枝,提高分类的准确性。

本文采用信息增益方法的决策树。信息论认为:一个信息所表达的信息量取决于它的概率p,并且可以用-log2(p)表示其包含的信息量[2]。

定义1 假设|T|是表示数据集T的记录总数,f(Ci,T)表示数据集中属于类别Ci的记录总数,则:

定义2假设数据集T中的属性D有k个不同的取值,那么可以把数据集T分为k个子集T1,T2,…,TK,则该属性D的平均信息量为:

定义3根据属性D对数据集T的划分,信息增益为:

构建决策树的基本过程是[3]:创建一个节点N,如果该节点中的所有样本均为同一个类别C,那么返回N作为一个叶子节点,并标记为类别C;如果候选集为空,那么返回N作为一个叶子节点并标记为默认类别C_default。从候选属性集中选择最优分裂属性D,把节点N标记为D,然后从候选集中删除D,对于D中的每一个取值,都要建立测试分枝。递归以上过程,直到当前节点所有样本均为同一类别,或者候选集为空,标记该节点为默认类别,或者某一分枝没有符合测试条件的样本,创建一个叶子节点并将其标记为默认类别。

2 决策树在就业分析中的应用

2.1数据采集

高校对每一年的毕业生都有数据的统计,本文在众多的数据属性中,选一些用人企业较为关心的属性作为研究内容。本文选取毕业生中性别、专业综合成绩、英语水平、计算机等级、专业技能等级、社团经验(含学生会)和毕业生起薪作为研究的数据属性。在电子商务专业应届毕业生中随机选取11名学生的信息作为研究的数据集。

2.2数据清洗和转换

在采集的数据中,必须对数据进行清洗和转换。例如,在专业综合成绩里,教务信息系统导出来的数据是学生各门课程的成绩,那么需要取其平均成绩,80分以上为良好及以上,60到80(不含)为及格。本文研究的是毕业生起薪与各项属性的关系情况,把毕业生起薪作为类别,分为三类,分别是A1,A2和A3,其中,A1表示少于2000元,A2表示2000(含)到3500元,A3表示3500(含)元以上。所以,经过清洗和转换后的数据如表1所示。

表1 学生样本就业信息表

2.3构建决策树

根据前面的定义可知,首先计算数据集T的平均信息量:

然后,计算每一个决策属性的期望信息量。如英语水平的期望信息量为:

所以,属性“英语水平”的信息增益为:

gain(英语水平)=info(T)-info英语水平(T)=0.845351

同理,可算出属性性别,专业综合成绩,计算机等级,专业技能等级,社团经验的信息增益分别为

gain(性别)=0.060879;

gain(专业综合成绩)=0.1831498;

gain(计算机等级)=0.0790364;

gain(专业技能等级)=0.1943273;

gain(社团经验)=0.2426972;

通过比较,可知英语水平的信息增益是最大的,因此,最优分裂属性为“英语水平”。由于当英语水平为四级时,所有的样本都属于同一类别,所以为该分枝创建一个叶子节点,标记为类别“A3”。

接下来,对英语水平为二级B的数据组成的节点进一步选择分裂属性,此时需要重新计算数据集的熵。通过递归以上步骤,最后生成的决策树如图1所示。

2.4规则知识描述

通过图1可以提取分类规则,从根节点向下到每个叶子节点所进过的路径都可以提取一条分类规则。提出的规则如下:

(1)IF(英语水平=四级)THEN毕业生起薪=A3(即工资大于或者等于3500元)

图1 学生样本的决策树

(2)IF(英语水平=二级B)AND(社团经验=有)THEN毕业生起薪=A2(即工资介于2000到3500元之间)

(3)IF(英语水平=二级B)AND(社团经验=无)AND(专业技能等级=高级)THEN毕业生起薪=A2(即工资介于2000到3500元之间)

(4)IF(英语水平=二级B)AND(社团经验=无)AND(专业技能等级=中级)THEN毕业生起薪=A2(即工资少于2000元)

从以上规则可知,对于电子商务专业的学生来说,如果英语水平是四级以上的,工资普遍都比较高,其次,企业比较重视学生的社会实践经验,接着才是专业技能等级。

3 结语

本文利用决策树算法建立了一个简单的学生就业信息分析模型。该模型能较好地反映出目前企业需要具有哪些技能的电子商务专业学生,为学校及教研室对课程的改革,教学管理的改进都有非常好的参考价值。但是,由于样本量少,模型并非完全反映出企业的真实人才需要。该模型通过k倍交叉验证法[4]进行准确率的评估,得到65%的准确率,这个准确度不算理想,也许是样本量太小或者由其他因素造成。尽管如此,本文给出了一种利用决策树分析高校学生就业信息的可行方法,为高校相关部分进行教学管理改革提供了有效的参考方案。

[1]Breiman L,Friedman J,Olshen R,et al.Classification and Regression Trees[M].1984,Nibterey,CA:Wadsworth and Brooks.

[2]Quinlan J R.C4.5 Programs for Machine Learning[M].1993:Morgan Kaufmann.

[3]MEHMED K,闪四清等译.数据挖掘——概念、模型、方法和算法[M].北京:清华大学出版社

[4]毛国君,段立娟,王实.数据挖掘原理与算法[M].北京:清华大学,2007

Decision Tree;Information Gain;Accuracy Rate

Research on the Application of Decision Tree Algorithm in College Students' Employment Analysis

ZHANG Yong-xiong1,YU Bing-jun2,Deng Zhi-hong1
(1.Department of Economy and Trade,Guangzhou College of Technology and Business,Guangzhou 510850;2.Computing Center,South China University of Technology,Guangzhou 510641)

With the rapid development of large data analysis technology,the massive data of employment information for colleges and universities,how to effectively use these data to explore the value of knowledge,which is currently a hot topic of research in Colleges and universities. Puts forward a method of using decision tree to analyze the employment information,and verifies its feasibility through an example,which provides a valuable reference for the improvement of teaching management in Colleges and universities.

1007-1423(2016)29-0061-04

10.3969/j.issn.1007-1423.2016.29.014

张永雄(1982-),男,广东广州人,硕士研究生,讲师,研究方向为数据分析与云计算余丙军(1977-),男,湖北黄冈人,硕士研究生,工程师,研究方向为数据分析与云计算邓志虹(1981-),女,硕士研究生,讲师,研究方向为教育科研方法

2016-08-25

2016-10-10

猜你喜欢
英语水平决策树类别
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
电子制作(2018年16期)2018-09-26 03:27:06
句子教学——提高学生英语水平的奠基石
通道形式与英语水平对大学生英语听力成绩的影响
基于决策树的出租车乘客出行目的识别
服务类别
新校长(2016年8期)2016-01-10 06:43:59
基于肺癌CT的决策树模型在肺癌诊断中的应用
论类别股东会
商事法论集(2014年1期)2014-06-27 01:20:42
中医类别全科医师培养模式的探讨
英语水平
聪明语文(2013年11期)2014-01-08 03:06:40