白杨
摘 要:就业测评研究对大学生就业指导及学科体系的构建具有指导意义,数据挖掘技术应用于就业测评的信息化建设研究中势在必行。本文中笔者采用决策树分析方法对本科高校的就业数据进行分析,给出大学生就业能力测评的影响因素和分类规则。该测评结果为大学生的就业提供理论指导,对教学部门制定专业及课程的培养目标提供思路。
关键词:实践能力;就业测评;决策树;信息增益
中图分类号:G642.3 文獻标识码:A 文章编号:2096-4706(2018)02-0131-03
Research on the Evaluation of College Students' Employment Ability
Based on Decision Tree
BAI Yang
(School of Information Engineering,Eastern Liaoning University,Dandong 118003,China)
Abstract:The research of employment evaluation is of guiding significance to the construction of college students' employment guidance and the construction of the subject system,and the application of data mining technology to the research of the information construction of employment evaluation is imperative.In this paper,the author uses the method of decision tree analysis to analyze the employment data of undergraduate colleges and universities,and gives the influencing factors and classification rules of the evaluation of college students' employability.The evaluation results provide theoretical guidance for college students' employment,and provide ideas for teaching departments to set up professional and curriculum training objectives.
Keywords:practice ability;employment evaluation;decision tree;information gain
0 引 言
近年来,随着全国各大高校的不断扩招,大学毕业生以每年30%的幅度递增,“就业难”已经成为我国大学生特别是本科生面临的严峻问题。造成这一现象的原因除了工作岗位的供需不平衡外,大学生对自己的职业定位不够准确也是一个主要原因。因此,许多高校在学生就读期间开展必要的就业指导,目的是使学生确立正确和合理的职业规划,并以此指导学生的专业学习,为毕业生推荐适合的工作岗位。就业测评是建立在教育学、心理学、行为科学、管理学及计算机技术等基础上的一种科学的综合方法体系[1]。大学生就业能力测评以科学理论为基础,对学生的综合能力给予测量和评价,为企事业单位招聘人才提供依据。随着网络的蓬勃发展,大数据为发现大量有价值的信息提供了有利环境,而数据挖掘技术[2]在大数据环境下各行各业的信息化管理和开发中发挥着重要作用。在高校毕业生管理进程中引入数据挖掘技术,大量的学籍和就业数据可以被充分的利用和开发,从而进行科学的、有效的分析与处理,这对大学生就业测评工作具有重要意义。
1 国内外研究概况
国外的就业测评研究较早,历经数十年的成长,现已经得到了广泛的应用。国外企业通过就业测评来招聘人才。各国的就业测评体系各具特点:美国的就业测评是典型的能力型测评,美国的公司尤其注重员工专长技能的考察和短时间内业务能力的考核,员工所获得的奖金与其工作能力密切相关。他们只有积极努力工作才能得到更多的报酬。德国的人才测评比较严格,他们在招聘人才时更重视个人的专业和实际能力测试。大多数德国的企业均有非常严格的工作成绩考试,定期对员工进行考核。考试的标准分七个等级:A、B、C、D、E、F、G(其中A表示最优秀,G表示最差)。日本企业具有开放型的人才测评轨制。考核包含工作态度、平时成绩和潜能考试,详细的考核种类、项目及方式会根据岗位的不同而有所偏重。
我国的就业测评实施普及率不高,操作中主要引用国外的产品及技术来完成就业测评,不仅对知识实践的测评具有局限性,也不符合中国的文化与国情。大学毕业生的就业测评评估体系缺乏科学性和专业性,学生的总体素质在就业测评体系中得不到真实的体现。因为不同于西方教育,我国学生的个人成绩高并不代表能力高,而国外的测评是以自由、个性、创新为主,高校的授课也强调实践能力的培养,这一特点与中国的大学教育现状存在较大差异。如果照搬国外的就业评测体系,将不能体现我国大学毕业生真正的就业能力。
2 大学生就业测评决策树的构建
本文针对高校的学生学籍数据、就业数据进行挖掘和分析,确立影响就业实践能力测评的因素及规则挖掘的目标。数据挖掘工作从数据采集开始,将数据预处理后得到结构统一、属性合理的数据,然后采用决策树分类方法,构建大学生就业测评决策树,并最终给出测评规则结果。
2.1 数据采集和预处理
第一步,对大学毕业生数据进行采集,此过程工作量较大,且花费的时间较长。本文采集的大学毕业生的信息是某本科院校学生管理系统中的学生基本信息、学生成绩信息和毕业生就业信息。将采集到的约600条数据分为两个部分:2/3的数据作为训练集,1/3的数据作为测试集。因为原始数据存在数据缺失或与实际数据有差异的情况,因此,第二步采用数据预处理技术来提升数据的质量。这一步骤中的属性规约是必不可少的环节,具体分为以下三个步骤:(1)属性的删除,将冗余数据、与挖掘过程不相关数据,从数据表中除掉。(2)属性的泛化,如果属性的取值有许多不同值,就会使分类过程更加繁冗,因此需要进行必要的属性泛化处理,结果见表1。(3)数据清理,对提取的数据集进行检查,将所有数据规范化,删除汇总表中不规范的数据集。
在表1中,学习成绩属性将原始数据的百分制泛化成:优(平均成绩≥90),良(70≤平均成绩<90),差(平均成绩<70)。获奖结果分为:有(获得过奖学金或者校级及以上的奖励)和无(没有得到过任何奖励)两种。实践能力分为三个等级:优、良、差。英语水平分为两种:优(CET6及以上所有等级的英语水平)和一般(CET4及以下的英语水平)。计算机水平分为两个等级:优(三级及以上)和一般(三级以下)。单位性质能分成A、B、C三类。在众多单位类型中,政府机构、事业单位和国营企业等分到A类,合资和外商独资企业等分到B类,民营企业和城乡企业等分到C类;根据单位效益又分为三个等级:好、一般、差。因此,本研究把大学毕业生的就业单位分为9个档次:好国企、一般国企、差国企、好外企、一般外企、差外企、好私企、一般私企、差私企,他们的类别编号依次是A1、A2、A3、B1、B2、B3、C1、C2、C3。
2.2 决策树构造
根据数据集情况,本文选取了覆盖范围较广泛的几种属性类别A2、A3、B2、B3、C2、C3作为代表,采用经典的决策树C4.5算法[3]进行分析,该算法采用基于信息增益率的方式选择测试属性。决策树模型创建过程如下:
(1)计算分类属性的信息量。对390条训练数据进行分析,其中A2、A3、B2、B3、C2、C3对应的子集元组数分别为s1=32,s2=42,s3=35,s4=62,s5=61,s6=158。根据分类期望值公式,I(s1,s2,s3,s4,s5,s6)=I(32,42,35,62,61,158)=2.3164。
(2)计算每个测试属性的信息量。以“实践能力”属性为例,“实践能力”分成“优”、“良”、“差”三个分支,相应的元组个数分别是99、273及18。首先对“实践能力”为“优”的分支进行计算,统计类A2、A3、B2、B3、C2、C3依次对应的子集元组数是s1=6,s2=4,s3=27,s4=4,s5=52,s3=6。则信息量为I(s1,s2,s3,s4,s5,s6)=I(6,4,27,4,52,6)=1.8633。继续计算“实践能力”为“良”的分支的信息量为I(s1,s2,s3,s4,s5,s6)=I(25,36,18,23,43,128)=2.1930,“实践能力”为“差”的分支的信息量为I(s1,s2,s3,s4,s5,s6)=I(2,5,0,1,2,8)=1.9693。
(3)计算每个测试属性的信息熵。如:
(4)计算每个测试属性的信息增益量。如:Gain(实践能力)=I(32,42,35,62,61,158)-E(实践能力)=0.2174。
(5)计算每个测试属性的信息增益率。如:
(6)根据上面(1)-(5)步骤,分别得到其余各属性的信息增益率:学习成绩=0.0831、性别=0.0313、专业=0.0532、政治面貌=0.0232、获奖情况=0.0813、英语水平=0.0865、计算机水平=0.0468。由结果可知,信息增益率数值最大的属性是“实践能力”,故“实践能力”是决策树的根结点。根据它的三个属性值,对样本继续划分,并重复(1)-(5)步骤,分别计算除了实践能力外的各个属性的信息增益率最大值,得到实践能力为“优”的分支节点属性是“英语水平”,实践能力为“良”、“差”的分支结点均是属性“获奖情况”,如图1所示。
再次重复(1)-(6)步骤,确定其他的分节支点,如图2为实践能力为差的获奖情况分支决策树示例,图3实践能力为优的英语水平分支决策树示例。
3 分类规则分析
根据构建的决策树,可以得出多条分类规则,如实践能力为优、英语水平为优且有获奖的学生,就业岗位趋于外企和私企;实践能力为优、英语水平为优且是党员的学生,就业岗位趋于国企和私企。总结这些分类规则后能够得出,实践能力较强和外语水平较高的毕业生绝大多数可以工作在质量较高的企业;虽然拥有一般的实践能力,但是取得过荣誉证书的毕业生,基本上可以在外企或者国企中相对优质的单位找到工作,绝大多数不仅没有获得过奖励,而且实践能力等级一般的毕业生多是在相对差一点的企业找到工作。以上结论为高等院校毕业生的就业指导工作提供了有力的数据支持,相关部门可以据此制定一系列就业指导策略。比如影响大学毕业生就业情况是否乐观的重要因素是实践能力和外语水平,如果毕业生在校期间可以多参加社会实践等活动,加强对综合素质的培养,并且尽最大的努力通过四、六级考试,将会为自己创造更好的就业前景。英语能力也是私有企业注重的一项条件。
另外,高等院校要在确保大学生掌握好专业知识的前提下加强对學生实践能力和外语水平的培养,进而达到提高大学毕业生就业水平的效果。
4 结 论
针对当前大学生就业难、工作岗位供需不平衡等问题,根据学生的学籍信息及就业信息,采用C4.5方法构建了就业能力测评的决策树模型,获得了学生的就业影响因素和分类规则。
依据就业测评结果,学生能获得科学有效的就业指导,纠正自己盲目的择业心态,认识真实的自己,并完善自身不足,确立恰当的确立职业发展方向和目标。学生依据就业测评体系在平时的学习中制定规划,可完善就业道路,并逐渐提高就业能力。同时,学校也能通过就业测评来帮助指导学生从业,提高毕业生就业率。由于数据采集对象的局限性,本文的挖掘结果并不适用于不同级别的高校。未来的研究将扩大数据采集范围,构建针对不同级别高校的就业能力测评体系。
参考文献:
[1] 马俊贤.数据挖掘算法在人才测评中的研究与应用 [D].太原:中北大学,2008.
[2] JiaweiHan,等.数据挖掘概念与技术 [M].北京:机械工业出版社.2012:105-106.
[3] Quinlan,J.R.,C4.5:programs for machine learning.Morgan Kaufmann Publishers Inc,1992.