数据挖掘技术在大学生就业分析中的实证研究

2016-03-31 01:56:59赵志刚
关键词:绩点师范类平均分

刘 哲, 赵志刚

(沈阳师范大学 计算机与数学基础教学部, 沈阳 110034)



数据挖掘技术在大学生就业分析中的实证研究

刘 哲, 赵志刚

(沈阳师范大学 计算机与数学基础教学部, 沈阳 110034)

近年来,随着高校招生规模的不断扩大,我国高等教育已逐渐步入大众化教育阶段,高校毕业生所面临的就业压力再次引起人们的关注。针对辽宁省内高校毕业生的定量分析及预测比较少见,提出将数据挖掘技术应用到高校就业分析中。首先提取了省部分高校毕业生的基本信息库、成绩数据库,等级考试数据库及就业信息数据库,并对数据库进行了抽样及预处理;其次应用数据挖掘技术中的ID3算法及数学统计方法挖掘出与就业相关的分类规则,通过分类规则找出影响毕业生就业单位性质的主要因素;最后根据分析给出促进高校就业的决策建议:提高大学生的基础与专业素质;大学生要转变就业观念,理性调整期望值;有意识地积累和利用社会资本。

大学生就业; 数据挖掘; 决策树; ID3算法

0 引 言

近年来,高校毕业生所面临的就业压力再次引起人们的关注[1]。面对就业难题,就业指导专家通常会根据历年就业的现象或数据,对未来的就业趋势进行预测。就业预测可分为定性预测和定量预测。定性预测往往是专家在缺乏统计数据的情况下,做出比较正确的判断和推测[2]。没有数据支撑的预测通常精度不高。定量预测是根据调研的数据资料,运用数据挖掘技术或数学统计方法,对预测目标做出定量测算的预测方法[3-4]。据文献[5]所知,我国正在逐步建立覆盖全国高校学生,集双向选择、信息咨询、决策支持等功能为一体的国家级示范性就业信息公共服务平台[5-6]。鉴于目前辽宁省高校毕业生的定量分析及预测还很少见[7],文中考虑应用数据挖掘技术中的分类决策树方法[8-9],数学统计方法等挖掘出促进就业的有价值的信息,并提出促进高校就业的政策建议,以供参考。

1 数据预处理

教育系统存储的关于学生的信息基本都是准确的,完整的,对时间敏感度不高[3]。因此,文中对某师范院校的毕业生招生就业指导中心、教务处、各学院教学管理等职能部门进行了科学详实的调查研究,并通过学校的信息化共享平台获取了毕业生的基本信息库、成绩数据库,等级考试数据库及就业信息数据库。

对获得的数据进行了数据预处理[10]:首先应用数据清洗技术对缺损数据、相似重复信息等进行了处理,提高了数据质量;其次进行了相关性分析,去除与分析无关的属性;最后对数据进行了概化操作[11]使数据适合数据挖掘,为数据挖掘做好准备。处理后的抽样数据如表1所示。

表1 预处理后的学生就业抽样数据

2 基于数据挖掘的就业分析

2.1 决策树的相关理论基础

决策树也称判定树,决策树方法是数据挖掘的核心技术之一[12]。ID3算法是其中最著名的一种[13]。分类决策树ID3算法通常分为2个阶段,即树的生成与剪枝。其中生成树的算法具体处理过程可以分为3个步骤[10]:计算给定样本分类所需的总信息熵;计算每个属性的信息熵;以及计算信息增益。

2.2 基于分类决策树的就业分析

在基于数据库系统的决策技术中,通常应用信息论的相关技术研究条件属性对于决策属性的影响[14]。文中将“单位性质”作为决策属性,将“毕业资格”“平均学分绩点”“等级考试证书”“政治面貌”“性别”及“贫困生”属性作为条件属性。

1) 建立分类决策树

图1 分类决策树

构建分类决策树首先从样本训练集中选择“单位性质”作为决策属性,也就是分类决策树的叶子节点,其次应用数据挖掘技术的ID3算法计算出每个属性的信息增益[15]从大到小依次为“毕业资格”“平均学分绩点”“等级考试证书”,“政治面貌”“性别”“贫困生”属性。根据高等师范院校女多男少的实际情况,对“性别”属性进行了特别的关注,计算“性别”属性的信息增益值仅为0.000 5,比最小的“政治面貌”属性的信息增益还小几百倍,即“性别”属性对决策树的影响会很小,因此忽略“性别”属性。同样,也忽略“贫困生”属性。由于“毕业资格”属性的信息增益和“平均分绩点”属性的信息增益相似,从而得知“平均分绩点”直接影响“毕业资格”,因此文中选取了“平均学分绩点”属性作为条件属性,并将“等级考试证书”,“政治面貌”属性作为条件属性,即决策树的条件属性,如图1所示。

2) 根据分类决策树提取部分分类规则

规则1 If平均分绩点=“≥3.0”and等级考试证书=“有” and政治面貌=“党员”then 单位性质=“事业单位”;

规则2 If平均分绩点=“≥3.0”and等级考试证书=“有” and政治面貌=“非党员”then 单位性质=“国有企业”。

……

从生成的分类决策树及分类规则中可以看出首先平均分绩点≥2.0的毕业生基本都能就业,并且平均分绩点的高低是影响就业工作性质的主要因素。平均分绩点≥3.0的毕业生并且拿到等级考试证书,在此基础上若是党员则到事业单位就业的概率非常大;平均分绩点≥3.0的毕业生并且拿到等级考试证书,基本都能到国有企业就业;平均分绩点<3.0并且≥2.0的毕业生并且拿到等级考试证书或者是党员,基本都能到国有企业就业;而平均分绩点<3.0并且≥2.0的毕业生且没有等级考试证书或者非党员,只能到其他企业就业。

2.3 基于数据统计的就业分析

依据分类决策树得出“平均分绩点”“等级考试证书”及“政治面貌”属性对毕业生的就业单位性质有影响,那么对于师范院校的不同专业,不同性别对就业单位性质是否有影响呢?数据分析如下。

1) 对理科师范类毕业生的就业去向进行了统计分析,如图2所示。图中数据表明师范专业毕业生毕业后不一定都从事教育事业,去企业就业的人数占到近50%,因此可以预测未来毕业生到企业就业的机会较大。

2) 对文科非师范类毕业生的就业去向进行了统计分析,如图3所示。图中数据表明该系毕业生毕业后去其他企业就业的人数占到56%,出国占9%,国有企业占14%,事业单位没有,可见该文科专业到事业单位就业机会不大。

图2 某理科师范类毕业生就业单位性质比例

图3 某文科非师范类毕业生就业单位性质比例

图4 某艺术类毕业生就业单位性质比例

3) 对艺术类非师范类毕业生就业去向的进行了统计分析,如图4所示。图中数据表明该系毕业生毕业后去其他企业就业的人数占到81%,明显高于其他任何方式的就业比例。因此,可以从整体上预测明年毕业生到其他企业就业的机会相当大,应该多留意企业就业信息。如果说该专业只能到其他企业就业,那么从就业形式来讲太单一了,该专业应该注重学生各种能力的培养,拓宽就业渠道,以便抓住更多的就业机会。

4) 对男生、女生的就业数据进行了统计分析说明性别差异对就业影响并不明显。

社会上普遍认为男生和女生就业不平等。女生由于自身的因素很多工作难以胜任或者难以长期任职,因此无论在就业机会、或者在工资水平上女生都是相对的弱势群体。而我校是师范类院校,女生比例占70%以上,因此文中对我校男生、女生的就业数据进行了统计。统计显示,某校某届毕业生总数5 615人,其中男生1564人,占毕业生总数的比例为27.85%;而待就业人数共213人,其中男生60人,占待就业人数比例为28.17%。从统计数据来看,男生的待业人数比例并不比女生待业人数比例少,相反还多一点,这说明性别差异对师范院校就业率基本没有影响,这与文中2.2节中计算的“性别”属性的信息增益很小,即“性别”属性对决策树的影响将会很小的结论相吻合。因此,在以后的统计分析过程中可以忽略“性别”属性的影响。

5) “异常”结论

根据数据统计后得出了一个“异常”的现象,如表2特困生就业信息表所示。毕业资格为“未通过”并且平均学分绩点为不及格的特困生就业成功率100%。一般认为未通过是影响就业的重要因素,这显然不太符合常规的思维。

表2 特困生就业信息表

通过对毕业生所在系、工作单位及本人进行了走访,得到以下结论:事实表明越来越多的用人单位更加注重学生的综合能力和团队合作意识,而特困生往往为了生存的需要,提前进入社会,这恰好为特困生扩大了交际范围、增加了社会资本。

3 促进大学生就业建议

根据数据挖掘技术的就业分析结果提出了3点促进大学生就业建议:

1) 提高大学生的基础与专业素质。从就业指导决策树看出,单位性质为事业单位或国有企业非常看重平均学分绩点高的毕业生,而平均学分绩点的高低能够真实的反映基础与专业素质的好坏。因此,学生在校学习期间应当具有高度的危机意识,努力提高自身的基础与专业理论知识、专业技能水平。

2) 大学生要转变就业观念,理性调整期望值。统计数据显示师范类毕业生不一定都到教育单位就业,到其他企业就业的毕业生达到近50%。说明大学生要转变就业观念,要客观认识就业形势,理性调整期望值,要用长远的眼光看待就业,树立“先就业求生存,后择业谋发展”的思想。

3) 有意识地积累和使用社会资源。在第2.3部分中提出“异常”分析应该引起重视,特困生成功就业的根本原因就是主观意识上就要先就业以减轻家里的负担,因此在校期间无形中积累了社会资源。因此,大学生应该先树立主观意识,再逐步的积累和使用社会资源。

[1]程煜,李鹏. 大学生就业创业与“互联网+”[J]. 山西高等学校社会科学学报, 2015,27(7):73-76.

[2]宋志海,徐珮杰. 高校就业指导工作的误区及对策[J]. 中国大学生就业, 2006(4):41-42.

[3]李金华. 论数据挖掘技术在大学生就业系统中的应用[J]. 电脑编程技巧与维护, 2010(9):40-42.

[4]李春青. 数据挖掘技术在高校信息化管理中的应用[J]. 软件导刊, 2015,2(14):155-156.

[5]方伟. 大学生就业工作信息化信探索[J]. 理论前沿, 2013(4):3-6.

[6]国务院办公厅. 国务院办公厅关于做好2013年全国普通高等学校毕业生就业工作的通知[EB/OL]. (2013-05-16)[2015-06-22]. http:∥www.gov.cn/zwgk/2013-05/16/content_2404378.htm.

[7]赵岩,张悦. 辽宁省大学生自主创业的现状、问题和对策研究[J]. 辽宁教育行政学院学报, 2015(1):47-50.

[8]杨断利,张锐,王文显. 基于模糊决策树的高校就业数据挖掘研究[J]. 河北农业大学学报, 2012,35(2):111-114.

[9]张云涛,龚玲. 数据挖掘原理与技术[M]. 北京:电子工业出版社, 2004:42-45.

[10]李文峰,黄席樾. C4.5算法在国防生素质分析中的应用[J]. 计算机应用, 2007,26(7):36-39.

[11]闫禹. 数据挖掘技术在高校学生就业指导决策中的运用[J]. 沈阳工业大学学报, 2007,29(3):344-346.

[12]雷松泽,郝艳. 基于决策树的就业数据挖掘[J]. 西安工业学院学报, 2005,25(5):429-432.

[13]江明华,唐娅琴. 用ID3算法对高校计算机教学中学生成绩的分类研究[J]. 计算机与数字工程, 2008,36(5):51-54.

[14]杨帆,刘运. 基于信息熵和贝叶斯方法的就业指导辅助决策技术[J]. 陕西科技大学学报, 2009,27(2):99-103.

[15]辛立章,陈春香. 数据挖掘技术在高校毕业生就业指导中的应用[J]. 电脑知识与技术, 2007,3(13):1-2.

Analysis and calculation of high school graduate student based on data mining

LIUZhe,ZHAOZhigang

(Fundamental Education Division of Computer and Mathematics, Shenyang Normal University, Shenyang 110034, China)

In recent years, Higher education has become more and more popular in China with the continuous expansion of the universities and colleges. The fact that college graduates are under great pressure in finding jobs is attracting a lot of attention again. Because little quantitative analysis and forecast taking aim at Liaoning Province college graduates has been made, this paper raises that the data mining technology is applied to the analysis of the job obtaining of college graduates. Firstly, some databases about partial college graduates are referred to in this paper, for example, database of graduates’ basic information, scores database, database of level examination and database of employment information. The sampling and pretreatment of the database is carried out. Secondly, the ID3 algorithm is applied to build a decision tree and find out the main factors influencing graduates’ employment property by classification. Finally, the proposals are given according to the analysis to promote the graduates employment, which include basic and professional skills of graduates, change of expectation and conception of selecting their jobs, cultivation of the consciousness of accumulating and utilizing social resources actively.

graduate employment;data mining; decision tree; ID3 algorithm

2015-10-12。

辽宁省经济社会发展立项课题(2015lslktjyx-08); 辽宁省教育厅教学改革项目(UPRPI2014096)。

刘 哲(1977-),女,辽宁沈阳人,沈阳师范大学副教授,硕士。

1673-5862(2016)01-0105-04

TP311

A

10.3969/ j.issn.1673-5862.2016.01.024

猜你喜欢
绩点师范类平均分
这样做合理吗
教你学会平均分
阅读与写作:高职师范类学生语文课堂核心教法初探
基于完全学分制下的独立院校的平均绩点计算方法
平均分一半
浙江:中职非师范类专业新教师需进课堂下企业
新课程研究(2016年1期)2016-12-01 05:52:02
中小学师范类与非师范类教师的教学能力差异状况及成因分析
浅析师范类高校化学实践教学的改革和探索
国内高校学分制绩点度量模式的比较与研究
江苏高教(2014年2期)2014-09-04 06:15:18
学分制下绩点设定形式探讨