基于决策树的大学本科毕业生就业影响因素分析
——以北京林业大学信息学院为例

2017-03-30 06:34:48张琳瑜王凤超韩子玥
中国林业教育 2017年2期
关键词:北京林业大学决策树类别

张琳瑜 王凤超 韩子玥

(北京林业大学信息学院,北京 100083)

基于决策树的大学本科毕业生就业影响因素分析
——以北京林业大学信息学院为例

张琳瑜 王凤超 韩子玥

(北京林业大学信息学院,北京 100083)

随着高校招生规模的扩大,本科毕业生的就业形势日益严峻。大学生是国家宝贵的人才资源,有效地解决大学生就业问题对促进国家全面发展有重要的意义。为此,基于对北京林业大学信息学院2010~2014届部分本科毕业生的就业地区类别和城市类别、就业方向等基本就业信息数据的预处理以及采用描述性统计方法进行的整体分析,从就业地区类别和城市类别、学习水平、生源所在地、专业、参加创新实践活动情况等方面对本科毕业生就业方向的影响因素进行了探究,并采用决策树数据挖掘方法建立了就业决策树模型,对就业影响因素之间隐含的关系进行了深入分析,从而为促进高校本科毕业生成功就业提供了有价值的决策依据,也为高校制定科学合理的人才培养计划提供了相应的参考依据。最后,根据分析结果提出了促进高校本科毕业生成功就业的合理化建议,包括推动高校制定创新人才培养计划;促进人才流动,优化教育资源配置结构;提高大学生主动学习的能力;引导大学生树立正确的就业观等。

本科毕业生;就业影响因素;就业方向;数据挖掘;决策树

相关调查结果显示,近年来我国高校的毕业生人数呈逐年上升趋势,大学毕业生的就业形势越来越严峻,面临的就业压力也越来越大。大学毕业生的就业也成为备受社会关注的热门话题。因此,深入探究本科毕业生就业的影响因素,并据此改革本科毕业生就业制度,完善高校就业指导工作,积极探索解决本科毕业生就业问题的新方法和新思路,从而有效地促进本科毕业生顺利就业,不仅是一项惠及民生的重大工程,而且对构建和谐社会、提升国家综合实力具有重要的意义。

为此,笔者以北京林业大学信息学院信息管理与信息系统、计算机科学与技术、数字媒体艺术、计算机科学与技术(艺术设计)和动画专业2010~2014届部分本科毕业生的就业信息为研究对象,运用数据挖掘技术对有价值的信息进行了提取和分析。由于就业数据具有分类的预知性和离散性等特点,所以笔者选择决策树C5.0算法建立了分类决策树,从本科毕业生的学习成绩、英语四级和六级成绩等级、生源所在地、专业、参加大学生创新创业训练计划(以下简称“大创”)情况、是否有不及格科目的情况、就业地区类别和城市类别等多个角度,对本科毕业生就业影响因素进行了探究,以期发现大量数据中隐藏的规律和数据之间的关系,从而为本科毕业生的就业指导、鼓励本科毕业生提升自己的综合素质和增强自身竞争力等提供具有说服力的依据。

一、北京林业大学信息学院本科毕业生就业信息的分析

(一)数据预处理

数据挖掘的定义有很多种,其中被普遍采用的定义是:数据挖掘又称为数据库中的知识发现(knowledge discovery from database,简称KDD),是一个从大量数据中抽取和挖掘出未知的、有价值的模式或规律等知识的复杂过程[1]。数据挖掘可以在海量数据中抽取有价值的信息,从而帮助人们做出准确的预测和分析。数据清理、数据集成、数据转换、数据规约是数据预处理常用的几种方法[2]。

笔者采用忽略元组的方法把北京林业大学信息学院信息管理与信息系统等4个专业2010~2014届本科毕业生就业信息中基本信息不完整的记录删除掉,得到有效记录1 135条;并对研究所要利用的数据按以下类别进行了划分:①就业地区类别:东部、中部、西部、其他(出国);②就业城市类别:直辖市、省会或计划单列市、其他城市、其他(其他国家);③就业领域类别:出国、升学、部队、其他职业(企业、事业单位、政府部门等)、其他(待就业、其他灵活就业、自由职业等);④学习成绩等级:A、B、C、D、E;⑤英语四级和六级成绩等级:A、B、C、D、E。

(二)基本就业信息分析

1.本科毕业生就业地区类别和城市类别的分析

(1)就业地区类别的分析

近年来,我国东部、中部、西部地区就业市场的情况不断变化。其中,东部地区的人才需求虽然经历了2010—2012年的持续下降,到2013年占全国人才需求总量的比例已下降到了61.9%,但总的来说在全国人才需求市场中所占的份额仍然遥遥领先,成为本科毕业生就业的主要地区;中部地区的人才需求一直在稳定增长;西部地区的人才需求所占份额虽然在三大地区中一直处于落后地位,但除了2013年有较小幅度的回落之外,每年都在以微小的幅度增长。在就业地区类别划分中,其他地区主要是指国外。数据显示,我国本科毕业生出国继续学习或工作的比例一直处于有升有降的波动中。

从总体上看,人才需求市场在我国三大地区的发展严重不平衡,具体表现为东部地区所占份额最大,中部地区次之,西部地区最少。这与三大地区经济发展水平存在显著差异有很大的关系。有研究认为,我国理想化的就业市场结构比例应该是东部地区占50%、中部地区占35%、西部地区占15%[4]。因此,国家应鼓励本科毕业生积极去西部地区就业,一方面促进西部地区的经济发展,另一方面促进我国就业市场结构比例的优化。

(2)就业城市类别的分析

目前,我国本科毕业生选择最多的就业城市为直辖市,其次为省会或计划单列市,最后为其他城市,而选择出国的则极少。以北京林业大学信息学院信息管理与信息系统等4个专业为例,由于北京林业大学地处北京,所以接近半数的本科毕业生选择留在北京就业;由于地理位置相毗邻,所以天津市、河北省省会或计划单列市成为本科毕业生的第二选择;其他的如江苏省、黑龙江省、辽宁省、浙江省的省会或计划单列市在就业选择中也位居前列,而经济不发达、专业人才需求量少的贵州、新疆、西藏等省(自治区)的城市在就业选择中则排名靠后。

可见,一方面,本科就读学校的地理位置在很大程度上决定了本科毕业生对就业城市的选择;另一方面,经济更活跃或以发展高新技术为主的直辖市以及省会或计划单列市,较其他城市提供的就业机会更多,所以对本科毕业生更具吸引力。例如,北京林业大学信息学院的多数专业与软件开发技术和产业的关联很大,而软件开发行业大多分布在经济发达、科学技术水平较高的重要城市,所以就业城市与专业的关联度也是本科毕业生选择就业城市时考虑的重要因素。

2.本科毕业生就业方向的分析

以北京林业大学信息学院信息管理与信息系统等4个专业为例,按照本科毕业生就业领域划分的出国、升学、部队入伍、其他职业(企业、事业单位、政府部门等)、其他(待就业、其他灵活就业、自由职业等)5个类别进行统计分析可以发现:信息管理与信息系统专业本科毕业生选择升学和其他职业(企业、事业单位、政府部门等)的人数最多;计算机科学与技术(艺术设计)专业本科毕业生选择其他职业(企业、事业单位、政府部门等)的人数最多,选择其他(待就业、其他灵活就业、自由职业等)类的人数次之,约占25%;数字媒体艺术专业本科毕业生选择其他(待就业、其他灵活就业、自由职业等)类就业的比例最高,同时相对于其他专业,选择出国的本科毕业生比例最高;动画专业本科毕业生选择其他(待就业、其他灵活就业、自由职业等)类就业的人数较多,大约占50%,这说明该专业的就业率有待提高。此外,由于只有计算机科学与技术(艺术设计)专业招收了国防生,所以只有该专业的本科毕业生选择了部队入伍这一就业方向。

从总体上看,北京林业大学信息学院本科毕业生选择其他(待就业、其他灵活就业、自由职业等)类和其他职业(企业、事业单位、政府部门等)2个就业方向的比例最高,其次是选择升学,而选择出国深造的人数最少。

二、北京林业大学信息学院本科毕业生就业方向影响因素的探究

(一)决策树模型的生成与评价

1.决策树建立

决策树是数据挖掘的一种重要方法。其将大量数据有目的地分类,以树的形式直观明了地显示数据之间的联系,从而帮助用户快速准确地识别特定群体、研究群体之间的相关关系以及预测未来事件。为了对本科毕业生的专业、生源所在地、学习成绩等级、英语四级和六级成绩等级、“挂科”(有不及格科目)情况、参加“大创”情况、政治面貌以及就业地区类别和就业城市类别等因素与本科毕业生就业方向之间的联系进行分析,笔者利用IBMSPSSModeler软件中的决策树模型,主要运用C5.0算法,选取60%数据为训练样本集、40%数据为测试数据集,建立了挖掘数据流,如图1所示。

图1 挖掘数据流的建立

2.决策树剪枝

决策树的剪枝是模型建立后必不可少的一步。

决策树过于复杂会导致样本数据集过度拟合,从而降低决策树的可预测性[5]。为了提高决策树模型的精确率,首先,笔者把修剪严重性设置为80、每个子分支的最小记录数设置为2、推进试验次数设置为10,然后基于此建立10次模型。其中,第1个模型正常建立,而第n(n>l)个模型的建立聚焦于第n-1个模型分类错误的记录,然后通过将分散的预测合并得到综合的预测。接着,笔者将交叉验证折叠次数设置为10。于是,算法会将数据集分成10份,并且轮流地用其中的9份数据生成1次测试模型,最后取10次测试模型的均值做算法精度估计[5]。剪枝后决策树模型中预测变量的重要性(某条件属性对决策属性的影响程度)如图2所示[5]。

图2 剪枝后决策树模型中预测变量的重要性

3.决策树生成

对决策树剪枝后,最终生成的决策树模型如图3所示。

注:由于版面所限,该图只选取部分决策树模型。图3 决策树模型

4.决策树评价

笔者分别根据训练样本集和测试数据集对决策树模型的预测准确率和置信度进行了分析,分析结果如图4所示。从图4可以看出,训练样本集的各项指标均略高于测试数据集,这说明整体的分析结果相对来说较为理想。

图4 决策树模型的分析

增益值是指每个分位点上的匹配成功数量占全部匹配成功数量的百分比[5]。决策树模型的增益评估如图5所示,最上面的一条线表示理想的增益曲线,中间的一条线是评估模型的增益曲线,最下面的一条直线是基准线。从图5可以看出,训练样本集的增益曲线更接近理想曲线,而测试数据集的增益曲线相比之下略差些。从总体上看,决策树模型取得了一定的增益效果,但是仍有改进的空间。

图5 决策树模型的增益评估

(二)本科毕业生就业方向影响因素的分析

1.就业地区类别和城市类别

图2显示,城市类别对本科毕业生选择就业方向的影响最大。从图3可以进一步发现:在直辖市就业的,选择升学和其他职业(企业、事业单位、政府部门等)类就业方向的本科毕业生人数较多;在省会或计划单列市就业的,选择其他(待就业、其他灵活就业、自由职业等)类就业方向的本科毕业生人数最多,选择升学的较少;在其他城市就业的,选择其他(待就业、其他灵活就业、自由职业等)和其他职业(企业、事业单位、政府部门等)类就业方向的本科毕业生人数较多。总的来说,本科毕业生在直辖市的就业率较高,且选择继续深造的人数处于领先地位。这与直辖市的经济发达、资源集中有很大的关系。

笔者在数据处理和分析中发现,就业地区类别也对本科毕业生选择就业方向有一定的影响。其中,东部地区经济和科学技术较发达,就业机会较多,所以本科毕业生选择在该地区就业的比例较高,而且在该地区选择升学和其他职业(企业、事业单位、政府部门等)类就业方向的本科毕业生人数最多;在中部地区,虽然选择其他职业(企业、事业单位、政府部门等)类就业方向的本科毕业生人数也较多,但相对东部地区而言要少;在西部地区,由于经济发展缓慢导致就业机会较少,所以本科毕业生选择在该地区就业的比例较低。可见,不同就业地区文化、教育和经济水平高低的不同以及拥有资源的丰富程度不同,对本科毕业生的就业方向选择都会产生重要的影响。

2.学习水平

图2揭示了各预测变量对就业方向选择的影响程度。其中,城市类别和学习成绩等级对就业方向选择的影响作用较强,学习成绩的高低决定了本科毕业生是选择继续深造还是选择直接就业。例如,城市类别为直辖市、学习成绩等级为A或B的本科毕业生大多选择升学,而学习成绩等级为D或E的本科毕业生大多选择其他职业(企业、事业单位、政府部门等)直接就业。

笔者在数据处理和分析中发现,学习成绩虽然不能用来评价一个人的综合素质,但是用人单位在初次招聘的时候还是比较看重本科毕业生的学习成绩的。如图2所示,英语六级成绩的重要性高于英语四级成绩,因为英语四级的难度低于英语六级而且通过率较高,所以具备英语四级水平对本科毕业生而言已经成为基本要求,而达到英语六级水平才能体现本科毕业生具有较高的英语水平。同时,从图3决策树模型可以发现,虽然英语六级成绩的等级对本科毕业生选择就业方向有一定的影响,但并未起决定性作用。

此外,如图3所示,“挂科”(有不及格科目)情况对本科毕业生就业方向的选择也有一定的影响。例如,从图3可以发现,就业城市在省会或计划单列市的信息管理与信息系统专业本科毕业生中,有“挂科”情况的学生大多选择其他(待就业、其他灵活就业、自由职业等)类就业方向。可见,有不及格科目不仅会影响学习成绩,而且最终会影响本科毕业生就业的成功率。

3.生源所在地

大学生在就业时必然会优先考虑经济、社会、文化发展较完善的地区。笔者在数据处理和分析中发现,生源所在地在一定程度上决定了本科毕业生的毕业去向。例如,经济、社会、文化发达的北京市、天津市和江苏省等生源地的本科毕业生,在选择就业单位时对原籍所在地的单位有较强的偏好;而生源地为经济、社会、文化发展相对落后的西部和中部地区的本科毕业生,通常不会选择原籍所在地的单位,而趋向于在东部地区就业。这导致了我国中西部地区人才大量流失而东部地区人才过剩的现象进一步加剧。

4.专业

根据上文对不同专业本科毕业生就业方向选择的分析,并结合图3可以发现,本科毕业生的专业不同,就业方向也会有一定的区别;然而专业对就业方向的选择虽然会产生一定的影响,但并不是决定性的因素。例如,有些专业的课程设置过于老化,教学内容与实际要求脱节,不能适应市场的需求;而且专业教育与就业指导工作不能很好地结合,缺乏针对性。这都会对学生的就业方向产生一定的影响。

5.参加创新实践活动情况

从图2可以发现,大学生参加“大创”情况这一因素对本科毕业生就业方向选择的影响力不强。这与参与大学生创新创业训练计划的学生数较少、相关的宣传力度较小等有很大的关系,而且也反映出用人单位并没有把创新思维当作考量应聘者的重要指标。由此可见,高校对大学生创新创业教育重视不够。这导致大学生的实际工作能力、综合素质和就业观念等都难以适应工作岗位的需求,从而阻碍大学生顺利就业。因此,无论是高校,还是社会用人单位,都应进一步重视和加强大学生创新思维能力和探索能力的培养。

三、促进高校本科毕业生成功就业的合理化建议

(一)推动高校制定创新人才培养计划

我国教育部门虽然进行过多次教育改革,但是应试教育始终为各级各类教育普遍实施。这导致本科教育与初高中教育越来越相似,仍主要以取得好的考试成绩为目的,而忽视对学生综合能力的培养。针对在北京林业大学信息学院本科毕业生就业方向影响因素分析中发现的问题,笔者认为,为了促进本科毕业生成功就业,应推动高校制定创新人才培养计划。

首先,高校在制定人才培养计划时,不仅要强调学习成绩的重要性,也要提高对创新能力培养的关注度。创新可以推动一个民族的发展,是不可或缺的精神源泉。高校肩负着为国家培养高级专业人才的重要责任,所以为了推动创新社会的发展,尤应高度重视培养拥有创新思维的专业人才。

其次,为了培养适应时代发展的创新型人才,高校不应再延续初高中教育阶段唯成绩至上的应试教育模式,而应适当调整传统的教学模式,在课堂教学中更多地融入创新思想,以提升大学生的创新意识和能力,为实现“中国制造”转变为“中国创造”、加速中国向创新型国家发展的步伐等,培养大批拥有创新思维和能力的高级专业人才。

(二)促进人才流动,优化教育资源配置结构

教育资源分布不均衡是我国一直存在的问题。有学者提出,可以通过建立分校,迁出部分优质的高等教育资源至三线及中小城市,或者通过高等教育招生计划向不发达地区倾斜等途径,在一定程度上实现教育公平[6]。因此,笔者认为,国家相关部门应采取相应的措施,如支持更多优秀教师前往西北等偏远贫困地区任教、鼓励本科生积极参加爱心支教活动等,以优化教育资源配置,缩小发达地区与相对不发达地区间教育水平和教育条件的差距,从而使更多的学生能够接受优质教育;同时,应该激励生源地在北京、江苏等东部经济发达地区的本科毕业生主动到中西部地区就业,从而通过促进人才流动更好地改善各地区经济发展不平衡的问题。此外,中西部经济发展相对落后地区也应该制定相关的优惠政策,以吸引优秀人才前往。

(三)提高大学生主动学习能力

主动学习能力是大学生应该具备的基本能力之一。对大学生而言,不仅要学习和掌握专业知识,还应该兼顾学习各类有用的知识。因此,高校应在培养大学生具有良好学习态度的前提下,指导其根据自身的特点和未来发展的目标制定适合自己的学习计划,并引导其在学习过程中及时了解社会需求,主动扩大知识面,以保证所学知识具有较高的实用性;同时,在教育教学中重视培养学生批判性思维和创新思维,激发学生学习的自主性。

此外,由于英语是世界上使用最广泛的语言,是与国际接轨的主要语言途径,所以在一定程度上可以说,英语水平是大学生综合能力的一个标志,是大学生必须具备的一种基本素质[7]。尤其是随着我国国际化步伐的加快,英语已成为大学生主动学习的必要工具。因此,高校应注重提高大学生的英语水平,把培养国际化专业人才作为人才培养的目标。

(四)引导大学生树立正确的就业观

为了促进大学生成功就业,高校应引导大学生树立正确的就业观。首先,要引导大学生对当前的就业形势和自身的实力有一个正确的认识,不要把顺利就业仅仅寄托于外界因素的改变上,而应该树立强烈的忧患意识,努力提升自身的学习能力、实践能力、创新能力等,进而提升就业竞争力。其次,要指导大学生在对自己进行全面客观评价的基础上及早制定职业生涯规划,从而使其可以根据自己的个性特点和兴趣爱好对未来有一个明确的规划。最后,要注重培养大学生的职业素养,引导其在学习期间尽可能多地寻找实习和实践的机会,使其通过将所学的专业知识应用到实际工作中进一步加强职业能力的锻炼,从而最终提高本科毕业生的就业成功率。

[1] 王欣.基于数据挖掘的高校学生培养及就业指导研究[D].成都:西南交通大学,2006:5.

[2] 罗锦坤.数据预处理关键技术应用研究[J].福建电脑,2014(3):4-6.

[3] 王立新,许晖.评定学生学习成绩等级的方法[J].延边大学学报(自然科学版),2001,27(4):304-307.

[4] 肖建国.数据挖掘技术在就业指导与本科教学改革工作中的应用研究[D].长春:吉林大学,2008:22-23.

[5] 孙兵.数据挖掘在高校招生中应用的研究[D].合肥:安徽大学,2014:49-51,55.

[6] 何仲禹,翟国方.我国大学生就业城市选择意愿及其影响因素分析[J].人文地理,2015(2):37-42,102.

[7] 赵亚麟.大学生英语水平与就业竞争力关系调查分析[J].中国高等教育,2004(7):47.

(责任编辑 柳小玲)

欢迎订阅《中国林业教育》

《中国林业教育》是由北京林业大学和中国林业教育学会共同主办的全国性林业教育刊物。本刊主要宣传党和国家的教育方针、政策,贯彻国家有关林业教育工作的指示精神,密切联系实际,探索林业教育的规律,交流推广林业教育、教学、管理、科研等方面的改革经验,介绍国内外林业教育的现状、发展趋势和教育科学研究动态。本刊是全国各级各类林业院校教师和学生、教育行政管理部门广大干部及其他关心林业教育的人员进行学术交流的主要园地。本刊一直被国家级图书馆、中国知网、中国核心期刊(遴选)数据库、华艺线上图书馆等收录,连续2届获得国家部委级“梁希林业图书期刊奖”。

《中国林业教育》刊号为ISSN-7232(国际标准连续出版物号)、CN11-2729/S(国内统一连续出版物号),双月刊,80页,全年定价180元。邮发代号为82-201,全国各地邮局均可订阅。未订到本刊的读者,还可直接汇款到本刊编辑部购买。

编辑部地址:北京海淀区清华东路35号北京林业大学

邮编:100083

电话:010-62338090/62338397

在线投稿网址:http://journal.bjfu.edu.cn/jy/

电子邮箱:liuxiaoling@bjfu.edu.cn

北京市大学生科学研究与创业行动计划项目“高等院校创新创业训练项目与人才培养的分析与研究”,项目编号S201510022076。

猜你喜欢
北京林业大学决策树类别
欢迎订阅2023年《北京林业大学学报(社会科学版)》
《北京林业大学学报(社会科学版)》2022年总目次
How to Understand the Story of an Hour Using Id, Ego and Superego
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
电子制作(2018年16期)2018-09-26 03:27:06
Pilot Study for The Relationship Between Politeness and Prosodic Features
基于决策树的出租车乘客出行目的识别
服务类别
新校长(2016年8期)2016-01-10 06:43:59
基于肺癌CT的决策树模型在肺癌诊断中的应用
论类别股东会
商事法论集(2014年1期)2014-06-27 01:20:42