关联规则挖掘在学生就业数据处理中的应用

2017-01-19 07:26宋丽萍韦建国
关键词:项集升学数据挖掘

宋丽萍, 韦建国

(阜阳职业技术学院, 安徽 阜阳 236031)

关联规则挖掘在学生就业数据处理中的应用

宋丽萍, 韦建国

(阜阳职业技术学院, 安徽 阜阳 236031)

以阜阳职业技术学院近年来积累的大量毕业生就业数据为依托, 进行了关联规则挖掘. 按照关联规则挖掘步骤对学生原始数据进行预处理, 针对原始数据不完整、存储格式不同等问题, 进行数据清理、数据集成、数据变换和数据规约, 并建立了学生信息挖掘系统. 该系统通过对学生数据信息的挖掘以及关联规则的形成发现专业课程设置的不足, 以促进专业课程的改革.

数据挖掘; 关联规则; 就业; 频繁项集

高等职业教育的发展为社会培养了大批的技能型人才, 同时也积累了大量的数据信息, 并形成了与之相应的学生信息数据库. 然而, 面对海量的信息, 管理者如何加以利用, 如何从这些信息中发现对教育教学改革有指导意义的因素, 如何让学生毕业以后可以很快适应岗位的需要, 已经成为高职院校所面临的一个重要问题. 本文研究了数据挖掘技术和高职院校学生就业的特点, 实现了将数据挖掘技术应用到高职院校学生就业分析中.

1 数据挖掘

数据挖掘(Data Mining), 就是从数据库中提取信息, 借助计算机系统来进行自动分析, 从中发现有利用价值的知识. 数据挖掘是从大量有噪声的、不完整的或一些随机数据中, 提取出隐含在其中的一些未知的、可能令人感兴趣的、有利用价值的模式或信息. 随着研究的不断深入, 其定义也出现了多元化, 但这仍是数据挖掘目前比较公认的定义, 是早期由U.M.Fayyad等人提出的[1]. 作为一种数据库分析工具和技术, 在各行各业的应用中取得了显著的成效.

2 数据挖掘步骤

从大量数据中寻找有价值、有意义的信息的过程简单地概括起来, 可以分为三步:

第一步是数据准备: 抽取数据源中感兴趣的数据, 并将其组合在一起形成适合挖掘的数据组织形式;

第二步进行挖掘: 指出挖掘任务, 在明确了挖掘任务后, 利用相应的挖掘算法来进行数据挖掘;

第三步是结果的测评: 评估生成的模式是否存在着某种冗余或者是无关的模式, 若存在则将其删除,并判断模式是否满足用户的需求, 如果不满足就要返回到之前的发现阶段, 重新选择数据, 采用新的挖掘算法.

要实现数据库中的知识发现就要将上述的三个步骤进行反复循环, 如图1所示.

图1 据挖掘的过程

3 关联规则

关联规则分析是数据挖掘中一种非常重要的技术, 关联规则模型是由R.Agrawal等人于1993年提出来的. 这种挖掘方法首先要从收集到的要进行挖掘利用的数据库中挖掘出频繁项集, 形成满足最小支持度阀值的项集, 然后从得到的这些频繁项集中找到有意义的规则. 在关联规则挖掘算法中, Apriori算法是众多关联规则算法中最经典的算法, 此算法基于候选项集来产生频繁项集, 然后由频繁项集产生关联规则[2].

4 系统设计

随着高校招生规模的不断扩大, 高职院校学生的人数也迅速增长. 在这样的社会大环境下如何提升高职学生的职业技能和就业能力, 大力促进高职毕业生就业已经成为学校急需解决的问题. 学院也采用了多种措施促进学生就业, 如“双证制(毕业证和技能证)”、“校企合作”、“创业创新培训”等. 然而学生就业受多种因素的影响, 除了学生自身原因以外, 学校也有着不可推卸的责任, 如专业设置, 课程设置是否满足社会需求、学校的管理是否给学生多方面能力的发展提供途径等等. 从已经毕业的毕业生身上挖掘出相关的信息, 并对相关的因素进行分析, 可以帮助学院及时对专业、对课程设置等做出调整, 以提高学生职业能力和就业能力.

本系统是基于Web技术和SQL Server2005来开发实现的. 数据来源于安徽省阜阳职业技术学院教务处、学生处、技能鉴定中心和辅导员.

系统设计的挖掘流程如图2示.

图2 系统流程图

5 数据选择

本系统中学生成绩数据来源于学院教务处的学生成绩管理数据库、学生职业资格认证鉴定成绩数据库.在数据的采集过程中, 充分利用现有资源, 尽可能多的获取原始数据. 从教务处等部门采集到的学生成绩数据表记录了学生各门课程的考试成绩, 学生就业信息数据是从学院的招生就业办公室和学生处获得的.

(1) 学生基本信息表

功能描述: 描述学生的基本情况. 包含“学号”、“姓名”、“籍贯”、“特长”、“获奖情况”、“综合测评”等字段. 数据表结构定义见表1示.

表1 学生基本信息表(student1)数据结构定义

(2) 在校期间学生成绩表

功能描述: 描述学生的在校期间的成绩表. 包含“学号”、“姓名”、“计算机成绩”、“英语”、“机械制图与CAD”、“毛概”、“C语言”、“网页设计”、“数据库”、“网站建设实训”、“图像处理”、“动画制作”、“基础护理学”、“内科护理”等字段. 数据表结构定义见表2.

表2 学生成绩表(student2)数据结构定义

(3) 学生技能鉴定成绩表

功能描述: 描述学生的技能鉴定成绩. 包含“学号”、“姓名”、“技能鉴定成绩”等字段. 数据表结构定义见表3.

表3 学生技能鉴定成绩表(student3)结构定义

(4) 学生就业情况表

功能描述: 描述学生的就业情况. 包含“学号”、“姓名”、“专业”、“联系电话”、“就业单位”、 “就业情况”等字段. 数据表结构定义见表4.

表4 就业情况表(student4)结构定义

以上数据表通过主键“Sno”关联在一起, 构成了数据挖掘所需的关系数据库.

6 关联规则的挖掘步骤

关联规则的挖掘过程主要分为两步:

第一步是从数据集合中生成频繁项集;

第二步是由频繁项集产生关联规则.

相对于学生的相关信息的关联规则挖掘也是基于这个过程进行的.

在生成频繁项集之前, 需将学生相关信息数据库中的表转变成适合关联规则挖掘的数据库. 学生相关信息数据表的转换过程如图3所示.

图3 事务数据库的建立

数据库中的各个信息表的主键是学生的学号, 转换时使用学号将各个表连接在一起. 查询的SQL语句定义如下:

7 数据挖掘结果及分析

(1) 产生频繁项集

对收集到的阜阳职业技术学院2009级计算机专业学生数据进行数据挖掘, 挖掘到的频繁项集见表5.

表5 掘到的频繁项集

(2) 产生关联规则

①关联规则的表达设计

根据学生在校期间的各科专业成绩以及就业情况数据, 挖掘出它们之间的关系, 表达方式设计为:

②根据挖掘出的频繁项集, 产生如下的关联规则:

图像处理 优良⇒网页制作 优良62% 83%

网页制作 优良⇒综合测评 优良23% 58%

技能鉴定 通过⇒就业、升学 45% 92%

获 奖⇒就业、升学 26% 90%

特长⇒综合测评 优良 20% 70%

综合测评 优良⇒就业、升学 42% 85%

计算机网络 优良⇒就业、升学 35% 86%

(3) 结果分析

根据以上得出的挖掘结果, 我们对结果进行如下的分析:

① 图像处理 优良⇒网页制作 优良 62% 83%

此条规则显示的支持率为62%说明图像处理课程学得好、图像处理工具应用熟练的学生, 相应的网页制作也学得比较好. 置信度为83%从侧面告诉我们图像处理课程与网页制作课程有很大关系.

② 网页制作 优良⇒综合测评 优良23% 58%

由此条规则的支持度23%可以看出, 网页制作课程与学生的综合测评关系不大, 但也有一定的影响,信任度并不是很高.

③ 技能鉴定 通过⇒就业、升学 75% 92%

此条规则说明通过技能鉴定的、实践操作比较好的学生, 就业情况比较好, 92%的置信度说明技能鉴定对就业、升学的影响比较大. 企业缺少技术工, 因此学校可以通过提高学生的实践动手能力, 在提高技能鉴定的通过率方面多做努力, 从而提高就业率.

④ 获 奖⇒就业、升学 26% 90%

这条规则说明学生获奖对就业也有一定的影响. 所以学生在校就读期间, 辅导员应鼓励学生努力学习, 积极参加各项活动, 对于提高学生的学习应用能力和与人交流沟通的能力都有很大的帮助, 在毕业就业时会更受用人单位的欢迎.

⑤ 特长⇒综合测评 优良 20% 70%

从这条规则中可以看出, 特长对学生的综合测评也有一定的影响, 有特长的学生能够在活动中更好的表现自己, 能够给人留下更深刻的印象, 在评定综合测评时更倾向于给他们高分.

⑥ 综合测评 优良⇒就业、升学 42% 85%

从这条规则可以看出, 综合测评分数比较高的学生由于学习成绩较好, 各方面表现比较优秀, 所以就业情况也比较好. 也有一些综合测评分数比较高的学生选择了升学, 以获得更多的知识和技能.

⑦ 动画制作 优良⇒就业、升学 32% 81%; 计算机网络 优良⇒就业、升学 35% 86%

此两条规则说明动画制作、计算机网络课程学得好的学生比较容易就业. 这进一步说明随着信息技术的快速发展, 社会对这方面的人才需求比较大, 因此学校可以在计算机专业课程设置上加大对动画制作、网络方面课程的开设, 减少对一些无关紧要课程的开设, 加强学生的实践动手能力的培养, 以帮助学生更好地就业, 提高整体就业率.

8 总结

本文分析了当前高职院校的学生就业现状, 提出了将数据挖掘技术应用到高职院校的就业管理和课程建设工作之中的必要性. 并结合高职院校自身的特点以及收集到的学生数据, 采用基于关联规则的数据挖掘技术, 先对收集到的学生数据进行预处理, 再进行关联规则挖掘, 挖掘结果以关联规则集的形式呈现给用户, 最后对关联规则挖掘结果进行了详细的分析, 为学校相关专业课程的设置提供一定的参考意见.

[1] 杨少博. 数据挖掘在学校管理和学生培养中的应用[D]. 合肥: 安徽大学硕士学位论文, 2011, 2: 9~11

[2] 覃丽萍. 关联规则算法的改进及其应用研究[D]. 北京: 首都师范大学硕士学位论文, 2009, 3: 20~26

[3] 王旭启, 门 健, 徐大纹. 数据挖掘与OLAP在毕业生就业领域的应用[J]. 现代电子技术, 2012, 35(8): 50~53

[4] 张晓萍, 朱玉全, 陈 耿. 量化关联规则在高校就业信息数据中的应用[J]. 计算机技术与发展, 2013(11): 199~202, 212

[5] 吕守涛. 数据挖掘技术在毕业生就业工作中的应用研究[D]. 成都: 电子科技大学硕士学位论文, 2007, 4: 52~53

[6] 张娅妮. 数据挖掘技术在就业指导中的应用研究[J]. 淮海工学院学报(自然科学版), 2013. 2: 32~34

[7] 齐 钦. 一种改进 Apriori算法在高校课程相关性分析中的应用研究[J]. 徐州工程学院学报, 2014(4): 51~55

[8] 冯永华, 王晓峰. 使用定性属性的数据库关联规则的增量挖掘[J]. 计算机系统应用, 2015, 24(9): 176~180

图2

参考文献

[1] 陈 钺, 柳建国. 滑块运动再研究[J]. 湖南理工学院学报, 2014, (27)

[2] 陈 钺, 柳建国. 小滑块在非光滑平面上运动再研究[J]. 湖南理工学院学报, 2015, (28)

[3] 梁绍荣. 普通物理学第一分册 力学[M] . 第3版. 北京: 高等教育出版社, 2010

Application of Association Rules in Vocational College Students Employment Data Processing

SONG Liping, WEI Jianguo
(Fuyang Vocational and Technical College, Fuyang 236031, China)

Based on a large amount of data which Fuyang Vocational and Technical College accumulated in recent years, we carried out the association rule mining. According to the association rules mining steps, we preprocessed the raw data of students. For the raw data is not complete, different storage format, through data cleaning, data integration, data transformation and data code, we established student information mining system is established. The system based on the formation of students and association rule data mining to find the lack of range in professional courses, so as to promote the improvement of professional courses.

data mining, association rules, employment, frequent item set

TP274

: A

: 1672-5298(2016)04-0043-06

2016-09-26

安徽省高校自然科学研究重点项目: 关联规则在高职学生就业数据处理中的应用研究(KJ2016A561); 安徽省高校自然科学研究重点项目: 校园网络安全过滤关键算法研究(KJ2016A563); 阜阳职业技术学院《计算机应用技术教学团队》阶段性成果(2013JXTD01)

宋丽萍(1984− ), 女, 安徽阜阳人, 阜阳职业技术学院讲师. 主要研究方向: 数据挖掘

猜你喜欢
项集升学数据挖掘
2021年山西省对口升学招生考试工作日程
2021年山西省对口升学考生体格检查表
探讨人工智能与数据挖掘发展趋势
为子女升学攒资历
不确定数据的约束频繁闭项集挖掘算法
一种垂直结构的高效用项集挖掘算法
基于并行计算的大数据挖掘在电网中的应用
升学啦
一种基于Hadoop的大数据挖掘云服务及应用
高级数据挖掘与应用国际学术会议