孙伟 郝爱语 雷晖
摘要:通过对某高职院校顶岗实习数据采集和处理,通过数据分析的方法,获取顶岗实习数据中所包含的信息,挖掘数据中的规律,为高职教育实习工作提供数据支持。
关键词:高职教育;数据挖掘;数据分析
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2019)05-0108-03
1 引言
近年来,数据挖掘与分析技术日趋成熟,而各个院校在多年信息化的过程中都积累了大量的教育数据,教育数据的挖掘与分析成为数据分析和挖掘中的一个热门研究方向[1]。
为更好地服务高职院校实习工作,在采集某高职院校的顶岗实习数据后,按照要求對数据进行清理,并使用数据分析的方法进行研究,得到相应的信息,最后通过数据直观、准确地展示顶岗实习的真实状态,并分析其中的原因,为研究顶岗实习管理工作提供数据上的支持和服务。
2 数据采集处理
2.1 数据采集
根据Garcia等的教育数据挖掘流程,将教育数据挖掘工作分为六大步骤:数据采集、数据处理、数据挖掘、结果评估、知识发现和反馈实验教学[2]。其中第一步数据采集是从教学环境中采集数据的过程。这个过程有时会非常的复杂,某些数据需要自己进行爬取或采集,这可能涉及程序开发、数据统计,有时还需要得到信息管理人员支持、高层管理人员授权等多方面工作。这是教育数据挖掘工作的第一步,有时也是最难的实施的一步,可能的困难主要是否允许获取数据、数据的类型、范围、特征、隐私问题、数据集覆盖面等各方面的问题。
为更好地采集顶岗实习数据,本文所研究的顶岗实习数据集由某高职院校顶岗实习管理系统直接导出,数据集格式为csv格式,这种方式避免了数据采集的难度,简化了数据采集的流程,同时所获得原始数据集比较全面和准确。
2.2 数据处理
数据处理,即数据清理,原始数据导出后往往存在个人隐私、数据不完整、数据与分析需求不对接等问题,需要对数据进行数据处理[3]。
首先是脱敏处理,诸如个人私密信息如电话、身份证号、通讯地址等敏感数据不能直接使用,为保护个人隐私,需要进行模糊化处理或予以删除。
本数据集中隐私字段的具体处理过程如下:
1)将学生姓名、学号等信息予以删除,增加一个序号予以区分。
2)将手机号码按号段推算出用户手机运营商后删除手机号码字段;
3)通过家庭住址推算出学生居住地城市规模,并根据我国当前城市二三四线城市划分标准进行等级划分,得到相应等级。根据家庭住址还可以推算出户籍类型,得出农村和城镇户口类别,为生源情况进行划分。此外根据家庭住址还可以推算出居住地域,并按照江苏省内的情况进行区域划分,同时反向补充和完善家庭所在地区。
4)根据实习单位地址推算出实习城市规模、实习城市地域、实习城市等级。
其次需要将原始数据进行变换,以满足数据分析的需要。因数据分析需要,需要对现有的顶岗实习数据集进行如下的预处理:
1)数字型标识字段转换:通过班级编号计算出理工和人文类别。
2)通过身份证号码反向完善性别、籍贯、生日等信息,弥补学生登记时缺失的数据字段,同时删除原始的身份证号字段。
3)通过出生日期和入学时间推算出学生年龄长幼,并划分为相应的等级。
4)由担任的班干职务推算出是否担任班干。
通过上面的操作,由原始数据生成如图1的待分析数据集:
图1 数据处理后的数据集
3 数据分析
数据分析是针对现有数据采用适当的统计分析方法,提取数据形成有用的信息,并以直观有效地形成展现出来,形成结论和概括总结的过程。这一过程是由数据转换为信息的过程。在实际应用中,数据分析的结果往往以直观的图表形式展示出来,以帮助人们根据结果图表做出判断。
3.1 文理科专业的性别分布情况分析
借助魔镜等在线数据分析工具,生成了如图2所示的文理科专业的性别分布情况图,该图清楚的展示出了人文专业与理工专业的男女生比例,可以非常清楚地看出人文专业的女生和理工科男生占比非常高,人文专业的男女比例约为1:2.4,理工科男女生比例约为:2.6:1。这体现出选择时学生性别与专业之间有非常强的关联。
3.2 班级年龄与班干之间分布情况
根据学生年龄和正常入学年龄比较,并将是否担任班干因素加入,得到图3所示的关系图。
图3显示同一班级中年龄大(超过正常年龄2岁)和较大(超过正常年龄1岁)的同学较多,担任班干的情况与年龄分布类似。这说明学生中因各种原因没能按正常年龄考入大学的学生比例较高,约为正常的2倍,而比正常入学年龄小的学生比例较低,约为正常年龄的1/7,担任班级干部的比例与年龄分布情况类似,说明是否担任班干和年龄关系不大。
3.3 专业对口率
专业对口率是学校非常关心的一个指标,它关系着专业办学方向是否准备,专业人才培养方案是否合理以及教学水平是否到位等众多因素。为更真实地反映出各专业实习阶段的对口率,根据学生反馈,将其中的数据提取并分析,得到如图4所示的专业对口率:
3.4 实习去向
为更方便地开展实习就业指导工作,学校需要掌握学生就业去向,根据学生家庭住址和实习单位地址,提取并通过数据分类处理,生成如图5和图6所示的实习去向、实习地域变化情况图。
从图5和图6两张图可以看出,不少学生从三线城市进入到一二线城市实习。为研究得更加细致,对学生原居住城市和实习城市进行了地域划分,其中连云港作为学校所在地,从苏北五市中单独出来,单列为一个区域,而根据传统分法,将江苏的南京和镇江列为一个区域,苏中和苏南按传统分法列为两个区域,江苏以外的区域按中国大的地域进行划分。
目前根据学生原来居住的城市和实习的具体地域看,该学校的学生大量的进入到苏南城市(苏州、无锡、常州)实习,这些城市对学生的吸引力非常强,这与江苏大力支持苏南发展,苏南城市经济相对发达、企业众多、就业机会多、发展机遇多、收入相对较高等因素有关。对学生吸引力较大的其他地區是华东(在此主要指上海和杭州)、连云港、南京、镇江等,除连云港是学校所在城市外,其他地区也是经济较为发达的地区,对年轻人吸引力非常大。年轻人才的不断流入,将会提高这些经济发达地区劳动力素质、加大就业竞争压力、增加流动人口管理成本。
与此相对应的是徐州、淮安、盐城、宿迁及苏中地区的学生则出现大量外流的情况,学生选择到外地实习与这些城市对学生的吸引力下降有关系。这些城市地处江苏北部,不是江苏的发展重点,当地经济相对落后、薪资收入相对较低,就业机会少、发展潜力有限,大量学生在实习时不愿意回到家乡工作,而是选择到苏南、南京、上海等机会更多的发达地区进行实习,这大大影响了学生返乡,在此格外注意的是徐州地区,入学时离开徐州的学生数量众多,实时人才外流的情况也非常明显。从长远来看,这些经济相对落后区域的青年人才将逐渐被苏南、上海、南京等经济发达地区吸引走,逐渐会陷入经济发展落后与人才不断外流的恶性循环,这将制约这些城市的长远发展,苏南苏北的发展差距会被逐渐拉大。
4 结语
根据所收集的数据,采用数据分析和挖掘的方法进行了初步的处理,以直观的形式展现了数据中所包含的信息,为更好地开展实习工作提供了数据上的支持[4]。未来的研究在现有基础之上,还需要在数据收集的范围、数据量上加大投入,同时还需要在数据挖掘技术上进一步综深入,争取获取更多的价值。
参考文献:
[1] 杨现民, 李新,邢蓓蓓.面向智慧教育的教学大数据实践框架构建与趋势分析[J].电化教育研究,2018(10):1-5.
[2] GarciaE,RomeroC,VenturaS,de Castro C.A collaborative educational association ruleminingtool[J].The Internet and HigherEducation,2011,14(2):77-88.
[3] 郭宝军.高校教育大数据的分析挖掘与利用[J].电子技术与软件工程,2018(18):165.
[4] 何文珍,蔡跃.基于知识图谱的国外学习分析可视化研究[J].中国成人教育,2018(13):15-21.
【通联编辑:代影】