李一杨
(西安医学院,陕西 西安 710021)
高校人才培养质量可通过毕业生就业率和就业质量体现,毕业生就业去向跟踪是高校就业部门的重要工作[1]。学生毕业后岗位变动频繁,高校与毕业生渐渐失去联系,加大了毕业生就业去向跟踪的难度。大数据技术是目前信息时代中应用广泛的重要技术,人类生活、生产等各项活动趋于智能化,业务活动数据不断提升[2],使大数据技术成为研究学者们的主要研究方向。大数据技术不断发展,造成大量的数据孤岛现象[3],数据集成技术是解决数据孤岛现象的重要技术。
数据集成技术指将众多具有不同格式、不同来源、不同性质的数据在物理层面或逻辑层面有机结合于统一数据集的技术[4]。目前,已有众多成熟理论应用于大数据集成技术中,大数据集成技术可为数据共享提供技术支持。文献[5]基于机器学习算法进行了大学生毕业去向预测;文献[6]研究大数据背景下研究生就业精准服务体系的探索与实践,以上两种方法均针对毕业生就业去向进行研究,并取得一定成效。
将大数据集成技术应用于毕业生就业去向跟踪中,提升毕业生就业去向跟踪效率[7]。文中设计了大数据集成技术的毕业生就业去向跟踪系统,利用大数据集成技术将所采集的不同来源、不同格式的毕业生就业去向数据高效集成,提升数据处理性能。毕业生可随时登录系统,在就业信息存在变化时实时更改信息,高校就业部门教师利用系统查询学生就业信息,系统设定固定时间提醒学生更新就业去向状态,使高校毕业生毕业后仍与学校保持良好联系,为毕业生信息跟踪与分析提供平台。
毕业生就业去向跟踪系统具有信息数据量大、对客户端与服务器端访问速度要求高以及交互频繁的特点,选取ASP.net AJAX 引擎的B/S 架构分层设计毕业生就业去向跟踪系统,采用该架构设计系统业务逻辑层与用户界面为分离状态[8],使系统各程序耦合度有所降低。充分考虑高校对毕业生就业去向跟踪需求,设计大数据集成技术的毕业生就业去向跟踪系统总体结构图,如图1 所示。
图1 系统总体结构图
由系统总体结构图可知,所设计系统包括数据层、逻辑层以及界面层三部分。
数据层包括应用服务器、数据服务器以及SQL数据库,为系统提供数据支持。系统的数据层采用大数据集成技术,提升系统的数据处理性能。
逻辑层采用模糊C 均值算法对完成集成的数据实施聚类等挖掘算法,通过聚类结果统计毕业生就业去向[9]。逻辑层完成毕业生就业去向跟踪处理后,将处理结果发送至界面层。
界面层具有在线服务、问题反馈、用户管理以及系统管理等功能,高校就业部门教师以及高校毕业生等用户通过界面层登录系统,登录后运行系统各项应用实现人机交互。
所设计的毕业生就业去向跟踪系统采用大数据集成技术,可针对海量大数据高效集成[10],使所设计系统具有较高的毕业生就业去向跟踪性能。系统功能结构图如图2 所示。由图2 可以看出,系统主要用户为高校毕业生、系统管理员以及高校就业部门教师。高校毕业生登录系统后可更新个人以及就业相关信息,参与毕业生就业去向跟踪问卷调查并查看问卷。系统管理员登录系统后可管理高校毕业生信息,并为系统用户赋予权限;系统管理员可对问卷调查相关内容实施数据导入、数据导出以及数据备份等调查统计功能[11];系统管理员具有设计调查问卷、更新调查问卷、修改调查问卷内容并管理问卷调查完成情况,针对不同用户分配不同调查问卷等功能。高校就业部门教师登录系统后可管理本校毕业生就业信息、查看毕业生调查问卷等权限,通过毕业生相关信息及调查问卷结果明确毕业生就业去向。
图2 系统功能结构图
大数据集成技术需时刻运行集成任务,系统用户可观测大数据集成过程中的运行任务,用户可暂停或更改任务优先级。大数据集成技术集成运行过程如图3 所示。
图3 大数据集成技术运行过程
大数据集成技术的集成运行过程主要包括数据抽取、数据转换以及数据加载三部分,完成大数据集成处理的数据存储于系统SQL 数据库内,便于系统跟踪毕业生就业去向。
1)数据抽取。将数据源内存在变更行为的数据进行抽取,为数据集成做准备的过程称为变更数据实时抽取,简称数据抽取[12]。毕业生就业去向跟踪系统内变更数据抽取的实时性决定了数据的实时转换以及加载性能,数据抽取为系统内大数据实时集成提供数据支持。
2)数据加载。将已完成抽取的集成数据发送至数据仓库内,以满足毕业生就业去向跟踪系统决策查询和实时数据检索需求。数据加载过程需要依据固定顺序执行SQL 语句分析系统所分配的任务,更新实时数据过程容易造成分析结果不一致问题[13]。解决数据仓库数据实时更新和系统应用层联机分析查询之间的冲突是数据集成需要重点考虑的问题[14]。选取历史数据与高实时性数据、一般实时性数据分开存储的方式实现集成数据实时加载,提升数据实时加载性能。将实时性较高的数据发送于实时数据缓存区域,将历史数据和实时性一般的数据发送至数据仓库内。由于仅存在少量更新的实时数据于实时数据缓存区域内,因此数据实时更新与实时加载于实时数据缓存区域内极为方便,可提升数据实时处理和自动分析效率;对不具有实时性的历史数据依据设置规则批量发送至数据仓库,避免数据仓库内物理设计由于频繁更新而出现故障。
3)数据转换。大数据集成技术中并发转换任务调度区别于以往人为设置的直接执行、定时执行以及周期性执行等执行方式[15]。大数据集成技术依据数据源内的数据变化执行数据集成任务,可使多个转换任务同时触发,需高效的任务调度策略,利用并发执行任务提升大数据集成技术内服务器的运行性能,提升系统数据集成效率。
将完成大数据集成处理的数据库内数据利用模糊C 均值算法实现毕业生就业去向跟踪系统的数据挖掘与统计,模糊C 均值算法是通过目标函数实施聚类分析的高效算法。该算法利用存在约束条件的优化问题代替聚类转化问题,通过优化问题求解获取模糊聚类结果。设向量集合为xi=(i=1,2,…,n),n表示向量数量,采用聚类算法将向量划分为c个模糊组,将各组之间的非相似性指标作为目标函数,使各模糊组与聚类中心之间的距离最小。利用模糊划分思想使特定数据对象隶属于不同组,且隶属程度通过(0,1)区间的值体现,采用全部数据对象隶属于各组的值构建隶属度矩阵U,对于随机数据,隶属度之和为1,那么可得:
通过以上步骤可知,模糊C 均值聚类算法为逐步迭代求解过程,其具体流程为:
1)将隶属度矩阵依据随机数方法初始化,完成初始化的隶属度矩阵需符合式(1)要求;
2)利用式(4)获取聚类中心数量c;
3)利用式(2)判断目标函数与上次目标函数改变范围是否小于指定阈值以及算法是否超过所设置循环次数,通过以上两部分判断算法是否收敛,算法收敛表明算法结束;算法未收敛需进行下一步;
4)通过式(5)获取新隶属度矩阵U,并返回步骤2),直至算法完全收敛为止。
由以上步骤可以看出,模糊C 均值算法的初始聚类中心决定了算法聚类效果。
算法的聚类数量c以及加权指数m两个输入参数同样决定算法收敛效果,算法聚类数量应大于1且明显低于数据样本总数量。
算法加权指数是决定聚类结构模糊程度控制算法的权重指数,算法加权指数过大与过小都将造成算法聚类效果差。算法加权指数宜选取[1.5,2.5]范围内的数,文中选取算法加权指数为2。
模糊C 均值算法的输出结果是隶属度矩阵以及聚类中心,各数据样本点针对不同类别的隶属程度可通过隶属度矩阵体现[16],不同对象所属的类可依据最大隶属原则以及隶属度矩阵获取。针对符合正态分布的数据,模糊C 均值算法具有较好的聚类效果,符合毕业生就业去向跟踪系统需求。
为检测所设计系统跟踪毕业生就业去向的有效性,选取某地某高校毕业生作为实验对象。利用所设计系统统计该校于2018 年毕业的本科、硕士、博士毕业生就业去向,该校于2018 届毕业的毕业生包括15 个学院(65 个专业)共7 590 名。采用所设计系统统计该校2018 年毕业生就业分布城市、就业去向、不同就业方式、就业行业分布情况、就业单位分布情况如图4~8 所示。
图4 毕业生就业分布城市
图5 毕业生毕业后去向
图6 不同就业方式所占比例
图7 毕业生行业分布情况
图8 毕业生就业单位统计
由图4~8 可以看出:
1)该校2018 年毕业生主要分布于北京、上海、深圳、广州等地,其中分布于北京的毕业生占该校2018年毕业生的13%;分布于上海的毕业生占12%。跟踪结果说明北京与上海为该校毕业生去向首选;
2)该校2018 年毕业生本科、硕士、博士就业率分别为96.25%、97.25%、98.46%,未就业率分别为1.79%、1.42%、0.80%,统计结果说明该校具有较高的就业率;
3)该校就业的毕业生中,本科、硕士、博士签约就业的毕业生分别占全部毕业生的97.85%、98.23%以及98.58%,毕业生就业去向跟踪系统说明签约就业仍为高校毕业就业的主要就业方式;
该校就业的毕业生主要分布于金融业、建筑业、教育业以及交通运输业,验证了文中系统跟踪毕业生就业去向行业分布具有较高的有效性。
该校毕业生分布于中国建筑有限公司以及美的集团的就业人数均高达200 人,是该校毕业生分布人数较多的单位。统计结果再次验证文中系统具有较高的毕业生就业单位跟踪有效性。
采用文中系统针对毕业生设计调查问卷,从工资满意度、适应能力等方面统计毕业生对就业的满意程度,统计结果如图9 所示。从问卷统计结果可以看出,文中系统可有效统计调查问卷,根据调查问卷统计结果有助于高校进一步明确毕业生就业去向以及毕业生对就业的满意程度。
图9 毕业生满意度指标
选取100 名毕业生用户,通过问卷调查的方式选取系统兼容性、界面友好性、用户并发连接响应速度等指标测试所设计系统性能,统计结果如图10 所示。从系统测试结果可以看出,文中系统可基本满足系统性能要求,各项评分均在8 分以上,说明所设计系统性能可符合就业去向跟踪需求,文中系统可满足系统使用条件。系统设有反馈功能,用户使用过程中可针对系统缺陷提出改进措施,利于系统优化等后续工作,提升系统易用性。
图10 系统测试结果
数据库作业中数据集成技术的数据抽取、转换以及加载占据数据库作业的大量工作量,批量作业方式可提升集成任务的数据抽取、处理以及加载的运行效率。将大数据集成技术应用于毕业生就业去向跟踪系统中,提升了系统应用需求的实时性。所设计毕业生就业去向跟踪系统便于高校实时了解毕业生的就业去向,降低高校就业部门管理人员的工作量,提升高校毕业生就业管理的效率。