基于层次聚类的大学生就业去向短期预测系统

2022-01-14 08:42李路瑶
吉林大学学报(信息科学版) 2022年1期
关键词:度量聚类距离

李路瑶

(西安工程大学党委研究生工作部,西安710048)

0 引 言

我国对高等教育关注度越来越高,各类项目投入也越来越大,使高校体制得到大力改革。尽管高等教育扩招政策[1]的推行全面提升了国民素质,实现了教育大众化,与此同时也改变了高校学生的就业制度,引发了高校毕业生数量的爆炸式增长,导致学生就业问题日益凸显,并逐渐演变成社会的热议话题[2]。为给高校学生提供可靠的就业指导与决策,就业预测等相关技术脱颖而出,成为众多相关领域人员的主要研究课题。

孙怡帆等[3]依据学生管理信息的大数据,利用机器学习领域的Lasso Logistic算法,构建出基于机器学习算法的大学生毕业去向预测模型;吕同双等[4]采用基于立体数据的就业去向预测算法,通过横向、纵向对比学生的内外在数据,给出合理的职业规划建议。

由于上述文献方法在处理大规模数据集时存在无法应对大量数据的几率,致使数据有所缺失,导致预测结果出现偏差。因此,笔者基于层次聚类方法,设计出一种大学生就业去向短期预测系统。引用层次聚类算法,令数据集处理更加充分、完整,确保预测系统的精准性;通过构建系统数据库实体及其间关联模型,使实体间与数据库表间关系更加紧密。

1 层次聚类下大学生就业去向短期预测系统构建

1.1 层次聚类算法模块设计

该模块主要用于处理高校毕业生相关数据信息,为数据库建立奠定基础。模块的设计理念是基于已知簇间距离度量标准,构建一棵聚类树,由簇与子簇组成,待符合收敛条件后结束。层次聚类通常分为凝聚层次聚类与分裂层次聚类两种,如图1所示,其中a、b、c、d、e分别表示各处理目标,层次聚类就是处理目标数据集合的过程。在凝聚层次聚类策略中,各簇即为一个处理目标,结合聚类准则[5]合并簇,反复合并直到全部目标聚类为一个簇;而对分裂层次聚类策略的处理阶段,目标的初始状态均位于相同簇内,基于相关簇间距离准则分裂簇,经过循环分裂,待各新簇仅存唯一目标时分裂终止。一般情况下,两类层次聚类策略的终止条件是用户界定的簇个数或阈值。

图1 层次聚类树形图Fig.1 Hierarchical clustering tree diagram

该模块中任意两簇间的距离度量标准共存在以下4种,预测过程中需按照待挖掘数据量,合理选取相应的度量标准。

1)最小距离。获取两个簇之间的各数据点间距,选取最短间距作为两簇距离。最小距离度量标准的表达式如下

其中dmin为两数据点间最小距离,ci,cj为簇A与簇B里的任意数据点,p、p′为具有最短间距的两数据点,分别位于簇A与簇B中,即p∈ci,p′∈cj。其直观图如图2所示。

图2 最小距离度量标准示意图Fig.2 Schematic diagram of the minimum distance metric

2)最大距离。在两簇数据点间的所有间距中,选取最长间距作为两簇距离,即为最大距离度量标准。度量标准的计算公式如下

其中dmax为两数据点间最大距离。其直观图如图3所示。

图3 最大距离度量标准示意图Fig.3 Schematic diagram of the maximum distance metric

3)平均值距离。该度量标准是利用两簇的中心点间距表示两簇距离[6]。采用

界定平均值距离度量标准。其中dmean为两簇中心点之间的距离,mi、mj为簇A与簇B的平均值。其直观图如图4所示。

图4 平均值距离度量标准示意图Fig.4 Schematic diagram of averagedistance metric

4)平均距离。求取两簇间各数据点间距的均值,将其作为两簇距离。平均距离度量标准的表达式如下

其中davg为两簇间距均值,ni、nj为簇A与簇B分别含有的目标数量。其直观图如图5所示。

图5 平均距离度量标准示意图Fig.5 Schematic diagram of average distance metric

层次聚类算法模块将各目标与聚类一一对应,结合选定的簇间距离度量标准,完成近似簇合并,待满足终止条件时聚类结束。该算法运行流程如图6所示。

图6 层次聚类算法流程图Fig.6 Flow chart of hierarchical clustering algorithm

具体步骤描述如下。首先,根据簇间距离度量标准,求解全部数据点之间的距离,架构差异矩阵[7];其次,合并具有最小距离的两个簇;然后,重新求解全部簇间距离,完成差异矩阵更新;最后,迭代循环以上两个流程,待满足终止条件算法结束。

1.2 数据库实体设计

作为大学生就业去向短期预测系统的关键部分,数据库对系统整体性能有直接影响。

毕业生用户、企事业单位用户是预测系统的业务中心,两者与系统管理员间的关系密不可分,故基于此角色及其主要职责,设计以下系统数据库实体。

1)管理员。该角色享有系统管理的最高权限[8],查询、修改毕业生与企业用户信息,监管用户网络行为等。

2)毕业生用户。注册用户信息后等待管理员审核,实现相关招聘信息查询、求职简历发布、与管理员在线交流等功能。

3)发布招聘信息。企业单位信息注册,经管理员审核成功,发布企业招聘信息,为毕业生用户连通与企业的交流渠道。

4)信息咨询。作为系统的主要交互活动之一,信息咨询实体在两用户间形成了问答形式,经管理员删选整理,提取出代表性内容以便用户查询。

5)发布就业相关信息。管理员与企业用户共同操作、管理,分别发布学校相关、就业相关以及企业相关等最新消息。

基于上述系统数据库实体,联立各实体间的关系进行建模,所得E-R(Entity-Relationship Model)模型如图7所示。

图7 数据库实体E-R模型Fig.7 Database entity E-R model

1.3 数据库表设计

结合数据库实体创建出用户信息表、毕业生信息表、操作年份表、信息发布表、就业去向代码表、招聘单位信息表与性质代码表、单位招聘信息表等主要系统数据库表,具体如下。

1)用户信息表。存储用户名、密码、姓名以及班级或部门等用户相关信息,将用户名作为此表主键,部分表结构如表1所示。

表1 用户信息表Tab.1 User information table

2)毕业生信息表。该表是毕业生用户的主操作表,用于存储、管理历届学生信息,主要字段由学号、考生号、性别、民族、入学/毕业时间以及应聘企业等。此表主键是学生学号,部分表结构如表2所示。

表2 毕业生信息表Tab.2 Graduate information form

3)操作年份表。字段包含当前毕业生用户年份、是否是应届毕业生年份等。标识字段ID是表主键,结构如表3所示。

表3 操作年份表Tab.3 Operating year table

4)信息发布表。用于存储用户间的交流信息,字段为信息种类、内容、发布时间等,信息标识是此表主键,部分表结构如表4所示。

表4 信息发布表Tab.4 Information release form

5)就业去向代码表。根据教育厅统一代码表设计而成,标志性字段为培养模式代码、代码名称以及是否选取,主键是前两个字段,表结构如表5所示。

表5 就业去向代码表Tab.5 Code table of employment destination

6)招聘单位信息表。用于登记企业类别、名称、所在地及其代码、招聘部门以及联系人等招聘企业信息,单位编号是该表主键,部分表结构如表6所示。

表6 招聘单位信息表Tab.6 Recruitment unit information table

7)招聘单位性质代码表。按照教育厅分类标准,采用此表划分招聘企业类型,常见类别为事业单位、国营企业、私营企业以及外资企业。单位性质代码与代码名称是此表主键,表结构如表7所示。

表7 招聘单位性质代码表Tab.7 List of recruitment unit nature code

8)单位招聘信息表。管理招聘企业代码、编号以及说明等企业招聘信息,招聘编号属表主键,部分表结构如表8所示。

表8 单位招聘信息表Tab.8 Unit recruitment information form

2 就业去向短期预测系统实验

2.1 实验数据库与就业去向层次结构模型建立

采集某高校历届毕业生相关信息,结构化处理成预测用关系数据库,基于此划分就业去向问题为决策结果的目标层、影响因素的准则层以及就业去向的方案层,构建就业去向层次结构模型,如图8所示。

图8 就业方向层次结构模型Fig.8 Hierarchical structure model of employment direction

为验证笔者系统有效且可行,分别采用精确率precision(P)与召回率recall(R)指标,综合评估系统性能,计算公式分别如下

其中FP为假正例,FN为假负例,TP为真正例。

2.2 短期预测系统可行性分析

经系统处理分析得到就业去向分类统计表,如表9所示。

表9 就业去向分类统计表Tab.9 Classification statistics of employment destination

与短期预测的就业去向参考阈值对比后,取得最终的短期预测结果如表10所示。根据表10中数据可知,笔者系统根据簇间距离度量标准,构建了由簇与子簇构成的层次聚类算法模块,结合聚类规则,对簇展开合并或分裂直至满足收敛条件,使各类数据得到充分利用与处理,因此,系统具有较好的可行性,能满足学生就业去向短期预测的应用需求。

表10 部分学生就业去向短期预测结果统计表Tab.10 Statistics of short-term prediction results of some students‘employment destinations

2.3 短期预测系统性能分析

采用精确率与召回率指标评估笔者系统性能,指标数值结果如图9所示。

图9 评价指标结果示意图Fig.9 Schematic diagram of evaluation index results

精确率与召回率的评价指标结果显示,由于笔者系统基于系统业务中心,设计了管理员、毕业生用户、发布招聘信息等系统数据库实体,联立了各实体间的关系模型,结合实体及其间关联创建出系统数据库表,故预测准度较高,有效性优势显著。

3 结 语

随着改革发展的不断深入,高等教育广泛普及,逐渐迈入大众化进程中,导致各高校毕业生数量呈指数级增长,严峻的就业形势为社会带来了巨大的就业压力。在当前的计算机技术时代,有关就业信息的处理系统应运而生,使就业指导更具针对性。由于现有系统的处理结果相对粗略,故笔者引入层次聚类策略,构建出一种大学生就业去向短期预测系统。在今后的工作中应尝试采用其他算法与策略,使预测分析更具动态性;需紧密结合计算机技术与当前就业形势,添加短信平台、在线视频等系统功能,进一步优化系统;系统测试属性众多,采集的数据样本有可能忽略了部分测试属性,导致系统检测结果过于片面,应将其作为下一阶段研究重点,为毕业生制定更准确、更合理的就业去向。

猜你喜欢
度量聚类距离
一种傅里叶域海量数据高速谱聚类方法
鲍文慧《度量空间之一》
基于知识图谱的k-modes文本聚类研究
基于数据降维与聚类的车联网数据分析应用
基于模糊聚类和支持向量回归的成绩预测
不欣赏自己的人,难以快乐
突出知识本质 关注知识结构提升思维能力
距离美
三参数射影平坦芬斯勒度量的构造
爱的距离