王煜龙 杨凌雯
摘要:大學生行为特征和企业特征为就业推荐算法提供了建模依据,其实现方式为采集数据、提取特征、训练算法模型。数据采集阶段需进行分类和预处理,确保数据格式、数值等符合要求。文章依托深度神经网络,提取了大学生行为序列特征,建立了PRHN推荐算法的理论模型。关系网可充分发掘学生数据和企业数据的图谱结构,有助于提升PRHN就业推荐算法的命中率,改善推荐集内的企业排序。因而可将关系网融入推荐算法,辅助完成推荐任务,提升算法性能和效果。
关键词:行为特征;关系网;大学生就业;推荐算法
中图分类号:TP391.3文献标志码:A0引言当前,国内已经研究出多种大学生就业推荐算法,其出发点和理论依据各有差异。笔者查阅文献后发现,基于大学生行为特征的就业推荐算法研究相对较少,且相关理论模型中未充分考虑学生关系网和企业关系网对就业的影响。鉴于此,本文针对大学生行为特征及关系网开展就业推荐算法研究工作,旨在优化理论模型。
1基于行为特征的大学生就业推荐算法1.1算法框架大学生的行为特征能够反映其职业偏好、能力特点以及综合素养,在就业服务中以行为特征为线索,借助推荐算法为其匹配适宜的企业,精确求职范围,进而提升求职效率和成功率,相关算法的逻辑框架如图1所示。显然,该算法的核心逻辑是提取大学生基本信息和行为模式信息,形成学生行为特征,然后按照特定的逻辑在学生行为特征和企业特征之间建立联系,最终产生适合学生的企业推荐集。
1.2数据采集和处理大学生就业推荐算法涉及大量的学生信息和企业信息,研究时引入关系型数据库MySQL,存储各类基础数据。
1.2.1学生信息采集数据库中以表区分不同类型的数据,每一张表中设计多个字段,学生信息可分为5张表,表名称及其字段的注释信息如下:
(1)学生基础信息表。涉及字段为姓名、性别、年龄、民族、籍贯、院校名称、专业名称、政治面貌、学业状态。
(2)学业成绩信息表。主要字段为专业课成绩、英语四级成绩、英语六级成绩、计算机等级考试成绩、平均绩点、专业综合排名、从业资质考试成绩(如法律职业资格考试、注册会计师考试)。
(3)校内活动信息表。主要字段包括班干部、学生社团、校内文艺活动以及各类校内活动的起止时间。
(4)奖助信息表。表内字段为助学金、奖学金、获取时间。
(5)竞赛信息表。字段为竞赛名称、竞赛类别、竞赛时间、竞赛名次。
1.2.2企业信息采集企业分布在不同地区,因而学生难以直接与企业沟通人才需求信息。为收集企业信息,采用网络爬虫技术抓取企业相关的网页信息。由于网络信息的质量参差不齐,为防止收集到无效信息和虚假信息,将信息抓取的重点选定为企业信用查询类网站,如爱企查、天眼查,然后将抓取到的网页信息存储为两种表。
(1)企业基本信息表。
企业基本信息表主要字段包括经营状态、成立日期、注册资本、所属行业、参保人数、企业规模、企业类型。该表主要存储长度较短、内容明确的字段信息。
(2)企业描述信息表。
企业描述信息表主要字段为企业名称、地址、经营范围、信用评价。
1.2.3数据预处理初步收集到的学生信息可能存在不完整、不合规范、空缺等情况,企业信息可能存在开业异常、信用评价低等情况。数据预处理的任务包括3个,其一是通过算法筛除缺失值过多的学生和企业信息,防止其入库占用资源;其二是填补部分缺失的数据;其三是离散字段编码。
正则表达式按照特定规则筛选、替换或者校验各种字段信息,可用于剔除无效的学生信息和企业信息。当整体信息较为完善而个别字段缺失时,可将缺失的信息填充为空或者-1。企业基本信息表和学生基本信息表中的字段不存在优先级问题,数据呈现明显的离散性,编码时采用One-Hot(独热编码)技术[1]。等级考试和课业成绩均存在上限和下限,因而按照最大最小原则,进行标准化处理。
1.2.4学生行为特征提取以学生行为特征为线索实现就业推荐时,要先提取学生行为特征信息,其关键是在相关信息内建立逻辑关系。以学生校内活动行为特征为例,校内文体活动、班干部任职、参与学生社团、提供志愿者服务均属于校内活动的范畴,特征提取的方法为按照活动起始时间进行排序,形成学生校内活动轨迹。
1.3算法实现原理研究利用了深度神经网络构建推荐算法的理论模型——PRHN算法,该模型框架分为3层,其功能和实现原理如下。
1.3.1嵌入表示层在算法实现过程中需将学生基本特征信息、行为特征信息、企业特征信息转化为程序可理解的数学语言,由于数据离散性特征突出,故使用集合进行汇总。例如,将学生集合记为S,其中的第i名学生记为Si,该学生对应的特征信息记为Gi,则Gi的集合表示方法如式(1)所示。
嵌入表示层中需对One-Hot编码的离散数据进行特殊处理,降低其向量维度,避免出现无效的神经元,方法为在G学生特征集合中的离散特征元素中增加嵌入向量。
1.3.2序列语义层学生行为特征多为一系列事件的集合,并且事件按照时间或者其他逻辑线索进行排序,形成事件序列,语义序列层用于提取此类事件信息。综合对比CNN模型、LSTM模型以及Self-Attention模型,最终采用适宜分析序列元素内部关联性的Self-Attention模型[2]。该模型是神经网络中的研究热点,可称为自注意力机制,在提取行为序列信息时,能够对每一个事件进行位置编码,从而在一系列事件中建立顺序。企业的描述性文本信息也在Self-Attention模型的处理范围内。
1.3.3深度预测层深度预测层的主要作用是在学生信息和企业信息间建立交互机制,从而依据学生基本特征信息和行为特征信息形成推荐集。其网络层包括两部分,特征交叉网络用于特征交互,前馈网络用于强化非线性拟合能力。深度预测层利用神经元非线性作用函数Sigmoid预测学生能否匹配企业,匹配度预测结果记为r,其表示方法如下。
1.4算法检验
1.4.1试验数据(1)学生信息。
以国内某高等院校2018年和2019年的4 898名本科毕业生为研究对象,重点采集两类信息。第一类是学生基本特征信息和学生行为特征信息,入库前进行数据预处理。第二类是学生就业单位信息。试验思路为利用本次建立的推荐算法为学生匹配企业,然后推荐几种就业单位。
(2)企业信息。
利用Python编写爬虫,收集到1 987家企业的特征信息,同样进行数据预处理,将符合试验要求的数据存入数据库。
1.4.2试验过程试验数据分为测试数据、训练数据以及验证数据3类。训练数据的作用是通过反复训练,建立和优化算法模型,因而占比较大,将80%的数据用于训练算法模型。测试数据用于推荐算法的功能测试,为算法改进提供方向。验证数据用于全面检验优化后的推荐算法。试验中使用HR(命中率)和MRR评价推荐算法的实际效果。MRR用于评价推荐几种企业排序的合理性,如果学生就业意向靠前的企业排在推荐几种比较靠前的位置,证明推荐算法取得了较好的效果[3]。在试验过程中,笔者同步对比深度神经网络推荐算法(PRHN)、RF推荐算法、P2CF推荐算法以及APJFNN推荐算法的实际效果。
1.4.3结果分析通过对比发现,PRHN推荐算法在HR和MRR两项指标上均取得最佳排名,超越了其他同类算法,在不同的数据集上表现出稳定性,命中率HR至少比第二名提高了3%,MRR比第二名高出2%,足以证明PRHN算法达到了较好的推荐效果。
2基于关系网的大学生就业推荐算法优化2.1优化方向基于大学生行为特征的推荐算法仅仅考虑了学生和企业两个维度的因素,然而现实生活中的就业影响因素往往更加复杂。例如,地域和城市对大学生的就业选择影响突出。PRHN推荐算法中未能充分应用这些重要因素。关系网在日常生活中运用广泛,可通过建立数据关系网引入更多的实体元素。将关系网融入推荐算法能够有效填补学生和企业之间的空白信息,从而避免算法模型难以处理稀疏数据的情况。
2.2构建关系网根据现实经验,大学生就业中的关系网包括3类:一是学生间的关系网,二是企业间的关系网,三是学生和企业间的关系网。以下分析前两类关系网的构建方式。
2.2.1学生关系网提取方式同班、同宿舍、同专业、同社团、同组比赛均可作为提取学生关系网的依据。学生基础特征信息中涵盖了专业、班级、社团参与情况等信息,可借助算法匹配关键词,从而在学生之间建立关系网。
2.2.2企业关系网提取方式企业关系网更加复杂,其评价维度更加多元化。从企业类型的角度而言,常见的企业包括制造业企业、互联网企业、娱乐服务类企业,可按照企业类型建立关系网[4]。从企业规模的角度而言,企业包括大型企业、中型企业、小微企业,因而亦可将企业规模作为建立关系网的依据。
2.3关系网络及图增强推荐算法
2.3.1问题描述
2.3.2建立模型(1)建模思路。
在推荐算法中融入关系网时,增加了算法的任务量,在原本的推荐任务上新增了关系网嵌入任务,由此产生了新的推荐算法模型——GPRN,其特点为借助关系网增强推荐效果,关系网嵌入任务起到辅助推荐任务的作用。GPRN推荐算法建立在PRHN推荐算法的基础上。
(2)子模块。
① 学生子模块(PRHN-S)。该子模块的数据来自PRHN推荐算法中的学生数据集,分为两类,一类用于表征学生的行为特征,呈现方式为事件序列,另一类为学生基本信息。两类数据的离散度较高,需通过嵌入层降低向量维度,并利用交叉网络实施交互处理。
② 企业子模块(PRHN-C)。该子模块的数据来自PRHN推荐算法中的企业数据集,处理方式与PRHN-S模块基本相同。
(3)推荐任务。
GPRN算法的推荐任务实现逻辑与各个子模块的功能基本相同,当学生数据和企业数据输入系统之后,PRHN-S子模块和PRHN-C子模块分别处理对应的学生数据和企业数据,使其在结构上满足两个子模块的要求。然后再将处理后的结构化数据投入模型,进行训练,建立学生和企业的匹配函数,该函数的变量为学生和企业,将学生记为Si,企业记为Ci,则函数中输入的数据分别为Si对应的两种学生属性数据和Ci对应的两种企业属性数据[5]。推荐任务的结果为企业和学生的匹配度。
3结语基于大学生行为特征的就业推荐算法以深度神经网络为理论模型,首先在实现层面采集学生基础信息和行为序列信息,同时获取企业相关的基础信息,所有数据要进行预处理,剔除无效信息,然后按照PRHN模型开展嵌入处理,提取大学生行为序列特征和企业特征,最后再实施深度预测。在PRHN模型的基础上引入关系网,可进一步改善数据结构,提升推荐算法的命中率和结果排序。
参考文献
[1]张婳.基于深度学习的大学毕业生就业推荐方法研究[D].重庆:重庆邮电大學,2021.
[2]廖凤露.基于个性化偏好的大学生就业推荐算法研究[D].重庆:重庆大学,2019.
[3]黄俊萍.基于推荐算法的大学生就业管理系统[J].信息技术与信息化,2021(11):6-9.
[4]于文华.基于大数据的大学生就业创业指导系统[J].微型电脑应用,2021(9):37-39,43.
[5]王云婷.基于协同过滤的高职院校就业推荐系统的研究与开发[D].银川:宁夏大学,2018.
(编辑 王雪芬)
Research on employment recommendation algorithm for college students based on
behavioral characteristics and relationship networksWang Yulong, Yang Lingwen
(Luoyang Vocational College of Science and Technology, Luoyang 471822, China)Abstract: College students’ behavior characteristics and enterprise characteristics for the employment recommendation algorithm to provide a modeling basis, the implementation is to collect data, extract features and train algorithm model. In the stage of data acquisition, classification and preprocessing are needed to ensure that the data format and numerical value meet the requirements. The feature of college students’ behavior sequence is extracted by depth neural network, and the theoretical model of PRHN recommendation algorithm is established. The network can fully explore the graph structure of student data and enterprise data, which helps to improve the hit rate of PRHN’s algorithm and the ranking of enterprises in the recommendation set. Therefore, the network can be incorporated into the recommendation algorithm to assist the completion of the recommendation task and improve the performance and effectiveness of the algorithm.
Key words: behavioral characteristics; network; employment of college students; recommendation algorithm