基于学生行为分析的就业信息推荐服务

2021-10-25 01:23杨敬旗田思雨
关键词:职位个性化算法

王 龙, 杨敬旗, 田思雨

(辽宁大学 信息学院, 沈阳 110036)

0 引 言

当前,多数高校就业服务系统都还只是处于就业信息发布状态,仅仅是将企业的招聘信息和招聘要求发布到网络信息系统中,学生只能进行简单的浏览与查询,无法将网络信息服务的优势发挥出来。在就业信息系统中引入和提供个性化推荐技术,向学生提供符合其自身特点的就业信息,可以提高学生的就业率和就业匹配度,是就业服务系统的一个必然发展趋势,也是就业服务领域的研究热点之一[1-4]。

越来越多企业招聘信息加入系统,导致学生在企业信息搜索上花费的时间和精力越来越大,提供个性化的就业信息推荐服务会有效地提高学生的系统使用效率和就业成功率,使得就业信息系统从以“企业招聘信息”为中心转换为更高层次的以“学生自身特点”为中心[5-6]。因此,在就业信息系统中加入个性化的推荐服务是十分必要的。

本文提出一种基于学生行为分析的个性化就业信息推荐服务方法,首先给出个性化就业信息推荐服务模型,然后设计了一种基于行为分析的个性化就业信息推荐方法,最后进行了实验讨论与分析。

1 个性化就业信息推荐服务模型

图1 个性化就业信息推荐服务模型Fig.1 Personalized employment information recommendation service model

在大多数就业信息系统中,学生模块、企业模块和管理模块之间仅仅实现了数据的简单交互。学生用户只能在就业信息系统中进行简单的浏览与查询,进行自主的企业招聘信息选择,无法满足学生用户对企业招聘信息的个性化需求。主要表现为:在就业信息系统中包含大量的企业招聘信息,学生用户需要花费大量时间去阅读其可能根本不感兴趣的招聘信息,严重影响了系统的使用效率。为了有效减少这些无用的操作,系统需要通过分析学生的系统使用行为信息来获取学生的兴趣模型,进而从系统中找到那些符合学生自身特点和需求、对学生可能会有用的企业招聘信息进行智能推荐。本文提出一种个性化的就业信息推荐服务模型,具体如图1所示。

当某个学生用户在使用就业信息系统时,看到自己感兴趣的职位就会点击进入职位详情页面进行详细了解,根据对职位的有意程度,用户会选择直接投递简历或者将职位进行收藏。而对于用户不感兴趣的职位,往往不会对职位进行任何操作。在这个过程中,用户的搜索、点击标题、查看详情、浏览官网、收藏、取消收藏等行为都是学生用户的个性化行为信息,这些行为信息通过系统日志被收集。通过行为信息收集可以得到大量的行为数据,虽然这种行为数据可以体现用户的喜好程度,但却无法衡量,需要通过某种方式将这些行为数据转化成学生兴趣模型,然后再利用转化后的兴趣模型作为个性化就业信息推荐的依据。最后根据学生兴趣模型,对系统中的就业信息进行分析,找出符合学生兴趣和特点的就业信息推荐给学生。具体的推荐流程如图2所示。

图2 推荐流程Fig.2 Recommendation process

2 基于行为分析的推荐方法

传统的推荐方法通常会使用用户对项目的评分数据作为输入,这些评分数据可以明确表示出用户对项目的兴趣大小,利用这些评分数据作为输入的推荐算法可以有效地预测出用户兴趣度较高的项目[7-9]。但是在就业信息服务网站中,因为学生用户之间的标准不同,所处的情景不同,可能给出的评分信息也不相同,这种评分标准不统一的情况会严重影响推荐结果。因此在就业信息服务系统中,利用学生用户在系统中的行为数据来表示用户的喜好程度更为合适。

2.1 行为信息统计

学生在就业信息服务系统中的行为信息主要包括搜索、点击标题、查看详情、浏览官网、收藏、取消收藏等,这些行为可以直接或间接地反映出学生对招聘信息的喜好程度。通过分析系统日志,提取学生用户行为信息,构建如下空间模型X:

(1)

其中:m代表学生的个数;n代表行为的种类;xij代表学生i的第j个行为的操作次数。考虑到各个行为对学生喜好的贡献度不同,以及次数累加对最终结果的影响,推荐服务对于操作次数需进行如下变换:1次收藏和取消收藏看成5次操作,1次浏览官网看成3次操作,1次查看详情看成2次操作,1次点击标题看成1次操作,1次返回为搜索结果看成0.5次操作。在标准化处理过程中,对于不同的属性采用不同的标准化方法,对于正向属性,通常会希望其权重更大一些,按照公式(2)处理数据,而对于负向属性,通常希望其权值更小一些,按照公式(3)处理数据。

在本系统的实际运算中,考虑到取消收藏被认为是用户偏好的减少,其权重的设置自然是越小越符合系统的设定,所以使用公式(3)进行处理,而除它之外的行为对于用户偏好来说都是正向的指标,所以选择使用公式(2)进行处理。执行数据标准化后,得到最终的学生行为信息矩阵X′:

(4)

2.2 学生兴趣模型

获取学生行为信息矩阵后,利用熵值法[10-11]确定各项行为的权重。数据标准化处理后就可以得到一个新的矩阵数据,根据新的矩阵就可以计算第i个用户下第j种行为属性占该用户的比重,相应的计算公式见式(5)。获取相应的比重信息之后就可以据此计算相应行为的信息熵,计算公式见式(6)。

(7)

其中wj就是第j个行为所对应的权重。通过上述的计算过程,可以得到系统中各行为的相应权重,利用每个学生对应的行为信息计算出学生对职位的评分数据。计算公式见式(8)。

(8)

其中:dup代表学生u对职位p的评分信息;num_upj表示学生u对职位p的第j种行为的操作次数。

经过上述用户行为的分析,得出学生对职位的评分数据,以评分数据为学生兴趣度的度量构建学生兴趣集合。将学生i评分过的职位构建成学生候选兴趣集合Gi,Gij为学生i对职位j的评分数据,设置阈值t,将学生候选兴趣集合中职位评分大于t的职位作为用户的兴趣职位。其中阈值t的取值为学生候选兴趣集合G中所有职位评分的平均值,计算公式如式(9)所示。

(9)

最后将Gij中评分数据大于ti的职位作为学生的兴趣职位,得到如下的学生兴趣模型:

{(position1,d1),(position2,d2),…,(positionn,dn)}

2.3 评分矩阵填充

由上述得到的模型,可以得出学生评分矩阵,由于岗位信息过多将导致评分矩阵稀疏的情况,通常可以通过填充或降维的方法解决矩阵稀疏问题[12-15]。本文利用相似学生集合进行评分填充的方法来缓解评分矩阵中存在的数据稀疏问题。根据学生的背景属性计算学生之间的相似度,找出相似度较高的学生形成相似学生集合,对学生无评分数据但其相似学生集合中的学生有评分数据的项进行填充,填充方式为线性加权求和。

在计算学生之间的相似度时需要利用学生的背景属性进行计算,对于学生的背景属性特征的选取,结合学生背景与企业招聘时的关注点,确定采用学生的性别、籍贯、学校、学位、专业、英语水平、实习经验、获奖这几项作为学生的背景属性构成背景属性向量B={b1,b2,b3,b4,b5,b6,b7,b8},利用学生的背景属性向量进行学生之间的相似度计算,举例如下:

对于学生a和学生b,对比2人的背景属性向量,若Baj=Bbj(Baj代表学生a的第j项背景属性,Bbj代表学生b的第j项背景属性),则学生a和学生b之间的相似向量S_abj=1,否则S_abj=0。根据相似向量S,计算学生a和学生b之间的相似度,计算公式如式(10)所示。

(10)

根据相似学生的评分数据对该学生的评分数据进行填充。在计算时,需要考虑学生相似集合中的学生评分信息以及学生之间的行为相似性。学生之间的行为相似性利用学生在系统中的行为数据进行计算。行为相似性分为3个部分:搜索行为相似性、浏览行为相似性以及收藏行为相似性,其中浏览行为指点击标题、查看详情、浏览官网中的任意一种。计算公式如式(11)~(14)所示。

其中:S_Aij表示学生i和学生j的行为相似性;S_cij表示学生i和学生j的搜索行为相似性;S_fij表示学生i和学生j的浏览行为相似性;S_dij表示学生i和学生j的搜藏行为相似性;P_ci表示学生i搜索过的职位集合;P_fi表示学生i浏览过的职位集合;P_di表示学生i搜藏过的职位集合。

最后根据行为相似性和相似用户集合进行评分填充。详细计算公式如式(15)所示。

(15)

2.4 预测推荐

根据最终的评分矩阵,采用调整的余弦相似度,对职位之间的相似度进行计算,找出职位相似集合P,计算公式如式(16)所示。

(16)

采用偏好计算公式(17),预测待推荐学生对未评分企业的评分值。

(17)

最后,考虑到学生被企业的成功录用几率随着企业在招聘人数上的需求呈负相关关系,也就是随着企业招聘时间的延长,企业需求人数也在下降,学生应聘成功的机率也会减小,所以在最终的评分值这里,考虑到对应聘成功率的影响,加入了时间因素,如公式(18),得到最终评分计算公式(19),根据预测的评分值对企业进行排序,选取TOP-N推荐给学生。

3 实验分析

系统服务完成后,提取就业信息网站上的历史信息作为实验数据,以是否投递过简历作为依据,对算法进行分析与评价,并与传统的基于用户的协同过滤算法进行比较。实验在个人PC机上完成,配置为Intel i-7-3770 3.4 GHz CPU,32 G内存,操作系统选取Win 10,开发语言采用Python语言。具体实验过程如下:

1) 对于每个学生,分别删除部分其对已投递过和未投递过简历的企业行为信息;

2) 设定推荐企业招聘信息的数量;

3) 运行算法,进行测试,记录推荐结果;

4) 得出算法的精确率Pre,召回率Rec。

精确率Pre和召回率Rec的定义如式(20)~(21)所示。

其中:S表示学生集合;W(s)表示推荐给学生的企业集合;U(s)表示实验步骤(1)中删除的已投递过简历的企业集合。

测试结果如图3、图4所示。

图3 算法精确率对比Fig.3 Precision comparison

图4 算法召回率对比Fig.4 Recall comparison

图5 算法综合对比Fig.5 Comprehensive comparison

由测试结果可知,企业招聘信息推荐数量较少时精确率较高,随着推荐数量的增加,精确率呈现先下降再上升的状态,当推荐信息达到一定数量时,准确率又开始下降;召回率随着推荐数量的增加不断上升,但增长趋势逐渐变缓。在推荐数量取值为16时,相对于传统的基于用户的协同过滤算法,本文的推荐算法的正确率达到79%,提高了8%左右,召回率达到70%,提高了5%左右。

对准确率和召回率进行综合考虑,计算P和R的调和平均值F=(2×P×R)/(P+R),结果如图5所示。

由图5可知,本文算法的调和平均值F高于传统的基于用户的协同过滤算法,随着推荐数量的增加,F的值也在增加,在推荐数量为16时,推荐效果达到峰值。

综上分析,本文提出的推荐算法具有较高的性能,无论在正确率还是在召回率上都要优于传统的基于用户的协同过滤推荐算法,满足个性化就业信息推荐服务的基本需求。

4 结 论

本文将个性化推荐服务技术应用于就业信息系统中,在就业信息系统中引入就业信息推荐服务,提出了基于用户行为信息分析的学生用户兴趣模型获取方法和基于评分矩阵的就业信息推荐方法,该服务可以有效地提高就业信息系统的服务质量和使用效率。

猜你喜欢
职位个性化算法
领导职位≠领导力
坚持个性化的写作
Travellng thg World Full—time for Rree
进位加法的两种算法
职位之谜与负谤之痛:柳治徵在东南大学的进退(1916—1925)
上汽大通:C2B个性化定制未来
一种改进的整周模糊度去相关算法
同桌宝贝
一种基于L-M算法的RANSAC图像拼接算法
满足群众的个性化需求