高境辰,丁乐,王琦
(南京工程学院 计算机工程学院,江苏 南京 211167)
当今社会经济发展迅速,就业难的情况已经较为严重。一方面求职者不清楚自己的需求,盲目跟风进行求职,导致一些职位供不应求,但是有些职位又出现了人才短缺的情况;另外一方面是有些职位对求职者的水平要求较高,一部分求职者不能满足职位的要求,浪费了宝贵的求职时间[1]。对于已经就业的求职者,又表现出就业满意度低等情况[2],这是岗位匹配度较低的表现。此种背景下,需要一个就业推荐系统来提高就业的成功率及满意度。
在推荐系统领域,传统的个性化推荐方案主要以协同过滤,基于内容的推荐,混合型推荐为主,推荐系统主要从用户的信息,推荐内容的信息中提取有用的部分进行推荐。这些算法主要把推荐转化成预测用户评分的问题,对预测分数较高的内容进行排序并进行推荐。传统的推荐算法往往只考虑单方面的需求,导致评分预测较为主观。互惠推荐算法同时考虑双方偏好,对用户的评分预测相比传统的推荐算法较为客观。本文主要对求职者和企业建立互惠推荐模型,把求职者对职位的满意度分成主观满意度和客观满意度两种,使用随机森林模型进行回归预测,在一定程度上提高了评分预测的精度。
随机森林模型是由Breiman和Adele研究的一种集成学习的算法[3],随机森林利用决策树作为基础的学习器,并在众多决策树的基础上使用随机的属性选择,通过多个决策树进行投票的方式进行最后的决策。随机森林每一次构建树的过程具有随机性,所以各棵CART决策树的结构也是随机的。随机森林算法的概念较为简单,在算法实现上比较容易,模型的泛化能力较强,对噪声和异常数据的容忍度较强,回归的精度较高,且支持增量学习,但是起始性能较差[4]。
互惠推荐算法是一种同时考虑用户的偏好和物品偏好的一种推荐算法,互惠推荐依赖于双边兴趣的表达,适用于推荐次数较少,并且推荐准确率较高的场景。
互惠推荐系统当且仅当推荐的双方的满意度都比较高时,系统认为推荐的双方是匹配的。而传统的推荐系统的满意度仅取决于用户的满意度[5-6]。
表1 传统推荐算法与互惠推荐算法的对比
在招聘领域中,传统的推荐算法没有综合考虑求职者和职位之间的关系,在招聘领域,求职者对算法的使用次数少,如果仅考虑单方面因素进行推荐,容易导致能力较低的求职者匹配到要求较高的企业,为了提高求职者投递简历的成功率,同时减少求职者投递简历失败次数,我们应该同时考虑求职者和企业双方的意愿。对于求职者,求职者希望能够找到待遇较好的公司,同时也受城市等地理位置因素影响,我们应该给求职者推荐符合其能力,也迎合求职者的自身意愿的职位。对于企业,企业想招收的是有一定经验的,高学历,高素质的人才,我们应该推荐的求职者应该是符合企业的需求的,有价值的人才。
由于总满意度受求职者和企业双方的制约,同时考虑双方的满意度,定义求职者满意度为S1,企业满意度为S2,总满意度为S。
定义总满意度S,用户满意度模型的权重为w1,企业满意度的权重为w2,S的表达式为:
根据熊凯[7],白争辉[8]和涂晓明[9]对求职者满意度影响因素的研究,我们可以将求职者自身的一些特征进行提取。我们将求职者的满意度分为求职者的主观满意度和客观满意度。主观满意度和求职者自身的属性相关,主要表现为求职者容易得到满足,客观满意度和职位的属性相关,影响求职者入职后的满意度。
表2 求职者主观满意度变量的选取与说明
表3 求职者客观满意度变量的选取与说明
根据刘兴林[10]的研究,企业的满意度主要表现为以下几个方面:薪资水平,单位类型,政治面貌,学历。其中,企业发布岗位的薪资越高,企业对求职者能力的期望越高,对求职者满意度的标准变高。一些特殊企业,如政府机关,事业单位,对员工的政治面貌有一定的要求,期望求职者的政治面貌为党员。企业会优先录取拥有较高学历的求职者,学历越高企业的满意度越高。
表4 企业满意度变量的选取与说明
评价一个推荐系统的好坏的方法可以使用预测准确度来衡量。
RMSE的定义为:
MAE的定义为:
本文使用通过问卷调查获得的自定义数据集,本文算法的RMSE的比较如图1所示,随着用户数量的增长,两种模型的RMSE都在趋于下降,并在最后有稳定的趋势,互惠推荐算法的RMSE较低,相比传统的基于内容的算法有一定程度上的优势。本文互惠推荐算法的MAE的比较如图2所示,MAE同样有下降的趋势,用户数量的增加,数据稀疏的问题得到了解决,MAE趋于稳定。综合两种评估方法,互惠推荐系统在测试数据集上的预测准确度相较普通的基于内容的算法是较好的。
图1 互惠推荐和基于内容的推荐RMSE对比
图2 互惠推荐和基于内容的推荐MAE对比
本文实现了一种基于随机森林模型的互惠就业推荐算法,通过将用户和职位的信息进行建模,对求职者信息和招聘岗位信息分别选取特征,并对模型进行了训练,实验表明本文所述的模型在测试集上有比较好的表现。