张毅 高元荣 黄宗财 吴升 王毅青 黄幼姑
摘 要:受中美贸易摩擦不断升级、国内经济结构调整和金融市场波动等环境压力影响,目前全国就业形势整体较为严峻。互联网中海量岗位信息的存在,为求职者和招聘单位带来了便捷,也为精准人岗匹配提出了挑战。基于内容的推荐算法较适用于人岗匹配,但是目前大多数方法使用的特征较少,特别是对提供的长文本信息利用不够。本文提出一种结合深度语义特征的人岗精准匹配算法,在构建较为完善的人岗特征体系基础上,利用自然语言处理技术,采用Doc2vec方法充分挖掘长文本中包含的语义信息,实现求职者与岗位之间信息的精准匹配。该方法既能克服数据稀疏和冷启动问题,同时能充分利用求职者和岗位提供的信息,有利于实现更加准确、个性化的就业推荐服务。
关键词:人岗特征体系;深度语义特征;Word2vec;Doc2vec;人岗精准匹配
中图分类号:TP301.6
文献标志码:A
近些年,我国面临较大经济下行压力,就业形势严峻,产业结构需要转型升级,劳动力市场需求发生重大改变,人才供给与岗位需求出现不对称[1-3]。虽然互联网为就业提供了海量的岗位需求数据,但是同时也增加了准确获取所需信息的时间和复杂度。目前就业部门、各大招聘网站(BOSS直聘、智联招聘、拉勾网)等为广大求职者提供了海量岗位招聘信息,业务系统除了支持传统的岗位检索,也支持根据求职者的简历信息进行岗位推荐。现有岗位推荐系统通过分析求职者的历史搜索记录,挖掘其求职意愿、需求和求职倾向,为他们提供准确、快速、个性化的岗位推荐服务。
近年来很多学者推出岗位推荐系统[4-5],能够为用工岗位与求职者搭建匹配推送平台,努力实现就业岗位精准对接。随着互联网的迅速发展,将岗位推荐算法应用于移动互联网、电子商务、新闻媒体、网站、社交软件等对外发布招聘岗位信息的网络发布平台,将为求职者找工作提供更便捷的通道,特别是在公共就业服务领域的职业介绍业务中得到有效的应用。例如,尹传城等[6]针对高校毕业生,提出了一种综合在校历史信息的高校毕业生互惠就业推荐方法,该方法具有较高的推荐准确率和用户满意度,可以为高校毕业生就业提供有效指导。在人力资源应用方面,古振威[7]将推荐技术应用于人力资源领域,提出了基于隐语义模型与深度森林的人力资源推荐算法,挖掘用户潜在兴趣并推荐用户感兴趣的岗位,从而更好地进行人力资源推荐。于海棠[8]将知识地图、人岗匹配理论与人力资源配置方法相结合,首先根据知识地图构建方法构建人员知识地图与岗位知识地图,然后利用二分图匹配算法进行匹配,从而实现一个基于知识地图的人岗匹配模型。欧俊[9]通过对乡镇领导干部人岗匹配现状进行分析,综合运用行为事件访谈法、统计分析法、问卷调查法等研究方法,构建了乡镇领导干部胜任力模型;然后,以构建的乡镇领导干部胜任力模型为基准,把人岗匹配相关理论应用到知岗、知人、匹配和培训各环节工作中,为乡镇领导干部人岗匹配的实现提出有针对性的对策和建议。
目前,就业推荐的方法主要有两种:(1)基于内容匹配的推荐算法;(2)基于协同过滤的推荐算法。基于内容匹配的方法[10-11]是根据招聘单位岗位要求信息和应聘者简历信息进行匹配,其利用的是岗位属性中的文本内容与简历中对应属性的文本内容进行匹配。基于协同过滤的方法[12-13]是根据招聘方与求职者浏览彼此信息的行为记录来标记用户与项目之間的喜爱程度。基于协同过滤的方法面临着冷启动和数据稀疏的问题,而基于内容匹配的方法中最为关键的是匹配规则的制定,诸如岗位中“岗位要求”属性信息和简历中“掌握技能”属性信息对于人岗精准匹配至关重要。而这属性内容大部分是长文本组成,充分利用长文本特征项的深度语义进行特征匹配仍然存在一定的挑战。随着自然语言处理技术的发展,长文本的向量化表示为深度语义挖掘提供了技术支持,本文将结合深度语义特征构建人岗精准匹配模型,充分利用人岗特征中长文本蕴含的丰富语义信息,实现求职者与岗位之间的精准匹配。
1 精准人岗匹配算法
结合深度语义特征的精准人岗匹配算法如图1所示,首先对招聘岗位和求职者进行特征构建,明确不同层次特征的匹配规则:(1)直接匹配过滤层,对人岗特征中相对应的属性实行文本直接匹配;(2)量化计算过滤层,首先对人岗中相关特征进行标签量化,然后使用数值比较计算的方法,确定相关特征的匹配度;(3)文本相似计算层,通过采用Doc2vec的方法对人岗匹配特征中具有长文本的属性值进行向量化,然后通过计算对应特征之间的余弦距离,评价对应特征的匹配度;(4)行为特征层加权,通过求职者对岗位的投递和收藏等操作,在之前纯粹人岗特征属性上进行加权处理;(5)综合上述4层特征,计算求职者和岗位之间的匹配程度,实现人岗信息之间的精准匹配。
1.1 人岗特征体系构建
人岗匹配模型的构建基础在于人岗特征体系的建立。人岗特征体系主要是根据求职者和用人单位双方的信息需求构建的。通过调研各种在线求职招聘网站发现,求职者在求职过程中想要了解招聘方所发布的岗位信息,而招聘单位则关注求职者的个人基本信息和求职意向。因此,可根据求职者和招聘单位在招聘应聘过程中所关注的资料需求,构建招聘岗位特征和求职者特征,而众多在线就业推荐网站同时也关注招聘和求职用户在平台上的行为记录,包括求职者和招聘方相互阅览信息和投递情况的行为,这些行为记录间接反映了求职者与岗位之间的匹配意愿,所以据此来构建求职者-岗位的行为特征,在推荐系统起到加强推荐的功能。
(1)岗位特征
这里的招聘岗位特征指的是针对岗位进行特征构建,主要包括招聘岗位情况(岗位类别、岗位名称、岗位简介、福利待遇、薪资水平)、公司情况(公司名称、公司地址、公司性质、公司简介)、岗位要求(学历、性别、专业、岗位职责、任职要求、工作经验),其属性大部分能够反映此岗位的特征和需求。
(2)求职者特征
求职者特征也主要是针对岗位推荐中的主体求职者用户构建的特征,主要包括岗位要求(性别、学历、专业、岗位职责、任职要求、工作年限),而招聘单位则关注求职者的基本信息(姓名、年龄、性别、电话、籍贯、邮箱)、求职意向(岗位、城市、薪资)、教育背景(学历、毕业学校、学院、专业、毕业成绩、毕业时间、奖励证书)、掌握技能、工作经验、个人评价,其特征属性反映了求职者本身的背景信息及求职意愿。
(3)用户行为特征
用户行为特征是用来记录求职者在人岗匹配系统中浏览和投递招聘岗位的行为,其属性反映了求职者对系统中某岗位的喜好程度和投递意愿程度。此特征对于推荐有优化作用。
1.2 人岗匹配模型构建
人岗匹配模型是建立在构建岗位特征和求职者特征基础之上,是充分利用求职者和岗位的部分特征属性之间存在着内容的相互匹配关系,所以基于特征的匹配是最简单有效的匹配。然而,参与匹配的特征中因为其属性值的表达方式不一样,在特征属性进行匹配过程中需要使用不同的匹配规则,我们根据其特征属性表达方式的类型进行了分层,主要分为3层,如图1所示:(1)直接匹配过滤层;(2)计算过滤层;(3)文本相似性计算层。直接过滤层是根据文本进行匹配;计算过滤层是通过值得对应属性值的比较而完成匹配,需要每一项属性都匹配成功;文本相似计算层是针对匹配特征属性值为长文本,需要通过文本相似计算进行匹配。
1.2.1 直接匹配过滤层特征
岗位特征属性“岗位名称”、“专业要求”、“性别要求”、“工作城市”和求职者特征属性“投递岗位”、“专业”、“性别”、“意愿城市”是一一对应的匹配项,其属性值为简单的短语,词语都是较为固定的词语,可以使用属性值直接匹配进行过滤。如其中只要有一对匹配特征的属性值中短文本字符匹配不成功,则直接匹配过滤层的值为零。使用如公式(1)表示:
pdir=mi1j1×mi2j2×mi3j3×mi4j4。(1)
其中:pdir表示直接过滤层计算得到的匹配值;ij={岗位名称投递岗位,专业要求专业,性别要求性别,工作城市意愿城市};m表示直接匹配过滤层特征对应人岗特征属性的匹配度,其值为1或0。
1.2.2 量化计算过滤层特征
在岗位和求职者特征属性中,学历、薪资等属性也是较为固定的短文本。但是在匹配过程中文本语义又存在相互包含或者大小概念之分,如岗位特征属性中“学历要求”为“中专”,而求职者特征属性“学历”为“硕士”,使用文本直接匹配,则会丢失语义上“硕士”大于“中专”的隐喻内涵记录。所以,本文将3对特征属性进行标签泛化,如表1所示,将属性值转化为数字,然后通过数学运算来判断两者之间的大小以及包含关系,实现进一步的匹配过滤。
1.2.3 文本相似计算层特征
在人岗特征中还存在使用长文本进行描述的特征属性,而这些对应的长文本具体描述了岗位的具体能力要求以及求职者的掌握技能,是岗位与求职者之间精准匹配的关键信息。其长文本隐含的深度语义信息反映求职者或岗位的特征。如表2和表3所示,求职者特征“掌握技能”和对应匹配的岗位特征中的“任职要求”属性值都为长文本,岗位特征属性“任职要求”中的文本“有扎实的美术功底”和“精通Photoshop\\Dreamweaver\\Illustrator等设计软件”与求职者特征“掌握技能”中“熟悉掌握Photoshop\\Dreamweaver\\Illustrator等软件操作”等信息具有很高的匹配度,而这些特征属性中蕴含的重要信息往往促成求职者和岗位之间的匹配。但是长文本匹配度计算较为困难,本文将引入自然语言处理技术,采用Doc2vec的方法将文本进行向量化,计算求职者特征属性中的“项目经历”、“掌握技能”与岗位特征属性中的“任职要求”、“岗位职责”相互对应的两个长文本之间的相似度,来判断两对特征的匹配度。
Doc2Vec是Le Q和Mikolov T在2014年提出的一种非监督式算法[14],基于Word2vec[15]进而获取句子/段落/文档的向量表达,学习出来的向量可以通过计算距离,获得句子/段落/文档之间的相似性。
在Doc2vec向量模型中,长文本的唯一标志ID被映射成矩阵D的列向量,而文档中的每个词也被映射为一个独立向量,作为权重矩阵W的一列。然后,对这个文档标记向量以及对这些词向量求平均或者首尾相连构建,用来预测文本中的下一个词。Doc2vec与Word2vec唯一不同之处在于从W和D两个矩阵中构建H。文档的标识被当做另外一个“词”看待,用来记忆当前文本或者文章主题。因此,把这个模型称为文档向量的分布记忆模型(distributed memory model of paragraph vectors,PV-DM)。在训练的每个步骤中,从随机段落中采样固定长度的上下文,用于计算误差梯度,以更新模型中的参数。如图2所示,以求职者特征属性“掌握技能”中的长文本为例,将其文本ID映射为矩阵向量,通过联合后续“熟练”、“掌握”和“Photoshop”的词向量,构建联合矩阵,用来预测下一个词汇“Dreamweaver”的向量表示。
这个算法有两个关键阶段:1)通过训练获得词向量矩阵W,softmax权重U,偏置项b以及文档向量D;2)第二个阶段是推断阶段,用于取得一个新文档的文档向量D,通过在矩阵D里增加更多的列,并保持 W,U, b不变,在矩阵D上进行梯度下降。使用输出的V作为文档的向量表示。
本文中采用Doc2vec技術,将所有求职者和岗位样本数据中的求职者特征和岗位特征属性“项目经历”与“任职要求”、“岗位职责”与“掌握技能”的长文本属性值作为两个语料库,分别进行文档向量的训练。在训练之后,获取求职者或岗位相对应特征属性的文档向量;然后,通过计算文档之间的余弦距离,获取对应特征属性的相似度;最后,累加获得文本相似计算层特征的匹配度。
Sij=Vi×VjVi×Vj,(6)
pdoc=Si1j1+Si2j2+Si3j3。(7)
其中:Vi表示特征属性i的文档向量,Vj表示特征属性j的文档向量;Si1j1表示特征属性i和j长文本的相似度,ij={项目经历任职要求,岗位职责掌握技能};pdoc表示为求职者和岗位之间文本相似计算层的相似度。
1.2.4 综合人岗匹配度计算
通过综合直接过滤层特征匹配式(1)、泛化后计算层特征式(5)和文本相似性计算层式(6),获得求职者和岗位之间的匹配度,计算公式如式(8)所示:
Pcom=pdir×pqua×pdoc×pact。(8)
其中:pact表示求职者针对岗位的行为特征,如果收藏或者投递,则pact=1。Pcom表示求职者和岗位之间的综合匹配度,其值如果小于1,则表示人岗匹配不成功;当1 2 结论 鉴于求职者本人的简历信息和招聘单位发布的岗位信息之间存在天然信息匹配项,所以本文在基于内容的推荐算法基础上,构建人岗特征体系,采用分层法对人岗特征进行分层处理,针对不同特征属性进行匹配。然后综合计算岗位与求职者特征之间的匹配度,充分考虑人岗不同的特征属性具有独特的特性,同时在匹配过程中不同属性具有不同的权重大小。利用自然语言处理技术,通过引入Doc2vec方法挖掘具有长文本的人岗特征属性的深度语义,解决了求职者和岗位特征中长文本匹配难题,提高了长文本特征属性深度语义在人岗精准匹配中的应用。本文所提结合深度语义特征的人岗精准匹配算法对于提供更加精准、全面、个性化的就业服务具有较大的应用价值。 参考文献: [1] 杨宜勇,黄燕东.2014~2015年中国就业形势分析与预测[J].经济研究参考,2015(3): 26-31. [2]陈彬.2017年就业形势分析与2018年展望[J].中国物价,2018(1): 17-20. [3]童玉芬, 王静文. 当前和今后一段时期我国的劳动力市场与就业形势[J]. 劳动经济评论, 2018, 11(1): 1-16. [4]刘玉华,陈建国,张春燕.基于数据挖掘的国内大学生就业信息双向推荐系统[J].沈阳大学学报(自然科学版),2015, 27(3): 226-232. [5]胡宜疑.基于. NET的就业信息推荐系统的设计与实现[D]. 长沙:湖南大学, 2015. [6]尹传城,王洪国,丁艳辉.一种基于在校历史信息的就业推荐算法[J].计算机与数字工程,2015, 43(10): 1742-1745. [7]古振威.基于隐语义模型与深度森林的人力资源推荐算法[D]. 广州:华南理工大学,2018. [8]于海棠.基于知识管理的高校人力资源配置[J].研究与发展管理,2006(1):122-127,135. [9]欧俊.基于胜任力的山区县乡镇领导干部人岗匹配研究[D].广州:华南理工大学,2018. [10]PAZZANI M J,BILLSUS D.Content-based recommendation systems[J].The Adaptive Web, 2007:325-341. [11]GOPALAN P K,CHARLIN L,BLEI D.Content-based recommendations with poisson factorization[J].Advances in Neural Information Processing Systems,2014,27:3176-3184. [12]黄梅娟.协同过滤算法在个性化就业推荐系统中研究[J].电脑知识与技术,2015, 11(8): 20-22. [13]SCHAFER J B,FRAMKOWSKI D,HERLOCKER J,et al.Collaborative filtering recommender systems[J].Acm Transactions on Information Systems,2004, 22(1): 5-53. [14]LE Q, MIKOLOV T. Distributed representations of sentences and documents[J/OL]. arXiv preprint arXiv:1405.4053,2014.https://arxiv.org/abs/1405.4053. [15]MIKOLOV T,SUTSKEVER I,KAI C,et al.Distributed representations of words and phrases and their compositionality[J].Advances in Neural Information Processing Systems,2013, 26: 3111-3119. (責任编辑:曾 晶) Research on Accurate Matching Algorithms for Personnel-post Combining Depth Semantic Features ZHANG Yi1, GAO Yuanrong1, HUANG Zongcai2, WU Sheng*2, WANG Yiqing1, HUANG Yougu1 (1. Fujian Star Big Data Application Service Co., Ltd., Fuzhou 350003, China; 2.Digital China Research Institute, Fuzhou University, Fuzhou 350002, China) Abstract: Influenced by the escalating trade friction between China and the United States, the adjustment of domestic economic structure and the fluctuation of financial market, the employment situation in China is more severe as a whole. The existence of a large amount of job information on the Internet has brought convenience to job seekers and recruiters, as well as challenges to accurate job matching. Content-based recommendation algorithm is more suitable for job-to-post matching, but at present most methods use fewer features,especially the use of the long text information provided is not enough.. This paper proposes an accurate human-post matching algorithm combined with deep semantic features. On the basis of building a relatively complete human-post feature system, natural language processing technology and Doc2vec method are used to fully mine the semantic information contained in long texts, so as to realize the accurate matching of information between job seekers and positions. This method can not only overcome the problem of data sparseness and cold start, but also make full use of the information provided by job seekers and positions, which is conducive to achieving more accurate and personalized employment recommendation services. Key words: person-post feature system; deep semantic feature; Word2vec; Doc2vec; person-post precise matching