基于LDA 的招聘信息技能标签生成算法

2021-05-25 05:26李堂军戴昕淼
软件导刊 2021年5期
关键词:文档标签词语

李堂军,戴昕淼

(山东科技大学经济管理学院,山东青岛 266590)

0 引言

就业是民生之本,稳就业是“六稳”之首。当前,经济下行压力与疫情叠加,国家围绕稳就业原则,多项措施推进人才资源有效配置。随着互联网普及,越来越多的招聘厂商和应聘者选择互联网进行招聘及求职工作。网络招聘指通过互联网进行招聘活动,主要过程有发布岗位信息、收集简历、在线面试等[1]。据统计,2019 年使用网络招聘的厂商数量已达486.6 万家,网络求职用户规模超2 亿人次。相较于传统招聘,网络招聘不仅覆盖面广、时效性强,而且具有成本低的优势,但招聘厂商与求职者之间的匹配效率问题始终有待解决。如招聘厂商在招聘过程中对职位描述不清晰、定位不准确,虽写有岗位职责或任职资格,却缺乏对岗位技能的重点描述,求职者难以有针对性地应聘。

本文通过对招聘文本信息进行分析,提出一种基于LDA(Latent Dirichlet Allocation)模型的技能标签生成算法。首先通过招聘词库提取关键词生成候选标签,然后将文本挖掘获得的文本信息进行LDA 主题挖掘,对获得的主题、关键词与获取的候选标签进行相似度计算,最后对候选标签进行加权计算得出各主题下的技能标签。实验表明该方法能够准确挖掘出技能标签,为招聘厂商筛选应聘者提供借鉴与参考。

1 相关研究

网络招聘源于美国,现已成为许多国家和地区主要的人才招聘渠道。为提高网络招聘效率,国外相关学者进行了大量研究。Evanthia 等[2]提出一种基于网络招聘系统的个性挖掘与排名方法,实现应聘者的自动预筛选;Malik等[3]提出基于上下文信息和知识信息的岗位描述领域本体,对岗位上下文信息进行扩展。该方法旨在使用特定领域的字典从工作描述中提取实体,适当地匹配用户的档案/查询和工作描述,实验证明该方法可丰富从职位描述中提取的数据,进而帮助用户找到更多合适的工作;Luis 等[4]提出基于“简历间邻近性”(即求职者对同一份工作发出的简历之间的词汇相似性)的简历排名方法,该方法采用基于相似系数和词汇评分的相关反馈技术,提出在词汇层面使用相关性反馈来提高简历排名的建议;Mohammed 等[5]通过整合自然语言处理工具和基于语义的方法,对给定职位使用传统的关键字模型,通过额外的职业类别和基于语义的技术匹配/筛选申请人简历,系统解决传统招聘程序的局限性;Fabiano 等[6]提出一种基于标签的信息检索方法,提高如搜索、内容推荐和分类等信息检索服务的有效性;Ralf等[7]基于资源和用户标签概率模型,通过研究语言模型以及潜在的Dirichlet 分布,提出个性化标签推荐方法。

国内网络招聘行业与国外相比起步较晚,但我国网络招聘行业前景广阔、市场潜力巨大,所以发展速度较快。为提高网络招聘效率,充分挖掘市场潜力,国内学者也开展了大量研究。张俊峰等[8]通过对获取的网站招聘信息进行中文分词、人工筛选、分类等,获取数据类岗位招聘需求特征,为人才培养及求职者知识与能力构建提供参考;汤洋等[9]通过对网络招聘信息进行中文分词和权重转换,建立文本数据向量空间模型,进而分析得出目前市场所需人才的职业类型和专业领域,最后采用聚类方法对结果进行检验;王成城等[10]通过对招聘文本信息进行分类汇总与文本分析,发现NGO 组织人力资源市场发展4 个方面的问题,通过对问题的分析与剖析,探讨优化NGO 组织人力资源管理的新路径;俞琰等[11]提出基于大数据量网络招聘文本挖掘的课程知识模型及自动构建方法,利用自然语言文本挖掘技术实现课程知识点模型的自动构建,并通过实验对其构建过程进行验证与分析;朱剑[12]通过对招聘启事的任职资历进行文本分析,研究并发现任职资历中重要维度的共性与个性。

目前国外对招聘信息的分析主要从招聘信息中提取数据,为用户提供推荐以及通过对获取信息的研究帮助预筛选、检索和匹配等,国外基于标签生成的研究大多通过提高标签的检索、内容推荐和分类效果满足信息检索服务和用户推荐需求。国内对招聘信息的分析大多是通过对招聘文本的研究获得招聘的需求特征,为人才培养与能力构建提供参考。从现有研究来看,国内外对网络招聘文本信息分析方面技能标签的生成研究鲜有提及,多数研究是通过对招聘信息的分析获取技能需求,便于改进人才培养计划和帮助应聘者找到工作,没有考虑到挖掘深层次招聘信息的研究需求,并且缺乏一定的判断标准。因此,本文针对挖掘网络招聘文本信息背后隐藏价值的需求,提出基于LDA 主题挖掘的技能标签生成算法,通过该机制生成的技能标签反映出不同岗位的技能倾向,为招聘厂商合理高效地筛选应聘者提供参考依据。

为深入挖掘这些文本信息背后隐藏的价值,需要使用相应的技术手段获取与处理这些信息。随着互联网的迅猛发展,Web 文本逐渐成为信息的主要载体和必不可少的信息来源,通过使用Web 文本挖掘技术进行相关研究的价值及意义也日渐凸显。学者Oren[13]认为,通过数据挖掘技术从Web 文档和服务中自动发现和提取信息的技术称Web 挖掘,这种定义侧重于挖掘的技术和目的研究;学者王继成等[14]认为,Web 挖掘是一个从输入到输出的映射ζ:C→p,其中将C 作为输入,p 是文档集合C 中发现隐含的模式,这个定义侧重于文本挖掘过程。Web 文本挖掘使人们可从浩如烟海的信息资源中获取更深层次、更有价值的信息,这种技术逐渐演变发展成为一种能够获取和分析信息资源中隐藏的潜在价值的有效技术。

LDA 模型是一种将文档表示为潜在主题的随机混合的层次贝叶斯模型,且每个主题的特点由单词的分布决定[15]。LDA 主题模型是分析提取某一主题所提供的文本数据中所表达的观点、感受和情感特征的方法[16],可用来识别大规模文档集或语料库中潜在的主题信息,是近年来特别热门的文本挖掘研究方法,它有助于人们深入理解海量文本背后隐藏的含义。因此,可通过LDA 模型将海量的招聘文本信息进行主题挖掘,再从中提取技能主题,为进一步的筛选和匹配提供借鉴和依据。

2 网络招聘信息主题挖掘方法

LDA 主题模型能有效提取大规模文本隐含主题[17]。网络招聘作为一种主流的招聘渠道,产生了大量的网络招聘文本信息,且大量文本信息背后的隐藏价值没有被深入挖掘,将LDA 主题模型引入网络招聘文本分析领域,有助于挖掘隐藏主题,解决网络招聘分类不明确、缺乏标准、针对性不强等问题,为科学合理地进行招聘工作提供借鉴与指导。通过对大量的招聘信息进行观察可以发现,招聘信息具有多层次结构,其结构一般分为招聘公司—招聘职位—岗位职责与任职资格。招聘网站上有大量的招聘公司,这些招聘公司会存在对几个不同岗位同时招聘的情况,而不同岗位有不同的职位要求与任职资格,这些岗位职责要求与任职资格就是对应聘者进行合理筛选的主体和主要依据。岗位信息中的工作职责与任职资格包含学历专业、工作经验、个人素质、能力要求、工作介绍等。

不同岗位的工作职责和任职资格会有差异,通过对大量招聘文本进行分析,可发现这些不同岗位之间的差异,即技能特征的区别,这些技能特征成为厂商筛选合适应聘者的科学依据。

2.1 主题挖掘模型设计

本文提出基于Web 文本挖掘和LDA 主题模型相结合生成招聘信息技能标签,即基于LDA 进行主题挖掘的技能标签生成模型。该模型主要进行文本聚类和主题挖掘,包括招聘信息抓取、预处理,进行LDA 主题挖掘并提取与技能相关的关键词,对提取的候选标签与关键词进行相似度计算,最终生成与技能相关的标签—技能标签,如图1 所示。

2.2 基于LDA 模型的潜在主题挖掘

2.2.1 LDA 模型基本原理

LDA 模型是一种文档主题生成模型,它包含词、主题、文档三层结构,是一个层次贝叶斯模型。所谓的生成模型即以一定概率选择某个主题,并从这个主题中以一定概率选择某个词语的过程。文档—主题服从狄利克雷分布,主题—词服从多项式分布[18]。LDA 模型如图2 所示。

Fig.2 LDA model图2 LDA 模型

图2 中空心圆代表隐含变量,实心圆代表可观察变量。图中字母α是文档的主题分布超参数,β是文档的词语分布超参数,θ为文档—主题的概率分布,φ是主题—词语的概率分布;W 是文档的基本单元,唯一性词汇;M 是语料集,文档集合指包含M 个文档的集合,记为C={D1,D2,…,DM};文档D 由N 个词项组成,记为D=(w1,w2,…,wN);同一类语义集合记为Z,主题数为K。

一篇文档生成过程:首先采样θD -Dir(α),然后对文档D 中的每一个词项Wi采样一个主题Z-Multinomial(θD),从P(Wi|Zi,β) 中采样一个词项Wi,生成一个主题Zi条件下的多项式概率Wi-Multinomial(φZ)[19]。通过LDA模型对语料集进行建模,得到文档—主题分布和主题—词项分布两种概率分布。

2.2.2 数据采集与预处理

据统计,“前程无忧51job”的月活跃用户数量超过1 000 万,是线上活跃用户数量居首位的招聘平台,其次是智联招聘的681.5 万和BOSS 直聘的370.5 万。“前程无忧51job”于1999 年成立,现已成为一个大型综合性的网络招聘服务平台,拥有大量的用户和招聘文本信息数据,故选取“前程无忧51job”招聘网站作为本文分析的数据采集平台。通过集搜客网络爬虫软件对前程无忧51job 网站里的招聘信息进行爬取,爬取的筛选条件为北京地区的财务/审计/税务岗位,符合条件的招聘网页共270 页,得到公司名称、岗位名称、薪资待遇、公司性质、岗位职责和任职资格等内容的招聘文本信息共计5 388 条。在对招聘信息进行处理过程中,存在薪资、工作职责等指标信息缺失情况,通过手工筛选空白、无效信息之后,得到有效数据5 036 条。

从前程无忧51job 招聘网站爬取的招聘信息保存在语料集中,但是这部分招聘信息可能不完全符合LDA 模型的输入要求,例如有些招聘信息是英文,有些信息中存在符号表情等,难以直接进行分析,所以要对其进行一定的处理。预处理过程通过对原始招聘文本信息进行格式转换、句子划分、分词与去除停用词、修正等,使信息符合LDA 模型的输入格式要求。

2.3 招聘词库构建

本文招聘信息爬取的是财务/审计/税务类岗位,这些岗位招聘信息中存在大量包含岗位职责特点和技能特征的专业词汇,这部分词汇无法在jieba 词库中被识别到。因此,在候选标签生成过程中,可进行关键词提取获取专业词汇,以此作为候选标签,使招聘信息在分词时能很好地识别。对标签进行控制时需要创建招聘词库[20],本文通过使用“爱站网”中的招聘词库对其进行手工删除无关词汇、去重、整理,生成本次研究所需的岗位招聘词库,如表1 所示。

Table 1 Recruitment Thesaurus表1 招聘词库

通过获得的招聘词库,结合收集的岗位职责/任职资格句子,使用Python 中安装的jieba 进行分析。由于岗位技能需求一般是名词和动词,因此排除掉一些无实质意义的词语如以上、各项、各类、根据等,最终保留排名前20 的词语。这些候选标签词语频数较高,可以很好地涵盖相应招聘岗位技能特征,候选标签如表2 所示。

Table 2 Ranking of candidate tags表2 候选标签排名

3 实验结果与分析

3.1 LDA 主题挖掘结果与分析

为了解各主题下的技能特征,将从前程无忧获取的招聘信息进行预处理,并将预处理后的信息作为本次实验的语料集。对其去除停用词和中文分词,再使用JGibbsLDA作为LDA 模型,将LDA 模型的参数设置为:K=4,迭代次数1 000 次,超参数α=50/K,β=0.01。对本次主题挖掘结果进行整理,得到各主题中的主题词列表,主题词按照重要程度排列,得到如表3 所示的主题—词语概率分布。

Table 3 Topic word probability distribution表3 主题—词语概率分布

挖掘主题概率可以发现各主题下的高频关键词情况,进而大致了解该主题下的代表性信息,这些代表信息更能体现主题特征,因此可作为对技能标签进行控制的词表。高概率词语具有较高的代表性,低概率词语代表性较弱,因此最终的控制词表由概率较高的前20 个关键词决定。同时将控制词表里的词语概率等比放大,使其和为1,最终结果如表4 所示。

3.2 Word2vec 及相似度计算

Google 公司在2013 年开发了一款用于训练词向量的工具Word2vec,它提供一种使用分布式向量对文本进行表示的方法[21]。该方法也是用来产生词向量的相关模型,其中每一维词向量值体现相应的语义和语法的潜在特征,而不同的语义和语法特征的维度分布决定特点的不同。一般来说,词向量是一种低维实数向量,这让语义上相似或相关的词表现出更为接近的距离,所以两个词向量的相似度可以通过它们的余弦值来衡量。

Table 4 Control words based on topic keyword表4 基于主题—关键词的控制词

余弦相似度方法用来计算向量相似度,是一种行之有效的方法,通过使用余弦相似度可以计算两者之间的距离。两个向量的权重由分子表示,向量模的乘积由分母表示。余弦相似度取值范围在[0,1]之间,相似度数值越大说明两个词语的语义越接近,反之亦然。如Da、Db的相似度计算公式为[22]:

根据获取的控制词表,将候选标签和控制词表中的关键词进行相似度计算得到两者的相似度,结果如表5 所示。

Table 5 Similarity calculation of recruitment candidate tags and control words表5 招聘候选标签与控制词语相似度计算

4 技能标签生成

对各主题下候选标签相似度进行加权求和,将候选标签与主题—关键词控制词表中的每一个控制词语相似度乘以该控制词语在其主题中的权重并进行累加,经过控制词表所控之后最终得到标签权重,结果如表6 所示。

Table 6 Skill weight表6 技能权重

通过对获得的技能标签进行分析,选取权重较高的前8 个作为本次招聘文本主题下的技能标签。每个主题的推荐标签如表7 所示。

Table 7 Skill labels表7 技能标签

5 结论与建议

本文通过对网络招聘信息的爬取与分析,进行LDA 模型主题挖掘,对候选标签与主题词、词频分析,结合候选标签与不同主题下的控制词语相似度计算结果,得到不同主题下的技能权重表,最后选出不同主题下的技能标签。通过对招聘信息研究发现,不同主题下的技能权重有所不同,即不同岗位的技能侧重点有所不同,通过对招聘信息研究得出不同岗位技能的侧重点及招聘厂商在进行人才招聘时的重点筛选条件。然而随着科技及社会的发展,对人力资源技能的需求也会动态变化。本文研究结论如下:

(1)Topic1 财务职位高管和人才储备需求量较大,因此有经验的人才可以选择应聘高管职位,一些经验不太充足的大学生或初涉领域的新人,可选择一些储备岗位,不仅可以积累经验,还可为之后的职业晋升打下良好基础。该职位不仅需要具有较高的抗压能力和丰富的经验,而且需要熟练掌握软件操作,进行一些核算和审核工作,专业性强,需要一定的专业基础。

(2)Topic2 会计职位侧重熟练性,该职位实践性强。相比于财务管理,会计职位更需要熟练的操作技能及一定的经验。应聘该职位要有一定的专业基础,不仅需要一定的工作经验或实习经历,而且要有自主分析数据的能力。

(3)Topic3 审计职位相比于其它3 个职位,对经验需求最高,排在技能标签首位,而且一般对人才的需求也更倾向于高管。该职位需要审核一些财务计划工作,具有独立核算或核对能力,应聘者在选择时应特别关注工作经验要求。

(4)Topic4 税务职位专业需求排名更加靠前,说明该职位的专业需求意向更加明显,需要熟悉涉税的法律法规等,对有能力有经验的高管需求量较大。该职位不仅需要熟悉涉税的法律知识,还需要熟悉管理方面知识,有能力审核和处理涉税工作。

6 结语

根据大数据时代网络招聘特点可以发现,不同岗位之间招聘信息技能要求的侧重点会有差异。通过对招聘信息的研究,设计了技能标签生成算法,该算法可得出不同岗位技能的侧重点,将此作为厂商进行人才招聘时的重点筛选条件。通过该算法可以较好地解决招聘厂商对应聘者检索、分类和管理问题,提高招聘效率和匹配度。

猜你喜欢
文档标签词语
容易混淆的词语
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
找词语
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
基于RI码计算的Word复制文档鉴别
标签化伤害了谁
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于多进制查询树的多标签识别方法