基于机器学习的招聘信息中就业技能提取的应用分析

2019-01-08 03:16赵力衡陈虹君
电脑知识与技术 2019年33期
关键词:应聘者分词职位

赵力衡 陈虹君

摘要:应聘者,特别是刚进入职场的学生,如果在就业前一段时间就能了解到自己掌握的技能与公司职位招聘信息中所要求的技能是否吻合,就能帮助应聘者在应聘前有更多的准备。为分析招聘信息中的就业技能,从招聘信息中提取就业技能词汇就显得很有必要了。鉴于此,提出使用机器学习中使用FP关联规则模型和语义分词法来实现对招聘信息中的就业技能的提取。实验结果表明,所提方法能较准确地分析并提取出招聘信息中的技能词汇,可作为就业技能提取的有效依据,也可为文本关键词组提取提供参考。

关键词:大数据;机器学习;就业;技能;FP

中图分类号:TP311 文献标识码:A

文章编号:1009-3044(2019)33-0211-02

当前很多应聘者,特别是初人职场的学生,在就业时常常不知道自己能胜任什么样的工作,因此帮助应聘者分析自己所掌握的技能和工作所需技能的差异就显得很有价值。为了解决这个问题,首先要做的就是从众多的招聘信息中识别出被普遍要求的就业技能词汇。

本文从分析招聘信息内容出发,通过机器学习和语义分词方式从招聘信息文本中识别出其中被普遍引用的就业技能词汇和词汇组,从而提供了从招聘文本信息中提取技能词汇和词汇组的一种实现方法。

1就业技能提取问题分析

在明确应聘者技能是否与职位匹配时,首先需要明确应聘者所掌握的技能和不同职位所需的技能有哪些。前者可以通过应聘者的技能调查准确获知,后者的数据则分散于各个招聘信息中,这就需要使用爬虫等工具来采集、整合这些数据。因时间有限,本文仅关注了计算机行业相关的职位。在采集职位数据时发现了以下问题:

1)招聘信息中对技能的描述不是单独的,通常是嵌套在一条或多条完整的语句中,以Java工程师为例:

21不同公司对同一职位所需技能的要求存在着不同,如图1所示的脱敏后不同公司对Java工程师的不同要求。

2就业技能提取模型分析

分析多个招聘信息发现,同一职位的技能要求中,部分技能是在多数公司的招聘信息中都出现的,比如表1中的Hiber-nate、Oracle等,这些技能文中称为该职位的通用技能;另一些技能,则仅在少数公司的招聘信息中出现,这部分技能通常是公司或项目所特需的技能。

其中,前者具有应聘职位的普遍性,掌握后能符合多数招聘信息需求,也是应聘者就业技能分析应当关注的;而后者通常仅在少数公司的招聘信息中出现,大多是该公司因业务需求所特有的技能需求,应聘者即便掌握,符合的招聘信息也不多,因此这部分技能并不需要应聘者普遍掌握。

在应聘一个职位时,应聘者也并不需要掌握该职位所有的通用就业技能,而是只需要掌握这个招聘信息中要求的通用技能即可,即这次应聘所需的通用技能组。

因此,實现对就业技能的分析时需要解决以下两个问题:

1)从招聘信息中提取出相关的就业技能;

2)识别出其中被同一职位广泛引用的通用技能和通用技能组。

2.1技能提取

提取技能词汇的第一步就是分词。本文采用了语义分词与分词工具结合的方法实现分词。这里语义分词实现方式是将描述信息按“谓词一宾语”的语义分词方法,先定义了以谓语表示的“特征谓词”和以宾语表示的“后缀停词”词典,然后使用正则表达式进行分词。先使用分词工具分词,分词工具的分词结果较粗,因此再将分词工具的结果再使用语义分词,从而能较精确地将就业技能从招聘信息中提取出来,如下图所示:

2.2通用就业技能组分析

就业技能提取完成后,对每一个职位创建一个表格,将该职位的每一则招聘信息中提取出来的就业技能词汇填入同一行中。以表2中的招聘信息为例,如下表所示:

如果同一职位中一个就业技能的支持度超过50%,则设定该技能在这个职位中是一个通用技能。找出通用技能后,在寻找通用就业技能组时还需要找出同一则招聘信息中同时出现的通用技能,这就需要用到数据关联分析模型。因此可以用FP Growth关联模型对该表数据建模。

在FP模型中设定最小支持度参数为0.5,就能同时得到该职位支持度超过50%的通用技能及通用技能组。下图展示了FP Growth模型分析的部分结果:

上图中一行记录表示一则招聘信息,该记录中的工作要求则是这条招聘信息中保留的在该职位中支持度超过50%的技能,这些就是在该职位的大多招聘信息中都要求了的通用技能。此外,从图中可以看出同一条招聘记录中的全部通用技能就是这条招聘信息中要求的一组相关就业技能,它们就构成了一个通用技能组。至此,就将招聘信息中的通用技能和技能组提取了出来,可以用于应聘者就业技能画像了。

3结束语

从结果来看,方法所提出的模型能较准确地从不同的招聘信息的职位描述中识别出技能相关词汇,并提取出该职位相关的通用就业技能和技能组,从而有效解决了嵌入在招聘信息这样的文本中的技能词汇识别和通用技能提取的问题,为文本分析中使用机器学习方法实现词汇识别和关键词提取提供了一个可行的思路。

实验结果表明,所提方法能较准确地从招聘信息中识别并提取该职位所需的通用就业技能和技能组,可作为招聘信息分析中就业技能提取的有效手段,并为文本关键词组分析提供了一个可行的思路。

猜你喜欢
应聘者分词职位
领导职位≠领导力
分词在英语教学中的妙用
把降落伞卖给农夫
职位之谜与负谤之痛:柳治徵在东南大学的进退(1916—1925)
美最高就业率地铁圈
收入性别歧视的职位差异
论英语不定式和-ing分词的语义传承