基于决策树算法的人力资源推荐研究

2021-07-29 07:33孙煦
微型电脑应用 2021年7期
关键词:查全率决策树聚类

孙煦

(北京市大兴区人民医院,北京 102600)

0 引言

随着改革开放的不断深入,各企事业单位人事制度发生了相应的变化,更加倾向于从网上进行人才招聘,同时求职人员数量的不断增加,同一个岗位有许多人才竞争[1-3]。目前求职人员很难在短时间找到合适的岗位,同样,各企事业单位相应的岗位也难以找到最适合的人才,因此,用于招聘的相关技术,日益凸显其重要性,应寻求人力资源推荐算法,使求职信息与岗位需求信息智能化匹配,发挥人力资源部门的潜能[4-6]。人力资源推荐方法可以帮助求职人员快速、准确地找到最合理的岗位,同时亦可以帮助管理员设置合理的岗位,以提高管理效率,因此设置最优的人力资源推荐方法成为当前人力资源管理领域一个重要的研究方向[7]。

针对人力资源推荐方法的设计问题,许多专家和学者投入了大量的时间和精力进行了相应的研究,提出许多有效的人力资源推荐方法[8]。最初为基于专家系统的人力资源推荐方法,该方法首先建立人力资源推荐的知识库,知识库包括大量的推荐规则,根据推荐规则进行相应的人力资源推荐,但是该方法的工作效率低,并且人力资源推荐结果与推荐规则多少相关,因此人力资源推荐可信度低[9]。随后出现了基于K均值聚类的人力资源推荐算法,通过K均值聚类算法对原始数据进行分类[10],根据分析推荐相应的岗位,但是该方法的局限性也十分明显,经常得到错误的人力资源推荐结果,无法得到高质量的人力资源推荐结果[11]。

为了提高人力资源推荐质量,减少人力资源推荐错误,为人力资源管理部门提供有价值的参考意见,提出了基于决策树算法的人力资源推荐方法,并在相同条件与其它人力资源推荐方法进行了对比实验,验证了决策树算法的人力资源推荐性能和优越性。

1 基于决策树算法的人力资源推荐方法

1.1 人力资源数据的采集

在人力资源推荐的建模过程中,数据来源十分关键,数据质量好坏对人力资源推荐效果具有重要的影响,本文采用分布式处理系统采集人力资源数据,这样不仅人力资源数据来源广,而且数据采集速度快,可以对大规模人力资源推荐问题进行分析,具体流程如图1所示。

图1 人力资源数据采集流程

1.2 人力资源数据的预处理

由于原始人力资源数据集包含了大量的信息,这个信息各异,如求职人员的相关信息,岗位信息,以及不同行业数据等,将它们直接输入到人才资源推荐算法进行建模,无法获得理想的人力资源推荐结果,同时,由于有的数据为连续数据,有的数据为离散数据,有些数据甚至会对人力资源推荐结果产生负面影响,所以需要对原始人力资源数据集进行预处理,以获取高质量的建模人力资源数据集,主要包括:关键特征的提取、无用数据的消除、数据格式的统一转换、数据存储等,具体如图2所示。

图2 原始人力资源数据的预处理流程

1.3 决策树算法

决策树算法是一种重要的数据挖掘方法,具有工作过程简单、分类速度快,并且容易生成分类规则,挖掘出的分类规则准确性高。决策树算法将样本属性当作一个节点,根据样本属性的值构建一种树结构,从样本数据集合中找到问题的变化规律,挖掘出对决策有价值的信息。当前决策树算法很多,最为经典的为ID3算法,其采用自顶向下递归、分而治之的学习原理,不断递归建立一棵理想的决策树[12-13]。

数据样本的集合为U,包含u个样本,类别属性值为n,那么信息熵定义如式(1)。

(1)

式中,p(ui)表示样本ui属于类别Ci的概率。

U包含v个子集{U1,U2,…,Uv},属性A取值为vj时,那么vj出现前提下ui出现的条件概率计算为式(2)。

(2)

条件熵表示属性A划分的子集的熵,具体定义如式(3)。

(3)

信息增可以表示为式(4)。

Gain(A)=I(U)-I(U|V)

(4)

I(U/V)的值越小,Gain(A)的值就越大,意味着属性A对于分类提供的信息量越大。

1.4 决策树算法的人才资源推荐步骤

Step1:采集人才资源推荐数据集,并进行预处理。

Step2:将人才资源推荐数据集划分为训练样本集合和测试样本集合。

Step3:建立树的根节点N,如果类型为1时,那么根节点为叶节点,当属性列表中没有属性,根节点即为叶节点。

Step4:对属性列表中的每个属性,计算它们的信息增益,保存最高信息增益的属性。

Step5:将根节点的属性设置为最高信息增益的属性。

Step6:给每个节点一个全新的叶子节点。

Step7:将决策树的分支转为一个推荐规则。

Step8:对错误节点进行剪枝处理,这样得到一棵推荐规则决策树。

Step9:根据建立的推荐规则决策树得到人力资源推荐结果。

2 仿真实验

2.1 实验平台以及数据集

为了测试基于决策树算法的人力资源推荐效果,采用具体的实例作为研究对象,进行10次仿真实验,每一次仿真实验采用不同的数据集,包括不同数量的工作岗位、求职人员,具体如表1所示。

表1 人力资源推荐实验的数据集

为了使决策树算法的人力资源推荐结果说服力更强,选择基于专家系统的人力资源推荐方法和均值聚类算法的人力资源推荐方法进行对比实验,它们采用相同的实验平台,具体如表2所示。

2.2 人力资源推荐实验结果的评价标准

当前人力资源推荐结果的优劣评价标准,采用最多的标准为人力资源推荐结果的查全率(Recall)、推荐精度(Precision),计算公式分别如式(5)、式(6)。

(6)

(5)

2.3 决策树算法的叶子节点数的确定

在决策树算法工作过程中,叶子节点数的数量与人力资源推荐结果好坏直接相关,叶子节点数的数量太大,那么与人力资源推荐的过程过于复杂,影响人力资源推荐效率,叶子节点数的数量太少,那么决策树算法学习不充分,人力资源推荐错误率高。对于数据集1,不同数量下的人力资源推荐精度变化曲线如图3所示。

图3 数据集1叶子节点数与推荐精度间变化关系

从图3可以看出,随着叶子节点数的数量增加,人力资源推荐精度不断上升,当节点数量为20时,人力资源推荐精度又开始下降,这样叶子节点数的数量最优值为20。

同样的原理,可以得到表1中所有数据集的最优叶子节点数量,具体如表3所示。

表3 不同数据集的最优叶子节点数

2.4 人力资源推荐查全率和推荐精度对比

将表1所有数据集划分两个部分,选择1/3作为测试样本,统计它们的人力资源的查全率和推荐精度,结果如图4所示。

从图4可以知道:

(1)专家系统的人力资源推荐查全率和推荐精度的平均值分别为78.52%和79.23%,不仅人力资源推荐错误率比较高,而且人力资源推荐结果极不稳定,缺陷十分明显,无法应用于实际人力资源管理中。

(a)查全率

(2)均值聚类算法的人力资源推荐查全率和推荐精度的平均值分别为84.28%和87.68%,相对于专家系统,均值聚类算法的人力资源推荐效果得到了明显改善,降低了人力资源推荐错误率,但是有几个数据集,其人力资源推荐准确欠佳,人力资源推荐结果可靠性差。

(3)决策树算法的人力资源推荐查全率和推荐精度的平均值分别为91.19%和92.2%,相对于专家系统和均值聚类算法,大幅度提升了人力资源推荐准确性,获得了十分理想的人力资源推荐结果,解决了当前人力资源推荐方法存在的弊端,具有十分明显的优越性。

2.5 人力资源推荐效率对比

统计不同方法的人力资源推荐时间,统计每一次实验的平均值,它们变化曲线如图5所示。

图5 不同方法的人力资源推荐时间对比

对图5的人力资源推荐时间进行对比和分析,可以知道,相对于专家系统和均值聚类算法,决策树算法的人力资源推荐时间明显缩短,获得了更高的人力资源推荐效率。

3 总结

人力资源推荐研究具有十分重要的意义,可以节约企事业单位人力资源管理成本,并改善单位运行效率,为了提高人力资源推荐精度,本文设计了基于决策树算法的人力资源推荐方法,具体仿真对比实验结果表明,决策树算法解决了当前人力资源推荐建模过程中存在的难题,获得了十分理想的人力资源推荐结果,可以为企事业人力资源部门提供有用的信息,便于制定相应的人力管理方案,具有十分广泛的应用前景。

猜你喜欢
查全率决策树聚类
基于K-means聚类的车-地无线通信场强研究
一种针对不均衡数据集的SVM决策树算法
海量图书馆档案信息的快速检索方法
决策树和随机森林方法在管理决策中的应用
基于词嵌入语义的精准检索式构建方法
基于高斯混合聚类的阵列干涉SAR三维成像
基于决策树的出租车乘客出行目的识别
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法
基于肺癌CT的决策树模型在肺癌诊断中的应用