员工离职可视化分析及倾向预测研究*

2023-10-21 08:59刘敏佳
科技创新与生产力 2023年9期
关键词:在职员工工龄变量

刘敏佳

(豫章师范学院经济与管理学院,江西 南昌 330103)

经济新常态背景下,我国发展进入转型升级阶段,这对企业提出了更高的要求,变革和创新成为企业应对未来快速发展市场的重要手段,人作为企业最重要的资源,是推动和主导企业不断发展升级的主导者。领英发布的《2021 人才趋势报告》中提到,员工的流动较之以往更为频繁,流动数据明显上升,同时市场对人才的需求也不降反升。因此,企业采取灵活的人才战略,对企业及时储备人才具有重要意义。企业员工的流失具有不确定性,员工离职不仅增加了企业人力资源管理成本,而且给企业和员工的和谐文化环境带来了负面影响。应用数据与科学的数据分析工具能够实现对员工的科学管理[1],不同于以往的传统经验判断,现阶段大数据在各行各业、各个领域应用广泛,在人力资源管理领域里也实现了其重要功能。调研数据显示,89%的中国企业将大数据用于人力资源管理各职能模块的工作中。应用大数据分析导致员工离职的主要因素,进而提出科学合理的员工管理对策建议,对于企业人才战略具有重要意义。

1 员工离职的相关文献研究

回顾关于员工离职的研究可知,员工离职是指从组织中获取收益回报的员工与组织结束成员关系的一种行为,而主动离职员工的意愿与行为是研究的主要内容,员工离职倾向发生在员工离职的前一个阶段,员工还未采取行动但产生了相关离职倾向。在产生离职倾向到采取离职行动的这个过程中,员工是否采取实际行动受到内部和外部各种因素的影响[2],如果能充分运用企业人力资源管理信息系统中的员工数据,采用数据挖掘技术对数据信息进行提炼,分析离职员工的共同特征,就能对其余员工的离职倾向进行预测,提前采取措施,这对降低员工流失具有重要意义。

随着数据挖掘的发展与广泛使用,专家学者们分析并处理员工离职行为模型的工具更加智能化,在运用大数据预测员工离职和流失方面取得了一定的成果[3]。国外eBay、VMware 等公司运用数据挖掘工具对公司的员工数据信息进行分析,发现工作压力、家庭生活、年龄、业绩表现情况等会导致员工离职,预测员工可能离职的倾向,并提前采取措施进行干涉,最终对企业留才起到了一定作用[4]。国内学者在研究员工离职模型的基础上,运用Stacking、Adaboost 等机器学习算法对企业员工离职倾向进行了预测,提高了企业对员工流动的洞察能力。

Muchinsky 等学者对影响员工离职的因素从3 个层面进行阐述,包括个人因素、经济机会和工作关系3 个方面[5]。国内学者主要从外部环境、组织和个人3 个方面解释员工离职的原因,企业储备的大量员工个人信息数据对于从员工个人层面分析并预测离职倾向具有重要价值,帮助企业在员工甄选阶段就提前辨别可能流失的员工[6]。因此,本文通过对互联网行业员工个人信息数据进行可视化分析,获取离职员工与在职员工的个体特征,并运用多种机器学习方法对员工离职进行预测结果对比,为企业提出预防措施。

2 研究设计

2.1 研究样本与数据来源

GL 互联网公司正处于快速发展阶段。近几年,公司对员工的需求量增加,内部供给不足,通过对公司现阶段员工供需平衡问题的分析发现导致近期外部招聘压力增加的原因是员工离职率上升。文章选取GL 公司2018—2021 年员工数据作为进一步分析该公司员工离职原因的样本来源,找出影响该公司员工离职的关键影响因素,挖掘离职员工的共同特质,进而提出具体和更有针对性的意见,运用数据挖掘的方法对员工数据进行分析并建立模型,帮助GL 公司确定可能离职的员工范围,并且采取相应措施留住人才或者提前储备人才,解决员工的流失问题。

2.2 数据整理与变量解释

此次研究以人力资源部门数据系统中近3 年员工信息作为样本,对所有收集到的数据进行局部清洗,对异常值和重复值进行处理,同时根据字段属性对空白值进行填补。将本次数据中收集到的与员工离职关系不大的字段,如序号、员工工号等删除,最后共计采集到在职员工与离职员工的数据5 396 条,变量9 个,其中包括员工岗位类别、岗位职务、员工年龄、员工职级、员工性别、员工婚姻状况、员工学历、员工工作地点8 个自变量,员工是否离职作为因变量。

3 员工数据可视化分析

通过对在职员工和离职员工数据进行可视化分析比较,可以发现在职员工与离职员工之间的特征差异,进而掌握影响员工离职的主要影响因素,并为后期进一步提取员工离职的变量特征和选择离职模型提供选择依据,对变量与员工离职之间的关系进行描述性分析。

3.1 各岗位类别在职员工与离职员工可视化分析

从各部门在职与离职员工的分布情况可以发现,不同岗位类别上的员工离职情况存在一些明显差异,对采集到的员工信息按照工作性质的相似性进行归类,将员工的岗位类别归为8 类。不同岗位类别离职人数和离职率差异较大,总体来看,离职人员较多集中在销售部和技术部,但离职率最高的主要是产品和行政等职能部门(见图1)。互联网公司技术人员流失率较高,技术人员也是公司的核心竞争力所在,因此需要加强对关键部门的员工流失预防工作。

图1 各岗位在职员工与离职员工人数柱形图

3.2 各职位级别在职员工与离职员工可视化分析

图2 为各职级在职员工与离职员工人数柱形图。由图2 可知,职位级别越高,离职的员工人数越少,当前该公司实习生和普通员工离职人数较多,而经理及以上的职位离职人数较少。职位越高的员工在公司的收入和地位越高,其离职成本较大,且公司中高管理层以上人员数量占比较低。但从离职率来看,管理层与普通员工相对较高,对公司而言,管理层员工的流失带来的损失更为严重,中高以上管理人员外部供给紧缺,招募成本较高,同时会给在职员工带来跟随效应。因此,公司在关注离职人数较多的普通员工群体的同时,也需要重视中高管理层员工的离职现象。

图2 各职级在职员工与离职员工人数柱形图

3.3 离职员工与在职员工工龄与年龄分布可视化分析

图3 为离职员工与在职员工的年龄分布箱型图。由图3 可知,离职员工和在职员工的平均年龄都在30 岁左右,最高年龄在45 岁,与在职员工相比,离职员工年龄偏低,但差异不大;离职人员工龄主要集中在3 年到6 年之间(见图4)。在职员工工龄中位数比离职员工工龄的中位数更高,在公司服务年限越短的员工离职的可能性越大,相对而言,工龄越长,员工越趋于稳定,对公司的归属感和依赖感越强。

图3 离职员工与在职员工年龄分布箱型图

图4 离职员工与在职员工工龄分布箱型图

4 员工离职模型选择与结果预测

为了对员工是否离职进行预测,本文使用3 种机器学习模型对员工离职情况进行预测,分别是支持向量机(Support Vector Machine,SVM)、XGBoost 和决策树(Decision Tree)模型。为了更好地选择与模型相关的特征变量,运用统计软件对此次采集到的9 个变量信息进行皮尔逊相关性分析,对员工各变量信息之间是否存在统计上的显著性相关关系进行检验,对具有显著相关关系的变量进行一定程度的剔除,只选择其中一个变量进行模型构建与测试,避免选择多个重复的特征变量。通过变量之间相关分析结果可知,员工是否离职与员工岗位类别、职务、婚否、是否全职、年龄、工龄之间存在一定的关系,员工婚否和是否全职及年龄的关联度不大,因此删除这两个变量,考虑到特征变量不多,保留学历这一变量,最后选择剩下的几个变量作为离职预测模型的特征变量。

4.1 特征处理

在进行模型预测前,首先对离职数据变量进行特征处理,主要是将字符型变量(职务、岗位类别、性别、学历等)转换成离散型的数值变量。本文使用one-hot 编码处理字符型变量,使用pandas的get_dummies 方法。处理完字符型数据后,为防止梯度下降时算法收敛速度过慢,本文对连续性数值做归一化处理。

4.2 使用支持向量机模型预测员工离职情况

本文选取支持向量机模型预测员工离职情况。采用8∶2 的比例划分训练集和测试集,最终获得4 316 条训练集和1 080 条测试集数据。本文使用10 折交叉验证法选取最佳的超参数(惩罚系数C和核函数γ),最终选取的参数值C 为10,γ 为0.1。使用该参数进行预测,训练集和测试集获得的分类结果见表1。

表1 支持向量机模型预测离职训练集和测试集分类结果

4.3 使用XGBoost 模型预测员工离职情况

同理,选取XGBoost 模型预测员工离职情况。训练集和测试集同样采用8∶2 的比例划分。使用10折交叉验证法选取参数,最终选取控制数深度max_depth 为4,学习率为0.3,学习器个数n_estimators 为10。使用该参数进行预测,训练集和测试集获得的分类结果见表2。

表2 XGBoost 模型预测离职训练集和测试集分类结果

4.4 使用决策树模型预测员工离职情况

同理,使用决策树模型预测员工离职情况。使用10 折交叉验证法选取超参数决策树深度maxdepth 为4。训练集和测试集的分类结果见表3。

表3 决策树模型预测离职训练集和测试集分类结果

根据实验结果,XGBoost 模型的预测结果相对其他模型要好,因此,本文最终选择XGBoost 模型作为预测员工离职情况的模型。

5 结论与对策

员工是企业竞争核心力所在,员工流失会给企业带来不可估量的损失,企业如果能够在员工入职前或在员工入职初期就能提前预知某一员工未来离职的概率,发现影响员工离职的主要个人因素,不仅能够在选用人才阶段提高招聘率,还能够在员工流失前及时采取有效措施,留住人才,将企业损失减至最低。文章基于大数据视角,结合收集整理到的北京GL 互联网公司人力资源信息管理系统中近几年在职员工与离职员工的信息数据,运用统计工具对员工各特征变量与员工离职之间的关系进行相关分析,发现岗位类别、职务、婚否、是否全职、年龄、工龄与员工离职存在一定的相关性,并主要从岗位类别、职务级别、工龄和年龄方面对在职员工与离职员工数据进行可视化分析,为企业直观了解员工个人数据特征提供参考,有利于企业制定人力资源相关决策。运用SVM、XGBoost 和决策树3 种机器学习模型对员工离职情况进行预测,从预测结果来看,XGBoost 模型预测结果最佳,对企业有效预测员工在未来的离职情况有帮助。

企业结合影响员工离职的主要因素,有效采取预防措施,包括:一是加强人力资源信息系统的建设,全面收集员工入职数据信息,为员工离职预测提供充足的数据资料,使企业在员工入职前就能运用模型提前预测离职率,提高招聘成功率。二是通过企业文化的建设,加强企业与员工之间的情感承诺,为员工提供职业生涯规划与指导,提升员工的归属感。三是制定科学合理的绩效考核制度和薪酬体系,为员工提供公平的晋升环境,降低人才因职务晋升问题流失的风险。四是建立合理的企业内部流动机制,打通部门之间人才流动的通道,为内部员工提供适当的转岗机会,降低企业整体招聘成本。

猜你喜欢
在职员工工龄变量
企业在职员工培训存在的问题及应对之策
抓住不变量解题
也谈分离变量
那些和工龄有关的事儿
你的工龄和这些福利有关
这七种情况,不在岗也能算工龄
网络远程继续教育培训在职员工探析
SL(3,3n)和SU(3,3n)的第一Cartan不变量
分离变量法:常见的通性通法
“卖工龄”的做法是错误的