张家普 李思奥 于欣怡 王亚飞
(北京外国语大学国际商学院 北京 100089)
员工作为企业成果的传承与价值的创造者,对企业的生存和发展起着举足轻重的作用,是企业宝贵的财富。然而,随着现代科技的不断发展,企业所处的环境竞争愈发激烈,“新的刚来,老的就走”的员工流失现象在企业中越来越普遍。以互联网企业为例,2022年美团员工的流失率达到23%,腾讯达到21%,快手的员工流失率更是高达31.8%。员工流失可以简单理解为企业成员主动提出脱离企业的一种行为,当然该行为对于企业而言是被动的。员工流失对于企业而言并不是简单的人员离职,其会对企业的人事、财务、业务等多方面造成影响。基层员工的离职会导致企业缺乏一线工作的具体执行者,短期内策略难以顺畅落地,从而增加企业成本;而管理层员工的离职,则会导致企业部分业务停滞、瘫痪,影响企业长期发展。在此背景下,企业人力资源部门有效掌握员工离职动向、了解员工流失原因对企业提高人力资源合理配置、降低企业经营成本具有重要意义。
针对该问题,部分学者从因果关系的角度出发进行各类因素与员工流失之间的实证研究。从因果关系分析往往基于以往理论假定因果关系成立,再通过数据结果验证变量之间的非线性和交互关系,相对而言,预测性分析并未假设变量之间的因果关系,也并未假定变量之间特定的函数形式,能够有效还原数据本身的特性,发掘数据中包含的复杂规律,有助于提出创新性的理论来解释员工流失的原因。同时,预测性分析还提供了评估解释性模型的新角度,衡量每个变量对预测表现的贡献率,从而探究不同因素对于影响员工流失的重要程度。因此,本文以“IBM公司人力资源数据集”为例,采用预测性建模的方法,运用“决策树”“逻辑回归”单一的机器学习算法和“随机森林”“XGBoost”集成的机器学习算法,分别构建员工流失预测模型并进行比较,分析影响员工流失的重要因素,从而为企业制定人才挽留措施、提高人力资源配置与管理提供有益的建议。
综合国内外的研究成果,影响员工离职意向的因素可分为以下三类:员工自身客观因素、员工自身主观因素、外部环境因素。
员工自身客观因素主要包括员工的年龄、性别、受教育水平、婚姻状况等。张勉和苏树茁(2001)研究发现,在人口变量中,已婚者相对于未婚者,学历为本科的雇员相对于学历为高中及以下的雇员产生离职意向的概率显著减小。员工自身主观因素包括员工的工作满意度、工作成就感、职业发展规划、组织承诺等。员工可能会因为工作满意度不够高而离职;赵西萍等人(2003)认为工作满意度与员工的离职意向呈负相关;徐芳和夏瑛(2012)以酒店从业人员为例,研究得出随着职级的提升,个人实现价值越来越大,其对工作的满意度也就越高;组织承诺是员工对于公司的归属感与认同感(崔勋,2003),对于公司归属感与认同感较高的员工,往往离职意向更低。
外部环境因素包括薪酬、工作环境、员工福利激励等物质工作条件,工作部门等自身工作情况及管理层管理措施、通勤时间等。薪酬与员工的离职关联性较大,王赵梦(2016)认为,根据社会比较理论,工作积极性不仅关系到个人的实际工资,而且关系到工资分配是否公平;公司的硬件条件也会影响员工的离职意愿,高国生和张亚伟(2021)调查发现,我国东部某城市保险企业销售人员流失的主要因素是对工作硬件环境存在不满情绪;而员工福利例如股权激励是很多公司留住人才的重要手段,部分学者认为股权激励具有吸引、筛选和留住人才的功能,可以有效阻止人员流失,对于风险规避程度较低的员工尤为适用(Oyer,2004);叶仁荪等(2005)则通过实证研究证明管理层的管理措施可通过影响员工的工作满意度与组织承诺来影响员工的离职意向。
随着机器学习方法、数据挖掘技术在企业管理中的广泛应用(陆瑶等,2020),通过机器学习研究员工流失问题逐渐成为热点。
国外学者从不同模型出发,使用机器学习方法预测员工的离职行为。Ribes(2017)等分析了员工离职因素,并以此为基础构建了员工离职预测模型,发现员工的离职预测问题与企业目标客户流失预测问题相似,因此可以使用机器学习方法例如决策树算法、支持向量机算法等对此类问题一起进行分析预测;Hebbar等(2018)采用了逻辑回归、支持向量机(SVM)和随机森林等不同模型探究员工流失问题。
国内学者利用机器学习对员工流失问题进行了预测性分析。李芸等(2020)使用支持向量机(SVM)算法对员工流失问题进行了预测分析,并以电网企业人力资源数据为基础,建立了预警模型。叶仁荪等(2005)通过对国有企业员工进行问卷调查,并利用Lisrel和SPSS进行分析,建立了员工离职模型;李佳浩等(2021)采用基于Stacking集成算法Adaboost和随机森林算法一起构建而形成一种LRA员工离职倾向模型研究员工流失问题;杜彩兰(2016)根据快消行业人员流失特点和现在国内外数据挖掘技术的研究,运用生存分析方法,建立人员流失数据分析模型,寻找与人员流失相关的人员统计变量,并结合某可乐公司的人员数据进行模型估计和预测。
本文以阿里云天池实验室公开的“IBM公司人力资源数据集”进行员工流失预测及影响因素研究。该数据集包含35个变量,1470个样本,其中26个为数值型变量,9个为非数值型变量。被解释变量为Attrition(是否离职),其余34个变量描述的是可能影响员工流失的因素,包含员工个人特征、工作特征、主观满意度等各项信息。
初步观察发现,O v e r 1 8(年龄是否超过1 8 岁)、StandardHour(标准工时)和EmployeeCount(雇员数量)显示其为常量特征,对于预测员工是否离职没有意义,EmployeeNumber(员工号码)与员工是否离职不存在内在联系,因此对以上变量先行剔除;变量DailyRate(日息)、HourlyRate(时息)、MonthlyRate(月息)与MonthlyIncome(月收入)含义重复,因此对前三个变量予以剔除。数据质量检查显示不存在缺失值和重复值。
综上,通过初步观察分析,笔者团队删除了7个无价值变量后,数据集还剩下28个变量,其中非数值型变量8个,数值型变量20个。
对于数据集中的8个非数值型变量,为便于之后的分析,需要对这些变量进行特征编码处理。其中,Attrition(是否离职)、Gender(性别)、OverTime(是否加班)为二分类变量,对其进行0-1编码处理,BusinessTravel(商务差旅频率)有Non-Travel(不出差)、Travel_Rarely(不经常出差)和Travel_Frequently(经常出差)三类,其理论意义存在递进关系,故在数据处理时为这三类分别赋值,保留其递进关系。具体见表1。
表1 变量特征编码处理
对于其他字符型变量,包括Department(所在部门)、EducationField(所学习的专业领域)、JobRole(工作角色)、MaritalStatus(婚姻状况),这些离散特征取值之间没有大小的意义,因此对上述变量分别采用get_dummies的方法进行独热编码处理,不仅解决了分类器不好处理属性数据的问题,也在一定程度上起到了扩充特征的作用。特征编码处理后,数据集由之前的28个变量扩充到45个,其中44个变量作为预测变量。
当样本中各个类别分布不平衡,某一类别的样本数远少于其他类别时,大多数机器学习方法对不平衡的数据集不能进行很好地预测,无法取得理想的效果,所以需要根据样本数据分布是否均匀进行平衡性处理。
本文的数据集中,离职样本数量为237个,在职样本数量为1233个,在整个数据集中在职/离职员工数据样本比例为83.88:16.12,这符合真实的客观情况,但对于机器学习而言则属于非平衡数据,因此在建立模型之前,本文采用SMOTE方法对数据进行平衡性处理。处理后离职员工和在职员工样本数量各占50%,各为1233个。
通过相关系数矩阵对变量进行相关性分析后得出,变量OverTime、MaritalStatus/Single(是否单身)、Tot a lWork i ngYea rs(总工龄)、JobL evel(职业级别)、YearsInCurrentRole(目前工作职责的工作年数)与被解释变量Attrition相关性较高,而变量Gender(性别)、JobRole/Sales Executive(是否是销售主管)、EducationField/Other(专业领域是否为其他)、Department/Human Resources(是否在人力资源部)、PercentSalaryHike(工资提高百分比)、PerformanceRating(绩效评估)、JobRole/Research Scientist(是否是科学研究员)对被解释变量的相关性排名靠后,相关系数低于0.03,因此对该贡献度较低的6个变量予以剔除。
数据预处理后,本文依次使用决策树、逻辑回归、随机森林和XGBoost四种机器学习算法,对员工离职进行预测,并通过计算准确率(Accuracy)、精确率(Precision)、召回率(Recall)、AUC等指标对模型性能进行比较,选出最优的预测模型(见表2),其中,决策树、逻辑回归和随机森林是基于监督学习的分类算法,而XGBoost是一种梯度提升树算法。
表2 模型评价
具体步骤如下:(1)收集数据集:收集并准备数据集,包括特征和目标变量;(2)将数据集拆分为训练集和测试集:按照一定比例将数据集分为训练集和测试集,本文随机抽取测试集预测目标变量,30%作为测试集,而其余70%作为训练集;(3)训练模型:使用训练集训练各模型,并调整超参数如决策树数量、子树大小等,以提高模型性能。
利用数据进行模型训练,得到混淆矩阵,并分别计算各模型准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1值、AUC等指标并画出各模型ROC曲线。通过表2对比模型性能评价指标结果可以看出,决策树与逻辑回归的性能在预测的准确率、精确率、召回率、F1值上,其表现均不如随机森林、提升法这样的集成学习方法。进一步对比随机森林和XGBoost可以看出,这两个模型的预测效果都非常出色,其中随机森林的准确率为91.49%,召回率为86.29%,XGBoost的准确率为92.43%,召回率为88.58%;尽管两个模型预测准确率均超过了90%,但是XGBoost在准确率、精确率、召回率和F1值上的数值比随机森林略大。经过综合比较分析得出,XGBoost作为员工离职的分类预测模型效果更佳,通过得出的变量重要性排序,分析员工流失的关键影响因素并给出后续建议。
由于XGBoost对于本数据集的预测能力优于决策树、逻辑回归与随机森林,且XGBoost具有防止过拟合、可解释能力更强等优点,因此接下来根据XGBoost模型对变量重要性度量的结果绘制变量相对重要性排序图,对影响员工流失的因素进行排序。从图1可以看出,影响较高的因素有:MaritalStatus(婚姻状况)、EducationField(学习的专业领域)、Department(所在部门)、StockOptionLevel(股票期权水平)、OverTime(是否加班)、JobLevel(职业级别)等。基于此,本文结合变量交叉统计图对影响因素作进一步分析。
图1 XGBoost模型变量重要性排序图
首先,特征重要性排序图显示,员工婚姻状况是对员工是否离职影响最高的因素,通过图2(a)发现,单身人员离职率的比例明显更高,为已婚人员的两倍多,可见单身群体不受家庭关系的影响,自由度更高,离职可能性更大;相比之下,已婚人士受家庭责任的影响,追求工作时间、工作地点、工作类型的稳定,所以离职率相对更低。
图2 员工离职因素交叉统计图
其次,员工所在部门以及所学习的专业领域也是影响员工离职的重要因素。不同部门、不同专业的员工所获得的薪酬有所差距,晋升空间和行业发展等各不相同,而这会影响到员工对自己所处职位和工作的看法,以及是否想继续留下的态度。通过图2(b)发现,销售部和人力资源部的离职率显著高于研发部门,图2(c)同样反映出人力资源和市场营销相关的员工离职率较高,而生命科学和医疗相关专业的员工离职率较低。据调查,目前销售部门的离职率在各种职位的人员离职率中是最高的,原因在于销售门槛低,部分求职者盲目入行,销售压力大、薪酬两极分化严重,各种不稳定性造就了销售岗离职率较高。
股票期权水平在影响员工离职的因素中排名也非常靠前。图2(e)显示,股票期权水平大于0的员工,其离职率明显低于股票期权水平为0的员工,可见制定股票期权计划对企业留住员工是一种非常有益的制度安排。丰富的股票期权计划,既是对长期为公司服务并做出相应成绩的员工的奖励,又巧妙地将员工的利益和企业的利益结合在一起,充分发挥了激励组合效用,因此股票期权水平更高的员工对企业的认同感会更强,也更乐意为企业付出,不愿意离职。
此外,对员工离职影响较高的因素还包括是否加班和员工职级。图2(d)显示,经常加班员工的离职率是不经常加班员工的3倍,可见经常加班的员工更容易出于对现在工作的不满意而离职。图2(f)显示,职业级别较低的员工离职率更高,而随着职位级别的提升,离职的员工数量和比例不断降低,这主要是由于职业级别较低、工作时间较短的员工往往处于职业生涯初期探索阶段,更容易离职,而随着职级的提升,员工个人实现价值越来越大,其对工作的满意度也越来越高。
本文对阿里云天池实验室公开的“IBM公司人力资源数据集”提供的员工离职情况相关数据展开研究,依次对数据进行了质量检查、编码处理、平衡性处理、相关性分析后,以变量筛选和扩充后的44个变量为预测变量,以是否离职为响应变量,基于数据挖掘的方法依次构建决策树、逻辑回归、随机森林和XGBoost四个员工离职预测的分类模型,分析影响员工流失的关键因素。结果显示,XGBoost模型无论在预测的准确率、召回率还是AUC的表现上均优于其他三个模型,XGBoost的准确率达到92%,召回率达到88%。因此,本文认为XGBoost模型作为员工离职预测的分类模型最合适。以该模型计算各变量的重要性并进行排序,结合交叉统计图分析后得出,员工婚姻状况、所学习的专业、所在部门、股票期权、是否加班、职业级别等因素对员工是否离职的影响较高。
基于此,本文对企业提出以下管理建议。
第一,应重视员工的婚姻状况,可以为员工提供系列支持家庭稳定的政策和福利,如弹性工作时间、带薪假期及家庭健康保险,倡导和规范职场平等和公正,避免因员工的婚姻状况而导致不公平的待遇等。
第二,在员工专业领域需充分了解员工的技能和职业规划,并为他们提供相应的培训和发展机会,以配合公司的业务和目标,同时应与员工进行持续的沟通,建立个人发展计划,并根据员工的意愿和能力为他们提供相应的职业发展空间。
第三,如果员工所处的部门管理良好、氛围和谐、同事之间互相支持,他们可能会更愿意留下来,因此企业应加强沟通与协调,建立和谐的工作氛围,以提高员工的工作满意度和忠诚度,同时也可以引入多元化的文化和理念,促进员工之间的相互学习和交流,并建立共同的愿景和目标。
第四,较高的股票期权水平会激励员工继续留在公司,为公司创造更大的利润,据此,公司可根据员工的表现和岗位等级,为员工提供适当的股票期权,以鼓励员工为公司创造更大的价值,同时要积极管理股票期权计划,制定合理的期权授予政策和机制,并定期评估期权计划的效果。