吴丹
基于数据库知识发现的员工流失预测
吴丹
(同济大学经济与管理学院,上海 201804)
在当前就业形势严峻的背景下,不少企业面临着严重的员工流失问题。由于员工流失会给企业带来重大的经济损失,因而如何降低员工流失率已成为企业亟待解决的问题。对以往相关研究进行了梳理总结,并基于文献总结提出了一种着重于数据处理技巧的数据库知识发现技术,预测员工流失情况,以提高预测准确度。最后采用实际数据集进行实证研究,验证了所提出方法的有效性,并通过实验识别出影响员工流失的重要因素。
员工流失;数据库知识发现;数据处理,机器学习
在当前经济发展滞缓、社会全员就业难、失业率高等大经济环境下,仍然有不少企业面临着严重的员工流失问题,如代加工企业富士康,其在一年365天中就有将近200天都在招工[1],可见企业员工流失率有多高。员工流失可以简单理解为企业成员主动提出脱离企业的一种行为,当然该种行为对于企业而言是被动型的。员工流失对于企业而言并不是简单人员流失,而会对企业的人事、财务、业务等多方面造成诸多影响,比如流失员工已投入费用的损失(招聘费用、培训费用等),流失员工所负责相关工作的临时性中断,更有甚者,流失员工可能会带走企业一些重要客户或关键技术,从而使企业被迫承受巨大损失。总而言之,高员工流失率已经成为企业经营活动的重要成本之一[2]。在此背景下,企业人力资源部门如何采取有效措施减少员工流失从而降低企业经营成本将成为部门重要工作之一。当然,目前有些企业已相继采用提高薪酬、改善工作环境等措施以提高员工工作满意度从而减弱其离职意愿。但这些措施具有普遍性,并没有针对到个人,因而实际有效性还有待考察。相对应的,事先甄别出有离职倾向的员工以做进一步沟通,剖析其产生离职倾向的深层原因然后对症下药似乎更为有效。
数据库知识发现(KDD)是在计算机智能化发展和信息爆炸式增长背景下兴起的一门新兴技术,其定义为:能够识别数据中有效的、新颖的、潜在有用的信息并最终表示为可解释的模式,在此定义中,数据涉及数据集合的概念,模式指某种语言的表达式,表示为数据子集的简约描述或适用于该子集的模型[3]。数据库知识发现主要涉及原始数据选择、数据预处理、数据挖掘、数据评估、模式确定[4]5个步骤。其中,数据挖掘是最为重要的一个部分,常涉及运用机器学习模型进行聚类、分类以及回归分析。现如今,数据库知识发现技术已被广泛应用于多个领域,如图像识别、自然语言处理、量化投资等,因而本文也将基于员工基本信息采用该一技术预测员工流失情况,预先甄别出有离职倾向的员工,从而丰富相关企业人力资源部门降低员工流失率的方法。
由于引发员工流失问题的因素错综复杂并且因为员工流失问题带来的社会问题较突出,因而学术界对该一问题的研究已不在少数,主流的研究大致可分为关于员工流失影响因素的探讨、关于如何避免员工流失的研究、关于员工流失的预测研究三类。
关于员工流失的影响因素研究:NIE等(2018年)就企业人力资源的社会责任对女性员工离职的影响进行了研究,研究结果表明注重社会责任、注重员工家庭的工作平衡等在降低女性员工离职方面发挥了重要作用,研究结果还表明女性领导所带来的积极作用更明显[5]。PERREIRA等(2018年)采用结构方程模型探讨了医疗行业中组织公平、组织承诺与员工流失之间的关系,结果表明医疗行业的内部公平与组织承诺息息相关并反作用于员工离职[6]。与前者类似,RAVANGARD等(2019年)采用结构方程模型对伊朗某医院行政和财务部门员工的离职倾向进行了调查,得出社会支持直接影响员工离职倾向,并可通过增加组织承诺、自我授权、自我评估减少工作压力和倦怠,以减弱离职意愿[7]。SRIRAM等(2019年)以印度制造业为研究对象,研究确定了组织文化与组织的内部文化氛围为影响员工流失的重要因素[8]。
关于员工流失的规避方法研究:HE等(2014年)采用六西格玛方法,通过增加工资、提供转换机会、制定职业规划、提供培训、轮岗等为员工提供人道关怀,使得员工流失率降低了1.1%,为企业提高员工保留率提供了新的视角[9]。基于社会交换理论,JANG等(2018年)解释了员工对领导的看法是如何影响员工的离职倾向的,并通过组织承诺调节员工与领导的关系从而降低员工流失率[10]。ALIYU等(2018年)考察了客户关系管理维度对员工工作满意的影响,并利用马来西亚呼叫中心行业数据确定了避免员工流失的关键CRM维度[11]。
关于员工流失的预测研究:RAMAN等(2019年)通过R语言对某商学院教职工电子邮件执行相关分析、字频分析和情感分析,得出决定离职的教职员工较多地参与外部沟通而少于内部沟通并提出可用电子邮件分析方法预测员工流失[12]。SRIVASTAVA等(2018年)提出了一种员工流失风险预测分析框架,首先从人力资源系统内提取数据,然后对数据进行转化处理,继而运用预测模型,最后进行结果的可视化展示。其也在研究中运用神经网络进行了实证研究,但诊断准确率并不理想[13]。GABRANI等(2018年)利用机器学习方法中的逻辑回归对员工流失情况进行了预测,得出该种模型能最大限度地提高员工保留率,但该模型拟合的方程在分类准确率上仅有80%,次于实验中的随机森林算法[14]。针对样本不平衡以及高维度特征等问题,GAO等(2019年)提出一种加权二次随机森林算法用于构建员工流失的预测模型,并通过实际数据集验证了该算法的优越性[15]。
通过以上文献总结可以看出,关于员工流失影响因素的研究多基于假设——验证方法,常用模型有结构方程模型。关于降低员工流失率的研究也多是从影响因素入手,而后提出改进措施。与本文相关性较大的员工流失预测研究也多基于机器学习方法,但主要侧重于局部模型的选择与模型结果的比较等。然而机器学习的数据预处理部分对模型的学习能力以及预测性能也会造成严重影响,数据处理技巧在数据库知识发现领域是极为重要的一部分,因而本文采用完整的数据库知识发现流程,重点突出数据处理技巧对员工流失预测性能的影响,以弥补现有研究中对数据处理部分的忽视,并对比众多常用的机器学习模型,从更广范围内寻找适合该一应用的模型。
本文数据取自于Kaggle竞赛网站的公开数据集[16],原始数据集包括含“Age”“Attrition”等35个字段的1 470条样本,其中无缺失值。由于原始数据集中某些字段,如“DailyRate”“EmployeeNumber”并无实际意义,再如“Over18”“StandardHours”等字段所有样本均取相同值,因而对分类结果不会造成差异性影响,首先删除该些无效字段。保留下来的用于模型训练的28字段描述如表1所示,其中“Attrition”为二分类预测变量,正负例比为237∶1 233,其余为输入特征变量。
表1 数据集字段描述
字段名数据类型取值范围说明 Age整型18~60年龄 Attrition字符串型yes/no是否流失 BusinessTravel字符串型Non_Travel/Travel_Frequently/Travel_Rarely出差情况 Department字符串型Human Resources/Research & Development/Sales所属部门 DistanceFromHome整型1~29工作地点距家的距离 Education整型1/2/3/4/5文化水平 EducationField字符串型Human Resources/Life Sciences/Marketing/Medical/TechnicalDegree/Other专业领域 EnvironmentSatisfaction整型1/2/3/4工作环境满意度 Gender字符串型Female/Male性别 JobInvolvement整型1/2/3/4工作参与度 JobLevel整型1/2/3/4/5工作等级 JobRole字符串型Healthcare Representative/ Human Resources/Laboratory Technician/Manager/Manufacturing Director/Research Director/ Research Scientist/Sales Executive/ Sales Representative工作角色 JobSatisfaction整型1/2/3/4工作满意度 MaritalStatus字符串型Divorced/Married/Single婚姻状态 MonthlyIncome整型1 009~19 999月薪 NumCompaniesWorked整型0~9工作过的公司数目 OverTime字符串型No/Yes是否加过班 PercentSalaryHike整型11~25薪酬增长百分比 PerformanceRating整型3/4工作表现评级 RelationshipSatisfaction整型1/2/3/4员工关系满意度 StockOptionLevel整型0/1/2/3股权水平 TotalWorkingYears整型0~40工龄 TrainingTimesLastYear整型0~6上一年度培训次数 WorkLifeBalance整型1/2/3/4生活与工作的平衡程度
表1(续)
字段名数据类型取值范围说明 YearsAtCompany整型0~40在当前公司年份 YearsInCurrentRole整型0~18在当前职位年份 YearsSinceLastPromotion整型0~15自上次晋升距今年份 YearsWithCurrManager整型0~17与当前领导共处年份
由于计算机仅能识别数字,因此对上述字符型字段进一步做了编码处理,如“Age”字段,首先对其进行了分段,然后对各个年龄段分别给予特定数值进行编码。
由于输入变量数值的大小会直接影响输出结果,机器学习模型会自动为不同数值赋予不同权重,因而对于离散型数值直接采用编码数值并不科学。基于此,本文对经上述处理后的数据集采用get_dummy方法对离散型数值(如“Education”“WorkLifeBalance”等数值编码变量)进行独热编码变化,从而避免数值大小对模型的影响,并通过对比经独热编码技术处理前后的分类性能验证该一数据处理技术的是否具有优越性。本文首先将数据集按7∶3划分为训练集和测试集,其中训练集用于模型的学习,测试集用于模型性能的检测。由于预测变量存在比例不平衡(237∶1 233)的问题,容易引发错分从而影响分类性能,因而对于训练集又进行了SMOTE采样以平衡样本。平衡之后的样本分别代入机器学习单模型和集成模型用以进行模型训练,其中用到的单模型有逻辑回归(LR)、K近邻(KNN)、决策树(DT)、朴素贝叶斯(NB),集成模型有随机森林(RF)、Bagging、Adaboost、梯度提升树(GBDT)。最后用训练好的模型在测试集进行测试,得出Precision、Recall、F1、Accuracy、AUC等机器学习常用分类预测性能指标值。
实验结果如表2所示。
表2 实验结果展示
是否独热编码模型类别模型名称PrecisionRecallF1AccuracyAUCTime 否 单模型LR0.7590.7730.7540.7730.6630.133 KNN0.5580.5940.5470.5940.5240.171 DT0.6460.6830.6570.6830.5450.156 NB0.6560.6730.6370.6730.5900.026 集成模型RF0.8510.8140.8300.8140.6560.276 Bagging0.8190.7870.8010.7870.5980.361 Adaboost0.7650.7800.7710.7800.6410.521 GBDT0.8190.8120.8150.8120.6681.128 是 单模型LR0.9200.8820.8950.8820.8360.313 KNN0.5450.5830.5340.5830.5160.129 DT0.6970.7230.7070.7230.5760.161 NB0.7430.7600.7500.7600.6100.032 RF0.8990.8190.8520.8190.6490.184 集成模型Bagging0.8840.8210.8470.8210.6640.381 Adaboost0.8730.8500.8600.8500.7420.614 GBDT0.9130.8550.8770.8550.7731.784
通过表2可以看出,除了K近邻(KNN),经过独热编码处理过的数据在预测性能上总体均比未经独热编码处理更好,尤其是在逻辑回归中,其各个性能指标均提升了0.1以上,验证了前文所述的将独热编码技术应用在数据处理中有助于提高机器学习模型的分类性能。
此外,整体而言,虽然集成模型以花费更多时间为代价,但其预测性能较单模型而言更优。就集成模型比较来看,随机森林的总体预测效果更好,其对数据预处理的变化依赖性较小,因而更稳定;而其他模型的数据敏感性较高,对特征处理的要求比较高。在单模型中,逻辑回归的预测效果最佳,而其他几个模型预测效果均不理想。
上述实验结果表明,通过独热编码处理的数据有助于提高预测性能,在员工流失预测上能够达到88%的准确率,但哪些变量对员工流失影响较大也是需要考虑的问题,以便甄别出内部关键因素,从而进行针对性改进,将有助于降低员工流失率。本文采用随机森林算法进行特征重要度的提取,得到特征重要度排序,如图1所示。
如图1所示,对员工流失影响较大的是薪酬福利等因素,如所拥有的股权和薪资分别排在前两位,然后是工作环境的满意度、工作参与度和在当前所在职位的年份,而员工所在部门、工作表现评级等对员工流失倾向影响较小。因此企业可以根据特征重要度进行改进措施的优先级排序,对于非重要特征可暂缓处理。
员工流失对于企业的财务和业务稳定皆有着重要影响,如何提高员工保留率、降低员工流失率已成为企业人力部门的工作之重。本文通过文献综述总结了员工流失问题的研究现状,并通过时下热门的数据库知识发现技术,着重于数据预处理技巧对员工流失情况进行预测,验证了数据处理技术在数据库知识发现过程中的重要性。此外,本文还识别出影响员工流失的重要因素,其中包含公司股权拥有情况、月薪、工作环境满意度、工作参与度等,因此企业可以通过提高员工的薪资待遇、改善工作环境、给予员工工作主导权等,以此来降低员工离职倾向。
图1 特征重要度排序
本文还存在诸多不足的地方,如各个模型均使用默认参数,未进行调参设置,因而在分类性能上并未达到最优;再如,文中采用的模型仍是经典的模型,均为针对数据集进行算法改进工作,这些问题皆可成为日后研究改进之处。
[1]招工困难,员工流失,到底是咋回事?[EB/OL].[2019-06-05].http://www.360kuai.com/pc/91dbe9c8d53c68d02?cota=4&sign=360_57c3bbd1&refer_scene=so_1.
[2]DIPIETRO R B,MOREO A,CAIN L.Well-being,affective commitment and job satisfaction:influences on turnover intentions in casual dining employees[J].Journal of Hospitality Marketing & Management,2019(4):28.
[3]FAYYAD U,STOLORZ P.Data mining and KDD:promise and challenges[J].Future Generation Computer Systems, 1997,13(2):99-115.
[4]SAMUEL S C,FERNANDO L.A Short review on data mining techniques for electricity customers characteri-zation[C]//2019 IEEE PES GTD Grand International Conference and Exposition Asia,Thailand:Bangkok,2019.
[5]NIE D,LAMSA A M,PUCETAITE R.Effects of responsible human resource management practices on female employees' turnover intentions[J].Business Ethics-a European Review,2018,27(1):29-41.
[6]PERREIRA T A,BERTA W,HERBERT M.The employee retention triad in health care:Exploring relationships amongst organisational justice,affective commitment and turnover intention[J]. Journal of Clinical Nursing,2018,27(7):E1451-E1461.
[7]RAVANGARD R,DIANAT S,SHOKRPOUR N.The factors affecting hospital employees' turnover intentions a case of Iran[J].Health Care Manager,2019,38(2):166-178.
[8]SRIRAM K V,JOSEPH J,MATHEW A O,et al.Factors affecting high employee attrition in manufacturing firms -a case study[J].Quality-Access to Success,2019,20(169):23-28.
[9]HE Z,ZHANG X T,ZHANG M.Reducing the voluntary turnover rate of dispatched employees by the DMAIC process[J].Total Quality Management&Business Excellence,2014,25(7):842-855.
[10]JANG J,KANDAMPULLY J.Reducing employee turnover intention through servant leadership in the restaurant context:a mediation study of affective organizational commitment[J].International Journal of Hospitality and Tourism Administration,2018,19(2):125-141.
[11]ALIYU O A,NYADZAYO M W.Reducing employee turnover intention:a customer relationship management perspective[J].Journal of Strategic Marketing,2018,26(3):241-257.
[12]RAMAN R,BHATTACHARYA S,PRANOD D.Predict employee attrition by using predictive analytics[J].Benchmarking-an International Journal,2019,26(1):2-18.
[13]SRIVASTAVA D K,NAIR P.Employee attrition analysis using predictive techniques[J].Information and Communication Technology for Intelligent Systems,2018,83(1):293-300.
[14]GABRANI G,KWATRA A.Machine learning based predictive model for risk assessment of employee Attrition[J].Computational Science and Its Applications,2018(10963):189-201.
[15]GAO X,WEN J H,ZHANG C.An improved random forest algorithm for predicting employee turnover[J]. Mathematical Problems in Engineering,2019(4):12.
[16]IBM HR Analytics Employee Attrition & Performance[EB/OL].[2019-06-05]. https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset.
F272
A
10.15913/j.cnki.kjycx.2019.14.006
2095-6835(2019)14-0016-04
吴丹(1994—),女,同济大学经济与管理学院在读硕士,研究方向为数据挖掘。
〔编辑:严丽琴〕