改进随机森林算法在人才培养质量评价中的应用①

2020-07-25 11:21毕瑶家刘国柱王华东付兆殊

计算机系统应用 2020年7期

毕瑶家,刘国柱,王华东,孙驰,付兆殊

(青岛科技大学信息科学技术学院,青岛 266061)

近年来,国家对高校的关注点已经从数量的增长转移到学生培养质量的提升上来,因此人才培养质量问题受到越来越多的关注.学者关于人才培养质量已经有了一定的研究成果,如彭建林根据就业质量的评价要求,构建了大学生就业质量评价指标体系,包括工作保障、薪资条件等7个一级指标,并且细化为10个二级指标,并通过设计指标权重对大学生的就业质量进行了评价[1];宁东卫、范春梅等(2016)根据影响人才培养的相关因素、从个人与学校两个方面出发选取指标体系,丰富了人才培养的指标体系,提供了丰富的参考依据[2];宋俊秀、谢德刚提出了基于模糊综合评价法的大学生就业质量分析,以安徽省为例探讨高校大学生就业质量,构建合理的评价体系,运用模糊综合评判法建构大学生就业质量评价模型,对高校大学生就业质量进行总体、分学历、分学科层次多维评价[3];韩天才提出了基于层次法的大学生就业质及系统的设计与实现,通过建立评价指标体系,以层次分析方法为基础构建了评价模型并完成了毕业生就业信息管理系统[4].

国外学者将人才培养看作就业质量,分为高质量就业和低质量就业.对高质量就业的定义为:在具有挑战性和满意的工作环境中通过体力劳动或者脑力劳动获得生存所需的酬劳.同时国外专家认为收入虽然重要,但是收入的高低不足以体现就业质量.虽然美国、欧盟等国家对于“工作满意度”、“工作质量”,“生活满意度”等与就业质量相关的方向进行研究分析,但是通过文献资料可以看出其研究对象主要是针对某一群体的劳动者,而对大学生的研究相对较少[5-8].

1 RF (随机森林)算法

随机森林算法[9]是数据挖掘技术中一种自然的非线性建模工具,通过集成多棵决策树(Decision Tree,DT)使模型有较好的稳定性[10].随机森林算法的本质是一种组合分类器,其分类结果是由各个子分类器的结果共同决定,通常是通过投票将决策票数最多的类别作为样本的最终所属类别[11].

算法1.RF算法思想Input:训练集D,待测样本;Output:待测样本的类别或回归值;Step 1.采用Bootstrap 抽样从训练集D 中抽取k个子训练集,子训练集的大小和D 一致;Step 2.每个节点分裂之前随机选择特征生成特征子集;Step 3.建立k 棵决策树;Step 4.对于待测样本,k 棵决策树得出k个结果;Step 5.对k个结果进行一票制投票或取平均值得到结果.

采用bootstrap 重采样方法时,使用bagging方法从原始训练集D(样本总数为N)中有放回地抽取样本,形成一个样本集,因此,存在一些未被抽取到的样本.训练集中每个样本未能被抽取到的概率为:

当N趋向于无穷大时,p约为0.368,可以得出训练集D中约有37%的样本不会被抽到这部分样本为袋外样本(Out-Of-Bag,OOB),OOB 既可用于误差估计,也可用于特征重要性分析.

随机森林算法流程如图1.

图1 随机森林算法流程

随机森林算法用于人才培养评价具有很多优点,首先它能够将弱分类器通过覆盖优化的手段进行综合,使分类系统的整体能力得到了提升.其次在生成决策树的过程中,每一棵决策树都相互独立且同时生成,提高了训练的效率.另外在选择样本和构建决策树时随机选择的特征,使该算法的抗噪能力大大提高.

当然随机森林算法也存在很多的不足之处.随机森林算法在进行决策时采用平均投票的机制,没有考虑到强弱分类器的差异,其中弱分类器过多的参与决策过程会降低决策的准确率[12-15].另外由于采用了随机选择的方式选取样本特征,因此在处理非平衡数据时无法消除样本数据所带来的影响[16-18].

2 RF算法的改进

人才质量评价的过程是从学生在校表现的各项指标中选择综合质量最好的人才,可以看作是非平衡数据集的分类问题.如果不考虑指标的平衡性直接对原始数据进行建模,很难得到比较理想的模型,可以需要通过训练数据来提升不平衡率,主要实现方式为通过特征重要度度量来衡量数据指标的重要性,以此为指标加权的标准,本文选用Ranking方法对指标点的重要度进行衡量;另一方面由于随机森林算法对分类器采用的是平均投票的机制,这种投票机制使弱分类器对最终的评价结果产生影响,本文采用F-measure算法对分类器进行加权,降低弱分类器对于结果的影响.

特征样本的选取和决策树的投票过程是影响RF算法在人才培养评价中应用的主要方面,本文就这两个方面提出了以下的改进方案.

1)特征重要度度量算法(WRF)

传统的学生评价指标的处理方法都是根据文献资料和专家意见对指标点进行选取和加权,这种方法受到主观因素的影响较大,没有考虑不同环境下指标影响力是不同的情况.这种方法主要存在两个问题:第一,这种方法不仅效率低下而且也会由于认为因素影响最终的结果;第二,由于在标准随机森林算法中特征选择是完全随机的,因此样本特征被选中的概率是一样的,但实际上每一个特征的重要度是不同的,也就是说在人才培养质量评价的过程中,所涉及到的是非平衡数据.

为解决以上问题,本文以每一个样本特征的重要度为依据,选择重要度较高的选择样本特征,降低弱分类器生成的可能性.度量特征重要性的方法有很多,本文选用随机森林排序算法 (Random Forest Ranking,RF Ranking)计算特征重要度,以下为该方法的主要步骤:

Step 1.选取某一样本特征X,随机引入噪声数据并再次计算OOB,结果记为errOOB2,初始的OOB计算结果记为errOOB1.假设在随机森林中存在N棵决策树,则特征X的重要度计算公式是:

Step 2.跟着Step 2 得到的排好序的特征,选择75%的特征,在特征集合移除后面20%的特征.

Step 3.重复上述两个步骤,直到特征数目降为M,提前设定好的一个值.最终得到m个最终特征集合.

2)F-measure加权算法(FRF)

传统随机森林方法在进行分类决策时,采用的是平均多数投票法,每一颗决策树输出自己的分类标签,最终的结果为输出最多的类.但是在分类过程中,决策树的分类效果是不同的,如果按照平均投票的方法,每一个决策树都具有相同的投票权重,就会导致效果好的分类器不能更好地发挥作用,效果差的分类器对结果产生负面影响.

本文基于F-measure方法,设计了一种新型的基决策树加权方法.F-measure是Precision和Recall加权调和平均,是IR (信息检索)领域的常用的一个评价标准,常用于评价分类模型的好坏.利用混淆矩阵计算分类器的召回率Recall和准确率ACC:

其中,TP表示实际是高质量毕业生预测为高质量毕业生的人数,TN代表的是实际是低质量毕业生预测为低质量毕业生的人数.FP代表的是实际为低质量的毕业生预测为高质量的毕业生,FN代表的是实际为高质量的毕业生预测为低质量的毕业生.

根据F-measure 计算公式,计算出组成随机森林分类器的每一颗决策树的F-measure值.

在上式中,recall代表召回率,precision代表准确率.首先,将验证集的数据输入到每一个决策树中,然后每一个决策树对验证集中的每一个记录会有一个类别预测,根据决策树预测的结果和真实的结果进行比对.

改进后的随机森林算法降低了平均投票机制所带来的影响,降低了弱分类器对于结果的影响,提高了算法的整体性能,无论是在人才质量评价中还是在其他的应用中都可以应用.

改进后的随机森林算法流程图2所示.

3 应用研究

1)数据来源与数据处理

本文的数据来源主要是青岛科技大学信息学院在国家工程专业认证过程中所收集的学生数据,该数据由学院档案记录、问卷调查、综合测评成绩等多方面组成,包含了2008年到2017年2000多名毕业生的详细数据,每一条数据包含约35个字段,共计8万条数据.根据人才培养质量评价的需求,只需选择与评价内容密切相关的数据建立数据库即可.最终只保留以下字段,见表1.

其中将2008到2015年共8年的样本数据作为原始训练集,占总样本数的80%,2016年和2017年两年的样本数据作为测试集.

2)特征选取对于算法性能的影响

本文对RF算法做了两次改进,为了验证两种改进都能对评价结果产生积极的影响,本文对两种改进分别进行验证,以证明两种改进各自的有效性.为了验证特征选取对于算法性能的加强,本文将不带有特征重要度加权的RF算法与带有特征重要度加权算法进行比较,结果如表2所示.

从表2中可以看出,在同一数据集中,带有特征重要度加权的RF算法比原算法的准确率有了明显的提升,在特征选取的过程中,改进后的算法能够自动筛选出对评价结果有利的特征指标,降低弱分类器的生成概率,间接提高了评价模型的准确率.

3)F-measure加权算法对算法性能的影响

为了验证F-measure加权算法对于算法性能的影响,将普通投票机制的RF算法与带有F-measure加权投票机制的RF算法(WRF)在进行比较,结果如表3所示.

表1 处理后的数据所包含的字段信息

表2 特征重要度方法对RF算法的性能影响

表3 F-measure 加权算法对算法性能的影响

由表3可以看出,通过加权投票机制改进的随机森林算法模型的准确率有了进一步的提升.本文提出的基于F-measure加权投票机制的随机森林算法比传统的随机森林算法具有更高的性能.

4)FWRF算法性能测试

为了证明FWRF算法在高校学生毕业质量评价方面的作用,本文选取了几种经典的RF 改进算法与FWRF算法进行横向比较,实验数据为数据集中的所有类别.经过最终的筛选,本文选取了混合粒子群随机森林算法、混合遗传随机森林算法、混合鱼群随机森林算法以及原始随机森林算法为对比算法,性能的评价指标主要是准确率.利用Python语言在PyCharm 开发平台上使用scikit-learn库实现了以上4种算法.实验采用十折交叉验证的方式对样本集进行分析,并基于准确率、召回率和F1值来对分类结果进行评估.表4为5种方法的实验结果.

从表4中可以看出,与几种经典的改机随机森林算法相比,本文提出的改进随机森林算法在用于人才培养评价时,在精确度和召回率上差异不大,但是在准确率上有了一定程度的提高,符合设计的要求.

表4 5种实验方法对比

4 结束语

本文基于标准随机森林算法,对其特征选择机制和决策树投票机制进行了改进,使得抽样获得的决策树更加具有代表性.结果显示,改进后的模型在处理人才培养评价的问题时,无论是相比于标准的随机模型还是经典的改进型随机森林算法,其准确率有了一定程度的提高;而且改进后的模型决策树的数量有所减少,缩短了算法的运行时间,在简化分析模型和提高模型准确度方面有一定的优势.该算法能够解决高校毕业生的质量评价问题,可以在高校的学生培养方面起到指导作用.