基于随机森林决策树质量管理方法研究

2016-01-27 02:11唐学华
关键词:随机森林全面质量管理决策树

唐学华

基于随机森林决策树质量管理方法研究

唐学华

摘要:全面质量管理为企业实现科学、全面、高效的管理提供了理论依据。在分析产品生产过程中影响产品质量各方面因素的基础上,利用随机森林决策树算法对数据进行处理,挖掘内在的、本质的信息,能为企业的管理提供帮助。通过实测数据分析,结果显示基于随机森林决策树的方法有较好的性能,可以满足企业的实际应用要求,提高企业效率和产品合格率,降低企业成本。

关键词:全面质量管理;随机森林;决策树

中图分类号:TG65

文献标识码:A

文章编号:1673-1999(2015)07-0061-03

作者简介:唐学华(1977-),女,硕士,安徽财贸职业学院(安徽合肥230601)行知管理学院党总支副书记,副教授,主要研究方向为企业管理理论。

收稿日期:2015-06-04

基金项目:安徽省高等学校省级质量工程项目“工商企业管理专业校企合作实践教育基地”(2012sjjd068)。

随着科学技术的发展,社会分工日益细化,生产过程日益复杂化,影响产品或服务质量的因素越来越多,给企业实现高效的质量管理提出了新的问题与挑战。全面质量管理(Total Quality Management,TQM)理论[1]的提出为各个企业实现质量管理提供了理论支撑。全面质量管理强调将有效的数理统计方法与企业管理各个环节有机结合起来,以提高产品或服务质量为核心目标,统筹考虑产品生产过程中的工作环境、工作状态、技术水平以及生产条件等因素,实现对各个环节的全面掌控,提高各个环节的工作效率,提高产品或服务质量。TQM成为备受广大企业家所关注的一门重要的科学管理体系。

在产品的生产过程中,产品的质量由多方面因素决定,主要包括工作环境、基础设施、机器的精度水平、物流水平、工人的技术水平以及产品的检测方法等。对于生产厂商而言,如何从繁多的因素中找出影响产品质量的关键因素以及因素间的相互关系是必须关注的问题。随着大数据时代的到来,生产过程中记录的数据量非常巨大,如何从海量的数据中提取影响产品质量的关键信息,是每个企业决策者必须充分关注的问题。数据挖掘技术是从海量的、高维的数据中挖掘出决定性的信息,并被广泛应用于商务管理、金融市场等领域。

近年来,一些研究者将数据挖掘技术应用到质量管理中[2-6]。决策树就是其中一种常用的数据挖掘方法[2-5]。鲁钊[3]等讨论了ID3决策树算法在机械制造中的应用,对质量管理信息进行挖掘,以实现提高决策效率的目标。宋建聪等[3]通过对ID3算法的分析改进,提出了基于C4.5决策树算法建立企业生产质量分析模型,分析生产中各环节的因素,为管理者决策提供数据支持。富珍[4]和卢荣展[5]分别研究了决策树算法在信息管理和医学信息等领域的应用,证明了基于决策树算法数据挖掘方法在质量管理领域的可行性。但是,上述几种基于决策树的数据挖掘方法均没有考虑产品生产过程中的不确定性因素。由收集到的数据制定一棵确定的决策树,没有考虑决策信息的不确定性,以及生产加工过程的不确定性等信息。考虑质量生成过程的不确定性,蔡政英[6]等采取模糊集表达决策的模糊性,运用模糊决策的方法实现无偏好信息作用下的决策分析。此方法只考虑到决策信息的不确定性,没有考虑生产环境、机器加工、工人情绪变化等不确定信息。

考虑影响产品质量的各方面因素,以下提出了基于随机森林决策树的数据挖掘方法。文章后续章节内容安排如下:首先,分析产品生产过程中,影响质量生成的相关因素以及存在的不确定性;其次,介绍基于随机森林决策树的决策方法;第三,对实际采集的数据进行处理与分析;最后,给出文章的结论。

一、质量管理决策模型

在质量管理中,最常用的是ISO9001质量管理体系标准(Quality Management System)评价质量管理的质量。参照IS09000QMS标准及某装备生产企业的实际情况,企业生产产品的质量评价标准可以将QMS分解为总体要求、管理层决策、资源调配、产品生产、检测、分析和改进五个二级指标。将每个二级指标进行细化,得到影响产品质量的各个因素。

一是产品的质量要求,包括产品的整体质量和

关键部件的质量要求。

二是管理层决策,包括管理承诺、质量方针、实施方案、职责职权的界定以及各部门间的协调沟通。

三是资源调配,由基础设施、工作环境、机械设备配备以及人力资源的合理组织等部分组成。

四是产品生产,作为产品质量生成的重要阶段,包括原料和部件采购、技术中心策划设计与开发、实时数据监控,物流效率和生产部门间的协作。

五是检测分析和改进,包括制定检测标准、检测方案、不合格率的控制,数据分析与改进,以及责任确定与理赔等问题。

考虑到产品生产过程中各因素的不确定性,对影响产品质量的各个因素的状态不能简单的表示成“是”与“非”的二元表达,而是进行多级量化。在管理决策过程中可能涉及多个管理者,每个管理者的决策方法各不相同。在决策量化的过程中,决策的量纲不同,量化等级不同等差异性因素,细化量化等级可以使决策意图更加清晰明了,有利于后续工作的实施。基础设施的健全状况、工作环境舒适程度、工人的技术水平、设备的磨损情况、采购质量、实施方案的细化程度、物流效率、多部门协作水平、检测指标的制定、不合格率的标准等,都需要多级量化。一方面,可以明确各个环节的执行标准,便于执行和数据检测;另一方面,可以明确有效模拟信息的不确定性。对各个环节中的因素进行选择,组成特征向量;对每个特征进行量化,形成特征空间。企业的质量管理由此特征向量进行描述,高维特征向量作为随机森林决策方法的输入,用于企业质量管理。

二、基于随机森林的决策方法

基于随机森林的质量管理决策模型如图1所示。首先,对企业的数据进行预处理、采样、标记,生成训练数据集和测试数据集;然后用训练数据训练随机森林;用剪枝法对生成的决策树进行简化;最后,在测试数据集上评估决策方法。

图1 基于随机森林的质量管理决策方法流程图

(一)数据的收集与采样

在质量管理的整个过程中,并不是每项数据都能明确地量化成数字表示,同时也会受到客观或主观因素的影响,使得数据残缺、重复,受噪声污染等。另外,用海量的原始数据进行决策树的训练是不可行的,必须对数据进行预处理。首先,去除干扰信息,将不完整的、错误的信息去除;其次,为了保证样本间的可区分性,不重复采样相同的数据;另外,为保证样本空间的完备性,采样尽量分布在特征空间的全空间。最后,将特征空间的特征进行合理的量化。预处理之后的数据随机的生成训练随机森林的训练数据集和测试数据集。

(二)随机森林原理

随机森林是决策树的组合,是因为其每个决策树都是随机生成的。而最常用的决策树组合方式为求均值:

其中,pt(y|v)为每颗决策树的决策结果;T为决策树的个数;Z为归一化因子;p(y|v)为整个随机森林对样本v的决策结果。

决策树的思想是将复杂问题分割成多个简单问题来逐步处理。决策树由节点和连接节点的边组成,其中节点可分为内部节点和叶子节点,每个节点只有一个输入边,而内部节点可以有两个或两个以上的输出边,叶子节点没有输出边。当内部节点的输出边有且只有两条时,决策树为二分树。决策树的决策过程可简化为:输入一组样本到决策树的根节点,根据内部节点对应的分裂准则,自顶向下通过内部节点并且判断样本类型,直到达到叶子节点,而叶子节点存储的是样本类别。

决策树的决策过程根据已知的信息来估计未知的信息,即当样本到达一个内部节点时,此内部节点存储有已知的分类属性(训练时产生的),以节点存储的分类属性作为分类依据来判断样本的分裂方向。在这个判断过程中,并没有用到该节点未存储的分类属性,这个过程就是通过确定性属性(节点存储的属性)来估计样本类别,不确定性属性(节点未存储的属性)对本节点的判断过程没有影响。分类属性是由上一步的回答决定的,这种决定关系可以用一个从根节点到叶子节点的路径来表示。

(三)决策树的构建过程

决策树的训练过程如下:首先,从根节点开始训练,所谓的训练实际上是找出根节点对应的最优分类特征。在特征中找出一维特征,使得输入样本按照该特征分类后的信息增益最高,信息增益的定义如公式(2)所示。确定最优特征后,将其标记为根节点的分类特征。其他内部节点的训练方式和根节点的训练方式相同。通过遍历所有节点,可以得到一种节点和最优特征的关系,这个最优特征就是决策过程中的分裂准则。信息增益的表达式如下:

其中,S为输入数据;F为从特征中选取的最优特征;样本标记为正样本时,v=1,S1为正样本的数量;负样本时,v=0,S0为负样本的数量。对于两类问

题的熵E(S)由下式得:

其中p1和p0分别为正负样本出现的频率。选择信息增益最大化的特征作为节点对应的最优特征,可以使分类后的各类样本的纯度最高。对于多类问题,可以简化为多个两类问题来处理。

(四)决策树剪枝

为简化决策树,需要对决策树的叶子节点进行判别,删除部分叶子节点,保留有用的节点。常用的方法有阈值法和剪枝法。由于在实际应用中阈值法的阈值很难确定,笔者采用剪枝法对生成的决策树进行简化。

剪枝法是一种自下而上修剪决策树的方法。首先,要使决策树充分生长,到达每个叶子节点的纯度最大;然后对同父的叶子节点进行试验性的修剪,如果修剪前后纯度的变化很小,就可以进行剪枝,修剪后父节点就变为叶子节点,否则不做修剪。按照这种方法对决策树自下而上进行修剪,叶子节点就会出现在范围很广的层次上。笔者选择熵的不纯度作为样本的不纯度评价准则。

(五)决策树的决策过程

使用二分的决策树的决策过如下:假设有一个样本集X,样本从决策树的根节点开始判断,直到达到叶子节点,决策树的叶子节点存储了对样本类型的预测。决策树的分裂节点可表示为N(φ(x),l,r),其中φ(x)为分裂准则,l和r为左右分支。分裂准则由训练过程得到。当φ(x)=0时,下一步向左分支分裂;如果φ(x)=1,则向右分支前进,直到达到可以给出结果的叶子节点为止。

三、实例分析

(一)训练集与测试集的选择

实验数据来源于某装备生产公司,该公司属于产品组装总厂。通过对采集数据进行预处理之后,选取10 000条记录数据作为实验数据的正样本,10 000条数据作为负样本。将20 000条数据随机分成10组,每组2 000条数据,随机选取9组作为训练数据,1组作为测试数据,交叉验证。每条记录数据包括因素如下:质量要求,管理承诺合理性、质量方针科学性、实施方案明显程度、管理职责职权明确程度,基础设施完毕情况、工作环境舒适状况、机械设备健康水平、工人技术水平、原料和部件采购质量、技术中心策划设计与开发合理性与实时性、实时数据监控准确性,物流效率、生产部门间的协作水平、检测标准合理程度、检测方案科学性、不合格率的控制情况、数据分析与改进,以及责任确定与理赔合理性。笔者依据这些数据生成20维特征向量。

(二)随机森林参数选择

用训练数据训练随机森林时,要对一些参数进行分析,其中两个重要的参数为决策树的个数和决策树的最大深度。确定合适阈值的方法是对于同一组训练数据,固定其他阈值,通过调整的参数阈值使得算法在数据集上的准确率最高,最高精度对应的阈值为该参数的最佳阈值。对于某一组训练样本,参数分析的结果如图2所示。一方面,如图2(a)所示,决策树个数增加会使准确率上升,但是森林中决策树越多计算代价和运算速度会下降。当决策树个数大于4时,准确率提高不大,综合计算效率与代价,决策树个数选择为4;另一方面,如图2(b)所示,当决策树深度小于6时,随着决策树深度增加,准确率有明显的提升,但是当深度大于6时,准确率呈现出缓慢下降趋势。这是由于深度过大时,出现了过拟合的现象。文中决策树的最大深度选为6。

(三)决策树评估方法

为验证训练得到的随机森林决策树的有效性,使用1 000组测试样本进行测试,准确率precision的定义如下:

图2 决策树个数和决策树最大深度对准确率的影响示意图

其中,TP为预测正确的正样本个数,FP为将实

际的负样本预测为正样本的个数。10组数据进行交叉验证,预测准确率的如图3所示。从图3可以看出,基于随机森林的决策树的预测准确度均值为96%,最高精度可以达到97.43%,证明基于随机森林决策树的方法在质量管理领域具有很好的性能,显示了良好的应用前景。

图3 10组数据的测试精度

四、结论

分析了企业全面质量管理中影响产品质量的各方面因素,结合实际情况选择关键因素,通过量化分析,将全面质量管理问题用高维特征向量表示,采用随机森林决策树的方法从高维数据中挖掘隐含在数据中的关键关系、因素间的内在联系以及不确定因素的影响,用实测数据训练得到随机森林决策树,并在测试集上测试决策效果。实验结果表明,基于随机森林决策树的方法有较好的性能,可以满足企业的实际应用要求,该方法能提高企业效率和产品合格率,降低企业成本。

参考文献:

[1]吴思斌.质量管理的发展与通信企业质量管理的简述[J].移动通信产品质量管理专栏,2014(19).

[2]鲁钊,陈世平.基于ID3算法的机械制造业决策应用[J].计算机应用,2011(11).

[3]宋建聪,戴青云,付品欣,钟润阳.数据挖掘在生产过程质量管理中的应用[J].现代制造工程,2013(9).

[4]富珍,郭顺生,李益兵.基于数据仓库的质量管理决策支持系统研究[J].计算机技术与发展,2006(1).

[5]陆荣展,相秉仁,徐建平.决策树算法在药品GSP预警管理中的应用[J].医学信息学杂志,2009(5).

[6]蔡政英,杨斌,张劲松.不确定偏好信息下质量管理的含糊群体决策[J].计算机集成制造系统,2008(1).

(编辑:唐龙)

猜你喜欢
随机森林全面质量管理决策树
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用
以规矩,得方圆
全面质量成本核算模式的探究
全面质量管理理念在高校学生事务过程管理中的应用探索
基于随机森林算法的飞机发动机故障诊断方法的研究
基于决策树的出租车乘客出行目的识别