质量改善和大数据

2019-12-10 08:50苏朝墩
上海质量 2019年11期
关键词:流程预测分析

◆苏朝墩 / 文

编者按

本文出自2019年10月的美国《质量进展》杂志,作者是国际质量科学院院士、中国工业工程学会会士、美国质量学会会士、台湾质量学会会士、台湾清华大学工业工程管理学系苏朝墩教授,由台湾辅仁大学企管系教授陈丽妃翻译,原文标题《勇往直前——了解大数据对质量的影响,以更好地解决问题和客户疑虑》。

质量改善是全面质量管理的关键原则,也是每个组织永无止境的过程。为了提升组织竞争力,运用系统化方法来改善流程和产品质量是非常重要的。本文讨论质量改善和大数据,特别强调了大数据对于质量改善的影响,并介绍了一些用于大数据分析的相关技术和案例。

大数据影响了质量改善的工作,有三个重要方面:了解客户的声音、收集和分析数据以及开发预测模型。此外,质量4.0引入了更多先进的技术和工具来分析大数据,包括人工智能、机器学习、数据挖掘、数据预处理和属性筛选等。质量专家有责任确保大数据正确无误、没有缺失值,了解快速处理和提取可操作讯息的方法以及确定数据是否可以导致问题被解决或引起客户关注。

质量改善

许多公司已尝试开发系统化的方法,使用特定技术来提升质量并减少流程和产品中的浪费。在各个行业中,通常透过团队合作来实现质量改善。想要成功地实施质量改善活动,有三个要素相当重要:质量概念、管理模式和改善的技术(图1)。

1.质量概念:了解各种质量概念有助于有效地处理质量问题。通过适当的在职培训,许多企业引导员工学习一些质量专家的理念,以拥有更好的态度进行质量改善。例如,质量是由客户定义;质量意味着要符合要求;质量来自预防;当产出的性能变异越小,其产品的质量越高;应创造有吸引力的质量要素,以满足客户的潜在需求。这些基本的质量教条,对质量绩效的改善,继续产生相当大的影响。

2.管理模式:我们必须使用一些管理模式来解决质量问题。实务上,经常使用的质量管理模式是Plan-Do-Check-Act循环、QC story、福特8D和DMAIC(定义、测量、分析、改善、控制),其中8D被广泛用于高科技公司中,因为它同时强调遏制、纠正和预防问题的价值。

3.质量改善技术:经常使用的质量改善技术可分为以下三类:(1)统计方法,包括基本统计、假说检定、回归和实验设计/田口方法等;(2) 质量工具,包括质量机能展开、QC七大手法、新QC七大手法、统计流程管制、流程能力分析、测量系统分析和FMEA等;(3) 丰田式生产系统和精益理念,其已普遍使用于业界中,以消除浪费、缩减成本和周期时间,以及质量改善等。

质量改善需要解决问题。图2显示了一个以数据驱动的逻辑条理,用于解决质量问题。对于一个给定的问题,我们收集数据,使用合适的工具进行分析,并决定理想的解决方案。然后,我们修正这些理想的解决方案以获得“实用的解”。在这个过程中,如何确定适当的改善机会、解构问题和解释分析结果是相当重要的。此外,质量改善项目必须与企业策略目标,以及客户、流程和工程的声音相连接。

图1 质量改善方法论

大数据

大数据已引起了学者和实务人员的关注。产生越来越多的数据是现代科技发展的必然趋势。例如,我们可以很容易地在机器/产品中安装传感器和智能芯片,以获取相关信息,如产品特性和操作条件等。从提供服务到制造,许多公司现在都需要大数据,我们已进入大数据的时代。

大数据没有通用的定义。Laney[1]用3 V定义了大数据:Volume——数据集的数量大小;Velocity——数据输入和输出的速度;Variety——各种数据类型和来源。3V已经成为描述大数据的流行框架。除了3V之外,大数据的其他常见维度还包括Veracity——数据的质量或可信度,以及Value——所提取数据的价值。

大数据不是在关注数据本身的问题,相反地,它是对更有效地解决问题的策略的确认。在目前的研究中,大数据被认为是一个整体的方法,用来探索5V(数量、速度、多样性、真实性和价值),以便获得可行动的知识,以提升企业的竞争力。随着时间的推移,科技将不断的发展,在未来,我们会对大数据发展给出不同的观点。

图2 解决质量问题的数据驱动逻辑

大数据对质量改善的影响

大数据对质量改善的三个关键影响如下:

1.客户的声音

了解VOC(voice of the customer,包括内部和外部客户)是相当重要的,因为在制定有关质量改善方向的决策时,这些信息对组织很有价值。传统上,公司使用调查、访谈、焦点小组、保修数据、现场数据和投诉来确定客户的期望。然而,大数据拥有精确评估VOC的卓越能力。大型数据集和精密的工具使我们能够鉴别实际的客户购买和动机,然后根据VOC来决定最重要的客户需求,从而为质量改善提供充足的机会。

2.数据收集和分析

数据收集在质量改善中扮演相当重要的角色。传统上,根据不同情况使用各种数据收集方法[2]。以下是三种类型的数据:

(1)实验数据(experimental data):从设计的实验中收集数据。实验设计或田口方法经常用于处理此类数据。

(2)观测数据(observational data):通过规划好的观察研究对数据进行采样。回归分析或因果分析通常用于分析此类型数据。

(3)历史数据(historical data):这些数据已被收集。计算智能和数据探勘方法对于解决历史数据问题是必不可少的。

例如,当六西格玛的DMAIC用于解决问题时,我们通常应用实验设计或田口方法来优化流程,主要原因是六西格玛支持工程上的良好感觉,使我们可以完全理解问题的背景。此时,可以进行精心策划的实验,以收集解决问题所需的数据。另一方面,在处理不明确(或不理解)的问题时,我们可能只有历史数据。此时,一些智能型方法可以用来有效地检视数据。

在大数据时代,可以从社交媒体、交易、公共数据和机器与机器间的数据等来源收集数据。在制造业中,除了历史数据之外,还有大量的实时现场数据。对于这些大数据,我们经常不知道要分析什么。我们可能需要反复试验,每次尝试都有助于我们进一步了解问题的来龙去脉。

大数据鼓励我们应用更先进的技术来分析已收集的大量结构化和非结构化数据。使用正确的方法可能可以揭示大数据中隐藏的含义。例如,一家比萨餐馆监控社交媒体并分析所发布的文字和图片来确定客户不满意的根本原因,然后此餐馆设计了一个系统来解决由外送员所引起的主要问题[3]。另一个例子是应用关联规则演算法来决定不同机器组合对晶圆代工厂良率的影响。

3.预测

大数据可以使我们更准确地预测未来。通过大数据预测,我们可以提升流程和产品绩效,同时实现优良的风险管理。例如,我们可以开发一种预测模型,以便在机器可能发生故障之前识别其中的主要质量问题。比如,一家铸造公司运用类神经网络,输入工厂制程参数来预测抗拉强度。

预防性维护(preventive maintenance)已广泛应用于制造业中。许多公司在大数据的协助下,喜欢实施预测性维护,通过设计来帮助判定服务中的设备状况,以预测何时需要维护。例如,台湾的一家半导体制造公司应用设备退化模型来预测设备的有效使用寿命;一家笔记本电脑制造公司试图利用客户要求维修的原因来预测修理笔记本电脑所需使用的零件。

预测是大数据分析的实际结果。然而,构建一个有效的预测模型并不容易,因为大数据通常非常复杂,整个情况往往难以理解,而未知的事物总是存在。过去没有发生的事情并不能保证将来不会发生。此外,由于大数据是实时产生的,因此如何准确、快速地在事先就能预测变更点是非常关键的。

根据戴明[4]的教导,如果一个流程处于统计管制中(即处于稳定状态),那么未来预期的变化是可预测的。如果流程不稳定,那么其绩效是不可预测的。大数据的预测需要仔细评估流程是否处于稳定状态中,从不稳定流程中所获得的数据可能会提供对未来的不可靠预测。

相关技术

大数据项目通常与大而复杂的问题相关联,于是,问题通常是含糊不清的。因此,我们首先必须确定所要面对的问题以及谁应该加入团队。大数据执行方法类似于图2中所提供的架构。不过,我们需要一些更先进的技术和工具来分析大数据。

·大数据解析

所谓的解析,是应用数学和统计学来发现数据中有意义的形态。传统的数据分析方法难以处理大数据,因此除了数学和统计学之外,通常还建议使用人工智能、机器学习和数据探勘等方法来处理这些大量的数据。分析大数据以挖掘其潜在的价值并获得有用的见解,以协助企业做出更好决策的学科称为大数据解析(图3)。

图3 大数据解析

·人工智能

人工智能包括使用计算机来解决涉及感知/智能的问题。通过数据处理和演算法操作,人工智能尝试生成有意义的信息,并使机器比人更聪明。人工智能技术包括自然语言处理、基于逻辑的推理、计算机视觉、搜索算法和机器学习。

·机器学习

机器学习是人工智能的一个分支。对于给定的问题,机器学习收集训练数据、从数据中选择特征并构建模型。此模型可视为学习的结果,可用于预测或解决高度特定的问题。机器学习方法包括回归、类神经网络、支持向量机、判定树和朴素贝斯等。

·数据探勘

数据探勘是在大型数据集中发现模式和建立关系的过程,以便更好地理解所研究的系统。典型的过程涉及问题定义、数据收集和准备、建模、验证和应用等。常见的数据探勘工作包括分类、聚类、关联和预测等。文字探勘是从非结构化的文字中提取有用信息的过程。

·数据预先处理

大数据通常是非结构化的。为了改善原始数据的质量和执行结果,需要更多的时间来实施数据的预先处理。用于数据预先处理的三种基本方法为:(1)数据清理:数据可能不完整、有杂质且不一致。因此,我们应该使用领域知识来处理缺失的数据、识别异常值、消除杂质数据,并纠正不一致的数据。(2)预先处理类别数据:类别数据必须转换为合适的数值。独热编码是用于处理类别数据的常用技术。(3)数据转换:必须将数据转换为适当的范围以备处理。正规化和标准化是众所周知的数据转换技术。

·特征选取

特征选取是选择一些具有价值的特征或属性的过程,而这些特征或属性有助于从输入来预测或识别输出。特征选取可用于简化、提高准确性,并加强对模型的理解和解释。经常使用的特征选取方法包括相关分析、输入变量在类神经网络中的相对重要性、启发式算法和判定树等。

案例

在网际网路上进行数据资料分析可能需要一个质量信息平台,可以协助:(1)监测:了解当前情况;(2)分析:确定问题的原因;(3)预测:预测可能的结果和并发症,准备或防止问题再次发生;(4)优化:优化我们的目标。以下简要描述两个例子。

例1:

一家铸造公司实施了一个专案来收集现场的数据资料以进行流程改善。根据工程知识,专案团队鉴定了17个可能会影响流程输出的可能因子,比如抗拉强度(y)。

首先,该团队试图决定影响y的显著流程因子。执行了五个特征选取技术,包括类神经网络、随机森林、支持向量机、粗糙集理论和回归分析。根据多数决定原则,该团队选择了九个关键流程因子进行进一步研究。接着,类神经网络用来构建九个控制因子和回应值(y)之间的非线性关系。调适好的网络被用作遗传算法(genetic algorithm, GA)中的适应函数,然后将控制因子数值转化为一个向量(染色体)以代表可能的解,并使用GA来优化解答。

在这项研究中,GA共执行20次。实施结果显示这20次执行结果的标准差很小,说明所获得的解具有稳定性。然后,从这20个可能的解中选择出最佳解(具有最高抗拉强度者)。使用这个最佳组合会使抗拉强度增加约13.5%。

流程优化的中心思想如图4所示,更多类似的例子可以在Su[5]中找到。

例2:

一家公司拥有高速公路运营电子收费系统(ETC)。该系统使用传感器发射无线电波,并侦测连接到汽车的无线射频识别(RFID)标签。平均每日交易数量约为1500万。相对较低的车辆侦测准确率给公司带来巨大的财务损失。该公司组建了一个大数据专案,分析车辆侦测的ETC数据,以识别影响RFID标签侦测的关键特征并提升RFID标签的侦测率。

在五种车型中,我们使用大卡车作为释例。大卡车的车辆侦测率的准确度约为83.4%。从数据库中抽取170500辆大卡车记录数据。在原始数据中,有190个变量可能影响车辆侦测率。在进行数据预先处理之后,仍有170000笔记录,其中141700笔被侦测到,28300笔未被侦测到。然后,我们将数据分成训练集(120000笔)和测试集(50000笔)。在训练集中,有100000个样本被侦测到,而有20000个样本未被侦测到,说明数据是不平衡的。因此,我们执行过额抽样技术——从较小的集合中添加更多的样本。也就是说,抽取侦测到的与未侦测到的车辆数据数量差不多一样多。于是,最终训练集包括100000个侦测到的样本和100000个未侦测到的样本。此训练集用于进一步分析,而用于验证的测试数据集并未执行过额抽样。

使用五个特征选取算法来选择最关键的特征,实施结果确定了29个关键变量。然后,运用决策树/C4.5产生一些有用的规则。此外,专案团队从29个变量中选择了一些可控变量,并应用类神经网络和GA来决定可控变量的最佳设定。

基于这些分析,可以获得若干有价值的见解,例如车速控制、RFID标签放置位置和使用时间,以及交通量,以提高车辆侦测率。

图4 流程优化的核心想法 (例1)

要记住的重点原则

大数据严重影响了质量改善的工作。在使用大数据进行质量改善时,了解工程问题本身是非常重要的,但是以下关键原则对于成功的大数据分析也很有用:(1)数据质量:数据本身是否存在问题,例如与测量、错误记录或缺失值有关的问题;(2)数据分析方法:如何选择适当的工具,有效和快速地处理大量数据并提取可行动的信息;(3)客户视角:正在解决的问题是否为客户关注的问题。这种情况类似于制作美味的日本寿司:要取得成功,我们必须拥有高质量的原料、熟练的手艺以及满足客户需要的适当口感。

猜你喜欢
流程预测分析
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
吃水果有套“清洗流程”
隐蔽失效适航要求符合性验证分析
电力系统不平衡分析
违反流程 致命误判
四川省高考志愿填报流程简图
不必预测未来,只需把握现在
电力系统及其自动化发展趋势分析