刘鑫
摘 要:数据挖掘技术日趋成熟,聚类分析是数据挖掘的重要方法。本文以国内某产品制造企业产品生产线自动化采集数据为例,研究在聚类分析前,针对生产企业生产过程数据开展基于主成分分析方法的数据预处理的过程。
【关键词】数据挖掘 主成分分析 预处理 生产行为
当今世界,计算机性能不断提高,生产企业内部的信息化程度越来越高,数据库管理系统应用越来越广泛,存储数据的规模也在不断地扩大。同时,企业的生产普遍向着工艺复杂化精细化发展,产品生产工序增加,操作技术要求提升,这对企业的生产过程管理、产品质量控制带来了严峻的考验。实际中,企业管理者面对的数据也越来越繁杂,如何从大量复杂的生产过程数据中提取出有价值的知识,通过把生产行为数据和实际业务管理有效结合、归纳、挖掘其中的隐藏信息,发现这些信息之间存在的潜在联系,成为了有针对性的产品质量控制,支持企业生产高效率运营的关键。
数据预处理是数据挖掘聚类分析前必须要做的工作,其中包括对原始数据进行必要的清洗、集成、转换、离散和归约等一系列工作,使之达到挖掘算法进行知识获取研究所要求的最低规范和标准。处理过程涉及多种统计学方法,如序列分析、回归分析、贝叶斯分析、判别分析、相关分析、主成分分析等,本文主要介绍应用主成分分析方法处理生产过程数据,降低维度变量的问题。
1 主成分分析的介绍
主成分分析方法是利用数据集变量降低维度的思想,把反映一个事物特征的多个变量,用较少的具有代表性的变量描述。它的中心思想是缩减一个包括很多相互联系着的变量的数据集,在数据集中,保留尽可能多的有用的变量。主成分分析方法用所有的初始变量来得到新变量的更小的集合,而这个集合能较好表示初始变量。初始变量的关联性越大,结果集所需要的变量个数就越少。应当考虑原始数据之间的关联性,即变量之间是否具有可提取的综合变量的必然联系,提取的变量在多大程度上能代表原始事物的信息。
主成分列中,第一个主要成分y1是x1,x2…xp的一切线性组合之中最大的;第二个主要成分y2是x1,x2…xp的一切线性组合之中第二大的;第n个主要成分yn是x1,x2…xp的一切线性组合之中第n大的,而且提取出来的各个主成分中yi与yj相互无关。可以通过公式‖S - λI = O‖计算出方差矩阵S的特征值λ。λ1 ≥λ2≥…≥λp。λ1对应y1的方差,λ2对应y2的方差,…,λp对应yp的方差,因此有
由大到小累计的方差贡献率达到了阈值,则表示相应主成分覆盖了原数据集的大部分信息,其余的都是噪声。
2 基于产品制造过程数据的主成分分析应用
首先数据挖掘对象是产品生产过程中设备采集数据,以生产单作为主关联,生产形式是离散线性多次的生产,也就是每个生产单之间在生产过程中没有直接的联系,产品可以在一台设备上操作多次,设备运转系统采集记录了设备前部、中部、后部三个部件的温度以及压力的数值,在一个生产阶段完成后继续进行下一个生产阶段的生产,不会有并行生产的情况。从过去几年的系统记录数据计算获得这些变量,并整合在产品质量上,描述生产行为,形成数据聚类分析使用的主表。此次研究样本涉及变量可以分为两类: 聚类变量与描述变量。聚类变量是根据既定的业务目标选择的并参与聚类的变量。描述变量主要是在利用聚类变量对产品生产特征分类后,为了达到更彻底地了解产品生产特征的目的而需要使用的其他变量,以及其他没有参与聚类的变量都算作描述变量。
其中“生产单号”、“设备名称”、“操作员”等作为描述型变量,“平均前压力值”、“平均后压力值”、“平均中压力值”、“平均前温度值”、“平均后温度值”、“平均中温度值”、“平均电流值”、“最小前压力值”、“最小后压力值”、“最小中压力值”、“最小前温度值”、“最小后温度值”、“最小中温度值”、“最小电流值”、“最大前压力值”、“最大后压力值”、“最大中压力值”、“最大前温度值”、“最大后温度值”、“最大中温度值”、“最大电流值”、“研磨时间”,“混合时间”、“高速混合时间”、“上下混合时间”、“重量”、“色差”、“粘度”、“细度”、“干性”等,其中压力、温度等值,会有多次记录,如“第一次平均前压力值”,“第二次平均前压力值”、“第三次平均前压力值”。经过统计最多有90个属性变量参与聚类过程。
对于数据集中设备生产时的数据采集变量,有些变量之间存在一定的相关性,如果存在较强相关性,那么说明信息存在冗余,可以进行维度缩减。减少参与聚类的变量的个数,将提高聚类的效果。由于生产工序在设备使用上相对独立,生产工序之间又具有相似的特征,所以首先针对第一阶段生产过程中的温度、压力生产特征变量进行分析。
主成分分析依赖测量单位的度量,所以在进行主成分分析之前,必须进行变量标准化后再进行简单相关分析,得到变量特征矩阵,表1显示了温度相关变量的相关性矩阵,可以看出变量之间存在正相关性。
进行主成分分析计算关联矩阵特征值,并根据特征值占有率的累计值选取主成分的个数。特征值表2如下。
由表2可以看出特征值大于1的主成分共有7个,其保留了原始变量74.63%的信息。从左边部分可以看出特征值大小与主成分个数的关系,从右边部分可以看出主成分个数与累积信息含量的关系。
主成分分析的关键是要给主成分赋予新的意义,给出合理的解释,这个解释应根据主成分的计算结果结合定性。通过特征方程(1-1)分析,
Prin1=0.382922*fronttempavg+0.403264*backtempavg+0.378092*middletempavg+0.316121*fronttempmin+0.302468*backtempmin+0.28823*middletempmin+0.282235*fronttempmax+0.276663*backtempmax+0.279643*middletempmax
Prin2=0.310109*leftpressavg+0.231412*rightpressavg+0.220604*middlepressavg+0.27013*leftpressmin+0.26198*rightpressmin+0.20965*middlepressmin+0.453727*leftpressmax+0.410205*rightpressmax+0.233996*middlepressmax
Prin3=0.21342*currentvalueavg+0.61568*currentvaluemin+0.634203* currentvaluemax
Prin4= 0.573596*currentvalueavg+ 0.556702* cl (1)
设备的压力、温度、电流等参数的平均值与其运行中的最大值、最小值存在高度关联性,产量与电流平均值之间也存在高度关联性,但是前、中、后部件的温度或压力的关联性相对独立,研磨时间也相对独立。之后分别对第二、三阶段的研磨数据进行分析,也同样出现了相同的结果。由此,为了降低数据集维度数量,提高聚类的效果,针对实例企业生产设备采集数据可以进行适当的变量缩减,保留变量:“平均前压力值”、“平均后压力值”、“平均中压力值”、“平均前温度值”、“平均后温度值”、“平均中温度值”、“研磨时间”,“混合时间”、“高速混合时间”、“上下混合时间”、“重量”、“色差”、“粘度”、“细度”、“干性”,数据集总变量数也由90个缩减为33个。
3 结论
研究可以发现企业生产数据集中存在着大量冗余的变量,如果放任不管,可能会增加聚类分析的复杂度,影响聚类的准确性。所以,通过SAS主成分分析方法对数据进行预处理,可以有效地发现生产过程中的关键变量信息,以及它们之间的关联关系。
参考文献
[1]阮静.SAS统计分析从入门到精通[M].北京:人民邮电出版社,2009.
[2]何晓群.现代统计分析方法与应用[M].北京:中国人民大学出版社,1998(01).
[3]唐懿芳,钟达夫.主成分分析方法对数据进行预处理[J].广西师范大学学报,1001-6597.2002.s1.050.
作者单位
中钞油墨有限公司 上海市 201315