莫柳珍,宁晓盼,黄向阳,张平军,高俊永
(1广东省科学院生物工程研究所,广东广州510316;2南京海关动植物与食品检测中心,江苏南京210019)
在制糖生产过程中,对工艺指标的控制和分析十分重要。糖厂生产流程长,伴随着各种理化因素变化非常多,工艺指标量众多,并且指标之间存在着相当复杂的联系。分析和研究制糖过程这些工艺指标,优化生产,一直以来是糖业研究中的一项重要任务。
随着信息化和大数据对生产制造业逐渐地渗透,近年来制糖行业智能化生产调度系统和数据化生产管理系统也在不断发展。制糖生产过程中产生大量丰富的数据资源存于相应的数据库或云端网盘中,相比以往,对制糖生产历史数据的统计和查询变得十分便捷。但怎样充分利用和挖掘这些大数据资源,又是面临的一大挑战。本文在制糖生产报表管理系统数据库中获取生产过程工艺指标数据,利用SPSS软件对数据进行处理,考虑到主成分分析法是利用降维的思想把多个指标转化为少数几个综合指标,因此,采用主成分分析法对制糖工艺指标进行大量的数据分析研究,以期获得其在制糖数据分析方面的应用。
主成分分析(Principal Component Analysis,PCA)是一种多变量统计方法,它是最常用的降维方法之一,通过正交变换将一组可能存在相关性的变量数据转换为一组线性不相关的变量,转换后的变量被称为主成分。
在进行数据统计分析时,往往会出现变量特别多的情况,而且很多时候这些变量之间还存在着一定的相关关系,或者说变量之间存在着信息重叠,如果直接对数据进行分析,一方面会带来工作量的无谓加大,另一方面还会出现一些模型应用的错误,不仅会使模型变得很复杂,而且会带来多重共线性等问题。主成分分析提供了解决这些问题的方法,其基本思想是将众多的初始变量整合成少数几个相互无关的主成分变量,而这些新变量尽可能地包含了初始变量的全部信息,然后利用这些新的变量来代替以前的变量进行分析。
主成分分析在社会经济、企业管理及环保、生化、医药等各领域中都有着广泛的应用,常和回归分析、聚类算法及与其他方法连用进行数据处理,主要应用在综合评价、特征提取、模式识别、图像处理等方面。基于主成分分析在生产过程质量控制中的应用文献报道有:胡思贵[1]以某制药厂药片质量的数据为实例,对综合主成分分析质量控制图法与传统的质量控制图进行比较,改进了传统控制过程需要多张控制图才能对生产过程实施监控的不足;李含光[2]利用主成分分析方法对合成氨浓度的 4个指标进行处理,选取 2个主成分投影到二维平面上,得出了合成氨操作的优化操作条件;赵凯[3]应用主成分分析法得到降维后的主成分分量规格区间、规格中心向量和目标值向量,然后基于主成分分量的联合概率密度函数,推导出 3种不合格品率,以期对制造过程的能力进行正确的分析和评价;陆宁云[4]利用迭代主成分分析算法,提供了由多元统计控制图判断过程是否正常的准则,实现了实时在线的主成分建模和过程监测,仿真例子验证了这种过程监测方法的有效性和可行性。主成分分析法在制糖行业中的应用还很少,通常是在甘蔗品种选育方面[5-6],运用到生产在线控制中则处于初步研究阶段。刘桂云[7]对9家糖厂的10项指标数据进行相关性分析和主成分分析,建立了一种制糖原料和压榨生产过程的综合评价方法,得出各糖厂的综合评分排名,并将得分与产糖率进行回归分析验证;覃艺丹[8]应用主成分分析法,对清糖浆质量影响大的清汁pH值、清汁色值、滤清汁pH值、滤清汁色值4个指标采集100组数据,利用 SPSS软件对数据进行主成分分析并计算过程能力指数,以判断澄清工序的过程能力和管理能力。
本示例中制糖工艺指标数据来源于广西某糖厂生产报表管理系统数据库。首先利用数据库SQL Server中的查询功能将需要的指标查询出,导入Excel表格中进行整理,然后利用SPSS 22.0统计分析软件进行主成分分析。本示例选择制糖澄清工段有代表性的 14个工艺指标,连续 30组生产班次报表数据,见表1。
在SPSS 22.0中,由于主成分分析模块被有机地嵌入因子分析模块中,因此,主成分分析必须利用因子分析的结果才能实现。SPSS 22.0软件相关操作步骤:⑴建立数据文件;⑵选择“分析”“降维”“因子分析命令”;⑶选择进行因子分析的变量;⑷打开“描述统计”对话框,勾选“系数”“显著性水平”“KMO和Battlet的球型度检验”;⑸打开“旋转”对话框,勾选“最大方差法”;⑹打开“因子得分”对话框,勾选“保存为变量”、“显示因子得分系数矩阵”;⑺其余设置采用系统默认即可,设置完毕,单击“确定”,输出结果。
各个工艺指标之间的相关性矩阵见表2。从表2中,可看出各个工艺指标之间都有一定的相关关系,部分指标之间相关系数绝对值在 0.5~0.8之间,属于中程度相关,故适合使用主成分分析。值得注意的是:制糖工艺指标之间的关系模型与数据量的选取也有很大的关系,样本指标之间单一的线性关系并不适用于解决普遍的实际问题。
KMO(Kaiser-Meyer-Olkin)检验是为了看数据是否适合进行因子分析,表3中,KMO值为0.622,属于比较适合范围。Battlet检验是为了看数据是否来自服从多元正态分布的总体,表 3中显著性为0.000,说明数据来自正态分布总体,适合进一步分析。
表1 30组生产班次报表的工艺指标数据
根据主成分分析法的步骤,输出分析结果,各个公因子方差结果见表 4,主成分分析的相关系数矩阵的特征值及各主成分的贡献率与累积贡献率结果见表5,主成分得分系数矩阵见表6。
由表 4,可得出变量所含原始信息能被提取的公因子所解释的程度较高,说明分析结果是有效的。由表5可知,前1~5个主成分累积贡献率已达80%以上,且特征值大于1,第1主成分的贡献率最大,紧随其后的各个主成分贡献率急剧下降。根据优选原则,选择前5个主成分作为综合指标。
由表 6,成分矩阵表明各个成分在各个变量上的载荷,从而可以得出各主成分的表达式。例如,主成分F1的表达式为:F1=0.192Z1-0.027Z2+0.108Z3+0.690Z4-0.712Z5+0.551Z6-0.822Z7+0.267Z8+0.55Z9+0.918Z10-0.226Z11-0.694Z12-0.853Z13+0.818Z14。
值得注意的是,在各表达式中各个变量已经不是原始变量,而是标准化变量。从表6得到的5个主成分得分矩阵系数还可以看出,第1个主成分在混合汁锤度、澄清汁色值、澄清汁锤度、精糖浆 pH值、精糖浆还原糖分、精糖浆色值、精糖浆视纯度这 7个指标的载荷比较大;第2个主成分在混合汁重力纯度、混合汁还原糖分、澄清汁视纯度、澄清汁还原糖这4个指标的载荷比较大;第3个主成分在精糖浆锤度这个指标的载荷比较大;第4个主成分在澄清汁pH值这个指标的载荷比较大;第5个主成分在混合汁 pH值这个指标的载荷比较大,各个主成分可以看成是反映这些指标方面的综合指标。由于主成分分析是一种矩阵变换,所以各个主成分并不一定有实际意义,示例中得到的各个主成分的内在含义就不是很明确。
表2 制糖工艺指标之间的相关性矩阵
表3 KMO和Bartlett检验
表4 公因子方差
表5 主成分分析的特征值、贡献率、累积贡献率
表6 成分得分矩阵系数
由于2.1在SPSS 22.0软件操作步骤中选择了“保存为变量”,因此,在数据文件原始数据表上新增加 5列变量,见表 7。F1、F2、F3、F4、F5的值为各组数据主成分值,同时,以5个主成分的贡献率为权重构建主成分综合评价模型:F=0.36844F1+0.17688F2+0.12098F3+0.08181F4+0.07316F5。
计算出各班组数据的综合得分及其排名,结果见表7。以班组1的数据为例,计算其综合得分为:F=-0.36844×3.27242-0.17688×0.15663-0.12098×0.24 363+0.08181×1.77523-0.07316×0.99613=-1.1905
通过综合得分及其排名,可对澄清工段连续30个班次的工艺指标情况进行对比评价,第21个班次的得分排在第1名,而第1个班次的得分排在第30名;返回看原始数据,第21个班次的各个指标总体情况较优。进一步可将这30组班次生产工艺指标的主成分分析得分按照班次进行统计,对照排班顺序表划分成 3个班(甲乙丙班)的综合得分,也就为 3个班的绩效评分排名提供一定的客观数据支持。
表7 30组生产班次工艺指标主成分、综合得分及排名
主成分分析对指标变量进行综合评分,是一种广泛采用的客观赋权方法。在对制糖澄清工段工艺效果进行综合评价时,选取了14个工艺指标通过主成分分析转化为5个主成分的贡献率权重,避免了人为因素,因而评价结果比较客观。
在面对制糖过程庞大的生产数据统计分析时,采用主成分分析法进行降维,以少数的综合变量取代原有多维变量,能够简化数据结构。示例中的主成分分析,澄清工段还可以加入更多的工艺指标量进行分析,如滤清汁、粗糖浆等物性指标。还可以将制糖全过程生产数据进行基于层次分析的主成分分析,可有效解决主成分分析法指标构建的缺位问题和层次分析法指标权重的主观性问题[9]。
随着 SPSS统计软件及其它数据挖掘工具的普及,应用主成分分析法到制糖生产数据处理中越发快捷和方便。主成分分析及其结合控制图、回归分析、聚类分析等数据处理方式,将在制糖数据信息处理、生产过程控制与预测、工艺优化等方面的研究和应用发挥重要作用,为制糖生产过程评价提供数据支持。