冯立伟 孙立文 顾欢 李元
摘要:针对多维尺度变换(multidimensional scaling,MDS)方法对高维数据进行维数约简时,新样本缺少映射矩阵无法进行低维嵌入的问题,提出了增量式多维尺度变换(incremental multidimensional scaling,IMDS)方法。首先,引入双重局部近邻标准化(dual local nearest neighbor standardization,DLNS)技术以解决IMDS方法降维后数据仍然具有多中心、方差差异明显等问题;其次,采用Hotelling T统计量对过程进行监控,组成增量式多维尺度变换和双重局部近邻标准化的故障检测方法(IMDS-DLNS);最后,通过数值模拟过程和青霉素发酵过程,将IMDS-DLNS方法分别与PCA,KPCA和FD-KNN等方法作对比分析。结果表明,IMDS-DLNS对比其他方法有更高的故障檢测率。IMDS-DLNS方法对多变量、多模态过程具有良好的故障检测能力,能够保障产品质量和生产的安全性,可为工业过程故障检测研究提供参考。
关键词:自动控制技术其他学科;多模态;增量多维尺度变换;双重局部近邻标准化;故障检测
中图分类号:TP277文献标识码:A
DOI:10.7535/hbkd.2022yx03007
Industrial process fault detection based on IMDS-DLNS method
FENG Liwei SUN Liwen GU Huan LI Yuan
(1.College of Science,Shenyang University of Chemical Technology,Shenyang,Liaoning 110142,China;2.College of Computer Science and Technology,Shenyang University of Chemical Technology,Shenyang,Liaoning 110142,China;3.Key Laboratory of Intelligent Technology for Chemical Process Industry of Liaoning Province,Shenyang,Liaoning 110142,China)
Abstract:Aiming at the problem that when the multidimensional scaling (MDS) method is used to reduce the dimensionality of high-dimensional data,the new sample lacks the mapping matrix and cannot carry out low-dimensional embedding,an incremental multidimensional scaling (IMDS) method was proposed.Firstly,the dual local nearest neighbor standardization (DLNS) technology was introduced to solve the problem of data having multiple centers and obvious variance differences after IMDS dimensionality reduction.Secondly,Hotelling T statistics was used to monitor the process,and a fault detection method (IMDS-DLNS) with incremental multi-dimensional scale transformation and double local neighbor standardization was constructed.Finally,through numerical simulation of the process and penicillin fermentation process,the IMDS-DLNS method is compared with PCA,KPCA,FD-KNN and other methods,respectively.The results show that IMDS-DLNS has a higher fault detection rate compared to other methods.IMDS-DLNS method has good fault detection capabilities for multivariable and multimodal processes,and can guarantee product quality and production safety,which provides some reference for industrial process fault detection.
Keywords: other disciplines of automatic control technology;multi-modality;incremental multi-dimensional scale transformation;double local nearest neighbor standardization;fault detection
随着科技的高速发展,工业生产规模与复杂度也在日益提高,基于过程监控的检测与诊断技术在保证生产安全方面得到更多关注与重视。
基于数据驱动的过程监控中,主成分分析(principal component analysis,PCA) [1-2]和偏最小二乘 (partial least squares,PLS) [3-4]等方法已经得到广泛应用。许多学者针对此类方法展开了一系列深入研究。XIU等[5]通过引入稀疏项来降低过程噪声,在鲁棒主成分分析(RPCA)目标函数中集成超图拉普拉斯正则化技术,对PCA方法进行扩展,构建拉普拉斯正则鲁棒主成分分析(LRPCA)故障检测方法,并提出一种有效的乘法器交替方向算法对LRPCA进行优化,建立了局部收敛模型。赵帅等[6]采用贝叶斯推断的加权方法将过程变量和质量变量相融合,对包含质量变量信息的过程变量进行PCA建模,有效提高了故障检测率。但是当数据呈现多中心和疏密程度不同的形式时,此类方法在检测过程中显现出很大的弊端[7]。
为了解决多中心问題,HE等[8]提出k近邻方法(fault detection using the k nearest neighbor rule,FD-KNN),使用样本的近邻距离的累积和构造统计量进行故障检测。当各模态的离散程度不同时,FD-KNN将漏报部分微弱故障[9]。为解决这一问题,GUO等[10]提出了概率密度的KNN多模态故障检测方法,使用概率密度来确定新样本属于哪个模态,避免了低离散度模态的微弱故障被高离散度模态的正常数据淹没的问题。通过特征提取可以有效消除由于KNN存在多次计算高维样本间欧氏距离的高计算量问题。ZHANG等[11]考虑主成分分析真实得分和预估得分的差异性,提出了主成分差分的k近邻故障检测方法。该方法通过主成分提取特征,只考虑到样本的全局信息,忽略了内部结构。为了在提取样本的主要特征时保持内部结构,多维尺度变换 (multidimensional scaling,MDS) [12-14]被提出。它与PCA的区别在于PCA使用协方差矩阵作为输入,MDS使用距离矩阵作为输入,然而MDS对新样本的低维嵌入缺少映射矩阵,降低了投影效率。
为解决工业过程数据维度高、MDS新样本低维嵌入困难、多模态等问题,本文提出了一种基于增量式多维尺度变换和双重局部近邻标准化(incremental multidimensional scaling-dual local nearest neighbor standardization,IMDS-DLNS)故障检测方法。首先,采用IMDS在保持样本间欧氏距离近似不变的情况下提取数据的主要特征;其次,对特征数据进行双重近邻标准化处理使数据融为单模态,并使得变量近似服从多元高斯分布;最后,采用统计量T对过程进行监控。
1多维尺度变换
2基于增量式多维尺度变换的双重局部近邻故障检测策略(IMDS-DLNS)
为实现新样本在线投影,本文引入增量式技术将MDS改进为IMDS方法。使用DLNS对经IMDS投影后的数据进行融合操作,采用Hotelling统计量T对过程进行监控。
2.1增量式多维尺度变换
MDS方法是通过计算训练样本间的内积矩阵实现向低维空间的投影。但该方法只能将高维空间内全体样本视为整体向低维空间进行投影,缺少映射矩阵,导致对新样本无法进行直接投影。当对新样本点进行低维投影时,需要将新样本与已训练样本合在一起进行重新建模,显著增加了系统负担。故本节提出增量式多维尺度变换,实现对新样本的投影。
2.2双重局部近邻标准化
双重局部近邻标准化是通过寻找样本的2层近邻对样本进行标准化,是多模态中有效的数据处理策略,能够解决样本近邻跨越2个模态时的问题,并将多模态数据转换为单模态[15-16]。
2.3IMDS-DLNS方法
IMDS方法单独计算新样本的低维映射,避免了训练样本重复计算的问题。虽然该方法可以优化数据复杂度、减少计算量,但是多模态、方差不同的数据经过IMDS方法处理后,数据特征仍呈现多模态且方差不同,不满足统计量T的假设前提条件。因此,采用IMDS与DLNS方法相结合,消除模态间因方差不同产生的差异性,调整各模态数据的疏密度程度,为后续统计量的计算奠定良好的基础。本文采用霍特林[18]T统计量对过程进行监控,实现故障检测。
3实例模拟
本文采用一个方差差异显著的多模态数值模拟过程和青霉素发酵过程,以比较本文所提方法与PCA,KPCA,FD-KNN方法的检测结果,验证IMDS-DLNS的有效性。
3.1数值模拟过程
图2为上述4种方法检测对比图。PCA的检测结果如图2 a)所示,前800个表示训练数据分布情况,经过PCA处理后的数据仍然具有多模态特征,但是其统计量T要求数据服从单峰高斯分布,因此,故障点在主元空间内全未检测出。图2 b)为KPCA故障检测图,对多模态数据检测效果不佳。主要原因是KPCA的核映射并未将故障点与正常样本分离,处理后故障数据全部落入主元空间中。图2 c)为FD-KNN故障检测图,故障未被检测出。其主要原因为作为全局检测方法的FD-KNN,方差较大模态的样本分布决定了控制限。本节生成的阶跃故障数据是在密集模态引入,因此,故障皆处在控制限下方。图2 d)为IMDS-DLNS的故障检测图,多模态过程中的故障点均被有效检测出。IMDS提取了样本点之间的内部信息,DLNS方法弱化了2个模态间的差异性,从而使故障数据被有效检测。图3为IMDS-DLNS处理后的样本分布,从图中可以看出原始2个模态数据融合成一个单模态数据,数据服从单峰高斯分布。
3.2青霉素发酵过程
青霉素作为治疗敏感菌的首选抗生素药品,其发酵过程分为2个阶段[20-21]:
1)底物消耗(0~43 h),青霉菌開始繁殖生长,为后期青霉素产生做前期准备;
2)青霉素合成(44 h~结束),青霉菌开始合成青霉素,为促进产物生成,需要不断向容器内补充物料。
采用Pensim 仿真平台[22]进行发酵模拟,获得一批正常数据用于训练建模,其中反应时间设为400 h,采样时间设为0.5 h,其余参数使用系统默认值。
故障分为2种类型,即阶跃故障和斜坡故障,每种类型分别生成2组,其中故障f1:在10~40 h内,在通风率上引入-0.25%幅值的阶跃故障;故障f2:100~200 h,在变量通风率上引入0.05(L/h)幅值的斜坡故障;故障f3:在150~300 h内,对变量搅拌功率引入5%幅值的阶跃故障;故障f4:20~80 h内,在变量搅拌率上引入-1(W)幅值的斜坡故障。
青霉素过程共有18个变量,本文选择对过程具有重要影响的12个变量,作为监控变量,如表1所示。
为验证IMDS-DLNS方法处理后青霉素数据近似服从高斯分布,对每个变量绘制正态性检验分位数-分位数图(quantile-quantile plot,QQ图)。图4为第1个变量的QQ图,此时处理后数据的变量散点分布近似是一条直线,因此,该变量近似服从高斯分布。
表2为采用IMDS-DLNS,PCA,KPCA和FD-KNN方法对青霉素发酵过程进行故障检测的结果。表2中PCA和KPCA对故障f1,f2和f4的检测率较低。这是因为青霉素发酵过程为多模态过程,不符合统计量T的假设前提条件。故障f3偏离幅度大,故障点明显偏离正常样本,因此,PCA和KPCA能够有效检测出故障f3。FD-KNN对青霉素发酵过程中故障f3的检测率为100%,而其余故障的检测率较低。主要原因为青霉素发酵过程中的模态间疏密度不同,此时控制限由稀疏模态的数据所决定,因此,其他故障检测率低。
图5为IMDS-DLNS对f1批次的故障检测图。前800个数据为训练模型所用的正常数据,可看出IMDS-DLNS方法将多模态的青霉素数据处理为单模态数据,提取到青霉素数据的主要特征。因此,IMDS-DLNS方法能够检测出此过程中的大部分故障数据。
4结语
针对PCA,KPCA等传统方法对多模态过程进行故障检测时存在的故障漏报和正常数据误报的问题,提出了基于IMDS-DLNS的故障检测方法。理论分析和实验结果均表明,本文方法解决了MDS对新样本无法映射的问题,实现了对多中心和方差差异显著的多模态过程的故障检测,相较于传统方法具有更高的检测效率,对工业发展以及生产安全管理具有参考价值。
本文方法需要计算样本间的距离,当样本量变大时,算法的运行时间增加,监控成本升高。未来将对IMDS-DLNS方法进行优化以提高计算效率。
参考文献/References:
[1]CAO L J,CHUA K S,CHONG W K,et al.A comparison of PCA,KPCA and ICA for dimensionality reduction in support vector machine[J].Neurocomputing,2003,55(1/2):321-336.
[2]YUE H H,QIN S J.Reconstruction-based fault identification using a combined index[J].Industrial & Engineering Chemistry Research,2001,40(20):4403-4414.
[3]孔祥玉,李强,安秋生,等.基于偏最小二乘得分重构的质量相关故障检测[J].控制理论与应用,2020,37(11):2321-2332.KONG Xiangyu,LI Qiang,AN Qiusheng,et al.Quality-related fault detection based on the score reconstruction associated with partial least squares[J].Control Theory & Applications,2020,37(11):2321-2332.
[4]HENSELER J,RINGLE C M,SARSTEDT M.Testing measurement invariance of composites using partial least squares[J].International Marketing Review,2016,33(3):405-431.
[5]XIU X C,YANG Y,KONG L C,et al.Laplacian regularized robust principal component analysis for process monitoring[J].Journal of Process Control,2020,92:212-219.
[6]赵帅,宋冰,侍洪波.基于加权互信息主元分析算法的质量相关故障检测[J].化工学报,2018,69(3):962-973.ZHAO Shuai,SONG Bing,SHI Hongbo.Quality-related fault detection based on weighted mutual information principal component analysis[J].CIESC Jorunal,2018,69(3):962-973.
[7]邓佳伟,邓晓刚,曹玉苹,等.基于加权统计局部核主元分析的非线性化工过程微小故障诊断方法[J].化工学报,2019,70(7):2594-2605.DENG Jiawei,DENG Xiaogang,CAO Yuping,et al.Incipient fault diagnosis method of nonlinear chemical process based on weighted statistical local KPCA[J].CIESC Jorunal,2019,70(7):2594-2605.
[8]HE Q P,WANG J.Fault detection using the k-nearest neighbor rule for semiconductor manufacturing processes[J].IEEE Transactions on Semiconductor Manufacturing,2007,20(4):345-354.
[9]VERDIER G,FERREIRA A.Adaptive mahalanobis distance and k-nearest neighbor rule for fault detection in semiconductor manufacturing[J].IEEE Transactions on Semiconductor Manufacturing,2011,24(1):59-68.
[10]GUO J Y,WANG X,LI Y.kNN based on probability density for fault detection in multimodal processes[J].Journal of Chemometrics,2018,32(7).DOI:10.1002/cem.3021.
[11]ZHANG C,GUO Q X,LI Y.Fault detection in the Tennessee Eastman benchmark process using principal component difference based onk-nearest neighbors[J].IEEE Access,2020,8:49999-50009.
[12]SAEED N,NAM H,HAQ M I U,et al.A survey on multidimensional scaling[J].ACM Computing Surveys,2019,51(3):1-25.
[13]GOWER J C.Some distance properties of latent root and vector methods used in multivariate analysis[J].Biometrika,1966,53(3/4):325-338.
[14]COX F,COX M A A.Multidimensional scaling[J].Journal of the Royal Statistical Society:Series A(Statistics in Society),1996,159(1):184-185.
[15]馮立伟,张成,李元,等.基于改进的局部近邻标准化和kNN的多阶段过程故障检测[J].计算机应用,2018,38(7):2130-2135.FENG Liwei,ZHANG Cheng,LI Yuan,et al.Fault detection for multistage process based on improved local neighborhood standardization and kNN[J].Journal of Computer Applications,2018,38(7):2130-2135.
[16]MA H H,HU Y,SHI H B.A novel local neighborhood standardization strategy and its application in fault detection of multimode processes[J].Chemometrics and Intelligent Laboratory Systems,2012,118:287-300.
[17]马贺贺.基于数据驱动的复杂工业过程故障检测方法研究[D].上海:华东理工大学,2013.MA Hehe.Fault Detection of Complex Industrial Processes Based on Data-driven Methods[D].Shanghai:East China University of Science and Technology,2013.
[18]VALLE S,LI W H,QIN S J.Selection of thenumber of principal components:The variance of the reconstruction error criterion with a comparison to other methods[J].Industrial & Engineering Chemistry Research,1999,38(11):4389-4401.
[19]冯雄峰,阳宪惠,徐用懋.多元统计过程控制方法的平方预测误差分析[J].清华大学学报(自然科学版),1999,39(7):41-45.FENG Xiongfeng,YANG Xianhui,XU Yongmao.Squared prediction error analysis of multivariate statistical process control[J].Journal of Tsinghua University(Science and Technology),1999,39(7):41-45.
[20]ABBASI M A,KHAN A Q,MUSTAFA G,et al.Data-driven fault diagnostics for industrial processes:An application to penicillin fermentation process[J].IEEE Access,2021,9:65977-65987.
[21]ZHU J L,WANG Y Q,ZHOU D H,et al.Batch process modeling and monitoring with local outlier factor[J].IEEE Transactions on Control Systems Technology,2019,27(4):1552-1565.
[22]LIBOTTE G B,LOBATO F S,PLATT G M,et al.Robust multi-objective singular optimal control of penicillin fermentation process[J].Global Journal of Researches in Engineering,2020,20(3):1-9.