基于LPP-kNN方法的间歇过程故障监视

2017-10-18 09:42郭小萍
沈阳化工大学学报 2017年3期
关键词:降维模态标准化

郭小萍, 李 婷, 李 元

(沈阳化工大学 信息工程学院, 辽宁 沈阳 110142)

基于LPP-kNN方法的间歇过程故障监视

郭小萍, 李 婷, 李 元

(沈阳化工大学 信息工程学院, 辽宁 沈阳 110142)

针对批次过程数据具有高维、非线性及多模态等特性,提出一种自适应LPP-kNN的过程监视方法.利用局部保持映射算法(LPP)提取高维多模态批次数据的自适应变换矩阵构成新的建模数据.采用局部近邻标准化方法(LNS)进行标准化,并利用kNN算法构造统计监测指标.最后,通过在半导体工业实例中的应用验证了所提算法的有效性.

过程监视; 间歇过程;k近邻; 局部保持映射; 局部近邻标准化

随着现代社会对多品种、多规格和高质量产品更迫切的市场需求,工业生产更加倚重于生产小批量、高附加值产品的间歇过程,间歇过程的性能监视与故障诊断技术正日益受到工业界和学术界的关注和重视.间歇生产过程通常具有高维、多模态、非线性等特点[1-2].针对高维数据的降维,主元素分析(PCA:Principal component analysis)方法是一种广泛应用的线性降维方法,具有局部最优特点,但会破坏数据之间的拓扑结构.近年来,局部保持映射(LPP)方法被广泛应用于数据降维[3-5],它既能保持原始数据的拓扑结构,又能通过计算数据的k近邻达到全局最优,在文本检索、人脸识别、图像分类等领域得到了广泛应用.针对数据标准化问题,常用的Z-score方法是在假设原始数据符合单中心正态分布前提下进行的操作,然而在实际工业生产中获得的数据往往不符合这个假设,对具有多模态特性的间歇过程数据的标准化效果更加不理想.局部近邻标准化(LNS)方法[6-7]能够利用采样点近邻样本的均值和标准差进行标准化,克服数据的多模态性.针对批次数据的非线性特点,很多学者进行了研究.核主元分析方法(Kernel Principal Component Analysis)是常用的一种非线性分析方法[8].支持向量数据描述方法(Support Vector Data Description)是由Tax D M J等[9]提出的进行非线性数据映射的分析方法.这些方法都使用了核函数将低维的非线性数据映射到高维的线性空间中,然而核宽度的选取目前还没有公认有效的方法,这限制了这些算法在更大范围的应用.基于近邻思维的kNN算法[10-11]比较有效地实现了复杂批次过程故障检测.

本文利用LNS和LPP的优点,与kNN检测方法相结合提出了基于LPP-kNN的批次过程故障检测方法.针对每一批次数据,采用LPP降维,获得变换矩阵,构成新的建模样本集;按批次方向展开并利用LNS进行标准化;采用kNN方法构建故障检测指标.最后通过半导体工业实例验证了算法有效性.

1 基本方法

1.1 局部保持映射(LPP)方法

给定一个数据矩阵X=[x1,x2,…,xm],X∈Rm×n,m为特征向量个数,用LPP算法找到一个变换矩阵A,得到的降维后的数据矩阵Y=[y1,y2,…,ym],Y∈Rm×I,其中l≪n.用yi表示xi,yi=ATxi,A=[a0,a1,…,al-1].

具体步骤如下[3]:

定义一个相似矩阵S

(1)

其中Nxi;xj表示xi为xj的k近邻或者xj为xi的k近邻.

定义代价函数J(y)

(2)

其中:yi和yj是近邻点xi和xj的输出;Sij为近邻点xi和xj的近邻情况.映射过程必须使此代价函数值最小.该函数的意义在于当所有特征向量映射为低维空间中的特征时,必须保证降维后的特征yi和yj保持原有特征向量的拓扑结构,即xi和xj的距离足够近,则yi和yj之间的距离也必须足够近.

令yi=aTxi,则式(2)为

J(a)=aTX(D-S)XTa

(3)

yTDy=1⟹aTXDXTa=1

(4)

则上述最小化问题转化为在约束条件aTXDXTa=1下,求解下述问题:

(5)

其中L=D-S,约束条件yTDy=1去除了尺度因素对映射过程的影响,应用拉格朗日乘子法对式(5)进行求解,得到方程:

ζ=aTXLXTa-λaTXDXTa

(6)

对方程两边求导,并令导数为零,得到方程:

XLXTa=λXDXTa

(7)

函数最小化问题转化为矩阵特征值求解问题,满足式(7)的特征向量aii=0,1,…,l-1即是使代价函数取得最小值时的投影向量,它组成的矩阵A即为降维的变换矩阵,即Y=XA.

1.2 LNS数据标准化方法

在数据标准化过程中,最常用的方法是Z-score标准化.这种方法基于原始数据的均值和标准差进行数据的标准化.将X的原始值x使用Z-score 标准化到x′.Z-score标准化方法适用于属性X的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况.其公式为:

新数据=(原数据-均值)/标准差

但对于多模态数据,一般的Z-score标准化方法不能克服数据的多模态特性.本文利用LNS的标准化方法,在克服数据多模态特性的条件下进行标准化,它与Z-score标准化方法的最大不同在于:每个采样点都利用它近邻样本的k近邻均值和标准差进行标准化.LNS标准化方法提高了多模态数据检测数据预处理的准确性和一致性.

(8)

(9)

对于每一个采样点,它的k个近邻来自训练数据中的其他采样,因此xi的标准化方法如下:

(10)

2 基于LPP-kNN的故障监视方法

2.1 建立监测模型

基本步骤如图1所示.

(1) 采集正常工况批次数据,进行数据等长化处理,得到标准的三维数据表示为X(m×n×k),其中,m表示间歇操作次数、n表示过程变量个数、k表示每一次间歇操作的采样时刻数.

图1 建模流程

2.2 过程监视

过程监视步骤如图2所示.

(1) 对于新来的一批待检测样本Xi(n×k),先将其按批次展开成1×(n×k);同时将数据预处理后的建模样本(m×n×k)也按批次展开成m×(n×k),在m个批次中寻找与展开后待检测样本欧氏距离最近的N个近邻建模批次.

(2) 计算N个近邻建模批次的均值,并将该均值变换为(n×k)的二维矩阵,用LPP方法求该二维矩阵的变换矩阵A(k×l),并用该变换矩阵对待测样本Xi(n×k)进行降维;降维后的待测批次数据为Yi=XiA,其中Yi为n×l.

(3) 将Yi按照批次展开,用降维并展开的建模数据中与其最近的批次数据的近邻均值和标准差进行局部近邻标准化.

图2 过程监视流程

3 半导体工业仿真实例

运用半导体工业过程数据验证所提LPP-kNN算法的有效性.该工业数据来源于在Lam 9600上进行的半导体铝蚀反应[10-12].包含108批次的正常数据和21批次的故障数据,因为有2个批次的数据存在大量丢失的情况,最后采用107批次的正常数据和20批次的故障数据.在107个正常批次数据中,95批次用来建模,12批次用来验证建模的准确性.最终验证20批次的故障数据能否及时准确地检测出来[12].

在LPP-kNN算法应用之前,将原始数据进行预处理.首先,从21个中选出17个变量进行建模和检测;使用最短长度法对不同采样时刻的各个批次进行等长化处理,将所有批次都处理成85个采样时刻,并认为截去的部分不包含数据的重要信息.最后组成(95×17×85)的三向建模数据,分别对每一批建模数据进行LPP降维,之后将降维后的数据按批次展开.该过程如图3所示.

图3 建模数据的预处理过程

对按批次展开的二维数据进行LNS标准化,再应用kNN算法进行检测.与此同时,本论文还将原始半导体数据应用于多种算法并与LPP-kNN算法进行比较.这些算法包括:①只经过Z-score标准化方法的简单kNN算法;②不经过标准化的LPP-kNN算法;③经过Z-score标准化的LPP-kNN算法;④本文提出的基于LNS标准化的LPP-kNN算法.实验结果如图4所示.从图4可看出:本文提出的LNS标准化的LPP-kNN方法能够将20个故障批次数据全部检测出来.然而,方法①检测出16个,方法③检测出了19个.通过对比方法①和方法③的结果可以看出:LPP降维方法不仅能够在保持数据多模态特性的条件下减小计算量,还能够提高故障检测效率;对比方法②③④可以看出:LNS标准化方法能够克服多模态特性,使检测结果更精确.

图4 基于不同方法的故障检测结果

4 结 论

本文提出一种基于LNS标准化和LPP降维的LPP-kNN算法,将kNN算法与LNS和LPP的优点相结合.该方法克服了多模态特性,在保持数据拓扑结构的条件下,用自适应的变换矩阵对待测数据进行数据降维,减小了计算量;同时在离线监测中,所提算法比普通标准化和kNN算法相结合的效果好.半导体工业过程监视结果验证了所提方法在故障检测中的突出优越性.

[1] 王姝.基于数据的间歇过程故障诊断及预测方法研究[D].沈阳:东北大学,2010.

[2] 陈勇.基于多元统计分析的生产过程故障诊断研究[D].杭州:浙江大学,2003.

[3] HE X F.Locality Preserving Projections[D].Chicago:The University of Chicago,2005.

[4] ZHENG X,CAI D,HE X F,et al Locality Preserving Clustering for Image Database[C]//Proceedings of the 12thAnnual ACM International Conference on Multimedia.New York:[s.n.],2004:885-891.

[5] 陈绵书,付潍坊,宋瑜,等.基于自适应局部保持映射的图像特征降维算法[J].吉林大学学报(信息科学版),2008,26(5):494-498.

[6] MA H H,HU Y,SHI H B.A Novel Local Neighborhood Standardization Strategy and Its Application in Fault Detection of Multimode Processes[J].Chemometrics and Intelligent Laboratory Systems,2012,118:287-300.

[7] TONG C D,PALAZOGLU A,YAN X F.An Adaptive Multimode Process Monitoring Strategy Based on Mode Clustering and Mode Unfolding[J].Journal of Process Control,2013,23(10):1497-1507.

[8] SCHÖLKOPF B,SMOLA A,MÜLLER K R.Nolinear Component Analysis as a Kernel Eigenvalue Problem[J].Neural Computation,1998,10(5):1299-1319.

[9] TAX D M J,DUIN R P W.Support Vector Domain Description[J].Pattern Recognition Letters,1999,20(11):1191-1199.

[10] HE Q P,WANG J.Fault Detection Using thek-nearest Neighbor Rule for Semiconductor Manufacturing Processes[J].IEEE Transactions on Semiconductor Manufacturing,2007,20(4):345-354.

[11] 郭小萍,袁杰,李元.基于特征空间k最近邻的批次过程监视[J].自动化学报,2014,40(1):135-142.

[12] Eigenvector Research Incorporated.Metal Etch Data for Fault Detection Evaluation[EB/OL].1999-05-24.http://software.eigenvector.com/Data/Etch/index.html.

Abstract: In order to address the high dimensionality and multiple conditions of batch process data,a method of LPP-kNN is proposed in this article.Firstly,this method is based on locality preserving projection(LPP) which can extract adaptive transformation matrix of the Vidor High modal batch data to form a new modeling data.Then,standardization of local neighborhood(LNS) is processed to overcome the data character of multiple conditions.Meanwhile,k-nearest neighbor(kNN) is applied for fault detection with constructing statistical indicators.Finally,a variety of improvedkNN algorithms are applied in semiconductor industry examples and the effectiveness of the proposed method has been verified by comparing.

Keywords: process monitoring; batch process;k-nearest neighbor(kNN); locality preseving projection(LPP); standardization of local neighborhood(LNS)

BatchProcessFaultMonitoringBasedonLPP-kNNMethod

GUO Xiao-ping, LI Ting, LI Yuan

(Shenyang University of Chemical and Technology, Shenyang 110142, China)

10.3969/j.issn.2095-2198.2017.03.014

TP277

A

2016-03-01

国家自然科学基金面上项目(60774070,61174119);辽宁省教育厅科学研究一般项目(L2013155);辽宁省博士启动基金项目(20131089)

郭小萍(1972-),女,山西大同人,副教授,博士,主要从事数据驱动的复杂过程故障检测的研究.

2095-2198(2017)03-0261-05

猜你喜欢
降维模态标准化
基于BERT-VGG16的多模态情感分析模型
混动成为降维打击的实力 东风风神皓极
标准化简述
降维打击
标准化是综合交通运输的保障——解读《交通运输标准化体系》
车辆CAE分析中自由模态和约束模态的应用与对比
一种改进的稀疏保持投影算法在高光谱数据降维中的应用
国内多模态教学研究回顾与展望
论汽车维修诊断标准化(上)
基于特征联合和偏最小二乘降维的手势识别