基于动态结构保持主元分析的故障检测方法

2013-07-07 15:39田学民蔡连芳
关键词:降维特征提取变量

张 妮,田学民,蔡连芳

(中国石油大学信息与控制工程学院,山东青岛 266580)

基于动态结构保持主元分析的故障检测方法

张 妮,田学民,蔡连芳

(中国石油大学信息与控制工程学院,山东青岛 266580)

为充分利用表征过程运行工况的数据特征信息,提高化工过程的故障检测性能,提出一种基于动态结构保持主元分析(DSPPCA)的过程故障检测方法。首先对原始数据采用变量相关性分析建立自回归模型,构建包含动态特征的数据集,进一步综合考虑主元分析法(PCA)和局部线性嵌入(LLE)流形学习算法中数据点之间的近邻关系,融合得出新的目标函数,同时,运用局部线性回归的方法获得高维样本的嵌入映射,特征提取后在特征空间和残差空间分别构造监控统计量进行故障检测。Swiss-roll数据集的降维结果及TE过程的仿真研究结果表明,DSPPCA算法可以取得较好的特征提取效果,具有较高的故障检测性能。

动态结构保持主元分析;流形学习;相关性分析;特征提取;故障检测

基于数据分析的故障诊断技术中对高维数据进行有效特征的提取成为学术界和工业界极为关注的问题。各种降维方法[1-6]如主元分析法(PCA)、典型变量分析法(CVA)等已经广泛地用于工业过程监控,得到特征空间和残差空间并分别构造监控统计量实施故障检测。近年来,流形学习的方法也用于故障检测[7-10]。为了更为全面地获取采集数据中隐含的特征信息,笔者采用相关性分析解决动态数据的自相关特性,进一步融合PCA和局部线性嵌入(LLE)流形学习方法提出一种基于动态结构保持主元分析(DSPPCA)的故障检测方法,在特征空间和残差空间分别构造监控统计量进行故障检测,并通过Swiss-roll数据和化工田纳西-伊斯曼(TE)过程数据进行仿真验证。

1 特征提取算法

1.1 局部线性嵌入法

LLE是一种基于流形学习的非线性特征提取方法,观测空间中的每一个点可以近似由其局部邻域中的点加权平均表示,重建流形结构时,低维空间中的该点由同样大小的权值和近邻点进行加权表示[11]。

设高维数据集X=(x1,x2,…,xn),xi∈Rm,降维之后的低维坐标为Y=(y1,y2,…,yn),yi∈Rd。在高维空间中,算法通过下式计算基于最小重构误差的最优权值矩阵W:

添加一个低维坐标约束YYT=I,低维空间输出值通过保持高维样本点的局部重建权值矩阵和近邻点进一步计算得出。

可以看出,LLE算法从数据之间的近邻关系和区域近邻点局部线性的角度出发,使得数据之间的近邻结构在降维后得以保持,然而该算法没有考虑数据整体结构信息,从而可能出现在降维投影后低维空间的整体结构特征未能进一步与高维空间保持一致。

1.2 主元分析法

PCA算法通过正交变换将高维数据投影到低维空间,获得不相关的降维输出,解决了变量之间的线性相关问题,提取了数据变化的主要特征。

PCA算法的目标函数可以写为

PCA算法最优地保持了变量空间全局方差信息的变化,按获取数据的变化度来说是最优的。然而,与LLE算法相似,PCA未能考虑数据近邻点之间的局部结构信息的保持,可能造成数据部分结构信息的丢失。

1.3 结构保持的特征提取算法

兼顾数据近邻局部结构信息和全局信息变化的保持,将PCA和LLE算法的优化函数进行融合,转化为一个最大化目标函数的求解问题。构造约束条件下新的目标函数为

其中,Q=αI-(1-α)M,α为比例参数,控制着两种结构保持算法的比例。利用拉格朗日乘数法,上述优化问题可以转化为下列特征方程的求解,即

设y0,y1,…,yd-1是矩阵特征值分解后最大的d个特征值对应的特征向量,低维空间的d个正交向量等价于计算矩阵Q的d个最大的特征值对应的特征向量,从而,数据X的全局低维坐标可以表示为: Y=((y0)T,(y1)T,…,(yd-1)T)。

1.4 输入输出数据集映射

结构保持主元分析(SPPCA)算法仅建立了点对点之间的映射关系,无法推广到独立于训练集的数据。从而,如何获得原始空间到降维空间的映射关系是流形学习算法需要解决的关键问题。基于潜在流形局部线性的假设,建立线性投影来近似高维数据空间到低维嵌入空间的映射关系,在最小二乘意义下求取映射矩阵A:

其中,A=[a1,a2,…,ad]∈Rm×d。每一个基向量a1,a2,…,ad通过求解线性最小二乘回归获得

在矩阵X满秩时,投影基向量aj(j=1,2,…,d)的求解可以根据下式得出:

2 基于DSPPCA的故障检测算法

2.1 加权动态多变量自回归模型

数据的动态性在化工过程是普遍存在的,Ku提出动态过程监控处理方法[12],考虑滞后阶次的影响采用时滞增广矩阵将数据扩展成如下形式:

然而在实际应用中,数据维数较高、规模较大时,增广矩阵的出现造成了庞大的计算量,造成建模时间的显著增加,为了克服原有数据处理的盲目性,充分考虑数据动态性的事实,引入变量相关性分析来考虑每个变量的时间序列相关性。

设X(t)=[x1(t)x2(t)…xm(t)]∈Rn×m为原采样数据,变量的自相关系数计算如下:

其中,b为滞后步长,矩阵扩展后样本数据减少到nb;X′(t)为加权之后的采样矩阵;t为采样时刻;ρ为变量的相关系数。根据求出的自相关系数,对变量的时间序列实现了自适应递归,使得过程数据的动态信息得以完整保留,更加有利于故障检测的实施。

2.2 故障检测步骤

运用SPPCA算法降维得到主特征空间和残差空间,算法性能监控统计量的确定类似于PCA算法中两监控统计量的确定方法,在降维子空间以及残差空间分别构造监控统计量。本文中采用T2统计量监控降维子空间内部的波动,

其中,Λ为样本的协方差矩阵。

平方预测误差(SPE)也称为Q统计量,用于测量残差空间的信息变化,该统计量计算式如下:

(1)对正常工况数据进行离线建模。运用变量的均值和方差将正常工况训练数据进行标准化处理后,对数据建立自回归统计模型,之后运用SPPCA算法降维获得输出并进一步求取输入输出数据之间的近似投影关系,在残差空间和降维子流形空间分别构造监控统计量实施监控,通过核密度估计分别获得两监控统计量的控制限。

(2)对实时采集数据进行在线监控。采集新的过程观测数据并根据离线正常工况数据进行归一化处理,基于离线模型求取的投影映射进行特征提取,随后分别计算测试数据的监控统计量,如果统计量超出控制限,则表明监控过程可能有故障发生。

3 实例仿真

3.1 Swiss-roll数值仿真

图1 Swiss-roll数据集及不同方法的降维投影结果Fig.1 Swiss-roll data sets and projection results of different methods

Swiss-roll数据是人工合成的数据集,已经被广泛地用来比较不同算法的降维效果[13]。在Swiss-roll的3维曲面上随机采集2000个数据点,运用文中降维算法提取该3维数据的内在特征,对算法性能进行比较验证。结果见图1。对SPPCA及DSSPCA算法,文中交叉验证得到参数α取值为0.60。从3维Swiss-roll数据降维的结果可以看出,采用PCA降维方法无法提供好的降维效果,而SPPCA以及DSSPCA方法皆可以在降维的同时较好地保存原有数据的几何结构特征,从而可以采用DSPPCA方法进行降维特征提取后进一步建立故障检测模型。

3.2田纳西伊斯曼过程

3.2.1 过程简介

田纳西-伊斯曼(TE)过程多年来一直被广泛用于验证各种过程控制以及故障诊断方法[14]。TE过程由连续搅拌式反应釜、分凝器、气液分离塔、汽提塔、再沸器等多个操作单元组成,过程机制复杂,变量具有非线性、强耦合等显著特点,是一个典型的复杂工业过程。TE过程共有41个测量变量和12个操控变量,并人为地设定了21种故障工况[1]。样本的采样间隔为3 min,过程仿真运行时间为48 h,以正常工况的960个样本点作为训练集,采集不同故障的960个样本点作为测试集,其中故障在过程运行8 h之后加入。

3.2.2 仿真结果分析

在离线建模阶段,根据采集的960个正常数据分别建立PCA、SPPCA以及DSPPCA的统计分析模型来比较相应的故障检测性能。嵌入空间维数通过方差累积贡献率法获取,根据85%的方差累积贡献率确定主元个数。故障检测统计量的阈值均设为95%的控制限,同时,故障检测时刻定义为连续3个样本点超过其控制限。

参数α取值决定了数据非线性特征提取的差异,为了分析α对故障特征提取以及故障检测性能的影响,对其进行一定范围的取值比较。故障4涉及反应器冷却水入口温度的一个阶跃变化,在故障发生后,其他50个测量变量和控制变量仍然保持稳定。故障4与正常运行条件下相比,每个变量的均值和标准差的变化很小,特征提取的任务更加具有挑战性。图2所示为α取值与T2检测率的多次统计关系,由仿真结果可知,α取0.85可以取得较好的故障检测效果。

同样以TE过程故障4为例,基于PCA、SPPCA以及DSSPCA3种方法的T2和Q统计量对于故障4的灵敏程度可以分别在图3中进行检验,定量的故障检测结果在后续的列表中给出。在PCA的监控图中,运用Q统计量的故障检测时刻为161,自故障发生时刻便可以一直明显地检测到超过阈值。其T2统计量的故障检测相对较为滞后,在189个采样点检测到故障发生,虽可以检测到故障但是却不具有统计量检测的持续性。基于SPPCA的故障检测方法中,T2统计量可以一直有效地检测到异常发生,然而其Q监控量却具有一定的漏检率。而DSSPCA方法的两个监控统计量T2和Q皆在故障发生的初期检测到故障,其故障检测时刻分别为161和162,检测效果有了明显的改善。另一方面, DSSPCA方法的Q统计量在大幅值超出阈值方面的表现优于SPPCA的Q统计量,这进一步表明,考虑自变量动态序列相关性实施故障检测是有效的。

图2 α对T2统计量检测性能的影响(f4)Fig.2 Fault detection performance of T2with different α value(f4)

图3 故障4的监控图比较Fig.3 Comparison of monitoring charts(f4)

故障10不是幅值较大的阶跃变化,故障检测的实施有一定的困难,由图4可以看出,PCA方法的T2监控统计量的故障检测时刻为205,采用结构保持主元提取技术后,基于SPPCA方法的T2统计量在第182个采样时刻检测到故障,进一步考虑过程变量的时序动态特性,基于DSSPCA的相应T2统计量可以在第179个采样时刻发现故障,反应较为灵敏。进一步比较3种算法对该故障的检测率,即故障发生后超出阈值的样本数目与实际故障样本总和的比值,3种方法PCA、SPPCA以及DSSPCA的Q统计量的故障检测率分别为62.38%、56.63%和62.88%,3种方法相应的T2统计量故障检测率分别为24.75%、93.75%和96.13%,由此亦可看出考虑变量自相关的特征提取算法能更为有效地检测出故障。

图4 监控图比较(f10)Fig.4 Comparison of monitoring charts(f10)

表1为3种故障检测方法在TE过程21种不同故障发生时的故障检出率。由表可以看出,对于故障(3)、(9)、(15),如同其他数据驱动的故障检测方法, 3种方法皆无法提供较好的监控效果。对于故障(4)、(5)、(10)、(11)、(16)、(17)、(19),DSPPCA方法明显地改善了故障检测效果,监控性能大大提高。虽然DSPPCA的故障检测率有略低于其他方法的情况,但并不影响其对大部分故障与正常样本之间差异性的捕捉。从而进一步说明,DSPPCA方法能够综合考虑数据样本结构特征的提取,使得数据的特征信息得以充分的利用,建立的监控模型可以更为精确地描述过程运行工况,从而不仅在缩短故障检测的延迟时刻而且在提高故障检测率方面相对原有的PCA方法有了一定的改善和提高。

表1 不同方法的故障检测率Table 1 Comparison of fault detection rate by different methods

与表1类似,表2所示为3种方法在TE过程不同类型代表性故障发生时的故障检出样本序号。由表2可见,DSPPCA方法能够明显地缩短故障检测的延迟时间,故障检测的灵敏度较高。这进一步可以说明,基于DSPPCA的故障检测方法可以更为有效地获取故障特征,得到更为全面的数据特征信息,从而可以在一定程度上缩短故障检出的延迟时间。

表2 不同方法的故障检测时刻Table 2 Comparison of fault detection timeby different methods

4 结束语

提出了一种基于DSPPCA的化工过程故障检测方法,该方法首先考虑变量自身的序列相关性建立多变量自回归统计模型,随后运用LLE算法局部结构保持的优势,融合传统的PCA和LLE算法,在PCA全局特征提取的同时保存数据点之间的局部近邻关系,同时,运用局部线性回归的方法逼近高维采样点与其对应低维嵌入的映射关系,最后在嵌入空间构造合理的监控统计量实施故障检测。运用Swiss-roll数据、TE过程的正常工况以及不同故障工况数据进一步验证算法,结果表明,相对于原有的PCA方法,提出的方法可以更为有效地获取高维数据的结构特征,故障检测的灵敏性较高,缩短故障检测时间的同时其相应的故障检测率有了一定程度的提高,可以更为有效地改善故障检测系统的性能。

[1] RUSSELL L H,BRAATZ R D.Fault detection and diagnosis in industrial system[M].London:Springer Verlag Press,2001:31-94.

[2] LEE J M,YOO C K,CHOI S W,et al.Nonlinear process monitoring using kernel principal component analysis[J].Chemical Engineering Science,2004,59 (1):223-224.

[3] YIN S,DING S X,HAGHANI A,et al.A comparison study of basic data-driven fault diagnosis and process monitoring mehods on the benchmark Tennessee Eastman process[J].Journal of Process Control,2012,12(9): 1567-1581.

[4] 邓晓刚,田学民.生产过程故障诊断方法研究现状及展望[J].石油大学学报:自然科学版,2005,29(6): 157-163.

DENG Xiao-gang,TIAN Xue-min.Present situation and prospect of process fault diagnosis technique[J].Journal of the University of Petroleum,China(Edition of Natural Science),2005,29(6):157-163.

[5] ODIOWEI P P,CAO Y.State-space independent component analysis for nonlinear dynamic process monitoring [J].Chemometrics and Intelligent Laboratory Systems, 2010,103(1):59-65.

[6] 邓晓刚,田学民.基于动态独立成分的单类支持向量机方法及其在故障诊断中的应用[J].中国石油大学学报:自然科学版,2012,36(3):187-191.

DENG Xiao-gang,TIAN Xue-min.One-class support vector machine based on dynamic independentcomponent and its application to fault diagnosis[J].Journal of China University of Petroleum(Edition of Natural Science), 2012,36(3):187-191.

[7] SHAO Ji-dong,RONG Gang.Nonlinear process monitoring based on maximum variance unfolding projection [J].Expert Systems with Applications,2009,36(8): 11332-11340.

[8] ZHANG Mu-guang,GE Zhi-qiang,SONG Zhi-huan,et al.Global local structure analysis model and its application for fault detection and identification[J].Industrial &Engineering Chemistry Research,2011,50(11):6837-6848.

[9] 张妮,田学民.基于等距离映射的非线性动态故障检测方法[J].上海交通大学学报,2011,45(8):1202-1206.

ZHANG Ni,TIAN Xue-min.Nonlinear dynamic fault detection method based on isometric mapping[J].Journal of Shanghai Jiaotong University,2011,45(8):1202-1206.

[10] LI Ben-wei,ZHANG Yun.Supervised locally linear embedding projection(SLLEP)for machinery fault diagnosis[J].Mechanical Systems and Signal Processing, 2011,25(8):3125-3134.

[11] 曾宪华.流形学习的谱方法相关问题研究[D].北京:北京交通大学,2009.

ZENG Xian-hua.Study on several issues of spectral method for manifold learning[D].Beijing:Beijing Jiaotong University,2009.

[12] KU W,STORER R H,GERGAKIS C.Disturbance detection and isolation by dynamic principal component analysis[J].Chemometrics and Intelligent Laboratory Systems,1995,30(1):179-196.

[13] SAUL L K,ROWEIS S T.Think globally,fit locally: unsupervised learning of low dimensional manifolds[J]. The Journal of Machine Learning Research,2003,4 (4):119-155.

[14] DOWNS J J,VOGEL E F.A plant-wide industrial process control problem[J].Computers and Chemical Engineering,1993,17(3):245-255.

(编辑 修荣荣)

Fault detection method based on dynamic structure preservation principal component analysis

ZHANG Ni,TIAN Xue-min,CAI Lian-fang
(College of Information and Control Engineering in China University of Petroleum,Qingdao 266580,China)

In order to make full use of the feature information of data in the chemical process,a fault detection method based on dynamic structure preservation principal component analysis was proposed to improve the performance and efficiency for fault detection.It firstly established auto-regression model through correlation analysis so that the dynamic feature sets could be obtained to characterize the original data.Furtherly,principal component analysis and locally linear embedding were fused together to obtain a new objective function.Besides,locally linear embedding algorithm could preserve the neighbor relationship between data collected.At the same time,local linear regression was used to find the projection that best approximated the mapping from high-dimensional samples to the embedding for on-line application furtherly.Statistics were constructed in the two spaces for process monitoring after feature extraction respectively.Simulation results of Tennessee Eastman process and Swiss-roll data show that DSPPCA-based method is more effective for feature extraction and process monitoring.

dynamic structure preservation principal component analysis;manifold learning;correlation analysis;feature extraction;fault detection

TP 277

A

1673-5005(2013)02-0170-06

10.3969/j.issn.1673-5005.2013.02.028

2012-04-17

国家自然科学基金项目(61273160);山东省自科学基金项目(ZR2011FM014);中央高校基本科研业务费专项(12CX06071A; 10CX04046A);山东省优秀中青年科学家科研奖励基金项目(BS2012ZZ011)

张妮(1983-),女,博士研究生,研究方向为化工过程故障检测与诊断。E-mail:117zhangni@163.com。

猜你喜欢
降维特征提取变量
混动成为降维打击的实力 东风风神皓极
抓住不变量解题
也谈分离变量
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
降维打击
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
基于Daubechies(dbN)的飞行器音频特征提取
一种改进的稀疏保持投影算法在高光谱数据降维中的应用