基于动态独立成分的单类支持向量机方法及其在故障诊断中的应用

2012-01-03 09:51:14邓晓刚田学民
关键词:超平面阈值动态

邓晓刚,田学民

(中国石油大学信息与控制工程学院,山东青岛 266580)

基于动态独立成分的单类支持向量机方法及其在故障诊断中的应用

邓晓刚,田学民

(中国石油大学信息与控制工程学院,山东青岛 266580)

针对工业过程故障诊断中数据的动态性、非高斯性和非线性特点,提出一种基于动态独立成分的单类支持向量机(OCSVM)方法。为了分析数据的动态特性和非高斯性,应用动态独立成分分析(DICA)方法提取数据变量中的动态独立成分作为特征信息,基于特征信息建立OCSVM模型并构造非线性监控统计量。检测到故障后,计算故障数据与故障模式数据决策超平面的相似度,通过相似度分析识别故障模式。在Tennessee Eastman基准过程上的仿真结果表明,提出的方法能够比单类支持向量机更有效地检测过程故障,并且能够正确识别故障模式。

单类支持向量机;动态独立成分分析;故障检测;故障识别

近年来,基于数据驱动的故障诊断方法正在成为工业过程控制领域的研究热点[1]。目前研究较多的数据驱动方法有主元分析(principal component analysis,PCA)、独立成分分析(independent component analysis,ICA)和支持向量机(support vector machine,SVM)等方法[1-5],其中SVM由于其建模的稀疏性和良好的分类能力引起了广泛关注。单类支持向量机(one-class SVM,OCSVM)是最近提出的一种SVM故障诊断方法[6],该方法只需要一类训练数据即可完成算法的学习过程,相比于传统的SVM方法更为简单实用。目前OCSVM故障诊断方法刚刚引入故障诊断领域中,还存在很多问题值得研究。问题之一是OCSVM方法基于原始测量数据建立统计模型,没有充分挖掘利用数据中的特征信息;另外一个问题是OCSVM方法侧重于如何检测故障,对于如何诊断故障的模式缺乏深入的研究。针对上述问题,笔者提出一种基于动态独立成分(dynamic independent component,DIC)的OCSVM方法DIC-OCS-VM,使用动态独立成分分析方法提取数据中的动态和非高斯特征信息,并通过分析待识别故障数据与故障模式数据决策超平面的相似度诊断故障类型。

1 OCSVM方法

OCSVM是由Scholkopf等提出的一种无监督学习算法[7],主要用于数据集的异常点检测和概率密度估计[8-9]。设给定的训练数据集X=[x1;x2;…; xn]∈Rn×m,包含m个变量的n个样本。OCSVM在数据空间中构造分类超平面F(x)=<w,x>-ρ=0把训练数据集与原点分开,且使得该分类超平面与原点的距离最大。OCSVM描述的优化问题如下:

式中,w、ρ为分类超平面的参数向量。

实际上,OCSVM是将训练样本集视为正类样本,原点作为负类样本,分类超平面将数据空间分成正负两个超半球,最优分类超平面使得包含训练数据的正半球体积最小[9]。在异常点检测的过程中,函数f(x)的目的在于决策数据点是否属于异常数据,本文中将其称为决策超平面。

如果数据中存在非线性关系,则需要假设非线性映射φ:x→φ(x)将数据从原始的非线性空间映射到线性特征空间。在线性特征空间中,进一步引入松弛变量ξi和误差限v,得到如下优化问题[10]:

其中误差限v用于控制训练过程中异常点占总样本数目的上界。

求解上述优化问题,需要建立拉格朗日函数:

上述分析过程中采用了非线性映射,而该非线性映射一般是未知的。由核函数理论,非线性映射后特征空间中两个向量的内积用原始空间中的核函数表示为

现有的核函数包括多项式核函数、RBF核函数、sigmoid核函数等,本文采用RBF核函数。

结合式(3)~(7)可得到优化问题的对偶形式

式(8)描述的问题是一个标准的二次规划问题,解出αi、ρ即可得到特征空间中的决策超平面。特征空间中的决策超平面映射到原始数据空间中,对应一个超球面[9]。

2 DIC-OCSVM方法

工业过程采集的数据中往往存在较强的动态信息和非高斯信息,因此进行数据特征提取后再应用OCSVM会具有更好的过程监控效果。结合动态独立成分分析(DICA)技术,建立基于动态独立成分的OCSVM方法DIC-OCSVM方法。

2.1 基于DICA的特征提取

ICA是近年来提出的一种新的信号处理方法,能够有效地分析非高斯信号,提取互相独立的源变量。传统ICA方法没有考虑数据之间的时序相关性,即数据的动态特性,本文在进行ICA之前,首先对测量变量x进行增广化处理[x(t)x(t-1)…x(t-d)],其中d为最大时延步数。扩展后的测量变量不但包含当前t时刻的测量变量,而且包括t时刻以前的测量变量。此时的测量数据矩阵为动态矩阵,即

该矩阵包含了变量自身的动态时序信息[11-12],对式(9)中的矩阵应用ICA方法,即形成动态ICA(DICA)方法。

ICA认为数据矩阵X由若干个独立成分变量混合而成:

式中,A表示混合参数构成的矩阵;S表示独立成分变量s构成的数据矩阵。

ICA根据已有的测量矩阵X,寻找一个解混矩阵B来对S进行估计:

使得其估计结果^S中的变量尽可能地独立。

ICA中求解矩阵B的算法有多种,如非高斯性测量、互信息最小化、极大似然估计等方法。本文采用Hyvarinen和Oja提出的负熵最大化算法[13]。

ICA估计出的独立成分变量s分为两部分:一部分反映了数据的主要信息,构成独立成分子空间sd;另一部分反映了剩余的数据信息,构成残差子空间se。两个子空间均可反映过程特性的变化,分别对其监控可以及时发现故障。

2.2 故障检测统计量的构造

如果直接对原始测量数据应用OCSVM方法,需要建立决策函数Dx判断是否发生故障。Dx是负的决策超平面函数:

当新的数据点与训练数据不同时,属于异常点(即故障点),此时Dx应该大于0,反之则Dx小于0,该数据点属于正常工况数据。

本文中使用DICA提取得到sd和se两部分数据特征信息,分别描述了独立成分子空间和残差子空间的信息。对这两组特征分别应用OCSVM算法,构建如下两个统计量Dd和De:

考虑到故障检测的鲁棒性,故障检测过程中并不采用0作为上述两个统计量的阈值。统计量的阈值根据核概率密度估计方法估计得到:

式中,f(y)为y的概率密度估计;yi为观测数据集中的数据;n为观测数据集样本的数目;h为平滑参数。求取统计阈值时,首先计算正常工况下的监控统计量Dd和De,然后估计每个统计量的概率密度分布,最后根据概率密度分布计算95%统计置信限作为阈值[14]。

2.3 基于决策超平面相似度的故障识别

一旦检测到故障,更重要的任务是识别故障模式。基于本文研究的DIC-OCSVM方法,笔者提出一种基于决策超平面相似度的故障模式识别方法。

如果工业数据库中已经储存了多种典型故障模式数据,则可以对每种故障模式分别应用DIC-OCSVM方法,计算该类故障的决策超平面。决策超平面是故障数据的分布超球面,描述了故障的主要分布特征,通过比较决策超平面的相似度,可以判断两组数据是否属于同一类故障数据。

在故障识别过程中,采用全部的独立成分变量构造分类超平面,第i类故障模式的决策超平面表示如下:

用两类故障决策超平面的相似度作为两类故障相似性的度量,定义性能指标SIM(i,j)表示第i类和第j类故障的相似度表达式为

根据式(4),wi、wj是独立成分变量集的线性组合,式(17)最终用核函数描述为

SIM(i,j)是[0,1]之间的数值,接近1表示两类故障数据相似度高,接近0表示两类数据相似度低。获得新的故障数据后,将其与现有的故障模式数据进行比较并计算相似度,相似度最大的模式为该故障的诊断结果。

3 仿真分析

以Tennessee Eastman(TE)过程作为监控对象进行算法的仿真分析。TE过程是一个评价先进控制和过程监控方法的基准过程,来自于美国Eastman化工公司的真实工业过程,该过程的仿真数据已经在过程监控和故障诊断领域得到广泛应用[12,14-15]。TE过程包含5个主要操作单元:反应器、压缩机、冷凝器、分离器、汽提塔,仿真过程中可采集52个测量变量,采样时间为3 min。过程数据包含了正常模式和21种故障模式IDV(1)~IDV (21)。每种故障数据共包含960个样本,其中故障在第160个样本后引入。TE流程图和故障的详细描述可以参考文献[15]。

分别使用OCSVM、IC-OCSVM和DIC-OCSVM方法对TE过程21种故障进行检测。其中OCSVM方法直接对过程测量变量进行监控,IC-OCSVM方法、DIC-OCSVM方法分别对过程测量变量应用ICA和DICA方法提取数据特征后再建立OCSVM模型进行监控。3种方法的检测阈值均采用95%统计置信限,OCSVM监控统计量的阈值为0.0058,IC-OCSVM监控统计量Dd和De的阈值分别为0.002 4、0.0020,DIC-OCSVM监控统计量Dd和De的阈值分别为0.020 1、0.016 4。考虑到检测故障时统计量会在阈值附近波动,因此定义连续6次超出阈值的采样时刻作为故障检测时刻。

以故障IDV(21)为例,图1为OCSVM方法的检测结果,图中的虚线为检测阈值,监控统计量Dx在第613个样本处超出阈值。图2为IC-OCSVM方法的故障检测结果,该方法的两个监控统计量Dd和 De分别在第426个采样和第618采样时刻检测到故障,由此可见ICA提取特征信息后的OCSVM能够更快地检测出故障。DIC-OCSVM方法的检测结果如图3所示,该方法在特征信息提取过程中进一步考虑了数据的动态特性,统计量Dd和De分别在第385个样本和第392个样本检测到过程故障出现,检测速度有了更为明显的提高。

图1 OCSVM方法的故障检测结果Fig.1 Fault detection results by OCSVM

通过分析TE过程21种故障的监控结果发现,3种方法对故障3、9、15的检测效果均不理想,对故障1、2、6、7、8、12、13、14、18均表现出良好的性能,在其他9种故障4、5、10、11、16、17、19、20、21的检测过程中,基于数据特征提取的IC-OCSVM和DICOCSVM比OCSVM方法有更好的故障检测性能。3种方法对这9种故障的检测时刻和检测率结果对比见表1、2(故障检测时刻为检测到故障的样本序号,检测率为故障发生后报警样本占总体样本的比例)。从表中可看出,DIC-OCSVM总体上比OCSVM、IC-OCSVM方法能够更快地检测到故障,具有最高的故障检测率。

检测到故障后,使用相似度分析方法诊断故障的类型。由于故障3、9、15无法检测,因此排除在故障模式库之外。当故障发生时,采集故障发生时的200个样本作为待辨识故障数据,分别与故障模式库中的8种故障模式进行比较,计算决策超平面的相似性。表3中给出了TE过程8种故障相似度分析的结果。以故障IDV(1)的辨识为例,该故障与故障库中8种故障模式的相似度分别为0.9476、0.2416、0.1337、0.048 2、0、0.218 7、0.786 2、0.271 1,与模式1的相似度最大,因此可以诊断为第一种故障模式,与实际情况是相符的。表3中故障IDV(6)与其他模式的相似度结果接近0,这是因为相似度指标是根据式(18)中的核函数计算得到的,当两类故障数据特征有较大差别时,核函数计算结果接近0。从表3可看出,基于决策超平面相似度的识别方法能够正确识别故障模式。

表1 不同方法的故障检测样本序号比较Table 1 Com parison of fault detection sam p le number by differentmethods

表2 不同方法的故障检测率结果Table 2 Com parison of fault detection rate by differentmethods%

表3 相似度分析结果Table 3 Sim ilarity analysis results

4 结束语

提出了一种新的故障诊断方法——DIC-OCSVM方法,并在基准工业过程TE上进行了方法的验证分析。DIC-OCSVM综合考虑工业过程数据的动态特性和非高斯特性,使用DICA提取过程特征信息,基于DIC-OCSVM的决策超平面建立故障模式识别算法。在TE过程上的应用结果表明,进行了特征提取的DIC-OCSVM比基于原始测量变量的OCSVM方法能够更有效地检测到过程故障,而且基于DIC-OCSVM的相似度分析可以有效地诊断出故障模式。

[1]周东华,胡艳艳.动态系统的故障诊断技术[J].自动化学报,2009,35(6):748-758.

ZHOU Dong-hua,HU Yan-yan.Fault diagnosis techniques for dynamic systems[J].Acta Automatic Sinica,2009,35(6):748-758.

[2]WU Q.Hybrid fuzzy support vector classifier machine and modified genetic algorithm for automatic car assembly fault diagnosis[J].Expert Systems with App lications,2011,38(3):1457-1463.

[3]田学民,曹玉苹.统计过程控制的研究现状及展望[J].中国石油大学学报:自然科学版,2008,32(5): 175-180.

TIAN Xue-min,CAO Yu-ping.Situation and perspectives of statistical process control[J].Journal of China University of Petroleum(Edition of Natural Science),2008,32 (5):175-180.

[4]CUI J,WANG Y.A novel approach of analog circuit fault diagnosis using support machines classifier[J].Measurement,2011,44(1):281-289.

[5]周延军,贾江鸿,李荣华.基于粗糙集理论和支持向量机的套管损坏动态预报方法[J].中国石油大学学报:自然科学版,2010,34(6):71-75.

ZHOU Yan-jun,JIA Jiang-hong,LIRong-hua.Dynamic prediction method of casing damage based on rough set theory and support vector machine[J].Journal of China University of Petroleum(Edition of Natural Science),2010,34(6):71-75.

[6]CHOI Y S.Least squares one-class support vector machine[J].Pattern Recognition Letters,2009,30(13): 1236-1240.

[7]SCHOLKOPF B,PLATT J,SHAEW-TAYLOR J,et al.Estimating the support of a high-dimensional distribution[J].Neural Computation,2001,13(7):1443-1471.

[8]MANEVITZ LM,YOUSEFM.One-class SVMs for document classfication[J].Journal ofMachine Learning Research,2001,2:139-154.

[9]鹿卫国,戴亚平,高峰.一种基于概率分布估计的水电机组故障预警方法[J].中国电机工程学报,2005,25 (4):94-98.

LUWei-guo,DAIYa-ping,GAO Feng.A hydroelectricgenerator unit fault early warningmethod based on distribution estimation[J].Proceedings of the CSEE,2005,25(4):94-98.

[10]MAHADEVAN S,SHAH SL.Fault detection and diagnosis in process data using one-class support vectormachines[J].Journal of Process Control,2009,19(10): 1627-1639.

[11]STEFATOS G,HAMZA A B.Dynamic independent component analysis approach for fault detection and diagnosis[J].Expert Systems with Applications,2010,37(12):8606-8617.

[12]LEE JM,YOO C K,LEE IB.Statisticalmonitoring of dynamic processes based on dynamic independent component analysis[J].Chemical Engineering Science,2004,59(14):2995-3006.

[13]HYVARINEN A,OJA E.Independent component analysis:algorithms and applications[J].Neural Networks,2000,13(4/5):411-430.

[14]LEE JM,YOO C K,LEE IB.Statistical processmonitoring with independent component analysis[J].Journal of Process Control,2004,14(5):467-485.

[15]CHIANG L H,RUSSELL F L,BRAATZ R D.Fault detection and diagnosis in industrial systems[M].New York:Springer-Verlag,2001.

One-class support vector m achine based on dynam ic independent com ponent and its app lication to fault diagnosis

DENG Xiao-gang,TIAN Xue-min

(College of Information and Control Engineering in China University of Petroleum,Qingdao 266580,China)

In order to analyze dynamic,non-Gaussian and nonlinear property of data in industrial process fault diagnosis,one-class support vectormachine based on dynamic independent componentwas presented.Dynamic independent component analysiswas firstly applied to dealwith dynamic and non-Gaussian data to obtain dynamic independent components as feature information.Then one-class support vectormachine was used to build nonlinearmonitoring statistics based on feature information.After faultwas detected,the similarity between new fault data and fault pattern data was computed for fault pattern identification according to their decision hyper planes.The simulation results on Tennessee Eastman benchmark process show that the proposed method can detect faultmore effectively than one-class support vector machine and detect diagnosis fault pattern correctly.

one-class support vectormachine;dynamic independent component analysis;fault detection;fault identification

TP 277

A

10.3969/j.issn.1673-5005.2012.03.032

1673-5005(2012)03-0187-05

2011-10-09

山东省自然科学基金项目(ZR2011FM014);中央高校基本科研业务费专项资金(10CX04046A)

邓晓刚(1981-),男(汉族),山东广饶人,副教授,博士,研究方向为工业过程先进控制、过程故障诊断技术。

(编辑 修荣荣)

猜你喜欢
超平面阈值动态
国内动态
卫星应用(2022年7期)2022-09-05 02:36:02
国内动态
卫星应用(2022年3期)2022-05-23 13:44:30
国内动态
卫星应用(2022年1期)2022-03-09 06:22:20
全纯曲线的例外超平面
涉及分担超平面的正规定则
动态
环球慈善(2019年6期)2019-09-25 09:06:24
小波阈值去噪在深小孔钻削声发射信号处理中的应用
以较低截断重数分担超平面的亚纯映射的唯一性问题
基于自适应阈值和连通域的隧道裂缝提取
比值遥感蚀变信息提取及阈值确定(插图)
河北遥感(2017年2期)2017-08-07 14:49:00