基于多核支持向量机的多模态过程故障检测

2022-05-27 08:26
化工自动化及仪表 2022年3期
关键词:正确率模态样本

李 元 李 榕

(沈阳化工大学信息工程学院)

在大数据与人工智能时代背景下,工业自动化得到迅速发展, 工业生产过程也越来越复杂。化工生产过程中,任何一个微小故障都可能引起产品质量变化,造成经济损失,同时也关乎工厂操作人员的生命安全和企业财产安全, 因此,对复杂工业背景下的故障诊断提出了更高的要求。

为了提高控制系统故障检测的性能,基于数据驱动的故障诊断方法得到快速发展,并应用于各 种 工 业 过 程[1~3]。 主 元 分 析(Principal Component Analysis,PCA) 作为工业过程故障诊断领域最经典的方法,被广泛应用于各种工业过程监测中,PCA主要适用于处理相关变量引起的线性问题,并且要求过程数据服从单模态高斯分布的假设,因此在非线性多模态工业过程中无法得到满意的检测效果。 核主元分析 (Kernel Principal Component Analysis,KPCA)[4]的提出在一定程度上扩展了PCA的适用范围, 通过引入核函数将数据映射至高维使其线性可分,然后在高维空间使用主元分析方法,但KPCA仍然存在一系列问题,如算法鲁棒性较差、泛化能力不强等,在解决多模态问题方面仍然存在局限性。Zhang X M和Li Y提出基于主多项式分析 (Principal Polynomial Analysis,PPA)的故障检测方法[5],利用主多项式分量来描述数据的非线性特征, 但由于使用T2和SPE统计量,在解决多模态过程中检测受到限制。He Q P 和Wang J 提 出 基 于K 最 近 邻 算 法(KNearest Neighbor,KNN)的故障检测方法,然而当处理具有较大方差多模态样本时,检测效果并不理想[6]。

Vapnik V N 提出了支持向量机(Support Vector Machines,SVM)[7],由于SVM在解决工业生产过程中的高维数、非线性等特征上具有显著优势,并 且 在 图 像 识 别[8]、文 本 分 类[9]及 故 障 诊断[10]等众多领域被广泛应用,SVM逐渐成为学术界关注的热点以及机器学习研究的热门话题。 但是,SVM的性能在很大程度上依赖于所选择的核函数,而在具体情况下如何选择最佳的核函数尚无完备的理论依据,如果使用一个不恰当的核函数,就可能产生比在原始空间更差的结果[11]。 针对上述问题,出现了大量有关组合核的研究[12~14],即多核学习方法[15],其中常见组合多核方式有直接求和核、 加权求和核及加权多项式扩展核等。文献[16]采用线性加权求和核作为SVM的核函数, 并将其应用于高光谱影像分类中, 与单核SVM分类器对比发现,多核SVM取得了较高的分类正确率。 文献[17]将传统核模糊聚类算法中的单一高斯核函数替换为多个高斯核函数混合,并结合马尔科夫随机场的先验概率,结果表明分割精度明显优于传统核模糊聚类算法。

多核SVM相比于单核SVM以其更优的性能在众多领域受到国内外学者的广泛关注。 经过多核函数映射后形成的新空间是由多个子空间组合而成的, 新空间能够组合各子空间的映射能力,从而更好地适应复杂数据。 因此,笔者提出一种基于局部相对概率密度(Local Relative Probability Density,LRPD)的多核支持向量机(Multi-Kernel Support Vector Machine,MKSVM)的故障检测方法LRPD-MKSVM。将LRPD-MKSVM方法应用于田纳西-伊斯曼(Tennessee Eastman,TE)多模态数据集中进行故障检测。 由于多模态数据具有多中心、变量非高斯性等特点,为了减少数据分布特性对检测性能的影响, 先用LRPD对多模态数据进行预处理,在此基础上使用MKSVM分类器对多模态过程进行监测, 并通过TE过程的仿真,验证LRPD-MKSVM对具有多模态和非线性特征的工业过程进行有效的故障检测。

1 LRPD-MKSVM算法

1.1 SVM

针对两分类样本近似线性分类问题,假设给定样本训练集D={(x1,y1),(x2,y2),…,(xn,yn)},样本类别yi∈{-1,1},i=1,2,…,n。 SVM分类器思想旨在样本集空间中找到一个最大分离超平面,将样本划分到不同类别,即:

其中,权重向量w=(w1,w2,…,wd),b为位移项。

在分类过程中允许某些点分类错误,提高了SVM的容错率,SVM引入松弛变量ζi和惩罚参数C,建立目标函数:

为了求解式(2),利用拉格朗日对偶性将原始问题转换为对偶问题:

其中,ai为拉格朗日乘子。

当数据集线性不可分时,首先通过非线性映射φ:Rn→H将数据样本映射至高维空间, 使数据能够线性划分,然后再使用线性分类SVM学习方法训练分类模型。 但往往直接定义映射函数较为困难,而且在计算映射之后的内积运算就更加复杂。 因此,定义核函数K(xi,xj)=φ(xi)·φ(xj),避免了显式地定义映射函数和在高维特征空间的内积运算,在低维空间进行计算而实际效果表现在高维特征空间,简化了运算。 将式(4)中的xi·xj内积用核函数代替,则得到核化SVM目标函数:

相应的决策函数可以写为:

1.2 MKSVM

当涉及到非线性数据分类问题时,巧妙地利用线性分类学习方法与核函数能够对非线性问题进行有效处理。 通过结合核函数与线性SVM学习机,能够对非线性数据进行有效分类。 然而在SVM的应用中,当样本数据量较大、高维特征空间分布不平坦且存在异构信息时,单一选择局部核函数或全局核函数,并不能满足数据分类问题的需要。 因此,笔者使用线性加权方式构建多核函数,通过不同核函数的映射,使得数据在新空间得到更好的表达,进而提高分类精度。

设有M个核函数,包含局部和全局核函数,核函数表达式如下:

多核SVM求解目标为:

其中,dm为核权重系数,Km为基本核函数,wm为第m个核函数所对应的权重向量。

按照原始SVM问题求解方式,则可转换为:

进一步求解最终的决策函数:

文献[18~20]表明,局部核函数和全局核函数无法同时兼具学习能力和推广能力,因此为了充分结合两者的优点,笔者构造满足Mercer定理[21]的多核函数,训练性能更佳的多核SVM分类器,以提高分类精度。

图1 高斯核函数曲线

多项式核函数K(z,z1)=(z·z1+c)d,取c=1。 令多项式核次数d为1、2、3、4,计算不同次数的多项式对应的核函数在测试点在z1=0.2的核函数值并绘制图像(图2)。 由图2可知,多项式核函数允许距离测试点较远的数据点对核函数值产生一定影响,适合处理具有全局特征的数据集,即具有较强的推广能力。

图2 多项式核函数曲线

图3 多核函数曲线

2 基于LRPD-MKSVM的多模态过程故障检测

如果直接将多核SVM算法应用于多模态过程,其检测性能并不突出。 为了提高算法对多模态过程的检测率, 先利用局部概率密度方法[22,23]将多模态数据转换为单模态数据,然后用MKSVM进行故障检测。基于LRPD-MKSVM的故障检测方法分为离线建模和在线检测两个步骤,检测流程如图4所示。

图4 LRPD-MKSVM方法故障检测流程

离线建模的操作步骤如下:

a. 获取正常和故障操作条件下的历史数据集,记为Xtrain=[x1,x2,…,xm]T∈Rm×n;

b. 用式(15)计算Xtrain的局部概率密度矩阵并进行标准化处理,得到矩阵ain;

其中,步骤b的计算式为:

在线检测的操作步骤如下:

a. 用式(16)计算测试数据Xtest的局部概率密度矩阵;

b. 运用建模数据的均值和方差对测试数据的局部概率密度矩阵进行标准化,得到数据集;

3 工业仿真实例

本研究的仿真实例数据选用TE数据集[24~27]。TE过程模拟21种预编程故障,多种故障类型能够清晰真实地反映实际工业过程中存在的问题,详见表1。

表1 TE过程的21种故障

改变过程中产物G和H的比例, 可以得到TE过程中6种不同的工作模态,详见表2。

表2 TE过程的工作模态

本次仿真在TE过程的模态1和模态3进行。本例中, 从模态1和模态3分别选取160个正常数据和200个故障数据作为SVM的训练数据集, 选取模态1和模态3中的故障1、5、7~9、11~13、18和19作为测试故障类型。 测试数据集从模态1和模态3每个故障类型下选取160个正常数据和200个故障数据组成。 将正常样本数据标签定义为0,故障样本数据标签定义为1。在TE多模态仿真过程中,对TE多模态过程的10个故障运用局部相对概率密度进行预处理, 然后使用RBFSVM、POLYSVM和MKSVM方法分别对测试数据进行分类。

分别采用RBFSVM、POLYSVM和笔者提出的MKSVM方法对TE过程的10种故障进行分类对比。 RBFSVM核函数的最优δ值在[0.01,0.1,1]。POLYSVM核函数的偏移量c和多项式核次数d均在[1,2,3]。 对于MKSVM核函数中的参数构建四维网格搜索寻参, 确定权重系数r设置为0.5,RBFSVM中参数δ设置为0.1,POLYSVM中偏移量c设置为1,多项式核次数d设置为1。 另外,惩罚参数C均设置为1。

表3 汇 总 了 基 于RBFSVM、POLYSVM 和MKSVM对TE过程10种故障的检测结果,可见,加权组合的多核SVM相比单核SVM, 平均分类正确率有很大程度的提高,对比RBFSVM和POLYSVM分别提高了15.0%和8.9%。

表3 基于3种核函数SVM对TE过程10个故障的分类正确率 %

为了说明基于MKSVM检测方法的有效性,分别比较了基于RBFSVM、POLYSVM和MKSVM方法对故障1和故障13的检测结果,结果如图5、6所示。

图6 3种核函数对故障13的检测结果

在故障1中,物料B含量不变,物料U、C进料比改变,产生了一个阶跃性改变故障,扰乱了系统的正常运行。 在此故障中,MKSVM分类的正确率高于RBFSVM和POLYSVM两种检测方法,分别提高 了22.0%和20.0%,MKSVM 相 比RBFSVM 和POLYSVM,对于数据分布学习更加高效,提取信息更加全面,所以相比其他两种检测方法分类正确率就会更高。 尽管RBFSVM具有较高的故障检测率, 但对于正常数据并不敏感, 误报率很高;POLYSVM虽然误报率为0, 但是对于故障数据不能有效学习, 故障检测率低于MKSVM方法。 而MKSVM检测方法在误报率为0的情况下, 相比其他两种核函数,分类正确率最高,具有更好的检测性能。

故障13是由反应动力学参数改变而引起的慢偏移故障,RBFSVM和POLYSVM对于故障数据都能有效识别,具有非常好的检测效果,但对于正常数据不能有效检测。 而在MKSVM多核函数映射的背景下,由子空间构成的组合空间可以发挥各个基本核的不同特征映射能力,对于异构数据的不同特征分量分别使用相应的核函数进行处理, 使得数据能够在高维空间得到更为精确、合理的表达, 提高样本的分类正确率, 因此MKSVM相比RBFSVM和MKSVM, 分类正确率能够达到89.0%,取得更为满意的检测结果。

4 结束语

针对工业过程中数据具有的多模态、非线性特征,提出基于局部相对概率密度的多核支持向量机工业过程故障检测方法,引入局部概率函数将多模态数据转换为单模态数据,消除多模态数据分布特性对故障检测性能的影响,在此基础上使用不同核函数SVM进行故障检测。 将所提出的方法应用于TE多模态工业过程中, 应用结果表明, 笔者提出的MKSVM方法的分类正确率优于RBFSVM与POLYSVM方法的,能大幅提高故障检测的准确性,在实际生产中有重要的指导意义。

猜你喜欢
正确率模态样本
基于BERT-VGG16的多模态情感分析模型
个性化护理干预对提高住院患者留取痰标本正确率的影响
多模态超声监测DBD移植肾的临床应用
跨模态通信理论及关键技术初探
用样本估计总体复习点拨
规划·样本
基于两种LSTM结构的文本情感分析
随机微分方程的样本Lyapunov二次型估计
生意
生意