基于近邻传播聚类的航空电子部件LMK诊断模型

2018-09-04 01:58张伟许爱强平殿发夏菲
北京航空航天大学学报 2018年8期
关键词:训练样本权重聚类

张伟, 许爱强,*, 平殿发, 夏菲

(1. 海军航空大学, 烟台 264001; 2. 国网辽阳供电公司 信息通信分公司, 辽阳 111000)

针对航空电子设备故障特点开展故障诊断算法及其应用的研究,已成为提升航空保障能力的关键。航空电子设备及其子系统故障模式多样[1-4],各功能模块交联关系复杂,这些存在的问题使得征兆与故障之间不具有严格的对应关系,增加了故障诊断的难度和复杂性[5-7]。

当前,基于核的学习算法,例如支持向量机(Support Vector Machine, SVM)、核超限学习机(Kernel Extreme Learning Machine, KELM)等,已经被广泛应用到故障诊断领域中,并且展示出优越的性能[8-9]。多核学习(Multi-Kernel Learning, MKL)作为一种灵活性更强、解释能力更好的核学习算法[10],近些年来受到了广泛的关注。文献[11-12]已经将MKL引入到了包括模拟电路、变压器等系统的故障诊断中,并通过大量实例证明基于MKL的诊断算法在面对单故障、多故障以及并发故障时均能取得更高的诊断精度。

目前,大多数的文献主要面向基于SVM的MKL算法研究,而对于MKL的具体形式则主要采用有限个给定基核的线性凸组合。半定规划,二次约束二次规划,半无限线性规划等算法相继被提出去解MKL问题。文献[13]在2008年提出了一种更有效的算法,称作SimpleMKL,其使得MKL对于大样本问题更加实用。但在这些算法中,每个基核的权重在整个输入空间保持不变,显然忽视了输入空间的局部多样性。不同的核函数针对不同的样本具有不同的可用性,为了体现这种可用性上的差异性,有必要为每一个样本点调节核系数[14-15]。基于这种思想,局部算法被引入MKL中,即采用一种依赖样本的方式为基核分配权重。为此,科研人员已经开展了相关研究。

Gönen和Alpaydin提出了最初的局部多核学习(Localized Multi-kernel Learning, LMKL)算法[16]。取代直接优化局部权重,文献[16]采用一系列选通函数去近似局部权重,以解决局部权重的优化形式二次非凸的问题。文献[17-18]基于文献[16]的思想,提出2种改进算法。前者依据半径-间距界将最小超球的半径融入到LMKL中;后者构造了一种概率置信核以此充当选通函数。文献[19]提出了一个p范数约束的LMKL模型。通过使用二阶Taylor展开来近似p范数,将局部权重的优化问题转化为一个非凸的单约束二次规划问题,最终采用半定规划进行求解。LMKL算法将局部权重拟合到每一个确定样本上,虽然可以充分描述样本的类内多样性,但也可能会导致过拟合问题的出现。同时,需要优化的变量个数等于样本数乘以基核数,当数据规模较大时算法的复杂性将变得无法控制。

为此,考虑到来自于同一聚类的数据具有相似的局部特征,趋向于具有相似的性质。本文结合航空电子设备及其子系统故障诊断的实际,提出一种基于近邻传播(Affinity Propagation, AP)局部聚类MK-ELM(LCMKELM)诊断模型。该模型通过为具有相似分布特性的故障样本分配相同的局部权重,在继承一般LMKL算法局部特征自适应表示能力的同时,避免了过学习风险的出现,有效约减了局部算法的计算复杂性。同时,通过分别构造面向输入空间和特征空间的选通函数,并以选通函数近似局部权重,提出一种2步交替优化的策略,有效解决了局部权重二次非凸的优化形式难以求解的问题。

1 问题描述

(1)

基于初始优化问题的Lagrange函数,可以进一步得到LMK-ELM的对偶优化问题:

(2)

式中:αi为Lagrange乘子,对应于ELM的模型参数,且α=[α1,α2,…,αn]T,αi=[αi1,αi2,…,αim]T。

为了解上述的对偶优化问题,通常采用一种交替优化的策略交替更新ELM模型参数和局部核权重,最终得到决策函数:

(3)

无论怎样,在优化过程中:①局部权重的数量等于基核数乘以样本数,算法复杂性较高,且存在过学习风险;②在式(2)中关于局部权重的优化是一个困难的二次非凸问题。

针对上述问题,本文取代一般LMKL算法中将局部权重拟合到每一个确定样本上,而是将局部权重拟合到空间中具有相似局部结构的一类群组上,进而提出一种新的面向聚类的LMK-ELM模型。该模型的基本框架如图1所示。

2 LCMKELM诊断模型

2.1 基于AP算法的样本空间划分

为挖掘故障样本中隐含的局部分布特征,本节引入AP算法[20-21]。相比于经典的K-均值聚类,AP算法不需要指定聚类的数目,对初始值的选取不敏感,并且文献[20]证明其具有更低的误差平方和。这使得在AP算法中先验经验成为应用的非必要条件,因而更适合本文的应用背景。

首先,定义样本间的相似性度量准则为

(4)

显然,φ(i,j)越大,则2个数据点之间的相似性越高。进一步得到n个样本点组成的相似度矩阵S,即

AP算法中传递2种类型的消息,分别称作吸引信息和归属信息,并存储在2个矩阵V和W中。V中的v(i,j)描述了数据对象j适合作为数据对象i的聚类中心的程度,表示的是从i到j的消息。而W中的w(i,j)描述了数据对象i选择数据对象j作为其聚类中心的适合程度,表示的是从j到i的消息。v(i,j)与w(i,j)越强,则j点作为聚类中心的可能性就越大,并且i点隶属于以j点为聚类中心的聚类的可能性也越大。吸引信息和归属信息的更新方程分别定义为

wt+1(i,j)=

式中:下标t为当前迭代次数。

为了避免振荡,AP算法更新信息时引入了衰减系数λ∈(0,1)。通常,λ越接近于0,振荡越大,收敛越慢,生成的聚类个数较多;而λ越接近于1,振荡越小,收敛越快,生成的聚类个数也相对较少。为此,进一步令

vt+1(i,j)←(1-λ)vt+1(i,j)+λvt(i,j)

wt+1(i,j)←(1-λ)wt+1(i,j)+λwt(i,j)

V和W初始均为全0矩阵,AP算法通过迭代过程不断更新每一个点的吸引度和归属度,如果决策信息经过若干次迭代之后保持不变或者算法执行超过设定的最大迭代次数,则算法终止。此时,决策矩阵定义为V+W,决策矩阵主对角线元素{v(i,i)+w(i,i)}中所有大于0的G个点被选择作为聚类中心,其余的点根据式(5)定义的规则被分配到相应的聚类中:

(5)

式中:οg为第g个聚类中心在原始训练数据集中对应的样本序号;c(xi)为xi所对应的聚类标签。

2.2 LCMKELM诊断模型优化

(6)

式中:c(xi)和c(xj)分别为样本xi和xj通过式(5)得到的聚类标签。

由式(6)可知,J是一个关于α和γ的多目标函数。当γ固定时,关于α最大化J,意味着最小化全局分类误差;当α固定时,关于γ最小化J,意味着在最大化类内相似性的同时,最小化类间相似性。下面采用一种两步交替优化的策略,交替更新ELM模型参数α和局部核权重γ。

2.2.1 在已知γ的条件下更新α

(7)

式(7)对α′求偏导,并令结果等于0,得到

α′=(K′+I/C)-1Y′

(8)

式中:I为一个m×n阶单位矩阵。

最终,ELM的模型参数可以通过一个矩阵向量化的反操作得到,记作α=ψ-1(α′)。

2.2.2 在已知α的条件下更新γ

结合聚类信息,式(6)所示的优化问题的目标函数等效于下面的形式:

J(α,γ)=

为了表示方便,不妨令

(9)

(10)

式(10)中局部权重的优化是一个困难的二次非凸问题。受文献[16]的启发,本节从训练数据在输入空间和特征空间的统计特性出发,提出2种不同的选通函数。

1) 函数M1:面向输入空间的选通函数

在输入空间中,第g个聚类在第q个基核上的选通函数定义为

(11)

基于上述结果,式(10)中的J(γ)对μp,σp分别求偏导,进一步得到

(12)

(13)

得到目标函数J(γ)关于模型参数的梯度之后,采用梯度下降法依次更新各模型参数,即

(14)

式中:τ11(t)和τ12(t)为迭代步长,在迭代过程中采用线性搜索算法得到。

2) 函数M2:面向特征空间的选通函数

在特征空间中,第g个聚类在第q个基核上的选通函数定义为

(15)

(16)

(17)

同理得到

(18)

得到目标函数J(γ)关于模型参数的梯度之后,同样采用梯度下降法更新各模型参数,即

(19)

式中:τ21(t)和τ22(t)为迭代步长,在迭代过程中采用线性搜索算法得到。

2.3 诊断决策

(20)

决策过程如图2所示。

(21)

本文故障诊断模型流程图如图3所示。

3 算法流程

为表示方便,将本文诊断模型记作LCMKELM。当采用不同选通函数时,分别记作M1-LCMKELM和M2-LCMKELM。根据图3将诊断模型的详细流程总结如下:

步骤6令t=1,通过式(10)计算Jt(γ)。

步骤8执行步骤3~步骤5;通过式(10)计算Jt+1(γ);如果|Jt+1(γ)-Jt(γ)|>10-3,t=t+1,返回步骤7;否则,执行步骤9。

4 实验分析

本节通过2个实验来验证本文模型的性能。SimpleMKL[13]、GMKL-SVM[12]和LMKL[16]被采用作为比较算法,对于多分类问题,其均采用“一对一”的原则。在实验中所有的数据首先进行Z-score标准化处理,而所有的核矩阵则被正规化到具有单位迹,即tr(Kq)=1。正则化参数C采用5倍交叉验证从集合{10-2,0.1,1,10,102,103,104}中选择。AP算法中令λ=0.8,最大迭代次数设置为1 000。算法复杂性通过训练时间(不包括交叉验证时间)和测试时间共同评价。所有实验结果通过MATLAB 2015a得到,实验电脑配置为:2.27 GHz Intel Core i3 CPU,2 GB RAM。

4.1 算法有效性验证

本节采用文献[16]中使用的人工数据集Gauss 4来验证本文模型的有效性。该数据集由服从4种不同高斯分布的1 200 个样本组成,包括2个类别,每个类别包括2种分布。每种分布的先验概率、均值向量和协方差矩阵分别为

ρ11=ρ12=ρ21=ρ22=0.25

(22)

(23)

(24)

实验中,随机选择2/3数据作为训练样本,剩余1/3作为测试样本。首先采用AP算法对训练样本进行聚类,800组训练样本被划分为26个群组,聚类结果如图4所示。

SimpleMKL被用来与本文模型进行比较。多核设置为线性核,多项式核(参数为2),高斯核(参数为1)。评价指标采用文献[22]中定义的分类精度、F1值和G-mean。实验共进行5次,将所得结果的均值和标准差记录于表1中。

由表1的结果看到,基于选通函数M1、M2的LCMKELM均可以实现比SimpleMKL更优的分类性能。其克服了局部算法将基核权重拟合到每一个确定样本上时可能出现的过学习问题。对于分类精度,相比于SimpleMKL,M1-LCMKELM和M2-LCMKELM分别提升了1.65%和1.85%。

为了更加直观地比较本文模型的性能,将其与SimpleMKL的接受者操作特性曲线(Receiver Operating characteristic Curve, ROC)绘制在图5中。由图5可见,2种算法的曲线下方区域(Area Under the Curve, AUC)明显大于SimpleMKL的AUC值,这从另一个角度进一步证明了本文模型的有效性。

为验证训练样本数量对模型精度的影响。设置训练样本数量分别等于16,32,48,64,144,400,600,800。每次随机选择100组测试样本,将其注入到训练得到的不同模型中。实验共进行5次,将所得结果的均值与标准差记录于表2中。

由表2看到,训练样本的增加确实提升了诊断模型的分类性能。但是2种算法通过挖掘样本中蕴含的局部特征信息,在小样本条件下可以得到与较大样本条件下相近的分类精度。该结果证明了将本文模型应用于小样本条件下故障诊断任务的可行性。

评价指标M1-LCMKELMM2-LCMKELMSimpleMKL分类精度/%90.5000±0.684790.8500±0.602189.3500±1.2068F1值0.9049±0.00680.9085±0.00610.8958±0.0124G-mean0.9046±0.00690.9082±0.00620.8932±0.0119

训练样本数量分类精度/%M1-LCMKELM M2-LCMKELM1681.8±1.923582.6±1.67333285.2±1.483286.2±1.48324886.4±2.073686.6±1.51656486.4±1.516586.6±1.673314487.2±1.095487.4±1.140240087.0±1.870887.2±1.303860087.8±1.095488.2±0.836780088.0±0.707188.6±0.8944

4.2 旋转变压器激励发生电路诊断实例

旋转变压器激励发生电路如图6所示。它用于产生旋转变压器磁绕组所需的正弦信号,为旋转变压器运行提供激励。以满足无刷直流电机、航空永磁同步电机等系统检测需求。该电路主要由电源模块、频率控制模块、正弦信号产生模块和幅值调理及驱动能力调节模块组成。

在基于自动测试系统(Automatic Test System, ATS)的测试流程中共包含9个测试项目:信号频率(Q1),信号幅值(Q2),正弦模块输入电压值(Q3),信号频率稳定度(Q4),+15 V电压值(Q5),-15 V电压值(Q6),电路板工作温度(Q7),+5 V电压值(Q8),+10 V电压值(Q9)。用F0,F1,F2,F3及F4分别表示正常模式、频率控制模块故障、幅值调理及驱动能力调节模块故障、电源模块故障和正弦信号产生模块故障。各模式下ATS共采集原始数据量分别为22,18,16,14及22。

将采集到的数据随机选择1/2作为训练样本,其余作为测试样本。多核设置为:线性核,多项式核(参数2),高斯核(参数2,10,20,30,40,50)。首先采用AP算法对训练样本进行聚类,46组训练样本被划分为8个群组,如表3所示。

用本文模型与SimpleMKL、GMKL-SVM、LMKL-softmax和LMKL-sigmoid分别基于上述数据进行诊断测试,所得结果如图7和表4所示。

由图7和表4可以得到:①本文算法在漏警率与虚警率上表现出色,实现了0漏警,0虚警。②2种LMKL算法尽管具有100%的训练诊断精度,但其测试诊断精度不高,尤其是当采用softmax选通函数时。究其原因在于将局部权重拟合到确定样本上时导致算法泛化性能下降。而本文算法通过聚类将局部权重拟合到一组具有相似局部特征的群组上,在挖掘局部特征的同时避免了算法过学习。相比于其他4种算法(SimpleMKL、GMKL-SVM、LMKL-softmax和LMKL-sigmoid),M1-LCMKELM将测试诊断精度分别提升了4.35%、2.17%、6.52%和2.17%;M2-LCMKELM将测试诊断精度分别提升了6.52%、4.35%、8.70%和4.35%。③比较发现M2-LCMKELM在诊断精度上要优于M1-LCMKELM,原因在于当使用选通函数M1时产生局部权重的稀疏解,当使用选通函数M2时产生局部权重的非稀疏解,如图8所示。稀疏解虽然易于解释,但可能会丢失有用的信息。

聚 类聚类中心类内元素15{2,4,5,6,9,11,15,18,34,35}212{8,10,12,13,20,25}317{1,3,7,17}423{16,23,33}526{14,19,26,29,32}630{24,30,31,41}740{21,22,28,37,38,40,42,45}843{27,36,39,43,44,46}

不妨用TP表示某种故障模式被正确识别的数量,FN表示该故障模式被错误识别的数量,FP表示误诊断为该故障模式的样本数量。则将召回率定义为TP/(TP+FN),而准确率定义为TP/(TP+FP)。因此,根据图7得到4种故障模式的召回率、准确率直方图,如图9所示。

根据文献[23]中关于多分类问题F1值及G-mean的定义,结合图9得到表5所示的诊断结果统计特性。表5从诊断精度之外的另一个角度展示了各种诊断算法的性能。可以看到本文算法依旧展示出更好的诊断性能。

表4 不同算法诊断结果比较

此外,为了比较各种算法的时间花费,重复运行实验5次,将各种算法训练时间与测试时间的均值与标准差记录在表6中。

由表6可知,①在训练时间上,采用LMKC明显要比一般的MKL花费更多的时间,而所提的2种局部MKL算法与2种流行的局部MKL算法相比较,拥有相似、甚至更短的训练时间。②在测试时间上,本文算法花费时间最少,尤其是M1-LCMKELM。这是因为ELM相比于SVM本身就是一种计算更加高效的分类器,同时当采用输入空间选通函数M1时,能够产生局部权重的稀疏解。③本文提出的是一种线下故障诊断算法,通过牺牲一定的时间花费获得诊断精度上的提升是可以接受的;况且,本文主要面向于小样本条件下的诊断问题,因此时间花费也是可控的。

算 法F1值G-meanSimpleMKL0.89870.8826GMKL-SVM0.92080.9103LMKL-soft-amx0.88550.8745LMKL-sig-moid0.92430.9103M1-LC-MKELM0.94440.9349M2-LC-MKELM0.97290.9696

表6 不同算法诊断时间花费比较

5 结 论

针对小样本条件下,基于ATS测试数据的航空电子部件功能故障诊断问题,本文提出一种LCMKELM诊断模型。通过实验验证了所提模型的有效性和适用性,结果表明:

1) 在诊断精度上,相比于4种常用的MKL算法,本文模型在实现低漏警率、低虚警率的同时能显著提升诊断的正确率。对于旋转变压器激励发生电路,M1-LCMKELM将诊断精度平均提升了3.80%,而M2-LCMKELM将诊断精度平均提升了5.98%。

2) 在诊断时间上,相比于2种流行的LMKL算法,本文模型具有相似、甚至更短的训练时间;同时得益于ELM快速的计算效率,可以实现更短的测试时间。

3)M1-LCMKELM产生局部权重的稀疏解,M2-LCMKELM产生局部权重的非稀疏解。这使得M2-LCMKELM的诊断精度要优于M1-LCMKELM,但是M1-LCMKELM的测试时间要优于M2-LCMKELM。

猜你喜欢
训练样本权重聚类
一种傅里叶域海量数据高速谱聚类方法
权重望寡:如何化解低地位领导的补偿性辱虐管理行为?*
一种改进K-means聚类的近邻传播最大最小距离算法
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
权重常思“浮名轻”
人工智能
为党督政勤履职 代民行权重担当
权重涨个股跌 持有白马蓝筹
基于小波神经网络的网络流量预测研究
基于Spark平台的K-means聚类算法改进及并行化实现