林龙 王贤浪
摘要:针对KFCM算法对初始聚类中心敏感导致聚类效果不好等问题,提出一种基于杂草算法(IWO)优化的模糊核聚类算法(IWO-KFCM),将其运用于轴承时频谱图的状态识别。通过小波变换获取轴承运行状态的时频图像,利用灰度梯度共生矩阵提取图像的纹理特征,提出基于可分性测度构造IWO算法的适应度函数;将IWO算法优化获取的初始聚类中心输入KFCM,实现时频谱图的聚类识别。最后进行多类轴承状态数据的测试,验证所提算法的有效性和优越性。
Abstract: KFCM algorithm is sensitive to the initial cluster center and leads tolow cluster accuracy. In this paper , a fuzzy kernel cluster algorithm based on invasive weed optimization (IWO-KFCM) is proposed to identifytime-frequency images. Firstly, time-frequency images of the bearing states are obtained through wavelet transform, and GLCM is used to extract the texture features of images.Low dimensional features of high contribution rates can be selected via PCA. This algorithmdefines separability criterion as an evaluation of fitness function, and IWOseeks the optimal solution as the initial cluster centers of KFCM .Finally, the IWO-KFCMis used to clusterdata,andexperiment results of the mutli-class bearing datasets demonstrate the effectiveness and superiority of the proposed algorithm.
關键词:时频图像;灰度梯度共生矩阵;杂草算法;可分性测度;半监督KFCM;轴承故障
Key words: time-frequency image;GLCM;invasive weed optimization;separability criterion;semi-supervised KFCM;bearing fault
中图分类号: TN911;TH113 文献标识码:A 文章编号:1674-957X(2021)02-0117-04
0 引言
随着模式识别技术的发展,将机械设备的振动信号转化为时频谱图进行智能识别的研究不断深入。时频谱图的本质是图像,既具备构成图像本身的数字信息,也有颜色、像素、纹理、灰度和形状等图形信息,这些信息暗含了设备的运行状态及差异。对状态图像进行识别首先需要有效地提取图像特征,近年来,有关时频谱图特征提取的研究层出不穷,如二维线性判别分析、二维主成分分析、二维非负矩阵分解等图像压缩算法[1],如提取不变矩特征、纹理特征等特征提取方法,这些方法有效缓解了因图像维数巨大导致诊断困难的难题。
聚类分析是一种针对样本相似性进行类别划分的数值方法,目前已广泛应用于数据挖掘、图像处理、故障诊断等领域[2-4]。常用的聚类分析算法有:C均值聚类、模糊C均值聚类(Fuzzy C-Means,FCM)、模糊核聚类(Kernel Fuzzy C-means,KFCM)等。FCM算法通过引入隶属度对C均值聚类的模式归属进行软化,克服了其准则函数不可微的缺点;KFCM算法在FCM算法基础上引入核函数,将低维非线性特征投影至高维空间,克服了FCM算法对噪声野值点敏感的缺陷,提高了算法鲁棒性。不过两种算法依然存在对初始值敏感和易陷入局部最优的缺点;同时聚类算法具有无监督性。
杂草优化算法(Invasive Weed Optimization,IWO)是一种高效的随机智能优化算法,以群体中优秀个体来指导种群的进化,以正态分布动态改变标准差的方式将由优秀个体产生的子代个体叠加在父代个体周围,再经过个体之间的竞争,得到最优个体。杂草算法及其改进算法已广泛应用于车间调度优化、控制器优化等领域,其优点在于兼顾了群体的多样性和选择力度,具有较强的全局搜索和局部搜索[5]能力,相比其他的进化算法拥有更大的搜索空间和更好的性能。在图像聚类领域,苏守宝[6]采用IWO算法对图像数据集的簇中心进行准确定位,动态确定图像聚类簇数的最优选择范围。赵小强等学者提出一种基于扩散映射的IWO- FCM算法,提高了FCM算法的全局搜索能力和收敛速度,并将其运用于化工过程数据分类[7],此后提出了相应的改进算法[8];Zhao等提出一种改进的基于IWO模糊核C均值算法,提升了算法抗噪能力和聚类精度[9]。
本文针对FCM算法和KFCM算法存在的缺陷,结合IWO算法的优势,以轴承时频谱图的分类识别为具体问题,提出了一种基于IWO算法的轴承时频谱图聚类识别方法。首先对轴承振动信号进行时频转化并提取的纹理特征;接着对纹理特征进行PCA分析,获取低维的数据集;然后通过IWO算法对已知标签样本特征进行选择,在此过程中利用可分性测度定义适应度函数,选择适应度最佳的样本优化初始聚类中心,并对未知状态样本进行模糊核聚类识别;最后对比KFCM、半监督KFCM、IWO-FCM算法,实验验证了所提算法具有更好的计算效率和聚类性能。
1 图像纹理特征
图像特征提取的质量直接影响诊断的结果。图像信息主要体现在灰度、形状、纹理等方面。针对旋转机械时频谱图的特点,采用反映图像纹理特征的灰度梯度共生矩阵进行特征提取[10,11]。
灰度-梯度共生矩阵是在归一化灰度图像及归一化梯度图像上构造的。基于灰度-梯度共生矩阵可以计算各种统计量,包括小梯度优势(T1)、大梯度优势(T2)、灰度分布不均匀性(T3)、梯度分布不均匀性(T4)、能量(T5)、灰度熵(T6)、梯度熵(T7)等15个特征量。由这15组特征,得到一列反映图像纹理信息的特征向量t=[T1,T2,…T15]。不同特征量具有特定的物理意义,如大梯度优势和小梯度优势可从一定程度上反映图像灰度变化的剧烈程度。当图像的灰度变化平缓时,小梯度像素数多,小梯度优势大;反之,则大梯度优势大。尽管灰度-梯度共生矩阵能反映图形纹理信息,但其冗余信息较多,因此可对特征向量t进行主成分分析,选取贡献率较大的主成分作为诊断输入。
2 IWO算法
2.1 杂草算法
杂草算法是2006年Lucas等人提出的一种仿生优化算法,可以解决一些复杂非线性问题[12]。其基本思想是模拟杂草入侵过程,选择适应度最强的个体进行繁衍。杂草算法的描述如下:
2.1.1 种群初始化
生成一定数量的杂草种群P,初始化最大迭代次数itermax、问题维数d、可产生的最大和最小种子数Smax和Smin、非线性指數n,区间步长初始值σmin和最终值σmax,最大种群数Pmax。
2.1.2 生长繁殖
根据适应性函数计算杂草繁殖的种子数量:
式中f为适应度值,适应性好的个体具有较大的生存机会。
2.1.3 空间扩散
子代个体以父代为中心,σiter为标准差的正态分布方式进行繁殖扩散,繁殖的子代个体与父代个体形成新的种群。σiter定义为:
式中,σinitial和σfinal为初代和终代群体的分布标准差,σiter随着iter增大逐渐减少,确保算法前期进行全局搜索(r选择)和后期进行局部搜索(k选择)。
2.1.4 竞争排除
根据竞争性法则,按照适应度大小对所有个体排序,选择前Pmax个适应度最佳的个体保留。
2.1.5 迭代终止
重复2.1.2~2.1.4步直至达到最大迭代次数或者满足最优解条件。
2.2 基于可分性测度的适应度函数构造
杂草的适应性受种群之间的竞争斗争,种群内部的生存环境等因素影响;为了体现杂草在不同种群的排异性和同一种群的适应性,本文采用可分性测度来构造适应度函数[13,14]。
3 IWO-KFCM算法
模糊核聚类算法通过一个非线性的核函数将特征映射至高维空间从而线性可分,提升了聚类的鲁棒性。
设含有M维特征向量数据集合X={x,i=1,2,…,n}。对其进行聚类,设定为聚类数目为c,第i类聚类中心为vi,uik表示第k个样本对第i类的隶属度(0?燮uik?燮1)。定义KFCM目标函数,求解以下最优化问题:
在约束条件下,可得隶属度uik和聚类中心vi的迭代优化公式为:
在此基础上,提出的IWO-KFCM算法步骤如下:
①IWO优化测试样本特征,选择适应度高的样本,计算每类中心作为初始聚类中心vi(i=1,2,…,c)。
②确定初始聚类数目c,隶属度指数m。
③根据当前的聚类中心更新式(9)的隶属度矩阵。
根据当前的聚类中心和隶属度矩阵更新式(10)的各个聚类中心。
④重复步骤3,直到隶属度误差或迭代次数达到设定值。
基于IWO-KFCM算法的轴承谱图识别方法流程如图1所示。
4 实验
本文以西储大学公开的轴承数据集作为算法性能的验证数据[15]。本文选择采样频率为12kHz,载荷为0.746kW时的驱动端轴承信号进行分析,信号数据包含四种状态:正常、内圈故障、外圈故障和滚动体故障(故障直径均为0.1778mm)。其中,各状态的数据划分为20个样本,总共为80个样本。
对信号进行小波变换,选择复morlet小波作为小波基,获得四类时频谱图像并对其灰度化,灰度等级为256,如图2。图中横向为时间坐标,纵向为频率坐标,由图2可得,四类图像具有良好的时频聚焦性,不同状态的图像频率分布差异体现在图像纹理的差异上。正常状态与其他三类状态灰度分布差异较大,可以明显区分;但是滚动体故障状态灰度分布与内圈故障、外圈故障状态灰度分布存在相似的地方,容易造成人工误判。因此,通过加入可体现图像轮廓状态的梯度信息,以实现时频谱图差异特征的有效提取。
采用sobel算子计算灰度图像的梯度阵,并进行正规化,设定正规化最大灰度和梯度值为64。计算四类图像的灰度-梯度共生矩阵,提取小梯度优势(T1)、大梯度优势(T2)、灰度分布不均匀性(T3)、梯度分布不均匀性(T4)等15个特征量,生成维数为80×15的特征矩阵。由于每个特征分量的物理意义和特征范围不同,对特征矩阵进行零均值归一化处理,图3为80个样本的前4个纹理特征值分布。由图3可得,T1、T3和T4能较好的区分正常、外圈和滚动体故障,T2能较好区分正常、外圈和内圈故障;但不同特征量存在一定的冗余现象,T1、T3、T4中内圈故障与滚动体故障特征值分布存在重叠,T2中正常和外圈故障较难区分。因此,为提升识别的效率,先利用主成分分析选择特征,累计贡献率高于95%的前两主成分作为IWO-KFCM算法的特征输入。
利用杂草算法对优化已知状态特征从而获取初始聚类中心。随机选择40个特征,每类样本10个,设定初始种群个体数40,最大种群个体数80,问题维数2,最大种子数3,最小种子数1,调和指数3,最大和最小方差为0.5和0.01,循环次数20。在杂草竞争排斥过程中,选择每类前20个适应度最高的子代进行下一代的繁殖,迭代20次后,计算每次杂草种群可分性测度和如图4所示。由图4可得,杂草经过8次迭代后可分性测度和便趋于平稳,到20次时测度和差值为1.85×10-8,达到稳定。此时,输入的特征样本分布及四类特征中心如图5,结果收敛。
采用IWO-KFCM算法进行聚类分析。选择剩余40個样本作为测试样本,设定聚类数n=4,隶属度参数m=2,高斯核参数?滓=1.5,隶属度误差?着=10-5,最大迭代次数为100,以图2优化的初始聚类中心作为输入建立核聚类模型。为了验证所提算法的优越性,选择迭代次数、运行时间和聚类准确率作为评价指标,以随机选择样本作为初始聚类中心(即传统的KFCM算法)和以训练样本各类中心作为聚类中心(半监督KFCM算法)进行对比计算,交叉验证10次,计算时间和迭代次数对比结果如表1。由表1可得,KFCM的平均迭代次数和计算时间较另外两种方法高,这是因为随机设定中心可能使得初始聚类中心与收敛中心相差较远,导致搜索成本增加;IWO-KFCM的平均计算时间和迭代次数少于KFCM,略优于半监督KFCM,说明经IWO优化中心的半监督模糊核聚类能更快的达到收敛结果,且算法的稳定性也较高。统计三种方法的平均聚类正确率,同时对比文献[10]所提的IWO-FCM算法,结果如图6所示。由图6可得,KFCM是一种无监督的算法,其聚类准确率较低;半监督KFCM和IWO-FCM算法利用了有标签样本的初始中心对聚类模型进行指导,其聚类精度均较高;IWO-KFCM算法通过核函数将特征非线性映射至高维空间进行聚类,较IWO-FCM算法降低了对噪声和野点的敏感程度,多次聚类的准确率均达到100%,较其他三类算法的精度高,多次交叉验证也说明其具有良好的鲁棒性。
5 总结
将轴承故障诊断问题转化为故障时频图像状态识别问题,针对KFCM算法对初始聚类中心敏感问题,提出一种IWO-KFCM算法用于轴承谱图识别。构造基于可分性测度的杂草适应度函数,选择适应性最好的特征获取其类别中心,以此作为KFCM初始聚类中心。对四类轴承时频图像状态进行聚类识别,对比KFCM算法、半监督KFCM算法、IWO-FCM算法,总结如下:
①灰度-梯度共生矩阵能有效地提取图像纹理特征,但特征信息存在冗余,通过PCA可以实现差异特征选择。②基于可分性测度的适应度函数在迭代过程中保留了类内距离最小、类间距离最大的特征样本,从而实现初始聚类中心的优化。③IWO-KFCM算法较IWO-FCM算法具有较好的聚类精度,同时其计算效率较KFCM、半监督KFCM算法高。
参考文献:
[1]李巍华,林龙,单外平.基于广义S变换与双向2DPCA的轴承故障诊断[J].振动.测试与诊断,2015(03):499-506,592.
[2]唐燕雯.模糊核聚类在船舶故障诊断中的应用[J].舰船科学技术,2016,38(24):151-153.
[3]Rong Zhang, Alexander I. Rudnicky. A Large Scale Clustering Scheme for Kernel K-Means[J]. Computer Science Department, 2002, 4:289-292 vol.4.
[4]孙兆丹,郑直,张何,姜万录.局部均值分解和形态谱的液压泵故障诊断方法[J].噪声与振动控制,2020,40(02):96-101.
[5]于蕾,周忠良,郑丽颖.基于入侵性杂草优化算法的图像识别的研究[J].计算机工程与应用,2014(16):188-191.
[6]苏守宝,方杰,汪继文,王本有. 基于入侵性杂草克隆的图像聚类方法[J].华南理工大学学报(自然科学版),2008(05):95-100,105.
[7]赵小强,周金虎.一种基于扩散映射的化工过程IWO—FCM数据挖掘算法[J].兰州理工大学学报,2014,40(3):101-105.
[8]赵小强,周金虎.一种改进的IWO-FCM数据挖掘算法[C].第26届中国控制与决策会议(2014 CCDC)论文集,2014:4997-5001.
[9]Zhao xiaoqiang, Zhou jinhu. Improved Kernel Possibilistic Fuzzy Clustering Algorithm Based on Invasive Weed Optimization[J]. Journal of Shanghai Jiaotong University(Science),2015,(02):164-170.
[10]潘宏侠,张玉学.基于SST时频图纹理特征的供输弹系统故障诊断[J].振动与冲击,2020,39(06):132-137,175.
[11]宋伟杰,关山,庞弘阳.基于S变换时频图纹理特征的刀具磨损状态识别[J].组合机床与自动化加工技术,2018(07):100-103.
[12]Mehrabian A R, Lucas C. A novel numerical optimization algorithm inspired from weed colonization[J]. Ecological Informatics, 2006, 1(4):355-366.
[13]卢洋,王世刚,赵文婷,赵岩.基于离散Shearlet类别可分性测度的人脸表情识别方法[J].吉林大学学报(工学版),2019,49(05):1715-1725.
[14]魏维格,董辛旻,韩捷,郝旺身,王成明.基于图像识别的齿轮故障诊断方法研究[J].煤矿机械,2016,37(05):166-169.
[15]LOPARO K A . Bearings vibration data set.[2009].[DB/OL]. http://csegroups.case. edubearingdatacenter/pages/welcome-case-western-reserve-university-bearing-data-center-website.