潘晓博,葛鲲鹏,钱孟浩,赵 衍,董 飞
(1.徐州工程学院 大数据学院,江苏 徐州 221008;2.扬州市职业大学 电子工程学院,江苏 扬州 225127;3.安徽大学 互联网学院,安徽 合肥 230039)
作为旋转机械设备的关键零部件之一,滚动轴承的可靠性和稳定性直接影响机械设备的安全、稳定运行[1,2]。由于滚动轴承通常在非平稳和复杂的工作条件下运行,导致其易磨损并产生缺陷,因此,研究滚动轴承的故障诊断具有重要意义。
目前,许多学者基于轴承振动信号开展了故障状态分析和诊断,其方法主要包括信号时频分析方法、机器学习以及深度学习等,并在此基础上,构建了轴承智能故障诊断系统。
例如,祝永涛等人[4]采用改进阈值小波分析方法,进行了提升机轴承故障特征提取和降噪,并结合稀疏自编码器,完成了智能故障诊断模型训练,发现了采用该方法能够取得较高的故障诊断准确率;但该研究未考虑设备变工况带来的数据分布差异对故障诊断准确率的影响。马辉等人[5]采用基于滑动窗口重叠采样数据的增加方法,对轴承振动信号进行了处理,扩充了其数据集规模,并利用降噪自编码器处理振动信号,结合深度神经网络双层分类器,完成了提升机轴承故障诊断工作,发现了该方法在进行含噪轴承故障诊断方面的有效性与优势;但该模型存在基于深度学习模型的共性问题,即超参数、高耗时和解释性不足。廖玉波等人[6]采用最大重叠离散小波包变换,对原始轴承振动信号进行了分解,并提取了时域和频域统计特征,再选取特征并将其用于深度置信网络的训练,最后采用预训练-微调的方法,获得了适用于目标域特征数据的故障诊断模型,完成了不同工况下的轴承故障诊断工作;但该方法未考虑模型在缺乏足量故障数据样本下的故障诊断性能。HE Z等人[7]提出了一种新型的齿轮箱智能故障诊断方法,采用深度自动编码器和多小波相结合的方式,以此来挖掘故障诊断的重要特征,发现了基于重要特征训练的故障诊断分类器在变工况下故障诊断准确率较高;但该方法仍存在超参数和高计算复杂度的问题。HU Q等人[8]提出了一种基于多尺度样本熵和平衡适应调整的轴承故障诊断方法,发现了该方法在减小不同工况下轴承故障数据分布差异上的有效性;但该方法仍未充分考虑带标签故障样本不足的问题,且故障诊断性能不够理想。
虽然,许多学者在基于机器学习和深度学习方法的智能故障诊断方面进行了研究,并取得了许多成果,但该方法在应用过程中仍面临一些挑战[9]:1)变工况下的机械设备难以获取足量故障样本;2)变工况导致同一种故障下的信号存在分布差异,直接影响基于机器学习和深度学习方法的模型诊断效果和泛化性能;3)深度学习模型存在超参数、高能耗和可解释性不足的问题[10,11]。
上述挑战阻碍了智能故障诊断方法在实际工业场景下的应用。
为此,笔者在基于特征的迁移学习方法基础上,研究信号时频分析方法、可迁移特征选取方法、域适应和故障模式识别方法,提出一种新的基于改进联合分布适应的轴承智能故障诊断方法(BIFD-IJDA)。
笔者提出一种新的轴承智能故障诊断方法BIFD-IJDA,该方法的流程共分为4步,其流程图如图1所示。
图1 BIFD-IJDA方法的流程
BIFD-IJDA方法的具体流程如下:
1)基于小波包变换的信号处理与特征提取。采用小波包变换对原始轴承振动信号进行处理,再结合统计参数,提取时域和频域统计特征,构建原始特征集;
2)利用基于特征重要度与KL散度的迁移特征选取方法(transferable feature selection based on feature importance and KL divergence, TFFK),减少高维原始特征集中的干扰和冗余特征,选取有利于故障模式识别且域间分布差异小的特征,用于后续处理。首先,利用随机森林算法处理特征数据,获得表征特征判别能力的特征重要度(feature importance, FI);然后,再计算各特征在不同域下的KL散度(KL divergence,KLD),以表征特征在不同域下的分布差异;最后,基于FI和KLD,构建表征特征可迁移性的指标,即特征重要度与KL散度比(ratio of FI and KLD,RFK)。该步骤的执行分为两部分:首先,基于源域特征数据和目标域正常状态下的特征数据,计算FI与KLD,获得RFK;然后,直接采用所得到的RFK对需进行故障诊断的目标域特征数据进行特征选取,无需进行重复的随机森林算法处理;
3)基于改进联合分布适应的特征迁移学习。在TFFK之后,在源域和目标域特征集中选取RFK值大的特征,构建特征子集,再利用该改进联合分布适应,将源域和目标域特征子集进行分布适应,以减小分布差异;
4)故障模式识别分类器训练与测试。在对源域和目标域样本进行分布适应后,将有标签源域特征集用于训练智能故障诊断分类器,再将无标签目标域样本输入已训练好的分类器,获得目标域的故障诊断结果。
为从轴承原始振动信号中提取故障特征,笔者采用小波包变换对振动信号进行四层分解,获得16个终端节点,再基于这16个终端节点的重构信号,计算11种统计参数[12,13](均值、标准差、峭度、能量、能量熵、峰度、波峰因数、脉冲因数、形状因子、偏度、极值),可提取出176种时域统计特征(计算16个终端节点的重构信号的11种统计参数);然后,分别计算16个重构信号的希尔伯特包络谱,将得到的16个包络谱信号用于计算11种统计参数,可提取出176种频域统计特征;最后,将获得的352个统计特征构成原始特征集,用于后续的特征选取、迁移学习和故障模式识别。
虽然小波包变换能够对轴承振动信号进行有效分解,提取故障特征,但也存在数据维度高,且易引入干扰和冗余特征的局限[14,15],进而降低故障诊断的精度。此外,为提高后续特征迁移学习的效果,有效减小不同域特征数据间的分布差异,需选取在不同域间分布差异小的特征。
因此,笔者提出基于特征重要度与KL散度的迁移特征选取方法,主要从2个方面对特征进行评价:即特征的故障判别能力和特征的域间差异。
1)特征的故障判别能力评价
笔者采用经典的随机森林算法对各统计特征进行处理,获得特征重要度指标[16]FI。FI能够衡量各特征对于分类准确率的贡献程度。笔者认为,当该指标数值越大,表明该特征的故障判别能力越好。
给定源域特征数据集如下:
(1)
其中:
(2)
笔者利用随机森林算法对源域特征数据集进行处理,获得了M种特征的重要度指标,构建特征重要度序列SI如下:
SI={i(1),i(2),…,i(M}
(3)
式中:i(M)为第M种特征的重要度指标。
2)特征的域间差异度量
KL散度,又称KL距离[17],是一种在概率论和信息论中描述2个概率分布P和Q之间分布差异的方法,又称为相对熵。P和Q之间的KL散度定义如下:
(4)
式中:p(xi)为目标分布;q(xi)为匹配的分布;xi为离散随机变量;L为概率分布的长度。
当DKLD(P‖Q)越小,表明P和Q之间分布差异越小;当DKLD(P‖Q)=0时,则P和Q完全匹配。
因此,笔者采用源域和目标域中正常状态下特征样本来计算KLD,度量各特征在不同域下的分布差异,获得M种特征的KLD序列如下:
SKLD={d(1),d(2),…,d(M)}
(5)
式中:d(M)为第M种特征的KLD。
为综合考虑特征重要度和域间分布差异两方面性能,取得理想的特征迁移学习效果,笔者基于上述两方面的特征评价,分别获得特征的FI和KLD指标,再基于这2个指标,构建一种新到的特征可迁移性量化指标RFK。
其表达式如下:
r(m)=i(m)/d(m)
(6)
基于上式,可获得M种统计特征的可迁移性指标序列。最后,笔者对可迁移性指标序列按照数值大小进行降序排列,选取数值较大的特征,用于后续的特征迁移学习。
1.4.1 联合分布自适应
联合分布自适应的特点是通过扩展非参数最大均值差异对源域和目标域样本间边缘概率分布和条件概率分布进行度量,完成这2种分布的联合适应工作。
JDA能够弥补经典迁移学习方法迁移成分分析(transfer component analysis, TCA)仅考虑边缘概率分布适应的局限,综合考虑了2种概率分布,进而提升了迁移学习效果。
JDA的基本原理概述如下:分别给定有标签的源域数据DS={(x1,y1),…,(xnS,ynS)}和目标域数据DT={(xnS+1),…,(xnS+nr)},nS和nT分别为源域和目标域样本数,且2个域数据间的边缘概率分布和条件概率分布均存在差异,即Qs(ys|xs)≠QT(yT|xT)和Ps(xs)≠PT(xT),JDA算法目标是利用DS和DT学习得到一个特征映射变换矩阵W,使得经变换后的域数据的Ps(WTxs)和PT(WTxT)、Qs(ys|WTxs)和QT(yT|WTxT)之间距离尽可能减小。
因此,JDA算法包括2个方面的优化目标:
1)实现源域和目标域数据的边缘概率分布适应,即Ps(WTxs)和PT(WTxT)之间的最大均值差异(maximum mean discrepancy, MMD)最小,优化目标表达式如下:
=tr(WTXM0XTW)
(7)
式中:M0为边缘概率分布MMD矩阵;X为源域和目标域样本集合;tr为取矩阵的迹;
2)实现源域和目标域数据的条件概率分布适应目的,即Qs(ys|WTxs)和QT(yT|WTxT)之间的MMD最小,优化目标表达式如下:
(8)
基于上述两方面优化目标,可得JDA总优化目标如下:
(9)
关于JDA原理的详细描述可参考文献[18]。
1.4.2 邻域保持嵌入
NPE是经典流形学习算法局部线性嵌入(locally linear embedding,LLE)[19]的一种线性逼近。NPE算法目标是将高维数据映射到低维空间时保持其流形结构。
该算法的步骤如下:
1)选择近邻,构建邻图G。基于K最近邻方法,对数据样本点构造邻图。其中,第i个节点对应数据样本点xi,根据欧式距离来计算xi与相邻节点xj间距离,距离属于近邻范围的话,则将两个节点相连,构建G;
(10)
该矩阵W′可通过最小化重构损失函数求解,再将yi=ATxi代入损失函数求解,得到转化后的表达式如下:
P(A)=min(tr(ATXZXTA))
(11)
式中:A为映射矩阵;X为输入的样本数据。
其中:
Z=(I-W′)T(I-W′),I=diag(1,…,1)
(12)
3)为进一步求解映射矩阵A,可将式(14)的优化求解问题转化为广义特征向量最小特征值的求解问题。
优化问题表达式如下:
XZXTa=λXXTa
(13)
式中:λ为特征值;a为特征值对应的特征向量,根据特征值升序排列,选取特征值对应的特征向量构建新的特征子集。
NPE算法的运算流程如图2所示[20]。
图2 NPE算法运算流程
1.4.3 流形嵌入的联合分布自适应
虽然,JDA能够弥补TCA仅考虑边缘概率分布适应的局限,其综合考虑了两种概率分布,进而提升了迁移学习效果;但是其直接对源域和目标域样本进行两种分布的适应,仍存在局限,即在原始数据空间中进行两种分布适应时,无法克服特征扭曲的问题[21,22],导致分布适应效果不佳。因此,笔者提出一种思路,将原始数据空间进行流形学习,原始数据空间映射到流形子空间后,再进行两种分布的适应,进而克服由于特征扭曲而带来的分布适应效果不佳的问题。
基于上述改进思路,笔者提出基于特征流形学习和概率分布适应的改进联合分布自适应,该方法的步骤如下:
1)将DS数据输入NPE算法,流形子空间维度参数,进行流形特征学习,获得新的特征子集ZS和特征映射矩阵A;
2)基于第一步获得的映射矩阵,对DT数据进行映射转换,获得新的特征子集ZT;
3)将前两步获得的ZS和ZT作为联合分布适应的输入,计算式(8)、式(9)中的MMD矩阵,即M0和Mc;
为验证该BIFD-IJDA方法对于变工况下轴承故障诊断的有效性、优越性和适应性,笔者采用美国凯斯西储大学轴承故障数据和自有实验平台轴承故障数据进行实验验证。
采用2种故障数据的原因为:美国凯斯西储大学的数据在轴承领域内非常普遍地被用于故障诊断方法验证;第二种自有的轴承故障数据,采用的故障缺陷产生方法以及缺陷尺寸、工况等设置,均与美国凯斯西储大学实验中的设置不同。
因此,为验证该方法的普遍适应性,笔者增加第二种自有故障数据下的实验。
2.1.1 实验数据与任务设置
笔者采用美国凯斯西储大学轴承故障数据集中4种工况下的12种轴承状态数据进行实验分析。
实验平台如图3所示。
图3 美国凯斯西储大学轴承故障实验台
实验台轴承的4种工况分别为0 horse power(hp)、1 hp、2 hp和3 hp,对应的电机转速分别为1 797 r/min、1 772 r/min、1 750 r/min和1 730 r/min;12种轴承状态有4类:正常状态、滚动体缺陷故障、内圈缺陷故障和外圈缺陷故障(其中,滚动体缺陷故障和内圈缺陷故障均有4种故障尺寸,分别为0.017 78 mm、0.035 56 mm、0.053 34 mm和0.071 12 mm;外圈缺陷故障有3种故障尺寸,分别为0.017 78 mm、0.035 56 mm和0.053 34 mm)。
针对每种轴承状态,笔者随机选择60组振动数据样本,其中随机选取20组作为训练数据集,剩余40组作为测试数据集,每组数据集共包含2 000个连续采样数据点。
根据轴承经常工作在恶劣变工况环境的实际情况,笔者设置多个不同工况下轴承故障诊断任务,对该方法进行验证。基于4种工况的故障数据,笔者设置12个不同工况下故障诊断任务,即任务1~12。其中,任务1~3中,均采用179 7 r/min下的数据作为源域(训练样本),分别采用177 2 r/min,175 0 r/min和173 0 r/min下的数据作为任务1~3的目标域(测试样本);任务4~6中,均采用1 772 r/min下的数据作为源域(训练样本),分别采用1 797 r/min,1 750 r/min和1 730 r/min下的数据作为任务4~6的目标域(测试样本);任务7~9中,均采用1 750 r/min下的数据作为源域(训练样本),分别采用1 797 r/min,1 772 r/min和1 730 r/min下的数据作为任务7~9的目标域(测试样本);任务10~12中,均采用1 730 r/min下的数据作为源域(训练样本),分别采用1 797 r/min,1 772 r/min和1 750 r/min下的数据作为任务10~12的目标域(测试样本)。
在上述12种故障诊断任务下,进行两方面的实验验证与分析,即:
1)验证该BIFD-IJDA方法对不同工况下故障诊断的有效性;
2)验证该TFFK与IJDA方法对提高故障诊断准确率的有效性和优越性。
因此,笔者设置了一些对比模型,开展了实验验证。
首先,设置由经典机器学习和深度学习方法构建的故障诊断模型,和BIFD-IJDA方法进行对比,验证BIFD-IJDA方法在取得理想的故障诊断准确率方面的优势。该模型构成基于原始特征集(raw characteristic set, RCS)和经典机器学习方法,包括支持向量机(support vector machine, SVM)、K最近邻(k-nearest neighbor,KNN)、深度置信网络(deep belief network, DBN)、深度自编码器(deep auto-encoder, DAE)和卷积神经网络(convolutional neural network,CNN)。
进行对比的模型分别是:RCS-SVM、RCS-KNN、RCS-DBN-SoftMax,RCS-DAE-SoftMax和RCS-CNN-SoftMax。其中,RCS-SVM和RCS-KNN模型分别是直接采用原始特征集输入SVM和KNN,进行故障诊断模型训练与测试;RCS-DBN-SoftMax、RCS-DAE-SoftMax和RCS-CNN-SoftMax模型分别将原始特征集输入DBN、DAE和CNN中,然后再结合SoftMax分类器训练故障诊断模型。
然后,选用经典迁移学习方法TCA、JDA和GFK(geodesic flow kernel),构建RCS-TFFK-TCA、RCS-TFFK-JDA和RCS-TFFK-GFK模型。这3种模型均是将原始特征集经TFFK方法处理后,获得特征子集,再分别将其输入到迁移学习方法TCA、JDA和GFK中,得到迁移学习后的特征数据。
最后,训练SVM分类器,获得故障诊断模型。
2.1.2 实验结果分析
1)验证BIFD-IJDA方法对不同工况下故障诊断的有效性
根据图1所示的BIFD-IJDA流程,笔者首先进行原始振动信号处理和特征提取,共提取出352个统计特征构成RCS;随后,将RCS输入迁移特征选取方法TFFK中,对各统计特征的可迁移性进行量化评估,选取可迁移性指标高的特征输入该改进联合分布适应,并进行特征迁移学习,降低源域和目标域样本间的分布差异;最后,采用SVM来训练故障诊断模型,将经特征迁移学习后的有标签源域特征集用于故障诊断模型训练,再将已训练好的模型用于无标签目标域特征集的故障模式识别与分类,获得故障诊断准确率。
BIFD-IJDA模型的最大故障诊断准确率分别为:97.92%、100%、96.25%、93.75%、100%、99.17%、94.17%、98.75%、99.58%、93.33%、98.33%和100%,验证了BIFD-IJDA方法对不同工况下故障诊断的有效性。
2)验证TFFK与IJDA方法对提高故障诊断准确率的有效性和优越性
笔者在12个不同工况下故障诊断任务基础上,设置了一系列对比模型。其中,任务1~4下的不同模型故障诊断准确率对比结果,如表1所示。
表1 任务1~4下的不同模型故障诊断准确率对比
任务5~8下的不同模型故障诊断准确率对比如表2所示。
表2 任务5~8下的不同模型故障诊断准确率对比
任务9~12下的不同模型故障诊断准确率对比如表3所示。
表3 任务9~12下的不同模型故障诊断准确率对比
由表1~表3可知:
BIFD-IJDA模型的最大故障诊断准确率明显高于RCS-SVM、RCS-KNN、RCS-DBN-SoftMax、RCS-DAE-SoftMax和RCS-CNN-SoftMax模型的故障诊断准确率,且这5种模型的最大故障诊断准确率均未超过90%。上述结果表明了它们应用于不同工况下故障诊断的劣势。
RCS-TFFK-TCA、RCS-TFFK-JDA和RCS-TFFK-GFK模型的最大故障诊断准确率明显高于RCS-TCA、RCS-JDA和RCS-GFK模型的故障诊断准确率,RCS-TFFK-TCA模型在12个任务下的最大故障诊断准确率分别比RCS-TCA高26.62%、32.00%、37.12%、13.67%、20.21%、20.83%、19.96%、19.80%、20.29%、16.63%、19.58%、18.13%。RCS-TFFK-JDA模型在12个任务下的最大故障诊断准确率分别比RCS-JDA的最大故障诊断准确率高22.67%、26.33%、25.17%、13.29%、20.00%、20.25%、16.62%、17.50%、15.00%、18.83%、17.12%、16.83%。RCS-TFFK-GFK模型在12个任务下的最大故障诊断准确率分别比RCS-GFK高27.91%、33.55%、33.54%、16.25%、25.16%、26.00%、25.21%、25.80%、26.29%、19.25%、27.17%、28.75%。上述结果表明,TFFK方法提升迁移学习效果明显,使不同工况下故障诊断准确率得到明显地提升。
BIFD-IJDA模型的最大故障诊断准确率高于RCS-TFFK-TCA,RCS-TFFK-JDA和RCS-TFFK-GFK模型,BIFD-IJDA模型的12个任务下的诊断准确率分别比RCS-TFFK-TCA模型高4.17%、5.17%、3.46%、2.95%、3.12%、3.34%、1.42%、3.12%、1.79%、0.20%、4.58%、3.12%;比RCS-TFFK-JDA模型高1.42%、2.50%、1.25%、1.46%、1.50%、2.09%、0.42%、2.50%、1.25%、-1.88%、1.04%、1.50%;比RCS-TFFK-GFK模型高6.88%、10.62%、9.58%、8.33%、2.71%、3.34%、3.79%、3.12%、1.41%、8.75%、9.16%、0.42%。上述结果表明,IJDA在提升特征迁移学习效果、降低源域和目标域数据间分布差异上,优于经典特征迁移学习方法TCA、JDA和GFK。
为进一步验证BIFD-IJDA方法的适应性,笔者进行案例2实验分析,其中,所采用的轴承故障数据采集自MFS机械故障综合模拟实验台[23]。
该机械故障综合模拟实验台如图4所示。
图4 MFS机械故障综合模拟实验台
该案例的轴承故障数据集中包括2种工况下的10种轴承状态数据。2种工况分别为1 200 r/min和1 500 r/min;10种轴承状态有4类:正常状态、滚动体缺陷故障、内圈缺陷故障和外圈缺陷故障,其中,滚动体缺陷故障,内圈缺陷故障和外圈缺陷故障均有3种故障尺寸,分别为0.05 mm、0.01 mm和0.02 mm。针对每种轴承状态,笔者随机选择90组振动数据样本,其中随机选取30组作为训练数据集,剩余60组作为测试数据集,每组数据集共包含5 000个连续采样数据点。
该案例设置2个故障诊断任务,任务1采用1 200 r/min下的数据作为源域(训练样本),采用1 500 r/min下的数据作目标域(测试样本);任务2采用1 500 r/min下的数据作为源域(训练样本),采用1 200 r/min下的数据作目标域(测试样本)。实验步骤和内容与案例1相同。
故障诊断案例2中,任务1和任务2下的不同模型故障诊断准确率如表4所示。
表4 故障诊断案例2中任务1和任务2下的不同模型故障诊断准确率
根据表4中的实验结果可知:在任务1和任务2下,BIFD-IJDA模型的最大故障诊断准确率分别达到了96.29%和93.70%,明显高于其他模型的诊断准确率。该结果进一步验证了其有效性和优越性。
笔者提出了一种基于改进联合分布适应的提升机轴承智能故障诊断方法(BIFD-IJDA)。该方法主要包括信号处理与特征提取、迁移特征选取、数据分布适应以及故障模式识别四部分。
为验证该方法的有效性、优越性和适应性,笔者采用美国凯斯西储大学轴承故障数据和MFS实验台轴承故障数据,分别对该方法进行了实验分析。
研究结果表明:
1)采用BIFD-IJDA方法构建的故障诊断模型,能够在不同工况下取得较高的故障诊断准确率,且其诊断准确率明显高于其他模型的准确率;
2)TFFK与IJDA方法对提高故障诊断准确率具有明显的效果,RCS-TFFK-TCA、RCS-TFFK-JDA和RCS-TFFK-GFK模型的最大故障诊断准确率明显高于RCS-TCA、RCS-JDA和RCS-GFK模型的诊断准确率;
3)IJDA具有比经典迁移学习方法TCA、JDA和GFK更优的性能,能够取得更高的故障诊断准确率。
下一步工作中,笔者将继续开展泛化能力更强的跨设备轴承故障诊断方法研究,包括特征可迁移性量化评估方法的进一步优化,以及基于不同距离度量的流形结构挖掘方法研究等。