朱乐文,田 兴*,李宪华
(1.安徽理工大学 人工智能学院,安徽 淮南 232001;2.安徽理工大学 人工智能与大数据研究院,安徽 淮南 232001)
滚动轴承是旋转机械中广泛使用的关键部件之一,其在复杂环境中经常出现故障[1]。滚动轴承发生故障时,其加速度信号中会产生一系列宽带脉冲响应[2],影响旋转机械的稳定性[3],甚至发生事故。因此,对轴承进行故障诊断具有重要意义[4-5],同时也可以降低机械设备的使用成本[6-8]。
传统的轴承故障诊断方法主要是基于信号处理的原理,利用经验模态分解、变分模态分解、小波变换等方法对轴承故障原始信号进行采集与特征分析[9]。
WANG Hua-qing等人[10]采用独立分量分析和集成经验模态分解的方法对轴承故障进行采集与特征分析,提高了滚动轴承复合故障识别的准确率;但其未考虑面临强噪声干扰的条件下,模型的故障诊断性能是否仍然优异。LIU Rui-jie等人[11]提出了一种基于粒子群优化和布谷鸟搜索优化变分模态分解(variational mode decomposition,VMD)的滚动轴承故障诊断方法,采用该方法有效地提高了模型的收敛速度;但该方法需要进行较为复杂的信号分解。
以上算法虽然可以有效提取轴承故障振动信号的特征,但是都是采用信号分解的方法对故障信号进行分析,需要手动提取故障特征,流程较为复杂。
深度学习(deep learning,DL)方法作为一种新兴的数据挖掘技术,在机械故障诊断中的应用较普遍[12],其是一种端到端的识别方法,可自适应提取特征,解决了人工特征提取的缺陷[13]。
LIU Xian等人[14]引入了粒子群优化算法,并将其和一维卷积相结合对一维振动信号进行了处理,该方法可以自适应地调节模型的超参数;但其自动获取的超参数效果难以得到保证。NACER S M等人[15]对图像进行了快速傅里叶变换,得到了图像的频谱,再将样本的频率数据重组为序列,输入到双向长短期记忆网络(bi-directional long short-term memory, Bi-LSTM),进行了轴承故障特征提取及分类,其优点是降低了计算成本。WEN Long等人[16]提出了将信号转化为二维图像,成功地将故障诊断问题转化为图像分类问题,得到了较高的准确率;但该方法只是简单地按照顺序将信号转化为图像,未考虑信号之间的时序信息。
上述算法需要将轴承原始振动信号输入到一维卷积神经网络或转换为灰度图,在这个过程中,均未能保留轴承振动信号的时间序列相关性特征。
针对以上问题,笔者提出基于改进条纹注意力机制与深度残差收缩网络(ISAM-Drsnet)的滚动轴承故障诊断模型;利用ISAM和改进软阈值算法降低噪声的影响,并将滚动轴承振动信号转化为递归图(RP),获取信号之间的时间序列相关性特征;最后将其输入到模型的分类器中,对滚动轴承的故障进行诊断。
RP是一种系统状态可视化的方法,可以捕捉时间序列的隐藏动态和纹理特征。RP变换可以将任意一种一维波形信号转换成具有丰富纹理信息的图像。
RP本质上是一种时到时的信号处理方法,常被用于将具有时序规律的一维信号转化成二维图像,然后进行处理。其可以解释为时序数据的特征提取算法,通过递归关系将标量时间序列映射到2D数字图像上,这样就能够使用机器学习算法对原始时间序列汇总提取的特征进行分类。RP是分析时间序列周期性、混沌性以及非平稳性的一种重要方法。时间序列数据可以使用周期性和不规则周期性等重复性行为进行分类。
揭示从当前状态到前一状态的轨迹运动关系是RP的主要功能,其对应的表达式如下[17]:
Ri,j=θ(ε-‖Sl-Sm‖),S(.)∈Rn,1,m=1,2,…,K
(1)
式中:ε为距离的阈值;K为S的状态数;‖.‖为范数;θ(.)为Heaviside函数。
RP的构建方式是将时间序列中每个点与所有其他距离小于某个阈值的点进行比较。如果两个点之间的距离小于阈值,则在递归图中对应的位置绘制黑色点;否则,绘制白色点。因此,ε阈值大小影响RP的输出,阈值参数的选择对于建立有意义且具有代表性的递归关系至关重要。
基于时间序列的属性,笔者将阈值设置为任意两个点之间最大距离的20%。此外,为了在递归图像中找到可区分的模式,笔者使用了一种编码时间序列状态的循环程度。
设T是一个有n个点的时间序列,T的RP表示如下[18]:
Ri,j=f(Ti,Tj)
(2)
式中:f为距离函数,用于编码时间序列Ti状态的循环程度。
其中i,j∈{1,2,…,n}。
滚动轴承数据生成的RP图像如图1所示。
图1 时域波形图和递归图像
由图1可知:利用RP编码方式,一维振动信号已成功转化为具有时序关系的二维图。
受限于硬件设备信息处理能力,注意力机制可以忽略次要信息,只关注重要信息,也可以将有限的信息处理资源分配给重要特征,网络模型可以重点训练该特征。
HOU Q等人[19]针对场景解析问题提出了一种池化策略,在此基础上,笔者提出了改进条纹注意力机制(ISAM),并将其引入到轴承故障诊断领域。
改进条纹注意力机制(ISAM)具体如图2所示。
图2 改进条纹注意力机制
由图2可知:使用ISAM对输入特征的行和列的信息分别进行权重分配,并保留其重要信息,输入到网络模型中;在原始池化策略的基础上,笔者设计了通道注意力机制,将经过扩展后的特征图作为通道注意力机制的输入。
首先,该特征图经过全局平局池化层(global aver-age pooling, GAP)、全连接层(fully connected layer, FC)、批标准化(Batch Normalization, BN)处理;随后经过ReLU激活函数层、全连接层处理;最后经过Sigmoid激活函数层输出。
ISAM具体实现过程为:
首先对输入的特征图进行自适应平均池化,以提取特征图的行列信息,并进行卷积操作;再经过插值函数,将横竖条纹信息扩张成原始特征图大小;接着经过通道注意力机制提取来分配权重,和生成的扩展图进行相乘操作;右半部分图进行同样操作,最后将左右部分的行列特征信息进行融合,经过卷积和Sigmoid之后生成0或1,再和原始特征图相乘操作,便可以得到输出的特征图。
该注意力机制具有以下优点,即它沿着行列两个维度各部署了一个长内核,因此其能够捕获孤立区域的长距离关系,有助于捕获局部上下文,并防止无关区域干扰标签。
随着网络层数的增加,深度神经网络容易出现梯度消失或梯度爆炸的问题,导致网络训练困难。而深度残差收缩网络的提出,较好地解决了上述问题。该网络将软阈值化作为非线性层引入ResNet的网络结构之中,提高了深度学习方法在含噪声数据或复杂数据上的特征学习效果;并使用通道注意力模块学习网络特征,自动设置软阈值的阈值大小,避免了人工选择阈值的操作。
软阈值函数的表达式如下[20]:
(3)
式中:x为输入特征;y为输出特征;τ为正阈值。
其导数表达式为:
(4)
由式(4)可以看出,软阈值的导数等于0或1。这可以有效降低梯度消失和梯度爆炸的风险。
软阈值对应的函数图像和导数图像如图3所示。
图3 软阈值函数图像和导数图像
由图3可知:左边为软阈值的函数图像,右边为对应的导数图像,在以上软阈值函数中,y和x存在的恒定偏差会导致去噪效果的偏差较大,而且sign函数容易在间断点处出现震荡。
综合以上考虑,改进的软阈值函数表达式如下:
(5)
式中:x是输入特征;y是输出特征;τ是正阈值。
改进的软阈值函数图像如图4所示。
图4 改进的软阈值函数图像
由图4可知:y和x之间的偏差不再固定,且在间断点处未出现震荡。
残差收缩单元是构成Drsnet的基本单元,如图5所示。
图5 残差收缩单元
由图5可知:每个基本模块含有一个软阈值处理机制,软阈值函数采用1.3节提出的改进软阈值,软阈值的阈值经过通道注意力机制获取,面对不同的特征图,生成不同的阈值,免去了人工设置阈值的操作。
该残差收缩单元(residual shrinkage building units,RSBU)包含了残差网络的特点,并将软阈值引入到该单元中,即构成了深度残差收缩网络结构模型的基本单元。
网络模型ISAM-Drsnet充分利用了RP可以保留时序信息的能力,以及ISAM-Drsnet网络模型自身强大的特征自动提取能力,最终实现对轴承故障进行诊断识别的目的。
首先,笔者采用滑动窗口以及固定步长,即重叠采样的方式,将原始轴承故障振动信号构造为训练和测试样本;采用RP编码思想,将滚动轴承原始的一维故障振动信号转化为具有时序特征的二维矩阵;然后,将转换的图像作为特征图输入到构建好的ISAM-Drsnet网络模型中,并对参数进行调优,使其能够最大限度地提取轴承故障特征信息,得到不同滚动轴承故障类别的特征信息;最后,利用交叉熵损失函数建立它们和对应故障类别之间的评估体系,从而完成故障诊断任务。
笔者将每个基本模块(即图5所示的残差收缩单元)组合在一起,并在每个基本单元之后插入一个图2所示的ISAM模块,构成总体框架图,即构成了笔者所提出的主体网络架构。
ISAM-Drsnet结构图演变过程(总体结构图)如图6所示。
图6 ISAM-Drsnet结构图演变过程
图6中,Isoft是1.3节提出的软阈值函数。输入图片大小为1 024×1 024×3,其经过数据预处理变为224×224×3;接着依次经过后面的卷积层、池化层、RSBU单元和ISAM模块,最终经过全连接层,其将输入图像分为10类。
为了验证ISAM-Drsnet模型的有效性和优越性,笔者首先选取合适的数据集,并对其进行数据增强、设定划分比例等操作,然后构建数据集,使其能够满足实验的要求。
3.1.1 数据集介绍
美国凯斯西储大学(Case Western Reserve Univer-sity, CWRU)公布的滚动轴承数据集是用来测试轴承故障诊断算法的标准数据集。
该实验平台由1.5 kW电机、扭矩传感器、功率测试计和电子控制器组成。其滚动轴承型号为深沟球轴承SKF-6205-2RS JEM。实验样本选取转速为1 797 r/min,负载为0 hp工况条件下的驱动端(DE)加速度数据,使用加速度传感器来获取滚动轴承的振动加速度信号,信号由16通道数据记录仪采集,频率为12 kHz。
笔者采用的滚动轴承的内圈、外圈和滚动体表面故障深度均为0.28 mm。实验所选轴承单点直径损伤分别为0.18 mm(0.007 in)、0.36 mm(0.014 in)、0.53 mm(0.021 in)。滚动轴承出现故障的部位有滚动体、内圈以及外圈共3处,每个部位对应3种单点直径。
因此,笔者采用的实验数据由1种正常数据以及9种故障数据组成。
原始实验数据为一维原始振动信号。笔者利用设置的窗口和移动步长来进行样本划分,通过实验选择了数据截取长度为1 024,并通过RP编码方式将轴承原始振动样本转化为二维图片。训练集和测试集的划分比例为8 ∶2[21],训练集和测试集共计4 700张样本。
笔者所用滚动轴承故障样本具体情况如表1所示。
表1 滚动轴承故障数据
3.1.2 重叠采样
深度学习的最大特征之一是需要大量数据才能获得较好的训练效果,达到较高的故障诊断精度。
为了充分利用现有轴承振动数据,笔者对轴承振动信号进行重叠采样,即设置一个指定滑动步长的窗口对数据进行截取,该窗口通过滑动进行数据采集。
数据截取采样示意图如图7所示。
图7 数据截取采样示意图
由图7可知:原始轴承振动信号为实线框内部分,每个虚线框大小即为采样的窗口大小,图中标注的重叠部分即为窗口的滑动步长。
3.1.3 RP特征图像生成
轴承振动信号具有周期性,因此,笔者采用RP编码方式生成二维特征图,充分利用RP编码可以保留时间信息的能力,将信号按照重叠采样的方式获取一个个的数据样本,并经过RP编码成特征图像。
生成的特征图像如图8所示。
图8 使用递归图像编码技术所得滚动轴承故障特征图
由图8可知:笔者对长度为1 024的样本进行RP编码,将9种故障类型和1种正常数据生成了具有纹理特征的二维图像,其是具有时序特征的二维纹理图像。阈值的大小可以影响RP图中点的疏密程度,而点的疏密程度可以反映出信号特征,合适的阈值可以使生成的RP图之间的区别更加明显。
其区别体现在像素点之间和具有明显特性的纹理方面,即滚动轴承振动信号时间序列越稳定,其RP图的纹理分布越均匀;反之,其RP图的纹理细节越显著。
根据纹理细节之间的区别,模型可以判别出滚动轴承的故障类型。
3.1.4 数据截取长度实验
根据轴承故障数据采集装置的特点,轴承振动具有周期性。重叠采样的窗口设置大小决定截取样本的长度大小,因此,窗口大小直接影响所截样本中包含故障特征的多少。
针对此种情况,笔者设计了不同大小的滑动窗口对实验结果影响的对比实验,实验结果如图9所示。
图9 数据截取长度对比实验
由图9可知:根据模型的稳定性和诊断精度,得出滑动窗口大小为1 024时的模型效果最好。
为了验证改进的软阈值函数模型在故障诊断中的作用,笔者在原始数据集和添加了8 dB噪声的数据上,使用改进软阈值的算法和未改进的软阈值算法进行验证,其结果如图10所示。
图10 有无噪声数据的准确率和损失值变化
由图10可知:相比未进行改进软阈值的算法,添加改进软阈值函数的算法更加稳定,准确率更高,损失值更低。
笔者将网络模型设置为Batch Size=4,epochs=100;选取Adam参数优化器;设置学习率为恒定的0.000 1,采用非线性激活函数ReLU,并使用BN来加速网络模型速度,以提高模型的泛化能力。
经过数据预处理,将图片转化成大小为224×224×3,并将其输入到网络中进行10分类。
模型经过100轮训练,得到的结果如图11所示。
图11 准确率和损失值变化曲线
由图11可知:ISAM-Drsnet模型比Drsnet模型精度更高,ISAM-Drsnet模型准确度可达99.79%,比Drsnet模型精度高出1.60%;ISAM-Drsnet模型的损失值比Drsnet模型的损失值更低,也更稳定。
因此,ISAM-Drsnet模型具有更好的稳定性。
为了更清晰地观察ISAM-Drsnet模型对滚动轴承故障识别的能力,笔者引入了混淆矩阵评价指标,对轴承故障诊断结果进行了可视化分析。
混淆矩阵详细地反映了滚动轴承不同故障类型的误判数量和误判类型,生成的混淆矩阵如图12所示。
图12 混淆矩阵
为了更清晰地观察ISAM-Drsnet模型对滚动轴承故障识别的能力,笔者使用t-SNE对数据的特征进行可视化分析,结果如图13所示。
图13 特征分布图
由图13可知:特征分布图反映了ISAM-Drsnet网络对滚动轴承原始故障数据优秀的特征提取能力,以及对故障类型的突出分类能力。
原始数据的特征分布比较分散,各种故障类型数据和正常数据混在一起,而训练后输出的特征分布除极个别的数据点外,不同类型的数据点完全分离并聚成一簇,取得了良好的分类效果。
在实际生产中,收集滚动轴承的故障情况比较困难,因此收集到的滚动轴承故障数据集规模不够,而且小规模数据集在大参数量的深度学习网络模型的训练中可能会出现过拟合现象。
针对上述情况,笔者设计了不同数据集规模下的轴承故障诊断性能对比实验,以验证ISAM-Drsnet模型在小数据集规模下仍具有优异的性能。
笔者按照总数据集规模的100%、60%、30%划分3个不同数据集,使用该模型分别在这3个数据集下进行实验;并将该模型和支持向量机(support vector machine, SVM)、反向传播神经网络(backpropagation neural network, BPNN)、卷积神经网络(convolutional neural networks, CNN)进行对比。为减小误差,每种算法在3种不同规模的数据集下分别实验5次,并计算其平均值。
模型的平均识别准确率实验结果如表2所示。
表2 模型的平均识别准确率
由表2可知:
1)在笔者选择的3种不同规模数据集对比实验中,经过实验验证,ISAM-Drsnet滚动轴承故障诊断网络模型在数据集规模为总数据集规模的100%时,平均识别准确率为99.79%,高于BPNN的78.35%、CNN的93.03%、SVM的86.49%;
2)在数据集规模为60%时,ISAM-Drsnet网络模型平均诊断精度为99.25%,相比总数据集规模的100%,准确率仅下降了0.54%,而BPNN的平均准确率降低了6.55%,CNN和SVM的平均准确率分别降低了0.6%、1.56%;
3)在数据集规模为30%时,ISAM-Drsnet网络模型的平均诊断精度为98.50%,相比总数据集规模的100%,准确率仅下降了1.29%,而BPNN的平均准确率降低了14.85%,CNN和SVM的平均准确率分别降低了3.1%、2.81%。
因此,ISAM-Drsnet网络模型具有较强的鲁棒性以及较高的故障识别准确率[22]。
具有随机分布特性的工业噪声难以被模拟和量化,因此,高斯白噪声被广泛用于各种抗噪声研究中。
噪声的强度是由信噪比值(signal-to-noise ratio,SNR)控制的,SNR是指系统中的信号与噪声的比值[23]。信噪比的定义表达式如下:
(6)
式中:Ps为信号的功率;Pn为噪声的功率;lg表示基于10的对数。
由以上公式可知,信噪比越高,噪声越小。
为验证ISAM-Drsnet轴承故障诊断网络模型在添加噪声条件下的优异性能,笔者设计了故障算法性能对比实验;即将指定信噪比大小为0 dB、8 dB、20 dB、50 dB的高斯白噪声添加到要输入的轴承数据中,并将其输入到ISAM-Drsnet网络模型中进行故障诊断。
添加噪声后的模型识别准确率结果如表3所示。
表3 添加噪声后的模型识别准确率
由表3可知:在面对噪声干扰时,ISAM-Drsnet轴承故障诊断模型的诊断精度高于其他模型;即使在SNR为0 dB、8 dB、20 dB和50 dB时,该诊断精度分别为97.12%、98.40%、99.15%和99.15%,相比BPNN、SVM、CNN,其仍具有优异的效果。
因此,该模型具有优秀的诊断性能和较强鲁棒性。
实际工况下,滚动轴承可能处于噪声环境下或面临缺乏数据集的情况,轴承故障有效特征提取困难,无法充分挖掘故障数据的时间序列关联性特征,从而导致无法对滚动轴承故障进行高精度诊断判别。为此,笔者提出了一种基于ISAM-Drsnet网络模型的滚动轴承故障诊断方法。
首先,利用ISAM和改进软阈值算法降低噪声的影响;然后将滚动轴承振动信号转化为递归图(recurrence plots, RP),获取信号之间的时间序列相关性特征;最后将其输入到模型的分类器中,对滚动轴承的故障进行诊断。
研究结果表明:
1)ISAM-Drsnet利用RP编码将原始滚动轴承振动信号转化为二维图像,并使用重叠采样增强数据,通过模型对二维图像进行了特征提取,再将其输入分类器,从而完成对滚动轴承的故障诊断任务;
2)使用改进软阈值和ISAM对输入特征进行了关注程度区分,结合Drsnet网络模型对滚动轴承故障进行了识别诊断,ISAM-Drsnet网络模型识别准确率可达99.79%,相比原始的Drsnet上升了1.60%;
3)在数据集规模为总数据集规模的30%和添加0 dB噪声的条件下,分别进行了对比实验验证,结果发现,ISAM-Drsnet模型的故障诊断平均准确率分别可达98.50%和97.12%,高于BPNN、SVM、CNN等模型的准确率,证明该模型具有优异的故障诊断性能和极强的鲁棒性。
目前,笔者只采用了监督学习的方式对有标签的数据进行研究,但现实中往往会面临无标签的数据。因此,在后续的研究中,笔者将在充分考虑变工况条件下模型的泛化性等问题基础上,采用无监督学习的方法对无标签数据进行研究。