基于改进注意力机制的CNN 的齿轮箱故障诊断

2024-01-03 00:00:00邵浙梁戚知宽周邵萍
关键词:注意力机制卷积神经网络齿轮箱

摘要:针对实际工况中齿轮箱振动信号复杂多变,导致传统基于卷积神经网络(ConvolutionalNeural Networks, CNN)的齿轮箱故障诊断方法存在诊断精度不高、训练收敛性能差等问题,首先,提出一种改进的注意力机制和一种基于注意力机制的软阈值激活函数,在此基础上,构建基于改进注意力机制的CNN 故障诊断模型;然后,通过齿轮箱开源数据集的实验数据,验证改进的注意力机制和基于注意力机制的软阈值激活函数能否有效提升模型的诊断精度和训练收敛性能;最后,将构建的模型应用于实际工况齿轮箱的故障诊断。结果表明,构建的模型满足某企业齿轮箱出厂检测的需求,在诊断精度和训练收敛性等方面具有优势。

关键词:故障诊断;卷积神经网络;注意力机制;软阈值激活函数;齿轮箱

中图分类号:TH132 文献标志码:A

齿轮箱是通过齿轮的啮合传递动力,改变输出轴的转速和转矩,从而实现机械传动的装置。由于复杂的环境工况,在速度和载荷的多重作用下,齿轮箱易发生故障而导致设备剧烈振动或失效[1]。因此,开展齿轮箱故障诊断的研究具有重要意义。针对齿轮箱振动信号复杂多变的特点,传统的基于信号处理的方法提取故障特征较为困难。基于数据驱动的方法凭借其不需要依赖工程经验和普适性好的特点,在近些年得到大量研究者的关注。其中,卷积神经网络(Convolutional Neural Networks, CNN) 由于其能够提取非线性特征的强大能力,成为齿轮箱故障诊断的主流手段[2]。

然而,基于CNN 的齿轮箱故障诊断方法还存在一定的局限性。一方面通过卷积得到的齿轮箱信号特征存在大量冗余信息,阻碍了诊断模型在分类精度和训练收敛性能方面的进一步提升[3]。因此,如何在复杂特征中提取到相关性更大的信息,成为了进一步提高CNN 诊断模型性能的研究重点。为了解决该问题, 注意力机制被引入齿轮箱故障诊断。Liu 等[4] 提出了一种堆叠残差多注意力网络作为振动信号特征提取的手段,实现了对齿轮箱的诊断;孔子迁等[5] 结合了时频域分析与注意力机制,对齿轮箱进行了精准诊断。但是上述注意力机制没有针对一维振动信号进行特别设计,其中常规的池化操作存在特征信息丢失现象[6]。另一方面,齿轮箱振动信号是一种非线性信号[7],CNN 的非线性表达能力依赖于激活函数,而常用的线性整流函数(Rectified LinearUnit,ReLU) 作为一种强制稀疏处理,负域中的零信号会阻碍反向传播[8-9]。杨文哲等[10] 在一维CNN 中引入了高斯误差线性单元激活函数(Gaussian ErrorLinear Units,GELU),实现了对齿轮箱的精确诊断,但是GELU 激活函数计算量大,参数调整困难;李俊卿等[11] 利用可训练的ReLU 激活函数(Trainable ReLU,TReLU) 改进GoogLeNe,实现了强噪声下的齿轮箱故障诊断,但是TReLU 线性修正的特点影响了网络的非线性表达能力。

本文提出一种基于CBAM(Convolutional BlockAttention Module)改进的(Strengthened-ConvolutionalBlock Attention Module,S-CBAM)注意力模块,能够更全面关注齿轮箱振动信号中的关键特征;同时,结合注意力机制和软阈值函数构造一种轻量级的软阈值函数网络(Soft Thresholding Network,ST-Net) 来作为CNN中的非线性映射函数,更有效地提升齿轮箱故障诊断模型的非线性表达能力。在此基础上构建基于改进注意力机制的CNN(CNN based on ImprovedAttention Mechanism,IAMCNN) 诊断模型,并用开源数据验证模型的有效性,最后应用于实际工况的诊断。

1 理论基础

1.1 一维卷积神经网络

一维卷积神经网络(1D Convolutional NeuralNetwork,1D-CNN) 是卷积神经网络的一种变体,它具有处理一维时序信号的强大能力[12],其核心操作卷积层通过滑动一个固定大小的卷积核在一维数据上进行卷积以提取特征,如图1所示。

1.2 CBAM 注意力模块

CBAM 模块[13] 是一种同时考虑了通道注意力和空间注意力的注意力模块,卷积层输出的特征先后经过通道注意力模块(Channel Attention Module,CAM)和空间注意力模块(Spatial Attention Module, SAM),计算加权之后得到一组新的特征。

如图2 所示,输入的特征图在进入通道注意力模块后分别进行全局平均池化(Global AveragePooling,GAP) 和全局最大池化(Global Max Pooling,GMP) 得到两组通道描述符,然后将它们分别送入一个参数共享的两层感知器(Multilayer Perceptron,MLP),将网络的输出逐元素相加之后通过Sigmoid函数激活,可得到一组(0,1)之间的通道注意力权重。

空间注意力模块利用最大池化和平均池化对特征在通道维度上进行压缩,将两个池化的结果拼接之后得到一个通道数为2 的特征图,然后将其送入一个卷积层压缩至一个通道,最后通过Sigmoid 函数激活得到空间注意力权重,其原理如图3 所示。

1.3 软阈值函数

软阈值函数是一种信号处理领域常用的函数,被广泛应用于求解稀疏表示和压缩感知领域优化问题的算法中[14]。针对某一个正数阈值T,软阈值函数会将绝对值小于阈值的输入x 置零,并将绝对值大于该阈值的输入x 也向着零收缩,其处理过程如式(1)所示。

从计算公式可以看出,软阈值函数的导数恒为0 或1,与ReLU 函数相似,可以有效解决神经网络算法训练时梯度弥散等问题。同时,软阈值函数具有更好的抗噪性能,且可以减少信号的信息丢失[15]。

2 IAMCNN 模型构建

以CNN 模型为基础,设置3 个一维卷积层和3 个全连接层,并引入池化层与批归一化层,以提高网络收敛速度和防止过拟合,构建基于CBAM 改进的S-CBAM 注意力模块;同时,结合注意力机制和软阈值函数构造一种轻量级的软阈值函数网络来作为CNN 中的非线性映射函数。在此基础上构建基于改进注意力机制的CNN 诊断模型。

2.1 改进注意力模块构建

为了减少齿轮箱振动信号在通道注意力中因GMP 和GAP 而产生的信息丢失,本文提出基于频域特征的池化方法,可针对性地提高CBAM 注意力机制对齿轮箱振动信号的特征提取能力。

图4 和图5 所示分别为健康状态和故障状态下齿轮箱振动信号及功率谱图,可以看出,齿轮箱故障信号特征不但体现在时域上,也会表现在功率谱的分布上。

本文选择重心频率S1 和频率标准差S2 来构建频域特征池化方法,通过这两个频域特征,可以表征齿轮箱振动信号的功率谱分布情况[16-17]。S1 和S2 的计算公式分别如式(2)和式(3)所示:

其中,P(k) 为对应的功率谱值,fk 为对应点的频率幅值大小。

通过频域特征池化改进的通道注意力模块结构如图6 所示,通过全局最大池化(GMP)和全局平均池化(GAP)得到齿轮箱信号特征在时域上的通道描述符,通过全局重心频率池化(GF)和全局频率标准差池化(FSD)得到齿轮箱信号特征在频域上的通道描述符,故改进后的通道注意力模块可以同时兼顾齿轮箱振动信号的时域和频域特征信息。

2.2 ST-Net 激活函数构建

对于软阈值函数来说,阈值的选择是关键,本文采用一种结合SE 注意力机制[18] 的特殊网络自主学习阈值。基于注意力机制的软阈值函数能够灵活地调整齿轮箱信号特征中需要删除的信息,在实现ReLU 激活函数功能的基础上能够保留更为丰富的数据特征。ST-Net 的网络结构如图7 所示,Abs 为取绝对值操作,输入的齿轮箱信号特征取绝对值后经注意力网络处理,得到一组自适应的阈值,对输入的齿轮箱信号特征进行软阈值化后得到输出特征。

针对齿轮箱振动信号,ST-Net 网络具有较好的删除冗余特征的能力。如图8 所示为齿轮箱故障信号经ST-Net 网络处理前后的对比图,原始的齿轮箱振动信号含有较多冗余信息,信号故障特征不明显;经ST-Net 网络处理后的信号删除了冗余信息,并突出了该信号的故障特征,有效提高了齿轮箱振动信号的可分性。

2.3 IAMCNN 诊断模型搭建

将上述S-CBAM 注意力模块和ST-Net 激活函数引入网络模型,搭建IAMCNN 齿轮箱故障诊断模型,模型结构如图9 所示,在每个卷积块中添加STNet激活函数,并将S-CBAM 注意力模块插入到第3 个卷积块之后,通过分析验证,这种结构可以有效增强卷积层特征提取能力。

3 实验验证

3.1 开源数据集故障诊断分析

3.1.1 实验数据与样本处理

为验证所构建模型的有效性,首先采用东南大学齿轮箱数据集进行实验验证。该数据集通过在传动系统动态模拟(DDS)系统上模拟实际工况得到,如图10 为DDS 实验平台。

该实验采集了平行齿轮箱和行星齿轮箱x、y、z 方向的振动信号,以及电机z 方向振动信号和扭矩信号,齿轮箱转速为1 200 r/min,采样频率为5 120 Hz,模拟了包括健康、断齿、缺齿、齿根裂纹和齿轮表面磨损在内的5 种不同运行状态[19]。本文利用数据集中8 个通道信号作为模型输入,其中包含5 000 个样本,每个样本有1 024 个数据点,可保证每个样本包含齿轮箱旋转4 周的故障特征信息。将所有样本按4∶1 的比例划分为训练集和测试集。

3.1.2 消融实验及结果分析

为验证本文所构建模块的有效性, 对模型进行消融实验, 对比说明SCBAM注意力模块和ST-Net 激活函数对CNN 模型的改进效果。模型训练利用TensorFlow 框架,批处理样本数为256,迭代次数为100,选择交叉熵作为损失函数,Adam 作为优化器,学习率设为0.001。对比4 种诊断模型的训练和诊断效果,4 个齿轮箱故障诊断模型设置分别如下:

(1)同时采用S-CBAM 注意力模块和ST-Net 激活函数对CNN 模型进行改进,记为IAMCNN;

(2)仅采用S-CBAM 注意力模块对CNN 模型进行改进,记为S-CBAM;

(3)仅采用ST-Net 激活函数对CNN 模型进行改进,记为ST-Net;

(4)基于传统CNN 的齿轮箱故障诊断模型,选择ReLU 函数作为激活函数,记为CNN。

如图11 所示为模型训练时模型在测试集上的精度曲线,可以看出,S-CBAM 注意力模块和ST-Net激活函数对CNN 模型的训练效果具有较好的改进作用。改进后的IAMCNN模型能将训练损失降到较低水平,且提高了训练收敛速度;IAMCNN 模型在迭代训练20 次后测试精度已经趋于收敛,其诊断精度和模型的稳定性方面都有很大提升。

如图12 所示为不同模型在测试集上诊断结果的混淆矩阵,可以看出,传统的CNN 模型对断齿故障(标签1)诊断精度较低,只有83%;单独经过SCBAM注意力模块或ST-Net 改进的CNN 网络对5 种状态的诊断精度都能达到90% 以上;而同时结合S-CBAM注意力模块和ST-Net 的IAMCNN 模型对4 种故障状态的诊断精度都能达到100%,只有对健康状态识别精度为96%,存在部分误判现象,总体精度达到99.20%,能够达到较好的诊断效果。

为更加直观地对比不同模型的特征提取能力,在不同模型迭代训练20 次时的对特征提取情况进行可视化。如图13 所示为不同模型的t-SNE 可视化情况,可以看出,原始的CNN 模型在迭代训练20 次时还存在大量特征混杂的情况,无法对数据进行有效分类。单独经过S-CBAM 注意力模块和ST-Net 改进的CNN 网络分类能力有所加强,存在小部分的混杂现象。如图13(b)和13(c)所示,结合S-CBAM 注意力模块的诊断模型有效增大了几种标签的类间间距,但是其类内间距依然较大,结合ST-Net 改进的诊断模型缩小了不同标签的类内间距,但其类间间距较小,不利于分类。如图13(d)所示,同时结合S-CBAM注意力模块和ST-Net 的IAMCNN 模型具有强大的特征提取能力,针对不同标签的数据同时具有较大的类间间距和较小的类内间距,已经可以对数据进行较好地分类。

3.1.3 对比实验及结果分析

为验证本文所提出的模型在单通道信号输入下的鲁棒性,选择数据集中故障特征相对微弱的电机振动信号作为输入,并设置对比实验以验证本文所提模型的优越性。

实验设置了3 种不同结构的CNN 模型作为对比以说明本文提出的改进注意力机制的优越性,其中CNN 为原始三层卷积神经网络模型, SE-Net-CNN 和CBAM-CNN 分别为采用了SE 通道注意力机制和CBAM 注意力机制的卷积神经网络模型。另外还设置长短期记忆( Long Short Term Memory, LSTM)神经网络、BP(Back Propagation, BP) 神经网络和深度残差网络(Deep residual network, ResNet) 3 种主流诊断模型作为实验对比对象以说明本文所提模型的优越性。测试集精度值取10 次实验平均值,每次实验模型迭代训练100 次。

图14 所示为不同模型在训练时测试精度曲线,表1 所示为不同模型在测试集上平均精度的对比结果。由以上结果可以看出,本文提出的模型在故障特征较为微弱的电机振动单一通道信号输入时仍具有较好的诊断性能,其诊断精度高于其余几种常见诊断模型。

3.2 IAMCNN 诊断模型的工程应用

3.2.1 实验数据与样本处理

基于某企业齿轮箱出厂质量检测的需求,搭建行星齿轮箱实验平台采集数据对模型进行验证,实验平台如图15 所示。实验设置8 种不同运行状态,包括1 种健康状态和太阳轮齿面碰伤、行星轮齿面碰伤、内齿圈齿面碰伤、太阳轮精度低、行星轮精度低、内齿圈精度低、行星架中心距超差7 种故障状态。齿轮箱转速为940 r/min,振动加速度传感器测点布置在齿轮箱第一级行星齿轮的轴承支座上,振动信号的采样频率为12 800 Hz,将1 s 内采集到的振动信号,即12 800 个数据点作为一个样本,保证每个样本包含齿轮箱旋转15 周的故障特征信息,每种运行状态采集500 个样本作为本文实验数据集,并按4∶1 的比例将4 000 个样本划分为训练集与测试集。

3.2.2 结果分析

IAMCNN 模型在实测行星齿轮箱数据集上的表现如图16~18 所示。由图16 可以看出模型在经过50 次迭代训练后,在测试集上精度已经稳定在99.25% 左右,且不存在过拟合现象。如图17所示,从模型在测试集上输出的混淆矩阵可以看出,行星轮齿面碰伤(标签2)与内齿圈精度低(标签6)两种故障状态存在一定程度的误诊断现象,其原因在于这两种故障特征信息较为相似,在如图18 所示的t-SNE 可视化结果中可以看出这两种故障状态的类间间距较小,容易出现分类出错的情况。模型对其余状态诊断率都达到了100%,本文提出的方法在实测行星齿轮箱数据集上也具有较好的分类效果,可以证明本文所提模型在实际工程应用中具有良好的诊断效果。

为了进一步验证本文所提出方法的优越性,对比分析了不同齿轮箱故障诊断模型的应用效果。同时,为了比较模型的收敛性能,取不同模型在训练时测试精度达到90% 所需要的时间为其收敛时间,以表征不同模型的训练收敛性能。如表2 所示为不同齿轮箱故障诊断模型的测试集诊断精度和收敛时间,可以看出,本文提出的齿轮箱故障诊断模型IAMCNN在实测齿轮箱数据集上诊断精度为99.25%,收敛时间为69.51s,对比其余诊断模型具有最高的诊断精度,以及较好的训练收敛性能。其中,CNN 模型虽然具有更短的收敛时间,但其最高诊断精度比IAMCNN低5.73%。综合来看,IAMCNN 模型针对齿轮箱故障诊断具有最好的性能。

4 结 论

(1)S-CBAM 注意力模块和ST-Net 能有效提升卷积神经网络的诊断精度和收敛性能,IAMCNN 诊断模型在东南大学齿轮箱开源数据集上诊断精度达到了99.20%,且在20 次迭代训练后模型在测试集上的精度已经收敛,其性能优于传统的卷积神经网络;

(2)IAMCNN 齿轮箱故障诊断模型具有较好的鲁棒性,在故障特征微弱的单一通道输入时测试集精度为97.59%,高于其余几种常见诊断模型;

(3)IAMCNN 齿轮箱故障诊断模型具有良好的实际工程应用效果。在实测行星齿轮箱数据集上诊断精度达到了99.25%,高于其余几种常用诊断模型;同时,模型诊断精度达到90% 的时间为69.51s,收敛时间较短,综合诊断精度和收敛性能,IAMCNN 模型具有最好的诊断性能,并满足某企业齿轮箱出厂检测的需求。

参考文献:

[ 1 ]唐云, 魏昂昂", 童彤等. 面向风电机组行星齿轮箱故障诊断的振动监测技术研究综述[J]. 风能, 2022(8): 92-95.

[ 2 ]GONDAL I, AMAR M, WILSON C. Vibration spectrumimaging: A novel bearing fault classification approach[J].IEEE Transactions on Industrial Electronics, 2014, 62(9):494-502.

[ 3 ]ZHANG Q, JIANG Z, LU Q, et al. Split to be slim: Anoverlooked redundancy in vanilla convolution[EB/OL].(2020-06-22) [2023-12-07]. https://arXiv.org/abs/ 2006.12085.

[ 4 ]LIU S, HUANG J, MA J, et al. SRMANet: Toward aninterpretable neural network with multi-attention mechanismfor gearbox fault diagnosis[J]. Applied Sciences, 2022,12(16): 8388.

[ 5 ]孔子迁, 邓蕾, 汤宝平等. 基于时频融合和注意力机制的深度学习行星齿轮箱故障诊断方法[J]. 仪器仪表学报,2019, 40(6): 221-227.

[ 6 ]骆睿, 朱华生, 蓝宏等. 基于改进CBAM 注意力机制的害虫分类算法[J]. 南昌工程学院学报, 2023, 42(4): 92-99.

[ 7 ]谢孟龙. 变工况齿轮箱振动信号处理与故障诊断方法研究[D]. 石家庄: 河北科技大学, 2013.

[ 8 ]NAIR V, HINTON G E. Rectified linear units improverestricted Boltzmann machines[C]//International Conferenceon Machine Learning(ICML). Madison, WI, USA:Omnipress, 2010: 807–814.

[ 9 ]李一波, 郭培宜, 张森悦. 深度卷积神经网络中激活函数的研究[J]. 计算机技术与发展, 2021, 31(9): 61-66.

[10]杨文哲, 郝如江, 郭梓良等. 基于一维ConvNeXt 网络的齿轮箱故障诊断[J]. 国防交通工程与技术, 2023, 21(4):28-31, 61.

[11]李俊卿, 刘若尧, 何玉灵. 基于NGO-VMD 和改进GoogLeNet 的齿轮箱故障诊断方法[J]. 机床与液压,52(12): 193-201.

[12]林伟, 洪容容. 基于多尺度一维卷积神经网络的入侵检测模型[J]. 中国电子科学研究院学报, 2023, 18(7): 656-662,670.

[13]WOO S, PARK J, LEE J Y, et al. CBAM: Convolutionalblock attention module[C]//Computer vision: ECCV 201815th European Conference. Munich, Germany: Spring verlag,2018: 3-19.

[14]DONOHO D L. De-noising by soft-thresholding[J]. IEEETransactions on Information Theory, 2002, 41(3): 613-627.

[15]ZHAO M, ZHONG S, FU X, et al. Deep residual shrinkagenetworks for fault diagnosis[J]. IEEE Transactions on IndustrialInformatics, 2020, 16(7): 4681-4690.

[16]雷亚国, 林京, 何正嘉. 基于多传感器信息融合的行星齿轮箱故障诊断[C]//2010 年全国振动工程及应用学术会议暨第十二届全国设备故障诊断学术会议. 沈阳: [s.n.],2010.

[17] 吴文臻, 程继明, 李标. 矿用带式输送机托辊音频故障诊断方法[J]. 工矿自动化, 2022, 48(9): 25-32.

[18]HU J, SHEN L, SUN G. Squeeze-and-excitationnetworks[C]//2018 IEEE/CVF Conference on ComputerVision and Pattern Recognition. Salt Lake City, UT, USA:IEEE, 2018: 7132-7141.

[19]SHAO S, MCALEER S, YAN R, et al. Highly accurate machinefault diagnosis using deep transfer learning[J]. IEEETransactions on Industrial Informatics, 2019, 15(4): 2446-2455.

(责任编辑:王晓丽)

猜你喜欢
注意力机制卷积神经网络齿轮箱
风电齿轮箱轴承用钢100CrMnSi6-4的开发
山东冶金(2022年3期)2022-07-19 03:24:36
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法
基于注意力机制的双向LSTM模型在中文商品评论情感分类中的研究
软件工程(2017年11期)2018-01-05 08:06:09
InsunKBQA:一个基于知识库的问答系统
提高齿轮箱式换档机构可靠性的改进设计
基于深度卷积神经网络的物体识别算法
深度学习算法应用于岩石图像处理的可行性研究
软件导刊(2016年9期)2016-11-07 22:20:49
基于深度卷积网络的人脸年龄分析算法与实现
软件工程(2016年8期)2016-10-25 15:47:34
基于卷积神经网络的树叶识别的算法的研究