基于注意力机制多尺度卷积神经网络的轴承故障诊断

2024-05-17 00:00:00孙俊静顾幸生
关键词:注意力机制卷积神经网络故障诊断

摘要:提出了基于注意力机制的多尺度卷积神经网络 (Multi-scale and Attentive Convolutional Neural Network, MACNN) 进行轴承故障分类,该模型以一维 Resnet18 网络结构为主体,卷积 模块采用残差模块和空洞卷积并行方式以达到扩大感受野、避免特征信息丢失的目的,同时利 用注意力机制可以自动提取有用特征的能力,将模型提取特征作为输入送入注意力机制模块, 进一步提高模型故障分类能力。此外,采用边界平衡生成对抗网络 (Boundary Equilibrium Generative Adversarial Networks, BEGAN) 模型对故障数据增强,改变不平衡数据集的比例, 增加数据集样本数量,降低 MACNN 模型的过拟合,提高诊断的准确率。在帕德博恩轴承数据 集(Paderborn University Dataset,PU)上验证 MACNN 模型,实验结果表明,该模型在特征提 取和故障分类方面都表现出了良好的性能,优于当前主流模型。

关键词:故障诊断;卷积神经网络;注意力机制;空洞卷积;BEGAN

中图分类号:TP391

文献标志码:A

轴承是旋转机械的关键部件,其运行状态直接 影响整个机械系统的安全。轴承故障会严重影响系 统的可靠性、生产率、设备寿命和人民生命安全。因 此,对轴承进行故障诊断具有重要的研究意义。随 着工业制造向着复杂化和大型化发展,海量数据已 经成为现代工业的一大特点,这对传统故障诊断方 法提出了新的挑战[1]。

传统智能诊断方法包括人工神经网络(Artificial Neural Network,ANN) [2]、支持向量机(Support Vector Machine, SVM) [3]、 K-最 近 邻 ( K-Nearest" Neighbor, KNN) [4] 等,这些方法在处理大数据故障诊断方面取 得了不错的成果,但是它们在特征提取和特征选择 方面需要丰富的工程经验和大量的专业知识。其 次,大多数传统的机器学习模型结构较简单,限制了 分类器在故障诊断问题中学习复杂非线性关系的能 力[5]。深度学习具有强大的自动特征提取能力,通过 层次化的网络获取层次化的信息,能够避免人工提 取特征信息的问题[6] ;同时以较深的网络结构提取复 杂的特征信息,能够克服实际工业中复杂工况和强 噪声干扰等问题[7]。

在 轴 承 故 障 诊 断 领 域 , 卷 积 神 经 网 络 (Convolutional Neural Network, CNN) 具有出色的特 征学习能力和良好的泛化性,得到了较为广泛的应 用[8]。Sun 等[9] 提出了一种用于电机故障诊断的卷积 判别特征学习方法,卷积层用于从原始振动数据中 提取判别性和不变性特征,并在顶层连接支持向量 机作为分类器。Choudhary 等[10] 使用浅层和深度学 习方法结合 ANN 和 CNN 进行了基于分类性能的比 较,实验证明 CNN 的效果更好;Guo 等[11] 提出了一 种分层学习率自适应深度卷积神经网络进行轴承故 障诊断,在网络架构中,首先依次堆叠 3 个卷积层及 其相应的池化层,以提取和压缩特征,然后将这些处 理后的特征连接到一个全连接层的分类器上,用于 最终的分类任务。但这些方法随着网络层数和卷积 核大小的增加会造成模型过拟合的问题,同时也会 带来参数庞大以及训练时间过长等问题,且预期的准确率有待提高。

实际轴承运行环境中面临变工况、环境噪声和 其他工件产生的噪声干扰等问题,导致采集到的轴 承信号混有其他数据特征。为克服这一问题,很多 学者在该领域做了深入研究。Liu 等[12] 提出了一种 递归神经网络使用自动编码器进行信号去噪和轴承 故障诊断,该方法在诊断性能上有所提高,但是神经 网络的训练难度仍然是一个问题。Wang 等[13]利用 自适应最大循环反卷积技术在强噪声条件下仍能成 功估计出循环频率,但是这一技术受循环频率影响, 具有一定的局限性。Su 等[14] 提出膨胀卷积深度信 念网络动态多层感知器的方法,可以从变工况条件 下轴承的原始振动数据中提取可转移特性,最后使 用动态多层感知器对轴承故障进行分类,但这一方 法在没有标记数据的情况下无法发挥其自学习能 力。此外,实际工厂运行中,轴承通常运行在健康状 况下,因此,采集到的数据会出现故障数据量少的现 象,这一问题不利于神经网络的充分训练,准确识别 故障样本。

针对以上问题,本文在众多学者针对轴承故障 诊断研究的有效成果和卷积神经网络的基础上,提 出了一种基于注意力机制的多尺度卷积神经网络模 型。首先,该模型的主体网络是 Resnet18,既避免网 络层数过深造成参数过多浪费计算资源,也利用残 差结构避免网络梯度消失和爆炸的问题;其次,利用 空洞卷积可以扩大感受野且不增加模型参数的特 点,在提取特征时采用普通卷积层和空洞卷积并行 的网络结构增强模型的特征提取能力;然后,考虑实 际工厂中轴承运行工况复杂且有噪声等信号干扰, 将并行结构提取的特征输入基于挤压激励 (Squeeze and Excitation, SE) 机制的注意力机制模块中,并用一 维卷积层替换原来的全连接层,更好地提取有用的 特征信号,抑制无效信号;最后,本文采用边界平 衡 生 成 对 抗 网 络 (Boundary" Equilibrium" Generative Adversarial Networks,BEGAN) 网络对轴承数据进行 数据增强,扩充数据量的同时缓解故障数据和正常 数据类别不平衡问题,增加故障数据在总数据量中 的占比,有效提高模型的诊断精度,同时缓解模型过 拟合的问题。

1""" 算法描述

1.1 一维卷积网络

卷积神经网络是深度学习的代表算法之一[15-16]。 在真实标签的大规模视觉数据库上进行训练时,有 许多隐藏层和数百万个参数的深度二维卷积神经网 络 (Two-Dimensional" Convolutional" Neural" Networks, 2DCNN) 能够学习复杂的对象和模式。但是在许多 一维信号应用时,深度 2DCNN 模型增加了计算负 担[17]。此外,实际应用中存在大量一维故障信号,采 用一维卷积神经网络直接进行处理可以省去将一维 信号转换成二维信号的复杂步骤,减少转换过程中 重要信号的丢失,同时获得较高的诊断结果[18]。卷积 神经网络一般由输入层、卷积层、池化层、全连接层 和输出层组成,且卷积层和池化层交替进行特征提 取。卷积操作公式如下所示。

其中: 表示所构建的模型中第 层的第 个特 征信号; 表示第 层的第 个特征; 表示来自上 一层的输入特征信号的集合; 表示卷积核的权重 矩阵; 表示偏置; 表示卷积运算; 表示激活函数。

在卷积运算之后,激活函数非线性变换输出 值。本文使用激活函数 Tanh 对原始的多维特征进行 映射,以增强提取特征的线性可分性。全连接层对 由卷积核提取的特征进行分类,即前一层的输出首 先被展开为一维向量,该向量被用作全连接层的输 入,并且输入和输出是全连接的。在多分类情况下, 输出层的神经元的数目是类的数目,使用 Softmax 作为输出层的激活函数。同时为了解决模型结构中 的梯度消失和梯度爆炸问题采用了残差网络结构, 并采用全局最大池化,最后一层平均池化的结构来 提高模型的诊断效率[19]。

1.2 BEGAN 网络

BEGAN 是一种简单而强大 GAN 网络结构,最 早在 2017 年上半年由谷歌团队提出[20]。和其他生成 对抗网络不同的是,它在 GAN 的基础上进行了进一 步的改进。首先,它不是直接去估计生成分布和和 真实分布之间的差距,而是采用自动编码器作为判 别器 (Discriminator, D) 计算真实数据和生成数据重 构损失之间的误差,如果误差的分布很接近,则预测 数据分布接近真实数据分布[21]。使用 Wasserstein 距 离得出的误差损失匹配自动编码器误差损失的分布 优化训练模型。其次,它具有快速稳定的收敛性并 添加了平衡项平衡判别器和发生器。最后,与典型 的 GAN 技术相比,BEGAN 具有更简单的训练过程, 并且使用更简单的神经网络架构。

由于 BEGAN 模型的判别器是一个自动编码器 模型,数据 v 通过编码器被映射为低维向量,而低维向量通过解码器被映射得到 ,如式 (2) 所示,表 示数据 v通过判别器的重构损失。

2.2 基于注意力机制和空洞卷积的神经网络模型

主体网络设计使用 ResNet18,即网络的基本架 构是 Resnet,深度是 18 层。该网络巧妙地使用了跳 跃连接,解决了深度网络中模型退化的问题。传统 的残差网络结构如图 5 所示,残差元的设计主要有两 个,跳跃连接和恒等映射。而恒等映射又主要包含 跳跃连接和激活函数。通过在一个浅层网络基础上 叠加 x 层,可以让网络随着深度增加而不退化。对于 给定的输入数据,卷积核可以自动提取特征。在训 练的监督阶段,反向传播优化卷积核的参数,使得卷 积核更好地从输入数据中提取适当的特征。

本文针对轴承信号中特征信息复杂、难以提取, 设计了多尺度的网络结构,如图 6 所示,首先将一维 轴承信号输入一个卷积层,后接最大池化层抑制噪 声、降低信息冗余。然后输入 4 个 MACNN 模块, MACNN模块如图 7 所示。采取普通卷积和空洞卷 积并行的网络结构,在不增加模型参数的前提下,扩 大模型的感受野提取更多故障特征,从而提高准确率。此外,在每个 MACNN 模型的最后连接注意力 机制模块,利用注意力自动提取重要特征的能力进 一步提取特征信息。网络结构最后采用平均池化 层,防止过拟合和全连接层进行实验分类结果的输出。

3""" 实验结果分析

3.1 德国帕德博恩大学轴承数据集

本文使用德国帕德博恩大学 (Paderborn University, PU) 轴承数据集。该数据集是 6203 轴承数据集,该 数据集的实验平台如图 8 所示。平台的基本组件是 驱动电机、扭矩测量轴、滚动轴承测试模块、飞轮和 负载电机。

在预定义的连续载荷下,测量了两种不同的轴 承损坏状态。分别是加速寿命测试产生的真实轴承 破坏和常规加工获得的人工轴承损坏。 此数据集 中,电机电流的采样频率为 64 kHz,振动信号的采样 频率为 64 kHz。以高采样率获得了高分辨率的振动 信号。数据是从 6 个健康轴承和 26 个损坏轴承组进 行的实验中获得的。在 26 个损坏的轴承组中,人工 损坏轴承 12 个(外圈 7 个、内圈 5 个),加速寿命试 验损伤轴承 14 个(外圈 5 个,内圈 6 个,内圈和外圈 复合 3 个)。

3.2 BEGAN 样本生成

3.2.1"" 模型训练 使用 Adam 优化模型参数,一共训 练迭代 80 轮,批次大小为 64, =0.01,r=0.5,使用帕 德博恩数据集训练 BEGAN 网络,然后将生成的样本 数据与原数据混合,使得不同类间的数据达到平衡 和增强,并制作成新的故障诊断数据集。得到 196000 份新的数据集,增强后每类数据 80000 份,随机选择 56000 份作为训练集,16000 份作为验证集,8000 份 作为测试集。

其 中 : TP(True" Positive) 表 示 被 正 确 分 类 的 正 例 ; FP(False Positive)表示本来是负例被错分为正例 ; TN(True Negative) 表示被正确分类的负例;FN(False Negative) 表示本来是正例,被错分为负例。

3.3.1"" 模型有效性的可视化分析 t-SNE 是一种非线 性降维算法,适用于高维数据降维到 2 维或者 3 维。 为对模型有效性进行直观分析,采用 t-SNE 算法进行 可视化。从测试集中随机选择 4 种类别、400 个样 本,包括 3 种故障样本和 1 种正常样本,每种 100 个 样本进行可视化(图 10)。如图 10 所示,红色 0 代表 正常轴承样本,绿色 1 为外圈故障,橙色 2 为内圈故 障,棕色 3 为内外圈复合故障。左图为输入数据可视 化结果图,右图为分类层可视化结果图。从图中可 以看出,在使用本文方法进行分类后的特征通过 t[1]SNE 可视化,在不同轴承健康条件下的样本可以很 好地分离,类别 0、1、2、3 可以较好地聚类,但未经 过本文算法处理的数据,通过 t-SNE 可视化后不能较 好地分离,证明本文分类方法的有效性。

3.3.2"" 对比实验 为了评估本文模型在故障诊断上 的性能,分别将该模型与 CNN、LSTM、AESL-GA[26]、 ISCNN-LightGBN[27] 模型的实验结果进行对比,模型 评价指标使用 Acc、 Pre、 Recall、 F-Score 和复杂性 (Algorithm Complexity Analysis, ACA),如表 2 所示。 本文模型在准确率上有良好的表现,高于当前流行 的其他分类模型。

为验证各个模块的有效性,分别对 BEGAN 网 络、注意力机制和空洞卷积进行了消融实验。实验 中,分别用模型 1 表示 MACNN 模型,模型 2 表示包 含 Resnet18、Attention 机制和数据增强 3 个模块的模 型,模型 3 表示包含 Resnet18、空洞卷积和 Attention 机制的模型,模型 4 表示 Resnet18、空洞卷积和数据 增强的模型。消融实验结果的混淆矩阵如图 11 所 示。混淆矩阵在水平轴上呈现样本的预测分类,在 垂直轴上表示样本的真实分类情况。从图中可以看 出 ,本文方法在正常 (NORMAL)、内圈 (IR)、外圈 (OR) 和复合故障 (IR+OR) 情况下均有较好的表现。 且外圈故障和复合故障都可以检测到,在所有消融 实验检测率最低的内圈故障上也有较好的表现。各 个消融实验结果如图 12 所示,左图为准确率对比,右 图为损失函数值对比。

同时,分别采用 Acc、Pre、Recall、F-Score、ACA 这 5 类评价指标对消融实验进行对比,实验结果对比 如表 3 所示。

4""" 结 论

本文提出了一种基于 MACNN 模型的轴承故障 诊断方法,针对当前轴承故障变工况和噪声干扰等 导致特征提取不充分进而影响故障分类精度的问 题,该模型以 Resnet18 网络结构为主体,在此基础上 加入空洞卷积构成并行网络结构扩大感受野,增强 模型特征提取能力,并将特征提取结果送入注意力 模块,进一步提高模型的诊断能力。数据处理部分 采用 BEGAN 网络对数据进行增强,增加数据量提高 模型诊断率的同时防止模型的过拟合。将该方法应 用于帕德博恩轴承数据集进行轴承故障分类,并与 当前主流模型进行对比,实验结果表明,MACNN 方 法在准确率上有较大的提升,同时其优异的特征提 取能力能很好地克服变工况和噪声等干扰,表明了 该模型有较好的鲁棒性。

但是,该方法针对数据量较少的轴承故障数据 时,模型结构模块较多,对应的参数量和模型训练时 长也比其他算法有所增加。因此,在数据增强和特 征提取两个阶段探索更轻量的模型结构将是作者今 后研究的方向。

参考文献:

TANG H, GAO S, WANG L, et al. A novel intelligent fault diagnosis method for rolling bearings based on Wasserstein generative" adversarial" network" and" convolutional" neural network" under" unbalanced" dataset[J]. Sensors," 2021, 21(20): 6754.

DASHTDAR M, DASHTI R, SHAKER H R. Distribution network fault section identification and fault location using artificial neural network[C]//2018 5th International Confer[1]ence" on" Electrical" and" Electronic" Engineering" (ICEEE). [s.l.]: IEEE, 2018: 273-278.

SHI" Q," ZHANG" H." Fault" diagnosis" of" an" autonomous vehicle with an improved SVM algorithm subject to unbal[1]anced datasets[J]. IEEE Transactions on Industrial Electron[1]ics, 2020, 68(7): 6248-6256.

RANJAN G S K, VERMA A K, RADHIKA S. K-nearest neighbors and grid search cv based real time fault monitor[1]ing" system" for" industries[C]//2019" IEEE" 5th" International Conference for Convergence in Technology (I2CT). Bom[1]bay, India: IEEE, 2019: 29-31.

宫文峰, 张美玲, 陈辉. 基于深度学习的旋转机械大数据 智能故障诊断方法[J]. 计算机集成制造系统, 2022, 6(14): 1-21.

洪腾蛟, 丁凤娟, 王鹏, 等. 深度学习在轴承故障诊断领域 的应用研究[J]. 科学技术与工程," 2021," 21(22):" 9203- 9211.

宫涛, 杨建华, 单振, 等. 强噪声背景与变转速工况条件下 滚动轴承故障诊断研究[J]. 工矿自动化, 2021, 47(7): 63- 71.

PAN H, HE X, TANG S, et al. An improved bearing fault diagnosis" method" using" one-dimensional" CNN" and LSTM[J]." Strojniski" Vestnik/Journal" of" Mechanical" Engi[1]neering, 2018, 64: 443-452.

SUN W, SHAO S, ZHAO R, et al. A sparse auto-encoder[1]based" deep" neural" network" approach" for" induction" motor faults classification[J]. Measurement, 2016, 89: 171-178.

CHOUDHARY" A," MIAN" T," FATIMA" S." Convolutional neural" networknbsp; based" bearing" fault" diagnosisnbsp; of" rotating machine using thermal images[J]. Measurement, 2021, 176: 109196.

GUO" X," CHEN" L," SHEN" C." Hierarchical" adaptive" deep convolution" neural" network" and" its" application" to" bearing fault diagnosis[J]. Measurement, 2016, 93: 490-502.

LIU" H," ZHOU" J," ZHENG" Y, et al." Fault" diagnosis" of rolling bearings" with" recurrent" neural" network-based"" au[1]toencoders[J]. ISA Transactions. 2018, 77: 167-178.

WANG Z, ZHOU J, DU W, et al. Bearing fault diagnosis method based on adaptive maximum cyclostationarity blind deconvolution[J]. Mechanical Systems" and" Signal"" Pro[1]cessing, 2022, 162: 108018.

SU H, YANG X, XIANG L, et al. A novel method based on deep transfer unsupervised learning network for bearing fault diagnosis" under" variable" working" condition" of"" un[1]equal" quantity[J]." Knowledge-Based" Systems," 2022, 242(22): 108381.

ZHANG W, LI X, DING Q. Deep residual learning-based fault" diagnosis" method" for" rotating" machinery[J]. ISA Transactions, 2019, 95: 295-305.

肖飞扬, 顾幸生. 基于并行LSTM-CNN的化工过程故障检 测[J]. 华东理工大学学报(自然科学版), 2023, 49(3): 382- 390.

ASIF" M," NAZEER "O," JAVAID" N, et al. Data"" augmenta[1]tion" using" BiWGAN," feature" extraction" and" classification by" hybrid" 2DCNN" and" BiLSTM" to" detect" non-technical losses" in" smart" grids[J]. IEEE" Access," 2022," 10:" 27467- 27483.

HU" J," SHEN" L," SUN" G." Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Com[1]puter Vision and Pattern Recognition. Salt Lake City, Utah, USA: IEEE, 2018: 7132-7141.

WANG F, CHENG J, LIU W, et al. Additive margin soft[1]max" for" face "verification[J]. IEEE Signal" Processing"" Let[1]ters, 2018, 25(7): 926-930.

CAI Z, XIONG Z, XU H, et al. Generative adversarial net[1]works: A survey toward private and secure applications[J]. ACM Computing Surveys (CSUR), 2021, 54(6): 1-38.

LI Y, XIAO N, OUYANG W. Improved boundary equilib[1]rium" generative" adversarial" networks[J]." IEEE" Access, 2018, 6: 11342-11348.

NIU Z, ZHONG G, YU H. A review on the attention mech[1]anism of deep learning[J]. Neurocomputing, 2021, 452: 48- 62.

CHEN Y, PENG G, ZHU Z, et al. A novel deep learning method based on attention mechanism for bearing remain[1]ing useful life prediction[J]. Applied Soft Computing, 2020, 86: 105919.

RAWAT W," WANG" Z." Deep" convolutional" neural"" net[1]works for image classification: A comprehensive review[J]. Neural computation, 2017, 29(9): 2352-2449.

HE Z, CAO Y, DU L, et al. MRFN: Multi-receptive-field network" for" fast" and" accurate" single" image" super[1]resolution[J]." IEEE" Transactions" on "Multimedia," 2019, 22(4): 1042-1054.

张思源, 纪洪泉, 刘洋. 基于ISCNN-LightGBM的轴承故 障诊断[J]. 控制理论与应用, 2022, 40: 1-8.

王进花, 汤国栋, 曹洁, 等. 基于AESL-GA的BN球磨机滚 动轴承故障诊断方法[J/OL]. 北京航空航天大学学报, ht[1]tps://doi.org/10.13700/j.bh.1001-5965.20220428.

猜你喜欢
注意力机制卷积神经网络故障诊断
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法
基于注意力机制的双向LSTM模型在中文商品评论情感分类中的研究
软件工程(2017年11期)2018-01-05 08:06:09
InsunKBQA:一个基于知识库的问答系统
基于深度卷积神经网络的物体识别算法
深度学习算法应用于岩石图像处理的可行性研究
软件导刊(2016年9期)2016-11-07 22:20:49
基于深度卷积网络的人脸年龄分析算法与实现
软件工程(2016年8期)2016-10-25 15:47:34
基于卷积神经网络的树叶识别的算法的研究
因果图定性分析法及其在故障诊断中的应用
基于LCD和排列熵的滚动轴承故障诊断