一种抗噪声的自注意力神经网络轴承故障诊断方法

2023-12-13 10:23刘辉李阳
轴承 2023年12期
关键词:注意力故障诊断轴承

刘辉,李阳

(1.中核检修有限公司,上海 201103;2.东北电力大学 机械工程学院,吉林 吉林 132012)

约40%的工业设备是由轴承等部件构成的旋转机械设备[1],因此, 对轴承进行及时、精准的故障诊断是相关设备长效、 安全、 稳定运行的重要保障。为满足实际工业生产过程中的安全检测需求,众多学者尝试将深度学习算法与轴承运行过程中的传感器信号相结合并提出了许多高时效性的轴承故障诊断方法,以期降低旋转机械在工业实践中的维护成本和事故风险。例如,文献[2]对卷积神经网络(Convolution Neural Network,CNN)模型[3]进行结构优化,在不预先提取故障特征的条件下实现了对轴承故障的高精度诊断;文献[4]在自编码模型的基础上,将轴承振动、噪声和温度信号的时频域特征进行多源信号融合,完成了对风电机组轴承的故障诊断并提高了诊断结果的可靠性;文献[5]以轻量化网络ShuffleNet为主要框架设计了新的诊断模块并用于高铁轮对轴承的故障诊断。

以CNN为代表的深度学习算法已经在轴承故障诊断领域取得了大量成果,但其大多在实验室数据集上完成性能验证,而工业生产的环境中充斥着各种各样的噪声源,难以获取具有高信噪比的轴承振动信号,上述算法在工业现场应用中会出现精度严重下滑甚至失效的问题。因此,为了在噪声环境下完成故障诊断任务,许多研究人员将研究方向聚焦于提升诊断模型对噪声的鲁棒性上:文献[6]利用经验小波变换对轴承振动信号进行重构,再使用最小熵解卷积CNN对重构后的信号进行降噪处理,从而实现了噪声干扰条件下铁路货车轮对轴承的故障诊断;文献[7]通过对一维CNN的结构优化从背景噪声中自动提取特征,进而在-8 dB噪声强度下取得了较高精度的轴承故障诊断结果;文献[8]设计了一类分级分支CNN结构并通过堆叠一维小卷积核的方式构建了一种具有强鲁棒性的基本卷积块,提升了噪声环境下轴承故障诊断的精度。

自注意力神经网络以原始的多层感知机(MultiLayer Perceptron,MLP)为基础对输入数据进行特征提取并使用自注意力机制调节不同特征权重以获取输出结果,具备强大的全局建模能力,能够有效提升诊断模型的鲁棒性[9-11]。文献[12]将自注意力神经网络与卷积神经网络相结合,提出首个用于轴承故障诊断的自注意力神经网络框架(CLFormer),但其过于关注在自测数据集上的有效性和优越性,忽略了模型的泛化性。文献[13]在训练阶段使用大量振动数据对CNN和自注意力神经网络进行参数优化,然后使用高斯混合模型对信号进行分类诊断,该方法基于最大后验概率进行分类,容易受到噪声干扰而难以体现自注意力神经网络的抗噪性。文献[14]出于在不受时间限制的条件下利用传感器信号时间属性的目的,在双向单门控网络中引入自注意力神经网络用于特征提取,尽管有效地使用了传感器信号的时间信息并提升了模型诊断性能,但双向单门控网络的递归特征处理特性使其失去了并行能力,导致模型批量诊断的效率较低。

本文将自注意力神经网络[15-21]作为主要技术途径,通过超参数分析以及优化位置编码的方式,在强噪声干扰条件下针对基于振动信号的轴承故障诊断开展框架设计,并分别采用东南大学轴承数据库和实验室自采数据进行试验验证。

1 理论背景

1.1 网络结构

本文的主要研究对象是噪声干扰下的轴承故障诊断任务,并不涉及序列数据向数列数据的转换问题,所使用模型不必由编码器和解码器两部分构成,而是在一个N层编码器后添加一个分类器用于输出输入信号所属轴承运行状态的诊断结果,每个编码层都是一层独立的自注意力神经网络。

如图1所示,分类器是一个由2个全连接层所构成的MLP,第1个全连接层的神经元数量被设置为自注意力神经网络维度的2倍,用以整合特征信息;第2个全连接层的神经元数量则被设置为诊断类别数,其输出结果表示被诊断信号属于各个类别的概率。此外,由于本文所使用轴承故障诊断模型的编码层都具有完全一致的结构,因此文中仅讨论模型的深度(编码层堆叠的层数)和维度(用多少维的数据表征特征信息,也可解释为每层编码层所处理数据的通道数)。

图1 自注意力神经网络结构示意图

1.2 位置编码模块

不同于CNN和递归神经网络在特征提取时不断地进行滑窗以获取局部特征,自注意力神经网络只对输入数据进行全局特征信息提取,即自注意力神经网络需要在特征提取之前额外的为输入数据赋予位置编码信息,从而令数据具备空间属性。

传统的自注意力神经网络采用正弦位置编码的策略赋予输入数据位置信息。令P∈RC×L表示模型的位置编码信息,P具有与自注意力神经网络同样的维度以及与输入数据相同的长度信息,其中每个元素值都代表着输入数据对应元素的位置信息。使用正弦位置编码,每个元素的具体值可表示为

(1)

式中:p为元素在输入数据中的位置;d为正弦位置编码的维度。

虽然正弦位置编码具有变长输入以及同时表示绝对位置和表征相对位置关系的优点,但其只是一种固定的编码策略,并不能保证所给出编码信息能够契合所有的数据类型,也不能随着输入数据的变化做出对应修改。因此,本文在自注意力神经网络中引入一个由一维CNN构成的编码模块,可根据输入数据针对性地生成位置编码信息,如图2所示。

图2 基于CNN的位置编码模块示意图

(2)

(3)

式中:Concat为在通道维度上对数据进行堆叠拼接;GeLU为高斯误差线性单元激活函数[24];BN为批量归一化操作[25]。

显然,本文所构建的位置编码信息生成模块是一个小型的卷积神经网络,相比于自注意力神经网络原始的位置编码信息,其所生成的位置编码信息具备了随输入数据变化的灵活性以及通过样本训练进行学习优化的能力。此外,由于通过卷积操作构建的位置信息生成模块,其所生成的每个位置信息均由对应点数据与附近数据共同生成,从而使模型所获得的位置信息在表征相对位置信息的同时具有一定的信息交互特性。

2 试验设置

为验证所提轴承故障诊断方法的效果,采用东南大学轴承故障数据集[26]测试不同案例下模型的具体性能。该数据集包含不同速度-负载工况下(20 Hz-0 V和30 Hz-2 V)采集的钢球、内圈、外圈裂纹以及复合故障(即内、外圈均出现裂纹)信号。本文将每1 024个连续的采样点作为一个样本(确保每个样本都包含至少一个完整的旋转周期信息,即输入模型的数据长度固定为1 024)。将数据集划分为训练集、验证集和测试集,每类样本数量分别为300×2,100×2和300×2。

本文中所有模型都采用了标准的有监督模型训练策略,使用训练集和验证集完成30个批次(Epoch)的训练(即模型使用训练集数据进行参数优化,每完成一个批次的训练后在验证集上计算模型性能,最后只保留在验证集上取得最优性能的模型权重作为最终的结果),使用AdamW[27]作为模型的优化器,初始学习率设置为0.000 1并使用余弦退火[28]的方式在训练过程中逐步降低到0.000 005。为避免随机初始化对模型性能的干扰,本文所有试验结果均是对模型进行100次重复试验后统计所得。

此外,为验证模型对噪声的鲁棒性,在试验过程中根据未添加噪声时信号的标准差(Std)添加了不同强度的高斯噪声和拉普拉斯噪声。根据信噪比[29]的定义,本文添加的0.1,1,10,100,1 000 Std强度的噪声信号后,输入给模型信号的信噪比分别为10,0,-10,-20,-30 dB。

3 结果分析

3.1 超参数分析

为确保所设计的模型具有对噪声的强鲁棒性,对不同维度、层数的自注意力神经网络在高噪声环境下进行了性能测试,试验结果如图3所示:增大模型的维度(宽度)能够带来比增大模型层数(深度)更高的精度收益;不论在高斯噪声环境还是在拉普拉斯噪声环境下,自注意力神经网络都在宽度为16维,深度为8层时取得了最优的平均诊断精度(59.97%,56.61%)。模型在深度大于8层之后,同等维度下均出现了精度下滑现象,这是由于此时模型深度较大,而本文训练集的样本数量较少,出现了过拟合现象。

(a) 1 000 Std高斯噪声干扰

为验证上述猜测,以1 000 Std高斯噪声干扰下宽度为64维,深度为10层的情况(即本节中最大的模型)为例统计并绘制了训练过程中模型的性能变化曲线,结果如图4所示:在经过大约3个批次后,模型在验证集上的性能始终在一个小范围内波动,而且在验证集上的性能显著低于在训练集上的性能,说明模型此时存在严重过拟合。因此,为确保后续试验结果能够展示自注意力神经网络的鲁棒性,本文在后续所有试验中统一将模型的宽度设为16维,深度设为8层。

图4 高斯噪声(1 000 Std)干扰下自注意力神经网络模型的性能变化曲线

3.2 位置信息模块的必要性

为验证本文所设计位置编码模块的必要性,在不同噪声环境下统计了不使用位置信息,使用正弦位置编码,使用可训练位置编码以及使用本文所设计位置编码模块4种条件下自注意力神经网络的诊断精度,结果如图5所示:不使用位置信息时自注意力神经网络在所有噪声环境下的诊断精度均最低,这是由于自注意力神经网络通过全局特征提取的方式对输入数据进行长距离建模的过程中不能从原始数据中提取位置信息(相对和绝对位置信息),因此在实际应用中若不额外为输入数据赋予位置信息,其所建立的映射关系将难以获取全部的有效特征信息,从而导致严重的精度下滑;使用传统自注意力神经网络常用的正弦位置编码模块时,模型诊断精度也较低,这是由于固定的编码模式不具备跟随样本实际数据分布变化而变化的能力,从而在具体的诊断任务中产生一定的精度丧失;使用本文所构建位置编码模块为输入数据赋予位置信息,自注意力神经网络在所有的噪声环境下都取得最优的诊断精度,充分验证了本文所设计位置编码模块的合理性和有效性。

图5 不同位置编码方式在噪声环境下对自注意力神经网络性能的影响

3.3 其他方法的对比

为进一步验证本文提出方法的效果,从当前主流的深度学习模型中选取了一维CNN模型、长短记忆神经网络(LSTM)[30]、多层感知机(MLP)和SIM[31]作为对比模型,统计其在相同深度和宽度条件下的诊断精度,试验结果如图6所示:

图6 不同类型模型在噪声干扰条件下所取得的诊断精度

1)在低噪声环境下(噪声强度小于10 Std),一维CNN和本文所提模型均取得了接近100%的诊断精度,说明这2类方法本身就有较强的识别能力。随着噪声强度的增大(噪声强度大于10 Std),本文所提模型的诊断精度显著高于其他模型,表明基于自注意力神经网络的诊断模型能够凭借其强大的全局特征提取能力和长距离建模能力获得对噪声更强的鲁棒性。

2)一维CNN模型和SIM都是以卷积操作为主要特征提取方式的模型,卷积操作主要是对输入数据的局部信息进行建模分析。在向信号中添加噪声扰动后, 由于所有的局部信息都发生了变化, 导致不具备全局建模能力的一维CNN和SIM的诊断精度较低;LSTM通过对数据在时间维度的滑动提取其特征信息,与卷积操作类似,而且LSTM通过在模型中添加遗忘门以降低模型的运算量,也使得模型放弃了一部分的全局建模能力而更专注于局部变量,在噪声干扰下也出现了较为明显的精度下降,鲁棒性也不强;MLP可视为剔除了注意力机制的简化版自注意力神经网络,具有全局建模能力,但缺少了自注意力神经网络最重要的位置编码信息和注意力机制,因此其诊断精度也不如自注意力神经网络。

3.4 自制数据集的试验验证

为进一步论证所提出方法的泛化性和可迁移性,使用如图7所示的轴承故障测试台,在0,0.1,0.2,0.3 N·m负载条件下对转速区间[1 443,1 478]r/min的轴承进行数据采集,一共包括了健康状态和6种不同故障的数据[32]。

图7 本文所采用的轴承故障测试台

试验轴承型号为SSUC204,轴承内、外圈上的故障为宽度1.0 mm、深度0.3 mm的裂纹,钢球上的故障为直径1.0 mm、深度0.3 mm的凹坑。每种运行工况下,每类样本均采集了66×104个连续的采样点数据(12 kHz采样频率下采集60 s)。在完成数据采集后,采用与3.3节中完全一致的试验条件验证模型的有效性,即其数据集也被划分为了训练集、验证集、测试集,对应的样本量分别为300×4,100×4,300×4,每个样本均由1 024个连续采样点构成。

如图8所示:在试验条件不变的情况下,更换轴承数据集后,本文所提方法依然能够在所有的噪声环境下取得最优的平均诊断精度;SIM虽然在个别噪声环境下取得了优于本文方法的最高诊断精度,但其存在更大的精度波动,导致了平均诊断精度的降低,影响了结果的可信度。

图8 在自制数据集下不同模型所取得的诊断精度

根据图6和图8的试验结果,说明本文所提基于自注意力神经网络的轴承故障诊断方法不仅具有较强的鲁棒性和诊断精度,同时在更换数据集后也具有相似的有效性,即具有一定的可移植性和泛化能力。

4 结束语

针对工业实践中所采集轴承信号容易受到噪声干扰而导致故障诊断模型精度下滑甚至失效的问题,本文通过对模型深度、宽度的分析讨论以及位置编码方法的优化,提出了基于自注意力神经网络的诊断模型,并通过与其他主流模型的性能对比证明了本文所提方法能够在低噪声环境中取得接近100%的高诊断精度,在高噪环境下也能取得优于其他模型的诊断精度,对噪声具有较强的鲁棒性。

尽管本文为面向实际工业应用的故障诊断任务提供了一种新的诊断模型和模型构建思路,但仅考虑了高斯和拉普拉斯噪声对模型性能的影响,而没有采集工业现场的实际噪声信号进行分析,如何在实践中保障模型的有效性是下一步的重点研究方向。

猜你喜欢
注意力故障诊断轴承
轴承知识
轴承知识
让注意力“飞”回来
轴承知识
轴承知识
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
因果图定性分析法及其在故障诊断中的应用
基于LCD和排列熵的滚动轴承故障诊断
基于WPD-HHT的滚动轴承故障诊断