基于加权密集连接网络和注意力机制的滚动轴承故障诊断

2021-10-08 02:22赵一瑾

计算机测量与控制 2021年9期

赵一瑾

(云南交通职业技术学院交通信息工程学院，昆明 655000)

0 引言

滚动轴承是旋转机械中最重要的组件之一，在飞机，风力涡轮机，铁路轴和发电机等多个行业中具有广泛的应用[1-2]。由于高速，重载，极端工作温度和污染等严酷操作，轴承很容易发生故障。意外的轴承故障会破坏整个机械系统，停机时间和维护成本会大大增加运营成本。因此，检测轴承故障至关重要，特别是在早期阶段，可以提高系统的可靠性，也可以避免意外事故[3-4]。

当滚动轴承中存在局部缺陷时，会产生周期性或准周期性的脉冲，这意味着轴承故障能够通过从非线性、非平稳的振动信号中提取可识别脉冲频率来进行检测[5]。早期的滚动轴承故障检测方法主要使用小波变换[6]、经验模态分解[7]、希尔伯特-黄变换[8]等数学工具提取故障特征，采用人工干预的方式判别轴承是否发生故障。这类方法虽然具有较优的检测性能，但是由于过度依赖故障诊断专家的知识经验，已经不能满足当前大规模工业生产的需求[9]。近年来，机器学习被广泛应用于故障检测领域中，特别是具备自动特征提取和复杂任务处理优势的深度学习的引入，极大提高了故障诊断的效率和正确率。Liu等[10]利用递归神经网络在捕捉时间序列数据特征方面的突出能力，提出了基于门控循环单元的降噪自动编码器方法用于检测滚动轴承的异常情况并对故障类型进行分类。Wang等[11]提出了一种基于卷积神经网络的隐马尔可夫模型对机械系统的多故障进行分类。Wang等[12]提出了一种多尺度CNN网络的故障检测方法，利用振动数据在1维卷积和2维卷积通道中的不同特征组合来对故障进行高效分类。但是，上述方法对低噪声环境中采集到的数据具有良好的诊断效果，但是当信号中存在严重干扰时，检测效果欠佳。Zhang等[13]提出了一种基于端对端的深度学习模型用于克服噪声。为了提高检测精度，杨平等[14]提出了一种基于卷积胶囊网络的故障诊断方法，通过使用2个卷积层来提取原始时域信号的特征，然后利用胶囊网络来进行故障分类，经过大量数据的训练后，该方法能够在信号受到严重噪声污染时，依然拥有良好的诊断性能。然而，在大多数应用中，滚动轴承的异常数据是很难获得的。考虑由于异常数据的缺少而引起故障识别率降低的问题，Plakias等[15]提出了基于生成性对抗网络的故障检测方案，该方案中的生成器只学习正常样本中的特征，故障发生的检测结果由判别器基于表观损失和潜在损失函数计算的异常分数给出。

针对上述存在的问题，本文提出了一种基于加权密集连接网络和注意力机制的滚动轴承故障诊断的方法，用于解决复杂情况时检测精度低和因训练数据较少引起的性能下降的问题。该方法首先使用加权密集连接网络将属于不同空间表示级别的特征组成在一起，从而增强了提取信息的多样性。然后，引入注意力机制，将突出每个注意向量中具有重要信息的区域，同时通过估计每个特征映射的加权平均值来处理特征序列中的时间相关性。最后，将获得的特征信息输入到故障分类模型，输出每种故障类型的诊断结果。通过实验证明，所提模型包含较少的学习参数，因此识别故障发生所需的训练数据较少。同时，模型考虑了数据样本的时间相关性，在存在加性噪声的情况下提高了故障诊断性能并具有良好的鲁棒性。

1 基于加权密集网络和注意力机制的故障诊断方法

所提模型分为特征提取模块和故障分类模块两个部分，如图1所示。为了能够从原始信号中提取更多有用信息，特征提取模块使用加权密集连接网络对每个时间步长的原始信号进行处理，用于捕获空间相关性方面的故障特征；为了能够准确表征滚动轴承故障的特征，特征提取模块引入注意力机制，通过对故障特征进行适当的加权平均，获得特征序列之间的时间相关性。故障分类模块由批处理层、密集全连接层和Softmax函数组成，为了防止过度拟合现象的发生，该模块还引入了dropout技术。

图1 所提模型的整体框架

1.1 加权密集连接网络

对于每个时间步ti，密集连接网络将原始振动传感器信号作为输入，提取特征状态映射gi。图2给出了加权密集连接网络的架构。

图2 加权密集连接网络架构图

密集连接网络的核心是卷积层[16]，它通过在输入端使用卷积运算来模拟视觉皮层。为了实现该目标，使用核滤波器来估计多维输出的特征映射。每个核滤波器对应于卷积层输出中的一个特征状态映射，用于实现权重共享。其数学定义为：

(1)

式中：gi和gi+1分别表示输入和输出，Kj表示卷积层中第j个核滤波器，bj表示偏置。如图2所示，本文选择3个密集块组成，其中每一个密集块中的卷积因针对不同的特征而设置了不一样尺度，即卷积1、2和3的滤波器数分别为32、32和64，核尺寸为32、3和3。

为了能够保证特征信息的多次利用，密集连接网络在跨层连接时采用级联方式，所有层均进行两两连接，从而使得网络中的每一层的输入包含前面所有层的输出。使用密集连接网络目的是利用卷积块输出之间的短路径连接方式来保存网络模型上的中间信息，提高网络层之间的信息流动。同时，卷积块输出之间的级联连接有助于误差向早期层的传播，并增强训练过程中的梯度流。虽然密集连接网络的跨层连接够将低层表示与高层表示有效地结合，实现不同特征的提取，但是，也不可避免的造成了信息的冗余。而且每一个密集块中的卷积操作的作用不同，提取的特征也各不相同，因此也需要区分特征的贡献度。为了解决这一问题，本文对密集连接的跨层赋予不同的权重系数。由于高层特征信息对分类的影响明显高于低层特征，因此，将高层特征赋予较大权重：

(2)

此外，密集连接网络不同层之间直接连接的另一个优点是减少了学习参数的总数。因此，密集卷积模型对过拟合具有很强的鲁棒性，非常适合于训练样本数较少的应用。

1.2 注意力机制模型

由于加权密集连接网络从传感器输入信号xi提取的特征映射gi对时间存在依赖性，因此，本文通过引入注意力机制来近似所产生的特征向量的时空相关性。最近几年，注意力模型[17]被广泛使用在自然语言处理、图像识别等不同类型的深度学习任务中。对于轴承故障的检测，采用注意力机制有助于网络模型以人类智能的方式集中于特征向量图的不同方面，从而导出最相关的信息。图3给出了基于前馈神经网络的注意力机制模型。前馈神经网络参与每个特征映射，并输出表示特征映射故障检测能力的奖励值vi。而后，将Softmax函数应用于映射由值vi组成的向量，并将其归一化为概率分布ai。假设用g表示第i个时间步注意机制的输入向量(g=gi)，用v表示第i个时间步前馈神经网络的输出(v=vi)，hj表示前馈神经网络隐藏层第j个神经元的输出，用p和q表示前馈神经网络输入和隐藏层的神经元数，用Wh和bh表示隐藏层的权值矩阵和偏差向量，WO和bO表示输出层的权重向量和偏差，则等式(3)和(4)分别描述了前馈神经网络的前馈机制和Softmax层对奖励值vi的操作：

图3 基于前馈神经网络的注意力机制

(3)

(4)

注意机制的输出ai与相应特征向量gi在检测任务中重要性的概率分布相对应，并指示了从注意机制估计的相应特征映射gi的重要性：

(5)

此外，考虑到每个特征映射gi的重要性，本文估计了注意力机制的特征向量ci：

ci=aigi

(6)

最后，通过注意力向量ci的加权和值获得表征向量c：

(7)

式中,T表示时间步长总数，w1+w2+…+wT=1。由于每个权重wi对应于特定的时间步长ti，因此实现了时间积分。权重wi是网络的学习参数，通过训练网络模型估算获得。

2 实验与结果分析

为了验证所提算法的有效性，本文采用凯斯西储大学(CWRU)实验性轴承故障检测基准数据集[18]和智能维护系统(IMS)轴承数据集[19]进行测试，并将测试结果与基于门控递归单元的降噪自动编码器(GRU-DAE)[10]、深度卷积神经网络的变模分解(VMD-DCNN)[20]等方法进行了对比。所有实验的运行时环境的Windows 10系统，CPU是Intel Xeon E5-2650 v2 @2.6 GHz，RAM为128 G。

所提模型的模拟代码是用python3.5编写，使用Keras人工神经网络库并将Theano作为后端。本文选择分类交叉熵作为损失函数，随机梯度下降作为优化器。采用Nesterov动量法对梯度下降问题进行求解，将折扣因子和动量参数设置为0.9和0.01，学习速率设置为0.01。批量大小为200，每个模型都经过100个周期的训练。为了避免神经权值随机初始化的影响，还将每个实验运行20次。所提模型中加权密集连接网络3个卷积层的核和滤波器尺寸分别为32、32、64和32、3、3。注意机制的前馈神经网络隐藏层在CWRU 和IMS 数据集时分别采用32个神经元和8个神经元。

2.1 数据集

凯斯韦斯特储备大学(CWRU)轴承数据集提供了正常和故障情况下从试验台积累的振动信号。其主要部件是2马力的电动机、测功机和扭矩传感器。振动信号来自安装在驱动端、风扇端和电机支撑底板外壳上的加速度计。在本研究中，使用驱动端轴承信号，以12 kHz的频率采样。此外，电动机的模式是在4个负载水平下，0～3马力范围内运行，导致电动机转速在每分钟1 792～1 730转之间变化。在驱动端轴承上，会发生5种类型的故障：滚珠，内圈和3种外圈故障。具体而言，外圈故障相对于轴承负载区域的安装会显着影响振动信号的形式。在轴承数据集中，有外圈故障直接位于负载区域(@ 6：00)，或者位于负载区域正交(@ 12：00)和相反(@ 3：00)位置。此外，每种故障类型都包含不同直径的故障(0.007、0.014、0.021和0.028英寸)。在本文中，尝试通过考虑故障的不同类型和不同直径大小来训练模型，提高模型的识别率，进而确定故障的类型及其严重程度。因此，最终得到16种类别，如表1所示。此外，每个输入样本的维数等于100，大约相当于采样周期的四分之一。在创建训练和测试数据集的过程中，原始传感器数据被分为100点的段，两个连续样本之间的重叠为50点。

表1 CWRU数据集中类细节描述

IMS数据集由辛辛那提大学智能维护系统中心提供。在测试台中，有4个Rexnord ZA2115型双列轴承位于同一轴上。交流电动机通过摩擦带固定在轴上，可将转速保持恒定在2 000 rpm。采集数据的采样频率为20.48 kHz，弹簧机构应用于轴和轴承，提供6 000磅的负载。总共有8个加速度计，成对放置在每个轴承上。最后，为了获取数据，将热电偶传感器放置在每个加速度计上。试验台的轴承会出现内圈缺陷故障、外圈缺陷故障和滚子缺陷故障。发生的3种故障类型和正常状态是故障识别问题的4类，具体细节如表2所示。

表2 IMS数据集中类细节描述

为了探索所提出的模型的可行性，对CWRU和IMS数据集均使用3个不同的训练数据集(数据量各不相同)进行测试，如表3所示，研究模型的性能并与其他诊断方法进行了比较。从表中可以清楚的看到，训练数据集A中的样本数最多，数据集C样本数最少。本文使用3个数据集来测试不同样本数量训练的模型对应的精度变化趋势。

表3 CWRU和IMS数据集中的数据子集

2.2 结果分析

首先，进行第一个实验，通过应用不同的时间步数来检验模型学习原始信号数据时间相干性的可行性，即使用了3、4和5个连续片段来考虑时间相关性。此外，还对比了使用不同数量训练样本训练模型时的测试结果。图4(a)和图4(b)分别显示了CWRU和IMS数据集的实验结果，从图中可以明显看出，模型的诊断精度与训练样本的数量和时间步长是有很多关系的，随着训练集中样本数量的增多以及采用更多的时间步数，模型的性能会有所提高。当采用数据集A和时间步数为5训练模型时，其诊断的检测率为99.61%，相比于使用样本数量极少的训练数据集C和时间步数为3的情况，性能改善了2.51%。同时，还应该注意到，即是在数据样本很少时，时间步数为3的情况下，诊断检测率也达到了97.1%。上述结果说明了模型在样本诊断中的有效性，虽然诊断的检测率受到训练样本数量和时间步长的影响，但是，在最坏的情况下数据正确率依然取得较好的结果。

图4 不同样本数量和时间步长时的测试结果

此外，为了说明所提取的特征c的表征能力，进行第二个实验。该实验通过t-分布随机邻居嵌入(t-Distributed stochastic neighbor embedding,t-SNE)对注意机制的输出进行可视化。t-SNE机器学习方法采用仿射变换将高维数据变为低维数据，实现非线性降维的目的，非常适合于高维数据的低维空间的可视化。利用训练数据集C和时间步数为5对模型进行训练，得到所提取的注意特征。图5给出了CWRU和IMS数据集的t-SNE结果，用于直观地分析模型分类结果的优劣。从特征提取可视化图中清楚的看到，模型中基于注意力机制提取得到的特征在CWRU和IMS数据集中的不同类之间具有可分割性，从而有效地说明所提模型的分类机制更容易检测和识别异常样本。

图5 t-SNE可视化提取的注意力特征

为了验证所提模型在噪声环境中的故障诊断性能，进行第三个实验。具体而言，本文使用原始数据训练模型，然后在数据信号中添加不同级别的白高斯噪声，通过合成具有不同信噪比(signal to noise ratio,SNR)的噪声信号来检查其性能，并将结果与其他算法进行比较。图6给出了不同算法在不同噪声环境下的诊断结果。从图中可以看出，提出的方法在可变背景噪声水平下具有最佳性能。尽管其他方法在低噪声水平下表现良好，但是由于所提模型采用加权密集网络和注意力机制从原始信号中提取更多的细节信息，使得本文方法能够在噪声污染比较严重的信号中保持良好的诊断准确度，因而保证了模型对存在附加噪声的振动信号具有鲁棒性。

图6 不同信噪比时的识别准确率对比

3 结束语

本文提出了一种基于加权密集连接网络和注意力机制的滚动轴承故障诊断的方法，用于解决噪声污染严重时检测精度低和因特征表征困难引起的性能下降的问题。首先，模型中的加权密集连接网络利用连续层之间的短路径从振动信号中提取不同空间级别的特征并组合在一起，以增强信息的多样性；然后，基于前馈神经网络的注意力机制突出每个注意向量中具有重要信息的区域，并通过估计每个特征映射的权重来处理特征序列中的时间相关性；最后，将获得的特征信息输入到故障分类模型，输出每种故障类型的诊断结果。实验结果表明，所提模型优于其他对比方法，在加性噪声干扰的情况下具有较高的故障诊断准确率。