董建伟,王衍学
(1.桂林电子科技大学 机电工程学院,广西 桂林 541004;2.北京建筑大学 城市轨道交通车辆服役性能保障北京市重点实验室,北京 100044)
滚动轴承作为旋转机械的重要组成部件,由于其工作条件复杂,收集到的振动信号也大多为非平稳、非线性信号。
在传统的滚动轴承故障诊断方法中,对其振动信号进行分析是目前普遍采用的一种方法,其相关信号处理的方法也已经成功应用到对滚动轴承的故障诊断中[1-5]。但是人工特征提取过程通常依赖于现有特征或评估标准,这使得挖掘新的有用信号特征变得困难。因此,研究一种能够直接从原始信号中提取特征,适应机械系统变化的自动特征提取方法很有必要。
近年来,深度学习技术越来越受到各个领域研究人员的关注。它具有学习高非线性样本特征的能力,可以逐层处理从输入数据中提取到的信息。从原始输入开始,深度神经网络(deep neural networks,DNN)可以自动发现大数据集中的复杂结构,并逐层学习有用的特征。随着深度学习的发展,智能故障诊断技术,如堆叠自编码(stacked auto-encode,SAE)、深层信念网络(deep belief network,DBNs)、卷积神经网络、长短期记忆神经网络(long short term memory networks,LSTMs)已被成功应用在故障诊断领域[6,7]。
李巍华等人[8]利用稀疏自编码器对不同传感器的特征进行了融合,并将融合的特征向量训练深度信念网络作了进一步的故障分类。陈雪峰等人[9]利用蚁群算法自动确定了深度自编码的模型参数,提高了模型的性能。HOANG D T等人[10]将振动信号转换为二维形式输入到卷积神经网络中,使得模型在不同的负载和噪声条件下,都能取得较好的分类精度。李新宇等人[11]将原始信号转换为灰度图像,消除了因手工提取特征对诊断精度造成的影响,并对不同故障类型的图像利用LeNet-5卷积神经网络进行了分类。黄如意等人[12]针对旋转机械复合故障的识别和解耦问题设计了多栈胶囊作为解耦分类器,完成了对复合故障的准确识别和解耦。谢佳琪等人[13]将原始振动信号转换为频域信号,利用改进的卷积置信网络对数据特征进行了自动学习,同时利用多特征融合增加了模型的泛化性。
然而,深度信念网络、卷积神经网络等深度神经网络的训练依赖于大量的样本,在训练数据不足的情况下,模型会受到过拟合因素的影响。此外,卷积神经网络中的池化层会导致一些有价值的空间信息的丢失,如位置、尺寸等参数,甚至造成输入变化很大,但输出变化很小情况的发生。对于时频图而言,在图中一个很小的变化,既可能是故障类型的变化,也可能是故障尺寸大小的变化。
基于传统卷积神经网络的缺点,HINTON G E和他的助手在2017年提出了胶囊网络(capsule network)[14],它可以保留确切的位置、方向、大小等参数,并且有输入的微小变化也能使输出带来微小改变。胶囊网络的结构是由胶囊组成而不是神经元,胶囊是一组神经元,可以对区域内的特定图像输出矢量,矢量的方向表示目标的姿态参数,矢量的长度表示该特征估计的概率大小,特征的矢量表示有效地提高了轴承故障诊断的准确率[15-19]。
为了解决传统方法需要手工提取特征,以及一些深度学习方法需要对原始信号进行二维转换等数据预处理,并且提取到的特征无法充分表达故障特征的问题,笔者提出一种端到端的滚动轴承故障诊断模型,即以一维原始振动信号为输入,残差网络自适应提取特征,并利用胶囊网络充分表达故障信息,以提高分类精度的诊断模型。
针对深度神经网络随着网络深度的增加出现的梯度消失和网络性能退化的问题,何恺明等人[20]提出了一种名为残差网络的网络结构,即在卷积神经网络的基础上引入了残差学习的概念。
残差块结构如图1所示。
图1 残差块结构
图1中,残差单元以一种跳层连接的形式实现,即将单元的输入直接与单元输出相加,然后再激活。当残差块的输入为Xl时,右侧为残差函数F(Xl),左侧为输入Xl的恒等映射,这两个分支的对应元素经过相加后,再经过Relu非线性变换激活函数,形成整个残差块的基本结构。将多个残差块进行堆叠而形成的网络结构被称为残差网络。
在胶囊网络中,网络输出以向量的形式存在,长度表示实体存在的概率,方向表示实体的性质。胶囊网络还将最大池化操作替换为动态路由机制,通过动态路由算法来计算一组路由系数;这些路由系数连接网络中相邻层之间的低层和高层胶囊,每个路由系数表示一个单独的低级别胶囊应该分配给一个高级别胶囊的概率,根据低级别胶囊和高级别胶囊的相似性程度确定路由的系数。
高层胶囊vj的计算过程如图2所示。
图2 向量的计算过程
(1)
sj的计算方式如下:
(2)
式中:cij—耦合系数。
对于每一个低层胶囊ui而言,所有的耦合系数cij大于0,并且总和等于1,其计算方式如下:
(3)
式中:bij—胶囊i和胶囊j相结合的对数先验概率。
在动态路由过程中所有的bij被初始化为0,通过下式迭代更新,即:
(4)
最后,笔者通过一个非线性激活函数Squash函数得到胶囊j的激活值vj,通过Squash函数确保每个高层胶囊的向量长度介于0和1之间,即向量的长度代表一个特定特征的存在概率。
Squash函数表示为:
(5)
由于动态路由算法在数据形状太复杂的数据集上不能达到很好的效果,笔者引入了一种适用性更好的模糊聚类的思想,对动态路由过程进行了改进;对每个对象和簇赋予一个权值,表明对象属于该簇的程度。
模糊聚类算法就是一个不断迭代计算隶属度wij和聚类中心vj的过程,直到它们达到最优解。
计算隶属度矩阵wij:
(6)
式中:ui—第i个样本,具有d维特征;vj—第j个簇的聚类中心,具有d维特征;l—聚类中心个数;wij—样本ui属于j类的隶属度矩阵;m—模糊程度;‖*‖—欧式距离度量。
计算聚类中心vj为:
(7)
由于模糊聚类算法是基于加权的欧式距离,其中最显著的一个特点就是聚类中心向量是类内向量的加权平均,不能像原动态路由过程使用向量的模长来表示特征的显著程度。通过增加一个标量aj衡量第j个胶囊的显著性,这个标量称为激活值,因此可以用不确定性来描述这个激活值,类内分布越分散,不确定性越大,类内分布越集中,不确定性越小。
不确定性可以用信息熵来度量,信息熵如下:
(8)
式中:Rij—通过贝叶斯公式求得的聚类中心的选取概率。
Rij的表达式为:
(9)
因为熵越小,特征越显著,笔者采用-Sj来衡量特征的显著程度,并且在做一些尺度变换后使用Sigmoid激活函数将结果压缩在0和1之间[21],即:
(10)
aj=sigmoid(λ(βa-costj))
(11)
其中:λ采用退火策略,随着训练过程慢慢增大;βa,βu通过反向传播进行优化。
于是可以得到改进后的动态路由算法:
step1:初始化wij,初始化aj(0 step2:迭代3次; step8:aj=sigmoid(λ(βa-costj)); 为了从原始振动信号中提取更加丰富的深层特征信息,防止因网络层数的增加产生梯度消失现象,笔者将残差模块和改进后的胶囊网络相结合,形成用于滚动轴承故障诊断的残差胶囊网络。 残差胶囊网络结构如图3所示。 图3 残差胶囊网络结构 图3中,网络结构主要由1个大卷积核卷积层、2个残差模块和1个胶囊层组成;该网络模型以一维原始振动信号作为输入,说明不需要任何人工预处理,采用大卷积核即可提取全局信息,并且减少了背景噪声的干扰;2个残差模块用于提取滚动轴承故障信号的深层特征信息,在主胶囊层构建胶囊单元。 为了减少参数数量,提升模型的泛化性能,笔者在数字胶囊层采用一种权值共享版姿势矩阵,如图4所示。 图4 权值共享姿势矩阵 图4中,整个网络模型以原始信号作为输入。首先使用卷积核为70×1,步长为15的1维卷积提取振动信号的全局信息;在第一个残差模块中,使用3×3的卷积核,步长为1用来提取低层特征,为了避免池化操作丢失信息,使用大小3×3,步长为2的卷积核增大感受野;第二个残差模块中使用堆叠两层大小为3×3,步长为1的卷积层;在主胶囊层采用8组9×9大小的卷积核构建胶囊单元。 笔者在提出的残差胶囊网络中使用边际损失作为损失函数,即: Lk=Tkmax(0,m+-‖vk‖)2+ (12) 式中:k—分类类别;Tk—指标函数;m+—上边界;m-—下边界;λ—比例系数。 其中:若k类存在则Tk为1,否则为0,设m+=0.9,m-=0.1,比例系数取值为0.5。 为了验证残差胶囊网络的故障诊断性能,本文选用了美国SpectraQuest公司的MFS-Magnum试验台的试验数据。 该轴承故障检测装置如图5所示。 图5 轴承故障检测试验平台 该装置主要包括:转速显示器、加速度传感器、手动调速器(变频)、试验轴承、电机、转轴、离合器等。试验轴承采样频率为25.6 kHz,轴承分别处于外圈故障、内圈故障和滚动体故障,每种故障状态下又分别处在9.9 Hz、19.88 Hz、29.87 Hz的转频下,加上正常状态下的轴承,共计需要识别10类不同状态的轴承。 为了防止模型产生过拟合现象,提高模型的泛化能力,笔者采用一种重叠信号分割的方式扩充数据集。 获取数据样本如图6所示。 图6 获取数据样本 图6中,从原始振动信号的起始点开始采集,每次采样1 024个点,采集完成之后向后移动200个数据点继续采集,直至所有样本采集完毕。 笔者将采集到的数据样本按照6:1的比例划分为训练样本和测试样本,其中每个类别的训练集样本数为6 000,测试集样本数为1 000。 为了客观地评价所提方法的性能,本文通过与其他深度学习模型进行比较,以验证残差胶囊网络的准确性和泛化性。 此处笔者选用准确率作为评价指标,对比方法包括:传统深度神经网络(artificial neural network,ANN)、卷积神经网络、残差神经网络(residual networks ,ResNet)、Inception1模型。其中,ANN采用6层全连接网络,CNN采用3个卷积层和2个池化层,一层全连接层;ResNet堆叠3个残差模块和一个全连接层,Inception1网络使用3个inception1模块。 在训练过程中,笔者使用Adam优化算法,学习率设置为0.001,迭代次数为30次。 多个深度学习模型的收敛曲线如图7所示。 图7 模型收敛曲线 由图7可知:在网络性能方面,残差胶囊网络可以很快地达到平缓的收敛状态,并且具有很高的诊断准确率,说明笔者所提方法相比于其他深度网络模型具有较强的鲁棒性和泛化性。 本文以滚动轴承的原始振动信号为输入,通过诊断其故障类别验证所提方法的有效性。为了减少随机因素的影响,验证所提方法的稳定性,笔者将该方法和对比方法重复试验3次;同时,为了定量对比5种诊断方法的诊断精度,笔者列出每次试验诊断精度及平均诊断精度。 3次实验的结果如表1所示(为了量化诊断性能,试验结果采取平均诊断精度作为衡量指标)。 表1 3次实验结果 从表1结果可以看出:本文所提出的网络模型取得了很好的效果,其平均预测精度达到了99.95%,明显优于其他方法;ANN,CNN,Incept1,ResNet分别达到了67.62%,98.54%,98.74%和98.65%,都低于本文方法,显示了本文所提方法的显著性能。 作为一种将故障分类结果可视化的工具,多类混淆矩阵可以反映故障分类的准确率和误分类率。其中,混淆矩阵的横轴表示样本的预测标签,纵轴表示样本的真实标签,颜色条表示值和颜色之间的对应关系;以混淆矩阵的形式给出了更详细的结果。 试验结果混淆矩阵如图8所示。 图8 试验结果混淆矩阵 从图8可以看出:ANN把第1类误分成了第0类,CNN对第0、4和6类中的某些样本不能很好地识别,Incept1对第0类和第3类有分类错误,ResNet对第0类和第6类有分类错误。 该结果显示,本文所提的方法对所有类都能很好地进行识别。 为了验证所提方法自适应挖掘高层特征的能力,笔者利用t-SNE(t-distributed stochastic neighbor embedding)技术,对高层特征进行可视化,并从聚类性能的角度对其可分性进行评价。 笔者对各个网络最后一层的特征进行t-SNE处理。为了将聚类结果可视化,将所有特征表示在二维特征图上。 基于t-SNE的可视化结果如图9所示。 图9 基于t-SNE的可视化结果 由图9可知:ANN中大部分数据点是混合的,说明网络不能很好地区分每一个类别;CNN、Incept1和ResNet中数据点聚类较好,但也有部分重叠,说明虽然能够区分开不同的类,但有些类之间的特征相似,不具有很好的鲁棒性;本文所提出的方法可以很好地表征相同故障状况的特征进行聚类,所有的类都可以被清晰地分离。 本文所提网络结构的主要思想是先提取原始信号的低层特征,通过聚类的思想转化为更抽象的特征,在聚类方面也做到了同类的类内间距小、不同类的类间间距大,说明了本文所提方法可以很好地对区分滚动轴承故障类别的基本特征进行提取,在特征提取方面具有智能性和有效性。 本研究提出了一种基于残差网络和胶囊网络相结合的滚动轴承故障诊断模型,实现了以故障轴承的时域信号作为输入,无需手工提取特征的滚动轴承故障诊断。笔者将所提出的模型在故障轴承数据集进行了试验验证,并与其他深度学习模型进行了对比。 试验和研究结果表明: (1)残差胶囊网络的分类精度和收敛速度都优于其他网络模型,证明了该网络模型具有良好的诊断故障类型的能力; (2)通过t-SNE的可视化分析表明,残差胶囊网络具有较好的自适应挖掘高层特征的能力和全面表达滚动轴承故障信息的能力。 在后续的研究过程中,笔者将进一步优化模型,以解决滚动轴承故障诊断在噪声污染和复杂工况环境下诊断准确率不高的问题。2 基于残差胶囊网络的轴承诊断方法
2.1 模型结构
2.2 模型损失函数
λ(1-Tk)max(0,‖vk‖-m-)23 实验及结果分析
3.1 数据获取
3.2 方法对比
3.3 结果分析
4 结束语