姜 山,封松林,吴 波,王文瑞,鲁方林,袁晓兵
(1.中国科学院 上海高等研究院,上海 201210;2.中国科学院大学,北京 100049;3.中国科学院 上海微系统与信息技术研究所 无线传感网与通信重点实验室,上海 200050)
轴承作为机械设备的旋转核心,广泛地使用在各种旋转机械设备中。对轴承故障诊断的研究一直都是学者的研究重点,一般故障诊断方法可以分为:基于搭建故障模型的方法、基于故障信号处理的方法、基于故障诊断知识的方法和多方法混合的方法[1,2]。其中,传统基于故障模型搭建和故障信号处理的诊断方法,如小波变换[3]、短时傅里叶变换[4,5]、经验模式分解[6~8]、支持向量机[9,10]等,要求通过构建数学模型来探索故障类型与故障现象之间的关联,随着机械装备不断向大型化和精细化方向发展,这种传统的方法[11]逐渐难以胜任诊断任务的要求。
深度学习算法由于其强大的特征提取能力,在故障诊断领域引起广泛的关注[12,13]。但传统深度学习算法需要大量数据训练模型,而轴承数据天然分布不均,带标签的异常数据十分稀缺。针对上述问题,迁移学习技术被应用在轴承故障诊断上[14]。赵宇凯等人[15]提出的基于VGG16网络的迁移学习算法,通过ImageNet数据集作为源域数据对VGG16网络进行预训练,保存预训练后的网络结构及参数用于对轴承故障数据进行分类;张根保等人[16]利用栈式稀疏编码器进行特征提取,利用SoftMax 函数进行分类,最终只需利用少量样本即可调整模型,完成变工况故障诊断;Yang B等人[17]提出一种利用迁移学习方法进行轴承故障诊断的方法,通过对神经网络进行迁移,同时添加正则项,最终实现了在缺乏数据的情况下训练可靠模型;Wen L 等人[18]在稀疏自编码器中加入最大均值差异(maximum mean discrepancy,MMD)以衡量源域和目标域的相似程度,泛化模型在变工况下的有效性。
本文针对单一带标签轴承故障数据稀缺,但物联网技术可以采集多源异构轴承故障数据的现象[19],提出一种基于并行网络多尺度特征融合的轴承诊断方法:首先,获取不同视角下采集的轴承振动数据,分别作为并行网络的输入;其次,利用迁移学习理论,通过预训练、微调的方式,分别获取针对不同视角数据的迁移网络模型,且将迁移网络并行布置,得到并行网络结构;再次,对并行网络提取的中间特征进行多尺度特征融合,用融合后特征训练分类神经网络;最后,通过测试集数据对训练的网络进行测试,验证网络的准确性。
卷积神经网络(convolutional neural network,CNN)[20~22]是应用最广泛的神经网络之一,其通常由卷积层、激活层、池化层和全连接层组成,结构见图1。
图1 CNN示意
卷积运算的数学模型为
式中 xl为第l 层卷积层的输入特征,wl为第l 层卷积核对应的权重,bl为偏置,xl+1为第l层卷积运算的输出特征,同时也是第l +1层的输入特征。
本文采用ReLU函数作为激活函数[23],激活层表达式如下
式中 f(·)为ReLU 激活运算,yl+1为经过激活后新的输出特征,xl+1为上层输入特征。
本文采用最大池化[24],表达式如下
式中 yl+1为激活层输出的特征图;x,y 为池化窗起始坐标;L,W为池化窗的长和宽;pl+1为池化窗范围内取得的最大值。
全连接层最后输出等于分类数量的结果,公式见下
式中 fc为全连接层最终输出,c 为第c 类分类,c =1,2,…,C;input为全连接层输入。
通过SoftMax函数得出不同分类出现的概率公式如下
式中 Pc为经过SoftMax函数后第c类对应概率。
本文选用VGG16网络作为并行网络支路的组成网络,表1为VGG16网络详细结构。
表1 VGG16 网络结构
本文采用迁移学习中的模型迁移方法,采用预训练—微调操作,先在大数据集上对神经网络参数进行充分预训练,然后将预训练的神经网络局部或者完整结构及参数迁移至新任务情景中实现“知识”迁移;再用目标域数据对网络进行参数微调,获得更匹配目标数数据分布的网络。由于神经网络浅层结构用于提取图像的通用特征,基于预训练—微调的模型迁移方法可以节约大量用于训练网络浅层结构的数据。
如图2所示,本文并行网络结构由2 条迁移VGG16 卷积网络并行组成,迁移VGG16 网络均采用预训练—微调的模型迁移方法获得。首先,利用自然图像数据集ImageNet对VGG16网络进行预训练,然后,用连续小波变换(continuous wavelet transform,CWT)处理1D 信号所获取时频图PCWT微调支路1网络参数,用直接截取的轴承振动监控波形图Pwave微调支路2 网络参数。完成预训练—微调的迁移VGG16网络模型分别提取轴承故障数据的中间特征fVGG16—CWT,fVGG16—wave。式(6)、式(7)为所提取特征的表达式
图2 并行迁移VGG16 网络结构
式中 fVGG16—CWT,fVGG16—wave为2条支路分别提取的故障数据中间特征;PCWT,Pwave为并行神经网络不同分支的输入数据;ImageNet 为迁移学习的源域数据集,fc1 为最终输出特征的网络层次。
本文提出一种多尺度特征融合方法。如图3(a)所示,首先,将并行CNN提取出的中间特征进行拼接,获取联合特征fjoint。然后,对拼接特征fjoint分别进行1 ×1、3 ×1、5 ×1卷积以及3 ×1池化操作;通过1 ×1 卷积操作获取特征的非稀疏表达,通过3 ×1 和5 ×1 卷积获取特征不同尺度的稀疏特征,通过3 ×1池化获取局部宽尺度特征。经过上述多尺度采样操作,获取最终融合特征ffusion。式(8)、式(9)为联合特征fjoint和融合特征ffusion表达式
图3 特征融合模块和分类模块
式中 fn(fjoint)为第n路子结构对拼接特征fjoint进行特征提取后所得子特征;n为子结构总数量;n =1,2,3,4。
分类模块第一层为全连接层输入层,直接取特征融合模块输出的最终融合特征;经过全连接网络后输入SoftMax层得到最终分类结果。为了增强分类模模块的泛化能力,在分类模块的全连接层与全连接层、全连接层与SoftMax层之间添加Dropout层以及ReLU层。图3(b)为分类模块结构。
1)获取轴承不同视角振动信号;2)对输入网络的数据进行预处理,如信号采样、获取信号时频图、波形图等;3)将预处理后数据分别输入并行VGG16网络,获得对应的特征输出fVGG16—CWT,fVGG16—wave;4)将步骤(3)所得特征输入特征融合模块,输出融合特征向量;5)利用融合特征训练分类模块,直至模型最终收敛;6)验证融合模型,用测试集数据验证模型检测准确性。上述诊断步骤如图4。
图4 故障诊断流程
本文采用凯斯西储大学(Case Western Reserve University,CWRU)轴承数据中心提供的轴承测试数据集作为实验训练集。该数据集中一共设置了3 种类型的故障类型,分别为轴承内圈故障(inner-ring fault,IF)、外圈故障(outerring fault,OF)和球体故障(sphere fault,SF),同时也采集了无故障(NO)数据,每种故障分别用电火花加工出0.007,0.014,0.021,0.028 in(1in =2.54 cm)4 种不同的故障直径,共有12种故障,此12种故障分别用0,1,2,3 hp驱动力进行驱动。
驱动电机转速取值范围为1 730 ~1 797 r/min,信号采样率为12 kS/s,为保证输入信号至少包含一个完整的轴承旋转周期,每个取样窗中至少包含400(12 000/1 797 ×60 =400.7)个采样点;考虑到信号边缘的无效区域,为了增强信号鲁棒性,最终采用1 024 个采样点作为一个训练样本,相邻的样本之间取50%的重叠采样率;在最终获取的所有样本集中随机选取50%作为训练集,其余作为测试集。
本文设计实验针对2 种轴承故障情况进行验证,情况1,同样的轴承故障尺寸,不同的故障位置;情况2,同样故障位置,不同的故障尺寸。图5 为不同情况下轴承故障数据图像。其中,第1行为正常轴承数据,左侧为采集的轴承振动波形,右侧为对应的CWT时频图;第2 行为2 hp驱动下不同轴承故障位置对应的故障数据,上部数据为振动波形,下部数据为对应的时频图,从左到右依次为轴承IF、SF和OF;第3行为2 hp驱动下不同尺寸的轴承IF,从左到右依次对应0.007,0.014,0.021 in 大小故障,同样上层数据为轴承振动波形图,下侧数据为对应时频图。
图5 轴承故障数据
本文中设计表2结构的CNN作为对照模型,设振动波形数据输入对照CNN组为实验1,时频图输入对照CNN组为实验2;同时设迁移VGG16网络分别输入振动波形图和时频图作为实验3 和实验4;设并行网络结构但不进行多尺度特征融合为实验5;设并行网络结构及多尺度特征融合为实验6。每组实验分别针对情况1 和情况2 进行验证。
表2 对照CNN结构
表3记录情况1和情况2下各组实验最终收敛所需迭代轮数和最终收敛准确率。由于各组实验收敛轮数相差较多,故只取前50轮迭代准确率,如图6。
表3 实验结果
图6 情况1 和情况2 下各组实验50 轮迭代准确率
由表3和图6(a)可得情况1 结果:实验6 为最终提出算法,经实验验证只需经过约11 轮迭代即可收敛于99.6%的准确率。由表3和图6(b)可得,实验6验证本文所提算法,最终以最快的收敛速度取得最高的准确率。
从6组实验结果中可以得出:1)无论是振动波形图数据还是时频图数据,均包含可供神经网络学习的故障特征。2)实验5验证并行迁移VGG16 网络提取特征直接拼接进行故障诊断方法效果,结果证明,在2种情况下其最终诊断准确率均要高于单一神经网络模型。值得注意的是:在情况1下,虽然实验5收敛准确率最高,但其前期收敛速度慢于实验4,而在情况2下,实验5 收敛速度和准确率均高于实验3和实验4,表明并行网络结构相对于单一神经网络可以对故障进行更多角度的表征。但从不同故障数据处理方法中提取的特征并不一定正相关,如果提取的两个特征起始相关性不强,融合模型初始表现并不一定会优于单独神经网络的表现。3)实验6 验证本文提出的算法效果,主要与实验5进行对比可以发现:加入多尺度特征融合模块后,其网络模型在2种情况下表现均优于实验5,证明多尺度特征融合方法可以更好地提取包含在单一网络模型提取出特征中的有效信息,通过更多角度、更多尺度的故障特征表征。
通过实验得到如下结论:1)直接采集的振动信号数据和监视器屏幕截图数据,可以提取出有用的故障特征并应用于轴承的故障分类,从而减少了对数据处理先验经验的依赖、也减少了人为处理数据造成的有效数据丢失。2)利用并行CNN结构,同步提取不同视角下轴承故障数据中的中间特征;设计多尺度特征提取模块,获取对多视角特征的多尺度表达,实现对故障特征进行大尺度的全局解释和小尺度的局部特征高精度解释,获取更好的故障特征表征。
3)针对轴承故障的不同分布,设计不同的实验进行验证,多角度验证本文算法的故障诊断能力。