基于卷积神经网络的轴承故障诊断方法

2021-11-04 01:25胡天亮
林业机械与木工设备 2021年10期
关键词:轴承准确率故障诊断

王 鑫, 胡天亮, 习 爽*

(1.南京林业大学机械电子工程学院,江苏 南京 210000;2.山东大学机电工程学院,山东 济南 250000)

轴承广泛地应用于各种机电装备产品中,如机床、矿山机械,航天航空设备、汽车等,一旦其出现故障,将导致整个设备不能正常运转,严重时甚至导致设备崩溃。据统计,由于轴承失效而导致机械设备发生故障的情况约占30%~40%[1],因此必须采取一定的措施对轴承进行实时监测和故障诊断,在其发生故障前便进行维修,减少不必要的损失。

传统方法[2]是利用人工提取轴承振动信号特征并进行轴承故障诊断,对工人的经验要求高、成本高、耗时长且结果具有很大的随机性。近年来,工业领域中的机电装备逐渐大型化、智能化、复杂化,故障因素和种类也大大增加,依靠人工对轴承故障进行诊断和预防的难度越来越大,已不能适应社会发展的要求[3],因此迫切需要一种新型的诊断方法。近年来,深度学习已广泛应用于各个领域[4-5]。机器通过深度学习后,再次遇到类似情况时,便可以自动提取有价值的特征并进行分类,得出有用结论。目前在故障诊断领域,很多优秀的深度学习方法[6]不断问世,这也意味着轴承的故障诊断有希望进入自我诊断的智能阶段,这既具有理论意义,更具有实践意义。

深度学习的部分算法在轴承故障诊断领域展现了独到优势,这一阶段涌现的算法大多都是针对CNN进行改进,如Chen等将振动信号的一系列特征作为CNN的输入,用带标签的齿轮箱数据训练时,取得了前所未有的高准确率,但诊断用时过长,难以应用于实际生产领域;Janssens 等先对振动信号加窗,取没有重叠部分的频谱作为CNN的输入,准确率进一步得到提升,但与此同时诊断用时也进一步加长;Zhang等将时频分析和CNN相结合,激活函数选择缩放指数线性单位(SELU),有效地减少了训练过程中出现死点的概率,但对硬件的计算能力要求较高,诊断成本较高。与之前的轴承故障诊断相比,基于深度学习的故障诊断无需提取振动信号的特征,避开了人工提取特征的繁琐,降低了对技术人员的要求[7];同时具有很高的可移植性,易于推广。但该方法在具有上述优点的同时仍存在一些不足,如:诊断时需要大量带标签的样本;硬件计算能力有限;诊断用时过长;诊断准确率有待提高等[8]。因此,如何在利用CNN自动提取特征的优势上,设计出准确且高效的轴承故障诊断模型,仍是国内外学者研究的热点,未来还有一段路要走。

为了搭建出一个更优的模型,本文在神经网络中引入Dropout丢弃层来抑制过拟合,缩短诊断用时,并适当加深网络层数,提高诊断正确率。神经网络的基本架构选取在轴承故障诊断领域有一定优势的第一层宽卷积核深度卷积神经网络(WDCNN)算法[9],在该算法基础上进行改进,并通过相关实验探究了改进后模型的性能。

1 实验材料与方法

1.1 算法介绍

对工作中的轴承而言,其振动信号易于采集且能很好地反应轴承的状态,振动信号的频率与故障类型有着特定的对应关系。因此,本文所设计诊断模型的输入是在不同工作环境下轴承的振动信号,并对不同的故障类型贴上标签,输出结果即为判断的标签值。为了保证结果的准确率和实验的效率,诊断算法要能够对振动信号的特征进行全面、快速地提取,因此用卷积神经网络搭建的轴承故障诊断模型,应遵循以下法则[10]:将轴承的振动信号作为输入,输出为轴承故障类型,并与振动信号对应的标签进行对比;大小卷积核卷积使用。短时、全局特征由大卷积核捕捉,局部信息交给小的卷积核;迭代次数和网络深度应适中,既要考虑学习的准确率,又要考虑训练时间以及训练过程对硬件资源的要求;应充分考虑过拟合和梯度爆炸问题。

本文选取在轴承故障诊断领域中与上述设计法则最为接近的第一层宽卷积核深度卷积神经网络(WDCNN)算法[11]作为基础模型。在WDCNN算法[12]中,第一层神经网络采用一个64*1的大卷积核,用于获取整体的周期特征;其后的神经网络中均采用3*1的小卷积核,用于获得各个边缘的特征,且由于卷积核较小,计算速度很快。但该算法没有充分考虑过拟合问题,准确率较低,现有资料表明在特定条件下进行训练时,其准确率只有83.6%。

本文在此算法的基础上进行了以下改进:加深神经网络的层数,由原来的5层变为6层,加深模型对带标签数据的学习程度;在合适的位置引入Dropout丢弃层来抑制过拟合[13]现象,从而在减少诊断用时的基础上提高诊断正确率。

改进后的诊断算法基本流程[14-15]如图1所示。

图1 轴承故障诊断流程图

1.2 数据来源

由于疫情原因,无法去实验室利用实验平台获取实验数据,因此本次实验用到的轴承振动数据及其对应标签全部来自于美国凯斯西储大学(CWRU)提供的轴承公开数据集[16]。凯斯西储大学收集轴承数据的试验台如图2所示。其主要工作内容是在不同工况下进行一系列对比实验,获取不同故障的轴承振动信号,得到故障类型与振动信号的一一对应关系。

图2 西储大学收集轴承振动数据诊断台

本文选取的是采样频率为12 kHz时,健康轴承数据以及驱动端和风扇端在不同载荷、不同损伤位置(内圈、外圈、滚动体)、不同损伤直径(0.177 8 mm、0.355 6 mm、0.533 4 mm)的故障轴承数据[17],共计101种轴承样本,分别对应标号0~100。经过预处理贴上标签后,最大样本总数可达6 783个。

2 实验结果与分析

通过一系列对比实验,一方面与WDCNN进行对比,来判断改进效果是否明显;另一方面为模型确定了最佳参数。

2.1 模型改进后对准确率的影响

首先用上述数据集分别对原始的WDCNN模型及改进后的WDCNN模型进行训练,每次实验训练100次,重复10次实验,最终结果取平均值后绘制如图3所示的图像。

图3 原始WDCNN模型与改进WDCNN模型准确率对比图

由图3可以看出,原始WDCNN模型经过100次训练,准确率大概稳定在87%左右,而改进以后的模型准确率明显提升,准确率大概稳定在94%左右。因此表明增加网络深度,引入丢弃层可以有效地抑制过拟合问题,显著提高诊断准确率[18]。

在实际训练过程中可以发现,网络层数由5层增加到6层时,训练100次用时会增加8~10 s;而从5层增加到7层,训练100次用时则会增加18~22 s。综合考虑增加网络深度会导致诊断用时增加、对硬件的计算能力要求增加等问题,在对WDCNN模型进行改进过程中,只加深一层神经网络,以便在合理的时间内获得最高的准确率。

2.2 丢弃层参数对准确率的影响

2.2.1 丢弃率

与WDCNN相比,本模型最大的特点之一便是引入Dropout丢弃层[19],即在训练过程中随机关闭部分节点的激活功能。这样一方面可以减轻过拟合现象,另一方面可以有效减少计算量,加快诊断速度[20]。现有实验模型大多采用0.2、0.3和0.5的比例丢弃参数,为了寻找最适合本设计模型的丢弃率,做了以下四组实验:不添加丢弃层、丢弃率为0.2、丢弃率为0.3、丢弃率为0.5。四组实验数据互相对比,最终得出结论,将实验数据进行整合,得到图4所示的折线图。

由图4可以看出,加入丢弃层抑制过拟合现象之后,准确率和训练速度均明显提升。且在训练初期,由于数据量较小,硬件设备的计算能力可以轻松处理数据,此时并没有产生过拟合现象,不需要丢弃太多数据,否则学习程度不够,丢弃率为0.2和0.3时的效果相当且较高,学习效果较好;而到后期,大量数据的输入已经超出了硬件的计算能力范围,产生了一定程度的过拟合现象,因此必须丢弃部分数据,减轻计算压力,从而提高正确率,由图4可以看出丢弃率为0.3和0.5时的准确率明显高于0.2。充分考虑整个训练过程的准确率以及训练用时,本文认为丢弃率为0.3时诊断效果最好。

图4 丢弃率与准确率关系曲线

由图4可以看到一个异常的数据点:不添加丢弃层训练60次时,准确率出现低峰。初步认为这个实验结果是由于掺杂的轴承故障数据太多严重过拟合,甚至可能出现梯度消失或者梯度爆炸等问题,导致模型的工作效果不好。而在添加丢弃层的实验组中均没有产生模型突然失效现象,这也进一步说明了添加丢弃层的重要性。

2.2.2 丢弃层位置

找到最合适的丢弃率以后,需要找到合适的位置来放置丢弃层,从而达到最高的准确率。为了寻找放置丢弃层最合适的位置进行了以下探究,分别将丢弃层放置在第一层卷积之前、第一层卷积层内、最后一层卷积层内,得到了如图5所示的实验结果。

图5 丢弃层位置与准确率关系曲线

从图中可以看出丢弃层放置在第一个卷积层之前效果最差,放置最后一个卷积层内效果最好。这个结果与CNN模型的工作方式基本相符:当数据输入神经网络以后,若在卷积提取特征之前就关闭神经元的激活功能,就相当于剔除了许多数据,则很多特征将不会在后续被提取出来,很多特征都会丢失,导致准确率很低;但由于全连接层的神经元数目最多,最容易超出硬件的计算能力,产生过拟合现象,若在全连接层之前添加丢弃函数,会直接、有效抑制数据之间的过拟合现象,提高准确率;若将丢弃层放置在神经网络之间的某一层,将会有很大的随机性,若随机关闭的节点并没有剔除关键数据,则关键特征将会被提取并传递,相反若关键特征所在的神经元功能被关闭,该特征将从这一层神经网络开始被去除,导致准确率忽高忽低。因此,本模型将丢弃层放置在最后一层卷积内,即全连接层之前,这样模型的准确率一直稳定在较高水平。

2.3 迭代次数对准确率影响

模型参数确定好以后,接下来要探究迭代次数对诊断准确率的影响。迭代次数与准确率有着很大的关系:迭代次数太少,神经网络学习程度不够,难以进行正确的诊断;迭代次数过多,会占用较大的计算资源,诊断时间变长,且容易出现梯度消失和爆炸,导致准确率下降。为了在硬件设备一定的条件下尽量提高准确率,需要找到一个合适的迭代次数。在其他参数相同的条件下,探究迭代次数与故障诊断模型准确率的关系。分别迭代10次、20次、30次……100次,将pycharm中显示的运行结果进行整理,得到如图6所示的迭代次数与准确率关系近似图。

从图6可以看出,从第1次迭代到第5次迭代准确率直线上升,这说明在这一阶段,随着“学习次数”的不断增多,模型学到的东西越来越多,已经可以用于诊断;从第50次开始逐渐收敛[21-23],分类准确率最高可达93.86%,这个结果与目前已有的参考文献相符合,证明本设计训练的诊断模型具有一定的现实意义。

图6 迭代次数与轴承故障诊断模型准确率关系曲线

2.4 数据量对准确率的影响

为了探究输入数据量与模型准确率的关系,做了以下5组实验,并将多次实验的结果取平均值后记录于图7。

图7 输入数据量与准确率关系曲线

由图7可以看出:为模型提供的可以学习的标签样本越多,模型的准确率越高,且在其他条件相同时,刚开始随着样本数目增多,准确率明显提高;但对比5 061组与6 783组可知,当数据量达到一定程度时,准确率提升程度很小,但用时却大幅度增加,经济效益差。

出现上述实验结果的原因是:当数据量较少时,给模型提供的轴承振动信号特征不足,学习程度不够,导致模型学到的东西不多,下次遇到类似问题时无法给出准确结果;随着输入数据量的增多,振动信号的特征被不断挖掘出来,模型学到的东西越来越多,下次遇到同样问题时可以作出正确判断;但当数据量达到一定量,振动信号的特征相当于被多次输入,对硬件计算能力的要求大幅度提升,甚至可能出现过拟合问题,导致准确率提升程度不高。因此,在充分权衡训练用时与准确率后,确定本实验的最佳输入样本数目为5 601。

3 结束语

在现有轴承故障诊断模型WDCNN的基础上进行改进,一方面加深神经网络层数,另一方面在合适位置引入Dropout丢弃层来抑制过拟合现象。通过相关的对比实验可以看出,改进后的神经网络模型较以前在诊断准确率、诊断用时方面有了较大的提升。用美国凯斯西储大学提供的轴承公开数据集进行实验时,准确率可以达到94.6%,说明该模型在轴承诊断领域有着很大的优势。获取数据集以外的轴承振动数据将成为笔者进行下一步实验研究的重点。

猜你喜欢
轴承准确率故障诊断
比亚迪秦EV充电系统故障诊断与排除
异步立式感应电机轴承系统设计
基于包络解调原理的低转速滚动轴承故障诊断
无轴承电机的结构设计
泵用电机水润滑轴承选择与应用
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
数控机床电气系统的故障诊断与维修