郭 敏,周 超,郑成基,陈 鹏,胡国宾,范青荣*,朱小红
(1.武汉理工大学 机电工程学院,湖北 武汉 430070;2.中国轻工业长沙工程有限公司,湖南 长沙 410114)
齿轮是机械设备中应用比较广泛的传动部件之一,其健康状态的好坏关系到设备能否高效稳定地工作,因此,对齿轮进行故障诊断具有重要的意义。
随着智能故障诊断技术的发展,许多基于传统机器学习(machine learning,ML)和深度学习(deep learn-ing,DL)的技术被应用到了齿轮故障诊断中[1-2]。其中,基于深度学习的故障诊断方法是否成功在很大程度上取决于2个条件:1)足够数量的训练样本;2)训练集与测试集遵循相同的数据分布和故障类别[3]。
在实际工程中,由于齿轮运行工况的多变,采集的故障数据存在分布性差异大和数据非均衡性等问题,用一个原本诊断精度良好的故障诊断模型去诊断另一工况下的故障,其诊断精度将大幅下降。因此,在运行工况多变的情况下,如何能够训练出一个诊断精度良好的故障诊断模型仍是当今的相关研究热点之一。
随着计算机技术的高速发展,越来越多的学者将深度学习技术运用于机械产品的故障诊断中。深度学习模型对数据特征比较敏感,其能够提取原始数据中更深层次的特征。元学习(meta-learning)[4]作为深度学习中一个前沿的技术,其具体思想是从大量的先验任务中学习到元知识,利用以往的先验知识,指导模型更快地学习(在新的任务中);因此,可以将元学习技术用于变工况齿轮故障诊断中。
目前,元学习的研究方向主要有基于优化、基于度量和基于模型[5]这3类。在已有的基于元学习的故障诊断方法中,ZHANG Shen等人[6]提出了一种基于模型不可知元学习(model agnostic meta learning,MAML)的轴承故障诊断方法,其目的是利用有限的故障数据,训练出良好的故障分类器。
基于模型的元学习的基本思想是寻找最优初始超参数,在初始超参数良好的情况下,模型能以较少步骤的梯度快速地学习新任务。然而,最优初始超参数的寻找是困难的,模型参数设置不当不仅会影响MAML的收敛速度[7],而且对于特定任务的调整参数通常还会费时费力,且计算成本较大。此外,WANG Si-han等人[8-9]分别提出了基于度量元学习的增强关系网络,以及基于特征空间度量的元学习模型,并将其用于轴承的故障诊断。
采用上述方法虽能在故障诊断中获得较高的诊断精度,但由于故障振动信号频率成分复杂且多样,在运行工况变化较大的情况下,这些模型不能很好地提取到更深层次的故障特征,并将其联系起来,容易忽略掉故障信号之间的相关性。
笔者基于元学习技术中的原型网络,构建一种故障诊断模型,以期实现变工况下的齿轮故障诊断目的。
首先,笔者对原始齿轮故障信号进行重采样,以增加故障样本的数量,并对其进行短时傅里叶变换,将其转化成更符合模型输入的二维时频特征图;然后,基于元学习技术中的原型网络[10],将初始模块(Inception模块)[11]引入到模型的特征提取模块中,以增加特征提取网络的宽度,获得多通道信息交互的特征数据,提高其特征的提取能力(便于后续网络生成更准确的故障类原型);最后,采用度量分类器,在变工况条件下进行齿轮的故障诊断。
元学习即学会学习,是利用之前学习过的知识或经验,在学习新任务时使模型能快速适应。且其模型所需训练样本较少,一般用于提高模型的泛化能力,将模型更好地泛化到差别较大的任务中。
元学习的训练机制为阶段式训练机制[12],即模型训练时有很多个不同的任务(task),每个task中都包含一个用于获取特定知识并提供反馈的支持集(support set)和一个用于评估模型泛化性能的查询集(query set),task中的支持集和查询集随机从数据集中抽取。
在进行训练时,元学习需要保证训练集、验证集和测试集中的数据类别完全不同,但是每个task下的支持集和查询集中的数据类别要保持一致。模型经过多个task训练后,将学会从较小且数据分布差异较大的数据集上学习。
上述数据集的划分通常用N-way K-shot表示,即task中的支持集和查询集都采用N-way K-shot的方法进行设置。每个task中的支持集和查询集都有N个不同类别的数据,每个类别中有K个数据样本。据文献[12]1-7可知,当模型在训练和测试时,采用相同数量的way和shot可以获得更好的效果。
元学习训练集划分的详细规则如图1所示。
图1 数据集的划分
同理,验证集和测试集也采用相同的划分规则。
图1中,数据集分为支持集和查询集,每个数据集分为n个Task,每个任务包含N类故障类型,每类故障的支持集和查询集各有K个样本。其中,实线部分为N-way 1-shot,即支持集和查询集中含有相同的N个故障类型,且每类故障含有有1个样本;黑色虚线所框起来的部分为N-way 2-shot。
当每类故障样本为K时,即N-wayK-shot。
原型网络[10]1-12(PN)是一种简单、高效的小样本学习方法,其基本思想是创建各类的类原型表示,并根据类原型与查询点(新点)之间的距离,对查询点进行分类。因此,故障分类问题就转化为特征空间中最近邻问题。
笔者采用欧式距离进行相似性度量。
原型网络示意图如图2所示。
图2 原型网络示意图
图2中,C1、C2和C3分别代表3个种类的类原型;X表示待分类样本点。
假设数据集D={(x1,y1),(x2,y2),(x3,y3),…,(xn,yn)},在阶段性训练时,笔者从D中随机抽取n个样本点用于组成支持集S。同理,笔者选择与支持集不同的n个样本点,将其组成查询集Q。
原型网络计算流程图如图3所示[13]。
图3 原型网络计算流程图
图3中,原型网络的结构主要分为3个模块,即特征提取、获得类原型和距离计算。
图中fφ(·)为特征提取器,特征提取器通常是三层卷积神经网络,卷积层1参数为[3,64,3](输入通道为3,输出通道为64,卷积核大小为3×3);卷积层2参数为[64,64,3];卷积层3参数为[64,64,3]。其中,每层卷积输出时都通过了批正则化、激活层和最大池化层。
首先,笔者将支持集中各故障类别数据输入特征提取器中,学习数据中的非线性特征,得到每个样本的数据特征;然后,计算每一类数据样本特征的平均值,得到类原型Ci。
Ci计算方法如下:
(1)
式中:S为支持集中总的样本数量;(xi,yi)为样本的特征和标签;fφ(xi)为特征提取器提取的特征。
然后,笔者将查询集中的查询点数据输入到同一个原型网络中的特征提取器,得到特征嵌入CQ;再依次计算CQ与各类原型的距离,即得到查询集嵌入特征与各类原型的距离度量d,d越小,相似性越大;最后将d取负,将其输入SoftMax函数中,预测查询集属于某个类别的概率pφ(y=k|x)。
概率计算如下:
(2)
式中:d为查询点与类原型之间的欧式距离,距离越小,相似性越大。
笔者将Inception模块引入原型网络的特征提取层中,在保证模型原有效果的前提下,Inception可以增加网络的宽度,以获得多通道信息交互的特征数据。
Inception模块的多分支结构相当于多次对输入数据进行提取,可以更好地提取并保留输入图像的细节特征,从而提高模型整体的特征表达能力。
笔者所提出的Inception模块结构如图4所示。
图4 Inception模块结构
图4的Inception结构由3个不同感受野的分支组成。输入的故障数据经多分支处理后,能获得含有多通道信息交互的特征图。第一分支(从左往右)先通过步长为1的1×1卷积核,以减少输入特征参数,然后通过3×3卷积层(其中步长为2,填充为0);第二分支先通过1×1卷积层,再通过2个步长和填充分别为1、1和2、0的3×3卷积层,以更好地提取故障数据的特征;第三分支先通过步长为2,填充为0的最大池化层,对其进行池化,以减少参数的数量,然后通过步长为1,填充为0的1×1的卷积核。
笔者将经过3个分支处理后的特征进行拼接,得到多通道信息交互的特征数据,从而提高网络的特征提取能力。
齿轮故障诊断是一个典型的小样本分类问题,因此,基于元学习技术中的原型网络,笔者提出了一种变工况下齿轮故障诊断方法(VWFD)。
VWFD诊断模型如图5所示。
图5 VWFD诊断模型
图5中,VWFD模型主要分为数据输入模块、数据划分模块、特征提取模块和距离计算模块。
首先,笔者对原始故障数据进行重采样,并进行STFT处理,将处理好的时频特征图划分为支持集和查询集;再采用含有Inception模块的特征提取器,获取更全面的故障特征,利用支持集计算各类齿轮故障的故障类原型;然后计算查询集与各故障类原型的欧式距离,将距离结果输入SoftMax分类器中,得到故障预测结果;采用交叉熵损失函数计算预测结果与真实结果的损失,并采用Adam算法更新模型超参数,学习率设置为0.001,对模型进行反复训练,直至得到最优模型参数与齿轮故障类原型。
VWFD模型的结构与参数如表1所示。
表1 模型结构与参数
笔者在卷积层1、2、3、4的后面均添加了批正则化、激活层和最大池化层。
为了能够使模型收敛得更快,并减弱过拟合,激活层的激活函数采用ReLU。
文献[14]指出,振动信号的时频特征图作为卷积神经网络的输入数据非常合适。因此,笔者采用STFT将齿轮振动信号转化成二维时频特征图像。
STFT的实质是对信号做傅里叶变换之前,引入一个时间有限的窗函数h(t),对其进行分析,并假设非平稳信号在分析窗的短时间隔内是平稳的,然后进行傅里叶变换。
其具体的计算公式如下[15]:
(3)
式中:x(τ)为时域信号;ω为频率;t为时间;h(τ-t)为以t为中心的窗函数。
当模型缺乏训练样本,尤其是样本之间特征变化过小时,其可能会出现过拟合的问题,从而降低模型的分类效果。此时,可以采用重叠采样的方法进行数据样本量的扩充,以缓解模型的过拟合,提高模型的分类精度。
数据重采样如图6所示。
图6 原始数据样本扩充
图6中,对于原始齿轮故障时域信号,采用大小为1 024的窗口(即1 024个数据点)进行重采样,以扩充数据的样本,且信号的重叠率为0.5。
采用重叠采样,不仅能增加样本,还可增加样本之间的相关性,从而增强训练模型的鲁棒性。
笔者提出的改进原型网络变工况齿轮故障诊断流程如图7所示。
图7 原型网络齿轮故障诊断方法流程
首先,笔者将预处理好的故障数据划分为训练集、验证集和测试集(3个数据集的齿轮故障类别完全不同),并将这3个数据集划分为支持集和查询集;
然后,在训练阶段,采用训练集进行模型的预训练,将训练阶段模型参数传递给验证阶段,进行验证,并判断训练和验证阶段的模型是否收敛;若都没收敛,将验证阶段得到的模型参数再次传递给训练阶段,即一轮训练一轮验证,直至训练阶段和验证阶段的模型都收敛,以该机制进行训练,最终得到既含有训练集又含有验证集元知识的模型;
最后,将得到的模型参数传递给测试集进行测试,即可实现变工况下的齿轮故障诊断目的。
为了验证VWFD模型的有效性,笔者采用功率开放式齿轮传动装置作为实验平台,对标准渐开线圆柱直齿轮进行齿轮故障运行故障模拟实验,以采集齿轮故障数据。
齿轮实验平台如图8所示。
图8 齿轮实验平台
实验平台主要由1个变速三相异步电机、3个联轴器、1个齿轮箱、1个扭矩传感器和1个电磁涡流制动器组成。
笔者选择点蚀齿轮进行故障诊断研究,选择5种齿轮进行测试,即正常齿轮(Normal)、1个点蚀齿轮(1spot)、2个点蚀齿轮(2spot)、3个点蚀齿轮(3spot)和严重点蚀齿轮(pitting)。
正常齿轮的齿面无故障。为模拟轻微点蚀故障及其发展趋势,笔者在正常轮齿的齿面上人工钻取一些点损伤,称为点蚀齿轮。
具体齿面情况如图9所示。
图9 实验齿轮齿面
图9(a)为齿面无故障的正常齿轮;
图9(b)为1个点蚀损伤齿轮,在其1个齿面上的啮合节线上钻1个直径为2 mm、深度约为0.3 mm的点损伤,形状类似椭圆形;
图9(c)和图9(d)分别为在其啮合节线上有2个和3个点蚀损伤的齿轮,点蚀大小和钻孔位置与上述保持一致;
图9(e)为实际严重点蚀齿轮。齿轮箱中主动轮为故障齿轮,从动轮为正常齿轮。
笔者采集了不同转速与不同负载下的点蚀齿轮故障数据,转速分为1 200 r/min、1 800 r/min、2 400 r/min和3 000 r/min,负载分为40 N·m、60 N·m和70 N·m,采样频率为20 kHz,齿轮测试时间为2 s。因此,每种故障齿轮有12种运行工况。
笔者采用上述重采样技术,对原始齿轮故障信号进行切片,以扩充故障样本。因此,在较少原始样本的情况下,每种工况下齿轮能获得100个样本,数据集总样本数量为6 000。
该实验主要分为3种变工况类型的齿轮故障诊断:1)同负载、不同转速;2)不同负载、相同转速;3)不同负载、不同转速。
具体数据集划分如表2所示。
表2 数据集划分
表2中,40~1 200代表齿轮的运行工况为负载40 N,转速1 200 r/min;故障类型的5类分别为Normal、1 spot、2 spot、3 spot和pitting,且每类样本数均为100。
上述3种变工况类型的诊断实验都设置了3-way 1-shot、3-way 3-shot、3-way 5-shot等实验组,即每一个训练、验证和测试的task任务中都包含3种不同的故障类型,每个任务中的支持集分别含有1个、3个和5个故障样本,与之对应的查询集中分别含有1个、3个和5个故障样本;
同时,笔者也设置了5-way 1-shot、5-way 3-shot、5-way 5-shot实验组,每组的task任务中包含5种不同的故障类型,每个task任务下对应的支持集和查询集的设置同上。
笔者按照图7所示的训练流程进行模型的训练,设置模型训练和验证的迭代轮数为250。
由于不同特征对各故障的效果不同,为了减少故障诊断过程中人为操作对原始数据的影响,笔者直接使用原始齿轮振动数据进行短时傅里叶变换(STFT),再进行故障的诊断。
在图5的特征提取模块中,Inception模块引入的位置和数量对网络整体特征提取能力的改进效果并不一样,模块引入的位置和数量不对,反而会使模型的诊断精度下降。
为了验证Inception模块的合理性,找出最优引入数量与引入位置,笔者进行了一系列对比实验。数据集选用表2中同负载、不同转速数据集,实验组为5-way 5-shot。
不同数量与位置Inception模块实验对比结果,如图10所示。
图10 不同数量与位置Inception模块实验对比结果
图10中:实验结果为进行5次实验的平均结果,横坐标中的“无”代表不引入Inception模块的原型网络;“1”代表在图5所示特征提取模块的Conv-1后面引入一个Inception模块;“1,3”代表在特征提取模块的Conv-1和Conv-3后面分别引入一个Inception模块,其他以此类推。
从图10可知:当不引入Inception模块时,原始模型的诊断精度为89.56%;当Inception模块放在特征提取模块Conv-3后面时(引入数量为1),模型的诊断精确度高达91.26%,比不引入Inception模块时的诊断精度提高了1.7%,并且比Inception模块放在其他任何位置时的诊断精确度都高;此外,当Inception模块引入的数量为2个模块时,无论将其放在任何位置,其模型的诊断精度均远比引入一个Inception模块的诊断精度要低,且比不引入Inception模块的诊断精度还低。
以上结果表明,VWFD模型与Inception模块引入的位置和数量合理有效。
为验证VWFD模型在变工况下的齿轮故障诊断性能,笔者采用表2中的3类变工况齿轮故障数据进行实验;同时,为了避免实验结果具有偶然性,每类工况实验均进行5次,并求取其平均值。
VWFD模型诊断实验结果如表3所示。
表3 VWFD模型3种变工况类型诊断实验结果 (%)
从表3可知:VWFD模型在故障类别数(way)一样,支持集和查询集的样本数为1时,模型的故障诊断精度都能达到64%以上,并随着样本数量的增加,模型的故障诊断精度也随之提高;当故障类别数为5,支持集和查询集的样本数为5时,3种变工况类型的诊断精确度都能达到90%以上;在相同负载、不同转速的变工况故障诊断类型中,当样本数量一致时,随着故障类别数的增加,模型的诊断精度也会有一定程度的提高。
为了更加直观地展示出VWFD模型在故障诊断中的表现,笔者将表3中的实验结果(诊断精度为92.76%)导入混淆矩阵,并绘制该模型在测试集上的诊断结果。混淆矩阵能清晰地展示每类故障被正确诊断与误诊的数量,以及被误诊为何种故障。
测试集诊断结果混淆矩阵如图11所示。
图11 测试集诊断结果混淆矩阵
图11中,横坐标为预测标签,纵坐标为真实标签,主对角线上的数字为故障类别预测正确的数量,其余数字为被误诊的数量以及具体被误诊为何种故障。
由图11可以看出:VWFD对于齿轮早期轻微点蚀故障诊断具有较高的诊断精度,由于1 spot故障齿轮是轻微的齿轮故障,其故障信号与正常齿轮信号差异不是很大,所以两者之间相互被误判的次数比较多。
为验证VWFD模型的优越性,在数据集相同的前提下,笔者将该模型与SVM、CNN和PN这3种故障诊断模型(方法)进行了对比。其中,CNN的特征提取模块为3层的卷积神经网络和1层全连接层,卷积层1参数为[3,64,3](输入通道为3,输出通道为64,卷积核大小为3×3);卷积层2参数为[64,64,3];卷积层3参数为[64,64,3]。其中,每层卷积输出时,都通过了批正则化、激活层和最大池化层。
为避免实验结果的偶然性,笔者对上述几种故障诊断方法分别进行了5次实验,并取其平均值。
4种故障诊断模型的对比实验结果,即平均准确率如表4所示。
表4 4种故障诊断模型对比实验结果 (%)
从表4可以看出:不管是在哪种变工况类型下的故障诊断中,对比其他3种故障诊断方法,VWFD方法的测试准确率是最高的。这表明VWFD模型具有较好的故障特征提取能力,有利于得到更准确的故障类原型,提高模型在变工况下的诊断精度;
当故障类别(way)一定时,随着样本数量(shot)的增加,上面4种故障诊断方法的测试准确率都得到了提高。这说明在故障诊断中,样本量的增加有利于提高模型的测试精度,且在一定程度上可以缓解模型过拟合。
在上述3种变工况故障诊断实验中,当way和shot一定时,传统的机器学习方法SVM的测试诊断精度都低于其他3种基于深度学习的故障诊断方法,尤其是在不同转速、不同负载变工况故障诊断实验下的3-way 3-shot实验组中,SVM的测试准确率最低,只有35.42%;由于CNN特征提取能力的提高,测试准确率相较SVM提高了24.02%;基于度量学习的PN相较于CNN的测试准确率提高了19.11%,PN模型能够很好地提取故障特征,并利用基于度量的学习,计算得到各类齿轮故障的类原型,提高模型的诊断精度。
笔者提出的基于改进原型网络的VWFD模型虽然在一定程度上增加了网络的复杂性,但其泛化能力和特征提取能力相较于PN都有所提升,准确率也比PN提高了4.23%。
以上结果可以进一步证明,VWFD方法在变工况下的点蚀齿轮故障诊断中是有效的,即在原型网络中添加Inception模块,有助于提高模型的性能,以及模型的诊断精度及其泛化能力。
在变工况齿轮故障诊断过程中,存在齿轮运行工况多变、数据分布差异性大等问题,导致传统的深度学习模型通用性差和诊断精度低。为此,笔者提出了一种基于元学习技术的变工况齿轮故障诊断方法,并搭建了齿轮实验平台,采集不同工况下的点蚀齿轮故障数据,对VWFD方法的适用性和有效性进行了验证。
研究结果如下:
1)将元学习技术中的原型网络运用在变工况齿轮故障诊断中,基于原型网络建立了各类型工况下的齿轮故障类原型,利用欧式距离来计算查询点与类原型的距离,并进行分类,这在一定程度上提高了变工况齿轮故障诊断的准确率和模型的通用性;
2)在原型网络的特征提取器中引入Inception模块,可使网络能够对输入数据特征进行多次提取,并保留更多的故障细节特征信息,提高了模型整体的特征表达能力,使原型网络获得了更加准确的故障类原型,提高了模型的诊断精度;
3)在变工况点蚀齿轮故障数据相同的条件下,VWFD与SVM、CNN和PN方法的故障诊断结果对比表明,VWFD模型的故障诊断精度明显优于上述3种方法,特别是在不同负载、相同转速变工况故障诊断实验下的5-way 5-shot实验组中,该模型的诊断精度高达92.76%。
在上述变工况的齿轮故障诊断实验中,笔者只选取了点蚀故障。因此,在后续的研究中,笔者将继续对变工况下的其他齿轮故障类型进行诊断实验。