面向回转机组电机小样本复合故障的多源异构自适应迁移学习

2024-03-14 10:24:50巩晓赟智泽恒杜文辽韩明胡亚凯罗双强

机床与液压 2024年3期

巩晓赟，智泽恒，杜文辽，韩明，胡亚凯，罗双强

(1.郑州轻工业大学机电工程学院，河南郑州 450002；2.河南中烟工业有限责任公司安阳卷烟厂，河南安阳 455004)

0 前言

感应电动机是回转工艺设备的关键旋转动力传动装置，由于系统组件及其传动之间具有强关联的相互耦合关系，传动装置中一个故障的发生易导致故障的并发性、继发性。采用传统的单一传感诊断方法不易揭示复合故障的关联关系，造成一定的误诊、漏诊[1]。同时，在实际工艺生产过程中，相较于无故障样本或单故障数据样本，复合故障数据量呈现不充分、小样本问题，基于深度学习的故障诊断方法则需大量的数据样本训练以实现故障识别的高准确率。因此，针对单一传感数据诊断复合故障难与复合故障数据不平衡问题，研究小样本下多源异构数据融合迁移诊断方法具有工程指导意义。

工艺设备中回转机组的感应电机通常与变速箱、支撑轴承、滚筒等负载单元联结构成，单一传感数据不易有效识别动力传动装置中多点复合故障[2]。近年来，一些学者采用多源信息对动力装置进行故障诊断以提高识别精度，如EL YOUSFI等[3]通过仿真构建电机-齿轮箱系统电气模型和负载端机械模型，综合分析电流及振动等多信号响应，为感应电机的电流、振动信息融合故障诊断提供了理论基础；JUNIOR等[4]针对电机运行过程中故障的随机性，综合利用不同方向的多个振动数据监测电机运行特性，基于多通道数据融合的卷积神经网络模型获得更高的诊断精度。

深度学习具有强大的数据挖掘能力，根据不同应用场景衍生出多种网络模型，如自编码器(Autoencoder，AE)[5]、生成对抗网络(Generative Adversarial Network，GAN)[6]、卷积神经网络(Convolution Neural Network，CNN)[7]、图卷积神经网络(Graph Convolution Network，GCN)[8]和迁移学习 (Transfer Learning，TL)[9]等深度学习网络模型被应用于不同类型的旋转机械故障诊断。针对工程诊断中故障数据不平衡、小样本问题，基于深度学习的诊断方法目前主要有以下两类研究方向：一是利用数据生成方法学习并生成大量所需数据[10]。如YANG等[11]利用条件生成对抗网络(CGAN)生成分布相似的新样本以解决样本不足问题，并将之与二维卷积神经网络结合实现轴承故障类型的有效分类；ZHANG等[12]提出一种多模块梯度惩罚GAN模型，有效扩展了轴承的振动训练数据。但采用以上数据生成方法生成样本时，其生成方向因受多因素影响较难控制，且数据样本生成后需要验证其与目标样本的相似性才能进一步被应用，生成方向的多因素影响与复杂的诊断流程给故障诊断增加了难度。二是利用迁移学习方法实现大样本源域任务到小样本目标域任务的迁移[13-14]。迁移学习是将源域中学习到的领域知识迁移到目标域，经过目标域微调模型的适应性算法解决目标域小样本问题[15]。如SHAO等[16]通过小波变换将原始振动数据转换为时频图像，采用ImageNet数据集构建VGG-16预训练模型实现迁移学习的小样本分类；CHEN等[17]采用预训练的ResNet-50模型与连续小波变换相结合实现轴承故障小样本分类；LU等[18]通过快速傅里叶变换(FFT)生成频谱图，将频谱图切割成几个连续的子频谱图作为样本，采用AlexNet预训练模型实现轴承小样本的迁移学习。

以上迁移学习主要采用共享的已封装自然图片预训练模型实现迁移诊断，但对于小样本下的复合故障诊断则存在以下不足：(1)已封装的单一数据源预训练模型无法适应复合故障的多源信号样本输入；(2)迁移后以图片样本形式的信号输入对电流和振动原始信号而言，信号预处理环节增加了故障诊断的复杂度及人工选参的不确定性；(3)冻结网络过程中缺少对源域与目标域的自适应优化。基于以上分析，本文作者提出一种小样本下基于多源信号与多头卷积神经网络迁移学习的电机复合故障诊断模型(Multi-head Convolutional Neural Network-Transfer Learning,TL-MHCNN)，以解决单源信号对电机多点复合故障信息表征不足以及复合故障小样本诊断问题。文中主要贡献点如下：

(1)提出适应复合故障多源信号的MHCNN作为源域初始模型以满足电流及振动信号的信息融合与特征提取；

(2)将大样本单故障的电机原始数据集作为源域，通过迁移网络模型构建解决目标域下以原始数据为输入的电机小样本复合故障诊断问题；

(3)迁移学习目标域微调模型中加入正则化惩罚项，解决微调参数的自适应优化更新及模型收敛过拟合问题。

1 TL-MHCNN迁移学习复合故障诊断模型

1.1 迁移学习

迁移学习是将一个或者多个场景及任务中学习提取到的领域知识迁移到另一不同场景或任务中进而解决另一相关领域中的问题，即从源域迁移到目标域以解决目标域任务[19]。迁移学习中的两个基本概念，一个概念为域(Domain)，另一个为任务(Task)。域包括特征空间中的所有特征样本集合X以及分布P(X)；任务包括特征样本的决策函数f(X)和标签集合Y，其中决策函数f(X)为条件概率分布P(yi|xi)，yi∈Y，xi∈X。

迁移学习本质上是利用源域中已有知识提升目标域分类函数性能的一种方法，根据源域特征样本集Xs、类别集Ys与目标域特征样本集Xt、类别集Yt，定义源域和目标域空间表达式为

(1)

(2)

式中：源域标签特征样本数量Ns与目标域标签样本数量Nt满足：Ns≫Nt。

迁移学习主要围绕“迁移什么”、“如何迁移”和“何时迁移”3个方面的研究提升学习算法在目标任务上的性能。根据算法对迁移学习改造技术手段的不同可分为基于样本权重的迁移学习方法、基于特征的迁移学习方法、基于模型参数的迁移学习方法、基于关联规则的迁移学习方法。其中基于模型参数的迁移学习方法通过源任务与目标任务间的共享模型参数信息来实现迁移，适合源域与目标域样本特征分布差异较小的应用场景。

本文作者利用模型迁移的方式学习源域任务Ts并根据目标域任务Tt构建网络模型与参数更新以适应目标任务的性能要求。图1为本文作者构建的迁移网络模型的概念示意，其中源域是利用大样本的电机单故障数据集完成预训练，目标域则通过模型微调实现小样本复合故障的诊断任务。

1.2 多头卷积神经网络构建

采用传统的单一传感诊断方法不易有效识别复合故障的并发性与传播性，造成一定的误诊、漏诊。构建一种如图2所示的多头卷积神经网络(MHCNN)模型以解决动力装置中电机电流、振动等多源异构数据的信息融合与特征提取。并利用动态衰减学习率与SeLU函数改进超参数以解决CNN模型的稳定性与梯度消失等问题。

图2 多头卷积神经网络主要模块结构

一维卷积层利用一维卷积核对输入的一维数据进行滑动卷积操作，本文作者构造了由并行卷积层组成的多头卷积网络。当多源信号输入多头卷积网络时，多卷积内核分别对多源信号进行卷积运算。假设输入模型的多源信号表示为X1、X2、…，其中X=[x1，x2，…，xn]，多头卷积网络各通道对多源信号的卷积运算可以表示为

(3)

为了避免误差反向传播过程中由于激活函数连续求导相乘导致的梯度消失和梯度爆炸问题，将卷积网络广泛应用的ReLU函数改造成求导不存在零值点的SeLU函数，其函数及导数表达式为

(4)

(5)

式中：μ和λ为常数，通常取值为1.673 3和1.050 7。

在所构建的网络中将最大池化层嵌入每头卷积之后，利用池化后的特征向量进行相加融合。池化及通道融合的过程可表示为

(6)

由多层相互交叉堆叠的卷积、池化层提取的特征映射后，将多维特征铺平变换为一维向量输入全连接层，经过全连接层作用后得到输出。全连接层的作用公式可表示为

yFC=f(WFCxFC+bFC)

(7)

式中：WFC和bFC分别代表全连接层的权重参数矩阵和偏置量；f(·)代表全连接层的内部激活函数。

对于多分类问题，利用Softmax函数作为全连接层的激活函数，通过将任意实数向量映射为概率分布向量，满足所有输出概率和为1。对于测试样本x，其属于某种类别的条件概率计算公式为

(8)

式中：C为类别标签总个数；c为某种预测类别标签。

(9)

(10)

(11)

Adam为TensorFlow框架中常用的优化器，是一种改进的梯度下降算法，用于更新神经网络模型中的参数[20]。文中在常用的Adam优化器中加入动态衰减学习率，模型训练时自适应的调整学习率，如式(12)：

rd=rend+(rinitial-rend)×es

(12)

式中：rinitial为初始学习率；s为迭代步长。

1.3 迁移模型参数的自适应优化

将模型正则化惩罚项加入到模型微调的过程中，其作用是自适应限制网络空间的功能容量，通过搜索网络空间的有效功能大小来优化网络有益空间，促进优化收敛并避免收敛过拟合。正则化惩罚项在模型微调过程中自适应地树立参数更新准则。

(13)

(14)

式中：正则化惩罚项L(w)作为w的对数先验；M为类别个数；yic为符号函数(样本i与真实类别c相同时为1，不同时为0)；pic表示样本i在类别c中的预测概率。

L2惩罚也称为权值衰减，能够驱动网络权值为0，其公式为式(15)。但是对于模型迁移学习其微调的起点并不是从0开始，而是从源域预训练模型冻结终点开始。假设对源域问题预训练的网络模型的参数向量为w0，即为微调参数起点。利用这个初始向量作为L2惩罚中的参考项，重新定义微调L2正则化惩罚的公式为式(16)：

(15)

(16)

考虑迁移模型微调后结构之间的对应关系，式(16)中w0和w不构成一一映射关系，因此需要对源域共享到目标域的部分网络结构以及目标域根据类别数量微调的新网络结构进行适应性连接，进而构建出一种如式(17)的复合正则化惩罚：

(17)

2 电机复合故障诊断应用

将所构建的迁移学习模型应用于小样本下动力装置的电机复合故障诊断，基于TL-MHCNN迁移学习模型的诊断方法如图3所示。

图3 小样本下TL-MHCNN电机复合故障诊断步骤

具体实施步骤如下：

步骤1，采用电流传感器和振动加速度传感器获取动力传动装置的多源信号，构建大样本单故障多通道数据集Xs和小样本复合故障多通道数据集Xt，其中Xs被按比例划分为训练集Xs，train与测试集Xs，test；

步骤2，构建初始化MHCNN模型，并利用单故障训练集Xs，train训练模型；

步骤3，根据测试集Xs，test的最高精度保存最优收敛模型Ms及参数ws；

步骤4，调取预训练模型，依据目标域Dt={(Xt,Yt)}复合故障类别冻结底层网络并加入新分类层；

步骤6，将新获取的复合故障数据输入迁移学习模型Mt，并输出辨识故障结果。

3 实验验证

3.1 实验设置

为验证所提方法对小样本电机复合故障的诊断效果，利用电机-转子综合试验台(MFS-MG2010)进行动力装置电机复合故障的实验模拟，图4所示为电机动力传动装置示意图及故障设置。其中采集信号分别来自A、B、C三个传感器，其中传感器A为电流钳用于采集电流信号，安装在电机接线柜的导线上；传感器B和传感器C都为振动加速度传感器，分别安装在电机外壳上和负载支撑座上，用于采集振动信号，采样频率为12 800 Hz。此实验设置的故障类型分别为电机轴承内圈、滚动体故障、轴承外圈故障、电机转子断条故障及其复合故障。

图4 实验故障模拟与数据采集示意

分别采集电机轴承与断条的单故障信号大样本作为迁移学习源域，电机轴承与断条的复合故障信号小样本作为迁移学习目标域。源域的单故障数据集设置如表1所示，信号类型为正常(D1)、电机断条缺陷(D2)、轴承内圈缺陷(D3)、轴承外圈缺陷(D4)、轴承滚动体缺陷(D5)，每类单故障取1 000个样本，单个样本长度为2 048，共5 000个样本，按照训练集和验证集(7∶3)划分比例。

表1 源域的大样本电机单故障数据集

目标域的小样本电机复合故障数据集设置如表2所示，信号类型分为正常(F1)、轴承内圈-电机断条复合(F2)、轴承外圈-电机断条复合(F3)、轴承滚动体-电机断条复合(F4)，每类复合故障取200个样本，单个样本长度为2 048。

表2 目标域的小样本电机复合故障数据集

3.2 网络结构及参数

以初始MHCNN作为迁移学习源模型，利用表1中大样本的电机单故障数据样本训练源模型，根据验证集精度保存收敛过程中的最优模型进而得到源域下的预训练模型，其迁移学习的整体网络结构和参数设置如表3所示。利用目标域下小样本的复合故障数据样本再次训练迁移模型对其进行微调，并在正则化惩罚项和新目标函数的作用下自适应优化。

表3 模型网络结构参数

实验表明，在采用正则化惩罚项自适应优化网络模型时，表3中参数α和β对构建模型的诊断精度有一定影响。利用五次交叉验证法对α和β进行参数寻优，图5所示为交叉验证实验下不同参数对诊断精度的影响结果。根据寻优结果，选取模型中正则化惩罚项中参数α=0.001，β=0.1。

图5 五次交叉验证实验下超参数α和β的寻优结果

3.3 实验结果分析

为了验证文中所提迁移学习方法的电机复合故障诊断性能，对A、B、C三个传感器的小样本电机轴承-断条复合故障数据分别进行测试，表4为10次小样本迁移模型的复合故障诊断结果。可知：基于单源信息的诊断结果与传感器类型和安装位置有关，其中振动传感器的诊断结果较好，且传感器位置越接近故障点，诊断结果越好。相较于3个单传感器数据的诊断精度，利用传感器A(电流信号)、传感器B和C(振动信号)的多源异构融合数据的诊断精度更好，其中准确率最高可达到99.75%、平均准确率为99.06%，同时误差值为最小；相较于相同小样本条件下的迁移诊断，无迁移学习的诊断准确率则为84.17%。

表4 不同多源信号故障诊断实验结果对比单位：%

图6和图7为表4不同诊断方法10次实验下的箱体可视化图和不同次数测试实验的模型准确率。结果显示，文中所提出的基于MHCNN的迁移学习方法相比其他方法，准确率谷值为98.25%，识别准确率最高达到了99.75%，诊断精度最高，误差最小。

图6 故障识别准确率误差可视化箱体图

图7 不同模型10次测试识别精度比较

为进一步验证文中所提迁移学习方法在小样本下复合故障诊断的优势，利用文中的迁移学习模型TL-MHCNN与未使用迁移学习的初始MHCNN模型在不同训练样本下进行模型诊断精度的比较，其结果如图8所示。可以看出：同样在各故障训练样本1 000个的情况下，基础初始的迁移学习平均准确率为98.85%，文中的迁移学习模型的准确率为99.88%，迁移学习模型比初始模型精度略高但优势不明显。两种模型分别依次在800样本、500样本、200样本下训练实验，从结果可以看到文中的迁移学习模型在小样本下对复合故障的诊断精度依然达到99.06%；而未使用迁移学习的方法在小样本训练下模型精度随着样本数减少逐渐降低，在200个小样本下模型精度仅为84.17%，且模型误差增大，呈现出模型的不稳定性。

图8 不同样本数量下迁移学习前后模型精度

实验中同时记录小样本下两种模型的平均训练时间，如图9所示。可知：模型训练收敛到最优所需时间，文中所提的迁移学习方法为112.60 s，而未使用迁移学习方法的时间为323.10 s，文中的方法将模型训练收敛时间减少了210.5 s、缩短近2/3。因此可以验证文中的迁移学习模型能够实现小样本下复合故障的高精度诊断，且模型稳定度高、收敛速度快。

图9 两种模型训练收敛最优时间

3.4 不同迁移学习模型测试实验对比

将文中所提的迁移学习方法与基于ImageNet的迁移学习方法进行对比，分别包括在ImageNet上预训练封装好的SqueezeNet[21]、inceptionV3[22]、AlexNet[23]深度迁移学习模型。由于基于ImageNet的迁移学习模型需要将信号转换为图片形式的预处理，将实验台采集的时域信号通过小波变换方法转换为时频图，预处理结果如图10所示。

图10 信号转换小波时频图预处理

表5是不同迁移诊断模型对复合故障数据集的诊断结果，可知：AlexNet模型的训练时间为89.42 s，训练时间最短，但对复合故障诊断精度仅为90.17%；SqueezeNet和VGG-16模型的诊断精度分别为91.25%和83.65%，且模型收敛训练时间较长；与其他几种迁移诊断模型相比，文中所提的迁移诊断模型在小样本复合故障下的诊断平均准确率和模型收敛训练时间都有一定优势。

表5 不同方法模型的诊断精度及训练时间

4 结论

针对电机复合故障小样本以及单源信号对电机多点复合故障信息表征不充分问题，构建一种基于多源信号的TL-MHCNN迁移诊断模型。TL-MHCNN迁移诊断模型将MHCNN作为源域初始模型，解决了预训练模型的多源信号输入，以满足电流与振动信号的信息融合与特征提取；将大样本单故障的电机原始数据集作为源域，构建目标域下以原始数据为输入的电机小样本复合故障迁移网络模型，解决了电机小样本复合故障迁移诊断问题；将正则化惩罚项应用到迁移学习目标域微调模型中，解决了迁移网络模型参数的自适应优化问题。文中所提的迁移诊断模型在小样本下对电机复合故障的诊断精度为99.06%，相较于多个模型的诊断结果，文中所提方法在小样本下复合故障的识别精度、稳定性与计算效率方面都得到有效提升。