基于DCGAN和DANN网络的滚动轴承跨域故障诊断

2022-03-27 11:56胡若晖许文鑫

振动与冲击 2022年6期

胡若晖，张敏,2，许文鑫

(1. 西南交通大学机械工程学院，成都 610031；2. 轨道交通运维技术与装备四川省重点实验室，成都 610031)

轴承作为旋转型机械中必不可少的零件之一，一旦发生故障将对机械正常运行造成严重威胁[1]。合理分析轴承振动信号，对提前预警机械故障，减少机器维护成本有重要意义。Hu等[2]提出基于支持向量机的滚动轴承故障模式的识别方法，模型在不同轴承数据集上得到验证。Wen等[3]在大数据的基础上，提出基于卷积神经网络(convolutional neural networks, CNN)的故障诊断方法，网络在轴承数据集上得到较高故障识别准确率。机器学习和深度学习能高效提取信号数据特征，在轴承故障诊断中应用广泛[4-6]。在有大量标签的数据集上，智能故障诊断方法能取得良好的诊断效果。

但在轴承发生故障问题时，多数机械设备都无法提前收集充足的信号数据。常用转速和常见故障类型的轴承数据容易收集，数据量较大；非常用转速和罕见故障类型的轴承数据难以收集，数据量较少。轴承数据集间的样本数量不平衡现象在工程问题中普遍存在，给轴承故障识别任务带来巨大挑战。仅有少量可用数据时，利用不同转速下充足的轴承信号数据(即源域)训练模型，对未知标签的目标信号(即目标域)进行预测，是应对轴承振动信号稀缺的有效方法。但不同工况下测得的轴承振动信号特征概率分布存在差异，导致跨领域故障诊断准确率较低。消除或缩小这种差异的方法称为领域自适应，在训练与测试数据存在差异的情况下训练智能模型的方法，称为迁移学习[7-8]。

迁移学习模型在语音识别和轴承故障诊断领域已有一定应用。Fawaz等[9]提出适用于一维数据的迁移学习方法，通过试验得出对时序数据进行迁移学习，能保留信号完整的高频和低频特征，保持信号数据对时间的依赖性。Lu等[10]提出将最大均值差异应用到轴承故障诊断中，用于解决振动数据分布差异问题。Wu等[11]将最大均值差异、卷积神经网络和长短期记忆网络结合用于轴承故障诊断，在跨领域故障识别中取得良好的分类效果。以上方法都是将特征分布差异加入损失函数构建的迁移学习网络，利用算法度量不同领域特征的分布概率固然能将源域和目标域特征的差距缩小，但仅适配单个层或某些层特征的迁移方法无法彻底消除不同领域的特征差异。且将预训练模型和迁移学习模型分开训练，将复杂化网络结构，增加模型计算代价和训练时间。为更彻底地实现轴承信号特征迁移，Wang等[12]提出将对抗领域自适应网络用于轴承故障诊断，可有效适配不同领域的标签数据特征。

但上述迁移学习模型的训练基于大量无标签目标域样本，实现领域自适应需要收集数量上与源域样本平衡的目标域数据。而实际中不同工况下的轴承振动数据量存在严重不平衡现象，导致难以适配不同领域的数据特征。Goodfellow等[13]提出生成式对抗网络，网络能人为地生成训练所需的大量标签数据，生成数据和真实数据具有极为相似的局部特征。Zhang等[14]提出用生成式对抗网络实现一维振动信号的数据扩充，模型在少量轴承信号数据集上得到验证。生成式对抗网络能有效平衡源域与目标域样本的数量差距[15-17]，但将其用于半监督学习时[18]没有采取领域自适应手段，将忽略不同工况下的数据特征差异[19-20]，导致特征分类准确率下降。

综上所述，为实现对轴承不同转速下大量振动信号的有效利用，解决少量目标域信号的故障模式识别问题，本文提出一种基于特征知识迁移的滚动轴承故障跨域诊断模型。模型采用深度生成式对抗网络(deep convolutional generative adversarial networks，DCGAN)实现数据增强，将少量目标域标签信号扩展到无限，以适应网络训练对数据的大量需求。把对抗领域自适应网络(domain-adversarial neural networks，DANN)运用到轴承故障跨域识别中，将深度特征学习、领域自适应和标签分类融合为一个训练过程，最小化不同工况下的数据特征差异，实现轴承故障模式跨域智能诊断。

1 方法

1.1 领域自适应

在迁移学习任务中，X={0,1,…,L-1}是有充足标签数据源域空间DS中的L类标签集合，Y={0,1,…,L-1}是待测目标域空间DT中可能的L类标签集合，DS和DT内的数据服从两种不同的数据分布。传统故障诊断模型直接从源域提取标签特征，对目标域数据进行分类，这将默认源域和目标域标签具有相同的概率分布，忽略了两种数据集间的差异。领域自适应[21]要求寻找一种最优算法将源域与目标域特征映射到同一特征空间，即寻找一个分类器η使X→Y损失最小

RDT(η)=Pr(X,y)～DT[η(X)≠y]

(1)

式中：RDT(η)为理想分类器η损失值；y为样本X的真实标签；η(X)为样本X预测标签；Pr[·]为η(X)≠y的概率。

本文取源域为有标签数据，目标域为无标签数据和少量标签数据。源域与目标域具有相同的标签空间，每种标签具有不同的边缘分布概率，即源域与目标域标签在原始空间中存在边缘分布差异。迁移学习旨在利用领域自适应方法，从源域和目标域不平衡数据样本间学习到具有领域不变性或领域相似性的标签特征，特征具有相同或相似的边缘分布概率，将其用于目标域无标签数据的标定。

1.2 深度生成式对抗网络

DCGAN受自由博弈论思想影响，由Alec等[22]提出。网络实现了一个无限数据生成器，能够模仿真实数据特征生成相似但不相同的假数据。网络由生成器(Generator，G)和判别器(Discriminator，D)组成。模型结构如图1所示。

图1 DCGAN结构框架图

在DCGAN中，生成器负责将空间中的随机向量Z采样为振动信号，判别器负责分辨信号的“真”与“假”。生成器要尽可能生成以假乱真的振动信号，模型损失均由判别器产生。在模型训练过程中，使用随机梯度下降法进行参数更新。通过将不同批次生成器中经过上采样的随机向量取出，获得大量充当目标域信号的伪样本。

首先，将生成信号与真实信号传入判别器，要求判别器尽可能区分真实与生成信号，即最大化目标函数V(D,G)。其次，将生成信号打上真实标签传入训练判别器，要求生成数据能欺骗判别器，即最小化目标函数V(D,G)。V(D,G)的上升与下降形成对抗，网络通过寻找二者之间的平衡，生成更为相似的信号数据。则需要优化的目标函数为

Ex～Pdata[logD(x)]+Ex～PG[log{1-D[G(Z)]}]

(2)

式中：D(x)为判别器判断真实数据是否真实的概率；D[G(Z)]为判别器判断生成信号是否真实的概率；Pdata为真实样本分布；PG为向量Z的先验分布。

1.3 深度对抗领域自适应网络

与其他迁移学习方法不同，DANN[23]侧重于将领域自适应嵌入特征学习过程中，使分类决策基于具有领域不变性或领域相似性的特征。训练得到的模型既能对目标域进行预测，又不受两域特征差异的影响。对抗领域自适应模型结构，如图2所示。

图2 DANN结构框架图

网络由特征提取器、标签分类预测器和领域判别器组成。领域判别器负责判别数据来自源域还是目标域。通过在特征提取器和领域判别器间加入梯度反转层(gradient reversal layer，GRL)，实现在最小化标签分类损失的同时，最大化领域分类损失，使随机梯度下降变为梯度“上升”。

故障标签分类损失度量了标签分类准确性，其损失运算可表示为

(3)

式中：yi为轴承样本的二元标签；Gf(xi)为信号xi经过特征提取器所映射的输出；Gy[Gf(xi)]为故障标签经Softmax函数的分类结果。

(4)

领域分类损失度量了领域自适应效果的好坏，其损失运算可表示为

(5)

式中：di为领域的二元标签；Gf(xi)为信号经过特征提取器所映射的输出；Gd[Gf(xi)]为领域标签经Softmax函数的分类结果。

(6)

在分类问题中，使用Softmax作为分类器激活函数。网络将目标域标签的分类损失和领域标签的分类损失考虑在内，模型损失函数由三部分组成

l=lc(DS,yS)+lc(DT,yT)+λId(DS,DT)

(7)

式中：lc(DS,yS)为源域信号的标签分类损失；lc(DT,yT)为目标域生成数据的标签分类损失；ld(DS,DT)为领域判别损失；λ为领域损失项影响因数。

在梯度反转层的作用下，网络将损失项ld(DS,DT)最大化。经对比测试，模型选择领域损失项影响因数λ=0.3。

1.4 基于DCGAN-DANN网络的迁移学习模型

针对小样本下轴承变工况故障诊断问题，本文提出DCGAN-DANN(deep convolutional generative adversarial networks and domain-adversarial neural networks)网络，实现过程如图3所示。网络有效利用梯度传播方向，实现了具有两次领域自适应过程的迁移诊断模型。DCGAN和DANN功能互补，前者为跨域特征迁移提供不可或缺的目标域样本数据，后者利用源域数据表征目标域特征，使故障分类基于包含多工况信息的特征空间。通过将二者结合，网络实现了不平衡轴承数据集间的特征迁移，完成对小样本信号的智能故障识别。

图3 DCGAN-DANN数据传导图

首先将少量带有标签的目标域信号与空间中的随机向量输入DCGAN，持续输出带有标签的目标域伪信号。DCGAN在生成器与判别器的梯度对抗中，将目标域信号与空间中的随机向量特征映射到同一空间。生成信号将基于目标域信号的时序特征，继承已知信号的标签。网络能依据模型需要，生成与源域样本数平衡的目标域信号。

将源域标签信号、带标签的目标域伪信号和小样本目标域信号混合，作为DANN网络的输入。网络通过混淆领域标签，将生成信号与源域信号特征映射到同一空间，自动适配不同领域的标签特征，对目标域中未知标签信号的识别将基于来自源域和目标域相似的信号特征。网络领域自适应与特征学习同时进行，类别标签的识别将同时受到来自源域标签、目标域伪标签和领域标签的影响。

基于DCGAN-DANN网络的诊断流程，如图4所示。首先通过深度生成式对抗网络对目标域振动信号进行样本扩充。然后将生成的目标域信号、目标域真实信号和源域信号结合，划分训练集和验证集，训练对抗领域自适应网络。最后在目标域测试集上测试模型结果。

图4 诊断流程图

2 试验分析

2.1 数据准备

本试验所用数据为凯斯西储大学(Case Western Reserve University，CWRU)电动机组滚动轴承数据集[24]，试验平台如图5所示。

图5 CWRU滚动轴承试验平台

数据包括内圈、滚动体和外圈3种故障类型振动信号。试验采用12 kHz驱动端滚动轴承数据，数据取损伤直径分别为0.117 8 mm和0.355 6 mm时采集的，包括正常条件的7类振动信号。试验在工作负载0、0.75 kW、1.50 kW和2.20 kW间划分源域和目标域，根据不同试验选取目标域中不同长度振动信号作为有标签数据，其余作为无标签测试数据。以负载1.50 kW采集的振动信号为例，数据描述如表1所示。

表1 2 HP振动信号数据结构

2.2 数据生成式扩充

试验所用DCGAN网络结构如表2所示。判别器由Discriminator构成，生成器由Generator和Discriminator构成，其逻辑关系为

表2 DCGAN架构说明

G(x)=Discriminator[Generator(x)]

(8)

网络按批次训练，其一个训练批次步骤如下。

步骤1以128个数据点为步长对目标域有标签信号进行重叠采样，划分为60个真实信号样本，每个样本均由1 024个数据点组成，随机取10个样本作为一个数据批次。

步骤2在随机空间中生成一组形状为(10,100)并服从正态分布的高斯噪声，将噪声上采样为形状(10,1 024,1)的信号数据。

步骤3将生成信号打上标签1，将真实信号打上标签0，在标签中加入随机噪声。

步骤4将生成信号与真实信号混合后代入训练判别器。

步骤5在随机空间中生成一组形状为(10,100)并服从正态分布的高斯噪声，将这组向量打上标签0。冻结生成器中Discriminator权重，将随机向量和标签代入训练生成器。

模型生成器和判别器均选用学习率为0.000 2的Adam为优化器，选用binary_crossentropy为损失函数。通过在生成器中加入批量归一化层，在判别器中连续使用Dropout层防止模型过拟合。特别的是网络选用Leaky ReLU代替ReLU作为激活函数，并在标签中加入噪声，能有效防止模型崩溃现象。在网络中不采用池化层，用卷积层代替全连接层，更有利于网络学习到目标域信号的局部特征。

模型每4个批次保存一次生成信号，每种标签生成2 500个样本，取其中500个充当目标域数据。

2.3 特征知识提取与迁移

对抗领域自适应网络结构，如表3所示。

表3 DANN架构说明

首先，将源域信号以128个数据点为步长重叠采样为每类标签500个样本，每个样本包含1 024个数据点。其次，将源域数据与经过DCGAN网络的生成数据结合并打乱，7类标签共计7 000个样本。为最大化标签数据的利用，在总样本中加入辅助伪样本生成的少量目标域样本。经重叠采样，试验统一取目标域真实样本280个。按照9∶1划分为训练集和验证集，未知标签目标域样本作为测试集。最后，用训练集和验证集训练对抗领域自适应迁移模型。

网络优化器选用RMSprop，选择ReLU作为激活函数，根据分类任务损失函数选用categorical_crossentropy。经调试和对比后，网络循环迭代次数选择150次，批次大小选择64。

2.4 试验一(变工况迁移试验)

为泛化地显示模型迁移学习效果，分别做A→B、B→C、C→D、D→A、A→C和B→D 6组变工况迁移试验。详细试验描述如表4所示。

表4 变工况迁移试验

试验取前一半目标域信号为有标签数据，后一半信号为无标签测试集数据。分别选取准确率、精准率、召回率和损失值作为模型衡量标准。每组试验进行10次并取平均值，结果如表5所示。

表5 测试集10次试验平均精度

由表5可知，网络在不同工况间跨域故障识别精度均能保持平均99%以上，网络对7类标签有较强的区分能力。在源域与目标域样本数量不平衡时，模型仍能保持较高的故障标签识别率。

以试验A→B为例，模型精度和损失值变化如图6所示。由图6可知，随着训练批次的增加，故障标签分类器训练集精度和验证集精度不断上升，在40个批次逐渐接近100%并趋于平稳，说明本试验模型逐渐学习到7类标签的信号特征，且能够正确依据特征判断故障标签。领域判别器精度同样逐渐接近100%，在反向梯度层的作用下，领域判别器精度越高，说明模型越分不清数据来自源域还是目标域，证明网络成功将源域和目标域特征投射到同一特征空间中。模型损失由三部分构成，从损失图可以看出，模型总损失随着训练批次的增加逐渐下降，模型不断向减小源域与目标域差异的方向进行参数更新。

图6 分类精度损失变化图

将试验A→B目标域未知标签测试集数据识别结果显示在混淆矩阵中，如图7所示。0～6分别代表了正常和6种故障类型(故障直径为0.177 8 mm和0.355 6 mm的内圈、滚动体和外圈故障)，纵坐标表示真实标签，横坐标表示预测标签。由图7可知，除了1%的0.355 6 mm滚动体故障被误诊为0.177 8 mm滚动体故障外，其余标签识别准确率均为100%，说明模型能对无标签测试集信号6类故障进行准确识别。

图7 混淆矩阵

为清晰展示模型的自适应过程，分别对没有经过领域判别器和经过领域判别器的分类结果做t-SNE(t-distributed stochastic neighbor embedding)降维[25]处理。t-SNE通过将原始特征空间的样本映射到二维空间来可视化高维数据，结果如图8所示。

图8 领域特征t-SNE可视化

由图8(a)可知，出源域与目标域特征只有小部分重合；由图8(b)可知在经过对抗领域自适应网络后，源域与目标域数据有大部分被投射到同一区域。结果说明不同工况下的轴承振动信号特征存在一定差异，对抗领域自适应网络能有效降低特征边缘分布和联合分布差异对跨领域标签分类的影响，网络学习到来自源域和目标域相似的信号特征。

2.5 试验二(变目标域样本数迁移和对比试验)

为体现模型利用小样本数据进行迁移学习的优越性，试验进一步扩大源域与目标域样本数量上的差距。取采样频率12 kHz工作负载0.75 kW下采集的振动信号数据为目标域，1.50 kW振动信号数据为源域。分别取目标域中前1/2、1/4、1/8和1/16个数据点作为有标签数据，其余作为无标签测试集数据，详细试验数据描述如表6所示。

试验分别对本文提出的DCGAN-DANN模型与其他3种常用的深度迁移学习模型作对比，对比模型分别为DCGAN-CNN(deep convolutional generative adversarial networks-convolutional neural network)、CNN-Finetune(convolutional neural network-finetune)和基于最大均值差异的DDC(deep domain confusion)网络。对比模型CNN与DCGAN-DANN特征提取器结构完全相同。其中DCGAN-CNN训练集数据由3 150个目标域伪样本和250个目标域真实样本组成，CNN-Finetune和DDC预训练模型训练集数据由3 150个目标域真实信号和3 150个源域信号组成，经重叠采样和随机重复采样获得。无标签目标域数据均在模型测试时使用，每组试验进行10次取平均值。

试验测得变工况模型诊断准确率与其他迁移学习方法准确率对比，如表7所示。从准确率对比中可以看出，本文提出的DCGAN-DANN网络在源域与目标域样本数量严重不平衡时，仍能以平均98.93%的准确率识别故障标签。在样本数量发生变化时，本模型准确率波动幅度不大。相较其他迁移学习模型，有平均8.24%的准确率提升。结果表明，与其他基于预训练模型的迁移算法相比，DANN让特征学习和特征迁移同时进行，相互影响的机制，更容易找到具有领域相似性的特征空间。DCGAN-CNN网络准确率波动幅度明显，说明DCGAN网络学习目标域空间的全部特征同样需要大量数据的支撑，伪样本特征不能代表整个目标域空间，小样本目标域信号不能完全代表所有目标域信号，此时施加迁移学习手段能在较大程度上提升故障识别准确率。

表7 不同算法准确率对比

对比试验测试集准确率变化如图9所示。

图9 对比试验准确率对比

由图9可知，随着目标域标签样本数量的减少，本文模型仍保持较高的诊断准确率，其他迁移学习方法出现了过拟合现象。说明在数据不足时，基于对抗的数据生成和迁移学习方法能有效缓解过拟合现象，提供较高准确率的故障诊断结果，深度生成式对抗网络能最大限度地利用有限的标签样本。

为清晰地展现不同迁移学习模型的训练结果，以1/16试验为例，分别对原始信号数据、CNN-Finetune、DDC和DCGAN-DANN网络最后一层隐藏层做t-SNE降维处理，将特征映射到二维空间中，可视化结果如图10所示。由图10可知，3种方法都能从原始分布中将故障类别分开，但CNN-Finetune网络和DDC网络不能完全克服特征边缘分布差异，模型在可用样本较少时容易出现负迁移现象。而本文提出的DCGAN-DANN模型完美地将每类标签投射到同一区域上，表现出明显的聚簇性和可分性，足以说明本文提出的网络在可用样本较少时能可靠地进行跨域故障诊断。

图10 对比试验故障特征t-SNE可视化

3 结论

滚动轴承在发生故障时难以收集充足振动信号，这在一定程度上限制了智能诊断模型在工业实际问题中的应用。为充分利用不同工况下采集的轴承数据训练智能模型，应用于工业现场问题，本文提出了一种基于特征知识迁移的滚动轴承跨域故障诊断模型。分别通过变工况迁移试验和变样本数迁移对比试验证明了方法的有效性。当可用数据较少时，该方法能可靠地提供用于模型训练的轴承数据，并有效适配不同工况下的轴承振动信号特征，实现滚动轴承跨域故障识别任务。由试验结果可知，DCGAN-DANN网络能人为地生成大量用于领域自适应的替代样本，模型在实际可用样本极少时，仍能保持平均98.93%的故障跨域识别准确率，均优于对比的其他迁移学习模型。本文提出的故障诊断方法在工程问题中具有一定实用价值，向其他机械零件故障诊断扩展将是今后的研究重点。