张 猛, 王 波,2, 徐 浩, 杨文龙, 汪 超
(1. 安徽理工大学 机械工程学院,安徽 淮南 232001;2. 滁州学院 机械与电气工程学院,安徽 滁州 239000)
机械设备越来越趋向于大型化、精密化、复杂化,为了避免机械设备运行故障引发经济损失以及重大事故,机械设备故障诊断面临着严峻挑战。目前针对机械智能故障诊断方法,学者们以传统的机器学习[1]、深度学习[2]以及迁移学习[3]等人工智能方法为依托,以机械故障诊断问题为出发点,开展了大量深入研究。
相较于传统的机器学习方法如支持向量机(support vector machine, SVM)、相关向量机 (relevance vector machine, RVM)[4],能够自动实现深层特征提取的深度学习和迁移学习模型被更广泛地应用于智能故障诊断领域。然而,实际工况下数据标注成本高以及设备故障类型复杂[5],导致无法有效获取大量有标签故障样本。人为创建额外的有效样本用于模型训练,可以在原始训练数据集较少的情况下实现较高的诊断准确率。Li等[6]研究了两种增强方法,包括基于样本的增强方法和基于数据集的增强方法,如附加高斯噪声、掩蔽噪声、信号平移、振幅偏移和时间拉伸等。
然而,在保证数量的前提条件下,由于机器设备运行环境具有复杂性以及故障程度呈现差异化,直接导致无标签目标域数据集与用于训练的有标签源域数据集存在着较大分布差异[7],仍难以保证模型迁移具有较高的智能故障诊断准确率。
为了解决上述问题,越来越多的学者关注于能够实现自动对齐源域和目标域数据偏差的无监督领域自适应[8](domain adaptation, DA)方法。陈祝云等[9]提出了一种增强迁移卷积神经网络,通过引入对抗训练最小化源域与目标域特征分布差异,改进了机械设备在变工况下的诊断精度和泛化能力。针对标记样本和未标记样本的不足极大地限制了故障诊断方法的性能等问题,He等[10]提出了一种基于Wasserstein距离的生成对抗网络和最小奇异值分解的深度迁移学习方法,同时该方法在跨域故障诊断过程中也提高了域自适应的能力。Liu等[11]针对部分域适应问题提出了一种集成和共享的选择性对抗网络(ensemble and shared selective adversarial networks, ES-SAN)。在网络中引入一个关联层来关联每个样本的类和域信息,构建了基于单智能模型的共享模块,可以在分类器和具有多子域判别能力的判别器之间进行转换。Lu等[12]提出了一种具有域自适应能力的深度卷积神经网络模型,该模型通过将源域和目标域数据映射到高维可再生核希尔伯特空间,采用最大均值差异(maximum mean discrepancy, MMD)度量来减少源域和目标域样本分布差异。Wang等[13]弥补了相关对齐(correlation alignment,CORAL)在匹配过程中忽略域期望之间差异的不足,提出了一种新的特征相关匹配(feature correlation matching, FCM)方法,并进一步将其作为目标函数提出了深度特征相关匹配网络(deep feature correlation matching network, DFCMN)。胡若晖等[14]提出一种有效利用少量样本数据实现领域自适应的迁移学习模型,通过对抗领域自适应网络(domin-adversarial neural networks, DANN)将源域与目标域特征投射到同一特征空间,实现了多领域特征提取与适配。然而,上述领域自适应方法旨在强制对齐源域和目标域的特征全局分布,却未充分考虑源域和目标域间同类别特征分布的关系,丢失了子类特征的细粒度信息。
因此,为了充分利用子类特征的细粒度信息对齐子空间,实现更准确的智能故障诊断,提出了一种伪标签驱动局部子空间对齐实现跨域故障诊断的方法。通过输出伪标签概率分布计算局部最大均值差异对齐源域和目标域,同时对齐源域和目标域的相关子空间,进而实现在不同工况下的智能故障诊断。主干网络采用卷积神经网络 ( convolutional neural network, CNN)[15]作为特征提取器提取故障特征,通过瓶颈层降低特征维度减少参数数量,最后通过分类器诊断故障类型。为了提高模型的收敛性,该方法通过迁移经过预训练的模型为目标域无标签样本计算其伪标签的概率分布,联合计算目标域样本与源域样本类中心的余弦相似度为目标域无标签样本计算伪标签概率分布,同时在模型的不同位置计算局部最大平均差异(local maximum mean difference, LMMD)[16],通过梯度下降方法降低源域和目标域相同故障特征的分布差异,同时对齐源域与目标域间的全局空间和相关子空间。通过计算伪标签概率分布来计算LMMD,降低源域与目标域相同故障类型的特征分布差异,从而实现高效智能故障诊断。通过与其他方法进行比较,所提方法在公开数据集和试验条件下采集的数据集上均达到了最高的故障诊断准确率,证明了所提方法的优越性和有效性。
对于无监督领域自适应问题,假定:源域数据Ds有标签,目标域Dt数据无标签,并且源域和目标域数据服从不同的概率分布P(xs,ys)和Q(xt,yt),此外假设源域和目标域具有相同故障类型即具有相同的标签空间,则源域和目标域可以定义为
(1)
(2)
E(F)=E(x,y)~Q[F(x)≠y]
(3)
因此,该网络模型全局损失函数可以定义为
(4)
式中,η>0为平衡参数计算为
(5)
式中:ξ=10;β为训练开始后,训练进度从0变为1。
Ldimmd为该模型全局的局部最大平均差异自适应损失;LM为该网络模型对源域数据的分类损失,LM定义为
(6)
式中,J(.,.)为交叉熵损失函数,且式(6)为预训练阶段的目标优化函数。
MMD被广泛运用于度量两个域的分布偏差,然而以往基于MMD的深度迁移学习故障诊断方法主要关注于全局分布对齐,忽略了不同域相同子空间的细粒度信息。实际上,利用不同域的相关子空间之间的关系对相同子空间进行分布对齐,不仅可以匹配全局分布,还可以匹配局部偏差[17]。因此为了同时对齐全局和相关子空间,所提方法通过计算伪标签属于每一类的概率分布,进而引入了LMMD。在考虑不同样本权重的情况下,通过反向传播,最小化源域和目标域在相关局部子空间上的条件分布差异,同时最小化核平均嵌入之间的核希尔伯特范数,实现子域自适应。LMMD计算公式为
(7)
式中:H为通过高斯核函数K(·)映射的可再生核希尔伯特空间;φ(x)为将样本映射到核希尔伯特空间的特征映射;K(xs,xt)=〈φ(xs),φ(xt)〉,其中〈.,.〉为向量内积;C为样本的故障类型个数;w为样本属于第C类的权值,其值计算如下
(8)
(9)
式中,zl为在模型特定位置处提取的特征向量。
CNN可以从原始振动信号中自动提取故障特征,同时深度卷积神经网络具有多层非线性映射能力,可以提高智能故障诊断准确率。此外,与小核相比,宽核能够更好地抑制高频噪声,因此,该网络采用了扩宽浅层网络卷积核的方式,实现快速提取更多的故障特征,进而提高故障特征识别率以及计算效率。为了提高深层网络的非线性映射能力,对于深层结构采用较小卷积核以提高检测精度。该主干网络结构包括特征提取器、瓶颈层和分类器。模型结构如图1所示。
图1 主干网络
其中,特征提取器由四层卷积块、Flatten层和一个线性全连接层组成;线性全连接层和瓶颈层类似,由隐藏线性层、激活函数和Dropout操作组成。分类器层为Sofmax函数,输出分类结果。每一个卷积块由四步操作构成,分别为卷积运算(Conv)、归一化处理、激活函数以及池化操作(Polling)。前三层卷积使用最大池化层进行下采样,同时为了保证输出大小为指定的大小,第四层卷积使用自适应最大池化层进行下采样。
卷积操作的本质是通过使用卷积核参数来提取输入数据的特征,通过矩阵点乘运算与求和运算得到结果。卷积公式计算如下
(10)
在激活函数选择上,传统的sigmoid激活函数[19]和tanh激活函数[20]在深度神经网络中进行梯度反向传递时容易导致梯度爆炸,甚至梯度消失。因此所提方法选择线性整流函数 (rectified linear unit, Relu)[21]作为激活函数,公式
(11)
通过卷积、归一化和激活函数提取特征后,为了减少模型的计算量,选择最大池化函数对提取的特征映射进行下采样处理。处理完的多维特征需经过Flatten操作进行平滑处理,将特征处理为一个可以输出的特征向量,最后通过线性全连接层和瓶颈层实现随机特征组合以方便分类器分类,并且采用Dropout 层减少模型参数和计算量来防止过拟合同时提升模型的泛化能力。最后,分类器由单独的Softmax 函数构成,模型预测结果的概率分布输出为
(12)
模型最后的预测结果为
(13)
源域数据预训练的分类器为目标域样本计算其属于每一类的伪标签概率分布,其伪标签概率分布计算为
(14)
式中:G(·)为特征提取器;D(·)为瓶颈层。由式(9)可以计算LLMMD1,此时,zl为特征提取器和瓶颈层提取样本的特征向量。
在通过余弦相似度为目标域计算样本的伪标签概率分布过程中,首先需要计算源域中每一类样本在经过特征提取器提取特征之后的样本类中心。由于所提模型采用随机选择小批量样本输入,考虑到每个小批量选择的样本不一定覆盖所有类,因此,在预训练最后一次迭代过程中计算源域每一类样本的全局类中心
(15)
(16)
式中,b为批量大小。考虑到每个小批量不一定包括所有类,设置平衡参数μ来更新源域的类中心
(17)
(18)
(19)
(20)
由式(9)可以计算LLMMD2,此时,zl为特征提取器提取样本的特征向量。
为了平衡两种伪标签概率分布在不同位置计算局部最大均值差异对模型收敛的影响,关键是如何分配两者在模型训练过程中的权重。通常情况下,多损失函数超参数的取值是由专家经验或试验决定,然而,为了获取最佳权重,在缺乏专家经验的条件下逐一进行试验计算量巨大。因此,所提方法采用了一种简单有效的动态平衡方法,在训练过程中自适应调整权重参数,计算为
(21)
最后,该模型全局自适应损失Ldlmmd改写为
Ldlmmd=λLLMMD1+1(1-λ)LLMMD2
(22)
故式(4)可以改写为
(23)
式(23)为子域自适应损失以及分类损失的整体目标函数,通过Adam算法进行整体优化。
伪标签驱动局部子空间对齐的跨域故障诊断模型输入为:不同工况下的故障样本即源域和目标域数据、批量大小n、最大迭代次数m和预训练迭代次数v。模型的输出为对输入样本的预测以及预测标签和真实标签之间的期望偏差,即故障诊断准确率。图2为该故障诊断模型训练流程图,具体训练过程描述如下:
图2 故障诊断流程图
步骤1提取不同工况下不同故障类型的原始信号,根据工况划分为目标域和源域并按照比例划分训练集、验证集和测试集。为了保证目标域标签不泄露,在模型训练过程中并不提供真实标签,并且每次迭代都包含模型验证过程。
步骤2首先使用源域有标签数据预训练迭代v个epoch(在预训练过程中不计算伪标签以及LMMD),在第v个epoch运行结束时输出源域所有样本经过特征提取器提取的特征向量,然后根据全部特征向量计算每一类故障的全局类中心。在模型预训练过程中,只通过式(6)采用Adam进行模型优化,提高模型对跨域不变故障特征的识别能力。
步骤3在第v+1次迭代过程中,模型共享参数,并且随后每个小批量计算均更新源域的类中心。在目标域样本经过特征提取器提取特征后,计算该样本与源域样本每一类类中心的余弦相似度,并根据相似度值作为目标域的样本属于每一类的概率,合并为该样本的伪标签概率分布向量;联合直接迁移分类器到目标域,根据分类器预测结果直接作为目标域样本的伪标签概率分布。此后每个小批量训练过程中均计算两种伪标签概率分布。
步骤5判断迭代次数是否达到设置的最大迭代次数,若满足条件,则结束训练并输出源域验证集及目标域验证集的故障诊断准确率。然后,将特征提取器、瓶颈层和分类器直接迁移到目标域为目标域的测试集样本进行故障诊断,最后输出测试集故障诊断准确率。
步骤6重复以上训练过程若干次,取若干次训练输出的测试集故障诊断准确率,求平均值作为最终的故障诊断结果来评价模型的性能。
该方法通过Pytorch实现,设置模型预训练10个epoch,共迭代训练100个epoch。在训练过程中,模型训练和测试交替进行。设置批量大小为n,优化器为自适应学习率优化算法Adam算法。通过等间隔动态调整学习率,将学习率调整为lr,,其中初始学习率设置为0.001,=0.1,自适应间隔为20个epoch。主干网络主要参数如表1所示。
表1 主干网络参数
凯斯西储大学轴承数据中心提供的CWRU轴承数据集[22]被广泛运用与智能故障诊断领域,因此选用该数据集来验证所提方法的有效性。在试验过程中采用驱动端轴承故障数据,轴承型号为6203-2RS JEM SKF的深沟球轴承,采样频率为12 000 Hz。CWRU数据集存在四种不同的电机负载,因此根据4种不同负载,将样本划分4个不同的域,对应不同的迁移学习任务,如域0为源域,域3为目标域,迁移任务为0→3,共计设置迁移学习任务12个,具体设置如表2所示。
表2 迁移学习任务
表3中列出了轴承不同的故障状态,包括4种故障类型分别为正常轴承(NA)、内圈故障(IF)、外圈故障(OF)和球故障(BF),以及4种故障尺寸0,0.177 8 mm,0.355 6 mm和0.533 4 mm,共分为10类(1种健康状态,9种故障状态)。
表3 轴承10种故障状态
每个故障样本由1 024个连续采样数据构成,不同类具有不同数量的故障样本,作为故障诊断模型的原始数据集。考虑到实际条件,不同工况数据采集量可能不一致,因此设置原始数据集样本量在1 550~1 880。除此之外,正常轴承数据更易获得,因此在总样本中设置正常样本数量为单一类故障样本的3倍,即当样本总量为1 800时,正常轴承样本量为450,而每一类故障样本数则为150。将原始数据集划分为训练集、验证集和测试集,所占比率分别为0.6,0.2及0.2(样本总量为1 800,则样本量划分训练集1 080、验证集360及测试集360)。训练过程中,采用droplast剔除训练样本不足一个小批量的剩余样本。
为了验证所提方法的有效性及优越性,以使用相同数据集、采用相同的训练方法为基础,通过3种对比方法DANN、MK-MMD[23-24]和CORAL与本文提出的方法进行比较研究。比较迁移任务为0→3。训练过程中设置批量大小n=64。根据目标域验证样本输出分类准确率变化曲线,如图3所示。
图3 故障诊断准确率变化曲线
由图3可知,基于距离度量的领域自适应方法CORAL和MK-MMD收敛比较缓慢。在训练数据较多的情况下,基于对抗的领域自适应方法可以实现比较快速的收敛,然而这3种方法均只进行域对齐而忽略子类的细粒度信息,造成模型收敛不稳定。相较于只考虑域级对齐的其他3种方法,所提方法能在伪标签驱动的条件下充分利用了子类的细粒度信息,实现对齐域及子空间,保证了模型实现快速收敛,同时兼具稳定性。
为了进一步验证所提方法在12个故障诊断任务上的性能,采用在每个任务上对每种方法训练5次取平均故障诊断准确率,并且每次迭代训练100个epoch进行比较。12个任务的测试集总体故障诊断准确率对比结果如图4所示。
图4 12个任务总体准确率
由图4可见,所提方法对于大部分迁移任务,其故障诊断准确率明显高于其他3种方法,最高达到100%,仅在任务3→1和1→3上,分类准确率略低于其他3种领域自适应方法,具体数值如表4所示。
表4 各方法的平均故障诊断准确率
通过对任务3→1和任务1→3比较研究,不难发现在任务数据集间差异较大时,通过余弦相似度为目标域无标签数据分配伪标签的置信度仍然较低,从而产生错分,可能是导致模型在任务3→1和1→3上故障诊断准确率略低的原因。
为了验证所提方法的泛化性及稳定性,进一步在实验室条件下测得3组不同工况下的原始数据,组合成6个故障诊断任务进行对比研究。3种不同工况如表5所示。
表5 3种不同工况
如图5所示,采用3个加速度传感器安装在轴承座的3个不同位置,实现三通道采集滚动轴承振动信号,其中0通道位于12点钟方向,1通道位于9点钟方向,2通道位于3点钟方向,采样频率为12 800 Hz,试验对三通道采集数据进行故障特征融合即线性叠加。每种工况采集四组数据,分别为正常轴承(NA)、内圈故障(IF)、外圈故障(OF)以及球故障(BF),对应的故障标签分别为0,1,2,3。试验轴承型号为N205M,故障尺寸为宽0.2 mm、深0.5 mm。
图5 轴承故障信号采集试验台
为了验证所提方法在工况差异较大且训练样本较少的情况下,也能获得较高的故障诊断准确率,试验设置1 024个连续采样点构成一个故障样本,每一类故障取200个样本,只设置训练集和测试集,所占比例为0.25及0.75(训练集每一类50个样本,验证集每一类150个样本),训练批量大小。与公开数据集试验方法相同,每种方法在6个迁移学习任务上训练5次取平均故障诊断准确率,对比结果如图6所示。
图6 实验室数据集故障诊断准确率比较
图6显示,4种方法在无监督限制样本量的前提条件下,均具有较强的特征迁移学习能力。然而,在任务0→2和任务1→2上,由于工况差异较大且源域训练样本总量不足,对抗训练不够充分,致使MK-MMD算法的故障诊断准确率略高于DANN算法,但仍均低于所提方法。虽然所提方法在任务0→1,0→2及1→2上故障诊断准确率低于100.00%(分别为99.34%,96.33以及93.00%),但仍然高于其他3种方法,最低分别提高了0.26%、0.50%和0.83%。特别是在其余3个迁移任务上所提方法故障诊断准确率均达到了100.00%,充分证明了所提方法在该数据集上对所有的迁移任务都表现出了最好的泛化性和稳定性。
为了进一步证明所提出方法在利用子类细粒度信息条件下,能够更好地对齐源域和目标域的子空间,以迁移任务0→2为例,提取所提方法与其他3种方法在瓶颈层输出的特征,通过t-SNE进行降维可视化。不同方法进行降维可视化结果如图7所示。
图7 特征可视化对比图
相较于其他3种方法,所提方法充分利用了源域和目标域相同类别的细粒度特征信息,可以最大限度分离不同种类的样本,从而使相同类别特征聚集更加紧密。此外,由4种方法特征可视化对比图可见,在目标域有部分属于内圈故障(IF)标签为1和部分属于球故障(BF)标签为3的样本相互混叠,表明这两种样本的相似性比较大,所提出的方法也不能完全区分,这也是图6所示在任务0→2上准确率未能达到100.00%的原因。
与特征可视化相同,以任务0→2为例采用混淆矩阵对所提方进行分析,图8混淆矩阵显示所提方法在对真实类3 (BF)进行预测时,将部分样本错分为预测类0 (NA)和1 (IF),这也与图6和图7的分析相吻合。通过混淆矩阵可以很明显地看出,所提方法只在比较相似的正常轴承和球故障进行预测时出现错分的比例比较大,而在其他几类上能够实现最低99.33%的故障诊断准确率。对比其他3种领域自适应方法得出的结果,充分证明所提方法具有更优越的故障诊断能力。
图8 混淆矩阵
提出一种伪标签驱动局部子空间对齐的跨域故障诊断方法,利用生成伪标签的方法弥补目标域样本无可用标签的缺陷。结合提取的特征和对应的标签概率分布,通过引入局部最大均值差异降低源域和目标域的分布差异,从而将更细粒度的特征信息应用于故障诊断。通过对比试验证明了所提方法能够在考虑故障特征细粒度信息对齐相关子空间的基础上,使模型收敛更加稳定。利用宽卷积核卷积神经网络提取更深层故障特征,避免了人工提取故障特征需要专家经验的弊端。结合公开数据集和试验条件下采集的数据集分析比较,证明了该方法具有收敛性佳、稳定性强以及故障诊断准确率高等优点,具有更高的实际应用价值。