深度学习在化学流程工业故障诊断的研究进展

2022-07-13 01:57:30陈红花杨卓洪
计算机工程与应用 2022年13期
关键词:故障诊断卷积神经网络

陈红花,岑 健,刘 溪,杨卓洪

1.广东技术师范大学 自动化学院,广州 510665

2.广州市智慧建筑设备信息集成与控制重点实验室,广州 510665

3.广东技术师范大学 电子与信息学院,广州 510665

流程工业是通过一系列的物理变化和化学变化进行的生产过程,具有设备关联复杂、过程变量之间耦合性强的特点,是典型的复杂工业系统,其中囊括了化工、炼钢、冶金、制药、电力等多种工业[1]。

伴随着工业4.0 的到来,目前大多数工业生产过程正在转变为智能化、大型化的复杂工业生产过程。在智能工业制造过程中,不管是对工业流程还是生产设备的全生命周期管理都提出了更高的要求和更严格的标准。特别是由于化学工业过程的复杂性和环境的不确定性,故障的发生总是由多种因素的耦合引起的。故障诊断技术在全生命周期管理占据重要地位,需要匹配智能制造的升级而进行同步的提升,实现提高工业生产的安全性与可靠稳定性,降低工业过程的维护成本,减少非计划性的产线停工检修时间的目标[2]。

如今现代化工业过程利用先进的集散控制系统、工业互联网和智能仪器仪表等信息技术,使工业过程中的海量数据得以采集和存储。其中包含过程状态信息的数据呈现出非高斯、非线性、强耦合、动态等大数据的特点。多元统计分析方法和浅层机器学习方法被认为是化学流程工业过程故障诊断的经典研究方法,这些方法将相同故障根源的异常样本划分为同一种故障类别,将故障诊断问题转化为多分类的问题,可有效地进行故障诊断。基于多元统计分析方法的有主成分分析(principal component analysis,PCA)[3]、偏最小二乘(partial least square,PLS)[4]和独立分析方法(independent component analysis,ICA)[5-6]以及相应的改进算法[7-9]。由于这些方法不需要过多的先验知识,在一定程度上优于传统的专家系统方法[10]。Zhang等[11]将多尺度核PCA(KPCA)和核PLS(KPLS)结合,以捕获在不同尺度上的过程变量相关性,并在此基础上,提出多尺度贡献图的非线性故障诊断新方法,解决了PCA 和PLS 不能用于非线性观测数据的问题。Ajami等[12]提出基于ICA的火电厂汽轮机故障检测与诊断的方法,该方法能够有效实现在噪声状态下对多部件的故障检测和诊断。Stefators等[13]提出动态ICA方法,将当前的数据矩阵与历史数据矩阵连接,形成增强的数据矩阵,解决非高斯过程的动态问题。虽然基于统计分析方法在故障诊断领域取得了良好的成果。但是这些统计分析方法通常依赖于人工选取的阈值来检测故障的发生,并进一步诊断故障变量,因此选取不同的阈值将导致不同的故障诊断结果和精度。此外,实际的化学工业由于环境和操作条件的不同,产生的过程数据具有强动态性。对于这种现象,多元统计分析的基本方法通常假设数据在平稳理想的运行条件下获取,因此这将导致多元统计分析方法难以成功应用[14]。浅层机器学习故障诊断方法包括支持向量机(support vector machine,SVM)[15-16]、K近邻(K-nearest neighbor,KNN)[17-19]、高斯混合模型(Gaussian mixture model,GMM)[20]、人工神经网络(artificial neural network,ANN)[21]等。如He等[22]利用最小二乘支持向量机的故障诊断方法,用于处理过程故障数据小样本和非线性分区数据的问题。该方法进一步采用粒子群算法确定惩罚因子和高斯核函数的重要参数,提高了诊断田纳西-伊士曼化学过程(Tennessee-Eastman process,TEP)数据的性能。然而,浅层的网络结构无法表征高维和抽象的判别特征,并且在网络输入特征数据前,需要对原始数据进行人工的特征提取、选择以及优化[23]。所以,基于浅层机器学习方法的故障诊断能力与提取特征的质量相关,当面对更加庞大和复杂的数据时候,此类方法因为需要额外的人为特征提取而难以实现快速的故障诊断。

面对着化学流程工业中诊断新旧故障特征的难题,需要迫切地探索和研究出新的工业过程故障诊断的方法,以高效处理大数据中的特征提取与识别,提高工业过程安全生产性能与工业生产质量,检测和识别所有类型潜在的微小故障等。

2006年,Hinton等[24]首次提出的深度学习打破了浅层学习训练不足的壁垒。在2013年之前深度学习主要应用于语音识别、图像分类等领域,2013年,Tamilselvan等[25]拓展深度学习的应用领域,将基于深度置信网络(deep belief network,DBN)的深度学习方法应用于多传感器健康状态分类的故障诊断,填补了基于深度学习的故障诊断的空白,为故障诊断领域提供了新的研究思路。2015 年,Xie 等[26]首次提出将深度学习用于TEP 工业过程故障诊断,构建分层深度神经网络,通过有监督DBN对故障进行分组,然后触发下一个针对特定故障进行专门训练的DBN 模型,最终实现分层故障诊断。由于深度学习以“端到端”的方式完成复杂识别分类任务,展现出处理大数据的优越性能,因此各领域的学者积极利用深度学习理论去开拓解决各自领域难题中的新方法。同样,基于深度学习的复杂CPIFD研究也掀起了智能制造时代下过程控制领域的浪潮。与基于浅层机器学习方法的CPIFD对比(如图1所示),基于深度学习方法的CPIFD通过构建多隐藏层连接结构模型,实现“端到端”的特征提取与模式识别,替代了人工挑选特征的过程。

图1 基于浅层机器学习和深度学习方法的CPIFD对比Fig.1 Comparison of CPIFD based on shallow machine learning and deep learning

1 化学流程工业故障诊断的部分相关综述

在表1 的流程工业过程故障诊断综述中[27-33],大部分文献都是基于模型、信号、知识和传统的数据驱动方法展开论述。虽然有小部分综述文章是基于深度学习对关于CPIFD 的探讨,然而,这些综述主要集中在浅层的机器学习,对基于深度学习方法在CPIFD 的应用研究还不够。为了弥补现有的研究,本文拟对基于深度学习的CPIFD 方法进行更全面的综述,同时为希望了解和推动深度学习方法在CPIFD 中发展的研究者提供参考。

表1 部分相关综述Table 1 Part of relevant reviews

2 深度学习在化学流程工业故障诊断的应用

从理论和实际应用角度出发,基于深度学习的CPIFD中具有代表性的模型可分为卷积神经网络、深度置信网络、堆叠自动编码器、长短期记忆网络和其他新兴的深度学习模型(迁移学习、注意力机制和图卷积网络)。本章将对以上模型的基本理论及其在化学工业过程领域的研究进展进行详细论述。

2.1 卷积神经网络理论及其在CPIFD的应用

2.1.1 卷积神经网络理论

卷积神经网络在图像分割、识别分类、检测和检索相关的任务中表现优异,因此,将卷积神经网络在各个领域的应用引起了学者的关注,特别是工业故障诊断领域。卷积神经网络特点在于它能够充分利用输入数据的空间相关性。卷积神经网络通过使用多个构建模块(如卷积层、池化层以及全连接层)进行反向传播以自适应地学习数据的空间层次结构[34],CNN 结构如图2 所示。CNN的显著特性是局部稀疏连接、权值共享、降采样和端到端[35]。在模拟人的神经网络基础上,CNN 通过局部稀疏连接将上下两层的神经元节点连接,建立输入图像的局部感受野。CNN通过权值共享使得每一张输入图像共享卷积核的各个参数,即每张输入图像具有相同的权重矩阵和偏置项,这不仅减少了网络结构的复杂度,还有效地降低了过拟合的风险。降采样的计算层也被称为池化层,CNN 通过降采样对卷积层输出的特征图进行聚合计算,保留了有效信息的同时还降低特征的维度,从而实现输入图像的旋转、平移和伸缩不变性。端到端的卷积神经网络是将原始数据输入到模型,直接输出分类结果而无需进行特征工程的方法,这种学习方式具有协同增效的优势,更加有利于获得全局最优解[36]。

图2 CNN的基本结构Fig.2 Basic structure of CNN

卷积层(convolution layer)是CNN结构体系最核心的组成部分,由卷积运算和激活函数运算组成。该层主要用于提取输入数据的局部特征[37]。卷积层的数学模型可表示为:

其中xi−1和xi分别表示第i层的输入和输出特征图;ωi和bi分别表示第i层的卷积核和偏置。f(·)表示激活函数,对卷积操作学习到的特征进行非线性变换。由于修正线性单元ReLU 函数能够很好的提高CNN 的非线性能力以及有效防止梯度爆炸的问题,因此被广泛采用以替代早期的sigmoid 和tanh 激活函数。ReLU 激活函数的数学模型可表示为:

池化层(pooling layer)通常置于卷积层之后,目的是降低数据的冗余度,保留特征图的关键要素以及控制过拟合。常见的池化操作有最大池化、平均池化和随机池化。通常最大池化是人们首选的池化操作。池化操作的数学模型可表示为:

其中xm,n和xm′,n′分别表示的是卷积层输出特征图中点(m,n)进行池化操作前后的值;pool(·)代表的是池化函数。

全连接层则将卷积层提取和池化层降采样到的特征映射到样本标记空间。接着,输出层通常采用Softmax分类器,其在解决多分类的问题具有优势,特别是针对故障诊断分类问题。

卷积神经网络属于有监督的深度学习模型,利用BP 算法实现误差反向传播,使用梯度下降法优化各层参数。它有着出色的自学习能力及逐层对输入数据进行特征抽象转换和高层表示的能力,卷积神经网络在故障诊断识别分类有很大的应用前景和潜力。

2.1.2 卷积神经网络在CPIFD的应用

化学工业过程中故障的本质是过程变量偏离其正常状态的故障状态。不同设备中状态偏差的数据可用于诊断不同的故障类型。2018 年,Wu 等[38]提出采用深度卷积神经网络(DCNN)进行化学工业过程的故障诊断,将过程变量的时频域特征转化为二维矩阵,并将二维矩阵输入到DCNN中,提取变量的空间特征进而分类故障,该方法取得了88.2%的分类准确率。2019 年,针对大多数传统方法不考虑化学工业过程的频率变化而影响检测性能问题,Zhang 等[39]提出基于幅频图像的卷积神经网络故障诊断方法,并使用ConvNet作为二元分类器进行故障的分类,该方法在数值过程(NP)和化学过程中得到了验证。2020 年,基于传统CNN 的故障诊断方法通常使用相同长度的过程数据,从而限制模型对数据动态特性的表达的问题,Gao等[40]提出基于CNN的多时间尺度动态特征提取方法并将其应用于TEP,该方法采用CNN中Resnet网络结构并在机构中添加固定的多采样层,提取了不同时间长度的过程数据的动态特性,因此无论是在较多数据量还是较小的数据量的前提下,多时间尺度模型的平均故障诊断率都高达95%以上。2021年,针对以上过程变量需要转化为二维矩阵或者复杂图像数据作为CNN 的输入,而导致大量消耗计算资源的问题,Yu等[41]提出基于小波变换的多通道一维卷积神经网络模型(MC1-DCNN)并应用于TEP和补料分批发酵青霉素工艺(FBFP),该模型通过一维卷积核学习过程变量时频域上具有代表性的特征,然后进行多通道信号的特征融合。研究结果证明,MC1-DCNN 具有学习高维过程信号特征的能力和良好的故障诊断性能。大多传统CPIFD 技术在建立诊断模型时没有考虑不同异常之间的故障倾向,Yu 和Zhao[42]设计了一个具有增量学习能力的广义卷积神经网络(BCNN),利用卷积运算从数据矩阵提取故障趋势和非线性结构,并添加新生成的附加特征提高了BCNN 在CPIFD 的诊断性能。所提出的网络结构能够学习不同样本之间的信息,更重要的是具有增量学习能力,能将新采集的故障样本纳入诊断模型,而不需要完全的模型再训练即可实现自我更新,从而对新故障也能进行有效的诊断。CNN 通常假设训练和测试数据来自相同的分布,但是由于实际制造工艺的变化,所采集的数据在不同的操作条件下通常具有不同的分布。因此,Azamfar等[43]提出基于CNN的半导体制造故障诊断域自适应方法(DACNN),在标记的源域数据和未标记的目标域数据之间建立了跨域模型。对DCNN学习到的高级特征进行优化,在全连接层后最小化训练和测试数据分布之间的最大平均差异(MMD)度量,以实现域不变特征。研究结果证实了该方法具有较高的交叉域诊断性能。

就现有文献,图3 给出了基于CNN 的CPIFD 的一般流程图。基于CNN的流程工业故障诊断的起步时间相对基于CNN的机械故障诊断较晚。虽然其研究已初见成效,但仍需研究人员继续挖掘流程工业的故障机理,探索CNN在CPIFD领域的自适应性。

图3 基于CNN的CPIFD一般流程图Fig.3 General flow chart of CPIFD based on CNN

2.2 深度置信网络理论及其在CPIFD的应用

2.2.1 深度置信网络理论

为解决深度神经网络训练成本的问题并推动深度学习的快速发展,Hinton等[24]提出了新的生成式神经网络模型——深度置信网络。DBN模型由堆叠的受限玻尔兹曼机(restricted Boltzmann machine,RBM)和分类器构成。堆叠的RBM 逐层提取故障特征,分类器(如Softmax分类器等)对故障进行识别分类[44]。

玻尔兹曼机(BM)是随机神经网络,它的每个神经元都是双向连接的[45]。而与BM不同之处在于,RBM包含的是单向连接的输入和输出层,且同一层的神经元之间没有连接以保证它们之间的相互独立性,以学习其输入集合的概率分布。图4(a)和(b)给出了二者的结构模型,RBM 中输入和输出层之间明确的关系减少了训练参数,这意味着RBM 比BM 会拥有更快的训练速度。结构的易扩展性是RBM的又一优势。 RBM输出层的神经元(隐藏单元)可以作为下一个RBM输入层的神经元(可视单元)[46],以这种方式将多个RBM 级联起来将产生一个具有多个隐藏层的神经网络,即深度置信网络。如图4(c)所示,虽然DBN 从结构的表面上看这类似于一个多层前馈神经网络,但其在网络上的训练方式有所不同。具体来说,DBN 的训练过程分为无监督的预训练和有监督的反向传播微调两个阶段。在2010年,Erhan等[47]的研究表明:无监督的预训练会引导学习朝着极小吸引域的方向发展,从而提高网络结构的泛化性能。因此,无监督逐层的预训练是DBN 区别于其他模型的主要特点,同时这也是DBN 具有强大特征提取能力的关键所在[48]。

图4 BM、RBM和DBN的基本结构Fig.4 Basic structures of BM,RBM and DBN

给定模型参数θ=[W,b,a],DBN 的能量函数可表示为[49]:

其中,δ(⋅)为激活函数,通常选用sigmoid函数。以此训练RBM 使得联合概率最大化。完成了RBM 的训练之后,利用BP 算法整体微调DBN 的网络参数,因此DBN 能够自行选择相关的特征进行分析,又不受用BP算法微调多层之间权值而导致网络严重长时间收敛的影响。

2.2.2 深度置信网络在CPIFD的应用

DBN 最初的目的是为图像识别而开发的,现已成熟的应用于具有二值类型变量的系统。但是由于大多数的复杂工业过程变量为连续性变量,因此DBN 应用于该领域的报道目前为数不多,仍在探索阶段。2017年,Zhang 等[50]将DBN 引入TEP 化工过程,利用互信息技术选择较优变量作为OCON 网络的输入,DBN 作为子网络提取时空域的故障特征,实现诊断故障分类。通常标记故障数据集耗时费力,且需要具体详细的实验设置,2018 年,张祥等[51]提出变分自动编码器和深度置信网络的复合故障诊断方法(VAE-DBN)应用于化工过程故障诊断,利用VAE 无监督学习原始数据中的隐变量抽象特征,DBN作为分类器,在TEP过程重叠数据较多的故障诊断任务中获得了良好的分类效果。同年,Tang等[52]针对统计模型方法的准确度很大程度上取决于阈值和统计模型选取的问题,提出基于DBN的Fisher判别稀疏表示(DBN-FDSR)用于过程故障诊断,利用DBN对过程变量进行降维并提取特征,再引入Fisher判别稀疏表示完成故障分类任务,研究结果表明,由于FDSR添加的约束限制了类内样本的分散,并使类间样本的分散最大化,因此,DBN-FDSR 能够获得良好的故障诊断性能。2020年,Wang等人[53]针对DBN逐层提取层次特征中连续的特征压缩会导致原始数据有价值的信息会丢失,进而导致不利于微调阶段的问题,构建了可扩展的深度置信网络(EDBN),将原始数据和不同层的隐藏特征相结合作为每个扩展RBM 在训练阶段的输入,充分捕获了原始数据的有用信息。此外,还考虑了过程数据的动态性,构造基于EDBN 的动态故障分类器,结果表明EDBN比传统DBN具有更好的特征提取能力和故障分类性能。2020 年,Wei 等[54]为了减少DBN 模型的过拟合和提高模型的泛化性能,构建了DBN-dropout模型用于化工过程故障诊断,且dropout 技术仅用于模型的训练,但测试阶段模型的所有神经元仍工作。结果证明,DBN-dropout 模型的准确率和召回率的加权调和平均(F1-score)优于CNN、DBN等。Akagekar等[55]提出基于量子计算的深度学习方法(QC-DBN)用于工业过程故障诊断,将DBN集成到故障诊断模型中,对正常和故障过程变量进行不同级别的特征提取。该模型采用量子计算辅助生成训练有助于在局部域定位最优解,解决DBN存在局部最小值问题。

与其他深度学习模型不同,基于DBN 的CPIFD 主要有两种方式:一是直接利用DBN 模型作为特征提取与故障识别[53],二是在其他方法提取过程变量特征的基础上,利用DBN作为故障分类器[51],如图5所示。

图5 基于DBN实现CPIFD的两种不同方法Fig.5 Two different methods to implement CPIFD based on DBN

2.3 堆叠自动编码器理论及其在CPIFD的应用

2.3.1 堆叠自动编码器基本理论

自动编码器(autoencoder,AE)是由编码器和解码器组成的三层前馈神经网络,属于无监督学习方法,其网络结构如图6 所示。编码器将输入数据从高维空间映射到低维特征空间,实现输入数据的压缩表示以及提取特征向量;同时通过解码器尽可能多地重构输入数据的低维特征。通常,用均方误差(MSE)评估AE 表达数据特征的能力,当MSE 的值最小时,AE 的表达性能最优。AE 经典的数学模型可描述为[56]:将输入数据样本x∈Rm通过编码器映射到具有非线性函数f(⋅)的低维特征空间Rn中:

图6 自动编码器网络的基本结构Fig.6 Basic structure of autoencoder network

其中a为输入样本的数量。AE通常使用随机梯度下降算法训练网络参数[57]。堆叠自动编码器(SAE)是由多个自动编码器模块叠加而成的深度神经网络。这种深层结构能逐层降低输入数据的维数,提取输入数据的高级抽象特征,改善AE 泛化性能差和无法精确拟合大多数复杂高维函数的不良现象[58]。2008年,Vincent等[59]提出降噪自动编码器,首先对输入数据添加随机噪声,然后对加噪数据进行编码和解码操作,旨在通过降噪建立训练准则找出更具鲁棒性的特征。2011年,文献[60]提出稀疏自动编码器学习算法,该算法将KL 散度作为稀疏惩罚项添加到AE 的损失函数中约束隐藏层,因而保证了隐藏层的稀疏性。算法的优势在于即使隐藏层节点数量远大于输出层节点数时,仍能发现输入数据内部结构特征。文献[61]设计了卷积自动编码器。与其他的自动编码器不同,卷积自动编码器可以在不使用任何约束项下就有稀疏作用,有效解决图像数据的池化问题,且能够实现完整保存图像数据受局部空间限制的边缘特征达。

2.3.2 堆叠自动编码器在CPIFD的应用

被调整、改进后的自动编码器能够根据不同的条件和任务需求,展现从大量无标记样本中提取复杂输入数据本质特征的强大能力,在工业过程故障诊断的应用领域中具有巨大的潜力。2016 年,Lv 等[62]首次将堆叠稀疏自编码器(SSAE)应用到化工过程系统的故障诊断中,提取了故障数据深层结构的特征,检测早期故障,提高了正常与故障过程的可分性,实现该系统的实时在线诊断。2017 年,Lv 等[63]提出基于堆叠稀疏自编码器的加权时间序列故障诊断方法(WTDL),解决了大多数统计分析技术无法有效表征故障特征的问题,该框架考虑对过程变量时间相关性和历史样本的判别,以SVM 作为分类器,实现早期故障的检测与诊断。针对实际生产过程通常缺乏有标记的历史数据,而导致有监督诊断方法不适用于工业过程的问题,Zheng 等[64]提出了基于堆叠自动编码器的无监督数据挖掘方法(UDM-SAE)进行故障诊断,通过SAE 无监督方式提取特征,t-SEN 算法可视化后的特征聚类得到数据挖掘的结果,建立了伪标记数据库,构建了伪监督模型的在线故障诊断,取得了与使用实际标记数据集训练效果相当的结果。另外,CNN 中有监督学习机制需要足够的标记数据,会增加时间和人力成本。为此,Chen等人[65]提出用于多变量工业过程故障诊断的一维卷积自动编码器(1D-CAE)。1D-CAE在自动编码器中融合卷积和池化层,构建堆叠深度特征提取器,以无监督的方式从非线性过程信号中学习分层特征表示,在标签信息的指导下微调网络提高系统鲁棒性。研究结果表明,1D-CAE具有优于其他传统分类器的性能。针对单一模型无法有效表征所有故障的特征信息,Li等人[66]提出基于深度学习和多模型特征融合的故障诊断方法(MMFF-FD)用于复杂工业过程,首先采用最小冗余最大相关性方法选择每个故障最相关的过程变量,再为每个故障建立属于自己的SAE模型,最后利用每个SAE模型得到高阶特征和残差构造新的输入矩阵,使用输入矩阵和标签信息训练故障分类器。MMFF-FD的平均故障诊断率为88.04%,有效提高了特征提取的鲁棒性。为实现多变量制造过程的故障检测与诊断,Zhang 等[67]设计了1-DCNN 与SDAE 混合的深度学习方法,首先通过多次卷积运算得到一维处理信号的特征抽象,在全连通层之后嵌入SDAE进一步构造深度网络,对复杂过程信号降噪并从中提取判别特征,1-DCNN+SDAE的识别效果明显优于其他的深度网络模型,对TEP的平均诊断准确率为99.84%。因此,基于堆叠自动编码器的工业过程故障诊断有着其独特的特征提取优势。如图7给出了堆叠自动编码器在CPIFD的基本流程图。

图7 基于堆叠自动编码器在CPIFD的基本流程图Fig.7 Basic flow chart of CPIFD based on stacked autoencoders

2.4 长短期记忆网络及其在CPIFD的应用

2.4.1 长短期记忆网络基本理论

递归神经网络(recurrent neural network,RNN)通过链式网络结构传递历史信息。当RNN的当前神经元处理输入信息时,既考虑了输入信息,又考虑了神经元上一时刻的信息,因此RNN 具有处理时间序列的优势[68]。然而,当时间序列不断累计并达到一定长度是,由于梯度消失的出现,RNN 不能很好地学习历史信息。为了克服RNN的缺点,Hochreiter和Schmidhuber[69]提出了长短期记忆网络(LSTM),该网络在长时间跨度内能够维持数据梯度不弥散的情况。LSTM 最近在序列建模的各个领域都卓有成效,包括但不限于语音识别和机器翻译。通过多层LSTM层叠加,得到与普通RNN相似的整体网络。LSTM 的基本结构如图8 所示。然而,网络单元的结构差异很大,在LSTM 层中关键的单元包括:输入门it、遗忘门ft、输出门ot和内部记忆单元ct。且每个逻辑门都拥有各自的参数(U,W,b),从而在相应的位置对信息进行筛选,增强有用信息的权重,有效地滤除冗余信息[70]。

图8 LSTM的基本结构Fig.8 Basic structure of LSTM

(1)遗忘门ft:根据当前输入xt和上一时刻隐藏层输出ht−1计算信息量,在最终的决策中起到重要作用。其表达公式如下:

其中Tanh(⋅)表示双曲正切激活函数。与ft的作用类似,it的值决定了对c′t的保留程度。

(3)内部记忆单元ct:计算当前输入xt和过去记忆信息的总量,实现ct−1到ct的状态更新。其表达公式如下:

2.4.2 长短期记忆网络在CPIFD的应用

由于LSTM神经网络通过门控单元来解决RNN的长期依赖问题,因此非常适用于工业过程中与时间具有强相关性的变量数据。2018 年,Zhao 等[71]提出基于LSTM 网络端到端的顺序故障诊断方法(BN-LSTM),以解决大多数传统故障诊断技术无法从原始数据中自适应学习动态信息的问题。文章采用批量归一化方法减小LSTM 内的协变量偏差,提高了LSTM 的收敛速度。实验结果表明,BN-LSTM 在故障诊断性能上优于DPCA-SVM、DLDA-SVM 以及MLP 方法。Park 等[72]为了检测和诊断工业过程罕见的故障,提出了CLSTM-AE的集成学习方法,旨在检测与诊断工业过程中的罕见故障。该方法采用具有降维能力和非线性表示的自动编码器对罕见的故障进行检测,采用具有学习时间序列能力的LSTM对故障进行分类。与DCNN方法相比,所提方法精度提高了16.9%。Shao等[73]提出基于LSTM-CNN的多通道故障诊断模型(MCLSTM-CNN)。该模型将故障数据输入到LSTM得到隐含层的输出,再利用多个并行卷积层同时提取隐含层的输出特征。研究表明,将MCLSTM-CNN 应用于TEP 化工过程的故障诊断准确率高达92.06%。针对单一网络结构性能的限制和简单的堆叠串联网络结构不能充分集成多方面变量信息进行故障诊断的问题,Wang 等[74]设计了LSTM-CNN 并行结构提取特征方法,然后利用MLP对特征进行融合、压缩提取。该方法兼具对过程变量时间和空间特征的提取,从而提高了模型的诊断性能。Yuan等[75]提出基于多尺度CNN-LSTM特征学习的工业过程监控与故障诊断方案,该方法首先利用离散小波变换将原始工业数据进行多尺度表示,利用多尺度卷积神经网络提取各尺度的特征,然后通过LSTM 融合提取的多尺度特征,进一步减少无用信息,保留有用信息,实现以层次的方式从多个尺度自动提取高维工业故障特征。与传统的方法和其他深度学习模型相比,基于LSTM的CPIFD在处理与时间强相关的过程变量方面有着其独特的优势。

以上所有研究在CPIFD 中的应用的详细对比见表2(由于篇幅有限,若网络的诊断对象有TEP和其他验证例子,表格仅以TEP为代表说明网络的有效性)。

表2 深度学习在CPIFD应用中的对比Table 2 Comparison of deep learning in CPIFD applications

2.5 新兴深度学习网络模型在CPIFD中的应用

2.5.1 迁移学习

迁移学习打破了传统机器学习方法中训练集和测试集服从同分布的假设,实现在不同但又相关的领域中挖掘域不变特征,解决目标域样本不足的学习问题。迁移学习的域D表示学习的主体,由数据特征空间X和边际概率分布P(x) 组成,其中x∈X。域分为源域Ds={Xs,P(xs)}和目标域Dt={Xt,P(xt)},其中源域代表已有知识的域,目标域代表需要学习的域。当源域和目标域不同时,则它们的数据特征或边际概率分布不同,即Xs≠Xt或P(xs)≠P(xt) 。任务T={Y,f(x)} 是学习的目标,由标签空间Y和预测函数f(x)组成。迁移学习被定义为[76]:给定源域Ds和学习任务Ts、目标域Dt和学习任务Tt,迁移学习的目标就是获得源域Ds和学习任务Ts中的知识以帮助提升目标域Dt中预测函数ft(x)的学习,其中Ds≠Dt或者Ts≠Tt。 迁移学习过程如图9 所示。根据现有的基于迁移学习的CPIFD 文献,迁移学习可分为基于特征的迁移学习、基于模型的迁移学习和对抗式迁移学习3 种方法。每一种迁移方法分别对应于知识的哪一部分被视为知识迁移的载体。具体来说,基于特征的迁移学习所迁移的知识对应于源域和目标域中特征所共享的子空间,即跨域的迁移知识可以被认为是学习到的特征表示;基于模型的迁移学习迁移的知识嵌入源域模型的一部分中,且所迁移的知识指的是模型参数内含的域不变结构;对抗式迁移学习可以使用无监督的生成模型来减少对有标签数据的依赖,并学习域不变特征。2020年,Wu等[77]提出了基于迁移学习的多模态化工过程故障检测与诊断的方法,该方法利用基于模型的迁移学习解决了源域和目标域都有标签的故障数据问题,利用基于特征的迁移学习解决了源域数据有标签,而目标域故障数据没有标签的故障诊断问题。Wang等[78]设计了基于线性判别分析的深度迁移学习算法用于化工过程故障分类,该算法利用线性判别分析,设计基于加权最大平均差异的损失函数来提取相似的潜在特征,减少了源数据和目标数据分布的差异。Wang等[79]提出了一种新的双层卷积迁移学习神经网络,该方法引入微调和领域自适应策略来训练网络,解决域不变性。且在实际聚乙烯工艺聚合故障诊断中验证了方法的有效性。为促进领域适应适应,Xiao等[80]提出新的自适应流行判别分布对齐方法,使得同类故障在不同域之间差异最小化,不同故障类之间的差异最大化,所提方法在TEP化工过程中得到了验证。Li等[81]针对深度学习在过程故障诊断中存在着缺乏足够的故障样本问题,提出了采样生成模型GAN(generative adversarial network)来提供模拟故障数据,并引入迁移学习来减少模拟与物理领域之间的不匹配,即该方法采用对抗式迁移学习对连续搅拌釜式反应器和制浆厂进行了过程故障诊断。

图9 迁移学习过程Fig.9 Transfer learning process

迁移学习的价值和必要性体现在可以解决浅层机器学习和经典的深度学习模型存在的痛点:(1)迁移所学知识,已有的大量工作不至于完全丢失;(2)无需花费巨额代价重新采集和标注大量新的数据集,甚至是根本无法获取的数据;(3)对于新领域的数据,能够快速迁移和应用,体现故障诊断的时效性。但是,在某些情况下,源域和目标域彼此不相关时,强制迁移可能会有损目标域的学习性能,即出现负迁移的情况,如何避免CPIFD出现负迁移是今后研究的开放性问题。

2.5.2 注意力机制

注意力机制通过建立输入和输出之间的依赖关系,可以解释深度学习模型的特征提取过程,从而提高数据驱动方法的可靠性和有效性。此外,注意力机制根据任务的不同,对模型关注的部分分配不同的权值,实现自动地增强关键故障信息,从而优化模型做出更佳的判断。注意力机制通常分为软注意力机制和硬注意力机制,其中硬注意力机制是指选择输入信息某一位置上的特征,有着不可微的性质;而软注意机制选择的信息是所有输入信息的加权平均,其有着处处可微的性质,即可通过反向传播算法来学习得到注意力的权重,因此有着更加广泛的应用[82]。目前国内外基于注意力机制的故障诊断研究主要集中在滚动轴承、齿轮箱等单变量机械领域[83-84],但在化工过程中的应用却为数不多。2021年,Mu 等[85]利用时间注意力机制来增强LSTM 隐藏状态特征的可解释性,关注局部时间信息,使得TEP 在故障分类任务中获得了高准确率。Li 等[86]提出设计了基于一维卷积和自注意力机制的非线性过程检测方法,自适应提取全局和局部变量间结构的特征,并在TEP的故障检测与分类中验证了方法的可行性。Bi 等[87]提出正交自注意力变分自编码器模型并将其用于TEP 的过程故障监控,该方法采用自注意力机制,综合考虑化工过程所有时间步骤的信息不仅提高了故障检测性能,还提供了可解释的结果。刘兴等[88]提出基于注意力卷积门控循环自编码器网络的过程故障检测网络,利用注意力机制有效选择了多变量的化工数据的重要特征,实现良好的故障检测效果。

将注意力机制与深度学习模型结合也会带来一定的挑战:(1)选择注意力机制的种类;(2)加入注意力机制的顺序位置;(3)在保证故障诊断时效性和准确性的同时,尽可能的降低模型的复杂度。

2.5.3 图卷积网络

图卷积网络(graph convolution network,GCN)是处理图域或非欧几里得空间数据的深度学习模型,可分为基于频谱的图卷积网络和基于空间的图卷积网络[89]。基于频谱的图卷积网络利用图谱滤波器对图节点的输入信息进行平滑处理,在频谱图中进行卷积操作,从而实现图数据的特征提取;而基于空间的图卷积网络是直接在图上定义卷积操作,并从邻域聚合节点信息,形成节点的高级特征表示。虽然基于经典深度神经网络的方法可以有效的捕捉常规数据(如图像和时间序列)的隐藏特征,但是大多数方法忽略了数据之间的相互依赖关系或多个传感器的各种物理测量的相互作用。由于图卷积网络能够对数据之间的相互依赖进行建模,并能够通过建模图的边传播节点信息,学习重要的节点或图的表示,其中建模图的边恰恰反映了样本或多传感器之间的关系。因此,图卷积网络广泛应用在推荐系统、轴承机械故障诊断、交通预测等领域[90]。然而,图神经网络在化学过程中的应用目前鲜有报道。2021年,Wu 等[91]设计了过程拓扑卷积网络模型应用于化工过程故障诊断,该模型利用过程拓扑信息,将过程转化为图形,进而利用图卷积神经网络学习多元变量之间的确切关系,提高了故障诊断的准确率,此外,相比于其他数据驱动的故障诊断模型,特征提取更加合理和易于理解。

如图10 展现了基于经典深度学习模型和基于图卷积神经网络方法的故障诊断流程框架。图卷积网络相对于经典的卷积神经网络而言,存在着一些不足:对于化学工业过程或系统而言,通常采用多个传感器采集多源物理量的信号。因此,在构造图时需要具备较强的先验知识,因为图中所包含的先验知识会影响最终的诊断结果。如何将先验知识更好地融合到图形构造过程中是化学流程工业故障诊断未来的研究方向。表3 展现了经典深度学习模型与新兴网络模型的优劣对比。

表3 不同深度学习模型在CPIFD应用的对比Table 3 Comparison of different deep learning models in CPIFD application

图10 经典深度学习模型和GCN诊断流程的对比Fig.10 Comparison of classical deep learning model and GCN in diagnostic processes

3 深度学习在CPIFD中待解决的问题与展望

在本部分讨论一些关键的问题和有价值的研究方向,并特别关注其挑战和潜在的机遇。

3.1 数据质量问题

高质量的数据是深度学习在CPIFD 应用高性能的保证。然而,目前的故障数据存在4个主要问题:

(1)数据标注的人工成本高。到目前为止,大多数的诊断方法都是基于监督学习,严重依赖人工标注。如果故障数据量大,则需要专业技术人员花费大量的时间贴标签。

(2)类不平衡。在实际生产过程中故障的发生是一种低概率的事件,因此在保持采样平衡的情况下,很难得到故障数据,也就意味着在数据不足的类别上表现不佳甚至很难为深度学习方法提供足够的数据。

(3)多模态数据。在本文中,只关注在CPIFD 中应用广泛的数据。还有一些其他的来源数据,如热图像,激光扫描仪数据和文本等。如何有效地利用这些多模态数据来完成CPIFD是一个具有挑战的问题。

(4)仿真数据的非真实性。虽然故障数据可以从仿真平台模拟获得,但是仿真平台很难模拟出真实的环境条件(如温湿度,噪音等),因此故障数据并非都是真实的。

为了为上述挑战提供现在的解决方案,提出了以下研究方向:

(1)弱监督学习的故障诊断。弱监督学习包括半监督学习和无监督学习,利用少量标记甚至是无标记数据达到学习的目的,因此其在弱化人类对数据标签的参与方面起着至关重要的作用。目前为止,从综述的文献来看,将弱监督学习应用在CPIFD的研究并不多见。还要许多弱监督学习的方法,如流行K近邻半监督学习、Few-shot学习等,值得在CPIFD中尝试。

(2)数据自动生成。为了解决类不平衡和仿真数据的非真实性问题,数据生成是一种很有前途的方法。生成式对抗网络(GAN)可作为数据生成器合成具有时间序列特性的过程故障数据。有研究表明在数据缺失、少样本等的情况下,由于SMOTE 数据过采样的方法有分布边缘化的问题,生成的故障样本与原始样本具有很强的线性关系,而GAN 方法有较好的泛化性能[92]。因此使用GAN方法为解决CPIFD故障数据稀缺的问题留下了很好的发展空间。在未来的研究中,我们在关注如何获得更多数量故障样本的同时,更需考虑如何获得更高质量的样本,为生成的样本建立相对可靠、客观的评价指标体系对提高CPIFD的性能具有重要意义。

(3)多模态数据决策。利用多模态数据(图像、数据、文本)描述故障的变化过程,增强决策的可信度,做到决策的一致性。融合图像处理、信号处理等技术,构建化工过程知识图谱,更好地实现故障的早期检测与维修。

3.2 嵌入式应用

高性能计算、降低数据成本、实现高效检测的需求日益增长是现场完成故障诊断的必要条件。如何在计算时间短、内存占用小的情况下,提高故障数据的分析诊断效率是实际工程中的重要方向。从数据预处理的角度来看,对多变量的工业过程数据进行变量筛选、减少冗余变量是有效途径。从网络架构设计方面来说,网络量化、网络分解、轻量级网络的设计是值得研究的点。从分类器选择方面来分析,有研究表明针对特征信息选择合适的分类器可以提高深度学习网络的分类性能[52]。

3.3 评价基准

评价基准是指标准数据集和评价指标。目前,在化工过程故障检测与诊断领域常用的数据集是田纳西-伊士曼数据集,可从http://depts.washington.edu/control/LARRY/TE/download 下载。现有的化工公开数据集还不足以构建全面的标准数据集来评价分析系统的性能,最新研究成果应用尚处于偏离实际的情况,这离不开工业数据保密性高的现状。但是当工业数据研究开放时,期待深度学习在CPIFD 的实际应用逐渐欣欣向荣。在CPIFD 研究中使用的评价指标是多种多样的,如准确率、真阳率、假阳率、误报率等,即使在相同的评价指标中,定义有可能不同,尤其是准确率。一个标准的评价基准可以促进CPIFD的研究和应用。

3.4 故障预测

微小故障是过程变量偏离其正常状态程度小的故障。若不对微小故障进行处理,则会对整个系统的运行带来安全隐患。当微小故障还没有表现征兆时,就利用深度学习方法对监控的数据进行深入挖掘分析,提前预测生产过程中即将发生的故障种类或者时间,进行寿命预测和容错控制,是未来值得关注的研究方向。

4 总结

化学流程工业故障诊断技术是提高生产过程可靠性与安全性的重要手段。在复杂的、大规模的和智能化的现代化学流程工业过程中,如何对智能制造的故障进行有效的预测、检测和诊断,对实现安全的和高质量的生产具有十分重要的意义。近年来,通过建立深层神经网络模拟人脑有效处理信息的机制,深度学习拥有学习和分析输入数据的能力,逐渐成为大数据处理的热门工具。利用深度学习进行智能化学流程工业故障诊断得到越来越多研究者的青睐。据此,本文做出了如下贡献:

(1)比较和分析了化学流程工业故障诊断相关的综述。

(2)介绍了4 种深度学习模型的发展和基本理论,旨在帮助读者在理解深度学习模型的工作机制基础上,更好地掌握基于深度学习的化学流程工业故障诊断。

(3)重点阐述了4 种经典的深度学习模型和3 种新兴的深度学习模型在化学流程工业过程故障诊断中的应用。

(4)探讨了深度学习在工业过程故障诊断中拟解决的问题与未来的发展方向。

与基于传统的工业过程故障诊断算法相比,深度学习模型在CPIFD的表现更好,可以提取过程数据更深层次的特征信息,具有更高的识别精度和更好的性能。因此,深度学习在未来的智能流程工业故障诊断中具有广阔的应用前景和很大的研究价值。

猜你喜欢
故障诊断卷积神经网络
基于3D-Winograd的快速卷积算法设计及FPGA实现
神经网络抑制无线通信干扰探究
电子制作(2019年19期)2019-11-23 08:42:00
从滤波器理解卷积
电子制作(2019年11期)2019-07-04 00:34:38
基于傅里叶域卷积表示的目标跟踪算法
基于神经网络的拉矫机控制模型建立
重型机械(2016年1期)2016-03-01 03:42:04
因果图定性分析法及其在故障诊断中的应用
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定
一种基于卷积神经网络的性别识别方法
电视技术(2014年19期)2014-03-11 15:38:20
基于LCD和排列熵的滚动轴承故障诊断