于桂仙,杨 青,刘彦俏
(沈阳理工大学 自动化与电气工程学院,沈阳 110159)
随着现代化工过程的大型化和复杂化,如何对其进行有效的故障诊断成为一个重要的研究方向。其中,深度学习技术备受关注,在图像和自然语言处理、预测、故障诊断等方面均有深度学习的应用[1-4]。目前常使用卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)来提取数据特征,CNN和RNN是深度学习的两个重要模型,两者具有同等重要的作用和地位。CNN可有效提取数据在空间域上的特征,RNN和CNN的明显不同之处是,RNN为一种基于记忆的模型,拥有独一无二的记忆功能,能够提取数据的时域特征。但标准的RNN只对近期的信息记忆清晰,对较为久远的信息记忆则较为模糊,为此Hochreiter S等[5]提出长短期记忆网络(Long Short-Term Memory,LSTM)模型,作为RNN的改进模型,LSTM的应用效果远好于标准的RNN。衷路生等[6]将深度残差网络应用在故障诊断中,该网络的恒等映射快捷连接不仅有效缓解了训练困难的问题,同时对参数优化也有一定帮助,实验结果表明该方法有效地提高了精度指标。王翔等[7]通过样本重构的方式降低复杂度,然后采用改进的多尺度孪生卷积网络进行故障检测。林涛等[8]将LSTM和随机森林(Random Forest,RF)相结合,提出改进的LSTM-RF混合算法进行故障诊断。郑直等[9]采用LSTM进行故障诊断,以改进的鲸鱼算法优化LSTM网络,提高了故障诊断精度。陈佳慧等[10]提出了极大重叠离散小波变换和LSTM相结合的故障诊断方法,其中极大重叠离散小波变换用来提取故障数据在频域上的特征,LSTM用于训练,获得了良好的故障诊断效果。
本文将深度可分离卷积(Depthwise Separable Convolution,DSC)和长短期记忆网络LSTM相结合,提出DSC-LSTM集合型故障诊断方法,对田纳西-伊斯曼过程进行故障诊断。首先将数据归一化预处理,然后通过DSC提取故障数据的空域特征,再通过LSTM提取时域特征,采用时空结合的方式从两个角度提取数据特征,最后通过全连接层进行故障诊断,获得诊断结果。
深度可分离卷积与普通卷积的区别在于DSC的参数更少。DSC首先进行逐通道卷积,例如一张三通道图片,卷积核大小为3×3,卷积核的个数与通道数一致,则卷积部分的参数有3×3×3=27个,再经过逐点卷积,卷积核的尺寸为 1×1,如需要20个特征图,则逐点卷积的参数为3×1×1×20=60个,故DSC的参数共87个,而普通卷积参数需要3×3×3×20=540个,因此DSC可为训练节省时间。
循环神经网络RNN是把网络的输出存储在记忆单元中,然后再将此刻记忆单元中存储的信息与下一刻的输入一起送入网络,使网络产生记忆功能。RNN基本结构如图1所示。
图1 RNN结构图
由于RNN的长时依赖性不够好,故本文采用RNN的改进版本LSTM。LSTM引入门控装置(输入门、遗忘门、输出门),其中输入门的作用是控制记忆单元中当下时刻信息的输入情况,遗忘门是 LSTM 的重要部分,用于控制上一时刻记忆单元中信息的保留或遗忘情况,输出门控制记忆单元中输出的信息[11]。LSTM结构如图2所示。
图2 LSTM结构图
LSTM的相关公式如下。
ft=σ(wf·[ht-1,xt]+bf)
(1)
式中:ft为t-1时刻记忆的衰减系数;wf和bf为ft对应的权重和偏置;ht-1为t-1时刻的输出;xt为t时刻的输入,通过wf·[ht-1,xt]+bf进行线性变换;σ代表sigmoid激活函数,其作用是将ft的数值范围变为0~1。
it=σ(wi·[ht-1,xt]+bi)
(2)
式中:it为当前t时刻下记忆的衰减系数,其计算方式同ft;wi和bi为it对应的权重和偏置。
(3)
(4)
式中ct代表t时刻的记忆状态。以上即为输入门和遗忘门的计算过程。输出门的计算式为
ht=ot·tanh (ct)
(5)
ot=σ(wo·[ht-1,xt]+bo)
(6)
式中:ht代表输出;ot为输出门对应的系数;wo和bo为ot对应的权重和偏置。
DSC-LSTM模型结构如图3所示。
图3 DSC-LSTM结构图
由图3可见,该模型首先将故障数据进行归一化预处理;然后将归一化处理后的数据输入到第一个可分离卷积层中提取空间上的特征,激活函数选取非线性函数ReLU,通过最大池化的方式来压缩特征;再将得到的特征送入第二个可分离卷积层中,激活函数和池化方式的选取同上;再将提取到的特征送入第三个可分离卷积层中,激活函数仍采取ReLU。经过三个可分离卷积层后,数据维度由最初的50维下降到30维;再将第三个可分离卷积层提取到的特征作为长短期记忆网络LSTM的输入,通过LSTM独有的记忆功能提取数据在时间域上的特征;最后将LSTM的输出送入全连接层FC中,通过全连接层完成故障诊断任务。
本文实验采用田纳西-伊斯曼(Tennessee-Eastman,TE)数据,TE过程因数据复杂、故障类别多样,在故障诊断方面应用较广。TE过程主要由反应器、冷凝器等组成[12],其流程如图4所示。TE过程共计28类故障,53个变量,其中3个变量的数值保持不变。
图4 TE过程流程图
本文通过TE仿真模型进行故障数据的采集,从中选取12类故障进行实验,故障类型如表1所示。首先在正常情况下运行模型10h,10h后引入故障,模型共运行610h,采集各类故障数据12000条,从每一类故障中取7200条作为训练集,取1800条作为测试集,同时去掉3个数值恒定的变量,然后将其归一化;再将训练集转为4800×18×50的形式,测试集转为1200×18×50的形式,分别为其加上标签,便于输入DSC-LSTM模型中完成故障诊断任务。
表1 故障类型表
DSC-LSTM集合方法在TE数据上的实验结果如图5所示。实验共进行50次迭代。
图5 DSC-LSTM实验结果图
由图5可见,DSC-LSTM集合方法在训练集上的准确率可达到99%,在测试集上的准确率可达到97.1%。为验证该方法的有效性,同时对比了其他故障诊断方法,对比结果如表2所示。从表2中可看出DSC-LSTM集合方法在故障诊断上的准确率要优于其他方法。
表2 故障诊断结果对比表
提出一种DSC-LSTM的集合型故障诊断方法。DSC网络不仅可以提取数据在空间上的特征,因其参数少,还可提高故障诊断的效率;LSTM的作用是提取时间域的特征;将两个网络结合在一起,从两个角度更加全面地提取特征;全连接层用于分类。在TE数据上对该方法进行验证,实验结果表明,该方法的故障诊断准确率可达到97.1%。但本模型尚存较多不足之处,故障诊断的准确率及速度均有待提升,后续研究中可引入优化算法来优化网络结构,进一步完善模型。