基于模糊粗糙集和鲸鱼优化支持向量机的化工过程故障诊断

2022-02-16 01:29李国友杨梦琪杭丙鹏李晨光王维江
振动与冲击 2022年2期
关键词:约简故障诊断分类

李国友, 杨梦琪, 杭丙鹏, 李晨光, 王维江

(燕山大学 智能控制系统与智能装备教育部工程研究中心,河北 秦皇岛 066004)

化工过程的动态工业生产过程常具有较强的非线性、时变性等特性,其工艺过程复杂、生产危险性大,不同的化学原料或产品会导致化工过程具有较大差别。化工过程各个单元相互影响,一处发生故障将引起一系列的链式反应[1],影响整个化工过程的运行甚至引发重大事故,因此对化工过程故障的监测与诊断尤为重要。

随着动态系统故障诊断复杂程度的逐步提升,基于数据驱动的故障诊断发展愈加迅速[2]。传统的故障定性分析已无法满足生产实际中的要求,而基于解析模型的故障诊断亦不适用于复杂系统故障模型的建立,利用数据驱动进行故障诊断的优势显而易见。机器学习作为人工智能领域数据驱动的一个重要分支,可以通过模型对故障历史数据进行训练,从而对运行得到的过程数据进行诊断。文献[3]最早将神经网络用于化工过程故障诊断,提出了利用神经网络对工业的氯化氢汽提塔进行故障诊断。针对BP神经网络收敛速度慢、易陷入局部最优的问题,文献[4]通过遗传算法对神经网络的初始权值及阈值进行优化,应用于化工发酵过程故障诊断。由于一些系统无法获取大量样本数据以供神经网络进行训练,文献[5]提出了一种适用于小样本的机器学习故障分类方法,利用支持向量机(support vector machine, SVM)对油泵进行故障诊断。由于支持向量机参数的选取对故障诊断模型性能影响较大,文献[6]提出了利用粒子群算法优化的支持向量机对大型炼油厂催化裂化装置中反应-再生系统故障诊断,通过元启发式算法对SVM参数进行优化,提高故障诊断的准确率。

Emary等[7]在2016年提出的一种新型元启发式算法——鲸鱼优化算法(whale optimization algorithm, WOA),可以更加高效稳定地对全局进行优化。文献[8]利用WOA算法优化双向循环神经网络,将其用于非平衡大数据分类,取得了很好的优化效果。

针对故障数据中冗余信息过多影响故障诊断速度的问题,文献[9]提出了先利用粗糙集理论进行属性约简,再做故障诊断的方法。粗糙集理论近年来在数据挖掘方面得到了广泛的应用[10]。粗糙集可以在属性间的定性关系未知的情况下,仅通过属性数据对样本标签的影响就可以对数据进行属性约简,但其结构化的信息表示也造成了它的局限性[11]。对此,文献[12]提出模糊粗糙集(fuzzy rough sets, FRS)通过模糊相似关系对粗糙集进行优化,两者可以很好的互补,使约简更加准确。

综合以上问题,本文构建了一个基于模糊粗糙集和鲸鱼优化算法的支持向量机(FRS-WOA-SVM)故障数据分类模型来对化工系统进行故障诊断。先利用FRS约简掉冗余属性,进行故障特征选择,缩短诊断时间;再通过WOA优化的SVM故障分类模型进行故障分类,提高故障诊断的准确率及效率。

1 FRS故障特征选择

影响故障发生的因素复杂,故障样本数据属性数量众多,样本维数较大,导致数据处理时间长,不利于故障分类。由于故障数据中存在大量的相似属性,而这些相似属性对故障分类的结果影响近似,差别微乎其微,可以通过故障属性约简,即一个主要属性代替与之近似的属性来进行后续数据分类[13]。利用FRS算法对故障数据约简,对故障数据进行故障特征选择,通过进行故障特征选择,得出数据的最小故障特征属性集合[14],可以提升后续故障诊断的速度。

1.1 FRS属性约简算法

对于含糊不完备信息,粗糙集可以仅通过样本数据,不需要任何数据集外的预备先验信息就可以对边界线区域的数据进行描述。通过粗糙集进行属性约简,选择有效的故障特征,可以降低数据维数,减少不必要的条件属性,进而简化计算,降低故障诊断模型的复杂程度。

模糊集和粗糙集都能对数据信息的不确定性进行描述,相对于需要凭专家经验主观决定隶属度的模糊集,粗糙集对数据的描述更具有客观性和说服力,但同样,粗糙集本身的结构化也带来一定的局限性,对含糊的概念描述的过于简单,缺乏处理不确定原始数据的机制。基于模糊依赖度的粗糙集是一种简单、可信度高的属性约简算法,可以将粗糙集与模糊集的优点相结合,通过模糊近似关系对粗糙集的的上、下近似进行研究[15],采用模糊粗糙集做属性约简,来对数据集做更准确的描述。

(1)

上近似隶属函数

(2)

构建CD决策表,x属于模糊正域的隶属度为

μPOSC(D)(x)=supμC(D)(x)

(3)

根据模糊正域,可以得到决策属性D对条件属性C的模糊依赖度

(4)

设条件属性α∈C,则属性α对全部条件属性C的相对重要程度为

(5)

1.2 FRS故障特征选择

故障属性是一种连续的属性,由于FRS的条件属性模糊化,不需要对数据做离散化处理,先利用min-max标准化分别对同一故障属性的数据进行归一化处理。对于第i个属性下的故障数据xi,第k个样本xik归一化的结果为

(6)

式中,xi max和xi min分别为第i个属性故障数据的最大值和最小值。

将故障属性作为FRS的条件属性集C={c1,c2,…,cm},类别标签作为决策属性集D={d1,d2,…,dn},建立故障诊断决策表,将条件属性模糊化为模糊等价类,根据式(4)计算故障属性对故障类别的属性依赖度γC(D)。

根据式(5)计算条件属性的相对重要程度β对故障属性进行约简,设置相对重要程度的阈值,剔除依赖度低的属性,得到最小故障特征集合。

2 WOA-SVM故障分类模型

2.1 WOA优化算法

鲸鱼优化算法通过模拟座头鲸捕猎过程中的社会行为,根据气泡网搜索策略,提炼出一种元启发式算法来解决最优化问题[16]。一些经典的种群算法存在优化过程的随机性问题[17],鲸鱼优化算法提出一种全局优化器,将搜索过程分为探索阶段和开发阶段两个阶段,两者共同作用来解决搜索过程中探索与开发之间的不平衡问题[18]。在探索阶段对猎物先后进行大范围和局部搜索,开发阶段利用气泡网攻击法建立超立方体的收缩包围机制,同时螺旋更新位置,通过自适应变化,保证开发和探索过程间平稳过渡,快速、稳定地寻得最优解。

2.1.1 包围猎物

设当前解X(t)是最佳搜索代理,其他搜索代理向最佳搜索代理X*(t)更新位置

D=|C·X*(t)-X(t)|

(7)

式中,系数向量C=2·r,r为[0,1]间的任意向量。

每一次迭代后更新当前最佳搜索代理

X(t+1)=X*(t)-A·D

(8)

式中,系数向量A=2a·r-a,a在迭代过程中从2~0线性降低。

式(8)允许任何搜索代理在当前最佳邻域内更新位置,搜索代理可以围绕当前最优解所构成的n维超立方体中移动。

2.1.2 气泡网攻击法

开发阶段采用气泡网攻击法,通过收缩包围机制和螺旋更新位置这两方面共同实现。

收缩包围机制通过缩小A=2a·r-a中的a实现,随着a的减小,A的波动范围也随之减小。开发阶段|A|<1,搜索代理的新位置可以是当前位置到最佳搜索代理间的任何位置。

通过计算搜索代理和当前最佳搜索代理间的距离D′模拟鲸鱼做螺旋状运动,螺旋方程为

X(t+1)=D′·ebl·cos(2πl)+X*(t)

(9)

式中:D′=|X*(t)-X(t)|为鲸鱼到猎物的距离;b为定义对数螺旋线形状的常数;l∈[-1,1]。

由于座头鲸同时在收缩圈和螺旋线间游动,这里假设搜索代理采用各占50%的概率选择寻优方式,来更新当前位置。气泡网攻击法的数学模型为

(10)

2.1.3 搜素猎物

探索阶段WOA进行全局寻优,座头鲸根据彼此的位置随机搜索,为避免陷入局部最优,令|A|>1,远离当前搜索代理更新位置

(11)

更新搜索代理

(12)

WOA算法流程图如图1所示。|A|在搜索过程中能自适应变化,保证开发、探索过程的平稳过渡,快速、稳定地寻求最优解。

图1 WOA算法流程图Fig.1 Flow chart of the WOA algorithm

2.2 WOA优化的SVM参数

在实际应用中,大多数故障样本数据是线性不可分的。支持向量机作为机器学习中一种有效且应用广泛的主流分类算法,不仅可以对线性可分的数据进行分类,同时对非线性可分、非线性不可分的数据也具有卓越的分类效果[19]。支持向量机可以根据已知的故障样本数据,平衡学习能力与故障分类模型复杂程度之间的关系,且不需要大量的故障样本数据[20],很适用于对复杂化工系统进行故障分类。

为求解非线性问题,SVM引入了核函数K(xi,x),将低维空间线性不可分的样本映射到高维空间[21],转化成线性可分问题

(13)

径向基函数作为常用的一种核函数,能把原始的特征数据映射到无穷维空间中[22],其表达式为

(14)

对于通过核函数映射到高维后仍然线性不可分的问题,引入了松弛变量ξi来对模型进行调整,并对损失部分加入惩罚项C,来平衡松弛变量对模型造成的负面影响,引入松弛变量后得到的新模型为

s.t.yi(wTxi+b)≥1-ξi,ξi≥0,i=1,2,…,n

(15)

解得

(16)

核函数gamma的参数g和惩罚因子C的参数c对最佳模型的建立影响很大[23],是影响故障分类模型训练精确度的一个重要因素,需通过优化算法对c,g参数进行寻优。

为防止故障分类模型的泛化能力过低,采用十折交叉验证(cross-validation, CV)解决过拟合问题[24]。将数据集分成10份,轮流选择1份作为验证集,其余9份作为训练集对模型进行训练,得出验证集分类的准确率,将10次准确率的均值作为模型最终准确率。

为保证模型达到CV下的最高准确率,先采用网格搜索法(grid search, GS)进行大范围寻优[25],之后对得到的粗略寻优范围利用WOA算法进行精确寻优得到全局最优解。通过新型元启发式WOA算法对SVM的参数进行优化,可以加快c,g参数的寻优速度,缩短故障分类模型建立的时间,提高故障诊断的准确率。

首先通过网格搜索粗略寻优,在大范围内对c,g参数进行搜索。由于GS寻优耗时较长,因此只对参数进行粗略选择,为后续精确寻优提供合适的寻优范围。初始化GS参数,针对c,g参数生成网格采样点,一一遍历所有采样点,若当前组c,g下分类精确度满足精度要求,则更新当前最佳模型,得出粗略寻优的参数范围作为精确寻优搜索范围的上下限。

通过GS得到c,g参数粗略范围后,利用WOA算法在这个范围内继续对c,g进行精确寻优,WOA优化SVM参数的算法流程图如图2所示,具体步骤如下:

图2 WOA优化SVM参数的算法流程图Fig.2 Algorithmic flow char for optimizing SVM parameters by WOA

步骤1初始化WOA-SVM参数。对WOA的相关参数初始化;此外,对WOA优化SVM的相关参数:搜索代理X*(t)维数及数量、最大迭代次数、搜索范围上下限,进行初始化。其中,搜索代理向量X*(t)={c,g},维数设置为2。

步骤2检查位置是否越界。依次检查每个个体位置是否超出搜索范围上下限,调整超出搜索空间边界的搜索代理。

步骤3计算适应度函数。将当前搜索代理位置向量作为c,g参数得到当前SVM模型,将当前模型CV意义下的准确率作为WOA的适应度函数值,对适应度定标。

步骤4更新当前最优解。通过WOA算法对当前搜索代理位置更新,得到全局最佳适应度函数值,更新当前最佳搜索代理。

步骤5计算精确度是否满足终止条件。模型精确度为当前适应度与当前全局最佳适应度的差值,若当前模型精确度满足终止标准公差条件,则将当前模型更新为当前最佳模型。如果当前模型与当前最佳模型性能近似相同,此时比较c的大小,优先选择c较小的模型作为最佳模型以减少计算量。

步骤6输出最优搜索代理X*={bestc, bestg},即为WOA-SVM故障分类模型的最优c,g参数。

3 基于FRS-WOA-SVM的TE过程故障诊断仿真分析

3.1 FRS-WOA-SVM故障诊断模型

FRS-WOA-SVM故障诊断主要由数据采集与预处理、模糊粗糙集故障特征选择、鲸鱼算法优化的支持向量机故障分类模型这三部分构成,结构框图如图3所示。

图3 FRS-WOA-SVM故障诊断框图Fig.3 FRS-WOA-SVM fault diagnosis block diagram

数据采集可分为离线和在线两种方式。离线采集是通过管理员提前录入大量的故障历史数据,根据现有的数据库对当前故障类型做出判断。在线采集目前一般采用DCS分布式控制系统[26],通过DCS实时采集过程数据,即故障属性信息,并存入到实时数据库中。将采集到的原始数据通过清洗除噪及均值法等预处理方式进行转换[27],得到可供后续步骤利用的故障样本数据。由于TE过程仿真系统中包含大量数据集,因此采用离线采集方式获取数据。

通过对被检测系统采集的故障历史数据经过标准化预处理,利用FRS对属性数据约简进行特征选择,再提取得到的最简属性,构建新的最小故障特征属性数据集。将FRS处理得到的数据集送入构建的新型的元启发式WOA优化的SVM分类模型中,最终运行得出故障诊断的结果。

3.2 TE过程数据集的选取

田纳西-伊斯曼(Tennessee Eastman, TE)过程由伊斯曼化学品公司为模拟实际化工过程而创建的仿真系统[28],TE化工过程工艺流程图如图4所示。该系统主要由5个单元模块构成,从左至右依次为反应器、冷凝器、汽提塔、压缩机、汽液分离器[29]。反应过程含八种成分,其中A、B、C、D、E为气体反应物,G、H为液态气体生成物,即最终产品,F为反应过程中生成的副产品。

图4 TE化工过程工艺流程图Fig.4 The flow chart of the TE chemical process

TE过程的训练集由1个正常工况下的数据集和21个预设故障下的数据集构成,每个数据集都包含了480个样本对应的52个观测变量数据。21个预设故障中存在16个不同的已知故障及5个未知故障,其中故障IDV(1)~IDV (7)有关阶跃变化,故障IDV(8)~IDV(12)有关随机变量,故障IDV(13)为缓慢漂移,故障IDV(14)、IDV(15)、IDV(21)与黏滞阀相关,其他为未知故障。52个观测变量包含41个测量变量XMEAS(1)~XMEAS(41)及11个控制变量XMV(1)~XMV(11)。

从四种已知故障类型分别选取故障IDV(1)、IDV(8)、IDV(13)、IDV(14),以及无故障情况这五类进行故障诊断,分别从TE训练集的480个样本中选取前100个样本,组成由500个样本构成的TE样本数据集。由于实际生产工艺测量变量中的成分变量XMEAS(23)~XMEAS(41)对TE过程故障分类的贡献不大[30],所以将这些属性值舍去,只对剩余的33个观测变量进行分析。

为清晰的呈现故障特征选择后的结果,分别对FRS约简前后的属性做可视化分析,TE样本数据集的分维可视化图如图5所示。其中,第1个图为数据的5个类别标签分布,记类别标签为0、1、8、13、14;其余33个图为故障样本各属性分布情况。

图5 约简前TE数据集的分维可视化图Fig.5 Fractal dimension visualization of TE dataset before reduction

3.3 TE过程FRS故障特征选择

对从TE过程数据集选取的500个样本数据进行故障特征选择。对于故障属性集A=C∪D,由33个观测变量组成条件属性集C={c1,c2,…,c33},五种故障类别标签作为决策属性集D={d0,d1,d2,d3,d4},记为{0,1,8,13,14}。其中:d0为无故障情况;d1为有关阶跃变化故障IDV(1);d2为有关随机变量故障IDV(8);d2为缓慢漂移故障IDV(13);d3为与黏滞阀相关故障IDV(14)。根据第2章构建的FRS故障特征选择模型,先分别将33个故障属性的500个故障数据样本数据归一化,计算500个故障数据样本的33个故障属性相对重要程度βi(i=1,2,…,33),设置阈值β=0.8,将相对重要程度βi<0.8的属性剔除,只保留βi>0.8的属性。经过FRS约简后,剩余6个故障属性,组成最小故障特征集合,记为C′={a1,a2,a3,a4,a5,a6}。

根据FRS特征选择得到的TE过程最小故障特征集合C′,剔除TE样本数据集中的冗余属性数据,构建新的数据集,包含500个故障数据样本对应的6个故障属性数据。

对FRS约简后的属性做可视化分析。由图5可见各观测变量的故障属性值呈现连续分布且数量级差异较大,为便于观察约简后的情况,将数据离散化并标准化到1~10,对FRS特征选择得到6个约简属性做可视化分析,约简后的TE数据分维可视化图,如图6所示。

图6 约简后TE数据分维可视化图Fig.6 Fractal dimension visualization of reduced TE dataset

3.4 SVM故障分类模型的参数寻优

对FRS特征选择后构建的TE数据集进行故障分类。先通过网格搜索法进行大范围寻优,确定c,g参数搜索范围上下限,基于GS的SVM参数选择等高线图,如图7所示。根据图7,参数c范围缩小为2-2~28,即0.25~256,参数g范围缩小为2-5~25,即0.03~32。

图7 基于网格搜索法的SVM参数选择等高线图Fig.7 Contour map of SVM parameter selection based on grid search method

通过WOA精确寻优。设最大迭代次数为100,搜索代理数量为20,根据GS寻优得到的粗略范围设定c,g参数搜索范围分别为[0.25,256],[0.03,32]。经过WOA-SVM故障分类模型训练,得到最佳寻优参数为bestc=0.705 5,bestg=1.198 6,即此时模型的最佳适应度得分最高。

为判定模型的性能,选取GA、PSO两种元启发式算法,将其优化的SVM故障分类模型与WOA-SVM故障分类模型进行比较。设定相同的最大迭代次数、c,g参数搜索范围、种群数量,三种优化算法的寻优过程如图8所示。可见,相比于GA、PSO两种优化算法,WOA优化的SVM故障分类模型的最佳适应度得分最高,为99.466 7%,GA、PSO优化的SVM故障分类模型的最佳适应度得分分别为98.666 7%,99.2%;WOA算法寻优速度较快,迭代次数在5代时适应度函数值就可达到最佳,GA、PSO分别在20代、96代时达到最优;且WOA算法相对更稳定,不易陷入局部最优,PSO算法在寻优过程中易陷入局部最优,在4代、30代时都陷入了局部最优解。

图8 WOA和其他元启发式算法寻优过程比较Fig.8 Comparison of optimization process of WOA and other meta-heuristic algorithms

3.5 TE过程故障诊断结果

选取125个样本数据作为测试集,利用训练好的SVM优化模型对TE数据集进行故障分类,三种模型故障诊断结果如图9所示。寻优参数及模型准确率如表1所示,其中WOA-SVM故障分类准确率最高,为88%(110/125),GA-SVM、PSO-SVM故障分类准确率相对较低,分别为86.4%,87.2%。可见WOA优化的故障分类模型在训练精度和测试精度上都可以达到一个较高的水平。

表1 寻优参数及模型准确率比较Tab.1 Comparison of optimization parameters and model accuracy

图9 三种模型故障诊断结果比较Fig.9 Comparison of fault diagnosis results of three models

对于故障诊断时间,利用WOA-SVM故障分类模型分别对经过及未经过故障特征选择的TE数据集进行试验,记录故障诊断所需时间。得到经过FRS属性约简的故障诊断时间为42 s;未经过FRS属性约简的故障诊断时间为74 s。可见利用FRS进行属性约简,能在对故障诊断准确率影响相对较小的情况下缩减故障分类所需时间。

4 结 论

通过TE化工过程对构建的FRS-WOA-SVM故障分类模型进行故障诊断,结果表明该分类模型不仅可以提高故障诊断准确率,还能提高诊断速度,使结果更加准确、稳定,对系统做出诊断,保证化工过程的安全运行。

针对化工过程复杂,故障属性多,影响故障诊断的速度的问题,FRS通过模糊相似关系对粗糙集进行优化,可以避免数据过于结构化,对数据集做更准确的描述,得到更加准确的约简属性。通过TE过程试验可见,FRS可以保证对故障诊断准确率影响较小的情况下,缩减诊断所需时间,提高诊断效率。

对于传统的SVM故障分类模型虽然可以通过少量样本对系统做出故障诊断,但随着故障类型和样本属性的增多,分类模型的寻优精度也会随之降低。新型的元启发式算法WOA根据气泡网搜索策略螺旋更新位置,建立超立方体的收缩包围机制,在搜索过程自适应变化,通过WOA对SVM的c,g参数进行全局优化,可以快速、稳定地寻求最优解。通过对约简后的TE过程数据进行试验表明,WOA-SVM故障分类模型相比于GA、PSO算法优化的SVM分类模型,寻优速度更快,故障诊断准确率更高。整体上而言,通过模糊粗糙集和鲸鱼优化支持向量机进行故障诊断具有一定的优越性,在化工过程故障诊断中在准确率及速度上都达到了很好的一个效果。

猜你喜欢
约简故障诊断分类
基于包络解调原理的低转速滚动轴承故障诊断
分类算一算
基于0-1规划的最小属性约简算法
面向特定类的三支概率属性约简算法
直觉模糊序决策系统的部分一致约简*
数控机床电气系统的故障诊断与维修
近似边界精度信息熵的属性约简
教你一招:数的分类
说说分类那些事
基于量子万有引力搜索的SVM自驾故障诊断