马 亮 彭开香 董 洁
随着工业化和信息化的深度融合,现代工业过程(如钢铁、有色、石化等)正朝着高效、智能、集成化方向发展.上述工业过程的连续不间断运行使得任一单元或子系统发生故障都可能会通过物质流、能量流、信息流在不同系统层级间传播并演变演化,影响生产过程的稳定运行和最终的产品质量.其原料成分、运行工况和关键质量指标等无法在线测量或智能感知,使得工业过程故障诊断成为一个综合而又复杂的问题.因此,围绕实现制造强国的战略目标,通过合理的故障诊断技术保障工业过程的高质、高效运行成为国家制造业可持续发展中的一项重要内容,将对抑制产品质量下降、最大限度发挥流程运行潜力具有重要的战略意义,已经成为当前工业过程控制领域的研究热点,具有重要的理论价值和广阔的工程应用前景[1–4].
故障诊断技术主要是针对已发生的故障进行辨识、隔离、根源诊断与传播路径识别.即首先判断故障是否发生,然后确定故障相关变量、大小及类型,最后定位故障的根源并识别故障的传播路径,从而为现场运行人员快速作出维护决策提供信息支撑[5–8].作为故障诊断领域的重要方向,研究故障根源诊断与传播路径识别技术具有重要的理论和工程意义,将为现场运行人员准确定位故障根源、清晰识别故障传播路径、快速作出补救措施提供参考信息[9–11].
为实现上述目标,国内外研究学者发表和出版了大量的学术论文及著作.图1 列出了2010 年1 月1 日至2019 年12 月31 日期间Web of Science 数据库搜索主题词“Root cause diagnosis”、“Root cause analysis”、“Propagation path identification”以及“Propagation path analysis”得到的统计结果.可以看出该领域的研究热度持续增长,发表论文数量逐年递增,其中不乏IEEE 会刊及过程控制领域顶级期刊.主要研究方向包括基于知识、数据以及知识与数据联合驱动的方法.基于知识的方法是通过己知的过程知识,如工艺管道和仪表流程图(Piping &Instrument diagram,P &ID)、专家经验、机理模型等,分析并挖掘工业过程中存在的关联和因果信息构建过程拓扑模型,实现故障根源诊断与传播路径识别.基于数据的方法是通过历史数据挖掘工业过程变量之间的关联信息构建因果拓扑模型,实现故障根源诊断与传播路径识别.从图2的统计结果可以看出,基于数据的方法是近10 年来发表论文最多的领域.然而,在工程实践中,单纯的基于知识或基于数据的方法不能获得较完备的效果,且效率和准确性均有待提高,由此产生了一些知识与数据联合驱动的方法.从图3 的统计结果可以看出,知识与数据联合驱动的方法是近5 年的研究热点.
图1 近10 年论文数量统计图Fig.1 Statistical graph of quantity of papers in recent ten years
图2 近10 年三类方法的论文数量分析图Fig.2 Statistical graph of quantity of papers with three methods in recent ten years
图3 近5 年三类方法的论文数量分析图Fig.3 Statistical graph of quantity of papers with three methods in recent five years
基于此,本文针对工业过程故障根源诊断与传播路径识别技术的现有研究成果进行综述,对已有方法进行分类概述,给出相关方法的实现途径.最后进行总结,并探讨该领域亟待解决的问题以及未来可能的研究方向.
基于知识的方法是用定性思想分析和表征工业过程中各单元、子系统、环节等之间的关联和因果关系,并以此来判断和推演故障的产生及其传播方式,实现故障根源诊断与传播路径识别[12–13].主要包括符号有向图(Singed directed graph,SDG)[14–15]、邻接矩阵[16–17]、故障树(Fault tree,FT)[18]、多级流模型(Multilevel flow models,MFM)[19]、Petri 网[20]等方法,已广泛应用于化工、航空、工程机械等领域.上述方法在实际应用中的优势和劣势对比情况如表1 所示.本节将梳理上述方法的建模思想、模型组成元素及表现形式,并概括其研究进展情况.
表1 基于知识的故障根源诊断与传播路径识别方法对比Table 1 Comparisons of knowledge based root cause diagnosis and propagation path identification methods
SDG 方法将故障传播过程模型化,采用节点和有向边分别表示变量及变量之间存在的潜在定性因果关系,可定义为G{g,φ,φ},其中,g为节点集合,φ为支路集合,φ为节点之间的影响关系函数.图4 所示为双容水箱控制系统示意图,共由8 个控制回路组成,利用节点编号1~8 分别表示控制器FC2、TC1、FC1、LC1、FC4、TC2、FC3、LC2.利用工艺知识分析各控制器之间的相互作用关系,可得到节点集合、支路集合及影响关系函数,从而构建其SDG 如图5 所示.该图清晰地反映了各控制回路之间的因果关系,建模简单、结果易于理解、分析完备性强.当该控制系统正常运行时,SDG 中的节点都处于正常状态;系统发生故障时,故障节点的状态将会偏离正常值,根据SDG 中变化的因果关系,结合相关搜索方法分析故障可能的传播路径,从而诊断故障根源,并得到故障的演变过程.但是,针对定性信息缺乏的工业系统,采用该方法时易产生虚假和冗余解,导致诊断效率低、分析完备性差等问题.针对上述问题,一些学者在SDG 的节点上引入定量信息,对故障根源发生的概率合理排序,为检修人员提供准确的保养与维护顺序,提高了根源诊断的准确性[21–22].
图4 双容水箱控制系统示意图Fig.4 Schematic diagram of two-tank control systems
图5 双容水箱控制回路符号有向图Fig.5 Singed directed graph of two-tank control loops
邻接矩阵方法通过计算变量间的余弦相似度、偏相关系数等相关性指标来量化工业过程变量间相关性的强弱,通过合理设计阈值构建邻接矩阵,从而构建因果拓扑模型,实现故障根源诊断与传播路径识别.该类方法直观形象、原理简单、诊断效率高,但缺少节点间的间接关联关系信息,一定程度上影响了诊断的准确性.同时,在构建邻接矩阵时,需要所有节点和支路信息,工作量巨大.所以,有必要在构建邻接矩阵前,利用相关算法筛选故障源候选节点,减少邻接矩阵构建的工作量,从而提高诊断准确性.
FT 分析法是在充分调研工业系统故障的直接和间接原因的基础上,通过构建事件之间的逻辑关系,用最小割集和最小路集等算法描述系统故障的所有组合情况,并从系统的故障状态出发,逐级进行推理分析,确定故障发生的根本原因、影响程度和发生概率,实现故障根源诊断与传播路径识别.然而,随着系统的复杂度不断提高,其故障模式与机理愈加复杂,加之异常工况的多重不确定性,使得传统的FT 分析法经历了从二态到多态、从静态到动态的转变过程.针对上述问题,一些学者将传统FT 分析法与其他方法相结合,提出了动态FT[23]、时间FT[24]、空间FT[25]等方法,很好地解决了传统FT 分析法不适用于分析动态随机故障和时序相关故障等问题.
MFM 方法是一种基于目标的层次化建模方法,其对真实的物理系统从物质流、能量流、信息流的角度进行抽象,通过使用一些特定的图形符号来描述系统过程的目标、功能以及设备元件,从而对生产过程进行建模.该类方法语义符号简单、诊断规则一致、运行速度较快,可用较少的模型元素描述比较复杂的系统,且目标与功能之间的关系表达清晰直观,广泛应用于油气集输与医疗系统故障诊断中.然而,该方法是一种系统级的诊断方法,其利用工业过程系统中设备元件间的关系实现根源诊断,对于工业过程设备元件内具体零部件的诊断,需与其他方法相结合,实现联合故障分析与诊断.同时,其是一种模型的诊断方法,可用少量功能节点实现工业过程系统抽象,但随着系统越加复杂,利用少量功能节点抽象难度增大.所以,有必要基于经典的MFM 方法,研究更深入的建模策略,实现深入准确、可靠性高的根源诊断与传播路径识别.
Petri 网通过严格的数学表述和直观的图形表达方式,适用于离散事件系统的知识表示和逻辑推理,成功应用于电网及机电系统的故障诊断中.但是该类方法的建模和分析高度依赖系统机理,对于控制回路和变量繁多的工业过程,利用构建好的网络反向推理实现根源诊断难度较大.同时,工业过程中故障和征兆信息的随机性、故障传播的时序相关特性等,使得传统的Petri 网模型难以满足实际工程应用需求.基于此,一些学者在传统Petri 网的基础上,提出了加权模糊Petri 网[26]、随机Petri 网[27]、CRPN (Case-based reasoning Petri nets)[28]等方法,有效地解决了该类方法的模型难以构建、推理过程模糊、随机不确定条件下的故障诊断等问题.
上述基于知识的方法是通过过程知识和专家数据库建立的,对于缺乏先验知识的工业过程实施难度较大.同时,这些方法较少涉及实时数据的统计信息,难以判断变量间因果关系的强弱,很难适应工业过程的动态变化.因此,有必要将上述经典方法与其他诊断方法相结合,研究集成智能的根源诊断与传播路径识别方法,以满足工业过程实时诊断的需求.
基于数据的方法是通过历史数据挖掘工业过程变量之间的关联信息构建因果拓扑图,实现故障根源诊断与传播路径识别.由于该类方法较少涉及机理与过程知识,受限程度低、易于实现,受到国内外学者的广泛青睐.主要包括互相关分析(Cross-correlation analysis,CCA)、格兰杰因果关系(Granger causality,GC)分析、传递熵(Transfer entropy,TE)、K 近邻(K nearest neighbors,KNN)、贝叶斯网络(Bayesian network,BN)等.上述方法在实际应用中的优势和劣势对比情况如表2 所示.本节将梳理上述方法的基本思想,并阐述各种方法的研究进展及面临的科学问题.
表2 基于数据的故障根源诊断与传播路径识别方法对比Table 2 Comparisons of data based root cause diagnosis and propagation path identification methods
CCA 方法通过分析工业过程变量时间序列间的时滞和关联信息推断因果关系,结合显著性检验和因果假设,构建因果拓扑图,实现故障根源诊断与传播路径识别[29−30].
假设xi和xj为某工业过程中的两个变量,定义两者之间互相关函数的最大值和最小值分别为φmax和φmin,两者对应的时延常数分别为kmax和kmin,则xi和xj之间的时滞λi,j为:
通常情况下,式 (1) 用于判别故障传播方向.若λi,j >0,则表明传播方向为xixj;反之,传播方向为xjxi.
xi和xj之间的关联系数ρi,j表示为:
其反映了两者之间的关联关系.
若ρi,j >0,则表示两变量呈正相关关系;反之,则呈负相关关系.在此基础上,通过设计合理的方向性测度和阈值,判别显著性因果关系,从而生成因果关系矩阵和关联系数矩阵,构建因果拓扑图.
CCA 方法为判别时间序列因果关系提供了一种实用有效的途径.但是,该方法本质上是一种线性分析方法,无法准确地描述工业过程时间序列间的非线性相关关系.同时,该方法适用于分析平稳时间序列间的相关性,不适用于分析均值或协方差随着时间推移而变化的非平稳时间序列.更为重要的是,该方法是成对比较检验,无法判断直接及间接因果关系,很难应用于高维度、强耦合的工业过程故障根源诊断与传播路径识别.
GC 分析法是通过多元线性回归(Multiple linear regression,MLR)等技术挖掘工业过程变量时间序列数字特征间的领先滞后关系,构建因果拓扑图,实现故障根源诊断与传播路径识别[31–33].
假设xt和yt为某工业过程中的两个广义平稳时间序列,则有如下的互回归无约束形式:
式中,Axy,k表示yt−k对xt的影响,Ayx,k表示xt−k对yt的影响,p为模型阶次,ex,t和ey,t为残差.
基于式 (3)、式 (4),Granger 定义的y(t) 对x(t)的因果关系测度为:
若Fy→x >0,则表明y对x存在因果关系.同理,可判别x对y是否存在因果关系.进一步地,可根据上述形式推广至多维时间序列.
基于GC 分析法,面向工业过程故障根源诊断与传播路径识别中的关键与挑战性问题,国内外学者开展了大量研究,主要包括以下两方面.
1)针对非平稳与非线性因果关系分析问题,文献[34−35] 先后将动态时间规整(Dynamic time warping,DTW)、神经网络(Neural network,NN)等方法与GC 分析相结合,通过分析故障发生后的非平稳或非正态分布时间序列间的因果关系,构建因果关系矩阵并设计因果拓扑图,实现了故障根源诊断与传播路径识别;文献[36−38]面向线性GC分析法可能出现虚假回归等问题,先后将核技术、高斯过程回归(Gaussian process regression,GPR)等方法与GC 分析相结合,构建因果拓扑图,为非平稳与非线性时间序列因果关系分析提供了新途径;文献[39]针对工况复杂多变、边界条件模糊的间歇过程故障根源诊断问题,将核熵成分分析(Kernel entropy component analysis,KECA)与GC分析相结合,构建了新的故障检测与根源诊断框架,为间歇过程故障根源诊断提供了新思路.
2) 针对故障早期幅值较低、特征不明显等特性,文献[40−42]先后将主元分析(Principal component analysis,PCA)与多变量GC (Multivariate GC,MVGC)分析等方法相结合,应用于液化天然气分馏、污水处理等过程的早期故障检测、根源诊断与传播路径识别中,取得了良好的效果,为工业过程潜伏性故障诊断提供了可行方案;文献[43−45]先后将频域与时域因果关系分析方法相结合,在特征选择的基础上,挖掘过程变量时间序列间的关联关系,通过设计合理的因果关系矩阵,实现了故障根源诊断与传播路径识别.
如:审计中还发现,少数承担单位利用自身科研资源和优势,与有同样相关实力或者资源的合作单位之间相互开具测试费发票,相互支付测试费,实为截留经费,变纵向为横向,将资金从单位项目组管理,变相的操作成个人或者实验室经费收入,从而逃避经费使用管理规定[4]。
可以看出,基于GC 分析的故障根源诊断与传播路径识别方法经历了从简单到复杂、从需要诸多假设条件到不断符合实际工程需求的发展过程.有必要进一步充分考虑工艺数据的多粒度、冗余、缺失及不同批次同一过程运行轨迹不完全一致等问题,提升该方法的实时性和适应性,从而提高故障根源诊断与传播路径识别的效率和准确性,是工程需求驱动的亟待深入研究的重要课题.
TE 是一种基于信息论的非对称式测量方法.其能够将信号复杂程度变化与信息传递统一量化,描述由于信息流动所产生的方向性动态信息,通过计算条件概率函数和设计合理的方向性测度,构建因果关系矩阵,实现故障根源诊断与传播路径识别[46–48].
若Ty→x >0,则表明y为因变量,x为果变量;反之,x为因变量,y为果变量.进一步地,可根据上述形式推广至多维时间序列.
当x与y为联合高斯分布时,Fy→x与Ty→x之间满足如下等价关系:
式中,Σ(·) 为协方差.通过式 (7)可以看出,在高斯条件下,GC 与TE 是等价的[51−52].
在满足时间序列平稳且具有足够多采样数据的前提下,TE 方法能够分析线性和非线性时间序列间的因果关系,取得良好的效果[53].然而,联合概率分布函数的计算复杂度较高,影响了因果拓扑图的构建效率.为解决该问题,文献[54]基于时间序列符号化思想,考虑信号振荡周期等相关信息,提出了符号TE (Symbolic TE,STE) 方法.该方法降低了噪声干扰和计算量,具有较强的鲁棒性,实用价值较高.同时,针对TE 方法无法区分直接及间接因果关系等问题,文献[55]在传统TE 方法中合理引入中间变量,提出了直接TE (Direct TE,DTE)方法.该方法移除了间接因果关系,提高了因果拓扑图构建的准确性.此外,针对传统TE 方法分析因果关系时时间序列需具有平稳性等问题,文献[56]提出了传递零熵(Transfer zero-entropy,T0E)和直接T0E 方法,为具有非线性和非平稳特征的时间序列因果关系分析提供了新途径.
基于上述TE 及其扩展模型的方法,针对工业过程故障根源诊断与传播路径识别中的核心问题,国内外学者展开了深入研究,主要包括以下两方面.
1)为分析工业过程报警信号之间的因果关系,文献[57]提出一种基于TE 的二进制报警时间序列因果关系检测方法;在此基础上,文献[58] 充分考虑了工业过程故障报警时传感器测量易出现随机延迟和变量间相关关系相互独立等问题,提出一种基于标准化TE 和DTE 的二进制报警时间序列因果关系分析方法;文献[59]将时间序列符号化与TE等方法有效结合,提出一种标准化TE 的非线性过程故障根源诊断方法.
2)为提高工业过程拓扑关联特征的挖掘效率,文献[60−61]先后在故障检测结果的基础上,通过广义重构贡献图等方法设计筛选标准,构建故障根源变量目标候选集,利用TE、DTE 等方法分析候选集中变量间的因果关系,构建了因果拓扑图,实现了具有动态和多工况特性的热轧过程质量相关故障根源诊断;文献[62]在时间序列预处理的基础上,通过自相关函数法检测振荡,利用TE 方法实现了丁二烯生产过程的故障传播路径识别;文献[63]通过贡献图法筛选潜在的故障根源变量,将TE、STE、DTE 方法有效结合,提出了故障根源自主诊断方法.
TE 方法在非线性过程故障根源诊断与传播路径识别中取得了良好的效果,一定程度上抑制了故障传播,提高了生产效率,减少了经济损失.但是,大多数TE 方法并未深入挖掘工业过程故障信号的内在特征,因此有必要在构建因果拓扑图之前,采用先进信号处理方法[64−65]对故障时间序列进行分析,判别时间序列类型,以及时采取处理措施.同时,上述方法中蕴含的联合概率分布函数计算量较大,影响因果拓扑图的构建效率,有必要进一步研究故障根源变量目标候选集筛选方法,提高因果关系分析效率,为现场运行人员作出快速决策提供及时的参考信息.
KNN 方法通过样本与其近邻的距离度量样本之间的差异,分析工业过程变量间的因果关系,实现故障根源诊断与传播路径识别[66−67].
假设xi和yi分别为某工业过程变量x和y的任意两个采样点,所对应的最近邻向量分别为ri,j和si,j,i,j1,···,K,ij,则y对x的预测性能可通过如下距离测度衡量:
式中,xi+h和xsi,j+h分别为xi和yi的预测值.
x的自预测性能可通过如下距离测度衡量:
进一步推广可得:
基于式 (10),构建方向性测度:
若Hx→y >0,则表明x为因变量,y为果变量;反之,y为因变量,x为果变量.
与GC 分析和TE 方法相比,KNN 方法计算量较小,在非线性因果关系分析中取得了良好效果.如文献[68] 将时延估计与KNN 方法有效结合,无需参数调节和模型假设,提出了一种氢化裂解过程故障根源诊断与传播路径识别方法,为化工过程故障诊断提供了新思路;文献[69]将加权思想与KNN方法结合,重构使控制指标减小最大的过程变量,提出了一种故障变量识别方法;文献[70]考虑了信号采集过程中的瞬变扰动特性,将KNN 与自适应方法结合,为非线性时间序列因果关系分析提供了新思路;文献[71] 在原始空间中根据测量样本与近邻之间的累计距离,基于KNN 思想定义了新的贡献指标,避免了故障污染问题,提出了一种多传感器故障根源诊断方法;文献[72]充分考虑了间接因果关系对因果拓扑图构建效果的影响,将KNN 方法与过程连接信息结合,应用于造纸过程故障传播路径分析中,为快速作出维护决策提供了重要信息.
基于KNN 的方法利用样本向量的几何空间距离关系进行因果关系分析,在工业过程故障根源诊断与传播路径识别中取得了良好的效果.然而,实际工业过程是一个动态过程,测量变量时间序列间存在复杂的自相关和互相关关系,给KNN 方法的推广和应用提出了新挑战.有必要基于KNN 方法处理复杂工况的优势,结合相关时间序列分析技术,提出更加全面、可靠的诊断方法,对于保障工业过程的安全稳定运行具有重要的现实意义.同时,实际工业过程故障样本的数量通常极其稀少,而生产顺行时,大量的正常测量样本被记录并存储.因此,如何利用不平衡数据,构建可靠、能够表征故障数据分布的KNN 模型是一个极具挑战的课题.
BN 方法通过条件概率学习和推理工业过程变量节点之间的因果关系和条件相关性,构建有向无环图,实现故障根源诊断与传播路径识别[73−74].
假设x{x1,···,xN} 为某工业过程中的随机变量集合,Θ{θxi,pai}为节点的概率分布,pai为节点xi的父节点,则BN 代表的联合概率分布可表示为:
其结构由如下条件独立性确定:
BN 可以融合工业过程的多源信息,能够将故障诊断等相关信息融入网络结构构建中,实现故障根源诊断与传播路径识别.然而,在实际工程实践中,该方法很难适应工业过程的动态变化.基于此,在隐马尔科夫模型(Hidden Markov model,HMM)和传统BN 的基础上,动态BN (Dynamic BN,DBN)应运而生[75−76].DBN 是动态系统概率关系的一种压缩表示形式,由初始网络和转移网络构成,能够灵活描述工业过程的随机特性和变量间的非线性关系.
若转移网络Bs对所有时间点 0,···,t定义从t −1时刻到t时刻变量集的转移概率为PBs(Xt|Xt−1),则在X上的联合概率分布可表示为:
BN 和DBN 方法以其在表示和分析不确定性问题等方面的优势,得到了故障根源诊断与传播路径识别领域的广泛关注和认可,主要体现在以下几方面.
1)基于BN 方法,文献[77]将其与统计相关性分析法相结合,应用于连续加工过程工况异常变化的根源诊断中;文献[78]通过分析过程控制图表信息和潜在根源变量间的因果关系,合理设计网络节点,提出了基于BN 的故障根源分析方法;文献[79]参考关联矩阵的分解结果,降低了基于数据的BN结构搜索学习的复杂度,提出基于概率图形化网络的工业过程故障根源诊断方法;文献[80]充分考虑了网络节点确定、条件概率估计、循环回路处理等问题,提出基于核PCA (Kernel PCA,KPCA)和BN 的故障根源诊断方法.在此基础上,文献[81]结合TE 和BN 结构中的“家族”概念,提出了家族TE方法,用于评价过程变量与其父节点之间的因果关系强度,实现了工业过程报警溯源分析;文献[82]在无需数据离散化和高斯假设的情况下,利用KDE方法计算BN 构建过程中的概率密度函数,实现了故障检测和根源诊断;文献[83]针对全局建模可能忽略过程局部信息、监测与诊断模型复杂度高、解释性差等问题,提出了基于BN 的层次化建模方法,为工业过程故障根源诊断提供了新思路.
2)基于DBN 方法,文献[76]通过构建Bayesian概率贡献指标,提出了基于DBN 的故障检测、根源诊断与传播路径识别方法;文献[84]为降低BN 结构搜索空间的大小,结合危险与可操作性分析,提出了基于DBN 的故障传播行为分析和根源诊断方法,为石化过程设备异常诊断奠定了基础;文献[85]将DBN 与模糊认知图相结合,为故障根源诊断过程可视化提供了可行方案;文献[86]通过构建动态Bayesian 异常指标,利用平滑推理技术,实现了基于DBN 的故障检测与传播路径识别.
基于BN 和DBN 的方法在故障根源诊断与传播路径识别中取得了良好的效果.然而,该类方法需要充足的历史数据才能建立完整、准确的因果拓扑模型,对数据依赖性较大.同时,该类方法是一种离线建模与学习方法,需要假设被诊断系统在一定时间范围内相对稳定.因此,如何应对系统的动态运行和外界工况的变化,实现网络结构和参数的快速学习和更新是亟待深入研究的重要方向.此外,初始网络结构的学习过多依赖过程知识,应充分挖掘历史数据价值,获得更优的初始网络结构,提升网络构建的准确性,也是值得深入研究的方向.
上述基于数据的方法在较少的先验知识情况下能够为现场运行人员提供故障区域信息,受限程度较低、易于实现,更适用于没有(或很少)故障知识情况下的根源诊断与传播路径识别.然而,大多数基于数据的方法计算相对繁琐、复杂度较高,可能会导致过多的冗余连接,且因果关系分析的效率和准确性均有待提高.因此,有必要在故障检测与辨识结果的基础上,充分考虑故障后时间序列的非平稳性和工业过程的复杂工况特性,研究新的根源诊断与传播路径识别方法,具有重要的理论和工程意义.
工业生产过程包括自上而下的纵向层级,也包括前后衔接紧密的不同生产工序,其内在的机理知识和运行数据也同样具有分层跨域的对应关系.以热轧生产过程为例,综合自动化系统示意图如图6所示.其生产流程主要由加热、粗轧、飞剪、精轧等多个生产工序构成,从原材料到最终产品形成一个以串联结构为主体的产品加工长流程;同时,其相应的综合自动化系统层级明显,主要包括设备层、实时控制层、过程控制层及制造执行层等,各系统层级分工明确且相互协作关联;另外,定制化生产使其品种及规格呈现多样性,加之原料的不确定性,以及设备状态、外界环境、过程工艺等的不同使其生产工况复杂多变.这种“三个维度(全流程、多层级、多工况)”制造过程使得系统的安全性、稳定性分析复杂多变,无论哪一个维度异常均会导致故障立体传播甚至演变演化,影响企业经济效益,甚至会造成生命财产损失、生态环境破坏等更为严重的后果.因此,故障根源诊断与传播路径识别作为提高企业生产效益的关键技术,在工业生产活动中的重要性日益凸显,并被各工业企业视为生产过程中的核心环节.
图6 热轧过程综合自动化系统示意图Fig.6 Schematic layout of integrated automation system for hot rolling process
上述“三个维度”下的工业过程故障根源诊断与传播路径识别使得传统单纯的基于知识或数据的方法难以满足实际的工程需求,面临着新的挑战.有必要从过程运行内部状态、外在表现、历史经验三个方面,将能够反映生产过程本质的机理知识、体现生产操作与过程内在关联的经验知识、过程数据等多源动态信息有效结合,研究基于知识与数据联合驱动的故障根源诊断与传播路径识别方法,对于提高工业过程的安全保障能力具有重要意义,是实现工业生产高效化、绿色化发展的新兴方向和必然趋势[87–93].近几年来,数据存储和知识发现技术的飞速发展使得该方向的研究掀起了热潮,主要体现在以下几方面.
1)在基于知识与数据联合驱动的因果关系建模方面,文献[94]综合利用可扩展标记语言(eXtensible markup language,XML)、过程连接信息和历史数据定性和定量地分析了工业过程变量间的因果关系,为基于知识与数据联合驱动方法的研究奠定了基础;文献[95]基于过程知识建立SDG 模型,并利用时延互信息和TE 方法对该定性模型进行验证,提出了一种定性和定量信息相融合的方法;在此基础上,文献[96]通过合并流程图中的有价值信息减少虚假预测,以提高基于数据的因果关系分析的准确性和可靠性,并利用可达矩阵和邻接矩阵思想消除间接因果关系的影响,实现工业过程的层次化因果关系建模.上述研究成果面向过程关联特征复杂的工业过程,利用知识与数据联合驱动的方法实现了过程关联特征的挖掘.然而,面向高度集成、变量众多的工业过程,利用上述因果关系建模方法实现故障根源诊断与传播路径识别相对繁琐、可视化效果较差.基于此,文献[97]将过程知识与偏相关性分析方法相结合,依据浅层过程知识进行分块,根据解释结构模型分层原理进行分层,构建了多维过程拓扑模型,为基于知识与数据联合驱动的因果关系建模提供了新思想.
2)在基于知识与数据联合驱动的故障根源诊断方面,文献[98]依赖过程连接信息、专家经验和历史数据,将基于重构的多变量贡献分析和模糊SDG 有效结合,分析了过程变量之间的因果关系和异常传播方向,为基于知识与数据联合驱动的故障根源诊断方法的研究奠定了基础.然而,该方法利用的是正常工况数据建模,没有考虑异常工况下的数据特征,一定程度上影响了因果关系建模的准确性.基于此,文献[99]考虑了异常工况数据的稀疏和低价值密度等问题,将先验知识与历史数据相结合,实现了控制回路异常诊断;文献[100]将知识与数据联合驱动的稀疏监控方法与两级偏差度图方法相结合,揭示了变量间的关联关系,去除了变量间的冗余干扰,实现了化工过程的故障检测和根源诊断;文献[101]充分考虑了动态过程故障的时变特性,将HMM 与BN 有效结合,提出了一种动态过程故障根源诊断方法.上述方法能够准确地衡量工业过程变量间因果关系的强弱,却易造成模型的整体最优性差等问题.针对该问题,文献[102]将知识与TE 方法有效结合,制定了模块化划分方案,设计了变量筛选原则,提升了学习效率和模型结构的精确度.针对集中式诊断方案很难有效适用于规模庞大、非线性、不确定性的复杂工程问题,文献[103]将极限学习机和数据分析方法有效融合,实现了分布式监测和报警根源诊断;文献[104]将偏最小二乘法和模块化贡献分析方法结合,提出了分布式报警根源分析可视化方法,为故障根源诊断与传播路径识别过程可视化提供了可行方案.
3)在基于知识与数据联合驱动的故障传播路径识别方面,文献[105−106]先后结合机理知识和过程数据,将GC 分析、TE 及KNN 方法与过程连接信息融合,分析了化工与造纸过程的故障传播路径;文献[107]面向工业过程变量间的非线性关系,将非参数乘法回归与过程连接信息有效结合,提出了一种基于混合因果关系分析的传播路径识别方法.上述方法为基于知识与数据联合驱动的故障传播路径识别方法的研究奠定了基础.然而,随着工业过程网络节点数目的增加,网络结构种类呈指数级增长,使得上述整体建模方法构建效率低,影响故障传播路径识别的效果,无法为现场运行人员提供及时的参考信息.基于此,文献[108]针对基于数据提取的因果拓扑图可能存在较多的冗余连接,而基于知识的方法可能存在重要信息缺失等问题,提出了基于分块BN 的质量相关故障传播路径识别方法,提高了传播路径识别效率,为现场操作人员精准定位故障根源、清晰识别故障传播路径提供了信息支撑.
4)在基于知识与数据联合驱动的复合故障根源诊断方面,文献[109−110]充分考虑了故障的传播与耦合特性,构建了自顶向下的质量相关复合故障层次化诊断框架,先后利用张量子空间判别分析和鲁棒稀疏指数判别分析等方法,实现了热轧过程复合故障根源诊断,为工业过程全流程质量异常的分布式诊断提供了可借鉴思路.有必要进一步围绕工业过程强噪声下复合故障信号微弱、难获取以及复合故障特征可分性弱、难追溯等共性难点问题深入研究,完善工业过程复合故障诊断理论与方法,突破其关键科学问题,具有重要的理论与工程意义.
从已取得的研究成果来看,该类方法的研究尚处于起步阶段,两者之间的相关性理论、融合方法等方面的研究还不够完善,更缺乏质量、安全等关键性能指标引导下的工业过程故障根源诊断与传播路径识别方法的研究.同时,当前大多数方法是通过过程知识和实时控制层的历史数据分析变量间的因果关系构建因果拓扑图,在故障发生时通过全局搜索策略识别故障传播路径,缺少将综合自动化系统层级信息、根源诊断与故障检测结果相结合,从因果逻辑角度追溯故障的传播过程,影响了根源诊断与传播路径识别的效率和准确性.因此,有必要进一步深入研究基于知识与数据联合驱动的方法,充分融合系统层级信息,挖掘工业过程故障在子系统之间和子系统内部的因果逻辑关系,在故障发生时及早诊断、推理出故障的根本原因,对于保障工业过程的安全稳定运行具有重要的科学意义.
本文对工业过程故障根源诊断与传播路径识别技术的国内外研究现状进行了综述,对相关的研究成果进行了分类梳理,并对其发展动态进行了评述分析.与传统故障诊断方法的研究状况相比,故障根源诊断与传播路径识别技术的研究还处于初步探索阶段,现有方法大多是单一基于知识或数据的方法,且其中大多数方法是针对某一特定工况或应用对象下的生产工序,缺乏面向全工业流程的、较为系统性的研究.因此,有必要进一步了解工业过程的实际工况,深入挖掘工业生产中的物质流、能量流、信息流及其耦合机理,在已有研究成果的基础上,研究新的故障根源诊断与传播路径识别方法,必将成为未来过程控制领域的热点研究课题.具体可以从以下几个方向开展研究工作.
1)“三个维度”视角下的工业过程故障根源诊断与传播路径识别.
工业过程由众多生产环节构成且相互耦合关联,物质流在能量流的驱动和作用下,按照设定的程序,沿着特定的流程网络动态、有序运行;其综合自动化系统层级明显,各层级分工明确且相互协作关联,每一层级故障均有可能导致全流程异常.同时,定制化生产使其品种及规格呈现多样性,加之原料的不确定性以及设备状态、外界环境、工艺等的不同使其生产工况复杂多变.因此,有必要从工业过程全流程、多层级、多工况深度解析出发,全面智能解析并运用工艺参数与关键性能指标之间的内在关系与变化规律,综合考虑实时控制层、过程控制层、制造执行层等系统层级信息以及工业过程的工况复杂多变等特性,研究“三个维度”视角下的故障根源诊断与传播路径识别方法,具有重要的理论意义和实用价值.
可以从以下几个挑战性问题展开研究:a)基于共性与特性分析的工业过程多工况模式划分与识别;b)融合系统层级信息的工业过程多维度分布式建模;c)融合系统层级信息的工业过程层次化故障传播网络构建;d)变工况下的工业过程故障传播路径精细化识别;e)层次化的工业过程故障根源诊断与可视化等.
2)基于制造大数据分析与因果关系挖掘的工业过程质量精准追溯.
工业过程机理复杂、流程长、工序内多变量耦合、工序间质量遗传、系统层级与质量相关指标多等特性,使得传统的故障诊断方法难以实现有效的质量追溯.有必要研究涵盖产品设计数据、工艺信息、生产制造过程数据、产品检测数据等方面的质量大数据分析与因果关系挖掘方法,形成制造企业跨时空尺度数据耦合与分析机制,实现工业过程质量精准追溯,是迫切需要解决的挑战性问题.
可以从以下几个挑战性问题展开研究:a)制造企业全生命周期大数据时序关联分析与因果关系挖掘;b)场景驱动的全类型制造大数据多尺度智能建模;c)面向多维强关联、时序高通量、跨时空强机理、多模态强干扰制造大数据的可视化分析;d)制造企业跨时空尺度大数据耦合分析与挖掘;e)基于因果关系挖掘的工业过程质量精准追溯等.
3)面向传播、耦合、多重并发特性的工业过程复合故障分布式诊断.
引起工业过程故障的原因是多方面的,可能是生产调度信息、工艺或控制回路设定不当造成的,也可能是外界不确定干扰等因素造成的,与过程故障及征兆间没有明确的对应关系.加之强噪声环境下故障幅值较低、特征不明显以及故障之间存在传播、耦合、多重并发等原因,使得复合故障诊断问题的研究具有挑战性.因此,有必要结合全流程及子系统的复合故障检测结果,深入研究自上而下的复合故障层次化诊断方法,对于保证工业过程的安全性和稳定性具有重要的理论与工程意义.
可以从以下几个挑战性问题展开研究:a)强噪声环境下的工业过程复合故障分布式检测模型构建;b)工业过程复合故障数据特征矢量提取;c)工业过程复合故障与征兆间的映射关系构建;d)工业过程复合故障模式识别与分类;e)自上而下的工业过程复合故障精细化诊断等.
4)基于多源异构动态信息融合的工业过程异常工况时空追溯可视化.
针对工业过程异常工况的时间和空间双重传播特性,研究数据、机理、知识等多源异构信息采集与集成、数据挖掘、融合技术,探索工业过程各工序物质流、能量流、信息流的网络化、多尺度、全流程精准建模和动态仿真方法,开发基于大数据平台的可视化数据双向关联性和因果性分析软件系统,实现工业过程异常工况时空追溯可视化,使得追溯过程形象化、直观化和清晰化,具有重要意义,将为推进工业化和信息化深度融合,保障流程工业过程安全稳定运行提供理论基础和技术保障.
可以从以下几个挑战性问题展开研究:a)基于多源异构动态信息融合的工业过程物质流、能量流、信息流运行特征及耦合机理分析;b)工业生产流程多工序之间工艺操作、生产原料与作业工况的耦合关联机制分析;c)大数据驱动的工业过程异常工况追溯;d)大数据驱动的物质流、能量流、信息流动态评估;e)工业过程异常工况时空追溯可视化等.
上述研究工作的开展不仅具有重要的学术价值,也是大量工业过程安全生产和稳定运行的迫切需求,势必成为未来流程工业过程控制领域的研究热点,将为确保工业生产全流程高效运行与提高产品质量提供理论依据和关键技术支撑.