工业数字化转型：故障诊断方法研究进展

2024-02-13 15:11杨彪熊贇傅玲徐蔚峰李婧

大数据 2024年1期

杨彪，熊贇，傅玲，徐蔚峰，李婧

1. 复旦大学计算机科学技术学院，上海 200433；2. 上海市数据科学重点实验室，上海 200433；3. 西门子中国研究院，北京 100102

0 引言

工业数字化已经成为全球范围内的新型工业化趋势。在数字化工业中，企业利用数字化技术将生产流程和业务过程数字化，实现工业生产的自动化、自主化和智能化，从而提高生产效率和质量，降低成本和风险，实现可持续发展。

由于这些工业系统复杂化和高度集成化，故障可能会影响整个系统的运行，并引发扩散效应，出现生产停滞、资源浪费的情况，造成重大的安全事故和经济损失。故障诊断技术可以快速、准确地确定设备故障及其原因并及时维修，从而减少损失[1-3]。故障诊断数字化技术成为工业数字化转型的关键技术，在系统整体效能、产品生产质量等方面起着重要的提质增效的作用。故障诊断数字化技术的研究逐步受到工业界和学术界的关注。

工业数字化转型经历了工业设备及其相关流程的数字化，积累了丰富的数据，进而通过数据驱动业务和管理。工业界和学术界对于如何更好地利用这些数据开展了研究和实践。本文聚焦故障诊断数字化方法的研究现状，按照其发展特点划分为领域经验主导的建模方法、数据驱动与领域经验结合的数字化方法、数据驱动主导与可解释性结合的数字化方法3个阶段，如图1所示。故障诊断涉及的数据是多源、多类型的，例如，传感器等设备获取的系统运行过程中的时域信息和频域信息，包括振动信号、载荷信号、电路信号等；仪器、仪表等智能终端实时采集的设备运行状态。这些数据在不同的阶段有不同的处理方式。

图1 故障诊断方法的3 个阶段

在早期的领域经验主导阶段，故障诊断主要建模方法包括符号有向图、故障树、Petri网和键合图等，这些算法在很大程度上依赖专业人员的领域知识。随着数字化的发展以及工业数据的大量积累，数据驱动与领域经验结合阶段更加注重对数据特征及其关联的挖掘，包括基于决策树、支持向量机、贝叶斯网络等算法的故障诊断方法。工业系统运行数据不断积累，呈现出多源、多模态等特性。相对于获取的运行数据，领域知识难以捕获潜在的数据特征。深度学习等数字化方法的发展，催生出数据驱动主导的方法。这些方法也考虑到工业领域的可解释性，这一阶段被称为数据驱动主导与可解释性结合阶段。在这一阶段，深度学习方法降低了对人工特征的依赖，图神经网络（graph neural network，GNN）等建模方法提供了可解释性的方案。

1 第一阶段：领域经验主导的建模方法

早期的领域经验主导阶段依据专家经验，用定性的方法分析工业流程中各个环节、各个单元之间的关系，通常采用图论的方式来建模，包括符号有向图、故障树、Petri网和键合图等。

符号有向图利用节点和有向边描述系统的结构和功能，建立变量之间的因果关系图[4]，并结合推理策略解释故障传播路径[5]。Peng等人[6]提出一种基于贝叶斯推理的多逻辑概率符号有向图模型，实现过程变量之间的因果表示。但是，在描述复杂系统时，符号有向图的复杂结构限制了推理能力。为了简化图结构，Liu等人[7]引入规则矩阵和状态矩阵，Xie等人[8]采用压缩节点、约束传播和中间优化技术建立基于分层的符号有向图模型。符号有向图方法能够根据因果关系图推理故障的传播路径，但难以处理复杂逻辑关系，并且有向图的构建需要依赖人工经验。

故障树同样用图对系统故障与它的各个部件之间的逻辑关系进行建模，例如，采用最小割集和最小路径等算法分析不同部件故障导致的系统故障[9]。Chen等人[10]使用故障树对故障及其逻辑关系进行建模，然后从故障树中提取规则以识别故障。Wang等人[11]提出基于故障配置的故障树生成方法，对系统故障进行建模分析。故障树方法已被广泛应用，但该方法静态结构有限，难以捕捉系统动态故障行为，不适用于处理不确定性推理问题，高度依赖专家经验。为了克服这些问题，研究者将故障树建模与贝叶斯网络推理的优点结合起来，实现故障诊断和推理[12-14]。

Petri网是一种图形化的建模方法，常被用于复杂、动态、并发和离散事件系统的建模任务[15]。Mansour等人[16]将Petri网模型应用到电站故障诊断。AL-AJELI等人[17]使用带标签的Petri网对离散事件系统进行建模，捕获正常状态和错误行为。但是，上述方法只关注前向故障诊断而忽略了后向原因追溯[18]。Liu等人[18]使用模糊证据推理方法和动态自适应模糊Petri网解决上述问题。在动态性方面，Zhang等人[19]创建了时间推理模糊Petri网处理时间约束和模糊信息，其模块化结构能够适应各种保护配置，适应拓扑变化。

键合图适用于建模独立于系统参数值的结构化系统，该方法计算量较低，可以应用于大规模系统[20]。Benmoussa等人[20]利用双因果关系和因果路径的性质，从系统键合图中获得故障可检测性和可隔离性的结构条件。Badoud等人[21]通过键合图对风力系统、涡轮系统进行建模，使用因果路径生成解析冗余关系，从而避免穷举所有组合，以此应用于故障诊断。目前，键合图模型在多故障诊断领域存在局限性，在决策步骤的鲁棒性方面仍存在难点。对此，Chatti等人[22]提出有符号键合图，综合利用结构特性，以消除可能存在的冲突。键合图模型计算量较低，但在大型复杂系统或多故障诊断领域的适应性较差。

在领域经验主导阶段中，符号有向图、故障树、Petri网和键合图等故障诊断技术是通过领域知识，专家经验构建关联图，具有较好的可解释性，支持故障原因追溯。然而，这些方法在缺乏先验知识的情况下难以应用于工业过程，对变量之间因果关系的强弱以及时序动态性的考虑较为欠缺。

2 第二阶段：数据驱动与领域经验结合的数字化方法

第一阶段中的方法需要依赖领域经验对相关数据进行关联建模，随着数据的增多，构建变量之间的因果关联图存在一定的挑战。如何更好地利用数据，将数据驱动的方法与领域经验结合，是一个好的解决方法。通过数据驱动的方法发现因果拓扑关系，确定故障的特征，以实现故障诊断，主要包括基于特征关联的学习方法，基于特征工程的学习方法（如决策树、支持向量机、贝叶斯网络等）以及基于时序特征的时序分析方法。

2.1 基于特征关联的学习方法

基于特征关联的学习方法主要利用不同特征之间的关联性和相互作用进行学习和诊断，重点是探索正常状态与故障状态特征之间的关联关系，以提高故障诊断的准确率。

灰色理论[23]通过研究设备运行状态与故障状态特征的相关性预测故障状态的特性和趋势[24]。Wang等人[25]使用灰色预测模型预测燃料电池的运行特征，利用运行特征的预测值判断未来的运行状态，从而实现故障诊断。Hu等人[23]提出基于灰色理论和专家系统的轨道电路故障预测方法。为了更有效地利用基于灰色理论学习到的特征之间的关联性，Dong等人[26]提出了一种粗糙集与灰色关联分析相结合的冗余保护配置变电站故障诊断方法，Wu等人[27]提出基于灰色理论的自适应动态阈值调整算法。

多元统计分析主要包括主成分分析法、独立元分析法、偏最小二乘法和非负矩阵分解等方法。主成分分析法通过降维处理，提取数据特征，消除不同指标间的相关性。Du等人[28]将经验模式分解、主成分分析法、累积和等方法用于故障诊断。主成分分析法需要假设数据服从高斯分布，而工业数据未必完全服从高斯分布。独立元分析法假设非高斯源信号具有相互独立性，将信号或数据分离为相互独立的变量[29]。例如，Xiong等人[30]采用独立元分析法寻找电站故障的特征振动信号；Ali等人[31]利用独立元分析法区分发电厂冷凝器系统中多个不同部分的主要异常因素；Yu等人[32]在机器故障先验知识的基础上结合独立元分析法提取故障特征。偏最小二乘法是一种多元统计分析方法，适用于变量间的多重相关性建模。Jiao等人[33]将偏最小二乘法用于非线性质量相关故障检测，提出核偏最小二乘模型。Zhu等人[34]利用偏最小二乘法处理非平稳、非线性的变压器放电信号，提取特征之间的相互关系。偏最小二乘法算法可以实现多变量间的回归建模，且能够处理自变量间的多重相关性，但工业数据内部往往存在错综复杂的动态关系，偏最小二乘法难以发挥有效作用。非负矩阵分解是一种矩阵分解方法，在一定程度上可以减少非线性工业系统数据的维度[35]，例如，感应电机故障诊断系统[36]、轴承故障诊断系统[37]均采用了这一方法。在非负矩阵分解的优化和改进方面，Chen等人[35]提出了有监督的非负矩阵分解方法，用于分离特征，缓解非负矩阵分解缺乏先验知识的问题。Yang等人[38]将类别信息引入非负矩阵分解中以解决有类标签数据的监督任务表现不佳的难题。非负矩阵分解算法计算效率高，大规模数据处理速度快，但是非负矩阵分解不允许矩阵中出现负值，且无法处理数据间复杂的因果关系。

2.2 基于特征工程的学习方法

在数据驱动与领域经验结合的阶段，决策树、支持向量机和贝叶斯网络等方法主要依赖特征工程以提取与工业故障相关的特征信息，进而为故障诊断提供依据。

决策树[39]算法适用于多故障诊断领域，且更容易解释，例如，轴承故障诊断[40]、离心泵故障诊断[41]、铣刀状态监测[42]、风力涡轮机故障诊断[39]、光伏系统[43]。在其他领域，一些学者将决策树与其他算法进行了结合。例如，Aydin等人[44]基于边界分析法和模糊决策树算法提出了新的感应电机故障诊断方案；Li等人[45]提出了将决策树模型与基于虚拟传感器的故障指示器结合的“三阶段法”进行故障诊断与追溯。决策树算法可以在没有假设的情况下对系统进行操作，不依赖专家解释，能够完成缺失数据的诊断任务，模型易于实现，但是泛化能力较弱，容易过拟合，进而降低故障诊断与追溯的性能。

支持向量机是基于结构风险最小化原理的有监督机器学习算法[46]。Wu等人[47]通过多尺度置换熵从故障轴承振动信号中提取特征，然后应用支持向量机实现故障诊断。Saidi等人[48]采用主成分分析法对轴承振动信号进行降维处理，然后采用支持向量机进行故障隔离与诊断。Jegadeeshwaran等人[49]将决策树与支持向量机结合，分别应用于液压制动器信号的特征工程和故障诊断。支持向量机算法在二次规划问题中实时性较差，不适于在线故障诊断。对此，Deng等人[50]提出一种将支持向量机和纠错输出码相结合的方法，提升了传感器故障特征提取和在线识别能力。支持向量机诊断模型对内核参数敏感，不合适的内核参数会影响诊断结果，同时处理多故障诊断任务也存在一定的困难。

贝叶斯网络是一种重要的概率图模型，可以有效地处理不确定知识表达和推理等问题[51]。例如，Amin等人[52]提出基于动态贝叶斯网络的故障诊断方案；Liu等人[53]采用动态贝叶斯网络进行海底生产系统的故障诊断。为了提高基于贝叶斯网络的故障诊断模型的准确度和灵敏度，Yu等人[54]采用改进的独立元分析法识别故障过程变量，再根据过程变量及其流程图获得的依赖关系建立贝叶斯网络模型；Cai等人[55]和Don等人[56]将隐马尔可夫模型与动态贝叶斯网络相结合，隐马尔可夫模型用于系统运行数据的异常检测，贝叶斯网络用于故障原因诊断；Amin等人[57]将主成分分析法与贝叶斯网络相结合。贝叶斯网络算法可以在数据不完备的情况进行故障诊断与追溯，但是对于复杂系统的故障诊断较为困难。

随着数字化技术的发展，越来越多的工业故障数据被收集和存储，这为数据主导的故障诊断方法提供了支撑，决策树、支持向量机和贝叶斯网络等机器学习算法的应用也逐步从数据驱动与领域经验结合的阶段，过渡到以数据驱动主导和可解释性结合的阶段，逐步减少了特征工程的需求和降低了特征工程的复杂性。

2.3 基于时序特征的时序分析方法

上述基于特征工程的方法没有考虑数据在时间上的影响，而大多工业数据具有时序特征。为了充分利用数据的时序特征，时序分析法被广泛应用于故障诊断。

互相关分析是一种用于衡量两个相关信号之间相似性强度的算法，通过分析时间序列间的关联信息推断因果关系。目前，已有多个领域的故障诊断算法采用互相关分析算法，例如，监测可变负载和变速齿轮箱状态[58]、输电线路故障诊断[59]、识别变压器故障[60]等。格兰杰因果分析通过对工业过程参数的分析，明确过程参数之间变化的因果关系，构建相应的因果拓扑图[61]。在工业故障诊断领域，已有学者将格兰杰因果分析用于处理过程变量之间的相关影响以及确定它们之间因果关系[61-63]。互相关分析算法易于建模和自动化，同时对因果图的解释简单，诊断效率高，但是它难以区分复杂工业系统中时间序列之间的直接或间接因果关系。格兰杰因果分析算法对数据选择具有鲁棒性，计算负荷较低，得到了很好的工业应用。

在数据驱动与领域经验结合的阶段中，这些数字化方法对人工经验的依赖程度较小，可以在缺乏先验知识的情况下进行故障诊断，有助于在不同的领域进行数据驱动的研究和分析。然而，这些数字化方法在故障诊断过程中面临较高的复杂性，在特征工程方面仍然存在一定的挑战性，特征工程可以显著影响分析结果的准确性和可解释性。

3 第三阶段：数据驱动主导与可解释性结合的数字化方法

随着数字化技术的发展，知识图谱、深度学习、图神经网络等方法的出现减少了特征工程的需求，降低了特征工程的复杂性，提升了故障诊断算法的学习能力和准确率。在数据驱动主导与可解释性结合阶段，故障诊断数字化技术通过学习工业系统在正常和异常工况下的历史数据特征，根据学习到的特征识别机器状态，进而达到故障诊断以及原因追溯的目的。

3.1 基于浅层神经网络的故障诊断方法

反向传播网络作为一种自适应模式的浅层神经网络，具有良好的适应性和学习能力[64]。基于反向传播网络[65]的故障诊断如图2所示。Zhao等人[66]利用二次函数对轨道电路数据特征进行提取，并训练一个反向传播神经网络，进行调谐单元的故障诊断。Ngaopitakkul等人[67]采用离散小波变换分解信号高频分量，构建基于反向传播网络的决策算法。Zhang等人[68]基于改进的时间同步平均算法提取齿轮状态特征，然后训练反向传播网络识别齿轮芯片级别。在算法优化方面，Yu等人[69]利用自适应遗传算法优化反向传播网络，实现液体火箭发动机的实时故障检测。反向传播网络算法能够从工业数据中学习到诊断知识，识别出机器的多种状态，但是基于反向传播网络的诊断算法的复杂度大大增加，存在过拟合的问题，可解释性较差。

图2 基于反向传播网络[65]的故障诊断

3.2 基于深度学习的故障诊断方法

深度学习方法包括深度置信网络、卷积神经网络、循环神经网络以及图神经网络等。深度置信网络是一种具有许多神经元隐藏层的生成模型，由多个受限玻尔兹曼机（restricted Boltzmann machine，RBM）堆叠而成[70]。基于深度置信网络[71]的故障诊断如图3所示，有以下两个特点，其一，它特殊的结构使其能够自适应地提取复杂特征；其二，深度置信网络在处理高维和非线性数据方面具有优势[72]。Zhao等人[72]提出一种基于深度置信网络的模拟电路故障诊断方法，简化了诊断设计；Qin等人[73]设计一种基于深度置信网络的在线电缆故障识别算法，相较于传统浅层神经网络，该算法在准确性方面有了一定提升。一些学者针对不同领域的故障诊断算法进行相应的改进，例如，Shao等人[74]针对滚动轴承故障识别提出了一种基于自适应深度置信网络的故障诊断方法；Zhang等人[70]提出了一种基于可扩展深度置信网络的化学过程故障诊断模型。深度置信网络适用于处理高维和非线性数据，能够表征系统数据与故障特征之间的映射关系，但是该诊断模型结构较为复杂，难以训练，收敛速度慢。

图3 基于深度置信网络[71]的故障诊断

卷积神经网络是一种前馈神经网络，因其具有强的局部特征提取能力和灵活的结构，在故障诊断领域得到广泛的使用[75]，基于卷积神经网络[76]的故障诊断如图4所示。例如，Janssens等人[77]将卷积神经网络应用于轴承故障检测，提出状态监测特征学习模型；Wu等人[78]和Pan等人[79]分别将深度卷积神经网络应用于化工过程故障诊断和机器人故障诊断；Zhang等人[80]提出了基于卷积神经网络的制造系统故障诊断算法，完成了特征提取和故障诊断。目前，相关研究主要关注故障类型分布不平衡以及多故障容易与单故障混淆等问题，Chen等人[81]提出了基于随机过采样的随机离散时间序列深度卷积神经网络算法，利用时序特点提高诊断性能。

图4 基于卷积神经网络[76]的故障诊断

循环神经网络是一种处理时间序列数据的框架，具有记忆历史信息的能力，适合于动态故障诊断[82]。基于循环神经网络[83]的故障诊断如图5所示。长短期记忆（long short-term memory，LSTM）网络因其具备学习长程依赖关系的能力，在故障诊断领域受到了关注，例如，Wu等人[84]提出了基于LSTM网络的设备退化序列故障预测算法；Lee等人[85]使用基于注意力的LSTM算法诊断匝间短路故障；Chadha等人[86]设计基于双向LSTM的状态监测和故障诊断的新方法，该方法允许处理更长时间序列内的变量关系；Kang等人[87]使用LSTM网络进行复杂化学过程的早故障诊断。现有的故障诊断方法大多只关注故障类型的识别，忽视了设备性能退化的问题。对此，Qin等人[88]提出多重卷积循环神经网络，同时诊断故障类型和监测性能退化状态。循环神经网络具有记忆历史信息的能力，能够处理更长时间范围内的故障关系，有利于避免关键过程故障，但是该网络存在梯度消失的问题，且诊断模型较为复杂，难以训练。

图5 基于循环神经网络[83]的故障诊断

3.3 基于图神经网络的故障诊断方法

图神经网络在非欧几里得空间对图数据具有强大的建模能力，度量未知故障和已知故障之间的相似度，基于图神经网络[89]的故障诊断如图6所示。目前，在故障诊断领域，应用范围最广的GNN架构，分别是图卷积神经网络（graph convolutional neural network，GCN）、图注意力网络（graph attention network，GAN）。GCN适用于挖掘故障类型与过程变量之间的复杂非线性关系，还能通过邻接矩阵表示未知样本与标记样本之间的相似度[90]。例如，Liao等人[90]提出了一种基于GCN的变压器故障诊断算法，Zhang等人[91]基于深度GCN架构设计了一种基于声学信息的轴承故障诊断方案，Wang等人[92]提出了一种基于振动的GCN的轴承故障诊断算法。由于GCN存在着诸多局限性，一些学者针对这些局限性给出了相应的解决方案。例如，Chen等人[93]采用基于结构分析的GCN故障诊断模型来解决GCN严重依赖标记数据集这一问题；Li等人[94]提出了一种多感受野GCN算法，用于解决GCN感受野固定的局限性，并应用于故障诊断。针对小样本机械故障诊断困难的问题，Gao等人[95]提出基于半监督GCN的旋转机械故障智能诊断算法。GCN模型的性能取决于邻接矩阵，为了更好地表示与相邻节点的连接关系，GAN被提出。GAN将注意力机制用于度量不同样本之间的相似度，同时更关注其他样本的特征[96]。目前，GAN已被应用于多个故障诊断领域，例如，柴油机工况识别模型[96]、轴承故障诊断[97]。实际工业过程会不断出现新的故障类型，为了使新的故障类型能够在第一次出现后就能被迅速识别，Long等人[98]采用自适应GAN实现元学习器，使其具有元知识学习能力。GNN既可以挖掘系统状态数据与故障特征之间复杂的非线性关系，还可以度量未知故障与已知故障之间的相似度，但是模型灵活性较差，且有限的感受野限制了其在故障数据特征表示方面的有效性。

图6 基于图神经网络的故障诊断

在数据驱动主导与可解释性结合的阶段，反向传播网络、深度置信网络、卷积神经网络、循环神经网络相对于强依赖特征工程的机器学习算法，具有良好的适应性和学习能力，能够处理高维、多源的工业数据。然而，这些模型的可解释性相对较差。相比之下，图神经网络在这方面具有显著优势：一方面，相较于第一阶段，它建模的图网络是直接从工业数据中学习的，对专家经验依赖度低；另一方面，相较于第二阶段，它有更好的故障追溯能力，因此可解释性更强，从而很好地体现出数据驱动和可解释性等特点。

4 挑战与讨论

工业系统运行数据具有海量、高维、异构性以及时序性等特点，如何有效地挖掘数据中潜在故障的因果关系是建立复杂系统模型的关键问题之一。数字化的方法正逐渐减少对领域知识的依赖，并转向以数据为主导，提高了故障诊断的效率和准确率，但是仍然面临数据标注少、追溯难等问题，具体如下。

● 在实际应用中，一方面存在数据收集困难、标注代价高等问题；另一方面由于现今系统的完备性和抗干扰性强，收集到的系统故障样本较少，虽然数据量大，但有效信息少，这增加了故障诊断与追溯的难度。因此，如何处理好小样本问题是提升诊断模型泛化性和准确率的关键。

● 复杂工业系统内部各个组件、各个单元相互制约，具有层次性、传播性等特点，使得在一个时间节点上发生的故障很有可能引起后续短时间内其他组件功能异常，甚至多个故障并发。但是目前的故障诊断与追溯模型大多只关注单故障诊断问题，多故障诊断问题也是很值得探究的问题。

● 图神经网络的发展给可解释性故障诊断和追溯提供了支持，如何将时序和图方法结合，既考虑动态性又考虑工业数据之间的关系，成为故障诊断和追溯问题的重点研究方向之一。

5 结束语

本文对工业故障诊断数字化方法的国内外研究现状进行了分析，从领域经验主导、数据驱动与领域经验结合、数据驱动主导与可解释性结合3个阶段进行介绍。随着数据的积累，故障诊断所依赖的数据基础变得更加丰富。在故障诊断中引入数字化方法有助于提升工业领域关键环节的可靠性和生产效率，这些为工业数字化转型提供了技术和方法的支撑，促进了工业生产的智能化和可持续发展。