基于机器学习的道岔故障诊断与预测研究综述

2021-08-27 06:08:24谢博才宫殿君
铁路通信信号工程技术 2021年8期
关键词:道岔特征提取故障诊断

谢博才,宫殿君

(1. 中国国家铁路集团有限公司,北京 100844;2. 北京全路通信信号研究设计院集团有限公司,北京 100070;3.北京市高速铁路运行控制系统工程技术研究中心,北京 100070)

1 概述

道岔转换系统是铁路变换股道的重要转辙设备,直接影响了列车的行车安全。随着国内轨道交通的蓬勃发展,行车速度和客运量的不断提升,道岔设备故障率的增加会影响运营效率,甚至造成人民生命财产的损失,因此对道岔设备进行状态监控以及故障的诊断和预测是迫切且必要的。

故障检测与诊断技术、故障预测与健康管理技术是可靠性分析中的两大重要技术。故障诊断包括故障检测和故障隔离两个过程,其中故障检测是利用各种检测算法发现设备运行过程中的异常信号,判断是否发生了故障并实现准确定位;而故障隔离要求对故障类型、故障部位及故障成因作出诊断,以便采取相应的维修措施,使得由于故障导致停滞的设备恢复运行[1-2]。目前,故障诊断方法普遍分为3类:基于模型的故障诊断方法、基于信号处理的故障诊断方法和基于人工智能的故障诊断方法。基于模型的故障诊断方法需要针对监测对象建立精确的数学模型,例如微分方程,通过模型输入和输出之间的残差来进行故障诊断。这种方法的缺点是建立模型需要足够的用于模型开发的先验知识且模型的建立是非常复杂与费时的,同时所建立的模型精确与否会直接影响故障检测与诊断的性能。基于信号处理的故障诊断方法是先采集设备运行中的传感器信号,通过观察、分析序列中隐藏的信息进行特征提取,并依据特征值确定是否发生故障。该方法只能对信号本身的特点进行分析,无法挖掘出更深层的信息,而且若是不具备一定的专家知识,很难选择处理信号的方法从而提取到真正有用的特征。而基于人工智能的故障诊断方法利用机器学习、神经网络、深度学习等智能算法挖掘大量历史数据中隐藏的信息建立模型,从而实现故障诊断。目前,绝大多数关于道岔系统故障诊断的相关研究都普遍采用了后两种诊断方法以及他们的结合应用,研究结果也表明基于人工智能的诊断方法具有较好的研究前景。

故障预测与健康管理技术是设备运维的重要手段,也是一种综合的技术解决方案,包括实时监测设备运行状态、健康评估、故障诊断和缓变故障预测、寿命预测等[3]。预测与健康管理(PHM)利用采集到的数据信息,通过各种人工智能算法建立模型对系统的健康状态进行评估,能够计算出系统某些参数的趋势变化,以及对一些特定故障模式进行有效地预测,为待监测对象提供一系列可靠、高效的运维方案。对于铁路道岔这类大型、复杂的机械设备,PHM技术可以为转辙设备提供状态监测与设备健康管理,进一步提高质量管理水平,建立信息化和智能化的维修管理机制,提高列车运行的安全性和可靠性。

由于人工智能算法的独特优点和基于大数据的需求,目前在道岔故障诊断与运维领域几乎都是利用机器学习相关算法来实现。但是机器学习算法的种类较多,实际应用中还会使用两种甚至多种算法结合,很容易对初次接触的人造成理解上的混乱。本文重点对基于信号处理和人工智能即基于信号数据的道岔故障诊断算法进行归纳、整理和总结,并根据PHM技术在道岔故障诊断上的现有研究,展望未来的发展趋势。

2 道岔故障诊断算法的应用与发展

在道岔故障诊断领域中,大部分的诊断算法流程如图1所示。首先,通过故障模式的成因、转辙机原理以及传感器采集数据的难易程度确定最优的监测信号数据;其次,要对原始数据进行去噪、归一化等方法整理数据样本,并建立正常样本集和故障样本集;之后,应用各种数据挖掘、信号处理算法提取对样本集区分度最高的特征向量;最后,建立机器学习模型实现故障的分类与诊断,给出相应的运维措施与建议,提高经济效益。

2.1 信号的特征提取

在机器学习、模式识别和图像处理中,特征提取指的是以初始的信号数据为基础,通过各种方法对数据进行变换,从而将原始数据转换为一组具有明显物理意义或者统计意义的特征的一种方法。特征提取可以促进后续的学习和泛化步骤,特征好坏对泛化能力有至关重要的影响。

在信号的特征提取算法中,最常见的方法是时域分析、频域分析和时频域分析。在实际特征提取过程中,通常会基于电流曲线和功率曲线对道岔转换状态进行分段,之后再统计各段的时域统计量、频域统计量或使用Mallat小波等进行时频域分析,从而提取到大量的特征统计量。其中杨静[4]基于DWT变换,选择Haar小波基对电流信号进行9层分解,得到了不同尺度下信号的高频细节部分和低频部分,原始信号经过DWT变换后可以提取到基本趋势和重要整体特征,信号的维度也大幅下降。时频域分析中除离散小波变换外,经验模态分解也常用作提取信号的细节特征。该算法依据信号本身,将信号分解为若干个固有模态函数(IMF),计算每个IMF的样本熵和模糊熵作为原始信号的多尺度特征,使得统计量具有更好的稳定性。

由于正常曲线和故障曲线之间一定会存在差异性,因此一些研究者提出了基于曲线相似度的特征提取算法。该方法通常将正常曲线和几种故障模式曲线作为模板,通过计算待测曲线与模板之间的相似或距离函数作为后续诊断的特征,距离函数包括弗雷歇(Fretchet)距离、快速动态时间规整(FastDTW)算法等,最后根据相似度特征判断待测曲线是否发生了故障。实验证明基于曲线相似度的算法无需大量的训练样本,准确率很高且FastDTW算法效果普遍优于Fretchet距离。

上述方法普遍从定量的角度对数据进行分析,但是由于铁路通常环境复杂以及恶劣天气的影响,容易出现随机的波动和无关趋势,因此还有一类算法是通过基于定性的角度对曲线形状进行特征提取。该类算法利用时间窗将信号进行分割,并对窗口内的数据进行线性拟合,通过符号语言描述每种趋势片段,最终将信号形状简化为一串趋势序列特征。根据事先建立的故障诊断规则知识库进行序列匹配,从而有效区别不同的故障状态。其中孙孟雷[5]依据功率曲线的形状提取信号的持久化四边形区域映射功率持久化特征,提取信号峰值三角区域映射功率峰值的特征,从而对转辙机动作过程进行特征化表述,通过特征向量灰度化结果证明了该方法的可行性和实用性。

特征选择也称为特征子集选择,是特征提取的后续步骤。它是从提取到的特征集合中挑选出一些最有代表性或最有区分度的特征,以达到降低数据维度的目的,也是提高学习算法性能的重要手段。在道岔故障诊断中最常用的是基于Fisher准则的特征选择方式,通过计算类间方差与类内方差之比,找到最有效的特征。但该方法只能筛选出一部分有用特征,当特征维数仍然过大时,需要降维算法来进一步进行特征选择,常见方法有主成分分析法(PCA)、线性判别分析(LDA)、局部线性嵌入(LLE)、t-SNE等。降维方法各有优劣,需要根据实际数据进行选择。将数据维度降至低维,在保留绝大多数原始数据信息的同时,又能够提高故障诊断的效率和精度。

2.2 基于机器学习的道岔故障诊断算法

机器学习的目的是通过某种算法,如神经网络等学习输入与输出的关系,并可以利用学习到的关系通过未知输入尽可能准确地得到未知输出,一般步骤是在进行特征提取步骤之后,将特征向量输入机器学习算法进行学习,得到最终的诊断结果。在道岔故障诊断领域中,机器学习拥有广泛的应用空间,涉及的算法包括无监督学习中的聚类分析、监督学习中的支持向量机、神经网络、集成学习、深度学习等。

2.2.1 聚类分析模型

聚类分析是一种无监督的机器学习算法。在处理分类问题的时候,一般数据标签是已知的,通过提前对数据进行训练,从而得知数据属性进而对它们进行划分。而聚类分析与普通分类的区别在于,聚类分析处理的数据是没有标签的,需要在没有训练样本的前提下进行划分,通过衡量不同数据间的相似性,将它们分类到不同的类簇中。

在实际使用中,通常将聚类分析视为一种数据挖掘手段,能够发掘数据的内部结构特征。针对特征提取中的一些缺点,如时频域分析对数据的利用度不高、降维方法会丢失有用数据等,聚类算法在对数据进行分类时,会选择信息表征更全面的训练集和测试集,从而避免随机性造成的信息不全面问题。利用聚类算法的分类特性,将随机的数据进行整理和聚类,可以看出输入向量的特征值是否能够全面地反映它所代表的样本的特征,为后续诊断算法提供正确的信息来源。杨菊花等[6]针对初始特征维度过高的问题,选择DBSCAN聚类算法筛选故障诊断敏感特征,构建诊断敏感特征集,起到了降维的作用。李孟澜[7]对多种聚类算法,包括K-means算法、FCM算法、凝聚式层次聚类算法、DBSCAN算法和DPCA算法进行对比分析,通过不同的特征集与聚类算法搭配得到聚类准确率,从而获取最优数据处理方法。在此基础上构建了聚类集成算法,验证聚类集成算法在转辙机故障数据挖掘上的优势。

2.2.2 灰色关联分析模型

灰色关联分析可以依据各因素之间的相似性来衡量关联程度,进而达到判断系统当前状态以及预测发展趋势的目的。经过不断地探索与发展,形成了邓氏关联度、灰色绝对关联度、灰色相对关联度等不同的关联度模型。

根据灰色关联分析中曲线几何形状越相似关联度越高的特点,提出了一些基于灰色关联分析的道岔故障诊断模型。朱绪昌[8]使用了基于邓氏关联度的模型,通过比较故障模式之间的关联度,选择关联度最小的变换算子确立故障特征序列,并确定变换算子用于数据变换,最终选择最优的故障诊断关联度模型。

2.2.3 支持向量机模型

支持向量机(SVM)是一种二分类模型,它的基本思想是在特征空间中找到一个能够正确划分训练数据集并且几何间隔最大的分离超平面。如图2所示, 即为分离超平面,对于线性可分的数据集来说,这样的超平面有无数个,但几何间隔最大的分离超平面是惟一的。SVM通过引入核函数,可以解决在高维空间中的内积运算,从而实现非线性分类问题。SVM一般作为二分类器使用,但由于实际应用中也需要解决多分类任务,可以通过多个SVM分类器结合的方法实现,如一对一法、一对多法和SVM决策树法。

图2 SVM模型最优超平面示意Fig.2 The optimal hyperplane schematic diagram of the SVM model

SVM因其小样本量、高维模式识别和易实现等优点在道岔故障诊断上被广泛应用,也出现了许多基于SVM故障诊断模型的研究和讨论,包括解决了数据样本不平衡问题与SVM核函数参数σ和惩罚因子C的选择问题。同时,一些研究者为了弥补SVM算法在故障诊断上的不足,将SVM与其他算法进行结合优化,提高了识别的准确率和效率。王登飞等[9]采用SVM-AdaBoost算法叠加了多个基本SVM分类器,提高算法的抗干扰能力。对于SVM算法核函数调参困难的问题,孔令刚等[10]将SVM与改进型灰狼优化算法结合,实现了参数的自动优化,达到100%的分类准确率。

2.2.4 神经网络模型

目前,在道岔故障诊断领域中,应用最多的机器学习算法是各种神经网络模型,并在这些算法的基础上优化改进,提高识别精度。

人工神经网络是机器学习中最常用的模型,它从信息处理的角度对人脑神经元进行抽象,按照输入层、隐藏层和输出层的基本结构进行拓展,依据不同的连接方式组成不同的网络模型。神经网络由大量的节点也称为神经元互相联结构成,每一个节点都代表一种激励函数,每两个节点之间的连接代表一个通过该连接的加权值,称之为权重。神经网络具有自主学习能力、非线性映射能力、对任意函数逼近能力和容错能力,因此诞生了许多神经网络模型。在道岔故障诊断中,常用的模型有BP神经网络、PNN神经网络,也有少量采用其他的模型如深度学习、集成学习等。

在工程应用与研究中,多数诊断算法都采用BP神经网络或PNN神经网络建立道岔故障诊断模型,这些模型都取得了较好的故障诊断结果,其中习家宁[11]在PNN模型的基础上提出了基于PNN决策级融合的故障诊断模型,使得某一模型在出现失效的情况下具有容错能力。但是,BP和PNN神经网络在使用上都存在一些问题:BP神经网络的初始权重和阈值是随机获取的,容易使训练阶段陷入局部最优;而PNN神经网络在故障模式样本有限的情况下,难以找到体现整个故障空间的平滑因子。因此,通常需要一些参数寻优算法与神经网络进行结合以提高诊断算法性能。其中比较常见的参数寻优算法是粒子群优化算法和灰狼优化算法,与单独使用神经网络对比,收敛性和稳定性均有一定程度的提高。

另外还有一些基于深度学习与集成学习的研究。卷积神经网络(CNN)及优化算法作为最常用的深度学习算法被广泛应用。陈亭[12]使用深度卷积神经网络中的深度残差网络对道岔故障模式进行识别,证明深度残差网络相对于浅层残差网络和全连接神经网络故障诊断的效果更出色。李林霄[13]在原始CNN的前向传导与反向传播过程之中加入自适应模块,对初始分类结果进行特征提取和分析,自适应地调整特征误差,实现特征残差的自适应增强,达到提高收敛效果,提高识别精度的目的。杨菊花等[14]在卷积层特征提取后将结果作为门控循环单元(GRU)的输入,再输出分类概率。经实验验证,该优化方法的准确率优于PCA-HMM,训练时间优于PCA-GA-SVM。集成学习通过组合多个弱分类器构建出一个强分类器,集成算法包括Bagging算法、Boosting算法和Stacking算法等。通过组合深度学习与集成学习,可以构建出基于集成学习的深度置信网络故障诊断模型和基于集成学习的卷积神经网络故障诊断模型,进一步提升道岔故障诊断性能。

在故障诊断中还应用了一些其他的机器学习算法。基于属性加权的朴素贝叶斯网络分类器,可以提高分类结果的准确性。左元[15]对KNN算法提出改进,提出基于类别特征加权的K最邻近算法(FSWKNN),相比较KNN与WKNN在诊断精度上都有明显的提升。针对道岔故障诊断中的文本数据建立故障树编码,进而转化为贝叶斯网络进行故障诊断,提供了一种文本挖掘的思路和方法。

3 道岔健康管理与故障预测算法的应用与发展

道岔故障可能发生在运行的各个阶段,FDD技术可以保证在故障发生后及时预警和实现快速检修,但若能对设备进行全生命周期监测以及数据挖掘,就能在故障二次发生前及时预警,提前作出检修措施,避免经济和人员损失。目前,PHM技术在道岔故障预测领域还不够成熟,关于道岔健康状态评估与故障预测方面的文献很少,本文基于现有的研究资料对涉及机器学习的算法进行总结。

由于道岔设备处于室外且环境复杂,导致突发故障(如尖轨卡入异物)的概率大大提升,而这类故障很难通过算法进行预测。但是在道岔动作过程中,因为长时间的动作而引发的疲劳性故障(如动作杆运动的摩擦力增加),即缓变性故障,可以通过训练故障发生前后的曲线数据预测发生故障的动作次数。侯大山[16]针对“道岔转换过程中功率曲线大幅波动”这一故障类型,提取故障发生前500次动作曲线的特征,采用KPCA算法构建退化性能指标及失效阈值,建立PSO-ELM模型预测退化性能指标变化趋势,证明隐层神经元数目为30时,达到最优预测性能。正负样本不平衡问题一直是道岔故障诊断和预测的难点。钟志旺[17]针对“尖轨摩擦力过大”的故障模式,提出SVDD算法,仅利用道岔正常运行数据实现对目标样本和非目标样本的划分,避免因缺少故障数据造成的样本不平衡问题。由SVDD算法得到的健康指标,对于异常检测和故障检修具有指导意义。

在健康状态等级分级上,一些研究者根据曲线之间的关系构建指标,划分健康状态等级或检修等级,并应用机器学习算法对指标进行预测。皮尔逊相关系数、欧氏距离、弗雷歇距离和云相似度等方法经常被选择作为衡量道岔健康状态等级的指标。道岔的健康状态通常分为健康、亚健康和故障3级,道岔处于健康状态是不需要维护的,处于故障状态的设备需要立即维修,而亚健康状态较为复杂,需要对其展开研究,预测故障发生的可能性及故障可能出现的时间。多项式回归模型、AR模型、长短时记忆神经网络模型(LSTM)、CNN-GRU模型等方法能够对未来一段时间内的评价指标进行预测,根据评价指标的趋势获得道岔的状态。通过真实数据验证,预测结果较为准确。

聚焦于道岔设备退化状态的挖掘也是研究的热点,通过一些机器学习算法学习道岔设备从正常运行状态到故障状态之间的大量数据,建立设备退化状态样本库和模型,然后对道岔状态进行评估,从而识别设备处于何种状态。文献[18-20]都使用了不同的聚类算法建立退化状态与故障模式之间的关系,实现对道岔设备退化状态的识别。其中许庆阳[18]提出了一种基于Kohonen神经网络和隐马尔科夫模型结合的算法,用于进行退化状态与故障状态的识别与评估,实现故障预测。高利民[19]等使用SOM-BP混合神经网络算法,得到6种退化状态样本。李园祥[20]提出基于堆叠降噪自动编码机结合自组织映射神经网络的方法,构建道岔转辙机的退化模型,并在此基础上利用LSTM对设备剩余寿命进行预测。

4 结束语

道岔设备稳定运行是保障铁路安全的一个重要因素。人工智能的发展,给故障检测与诊断技术提供了一种有效的手段。机器学习技术可以挖掘一些人工看不到的隐患,针对设备的日常维护和故障检修也越来越智能化、自动化。本文梳理了近年来针对FDD和PHM的文献资料与应用研究,可以发现绝大多数研究还是聚焦在故障模式的分类与诊断上,且使用的信号数据种类单一,挖掘的信息非常有限。而且,机器学习在PHM领域中是一个比较困难和新兴的课题,还需要进一步的展开研究。因此,在道岔故障诊断领域,机器学习的研究仍有3个可以进步的方向。

在故障检测与诊断领域,正常样本与故障样本不平衡问题仍是一个难点,很多时候需要将故障样本积累到一定的数据量才可以进行分析。预测与健康管理相比故障诊断更具有现实研究意义,故障预测和寿命预测是今后的研究热点和重要趋势。

目前道岔的故障诊断与预测研究中,绝大多数研究都在从电流、功率等信号中提取特征展开研究,数据类型不够全面。因此能否增加一些传感器数据,例如温度、湿度、转换力、表示杆位移、文本数据等,多方面地建立更准确的模型。

机器学习模型种类很多,且每种模型都有明显优缺点及适用范围。如何针对道岔故障类型选择合适的模型,以及如何对模型进行结合也是未来的一个研究方向。

猜你喜欢
道岔特征提取故障诊断
中低速磁浮道岔与轮轨道岔的差异
场间衔接道岔的应用探讨
既有线站改插铺临时道岔电路修改
基于Daubechies(dbN)的飞行器音频特征提取
电子制作(2018年19期)2018-11-14 02:37:08
Bagging RCSP脑电特征提取算法
因果图定性分析法及其在故障诊断中的应用
基于MED和循环域解调的多故障特征提取
KJH101-127型气动司控道岔的改造
基于LCD和排列熵的滚动轴承故障诊断
基于WPD-HHT的滚动轴承故障诊断
机械与电子(2014年1期)2014-02-28 02:07:31