基于数据挖掘的铁路信号设备故障自动诊断分析

2022-01-06 06:01孙尉筌
工程建设与设计 2021年22期
关键词:铁路信号分词分类器

孙尉筌

(中铁第一勘察设计院集团有限公司,西安 710043)

1 引言

自“八横八纵”铁路网规划建设提出以来,我国铁路运输事业迈入了蓬勃发展阶段,综合化、网络化、智能化、数字化成为现代铁路运输系统发展的主要方向。而信号控制系统是现代铁路运输的“中枢神经”,信号设备故障的出现不仅会干扰铁路行车效率,还会对行车安全造成较大的威胁。加之现有信号报告多以文本形式记录,存储、分析难度较大。因此,文本以数据挖掘为基础,探讨短时间内辨识铁路信号设备故障特征并自动推敲原因的方案尤为关键。

2 基于数据挖掘的故障自诊断整体架构

基于数据挖掘的故障自诊断整体架构主要包括智能诊断层、模型优化层、数据预处理层3 个层次。其中,智能诊断层主要负责根据中间层获得的故障信息进行故障数据的自动查阅,或根据现有故障现象搜索历史经验,提高故障诊断准确率,具体流程为:待诊断故障数据→集成分类器→轨道电路故障/道岔故障/信号机故障/……;模型优化层为中间层,主要负责利用支持向量机、逻辑回归基分类器随机森林集成分类机,结合参数特点,对预处理后数据进行调优,具体流程为:初始化参数→基分类器/集成分类器→集中学习群(Voting);数据预处理层主要负责铁路信号设备故障文本非结构化数据的预处理。即抽取文本数据特征并将其转化为计算机可识别、核算的文本向量,从根源上规避样本数据不均衡情况。具体流程为:原始文本数据→特征向量矩阵→分类标签→不均衡数据处理。

3 基于数据挖掘的故障自诊断实现方案

3.1 数据采集

铁路信号设备涉及调度指挥系统设备、列控系统设备、联锁系统设备闭塞设备等多种类型。为保障上述设备无故障运转,铁路内构建了不同类别的监测系统或监控系统,上述系统可以以图形图像、语音、文本形式进行非结构化数据存储[1]。在日常维护修理阶段,也可以以文本形式进行不同类型信号设备故障现象、原因、处理手段的描述积累。长期下来,形成了以Excel、Word 形式存储的海量故障数据,如事后追踪报告、行车日志等。在行车记录登记簿、事故故障追踪报告、日志维修台账记录等信号集中监测系统监测的异常数据输出文本采集的同时,还可以进行结构化数据、外部数据的收集。如设备状态、线路状态、气象局数据、公安局数据等。

3.2 信号预处理

由于外界环境的干扰,铁路信号设备状态数据无法保证完全有效,部分无效信息常以噪声形式存在。基于此,信号预处理的主要目的是将指定无价值符号去除,使文本内仅保留汉字。进而对文本进行分词并将停用词去除,促使文本最终转化为可输入至算法的向量,为后期文本特征的提取、分类奠定基础[2]。根据不同语言的文本差异,适用的分词方法也存在一些差异。对于中文分词,可以将一个汉字序列向单独次切分。比如,在事先建立的统一词典表内进行分析句子拆分,并将其与词典内的词条进行逐一匹配,在确定二者匹配后结束分词,反之则继续进行拆分。整个过程中可用的分词工具主要有jieba(Python 中文分词组件)分词系统或NLPIR 分词系统,后者可以由用户自定义“敏感点”实现自适应分词。比如,针对铁路信号设备故障进行道岔、红光带、轨道电路、信号机、转辙机等故障词典自定义。进而采用NLPIR 分词系统中的通用词典对事故信号进行分词,获得某故障文本结果为“//8#道岔 定位 无表示 15:46 销记 原因 8#道岔 主机 动作杆与 锁框 摩卡 别劲 …… A 机 系统 报警 输出未 驱动”。

在分词结束后,可以利用Word2vec 算法中的Skip-gram模型进行词向量转化。即设定输入层为若干个词向量,由输入层到隐层进行上文向量、下文向量相加后获得一个向量,进而经softmax 算法输出所获得的向量。Skip-gram 模型可以表示为:

式中,L 为输入层词向量;P 为隐层词向量;W 为词;context(W)为上文向量、下文向量相加;C 为窗口长度,具体可看作当前词W(t)的前C 个词、后C 个词。通过求解公式(1)的最大值,可以训练词向量。比如,轨道电路词向量维数为180 维,对应词向量为[-0.125 621 315,0.015 213 511 2,…,0.205 121 458],将上述词向量纵向累加后可以获得整句话的具体含义。

3.3 特征提取

进行特征提取时,可以选择基于统计的常用加权方法——TF-IDF 法,即假定某词在某一文档中多次出现,且在其他文本中出现概率较小,甚至为0,则可以将这一词汇看作对应文本的关键词,词频TFi,j可表示为:

式中,TFi为词频;IDFi为逆向文档频率。在得到wi的权重后,考虑到各铁路信号设备故障自诊断所面对的特征向量Ti,j间存在较大的差异,需要对其进行归一化操作。同时,设铁路信号设备故障为信号机故障、微机联锁故障、道岔故障、轨道电路故障,取若干组正常数据,按正常状态、故障状态对分析数据进行分组。分组后按不同故障状态表现取值,将状态对应的幅值划分为多个区段,以幅值最小的区段记录为起始区间,取连续多个区间进行有效点的分布线密度计算[3]。逐次递增进行下一个区间线密度计算。最终取线密度最大的区间进行均值计算,获得估算正常值。同时,选择一个备分析序列数据作为分析目标,将其按状态顺序分组,按状态顺序取一组数据判断是否满足式(4),若满足则进入下一步,反之则为异常数据去除。则在正常状态下参数错误(E0)、压缩机高压保护故障(E1)、灯箱型元显示错误(E2)、压缩机低压保护故障(E3)分别为0.121、0.232、0.211、0.105 时,信号机故障下E0、E1、E2、E3分别为0.072、0.103、0.387、0.168,微机联锁故障下E0、E1、E2、E3分别为0.222、0.255、0.136、0.258,道岔故障下E0、E1、E2、E3分别为0.232、0.289、0.200、0.132,轨道电路故障下E0、E1、E2、E3分别为0.099、0.198、0.152、0.177。

3.4 故障分类

故障分类主要是针对故障记录文本内容,利用一个决策函数进行位置文本类别划分。考虑到经向量化的数据兼具高维度、稀疏特征,首先需要利用基分类器进行处理[4]。比如,设定向量数据集数量为n,特征维度为m,分类数为c,利用LR分类器进行统计后可以得到分类结果。在基分类器处理完毕之后,可以利用以Voting 的集成分类器按照分类器错误率均无联系的策略,进行分类操作,以便尽可能选择多样、精确分类结果,避免分类中位置统计、核算风险的出现。

3.5 参数优化

参数优化的主要目的是进行不平衡数据处理,常常用合成少数过采样技术,即SMOTE 算法。在基于SMOTE 算法的参数优化过程中,首先需要输入多数类样本集和少数类样本集,以欧式距离D 为标准计算样本到少数类样本集的距离[5]。同时,根据数据集不平衡比例进行采样倍率设置,由欧式距离D 选出最近的几个样本作为一个组合,每个组合样本中2 个与2 个之间随机连线,获得新的少数类样本并加入数据集内,循环后输出新样本集。上述方法可以满足分布于密集域内样本参数优化要求,而对于分布在稀疏域内的样本点,可以输入多数类样本集、少数类样本集后,设置阈值、采集倍率,进行少数类样本集、多数类样本集以及二者的邻集计算,选取若干个近邻点生成新的样本。若相邻集中不含少数类样本,则可以直接将其看作噪声去除。

3.6 诊断实现

考虑到铁路信号设备故障复杂度较高,且兼具不确定性、可传播性,因此,为了顺利实现参数优化,可以面向故障自动诊断需求,以传统Petri 网为基础进行故障自动诊断的Petri 有机纯网构建[6]。即设定面向铁路信号设备故障自动诊断的Petri十元组为:

式(4)为基于P/T 网的故障自动传播系统。其中,N 是三元组(基网),N=(P,T,F,),T 为有限为空的库所集合;F 为故障因子数量;P 为有限非空的库所集合;W 为集合标识,集合的初始标识为1;K 为容量函数,K∈{0,1};α 为真实度函数值,α∈{0,1},α>0 表示事件可信度较大,反之则表示完全不可信;μ、p 分别表示在T 上的实函数和各有向弧的概率权重函数,前者代表变迁对应故障自动诊断规则的置信度;后者表示经验给定值,p=0 表示当前条件下不可发生事件,p=1 表示当前条件下的一定发生事件。

4 基于数据挖掘的故障自诊断应用效果

4.1 验证平台

为确定以数据挖掘为基础的故障自诊断应用效果,选择4核CPU 计算机,在32 GB 的内存中安装Windows2010 系统,选择传统支持向量机、数据挖掘2 种铁路信号设备诊断方法,在训练样本为400 个,测试样本为100 个的情况下,将2种方法应用效果进行对比[7]。

4.2 应用效果

从铁路信号设备自诊断准确度来看,正常状态下,传统支持向量机诊断准确度为92.00%,基于数据挖掘的故障自诊断准确度为96.00%;故障状态下,传统支持向量机诊断准确度为91.00%~93.00%,基于数据挖掘的故障自诊断准确度为94.00%~97.00%,这主要是由于传统支持向量机在小样本调解下训练参数确定方式为随机,信号设备诊断准确度低于数据挖掘方法。

从铁路信号设备自诊断时间来看,正常状态下,传统支持向量机诊断时间为6.00 s,基于数据挖掘的故障自诊断时间为4.80 s;故障状态下,传统支持向量机诊断时间为6.00~8.00 s,基于数据挖掘的故障自诊断时间为3.80~4.00 s,表明基于数据挖掘的铁路信号设备故障自动诊断方法可以有效压缩故障诊断时间,优化铁路信号设备故障诊断效率。

5 结语

综上所述,为了顺利发掘文本数据中蕴含的海量高价值故障特征信息,保证信号设备故障报告的使用价值,技术人员可以选择数据挖掘技术,对现有信号设备故障进行汇总剖析,自动分辨识别设备故障报告中特征。并对现有信号设备故障案例提取高频词汇,以固定故障案例中文分词+形式化自定义规则的形式,进行故障信息提取和原因追溯,为故障处理与改进决策提供助力。

猜你喜欢
铁路信号分词分类器
分词在英语教学中的妙用
渝贵铁路信号系统联调联试的思考与建议
结巴分词在词云中的应用
结巴分词在词云中的应用
铁路信号设备维修管理信息系统设计与开发
基于实例的强分类器快速集成方法
雷击对铁路信号系统的影响探讨
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
既有铁路信号改造工程实施与研究