朱元星
(中铁十二局集团电气化工程有限公司,天津 300308)
铁路信号通信系统由多种设备和系统组成,这些设备系统分布在铁路线路、车站、车辆及指挥中心等不同位置,形成庞大复杂的网络。铁路信号通信系统的故障处理涉及多个部门、人员,需进行故障发现、故障上报、故障定位、故障排除以及故障恢复等多个环节,涉及大量数据和信息的交换、协调。目前,铁路信号通信系统的故障处理主要存在以下几个问题。
(1)故障发现不及时。铁路信号通信系统庞大复杂,人工巡检、监测覆盖率有限,很难做到对所有设备系统的全面实时监测,导致一些故障不能及时发现或漏报。
(2)故障诊断不准确。由于铁路信号通信系统的多样性和动态性,人工诊断需要依赖专业知识和经验,很难做到对所有故障类型的精确识别和定位[1,2]。
(3)故障处理不高效。由于铁路信号通信系统的分散性,人工处理需要依赖于多方的沟通和协作,很难做到对所有故障情况的快速响应和解决。
该系统总体架构分为数据采集层、数据处理层、数据挖掘层以及数据应用层,能够实现对铁路信号通信系统的实时监测、故障预警、故障诊断以及故障工单管理等。
数据采集层是通信故障预警的基础,负责从铁路信号通信系统中采集各种类型、格式的数据,反映铁路信号系统的运行状态、故障情况。
数据处理层是铁路信号通信故障监测系统的核心,负责对数据采集层采集的原始数据进行清洗、转换、整合及存储等操作,确保数据符合分析应用要求。数据处理层采用多种技术处理数据,包括数据质量检验、数据格式转换、数据融合、数据压缩以及数据加密等,实现铁路信号通信系统的高效管理。
数据挖掘层负责对数据处理层处理后的数据进行分析,挖掘出有价值的信息,为故障预警、诊断提供支持。数据挖掘层采用多种方法进行数据挖掘,包括统计分析、关联分析、聚类分析、分类分析以及回归分析等,实现对铁路信号通信系统相关数据的深入挖掘。
数据应用层是铁路信号通信故障监测系统的核心,负责将数据挖掘层挖掘出的信息应用到实际业务场景,为故障处理提供帮助,主要包括以下几个功能模块。
(1)通信故障预警模块。利用数据挖掘层提供的信息,预测和预警铁路信号通信系统中可能发生的故障,提前通知相关人员和部门,减少故障的影响与损失[3]。
(2)通信故障诊断模块。根据数据挖掘层提供的数据,识别和定位铁路信号通信系统中已经发生的故障,并给出故障的原因和解决方案,提高故障的处理效率和准确率。
(3)故障工单管理模块。基于数据挖掘层提供的信息,记录和跟踪铁路信号通信系统中的故障,生成和分配故障工单,协调和监督故障的处理过程,提升故障的处理质量和水平。
故障诊断通过筛选和分析通信专业子系统的预警数据,找出故障的原因和影响,实现业务预警监控分析、辅助故障诊断和故障处理。故障诊断流程如图1 所示。
图1 故障诊断流程
3.2.1 数据采集
数据采集涉及传输网、接入网、长期演进(Long Term Evolution,LTE)、动环以及调度等环节。传输网为负责传输各种信息的网络,如光纤、微波、卫星等,能够捕获信息交互,生成运行参数数据;数据网为负责处理和存储各种信息的网络,如交换机、路由器、服务器等,能够存储故障报警数据和维修记录数据;接入网为负责连接人员和设备的网络,如电话、广播、视频等,能够获取信息交互,生成设备状态数据、运行参数数据、故障报警数据等[4];LTE 为负责提供无线通信服务的网络,如基站、核心网、终端等,能够监测无线信息交互,生成设备状态数据、运行参数数据、故障报警数据等;动环为负责提供动力和环境保障的设备,如电源、空调、防雷等,能够监测设备的温度、电压、电流及振动等参数,生成设备状态数据;调度为负责指挥和控制列车运行的部门,如调度员、调度台、调度软件等,能够获取列车运行控制信息,生成运行参数数据。
3.2.2 数据预处理
数据预处理的目的是提高数据的质量和可用性,消除数据中的噪声、错误和不一致性,过程如下。
(1)数据清洗。对初步的预警数据进行修正,消除其中的异常值、缺失值、重复值和不一致值等。
(2)数据集成。将来自不同来源或格式的预警数据进行合并与统一,以形成一个完整和一致的预警数据集。
(3)数据降维。对预警数据进行压缩或简化,以减少其维度或规模,提高其效率和可解释性。
(4)数据变换。对预警数据进行转换或规范化[5]。
3.2.3 数据收敛
结合数据过滤规则、工程预警标记的方法对预处理后的标准化的大量预警数据进行收敛。具体来说包括以下几个步骤。
第一步,根据预警过滤规则将不需要参与分析的预警数据直接过滤到历史预警库。预警过滤规则根据专业、网管、区域、设备类型、设备型号、预警名称、预警等级、预警类型、预警对象以及预警发生的起始时间和结束时间等条件进行制定,还可以根据用户的需求灵活配置。例如,过滤掉所有非通信故障类型的告警,只保留通信故障类型的告警。
第二步,通过重复预警数据收敛将限定时间内重复发送的同一预警滤除,只保留最初一条预警,记录重复上报的次数、时间,以减少预警数据冗余。
第三步,通过标记故障预警数据,减少无效预警的干扰,提高维护人员的处理效率。主要考虑的2种故障预警标记场景为实时标记和事后标记。实时标记指提前在铁路信号系统运行过程中实时标记故障预警;事后标记指事后录入故障预警信息,点击按钮即可实现预警标记。
通过以上3 步实现故障预警数据收敛,计算不同故障情况下的预警数据收敛率。使用该收敛方法计算密集波分复用(Dense Wavelength Division Multiplexing,DWDM)光缆中断故障和同步数字体系(Synchronous Digital Hierarchy,SDH)线路中断故障情况下的预警数据收敛率,结果如表1 所示。从表1可以看出,该收敛方法能够有效实现故障预警数据收敛,提高数据分析的应用效率。
表1 故障预警数据收敛率
3.2.4 数据相关性分析
数据相关性分析指对预警数据收敛层产生的中间数据进行分析和挖掘,提取出有价值的信息和知识,为故障预警提供依据。数据相关性分析的目的是探索预警数据之间的关系。
首先,制定相关性分析规则。相关性分析规则是根据专家处理故障经验以及预警处理经验故障案例库制定的一系列规则。系统采用的4 种相关性分析规则为业务相关性、时间相关性、资源相关性以及事件相关性。
其次,应用相关性分析规则关联分类预警收敛后的数据,自动识别出相关性预警组和不具有相关性的独立预警。具体内容如下:一是业务相关性,根据业务承载链路经过的设备、端口、时隙信息,对同一个电路所涉及的时隙/端口的活跃预警进行归组;二是时间相关性,根据预警发生的时间信息,对多个网元同时或者5 s 内发生的活跃预警进行归组;三是资源相关性,根据预警对象存在的资源关系,如相同资源、上下级资源、资源承载以及复用段端口关系等,对当前活跃的预警进行归组;四是事件相关性,根据预警名称存在的相关性,如复用段远端接收的失效指示MS_RDI 预警和对端站线路板发生的R_LOS、R_LOF、MS_AIS 预警等,并归组当前活跃的预警。
最后,输出相关性分析结果。根据应用的相关性分析规则,输出关联分类后的预警数据,包括相关性预警组和不具有相关性的独立预警,同时输出的结果可以为故障预警提供依据。
在通信故障预警数据采集、预处理过程中,通过数据相关性分析等方法获取有价值的预警数据。之后,进行通信故障诊断,其目的是确定故障的类型、大小和位置以及故障检测的时间。假设某一段铁路发生轨道电路短路故障,导致轨道电路无法监测列车占用情况,影响综合自动闭塞和自动列车控制子系统,该故障诊断过程如下。
(1)生成残差信号。基于轨道电路采集数据,通过模型或信号处理方法,得到反映各子系统偏离正常状态的残差信号。
(2)检测故障。根据残差信号,通过阈值判断各子系统是否发生故障。例如,残差信号超过阈值,则认为发生故障。
(3)识别故障。结合残差信号或其他信息确定各子系统的故障类型。例如,使用决策树、支持向量机等机器学习方法分类故障。
(4)定位故障。根据残差信号或其他信息,通过关联或图挖掘方法,确定各子系统的故障位置和影响范围。例如,可使用关联规则挖掘、子图匹配等图挖掘方法分析轨道电路、综合自动闭塞和自动列车控制子系统之间的拓扑结构及属性变化,确定轨道电路短路故障是根源故障,而综合自动闭塞和自动列车控制子系统的故障是衍生故障。
铁路信号通信故障监测系统通过采集和分析信号通信故障预警数据,提前发现可能发生的故障,从而采取措施及时处理,保障信号通信系统的正常运行。通信故障监测的过程包括数据采集、数据预处理、相关性分析、故障诊断以及故障工单管理等。铁路信号通信故障监测系统能够提高铁路信号通信的可靠性、稳定性,降低故障对业务的影响,提升运维效率。