赵 磊
(昆明地铁运营有限公司,650051,昆明∥高级工程师)
随着城市轨道交通线网规模的扩大,运维与管理的压力同步增长,迫切需要通过技术手段来改进运维管理方式。通过构建闭环、高效的报修系统,建立从设备报修—维修响应—维修记录—设备恢复正常的全作业流程,建立起备件/耗材的领用需求与实际需求的关联管理,同时将故障、应急事件、隐患、设备告警信息、维保计划等与报修系统有机结合,达到精减流程、提高效率、掌控成本的目标,从而为城市轨道交通运营提供高质量的服务保证。为此,设计了基于智能运维的多专业设备故障闭环管理系统,实现更完善、更智能化的跨专业设备故障闭环管理,推进设备故障监测与健康管理的智能化,逐步实现设备故障管理体系化和运维服务信息化。
在进行基于智能运维的多专业设备故障闭环管理系统设计时,应考虑各专业设备故障存在的差异性,打破专业壁垒,编制整体预案和知识库,进行统一规划;对离散、多样以及难以监控的设备故障进行统一的信息采集;实现跨专业设备故障数据的信息共享和挖掘与利用,为多专业设备故障数据的综合分析和智能分析提供决策支持。该系统应实现多专业设备监测智能化、维修决策自动化、维修知识可视化、设备寿命透明化、维修管理和故障闭环流程化;应能够充分利用运营场景、设备履历及管理信息等,实现跨专业设备的健康管理,进而实现优化运维管理流程、共享线网运维资源,提供合理的日检、周检计划,提高运营维修的效率,降低维护运营成本。
该系统由3个独立网域构成整体网域架构,分别是生产(系统)网域、管理(办公)网域和互联网域。采用网络隔离设备实现网域之间网络隔离,能够满足各级网域的安全性要求。对于生产(系统)网域和管理(办公)网域间,可通过增设单向强隔离设备防护生产网域的安全性;对于管理(办公)网域和互联网域间,可复用企管部既有的隔离区及链路实现互联。该系统架构如图1所示。
该系统架构是基于大数据集群的系统架构,主要实现的业务应用如下:
1) 线网集成化监测:实现跨线路在线监测可视化集成、全网设备状态可视化监测、关键运营/运维指标计算及展示。
2) 线网大数据分析:实现线网设备专项统计分析、运维信号综合分析、日志大数据分析等挖掘分析功能。
3) 设备质量评估分析:实现设备健康状态评估、趋势劣化评估,为设备科学量化维修提供支撑。
4) 故障管理和维修管理的信息化:通过布署应用于多部门的终端系统实现部门内及跨部门的业务交互,同时通过隔离区提供移动应用服务,满足便携应用的需求。
上述业务应用主要依赖于线路侧上送的基础采集数据、告警数据,基于大数据平台评估计算后进行可视化展示及线网-线路双向数据交互。目前线路侧-线网侧的实时数据交互采用的是双向确认校验机制,依赖于双向数据传输。经过线网计算的结果类信息需要回送至线路侧指导生产维护,相关信息包括系统及设备告警、故障详情信息、数据故障段特征、告警可能原因、维护指导建议、设备健康度评分和设备检维修建议等。
依托于故障智能分析、机器学习、日志分析、故障过滤、流程引擎和设备健康评估等算法,该系统可以实现故障管理、设备管理、案例库、日志管理、维修管理和流程管理等功能。该系统功能逻辑结构如图2所示。
图2 系统功能逻辑结构图
1) 信息报送:公司内部员工、委外人员发现现场问题后均可进入系统创建故障、隐患、事件等各类信息。内容包括创建人、时间、故障地点和故障内容。如果属运维调度处理的信息,运维调度在接到信息后可对信息进行归类(设施设备故障类、非设施设备故障类),如为设施设备故障类则进入故障指标统计,如为非设施设备故障类则单独统计。对于经运维调度处理的信息,该系统全过程支持对该类信息出口、设备等级、故障等级、所属专业和子系统等内容的编辑修改。信息流转的所有相关操作均有作业流程记录(时间轴记录),时间轴按时间由近及远顺序排列。当发生同一故障,因信息来源和故障描述不一致导致该系统中存在一条以上相同编号的故障时,支持合并成同一条故障,但保留原有故障信息及操作流程,且在过程时间轴记录中一并展现。
2) 工单管理:维修工单作为现场执行故障处理或执行维修任务的凭证之一,由执行层的上一层级直接下发。各层级的管理人员均可派发本层级以下的工单,操作页面可由当前执行流程的操作人员自主选择执行“派工”“信息流转”“回复处理情况”至上级。派工后,接工单位可自主选择执行“转入施工管理”“直接处理”“回复处理情况”至上级。单独建立工单的人工工时、物料消耗和工器具使用情况数据库,方便统计分析,并支持导出。
3) 接口管理:建立与施工管理系统的接口,实现根据维修工单自动创建施工申请单,跟踪施工申请单申报、执行进度;建立与票务系统的接口,实现票务系统故障数据的回传,并将故障信息纳入数据统计分析范畴;建立与基础数据管理系统的接口,实现人员架构信息的实时更新;预留与隐患管理系统的接口,实现故障信息向隐患系统的数据推送。
4) 日志管理:业务流程、关联业务和基础数据维护等所有操作及事件均有日志记录,且根据业务特点分别存储。所有日志均可访问查阅。日志的保存期限可人为设定,超过时限的自动清除。
1) 整改时限设置:对于从运维调度流转至各部门的故障信息,各部门接信息后需在界面的处置时限选项的“计划完成时限”内设置计划完成处置日期及时间(24 h制);对于部门内流转的故障信息,以及流转至车间、班组处理的故障信息,各级均可设置处置时限,层级最低的为必填项,其余为选填项,如上一级已填写该项后,后续各级可编辑修改。在预计处置时限结束前一定时限内会有信息提醒(提示音、待办、颜色标记等),每一级处置时限的设置在流程记录中均有体现,且在数据统计时增加处置时限的准确度统计。
2) 故障处置延期申请:初设整改时限期限截止前,部门、车间、班组可申请“调整整改时限”或“故障延期处置”。如申请“故障延期处置”(同一事项的相关故障可合并申请),则需逐级上报审核,部门审核通过后,将申请流转至总工办审核,总工办审核通过后流转至运维调度,运维调度操作确认后将该故障调整为“临时闭环”状态,指标统计时按闭环的标准统计,闭环时间设定为运维调度确认时间。
3) 故障分析管理:针对每一条故障(未闭环或已闭环故障),运维调度均有权限操作是否需要提交分析报告,可将需求信息推送至各生产部门,生产部门可将确定的分析报告以附件形式上传并在填写处理意见后提交运维调度。运维调度接到分析报告后可将分析报告分发至总工办部门内用户审核,也可直接操作意见反馈或无意见结束。
1) 故障闭环率统计:统计指标包括故障总数、闭环故障数、未闭环故障数和故障闭环率。统计方式包括按日期、线路、信息出口、第一所属专业、子系统和设备等级。支持查询和导出功能。
2) 故障指标统计:统计指标包括以线路、专业为单位生成的设备等级和故障类型。
3) 重点故障统计:根据故障指数值(设备等级值×故障等级值×时间系数)将故障性质划分3个等级(一般、较大、重点),判定值区间设为可调整值。该系统可自动识别故障所属等级,并按等级分类查询和导出。
4) 重点事件统计:①运营晚点事件统计。关联故障信息后,创建晚点信息(行车调度、运维调度有权限操作),运营晚点事件类型包括始发站延误(晚发时间)/早发、终到站延误(终到晚点)/早发、任意车站延误/早发。运营晚点事件统计指标包括15 min以上晚点事件数、5~15 min(不含)晚点事件数、2~5 min(不含)晚点事件数、0~2 min(不含)晚点事件数。②停供水事件统计。关联故障,创建停水信息,系统自动识别更新停水时长直至闭环。如因给排水系统故障导致停水,需统计停水次数、单次故障修复时长(时长超过设定值后该系统有报警提示)。③变电所开关设备远控失败次数统计。统计范围为电力调度管辖内开关设备(AC 110 kV、AC 35 kV、DC 750 V开关设备,400 V进线及母联),新线自投入试运营时纳入统计。
目前,设备故障监控及智能诊断技术在设备维护中的应用越来越广泛,设备状态微机监测技术也已成熟。但是尚缺乏可实用的设备状态智能诊断和分析技术。该系统可克服上述技术存在的缺陷,提供一种适用于多专业设备故障闭环管理的智能故障诊断方法。
将诊断逻辑转换为流程图数据,并将该数据存储为适用于城市轨道交通多专业领域的知识表示文档,然后通过推理机把流程图加载到内存,推理机根据流程图数据适用的设备类型,为每个单独的设备建立流程实例遍历器;流程实例遍历器在推理机驱动器的推理驱动机制下不断运转,每次运转都执行知识表示的遍历分析算法,推理机驱动器在访问到流程图数据的数据点时,根据数据点的描述获取数据,数据获取器会访问外部采集器提供的数据缓存内存区寻找该数据点所描述的设备的某段时间内的数据,根据取到的数据做自定义表达式的逻辑运算,如满足逻辑表达式则进入该表达式对应的后续节点,如所有后续节点都不满足则跳出一次遍历,报警分析器对产生的结果做后续处理,包括存储、展示。数据点的描述除了包括通用的表述,如“取某个时间段的某设备信息”,还包括城市轨道交通专业知识表述,如进路前后轨道区段、区间前后轨道区段、道岔所在区段和信号机继电器码位等。该方法定义了专用于城市轨道交通领域的“知识表示方法”和“推理机制”,实现了高效的“推理驱动机制”,实现了面向城市轨道交通领域的特有的遍历分析算法。
该系统中的日志挖掘分析着眼于全局控制体系,在此基础上集成优秀的开源产品,主要包括Flume、Kafka、HBase、ElasticSearch等。Flume支持在日志系统中定制各类数据发送方,用于收集数据;Kafka是一个分布式的消息系统,便于横向扩展,吞吐量高,可以保证消息的有序性和可靠性,可以为高速流数据的处理提供支持;HBase是一个高性能、可扩展的分布式列式数据库存储系统;ElasticSearch是一个准实时的分布式搜索引擎,可以支持所有类型文档的搜索。通过HBase与ElasticSearch的整合,构建二级索引,可以处理PB级的数据,同时保持很高的处理性能。
日志挖掘分析模块包含日志采集、日志汇集存储和日志分析三部分。基于分布式存储、分布式列式数据库、分布式索引服务和分布式消息服务等提供日志的采集服务和日志汇集与存储服务,日志采集提供各类终端和服务器日志数据的采集能力;日志汇集与存储提供汇集的集中控制功能,以及控制规则的数据定向汇集能力,涵盖日志开发、收集、存储、应用、销毁的全生命周期服务,为基于日志的各类数据分析提供数据支撑。
多专业设备故障闭环管理系统对智能运维系统、通信系统、机电系统、供电系统和车辆系统的日志进行统一汇总分析,实现跨专业结合部隐患发现、故障定位及综合分析等功能。提供日志统计分析能力和数据内容查看能力。可以纵观该系统的运行状态,如发现问题,可以提取和查看详细日志内容,辅助现场人员进行故障诊断。
故障案例自学习系统应用架构主要包括大数据平台层、机器学习、可视化展现与告警三个部分,使用基于神经网络自学习功能自动匹配历史故障案例,通过对接故障识别库、算法、构建模型、迭代优化等步骤逐步完善故障诊断自动化预警系统。主要按照以下步骤处理:在大数据平台收集历史故障数据;数据预处理(清洗、转换、统一),进行基础统计;将基础统计结果存储到数据库;通过计算引擎加载数据;划分训练和测试集合;训练模型,在测试集上验证;保存模型;迭代式优化模型。
对现有复杂设备及系统的故障信息进行数据采集,采用特征选择与特征提取两种方法得到故障数据的特征。故障数据主要是由人工记录并存储在知识库中,大部分为描述性语言并且数据量较大,可依此直接对故障数据进行数据分析。故障数据含有的属性较多,并非所有的数据都可以用来进行分析的,应注意过滤筛选。
可视化展现与自动化告警是以适当的视觉元素及视图来呈现抽象的数据信息,并结合机器学习技术完成自动化告警的过程。当发现了故障后,自动接入相应的流程进行处理,这时故障事件自动触发问题处理跟踪流程,并在自动化工单式流程的指引下通知到相关责任人,利用知识库自动完成整个故障处理协调过程。
基于新一代人工智能技术的全新分析方式的特色亮点有:系统能自动学习案例,新的故障发生时能用历史案例推导出本次故障原因及处置方法;可不断积累案例库中的案例,随着案例库越大,系统分析功能越强;以神经网络驱动,不需要编写额外的智能分析代码;除可以诊断实时故障外,同时可以遍历挖掘历史数据中与案例同样的隐患。
目前,该系统已布署于昆明地铁线网中心。该系统可以对每一项具体发生的设备故障进行深入全面的分析,查明发生的原因,然后采取预防措施,防止故障重复出现。更重要的是该系统可以对所有设备的故障信息进行整理统计,经过科学分析,查找设备故障发生的主要问题和故障发生的规律。因此,通过该系统的应用,可发现设备管理中的薄弱环节,进而明确设备管理的重点,采取针对性维修策略,改善技术状态,降低故障发生率,确保设备的功能,持续满足生产需求。
该系统将设备故障的统计分析落实到实际维修中,可预防故障和减少故障,提高了设备的可靠性。传统的维修概念是设备发生故障后的修理工作才叫维修,但现代维修概念是从设计阶段开始的,因为设备的可靠性、易于修复性和维修的方便性都是在设计阶段决定的。设备验收后,从计划修、状态修、故障修和技术改进都是基于该系统的,通过该系统进行分析决策,以改进设备管理工作。
通过对各专业设备设施故障采集、统计及设备设施故障分析等方面工作进行分析研究,应用统计学知识对多种故障统计、分析方法进行对比,综合各自长处提出了较好的故障统计、分析方法,设计了基于智能运维的多专业设备故障闭环管理系统。昆明地铁的实际应用表明,该系统可解决实际故障管理工作中的故障数据统计与分析难点,有助于全面提升设备设施管理水平,进而更好地保障城市轨道交通安全运营。