黄骅港智能调度与控制系统运维平台设计与实现

2022-10-10 02:03:54徐永梅
铁路计算机应用 2022年9期
关键词:黄骅港运维调度

徐永梅

(中国铁道科学研究院集团有限公司 通信信号研究所,北京 100081)

黄骅港智能调度与控制系统作为车站日常生产作业调度指挥的技术装备,以信息整合、完善、共享为核心,结合信息化、智能化技术实现黄骅港运输生产作业向数字化、自动化、智能化转型。系统功能的丰富必然需要复杂的软件架构、高性能或多数量的硬件设备支撑,其维护管理难度和成本也同步上升。

近年来,随着计算机、网络通信、人工智能等技术的蓬勃发展,集成化的运行维护(简称:运维)监控平台已成为各行各业信息资源管理的首要建设目标,尤其在云计算、物联网、大数据等新技术应用下,一些学者[1-4]提出将智能运维纳为我国重载铁路智慧化发展内容的一部分。

因此,本文借助成熟先进的技术和设计思想,设计黄骅港智能调度与控制系统运维平台,实现系统资源运行状况的集中监控管理,并以面向重载铁路智能运维方向建立智能调度与控制系统的安全运营监管体系、优化系统设备设施维修策略为目标,使其能适应重载铁路运维管理智慧化的发展趋势,提升设备设施维护管理效率,推动设备运维管理策略向科学化、精准化方向转变。

1 平台需求分析

1.1 设备状态集中监测

黄骅港智能调度与控制系统作为集成性的应用生产系统,对车站运输生产组织具有重要的作用。该系统设备众多、功能复杂,维护成本和强度较大,因此,有必要借助数据采集技术实现设备状态的集中监控显示,减轻维护人员巡检劳动强度、提升巡检效率,及时对设备异常进行响应处置,避免因系统故障影响车站作业效率的事件发生。

1.2 设备全生命周期管理

基于“采购—管理—使用—保养—维修—报废”的设备管理流程[5],完善从设备采购到报废全过程的信息管理机制,打通各平台间的信息壁垒,消除设备管理各环节的信息不对称,实现设备全生命周期的过程追溯,建立健全设备采购、备品备件和维修策略的动态化管理机制,以满足设备管理流程标准化、自动化的建设需求。通过定量、定性分析手段进行相应的设备运用质量统计分析,辅助相关管理人员在维修计划、备品备件和设备采购计划等方面制定更加科学合理的决策。

1.3 设备故障及时响应

黄骅港智能调度与控制系统中任何设备的软硬件异常都有可能导致系统运行异常,影响车站的生产作业组织顺畅进行,因此,平台须对监控设备的故障信息、故障等级等内容及时告警,使得维护人员能及时发现设备问题并快速响应处理。其要求主要包括:

(1)准确、实时地进行设备故障分析和告警;

(2)建立健全系统设备故障处理体系;

(3)提供便捷的故障日志收集功能。

1.4 辅助决策支持

利用大数据技术、人工智能算法等对海量设备运维数据进行价值挖掘,分析、总结设备运维数据呈现的规律,为相关决策提供智能化的技术支持。其要求主要包括:

(1)分析、发现设备资源使用率的变化规律,根据实际情况灵活调整告警阈值;

(2)智能分析运维信息,诊断设备故障间的关联关系,实现多点故障的根源追溯;

(3)建立设备健康质量评价体系,依据设备健康情况动态进行设备维护策略的调整,为设备状态修管理提供技术支撑。

2 平台设计

2.1 平台概述

黄骅港智能调度与控制系统运维平台借鉴“平台+应用”的模式[6]进行建设。该平台负责设备监测数据的采集、处理、存储、共享,并建立标准的接口规范和数据服务规范,为黄骅港大数据平台和其他管理系统提供数据来源,应用则聚焦于现场运维业务需求,为维护人员提供可视化的运维界面和便捷的运维工具。平台及相关系统架构如图1 所示。

图1 黄骅港智能调度与控制系统运维平台及相关系统架构

2.1.1 智能调度系统

该系统服务于调度管理岗位,作为车站运输指挥大脑,通过与外部系统的接口获取调度组织所需的数据资源,通过资源整合、分析实现调度命令管理、站内资源管理、现车管理、作业计划管理等功能。

2.1.2 智能控制系统

该系统服务于作业执行岗位,作为作业计划的执行层,接收调度系统下达的作业指令、行车调度下达的接发车计划及站场联锁表示信息等,实现进路指令管理、作业安全防护、车辆状态跟踪和信号设备集中控制等功能。

2.1.3 黄骅港大数据平台

作为车站综合信息集成平台,覆盖站场表示、作业数据、视频监控、作业指标、设备状态等数据内容,通过数据集成、加工、分析,实现车站各环节数据的综合展示与海量数据的价值挖掘。

2.1.4 黄骅港智能调度与控制系统运维平台

实时采集智能控制系统、智能调度系统的设备运行数据,经数据处理、存储和分析,提供设备信息管理、实时状态监测等功能。该平台为黄骅港大数据平台提供设备状态数据的获取接口,并预留为其他管理系统和朔黄中心提供设备相关数据的接口。

2.2 硬件架构

黄骅港智能调度与控制系统运维平台由采集服务器、Web 应用服务器、FTP(File Transfer Protocol)服务器、数据库存储服务器和访问终端等设备组成,被监测设备包括服务器主机、工控机终端、数据库、交换机和路由器等网络设备。平台通过汇聚交换机实现与智能调度与控制系统的网络连接,以获取被监控设备的运行状态和告警数据。被监测设备须开启有安全保障的端口、协议及服务等,配合采集服务器实现待监测指标的数据采集。另外,在被监测对象设备上部署监测代理,实现FTP 服务器与终端之间的文件传输功能。平台硬件架构如图2 所示。

图2 黄骅港智能调度与控制系统运维平台硬件架构

2.3 技术架构

黄骅港智能调度与控制系统运维平台通过实时采集监测设备状态和软件运行数据,经过预处理后形成特定格式进行存储,提供各类分析策略,为业务应用服务提供技术支持。平台技术架构如图3 所示。

图3 黄骅港智能调度与控制系统运维平台技术架构

2.3.1 数据源层

黄骅港智能调度与控制系统作为车站行车组织技术装备,由服务器和工控机等主机设备、交换机和路由器等网络设备、数据库软件及应用软件共同组成。实时监测上述资源的运行情况对于系统稳定运行是必要的,监测内容包括:主机设备的系统参数信息、运行时长、性能指标和网卡状态等;网络设备的性能指标、面板端口信息和端口流量数据等;数据库的软件版本、运行时长、表空间指标(名称、总大小、使用率)和基础性能指标(会话数、进程数、内存大小、缓存池命中率、锁等待率等);应用软件的主备机状态、在线状态和双机心跳端口状态等。

2.3.2 数据采集层

平台采用“无代理+有代理”的组合模式实现监测指标的数据采集和文件传输,采集的数据经过预处理形成标准、格式化的数据结构,利于后续不同平台或系统间的数据共享。其中,无代理模式主要借助简单网络管理协议(SNMP,Simple Network Management Protocol)、安全外壳(SSH,Secure Shell)协议、Windows 管理规范(WMI,Windows Management Instrumentation)、Syslog 和Java 数据库连接(JDBC,Java Database Connectivity)等协议实现对硬件基础参数、性能指标数据的采集;借助私有协议实现对系统业务软件监测指标数据的采集。代理模式则通过在主机设备上部署终端代理,实现FTP 服务器与主机设备之间的文件传输功能。

2.3.3 数据存储层

平台根据采集数据的类型、用途进行归类划分后存储,为数据分析提供基础数据来源,其存储数据类型主要包括资产基础数据、设备厂商数据、用户数据、角色权限数据和设备采集数据等。

2.3.4 数据分析层

在标准化存储的数据基础上运用可视化分析、实时性能分析和统计分析等方法,进行设备采集数据分析,并运用基于数据驱动[7]的关联分析、回归分析和聚类分析等智能分析技术实现设备故障诊断、健康评估及故障预测等,为维护人员在设备运维过程中提供辅助决策支持,提升设备运维的智能化水平。

2.3.5 数据应用层

依托数据分析技术,以实现设备集中监测、设备全生命周期管理、故障及时响应、辅助决策支持等需求为目标,设计资产管理、状态监测、配置管理、权限管理、告警管理、维护工具管理、决策管理和统计分析等模块,根据实际需求可灵活配置。

3 平台功能

3.1 资产管理

按照“一单元一档案”的管理原则[8]为黄骅港智能调度与控制系统设备建立电子档案,实现设备基础信息、使用情况、故障情况、维护情况等信息的电子化、流程化管理。该档案详细记录设备在“调试—运用—报废”整个运营生命周期不同阶段的信息,为维护人员提供了设备精细化管理工具,实现设备信息的查询、在线时长统计及维护记录的追溯,同时,满足管理人员对设备使用过程中关键指标的统计分析需求,为设备的采购管理、备品备件管理、维修决策管理等提供辅助决策支撑。

3.2 设备状态监测

建立集中的设备状态监控管理体系,采用“无代理+有代理”混合的采集技术实现对主机设备、网络设备、数据库、操作系统、指定进程、应用软件等关键参数的运行数据采集,提供集中的业务视图和机柜视图两种可视化的显示方式,制定设备告警规则,划分告警等级,不同的告警等级以不同颜色、音频等方式进行提示,以便维护人员快速鉴别设备的运行状况。

3.3 告警管理

根据应用需求设计设备告警管理和定时任务提醒管理两部分。

(1)设备告警管理包括硬件告警和软件告警。硬件告警包括syslog 告警、阈值告警、ping 告警和硬件端口通断告警等,软件告警主要为应用业务相关告警。

(2)定时任务提醒则是根据用户事先设置的提醒任务到期自动提示。根据设备故障影响的系统业务范围,将告警等级划分为故障告警、异常告警和变化告警3 个级别,以辅助维护人员对故障程度和影响范围进行判断、掌控。

3.4 配置管理

该模块提供系统功能参数的配置管理功能。

(1)数据库配置:设置待监测数据库的连接信息。

(2)告警匹配库管理:管理设备硬件告警翻译库的增、删、改、查功能。

(3)进程配置:设置待监测的进程及其性能告警阈值。

(4)权限管理:包括角色管理和用户管理,实现角色权限绑定、角色增删改查、用户增删改和用户角色权限控制等功能。

(5)定时任务管理:设置定时提醒的任务、提醒周期及是否确认完成等。

(6)故障模板管理:设置设备故障日志一键导出的模板。

(7)数据迁移周期配置:设置告警数据、采集数据的迁移周期。

3.5 工具管理

提供日常维护管理所需的基础工具,主要包括终端操作记录查询、数据库备份、文件收集、文件在线维护、子网IP 分配查询、telnet 端口检测和故障日志一键关联导出等内容,为维护人员提供便捷化的维护操作方式,有效提升设备维护效率。

3.6 统计分析

建立设备运用质量分析体系,根据分析结果帮助维护人员更加全面地掌握设备运用情况,为设备管理优化提供数据支撑。

(1)设备运用情况分析:针对单台设备告警次数、主/备机切换次数、故障类型和故障原因等进行统计,并形成相关的时间趋势分析图,便于维护人员直观地查看设备的历史运行情况。

(2)设备告警统计:针对所有设备按照软件告警、硬件告警和告警等级的数量进行统计,形成告警数量时间趋势图供管理人员查看。

(3)网络业务分析:提供网络设备端口的流入和流出率统计、丢包率及误码率统计分析,更好地监测网络异常情况。

3.7 设备故障诊断

根据设备故障处置闭环原则,提供设备故障原因和处置方案的填写模板,建立设备故障及其处理信息的电子案例库。利用机器学习、人工智能等技术对电子案例库进行文本特征提取,形成设备故障特征库,借助关联规则分析构建故障诊断模型,结合实时采集的相关设备数据,实现设备故障定位,提高故障处置响应效率。设备故障诊断分析流程如图4 所示。

图4 故障诊断分析流程

3.8 设备故障预测与健康管理

设备故障预测与健康管理主要解决设备维护过程中“不可见的问题”,利用大数据技术,关联剖析设备状态的影响因素、研究设备故障发生规律,实现设备故障预测机制。建立完善的设备健康评价体系,从不同维度对设备健康状态进行评估,实现设备备品备件管理和维修计划管理的联动处置。

4 关键技术

4.1 集成开发

利用SpringBoot+VUE 框架实现模块化、组件化的设计与研发,采用Maven 项目管理工具进行构建,基于MyBatis 框架完成数据存储、查询等映射服务,采用Shiro 技术实现平台权限管理,基于表征性状态转移(RESTful,Representational State Transfer)规范的接口交互原则,采用SpringMVC 框架搭建后台服务模型,提供设备资源的统一集成管理工具,有效降低运维管理工作量。

4.2 实时监控

采用“无代理+有代理”的混合监控代理模式,最大限度地满足监控数据采集与文件传输需求的独立性,搭配角色权限管理进行平台客户端的灵活部署。可通过SNMP、Syslog、SSH、JDBC、WMI 等协议,实现对设备运行指标的实时采集和软件运行状态监控,当设备出现异常时及时进行捕获和提醒,压缩设备故障响应时间。

4.3 大数据分析

采集设备在运行、维护过程中产生的数据,根据不同的数据类型和用途进行归档存储;通过对设备故障数据、处置意见等进行综合关联分析,建立相应的设备故障诊断模型;根据诊断结果给出相应的故障处置建议;采用基于长短期记忆(LSTM,Long Short-Term Memory)的预测技术预测设备性能指标值,通过预测值与实际值的差值范围判断是否进行阈值告警;基于设备故障频率、选取关键评价指标,建立设备健康状况评估模型;根据各指标的综合评分评估设备健康状态。

4.4 数据可视化

对采集数据进行计算分析,基于Vue 框架、搭载ElementUI 组件库,快速实现数据的可视化展示,采用折线图、饼图、柱状图等多种展现形式,使其可直接、形象地查看设备主/备用状态、在线情况、机柜位置信息、性能指标历史曲线、网络设备面板端口状态等,展示效果丰富、直观。数据库监测展示界面如图5 所示。

图5 数据库监测展示界面

5 系统应用

目前,黄骅港智能调度与控制系统运维平台已经研发完成。维护人员可通过该平台实时查看设备的基础参数信息、运行状态、机柜位置分布、告警信息及数据库关键指标等,便捷、快速地进行故障日志的收集、终端操作日志查询及数据备份等日常维护操作,提升运维工作效率。

6 结束语

为满足黄骅港智能调度与控制系统高可靠性的运维需求,设计并实现了以设备资产管理为核心的全生命周期管理的运维平台。该平台通过集成化的设备状态监测技术可有效提高运维工作效率,减轻维护人员工作强度。随着平台的运行,将产生海量的监测数据、维护数据,我们将进一步研究、挖掘以数据驱动为核心的数据价值,发现数据间的关系和规律,将其应用于运维平台中。

猜你喜欢
黄骅港运维调度
《调度集中系统(CTC)/列车调度指挥系统(TDCS)维护手册》正式出版
一种基于负载均衡的Kubernetes调度改进算法
运维技术研发决策中ITSS运维成熟度模型应用初探
虚拟机实时迁移调度算法
风电运维困局
能源(2018年8期)2018-09-21 07:57:24
杂乱无章的光伏运维 百亿市场如何成长
能源(2017年11期)2017-12-13 08:12:25
黄骅港极端恶劣天气下具体引航对策
珠江水运(2016年23期)2017-01-04 16:06:14
基于ITIL的运维管理创新实践浅析
黄骅港两港区跻身“国家重点港区”
水道港口(2016年4期)2016-04-07 13:24:51
黄骅港口岸扩大开放获国务院批复
水道港口(2015年5期)2015-04-06 15:12:58