城市轨道交通通信系统智能运维设计

2023-05-30 07:14马宏伟
计算机与网络 2023年2期
关键词:通信系统城市轨道交通

马宏伟

摘要:城市轨道交通通信系统智能运维是应用数据和智能技术对运营生产任务进行赋能,以关键设施设备为主要管控对象,采用云计算、物联网、大数据和人工智能等技术,围绕设施设备运维全过程质量控制开展全面数字化、互联化和智能化,实现关键系统和设备故障自诊断、远程集中检测、专家系统综合决策、故障预测和健康管理等功能的综合智能维修系统,以提高安全服务水平和管理效率,降低劳动强度、技能要求和运维成本。

关键词:城市轨道交通;通信系统;智能运维

中图分类号:TP393文献标志码:A文章编号:1008-1739(2023)02-57-5

0引言

近年来,随着我国城市轨道交通线网规模的不断壮大,全国轨道交通运营线路迅猛发展,给运营公司的维保工作带来了严峻的考验。因此,城市轨道交通企业利用大数据、云计算、物联网和人工智能等新技术,在城市轨道交通智能运维领域进行探索,智能运维逐渐成为行业的焦点[2]。

目前,各城市轨道交通通信系统的运维手段基本是靠集中告警子系统上报各子系统的设备状态信息、告警信息,经运营工班人员初步分析故障后,派技术人员至现场查看故障现象,诊断故障问题,进行数据维护或者硬件更换,基本能实现故障现象的收集上报及定位[3]。但是,既有的集中告警系统中,对设备故障的分析、对状态数据的深度挖掘以及对设备的全寿命周期管理做得并不深入,尚未进入到以关键部件状态评估、寿命预测为核心的状态检修阶段。

智能运维可提升设备检修的智慧化水平达到节能、减员增效和提高管理水平的目的,更重要的是可以为乘客提供更舒服、安全、可靠和人性化的服务,提升乘客出行体验。

1轨道交通通信系统智能运维建设总体目标

通过融合各子系统告警、性能和日志等数据,在建立业务关键指标体系的基础上,挖掘数据规律,打破数据孤岛、业务割裂等问题;通过数据和算法研判能力,减少人的不安全行为以及物的不安全状态,提高地铁运营的安全性;通过数据辅助决策能力,提高运维工作的自动化程度,事前异常预警、故障快速处置、情况全面掌握;通过人工智能和AI的分析,提升对运维数据的认知能力,智能辅助故障诊断,助力运维人员快速洞察人力难以企及的故障和问题。同时准确预警系统风险,化被动运维为主动运维,推动运营维护工作由计划修向状态修演进,以数字化、智能化手段,实现运维工作的提质增效。

2轨道交通通信系统智能运维功能介绍

2.1数据采集与检测功能

数据采集和检测的目标子系统包括关键设备、传输系统、专用无线(LTE)、公务电话(软交换)、专用电话(程控交换)、广播系统、视频监视系统、乘客信息系统、时钟系统和电源系统等。

智能运维系统采集各系统交换机(包含视频监视系统汇聚交换机和核心交换机、PIS系统交换机和广播系统交换机等)的端口实时速率、CPU利用率、内存使用情况和设备温度等信息。采集各系统服务器、录音设备、视频监视终端和系统网管终端等设备CPU利用率、内存使用情况、网口收发速率及硬盘使用情况等参数。采集检测传输主设备光口收发光功率、误码率、丢包率、信息传输时延、板卡温度、内存使用率、CPU使用率和磁盘使用率等数据。智能运维系统检测中心交换机及基站的呼叫成功率、业务信道占用率、呼叫时间、服务器CPU工作状态、服务器硬盘工作状态、服务器内存使用率、服务器CPU使用率、服务器磁盘使用率、无线调度台CPU使用率和硬盘使用率等。智能运维系统检测调度交换机呼叫次数、应答次数、呼叫成功率、专用电话系统录音设备端口电压数据以及录音通道连接状态等。智能运维系统检测中心服务器、接口服务器、磁盘阵列、图像监控服务器、发布工作站、媒体编辑工作站、系统管理工作站和播放控制器服务器在线状态等信息。智能运维系统检测工控机CPU工作状态、工控机硬盘工作状态、功率放大器的使用状态和各广播分区的扬声器声音大小。智能运维系统检测二级母钟的校时情况、对其他系统的授时情况和各终端子钟的电压电流情况。智能运维系统采集检测电源系统设备2路输入电源的电压、电流和频率。采集交、直流输出电源的电压、电流、频率和输出分路状态等。采集UPS的输出电压、电流和频率。

2.2综合态势分析功能

綜合态势分析汇聚数据分析结构,以图表方式多维度展现和监测所关注指标,以辅助领导决策。以拓扑图形式直观展示线网、线路、站点的当前运行状态,并与各个中心指标联动展示,当点选具体线路或站点时,指标自动统计展示选中线路或站点的统计结果,展示统计信息包括:当前告警、当前工单展示,以文本形式滚动展示当前设备报警信息及待处理工单,与拓扑图联动变化;告警数量、工单数量、故障数量等总数和未处理量;告警排名,按子系统或站点维度为告警数量做排名;告警趋势分析,以统计图形式对告警变化趋势进行展示;各机房温湿度变化趋势以及异常预警。

2.3系统拓扑功能

智能运维系统采用BIM和数字孪生技术,提供线路—站点拓扑以及子系统连接拓扑2种拓扑显示方式,具备良好的用户界面和交互体验。

线路—站点拓扑以设备或系统的实际物理拓扑为基础信息,按照线路、站点、机房、机柜和设备等层级进行逐次下钻。系统以3D方式显示机房、机柜的结构、位置和组成等信息,其中设备3D模型按子架、槽位、板卡以及端口层级显示组成结构,设备模型最小粒度支持端口级别渲染和显示。系统通过网元拓扑颜色变化反映当前网元的运行状态以及告警信息,通过选中操作显示选定对象的扩展信息,包括:此对象的名称、位置、状态、当前告警条数、当前告警的级别、告警内容及原因的简单描述等,以及设备实时工作性能参数,并用曲线形式展示相应历史工作性能参数。

系统拓扑以系统网络或业务连接结构为视角,以图形方式显示各通信子系统的网络拓扑,并实时、动态显示被管设备的运行状态。相同地,系统实时采集各通信子系统的所有告警和运行参数,经过预警或告警过滤后将在拓扑图的相应图标上进行显示。

2.4告警及设备管理功能

告警分为当前告警和历史告警,告警管理模块提供告警等级区分、告警显示、告警过滤、告警设置、告警确认、告警清除、告警重复、告警屏蔽、告警受理、告警拓扑定位以及告警知识库等功能。告警等级一般分为致命告警、重要告警、一般告警、提示告警和未知告警。系统以告警列表的方式呈现告警,可以在网络拓扑中通过图标或文字变色的方式呈现被管对象的告警。同时系统具备对新产生的告警进行声音提示的功能。在网络拓扑图上动态反映各通信子系统网络及设备故障告警和超门限告警,告警通过声音、网络拓扑图颜色变化来反映当前网络的告警信息。告警过滤可以使界面用户根据自己的关注角度不同来设定不同的过滤条件,过滤出自己关心的告警信息。系统提供告警自动和手工确认的功能,在告警字段中有明确的告警确认标志,便于查询。

设备管理功能主要包含设备类型管理和设备管理。其中,设备类型管理对组成设备的基本单元进行管理,包括设备名称、型号规格、设备分类、空间、尺寸、图片和技术资料等内容,系统支持按照不同视图对设备类型进行过滤显示;设备管理采用层级列表方式显示管理设备信息,包括设备编号、所属子系统、物理位置和版本号等信息,可以对设备进行设备工程模式、设备导出和设备导入等操作。

2.5数据分析功能

2.5.1趋势分析

通过对性能数据的实时分析,实现基于规则和基于算法模型的2种方式预警。其中,规则阈值预警支持用户针对指标手动设置阈值规则,当实时性能数据超过该阈值一定周期后产生预警。在现实场景中,手动设置阈值规则,往往存在严重依赖工程师经验、难以全面总结以及无法快速动态调整以适应业务发展的缺点。因此,本系统提供基于人工智能算法的智能预警功能,建立基于时序模型的异常检测功能,实现对具有时序性特点的性能数据自动异常预警。支持对时序数据突增、突减、频率变化和整体趋势变化4类模型的异常检测。

构建各通信系统的指标体系,并对相关基础指标和业务指标进行管理。系统内置网络、服务器、专用无线、公专电话和乘客信息等系统相关指标,同时支持指标的增删改查。针对性能指标设置告警阈值,当设备性能参数超过该阈值时则产生预警。对电源系统、视频监控系统、乘客信息系统和无线系统等设备通过采集和分析历史性能运行趋势数据,建立基于时序模型的异常检测功能,实现对性能运行趋势的自动异常预警,提前发现系统隐患并给出提醒。

结合通信设备包括但不限于传输、无线、乘客信息系统以及视频监控系统各端口光功率采集数据,建立趋势曲线,设置阈值,分析趋势曲线针对光功率劣化情况进行提前预警。结合乘客信息系统服务器、视频监控服务器、无线系统服务器、专用电话录音工控机中应用软件进程状态及服务器CPU、内存和硬盘使用率等采集数据,建立分析模型,提前发现系统隐患。结合蓄电池充放电电流、放电时间等采集数据,建立分析模型,计算蓄电池容量及性能变化趋势,实现异常情况的提前预警。分析传输业务端口实时流量,建立分析模型,进行异常预警,并分析流量变化趋势。

2.5.2日志分析

对各子系统设备操作和运行日志数据的批量、实时同步、解析以及索引构建,对日志按关键字、级别和时间等检索条件进行检索,解析后日志内容查看和关键字高亮显示。跨系统日志串联分析,分析无线系统、广播系统、乘客信息系統与ATS设备接口日志,提前发现到站异常信息,进行预警,并且在故障发生后,能够对比接口专业日志,定位具体故障位置。对告警、故障和工单的多维度统计分析,形成专项统计列表及饼图。

2.6维修生产管理功能

维修生产中心以日常检修和故障维修业务为基础展开设计,实现设备检修计划联动和故障闭环管理,根据运行监测中心和数据分析中心提供的运行数据,给出维修策略和维修建议,实现设备计划修向状态修的转变。该中心实现作业人员库、备品备件库、作业工单管理和故障台账管理等功能。

作业人员构建正线工班和OCC人员基础信息库,支持人员基本信息的增、删、改和查数据维护功能,为日常检修计划流转和故障快速维修提供人员信息支撑。

备品备件构建了各类通信设备的备品备件库,支持备品备件型号、批次、数量和货位等信息的管理和维护,支持在故障维修过程中备品备件消耗台账的查看,为日常检修和故障维修中处置更换问题部件提供便捷手段。

工单管理完成故障维修工单的管理和线上流转。维修工单主要根据设备故障报警情况生成故障工单,自动关联专家库中的维修策略和建议,指导正线工班进行故障处置,并在工单闭环后根据过程记录和反馈自动生成故障台账,提升故障处置的准确性和维修效率,减轻工班工作压力。智能运维移动App围绕工单的闭合管控,实现故障的全流程管理,主要提供设备查看、告警查看和工单接收处置反馈等功能[4]。

故障管理包括故障清单和故障台账。故障清单记录当前尚未处理的故障信息,支持对故障的添加、修改和删除等信息维护操作,同时支持故障下发工单进行维修,或手动触发应急事件,启动应急预案。故障台账是故障维修闭环的产物,根据故障维修工单处置过程自动生成,实现故障信息、处置情况和闭环情况的记录。

巡检管理主要完成年、月检修计划的管理维护,可提前预存检修计划,录入后在相应时间点系统自动提醒工班人员执行巡检计划,并可在计划执行中和完成后进行检修项的反馈和记录,实现检修计划闭环。

2.7设备健康台账及应急管理功能

设备台账是建立设备全生命周期管理过程,通过设备台账实现设备履历表的智能管理,从设备入场、使用、维护和故障进行全生命周期的智能化管理,明确每个设备位置、型号、供应商、编号、序列号和版本号等基本信息,同时建立设备维护文档、技术指标等信息,实现设备周期更换、型号匹配和自动提醒等功能。

应急管理中心围绕应急预案和应急事件处置业务设计,通过健全故障应急协同体系,做到故障后辅助运营组织,并提供应急决策建议,实现运营组织调整快速响应。该中心可实现应急预案设置、应急事件分析、定位和处置等功能。

3轨道交通通信系统智能运维设备组成

智能运维系统由负载均衡服务器、容器云服务器、大数据集群服务器和数据库服务器组成,系统设备组成如图1所示。

智能运维系统在控制中心设置业务支撑服务器、应用服务器、存储服务器、智能运维系统客户端和交换机等设备,在控制中心与各子系统的网管服务器或网管终端相连,各子系统网管设备通过网络接口向本系统提供告警数据[5]。

智能运维系统服务器及以太网交换机安装于通信设备室智能运维系统机柜中,其余设备安装于设备室或网管室。

智能运维系统边界采用Nginx主从方式部署,在屏蔽业务系统细节的同时,提供业务系统的横向扩展功能;业务系统部署在包含5个节点的Kubernetes容器云中;大数据集群由1台调度节点和2台存储计算节点组成;数据库服务器采用双主模式部署,向磁盘阵列存储数据。

4轨道交通通信系统智能运维技术架构

整个系统技术架构从下到上依次分为数据接入层、平台服务层、支撑服务层、业务服务层和应用服务层5部分,如图2所示。

数据接入层为平台服务提供基础数据源,数据来源包含传输系统、公务电话系统、专用电话系统、无线通信系统、视频监视系统、广播系统、整合电源系统、乘客信息系统、时钟系统以及智能PDU设备,以太网交换机等设备。

平台服务层包含大数据分析系统、人工智能系统、Docker和Kubernetes容器云,其中大数据和人工智能系统通过对专用通信系统上报的设备信息建立相应的模型、方法和预案,生成相应的预警和告警信息。业务服务采用Docker镜像方式部署在容器云中,Kubernetes提供资源调度、资源治理和镜像治理等功能。

支撑服务层整合智能应用平台中的微服务架构体系,为业务服务提供运行时的支撑环境。其中,服务网关组件屏蔽内部多个服务的实现细节,对外提供统一的接口,同时提供反向路由、安全认证、限流熔断和日志监控等功能。注册发现组件提供服务的注册、发现以及负载均衡等服务治理功能;配置中心组件能够集中化管理应用不同环境、不同集群的配置,配置修改后能够实时推送到应用端;认证授权组件实现应用的单点登录以及服务的安全认证和授权功能;容错限流组件实现流量高峰时服务的熔断、隔离、限流和降级功能;监控告警组件提供服务的调用链监控、Metrics监控以及日志监控功能。

业务服務层主要由运行监测中心、数据分析中心、应急管理中心、健康管理中心和维修生产中心5大业务模块组成,完整支撑运营日常工作需求。

应用服务层结合最新的前端显示技术,为运营人员提供良好的人机交互界面。主页及各中心图表通过Echarts进行展示。Echarts提供了丰富的可视化类型、千万级的数据可视化渲染能力、多形式渲染及跨平台能力、多维数据的支持以及丰富的视觉编码手段等特性,多维度、更绚丽、更直观地为用户展现设备运行状态、趋势和站点拓扑等各类显示元素;采用2D图片加js算法或者3Dthree.js,webGL技术实现站点下的3D机房及机柜的展示;使用百度地图和mapbox等组件实现GIS功能。

5结束语

城市轨道交通必将长期伴随我国城市的发展进程,智能运维也是轨道交通智慧化生产的创新产物,通信系统的智能运维技术必将以点带面,在前期已实施工作的基础上,以轨道交通各大系统和专业信息共享为基石,坚持智慧运维顶层设计,建立城市轨道交通设计—建设—运营—维保产业链信息共享和正向反馈体系,提升运营风险管控能力,降低全生命周期运营成本,提升乘客出行满意度,实现城市轨道交通智能运维体系全面联动的永续发展[6]。

参考文献

[1]王冰,李洋,王文斌,等.城市轨道交通智能运维技术发展及智能基础设施建设方法研究[J].现代轨道交通,2020(8): 75-82.

[2]贾文峥,胡雪霏,熊振兴,等.城市轨道交通智能维保发展现状及趋势[J].都市快轨交通,2020,33(2):14-19.

[3]程家良,周莉.城市轨道交通运营设备维护维保模式探析[J].商品与质量,2022(3):108-110.

[4]荆晶.轨道交通通信系统向智能运维演进的思考[J].交通科技与管理,2021(17):25-27.

[5]李毅炜.地铁通信智能运维系统应用和实践[J].汽车博览, 2021(17):193-194.

[6]中国城市轨道交通协会.中国城市轨道交通智慧城轨发展纲要[J].城市轨道交通,2020(4):8-23.

猜你喜欢
通信系统城市轨道交通
对宁夏高速公路干线网络维护现状及未来监测方式的探讨
城市轨道交通通信传输系统的方案选择
失效网络中节点可通信性能评估方法研究
基于电力线信道分析的调制解调方式选择
基于BP神经网络的轨道客流短期预测
智能视频监控系统在城市轨道交通的应用与发展趋势
浅析计算机网络与通信系统
我国城市轨道交通突发事件分析及对策
智能电网建设与调控一体化发展研究
基于html5及android平台的幼儿接送系统