“智慧监控”引领网络维护智能化

2020-07-10 00:53蒋永西张正锴
江苏通信 2020年3期
关键词:工单光缆障碍

陆 震 蒋永西 张正锴 庄 静

1.中邮建技术有限公司;2.南京科通通信工程技术服务有限公司

0 引言

在人工智能的共识下,新世纪的通信运营商深刻认识到在行业新常态下面对这样的新挑战,需要不断提升业务水平和服务能力,满足移动互联时代快速响应和端到端服务的巨大需求,确保为客户提供最优质的服务体验。而满足客户需求和提供优质服务的一个重要前提是将人工智能的思维形态和维护模式作为现阶段通信运营商实现新发展、获得新成就的核心引擎。

通信维护,作为整个通信生态至关重要的一环,对通信网络的正常运营和客户的使用感知,都有着直接和广泛的影响。目前,通信设备维护量巨大,人均维护设备数量提升超过50%,而且随着用户数量的增加不断增多,在基本实现集约增效的前提下,迫切需要深入贯彻人工智能思维,进一步利用智能化工具深度优化维护工作,显著提升客户感知和业务效率,完善通信运营商的集约维护运营体系。

1 网络演进实施背景

1.1 通信运营商内部要求

1.1.1 网络演进

随着百兆宽带、高清ITV及LTE业务的部署和发展,通信网络中的设备种类多样性越发显著,集中化趋势越来越明显,设备的集中化带来监控集约化,分散式交换演变为IMS,数据专业扁平化,平台专业云化。需要更先进的维护手段才能满足集中化网络。

网络集中化后,大量设备使得现网的复杂程度和网络容量成级数倍的上升,现网的网络管理需要一种更加精细化和智慧化的网络监控手段。

以某省一家通信运营商为例,日均告警量已达140万条,需要预处理的告警5700条,工单2633张,监控人员预处理人员只有33人,人均工作超负荷,预处理及时率和准确率无法保证,故障告警预处理人员需掌握不同厂家设备处理方法,难以深入处理。

这就需要集中监控和集约化维护向智慧监控转变,传统的网络运维管理方式已经无法满足“面向端到端业务,面向客户管理”的业务需求。为了建立与全业务发展相适应的新运维故障管理体系,网络故障管理应该从被动的告警监控向更智慧的层面上转变。

1.1.2 网络监控的要求

网络集中监控以后,省集中监控中心不仅是全省网络监控的第一责任人,同时也成为全省网络安全运行第一责任人,承担全省集中监控、网络分析、通信保障、客服支撑、设备资源管理等工作的第一责任人职责。在监控人员变少,网络设备复杂的情况下,原有的监控模式面临如下四个挑战:

(1)发现和分析挑战。集中化程度高,集约化、跨专业影响面大,障碍原因复杂且难以查找,对如何发现定位障碍提出了新的挑战,所以我们要更智慧地发现和分析,从网络告警监控向用户感知转变:及时发现、提前预警、智能预处理。

(2)人工调度,个性化多。多家分公司维护人员数以千计,各分公司网络业务规模千差万别,维护人员业务水平参差不齐,造成了人工调度工单效率低,无法满足各分公司个性化需求。

(3)设备管理越来越智能化、集约化后,对故障远程处理和终结的要求也越来越高。从现场处理到远程处理的转变要求故障处理更加智能化,对监控人员远程处理技能相应提出了更高的要求。各厂家网管各不同,需要监控人员掌握不同厂家设备处理方法,对监控人员要求高,培训时间长。

(4)集中化-集约化-智慧监控。网络监控从集中化到集约化再到智慧监控演进的过程中,网络越来越复杂,设备越来越多,传统的监控模式捉襟见肘,无法适应新集约化模式。

1.2 外部要求

工业4.0人工智能的普及。工业4.0是德国政府《德国2020高技术战略》中所提出的十大未来项目之一。该项目由德国联邦教育局及研究部和联邦经济技术部联合资助,投资预计达2亿欧元。旨在提升制造业的智能化水平,建立具有适应性、资源效率及基因工程学的智慧工厂,在商业流程及价值流程中整合客户及商业伙伴。其技术基础是网络实体系统及物联网。人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

2 主要措施

为解决网络集中监控后出现的种种挑战,需要从智慧监控方面入手,一一解决难题。主要分为四个方面:智慧发现、智慧分析、智慧调度、智慧处理。

2.1 智慧发现

2.1.1 跨专业群障定位

随着通信运营商集约化维护的深入推进,部分运营商已实现了网络设备与客户的省级集中监控,以及公众客户申告的集中支撑处理。但跨专业群障一直是集中监控后突破的难点,其主要面临以下困难:涉及面广、定位滞后、升级规范乱、业务影响大。解决跨专业定位和升级规范的问题,对集中监控质量的提升有着重要意义。

某省运营商通过应用群发障碍综合定位平台系统发现跨专业障碍,采取全省统一跨专业障碍升级规范,解决了长久以来集中监控面临的跨专业障碍发现难、升级与交互工作复杂的问题。群发障碍综合定位平台实现了集中监控过程中跨专业、大面积故障快速定位,增强了智能处理手段,提高了障碍处理效率,实现了以下四大定位:

(1)定位光缆障碍

通过完善光缆资料,补录光缆两端设备端口信息,实现光缆与设备相关联,根据资源系统的数据源生成ONU-OLT的链路及OLT-BRAS/SR之间的链路与缆段的关系,根据告警信息查询资源可定位到具体光缆。维护人员不用盲目查找原因,迅速定位障碍点,为恢复障碍赢得宝贵时间。如图1所示。

图1 光缆故障与设备资源关联

(2)定位故障设备

根据资源系统的数据源生成从ONU到OLT到BRAS/SR的拓扑结构,根据具体的告警信息可定位到具体的设备及其上下联设备以及具体的链路信息。例如BRAS下多个OLT中断,同时上联的同一BRAS端口有告警,则定位到BRAS端口问题。

(3)定位障碍区域

根据网元地址、局向信息、光缆信息进行定位。例如多个ONU故障定位到同一条光缆上,或多个DSLAM故障定位到同一条光缆上。

(4)定位群障申告量

将用户资料与网络资源关联,群障发生后,通过调用资源查询该群障影响的所有用户,呈现用户申告的详细信息。从而解决用户申告与群障相关联的难题,强化了对群障影响范围及申告的掌控。

2.1.2 智能预警

(1)机房环境网络智能预警

主要从以下几个方面实现机房环境网络智能预警:1)实时发现机房电压、温度异常,强化性能告警监控;2)业务中断前及时触发网络预警;3)根据关联影响风险的上层业务设备清单自动触发预警;4)依据设备类型分类,分析影响范围,实现从物理底层到应用层的全面监控。如图2所示。

图2 机房环境智能预警

(2)光缆群障智能发现和预警

主要有以下几个方面(见图3):

1)智能关联多专业的告警信息,及时发现光缆障碍;2)自动预警受影响范围和用户数,实现网络与上层业务的故障关联;3)预警存在风险的业务,加强巡视备用线路。

图3 光缆群障智能分析

2.2 智慧分析

资源管理支撑智能监控精准定位。包括以下几个方面:

(1)开发工具支撑定位异常分析。开发光缆信息查询、光缆设备告警一键关联、未归并光缆关联分析三个小工具,支撑光缆和光路关联场景归并定位异常分析。

(2)开发告警定位模拟器支撑定位异常分析。异常定位故障导入案例库,可调整告警时间、告警等级、处理时间重新模拟;自动提示不符合预期定位具体判断规则,便于告警定位异常分析。

(3)充分利用资源数据优化规则。利用资源数据做好告警关联归并,同一故障告警不遗漏;优化规则,充分利用资源关联,实现部分障碍无告警定位,例如板卡故障无告警定位。如图4所示。

图4 告警关联归并

2.3 智慧调度

2.3.1 建设“应急保障统一沟通平台”,提升障碍处理沟通效率

(1)当前问题与解决办法

当前问题:应急保障时多为电话、点对点QQ沟通,沟通效率低。

解决办法:建设“应急保障统一沟通平台”。

(2)实现方法

建设应急保障一键召集操作场景,嵌入工单系统。

1)通过人员姓名、账号方式选择人员,快速新建讨论组;2)配置常用维护组人员模板,实现一键创建讨论组;3)支持应急保障期间的总结文档、过程记录等文件留档;4)实现网络故障工单链接分享,方便维护人员快速了解故障详情。如图5所示。

图5 应急保障统一沟通平台

2.3.2 利用智慧调度,实现接入层监控的自动化、智能化

(1)工单系统。1)实现接入层工单自动转派、追派、挂起的功能,减轻集中监控岗工作量,提升一线人员故障处理效率;2)开发异常工单管控箱、升级策略等功能,实现对乒乓单的人工管控,并对疑难工单实行自动升级。如图6所示。

(2)智慧监控管理系统。利用系统将集中实现转派、追派、挂起规则的配置。

图6 异常工单转人工审核

2.4 智慧处理

2.4.1 处理能力集中配置、集中呈现,提升障碍处理效率

(1)在工单系统的工单内容呈现上,增加“智能预处理”模块,包括性能、业务、定位、指导四大功能,并提供主动查询按钮。

(2)将现有预处理能力以“原子能力”的方式集中管理与呈现。

(3)模块界面由“智慧监控管理系统”集中实现,嵌入工单系统中。

2.4.2 打造集中管理、统一配置的“智慧监控管理系统”

(1)新建“智慧监控管理系统”,集中配置,统一管理,监控日常使用的配置场景集中管理,包括网管配置、告警配置、派单配置、群障配置、预处理配置等场景。如图7所示。

(2)与告警系统、工单系统对接,同步现有的配置能力。

(3)采用“互联网+”的设计理念,提升用户友好性。1)借鉴“淘宝”、“京东”等页面的设计思路,打破传统生产系统的配置模式,引入“互联网+”的设计风格;2)关注用户体验:页面简洁大方,交互性强,快速配置。

2.4.3 提升配置的灵活性,做到好用、易用

在智慧监控管理系统实现灵活配置:配置元素、条件、结果进行抽象归类,实现组合配置,增加了配置的灵活性。

图7 策略配置

3 结语

通过智慧监控,不仅减轻了一线维护人员的工作压力,而且提升了故障处理效率。跨专业分析和故障定位,减少了派发岗位,以及非处理故障岗位的工单量;智慧分析,能减少用户申告,提升客户感知度,总体上节约了维护的人员。

猜你喜欢
工单光缆障碍
客服工单监控技术的开发与研究
基于量化考核的基层班组管理系统的设计与应用
睡眠障碍,远不是失眠那么简单
铺条长长的海底光缆
多光缆的光纤通信信号多路传输系统
跟踪导练(四)2
跨越障碍
基于HANA的工单备件采购联合报表的研究与实现
电力95598热线全业务集中后的工单预警机制
家庭教育过于执着是孩子成长的障碍