何璐璐 杜智超 嵇 聪 章 勇 刘 璐
1 中国移动通信集团云南有限公司 昆明 650228
2 中国移动通信集团设计院有限公司重庆分公司 重庆 401121
在运营商传统网络运维中,因智慧维护演进路线及自智分级评估不明确,较难对无线网络运维域中各项核心能力、子场景进行有效评价,导致出现实际工作目标不清晰、资源投放精准性不高等问题,严重影响网络运维的效率和成本。针对现有维护域的工作模式,在TM Forum自动驾驶网络分级框架的指导原则下,依据集团自智能力分级细则,并结合省内智慧网络运维管理的实际需求出发,亟需构建智慧维护平台,由被动处理问题改为积极预防问题,从而提高整体资源的利用率和维护效率,实现2025年L4的整体智能水平。
TM Forum自动驾驶网络旨在面向消费者和垂直行业客户提供全自动、零等待、零接触、零故障的创新网络服务与ICT业务,打造自服务、自修复、自优化的通信网络,为通信网络运维数智化转型明晰了目标架构和实现路径[1]。自智网络目标框架如图1所示。
图1 自智网络目标框架
结合自动化基础理论和通信网络特征,完成分级方法标准制定,基本形成产业共识,并在网络运维层面,已进一步细化形成相对完善的分级评估体系,开展规模评估验证,如图2所示。分级评估体系的制定过程包括以下四个方面:1)流程抽象:基于自动化/智能化基础理论,抽象出网络管控通用工作流程;2)确定原则:以“系统”替代“人工”完成工作流程的自主程度作为智能化水平评判基本原则;3)制定方法:根据各流程的需求优先级和产业成熟度,制定其在分级方法中的演进顺序、代际特征;4)评估量化:对单点应用/任务流程分别评估确定级别,对评估范围整体进行综合量化统计。
图2 自智网络分级方法和代际特征
其中图2中自智网络等级L0-L5具体内容如下。
L0:全流程人工完成。
L1:辅助人工,在执行和感知环节实现线上采集(记录),提高工作效率。
L2:自主执行,依赖人工预定义的固化规则辅助感知和分析过程。
L3:自主感知,根据人工配置/编排的规则(规则解耦),辅助分析/决策。
L4:自主分析/决策,根据用户意图需求自动生成规则/策略(规则注智)。
L5:全流程智能化,具备完全意图管理能力,实现自动演进。
以某省为例,2021年底省内运维域中共涉及6个自智网络核心能力,共有42个子场景,其中绝大部分处于L2水平,即基于固定规则的辅助分析阶段,整体评级约为2.2,如图3所示,与L3(网络自主感知)近期目标及L4(网络自主分析/决策)中远期目标仍有较大差距,亟需通过建设智慧维护平台满足目前集团现有自智网络维护域演进需求,以及契合省内实际生产维护“降本增效”的发展需要。
图3 自智网络能力评估结果
为实现提升智慧维护网络的自智水平目标,通过智慧维护平台的设计与实现,在故障识别、隐患识别、定界定位、处理方案关联、故障处理、指令巡检等六大核心能力方面进行重点研究。智慧维护平台技术架构主要包括原始数据采集、数据ETL(Extract-Transform-Load)、数据存储和后台业务处理、业务处理控制、业务展现层5个部分,如图4所示。
图4 端到端运维软件架构
其中原始数据可通过北向平台、EOMS工单系统、代维资产管理系统、动环检测系统及外部相关API接口数据(地理天气数据信息)进行采集。按照通用数据ETL处理方式,将数据从来源端经过抽取(Extract)、交互转换(Transform)、加载(Load)至目的端,从数据源抽取出所需的数据,经过数据清洗,最终依据预先定义好的数据仓库模型,将数据加载到数据仓库并存储至Hadoop集群中,通过AI平台算法及功能(聚类算法、常规分类算法、异常检测算法、深度置信网络、堆叠自动编码器、循环神经网络等[2-3])结合专家知识库进行智能任务调度及后台业务处理。业务处理控制主要细化各模块功能,通过相关业务逻辑中间件实现模块功能。业务展现层基于前端公共模块相关技术对站点画像、区域画像、隐患管理、地理化分析等进行界面化呈现。
智慧维护平台功能架构主要由两大部分组成:网络运营中心NOC(Network Operation Center)和现场外线,如图5所示。
图5 智慧维护平台功能架构
NOC是实现远程实时监控服务运营和检测设备状况的网络化中心,主要涉及运维设计、运维监控、故障分析、诊断测试等几大功能模块,可结合运营商EOMS(Electric Operation Maintenance System)电子运维系统进行任务工单派发,将NOC嵌入现有运维流程可提高相关技术、流程、组织及管理效率,进而提升网络与服务的稳定性与可预见性。其中运维监控、故障分析、诊断测试等模块主要提升维护域中故障识别、隐患识别、定界定位、处理方案关联等自智网络核心能力。
现场外线主要是承载、处理、闭环EMOS电子运维系统所派发任务工单,包括现场维护人员的任务调度、资源调度及部分指令巡检无法解决的,需要最终现场进行排障巡检。
3.1.1 运维设计功能
运维设计功能主要包括两部分功能设计:运维规则设计与AI辅助规则设计,主要应对自智网络L3评级标准要求,即将经验规则从系统中解耦,系统支持图形化界面自主配置故障识别特征和识别模板,系统基于规则自动关联跨域故障、隐患,识别网络故障事件或隐患事件,并按照解耦的规则自动定界定位故障原因,生成结构化处理方案,当规则需要调整时,只需二次配置。
其中运维规则设计主要来源于运营商长期积累的相关运维经验,制定分析规则、诊断规则、派发规则、调度规则、激活规则等,将上述规则应用于可视化设计分析中,为自动化运维提供快速设计能力[4]。
AI辅助规则设计则是由传统技术专家进行专业设计转变为通过AI技术辅助进行根因规则设计。将相关网元类型、告警类型、告警信息、告警码、位置信息等作为输入项,通过神经网络相关算法最终输出AI辅助规则[5-6]。
3.1.2 运维监控功能
通过对数据源、数据表等分析进行场景监控设计,可视化呈现多系统、多界面的监控。
场景运维监控可对网络全景监控,也可选择性针对主题监控,定制适合实际需求的个性化监控功能。将之前被动运维、基本无故障预测转变为隐患故障可预测及规避。
3.1.3 故障分析功能
通过部署RCA(Root Cause Analysis)根因分析规则挖掘工具,根据算法学习出固有规律,形成规则放入RCA中进行告警根因查看和告警抑制压减。
再结合性能指标、参数配置、相关变更情况、问题日志等进行多源关联分析,从而对故障进一步确认,提高故障分析的准确性及效率性。
3.1.4 诊断测试功能
诊断测试功能主要包含人工诊断指令及自动诊断脚本两部分。
首先通过人工诊断指令下发至网元管理系统(Element Management System,EMS),再由EMS反馈诊断结果至人工诊断指令部分;自动诊断脚本可批量生成指令,再由EMS反馈上报相关诊断报告,将诊断结果或诊断报告中异常问题自动创建维护工单并指派现场处理,交由现场工单管理,进行后续流程处理。
3.1.5 工单派发功能
工单关联RCA的关联规则,进行根故障派单、子故障合并派单,综合考虑网络拓扑、运维经验等信息,例如同一基站下所有小区退服,则合并为一个业务工单,从源头减少派单量,提高故障解决效率,如图6所示。
图6 工单派发功能
T1为告警消除最大量时间点,T2为关联指派时间点,T3为告警派发最长时限,通过分析历史告警,给出最佳关联时间点阈值,减少消除告警的无效派单量,通过关联减少派单总量,提升运维效率,通过动态设置派单时间阈值,追加合并派单,减少无效派单、重复派单。
3.2.1 故障单处理
集中故障告警平台针对告警监控进行结果输出,在创建TT(Trouble Ticket)工单之前,需要等待一定告警清除时间,避免相关工单追回。当系统收到TT的告警清除消息后,可以自动关闭TT单和相对应的WO(Work Order)单,如图7所示。
图7 故障单处理
通过运维经验和对历史工单进行机器学习、挖掘工单相关性规则,启动策略归并重复工单,去除无效工单。
3.2.2 任务及资源调度
对于外部系统派发的TT单,在某些应用场景下,不需要相关分析处理,可以直接派发至外场工程师处进行解决。对于这种应用场景,系统提供TT单自动受理并派发子单的功能。当系统接收到TT单时,自动以系统超级用户来受理TT单,然后进行处理,在处理该步骤时可自动选择生成WO单,并生成子单。智能调度主要是将任务通过AI调度引擎进行工单计划制订、位置及路线规划、员工能力及工具需求分析,把任务与资源相结合达到最佳匹配效果。通过人员调度、资源调度、路径规划等可实现工单“零”时间指派、合理安排人员工作任务量,提升派单准确率、提升平均工单响应时长及资源使用效率。
3.2.3 自动巡检管理
自动巡检管理主要涉及巡检配置管理、巡检规则管理、巡检任务列表、指令适配/执行及自动输出巡检报告功能,如图8、图9所示。
图9 自动巡检流程
巡检配置管理包括基础数据配置管理、设备网元配置管理、任务/方案管理及门限/通知管理。
巡检规则管理的功能是制定相关巡检规则(专业网信息、作业计划等)以及配置解析规则。
巡检任务列表可对巡检计划定义接口、巡检定时任务,以及查看巡检任务列表。
指令适配及执行由自动巡检功能发现维护类问题,通过模板初始化规则及指令创建规则生成巡检测试工单,再与指令模板进行匹配映射创建巡检任务,指令执行后将指令结果反馈闭环输出巡检报告。
系统可将相关维护要求结合站点资产信息进行综合呈现;历史数据包含告警次数、故障处理次数、站点话务量、数据量等信息;地理位置、区域、地形特征(高山、平原、河岸、洼地等)、耐候性;气象机构输出的相关天气数据,共同制定动态巡检计划,聚焦故障高发站点,主动预防历史故障重发,减少维护资源的浪费。
3.2.4 隐患管理
隐患管理主要针对异常项目生成智能巡检告警,自动完成对告警信息的分析,自动生成维护作业计划告警工单,维护人员根据隐患工单来处理隐患问题[7]。
在巡检设备上(铁塔、基站等),放置NFC(Near Field Communication)标签,通过近距离无线通讯技术,巡检人员按照路线的设置,依次到每个地点进行巡检并自动显示巡检内容。
4.1.1 站点健康度评估
基于站点设备种类、性能情况,结合站点环境、停电情况、备电时长、站点历史故障等信息建立站点健康度评估指标体系,并设定告警阈值自动触发维护工单有效预警,降低站点告警故障。
4.1.2 区域可视化
采用多种代维指标和站点客观运行指标,可以实现区域综合可视化,以区域为对象,提供整体指标统计分析,主要提升运维质量监控能力。
4.1.3 站点维护成本分析
通过对历史故障维护数据包括维护人员、车辆、油机、故障发生频率等信息提供站点维护成本数据,为过程成本量化、站点维护预算及后续投标成本核算提供数据支撑。
4.1.4 制定站点维护计划
基于站点重要级别、历史故障信息、天气状况等制定维护计划,对维护备件提供预测管理并减少站点故障率,降低单站维护成本。
4.2.1 GIS资产全景图
以维护网格为基础单元,对资源信息(人员、车辆、站点、油机)进行实时位置展示,工单关联、轨迹回放,实时了解资源状况,方便调度管理。
4.2.2 板卡板件全量监控
通过对现网板卡板件的入网时长、现网设备的返修总数/比例统计,按省市县的地理维度、厂家维度、板卡板件的类型维度进行全量监控,对存在硬件隐患、频繁老化返修等问题设备构建“机历卡”“病例库”,监控中心可全面掌握板卡板件的资源使用及健康度情况。
4.2.3 人员效率指标分析
对人员工单效率指标进行统计分析,包括上站任务详细信息及工作时长信息,对车辆效率指标分析,包括上站里程、规划里程分析,发现人员运维效率短板进行改进,提升效率,如表1所示。
表1 效率指标总体统计数据
智慧维护平台在提升自智网络水平评级方面,由L2.2提升至L3.0,有效提高了维护域内各项工作的管理能力,以及主动预防性运维及快速应急处理能力。随着实际应用的进一步深入,将继续完善智慧维护系统的技术架构演进,并将核心能力应用深度嵌入问题识别、问题分析、问题处理、问题质检等实际生产环节,达到助力网络运营降本增效的目的。