郑 军
南京中兴新软件有限公司
我国数字经济正在蓬勃发展,以5G为代表的新一代基础设施将成为数字经济的关键支撑,通信运营商正在全力打造“网、云、数、智、边、端、链”深度融合的新一代精品基础设施,助力全社会千行百业数智化转型。以5G、数据中心、工业互联网为主要特征的新基建,拉动了整个经济社会的发展,起到乘数倍加的效应。预计到2025年,我国5G网络建设投资累计将超过1.2万亿元,并带动产业链上下游以及各行业的应用投资超过3.5万亿元。
中国移动把握数字经济机遇,通过“泛在连接、算力网络、智慧中台”等举措,打造品质一流的新型基础设施。中国移动建成了全球最大的通信网络,具有高体系性、高复杂性、超大规模、高动态性、高可靠性的特征,亟需“深度感知、精准控制、自愈自优”的网络与运维能力,赋能数字经济发展,支撑敏捷高效运维;亟需通过全面推进“网络自动驾驶”,加快网络运维自身的数智化转型升级,实现智慧运维,支撑业务提质创收、支撑运维降本增效,助力中国移动四大目标(质量领先、安全可控、敏捷高效、降本逐优)早日实现,牵引信息服务迈上新台阶。
TM Forum制定了从L0至L5的自动化能力分级的宏观标准,对四类网络运维工作,按照自动化实现程度来划分不同等级,从完全手工维护到部分自动、高度自动,最终到完全自动化、智能化的智慧运维水平。具体分类分级标准描述参加表1所示。
表1 TM Forum AN L0~L5 能力分级标准
操作执行,主要是指网络设备配置、巡检、修复、割接等非硬件操作自动化。
网络感知,主要是指通过数字化设备实现自动采集,对哑资源可以通过设备实现智能识别。
分析决策,主要是指网络与业务故障监控、质量优化实现自动分析、自动定界定位、自动制定策略。
意图体验,主要是指实现隐患预测、容量预测、客户感知,实现智能洞察。
L0的主要特征是这些动作全靠手工进行,缺乏自动化的工具支撑;L1的特征是“执行”部分有自动化系统支撑,但是其他几个动作还是依赖手工;其他级别以此类推。
国内外主流运营商网络自动驾驶能力平均处于L1-L2之间。沃达丰欧洲7个子网(英国、德国、西班牙等),聚焦自动化率,预估评分1.6。中国联通2021年Q2,无线专业评分1.7。TM Forum 2020年调查83%的运营商计划3年内达到L2。中国移动2021年初全网重点专业平均L1.8,年底实现了L2,整体处于行业前列,但仍需加速提升数智化运维能力,力争全球领先。
第一步:积极参与产业标准推进。积极主导国际国内行业标准制定,牵引行业合作伙伴落地实施,总结和分享中国移动最佳实践,完善行业标准。
第二步:精心做好顶层设计。创新“234”AN能力分层架构;定义覆盖网络全生命周期的能力分域架构,分解37类核心运维能力;定义AN能力分级模型,从能力技术成熟度和能力应用成效两个维度综合评定。
第三步:大力开展数智化能力建设与应用。一方面建设好网元设备与OMC,引导设备厂商提升网元内生运维自动化、智能化能力,提升OMC集中化采控能力、数据与操作开放能力;另一方面,进一步完善网管系统,持续优化运维流程、业务规则、数据模型,提升单域自治、跨域协同能力,大力推动AI技术应用创新。
第四步:适时开展能力评估与分析。组织全网31省面向重点专业、业务、运维场景开展数智化能力评级;评选优秀创新能力标杆,推动全网复制推广;识别共性短板问题,针对性制定提升计划,并推广实施。
这四步是一个不断循环持续改进的过程,如图1所示。在下文中重点介绍第二步和第三步。
图1 中国移动网络自动驾驶实践方法
参考TM Forum网络运营架构模型,构建“234”AN能力分层架构,如图2所示。该架构模型的最上端是两大业务目标,分别是“客户发展”和“质量领先”;以这两大目标牵引,模型中嵌了三个闭环流程,分别是客户需求管理闭环、跨专业端到端业务管理闭环、单专业资源管理闭环;构建四层协同的网络运维数智化能力。
图2 中国移动“234” AN能力分层架构
面向网络专业的单域自治是指构建网元设备的内生运维能力,这是实现自动驾驶网络的基础要素。具体说明参考2.3.1。
跨域协同方面主要包括跨域端到端业务开通、运行保障、质量优化和运维研发化转型。具体说明参考2.3.2。
网络自动驾驶的能力覆盖网络全生命周期,以规化、建设、维护、优化、运营、资管6个运维域、11个核心运维场景(网络规划、设计部署、监控排障、网络巡检、容量优化、质量优化、业务开通、资源变更管理和资源数据管理等)为框架,持续梳理完善37类核心能力,从面向网络专业的单域自治和面向业务端到端的跨域协同两个方面,持续建设和完善网络运维的自动化、智能化能力。
2.3.1 专业单域自治
前面提到过专业单域自治是实现网络自动驾驶的基础要素,中国移动的网络包含最为核心的5大专业,分别是无线、核心网、云、IP、传输5大专业。联合设备厂家,重点提升OMC/专业运维工作台、网元设备的数据采集、集中控制、高可靠、自优化、可检测、可操作等6大项、18小项运维支撑能力,实现网元内生自动、内生智能,这个过程就是单域自治。各网络专业单域自治的基础要素如表2所示。
以核心网的单域自治来说,打造AI注智的“自配置、自修复、自优化”核心网,实现业务永不中断、变更安全高效和极致的业务体验。这个工作要重点提升本网元的OMC/专业运维工作台的能力,实现网元设备的数据自动采集,从而实现集中控制、可检测、自优化和高可靠等运维支撑能力。
第一是实现可感知。增强网元内生亚健康检测能力,解决隐患识别问题,提前预测预防,通过OMC实现海量数据隐患排查。
第二是实现高可靠。增强网元立体协同抗冲击能力,各网元内生智能流控能力,解决流量突发、信令浪涌等问题。通过OMC实现5GC容灾切换状态可视可管理。
第三是实现可操作。通过自动测试引擎,通过仿真UE实现智能拨测:解决人工拨测效率低问题;支持灰度拨测引擎,通过真实UE自动采集业务感知度数据,及时发现网络隐患。通过OMC实现拨测KPI可视,从而最终实现机器值守。
各专业自治包含的主要能力框架以及能力要素如表2所示。
表2 各专业单域自治的基础要素
2.3.2 跨域协同——端到端业务运营
端到端业务运营包括业务的开通、运行保障以及质量优化。
(1)在端到端业务开通方面实现了自勘察、自设计、自开通。
首先,实现业务驱动的跨域资源自勘察。通过业务驱动的跨域资源勘察,传递SLA需求,确认网络资源(含带宽、时延)等满足业务上线需求,将原来人工转换和拆单转变为自动同步转换三域需求,实现在线评估。
其次,实现模块化切片业务编排自动设计。通过自动同步订单信息,实现三域参数、跨域参数的自动生成,并实现人工在线审核。
最后,实现一站式自配置、一站式业务开通。协同各域资源实现网管配置自动下发,自动配置DNN相关信息,并在线验证业务,从而实现业务开通的体验电商化互联网化。
(2)在端到端的运行保障方面通过引入体系化AI技术,全面实现智监控、智诊断和智修复。
第一,智监控——以网络监控为主转型为以网络+业务监控。以传统的告警监控及处理,通过事件聚合能力,将海量告警+多维数据聚合成少量的业务事件。通过多维数据关联将故障识别率从65%提升到95%,从而可以自动提供业务保活方案。
第二,智诊断——从人工梳理规则转变为体系化AI。通过故障树、知识图谱等AI技术,自动生成故障诊断和业务闭环规则,智能定位问题网元。
第三,智修复——从流程自动化转变为网络自动化。传统运维集中在流程自动化提升,而自动驾驶通过智能推荐方案,调用网元能力实现故障自动修复,实现端到端故障自闭环,让业务快速恢复保活。
(3)在端到端的质量优化方面,实现了智能感知、自动分析和智能调优。
首先,实现智能感知。通过AI注智的异常检测及主动预测,加上智能分析引擎加持,采用数字孪生技术仿真推演,优化建议智能推荐,实现面向网络/业务/用户的感知主动预测和质差根因自动定位。
其次,实现数据融合+跨域自动分析。通过集成无线/核心/承载等多数据源跨域自动分析,实现多数据源跨域分析。
最后,实现智能调优。基于跨域分析结果,协同单域网络能力智能调优,从而实现基于用户体验的跨域融通。
2.3.3 运维研发化转型
实现网络自动驾驶,需要产业协同,更需要核心能力自主掌控。加快实现网络运维人员的运维研发化转型,以自研为核心,通过内部合作、外部引入,建立开放、共享、合作的网管系统生态体系。
采用SCRUM开发模式,实现运维自动化需求到软件设计、程序实现的快速转换,制定从需求管理、敏捷开发到价值运营的一套标准化工作流程,实现开发过程可视化闭环管控。
自研的核心内容包括自动化策略、数据分析建模和应用编排的脚本制作。此外还要重点建设一体化的研发平台,如RPA(机器人流程自动化)、九天AI平台等。
面向中国移动业务发展和网络技术演进,分三大阶段有序推进数据驱动、IT赋能、AI注智的智慧运维新突破,十四五期间网络自动驾驶达到L4级,实现单域网络数据自配置、隐患自预防、参数自寻优,跨域业务开通分钟级、运行无中断、质量自优化。图3描述了中国移动AN能力建设的路径。
图3 中国移动AN能力建设路径
中国移动2021年底全网平均达到了L2,实现了部分自治,加快了“2+5+N”网管系统架构调整,拉通了跨专业的端到端业务开通长流程,积极开展了哑资源维护等AI应用试点,AI应用API达到了100项。在基础上,确定了未来4年的目标。
(1)2022-2023年的目标是全网平均达到L3,部分省达到L4,实现基本自治。
在网元内生能力方面,网络设备实现业务质量可感知。网管系统能力方面,重点提升网络自动控制和端到端业务质量管理能力。强化传输、IP等专业的路由自动计算、数据自动配置,支撑政企业务极速开通。基于数据底座,实现端到端业务质量分析优化。
AI应用创新方面,部分省规模化应用AI技术,基于技术中台AI九天平台,推动AI应用能力融入现有网管生产系统,AI应用API达到200项。
(2)2024-2025年的目标是全网平均达到L4,实现高度自治。
网元内生能力方面,网络设备实现路由动态优化;网管系统能力方面,全面实现各业务、各专业自动化运维能力。在业务开通、网络监控、网络优化各领域,持续优化业务流程和业务规则,提升运维效率。AI应用创新方面,全网规模化应用AI技术。围绕“现场作业图像识别、网络策略复杂计算、网络大数据分析”3类应用场景,构建感知智能、诊断智能、预测智能、控制智能4大类网络运维AI能力,实现全网规模化应用。
2021年有16省贡献107项AI能力上中台,年底评选了10大AI标杆应用。2022年持续拓展网络域AI应用的广度和深度,各省基于集中化AI平台,做好标杆应用的推广落地,并聚焦以下12类场景开展AI创新,积极参评全网优秀应用。集中化AI平台将建立“能上能下”动态运营机制,加强AI能力运营。如表3所示。
表3 AI创新的12个场景
自动驾驶网络旨在构建端到端的运维能力,覆盖规划、建设、维护、优化、运营和资管等全生命周期,基于大数据和AI技术,表现为自动化、智能化的网络能力与运维能力,从而为客户带来新的网络价值和业务驱动力,为一线运维注入AI能力,面向消费者和垂直行业客户提供“零等待、零故障、零接触”的新型网络与ICT服务,支撑更高品质业务发展,打造“自配置、自修复、自优化”数智化运维能力。实现自动驾驶网络,是网络与运维数智化转型的必由之路,需要网络技术演进、运维流程优化、智能化技术运用、运维人员能力提升和产业链协同等多项举措齐头并进,需要体系化推进。