5G核心网运维中自智网络运用的探索和思考

2024-01-15 12:41顾明张文雅陈燕雷汪海
中国信息化 2023年12期
关键词:网元核心网运维

文|顾明 张文雅 陈燕雷 汪海

以5G为代表的新一代信息技术推动了第四次工业革命的浪潮,万物互联、万物智能的世界正在加速到来,针对5G网络的新场景,增加型移动宽带(Enhanced Mobile Broadband,e MBB)、低时延高可靠通信(Ultra-Reliable And Low Latency Communication,uRLLC)、大连接物联网(Massive Machine Type Communication,mMTC),运营商传统的专用硬件建设方案已经难以适应网络和业务发展的需求。网络功能虚拟化(Network Function Virtualization,NFV)技术的出现,对5G核心网的部署提供了更好的解决思路,能够实现 5G业务的快速部署、资源的灵活调用、故障的快速隔离和自愈,对5G网络特性发挥起到了重要的作用。不同于传统网元都是单独分离的个体,NFV资源池的所有网元都是基于一个平台,平台侧与网元侧如何协同是个问题。任何对虚拟层的操作都可能会对上层网元造成影响,如何快速定位和解决网络问题,如何充分利用好网络资源并有条不紊处理好新的故障场景和投诉问题,也将对5G核心网运维提出新的挑战。针对这样的情况,ETSI、3GPP、CCSA、TM Forum、ITU等产业标准组织经过协商,制定了自智网络的标准体系,用来定义和指导自智网络的发展,以应对和解决5G核心网的运维问题。

一、5G核心网架构及NFV部署方案

与传统的4G核心网的架构不同,5G核心网的设计参考了软件开发的优势,采用基于服务化架构(SBA)进行设计整体的架构。同时,5G核心网网元的建设,也引用了SDN(Software Define Network)技术,将传统网元、交换路由设备虚拟化,通过Openstack平台集成,把庞大而复杂的5G网络构建在同一个或者多个网络资源池上。SBA架构依托于软件开发领域的成熟技术,充分吸收了面向服务架构(Service-orient Architecture,SOA)和微服务架构(Micro-service Architecture,MSA)两种技术的优势,并设计出面向服务的总线架构,将传统的基于网元和信令传输的网络架构,转变成基于服务和应用程序接口(Application Programming Interface,API)的服务架构。其主要架构如图1所示。该架构融合了软件开发的优势,能够灵活实现网络功能的组合,可以支撑5G核心网的业务需求和能力作业。

图1 3GPP中5GC核心网服务架构

基于SBA的5G核心网,重新梳理了各网元的功能,使网络架构更加灵活,让业务更加易用。同时,SBA让NFV的优势得到充分发挥。NFV技术将ICT的传统业务部分转变为公共物理硬件虚拟化结构的虚拟云平台,实施软硬件解决方案的技术。目前业界的NFV架构,普遍采用欧洲电信标准协会的标准,如图2所示。其大体架构分成3层:基础设施层、虚拟网络层和运营支撑层。

图2 ETSI NFV参考模型

整个NFV平台采用三层解耦的方式,从物理层到虚拟网络层再到运营支撑层。物理层主要为服务器、存储、SDN控制器等,由NFVI进行整合成一个安装VNF的平台。虚拟网络层顾名思义为虚拟化的各类网元,对应传统网元里的PNF,同时也包括管理VNF的VNFM网元,运营支撑层包括上层的OSS/BSS和NFVO,一般是上层为运营商的各类系统用来监管下层网元的基本信息。另外,NFVO主要负责VNF的编排管理,它和VNFM合在一起也称MANO。

二、5G核心网运维中自智网络运用的探索和思考

(一)、自智网络相关标准及其发展

5G网络的不断发展,对网络运维也提出了更多的挑战,在此背景下,自智网络应运而生。自智网络以自动化和智能化为核心特征,以提高通信网络的质量和效率为目标,实现行业数据的智能升级,成为5G与未来通信网络和人工智能深度融合的重要发展趋势。产业发展,标准先行,来自TM Forum、NGMN的运营商/产业需求和ITU的国际电联需求,都被输入到 3GPP、ETSI,促进了国际自智网络规范成熟,同时加速了国内 CCSA标准的落地。国内外自智网络相关标准组织如图3所示。

图3 国内外自智网络相关标准组织

NGMN 旨在为下一代移动网络明确功能性和非功能性需求,评估和驱动 5G 网络技术实现全面实施的解决方案。2021 年初,中国移动、德国电信等运营商牵头启动“Network Automation and Autonomy Based on AI”项目。该项目属于端到端运营模式领域。TM Forum 自智网络项目组(Autonomous Network Project/ANP)于2019 年 5 月成立,旨在为垂直行业用户和消费者定义全自动的零等待、零接触、零故障的创新网络及 ICT 服务。同时,TM Forum 还发起和组织了跨多个标准组织的 Multi-SDO 运作,目标是在自智网络领域的概念、框架、关键观点等方面达成共识,并推进跨组织协同。目前 TM Forum 已发布多个自智网络相关规范,涉及架构、演进等级、意图驱动、闭环控制等方面。在研重点课题包括技术架构、意图驱动、闭环控制和 Open APIs等。ITU-T SG2 主要研究课题为业务提供和电信管理的运营,已发布 M.3080 (AIToM 相关)等基于 AI 的电信运营标准。ITU-T SG13 重点关注未来网络(包括 IMT-2020)、云计算、可信网络基础设施,于 2020 年 12月成立自智网络焦点组(FG-AN),聚焦自智网络标准预研工作。已发布的 Y.317X 系列标准规范包括自智网络在内的网络智能化的要求、架构、分级等相关标准,具体的意图、感知、沙箱等相关标准仍在研究中。

3GPP 从 R16 版本开始定义自智网络相关标准规范,其中 SA5 是自智网络相关项目最多的工作组,包括自智网络分级 ANL、闭环控制 COSLA、意图驱动网络管理 IDMS、管理数据分析 eMDA 等标准规范。相关课题到 R17 阶段基本告一段落。智能网络分级、意图网络管理等课题在R18 阶段有增强,同时新增了 AI/ML 管理的研究课题。

ETSI ISG ZSM 规范输出侧重网络和服务自动化管理的通用技术研究。ETSI ISG ENI 规范输出侧重定义认知网络管理架构。ETSI ISG NFV 对标 TM Forum和 3GPP 实现自智网络的目标,并针对性地启动了使能MANO 领域的自智工作,聚焦于网络云专业领域自动化与智能化赋能。

中国通信标准化协会(CCSA)的自智网络标准化工作已经在多个技术工作委员会展开,特别是网络管理与运营支撑工作委员会(TC7)。运营管理智能化是自智网络的核心内容,其标准化工作对推动自智网络的建设和发展具有重要意义。从 2021 年 7 月 CCSA TC7 第 33 次全体会议以来,自智网络相关标准和研究课题立项已经累计达 25 项。

(二)、自智网络愿景和当前5G核心网运维的现状

自智网络的最终愿景和目标是构建网络全生命周期的自动化、智能化运维能力,为客户和运维带来新的价值,面向消费者和垂直行业客户提供“零等待、零故障、零接触”的体验,面向网络智慧运维打造“自配置、自修复、自优化”的能力,赋能网络运维提质、增效、降本。

由TM FORUM制定的自智网络评级标准,如图4所示。

图4 根据TM FORUM制定的自智网络评级标准

L0 -手动管理:OMC等运维系统提供辅助监控功能,手动执行运维任务。

L1 -辅助管理:系统能够基于某个重复的子任务进行预配置以提高执行效率,无自动分析决定能力。

L2 -部分自治网络:系统可实现部分自动运维,实现某些单元基于某些外部环境下的预定义规则/策略。

L3-有条件的自治网络:基于 L2 功能构建,系统可以感知实时环境变化,某些网络域通过优化和调整自身以适应外部环境。

L4 -高度自治网络:系统以 L3 功能为基础,在更复杂的跨领域环境中,实现业务和客户体验趋动网络的预测式或主动式的闭环管理,从而进行分析并做出决策。

L5 -完全自治网络:自智网络演进的最终目标是具有跨多个服务、多个域和整个生命周期的闭环自动化能力,实现自治网络。

当前运营商的核心网自智网络发展都还是维持在L3阶段,网络自治的方法主要是依靠专家经验和IT自动化流程来实现。这种自动化大多只适用于特定的运维场景(如一键应急场景),只有在网元故障且短时间内无法解决问题的情况下,才会触发一键应急场景,这种应急场景需要进行特定的提前训练,针对不同厂家不同网元做特定的程序来实现网络自动修复。自智网络虽然对网络的快速修复以及对用户的使用体验有所帮助,但是无法从根源上来预防和解决问题,这也一直是自智网络需要解决的问题之一。

(三)、自智网络目前在5G核心网运维中的实践和运用

目前在5G核心网运维中,主要是从问题预防、问题发现、问题分析、问题处理四个方面来打造自智网络,并在运维的全生命周期中对各个阶段进行攻克和突破,以求完成网络自治。

问题预防。在传统的核心网维护中,定期的人工调研是主要的预防解决手段。运营商会根据前期的网络模型对整个网络资源做资源规划,对网元设备进行定期资源调整,以防范容量问题导致网络故障。自智网络加入5G核心网运维后,网元容量可通过历史数据进行推演,通过自动工具分析实现网络自动评估,并推送容量告警信息到维护人员手中。与此同时,网元日志、CHR、操作日志、性能指标、投诉等也都纳入了问题预防的阶段,通过大数据手段,对各类数据进行整合和梳理,得出一套多维度的网元健康度问题预防手段,不拘泥于传统的告警指标,将预防手段拉到更多维度,提前发现和处理网络隐患,从而来实现网络隐患自发现。

问题发现。传统的5G核心网运维主要是通过故障工单来实现,运营商员工通过厂家核心网的网元告警以短信的形式通知运维人员,从而来实现网络故障发现。在目前自智网络注入的5G核心网运维中,除传统的网元告警外,由告警、黄金指标(1分钟的性能指标)、系统日志、CHR、投诉工单等多维度的异常事件组成了运维人员发现问题的主要手段。多维度事件的融合,对于网络故障的发现时延起到至关重要的作用,大大降低了问题发现时延,减少了用户投诉风险。同时,跨域的网络事件也加入到问题发现的阶段,无线网、传输网和核心网通过IT手段自动关联起来,通过AI事件训练,更及时发现网络异常事件并推向特定的维护人员,增加了各网络专业间的融合,能够更有效发现和解决问题。

问题分析。传统的核心网运维主要是通过人工分析的方法来定位解决问题,通过人工收集网元的配置、操作日志、性能指标、告警情况,根据人工经验和研发人员对于网元进行分析来排障。5G核心网运维引入自智网络后,主要是根据大数据平台,对不同网元的告警、指标、CHR、DPI性能、自动拨测情况进行有规则地梳理和组合,对于出现过的网络故障进行自动分析,初步定位问题原因,给出初步建议和处理方式。目前,这个问题分析的手段局限于专家经验和厂家技术壁垒,对于未出现的故障和不同厂家的不同问题不具有普适性,这也是目前自智网络发展的瓶颈之一。

问题处理。传统的核心网主要是通过人工的方式登录网元下发指令,进行软件补丁升级,或者是到机房更换相关硬件来解决问题。依赖于虚拟化平台,5G核心网维护获得了很大的便利,可实现网元虚拟机的迁移。通过冗余网络资源的配置,在不去机房的前提下,在绝大部分情况下可实现远程解决问题。自智网络的引入,主要对于隐患、故障、质差等网络问题进行自动处理和优化。目前在问题处理阶段,自动化程度较低,主要原因是核心网络的高稳定性要求导致的。目前运营商对于5G核心网的网络变更要求都是非常严格的,需要有严格的审批和操作流程,在具备倒回方案和应急预案后才会批准实施。目前通过数据训练和专家经验得出的问题处理方案较少,处理方案的局限性也非常大,且只能运用于特定的网络问题和网络场景。如出现软故障和POOL内单网元全瘫痪的情况,可以通过自动化处理和一键倒换来实现基本的网络自动处理。

(四)、自智网络未来发展方向和思考

自智网络最终目标是达到全生命周期的自动运维管理,当前我们距离这个阶段还有很长的路要走。如上所述,目前自智网络的薄弱之处主要体现在问题分析和问题处理阶段,数字孪生、AI智能化、跨域算力融合的引入必将成为解决这些瓶颈的强有力手段。

数字孪生(Digital Twin)通过数字化虚拟网络对物理网络的模拟,通过大量采集数据物理网络进行仿真模拟,用虚拟数字网络来复制物理网络,从而实现在虚拟网络中对物理网络进行研究的目的。在孪生网络中,可通过大量的模拟试验,对于现网出现的各种网络问题和网络故障进行模拟触发并进行自动分析和处理,对各种已出现的问题进行反复验证,待方案完善后即可运用于真实物理网络中,从而实现自智网络向L4/L5阶段发展。

AI(Artificial Intelligence)也是解决自智网络发展瓶颈的又一大助力,通过AI技术对网络动态学习和网络知识图谱扩展,从网络感知、网络分析、决策闭环多个方面实现AI能力注入。当然,AI自治是建立在大量的机器学习和网络实践的基础之上的,而最好的测试环境则是在数字孪生态的网络环境中。以机器学习为核心,在网络处理的各个环节中构建训练平台,从而在网络实现和维护的各个环节训练AI能力,并将训练出来的模型导入各域管控中心,同时这些训练出来的模型在使用的网络数据重新被训练,在反复的训练和反复优化的模型中,网络就会逐步走向自动化。

跨域算力融合也是实现网络自治的重要一环,在5G移动网络中,除核心网外,还有无线网、传输网、数据中心等重要组成部分。如果局限于某个或者某类网元中,是 没法完成真正的全流程网络自治的。跨域算力融合基于大数据平台,通过算力系统将各域网络资源模型进行梳理整合,实现端到端的网络自发觉、自解决、自优化。目前日益增长的网络对大数据整合能力、算力的提升都提出了非常高的要求,一般通信厂商都有基于全流程的大数据平台,如华为SEQ、中兴VMAX等都是基于跨域的算力融合平台,它们在自智网络的推进和实现中也能提供至关重要的作用。

三、结束语

5G 核心网新的架构和NFV部署模式,给运营商的维护工作带来了极大的挑战,同时也为运营维护的智慧化、自动化带来了新的机遇。在不久的未来,随着自智网络技术的发展,结合大数据、AI、数字孪生、跨域算力融合等新技术,5G核心网必定会逐步实现网络运维自动化,达到L5自治化标准,实现网络基本自治,使5G 网络更安全、稳定地为用户提供优质的网络服务。

猜你喜欢
网元核心网运维
GSM-R核心网升级改造方案
运维技术研发决策中ITSS运维成熟度模型应用初探
一种全网时钟同步管理方法
风电运维困局
5G移动通信核心网关键技术
通信核心网技术的应用探讨
杂乱无章的光伏运维 百亿市场如何成长
基于ITIL的运维管理创新实践浅析
VoLTE核心网建设方案
Java EE平台在综合网元管理系统中的应用研究