朱宜斌 马 鑫 胡 敏 胡 博
中兴通讯股份有限公司 南京 210012
数据是现代社会的基本要素,也是提升生产力的宝贵资源。在云、大数据、AI、边缘计算、数字孪生等技术的共同驱动下,5G网络已成为人们在各行业进行数字化转型的有力工具[1-3]。5G网络所服务的业务深度和广度都大幅增加,导致5G网络的管理越来越难。传统通信网络(如LTE网络)的运维大多依靠运维人员手工操作,这种方式低效易错,还存在信息安全隐患[4],所以业界有改进网络运维模式的强烈愿望,期望5G网络在商务管理、业务管理、网络管理和网元管理四个层面都能提供内置的自动化运维能力[5]。
5G不仅处理大量业务数据,网络设备自身也会产生大量数据,如果将这些数据资源和人工智能技术结合,可简化5G网络的运维。具体到网元管理层面,通过在5G网元内置智能化和自动化技术处理数据,实现网络优化、业务预测、AIOps等任务[6],让网元具备自监控、自修复、自优化的能力[7]。
5G核心网(5G Core,简称5GC)是5G业务的汇聚点,拥有种类和数量众多的网元[8]。如果让这些网元管理自治,即具备自动化运维能力,能极大程度减少人工参与网络运维,帮助运营商提升运维效率,节省运维成本。
通信网络内数量众多的网元互相配合,为终端用户或上层业务提供服务。为了让网元可靠运行,设备开发方需为网元提供业务管理、性能/指标管理、故障管理、告警管理、资源管理等网元管理能力。传统的网元管理过程有如下特点。
1)运维人员通过操作管理系统(Operation And Managment,OAM)监督网元和业务的运行状态。网元的OAM提供命令行或图形化操作接口给运维人员,以便运维人员查看网元和业务的运行情况、设置参数。这个过程中,运维人员需要人工处理和分析大量数据,比如对业务指标进行对比分析、对告警进行确认和排查等。
2)运维人员在业务闲时修改配置参数。网元上线时设定的运行参数,会随着业务逐渐开展而需要修改。为了不影响业务,运营商要求运维人员在凌晨业务闲时修改参数,测试合格后白天再观察指标。这些高频次操作耗费大量运维人力。
3)运维人员需经常巡检网元和确认容灾有效。为保证网络通信的可靠性,运维人员需要定期对网元设备进行巡检以及容灾倒换操作,巡检涉及的数据包括配置参数、网元负荷、业务质量、告警数据等,人工检查耗时较久,易出错。
4)网元遇突发问题或环境变化引起异常时,需要人工分析和处理。比如设备运行期间产生一个告警,则需要运维人员去告警箱查看,并根据告警类型判断要采集哪些数据,再手工采集大量数据进行根因分析。通信网络的可用性和可靠性要求运维人员必须在第一时间发现网元的异常,并迅速完成恢复。业界一直在努力缩短问题隔离恢复、定界定位时长,但这个过程需要尽量减少人工参与来节省时间[9]。
这些特点制约了网元运维效率,进一步影响了运营业务的展开。随着5G网络的规模几何级扩大,以及服务于千行百业的应用灵活度和复杂度增加,依靠专家经验为主的传统运维模式已经无法满足挑战,必须利用智能化技术实现网络自治,才能满足5G网络发展需要。
3GPP、TM Forum、ITU-T、CCSA等国际国内组织都已积极开展网络智能化技术研究和标准制定,很多成果已发布。其中3GPP和TM Forum发布的技术体系和5GC密切相关。
3 G P P 在R 1 5 阶段引入了网络数据分析功能(Network Data Analytics Function,NWDAF),并在R16、R17阶段进行了增强和优化。NWDAF提供服务注册、数据收集、分析结果提供等能力,从NF(Network Function)、AF(Application Function)、OAM收集网络数据,分析并生成结果。对结果有需求的5G NF通过消息订阅的方式从NWDAF获取结果,用于提升终端业务体验、监管终端行为、调整应用层参数以及选择核心网网元等。
NWDAF作为本网的智能分析节点,既可集中部署于本地网络中,也可作为子功能分布部署于各个5G NF之内。5G NF和NWDAF之间通过服务化方式协作,5G NF向NWDAF开放提供数据接口,NWDAF向5G NF开放分析结果接口[10],如图1所示。
图1 3GPP定义的NWDAF和5G NF之间的协作方式
TM Forum专注于电信运营系统相关技术和标准的研究和制定,在其《自智网络白皮书(3.0)》中定义的自智网络包含“三层四闭环”模型和“L0至L5迭代演进”循环,以自治域为基础,实现数字业务闭环的自动化智能业务、服务和资源运营。自智网络的愿景是通过完全自动化的网络和ICT的智能化基础设施、敏捷运营和全场景服务,为垂直行业和消费者用户提供零等待、零接触、零故障的客户体验。同时为运营商的规划、营销、运营、管理等部门的内部用户提供便利。
网元管理自治是电信运营系统自智网络提供单层/单域乃至跨层/跨域Self-X运营能力的基础要素。5GC网元管理自治是指网元提供内置的自动化运维能力,包括:自动监控网元自身健康状态和业务运行状态、能自动修正/优化监控过程发现的问题、自动优化业务质量以及配合上级系统自治实现跨层/跨域自治闭环。
5GC网元实现管理自治,要包含网元自身的维护以及业务的维护,要包含网元维护人员在本层次的意图和上级网络要求实现的意图。实现时要考虑框架、数据自动采集和算法等关键点。
曾祥芹先生提交了两篇论文,一篇《曾子是<大学> 的解经传主》,从文章版本学、文章阅读学、文章写作学的视点,论证学术界争论已久、悬而未解的难题:《大学》的作者,给出了研究历史文化的一个新的思路。在《论曾子 <大学> 的章法结构》一文中,曾祥芹先生提出“书本是文章的最大单位”这一重要命题,他认为不研究“书本型”的文章,将会大大缩小文章学的视野,不利于文章价值的发掘。曾祥芹先生通过对《大学》逐句的微观的细腻的考察,理清《大学》句间关系,进而考察章间关系,梳理出《大学》组句成章、组章成书的章法结构,由此揭示了文章传播学在语言结构上的变通原则和包容精神。大学大学
一种简单的网元管理自治方案的系统框图如图2所示。
图2 内置网元管理自治系统框图
OAM子功能对接上级网络管理平台交互管理指令,并与网元内部其他子功能协作,执行指令和呈现结果。后续实现单域自治或网络自治时,OAM子功能与上级接口模块协作,完成上层意图的接收、接纳判断以及执行反馈等。
多个业务处理子功能一起协作完成本网元的各类型业务的处理。网元在实现自动运维时,业务处理子功能在业务处理流程中完成业务数据和网元状态数据的采集,执行OAM子功能的决策指令并反馈结果。
智能处理子功能是为实现自智网络而增加的,使用智能算法进行业务处理子功能所采集数据的分析,完成决策/预测,并将决策/预测结果交给OAM子功能,以便后者呈现及翻译成业务指令下达给业务处理子功能执行。有些决策可直接和业务处理子模块交互执行。
网元管理自治框架对比传统框架的主要差别在于,前者在网元内置了智能处理子功能。智能处理子功能根据业务处理子功能提供的样本(特性数据和标签)实时学习业务状态或网元状态数据,对比业务质量标准,给出决策/预测,从而在没有专家规则参与的情况下也能自动完成业务调整和控制。智能处理子功能也能部署在NWDAF网元中,此时NF通过服务化接口与NWDAF交互数据并分析结果。
在实际网络运维过程中,传统框架为了弥补自动化程度不足的缺陷,会外挂自动收集数据工具或分析问题工具。相比而言,自治框架更倾向通过内置通用算法实现智能决策,为了实现在领域内更精确的控制,自治框架也兼容这种设定专业规则的模式。
为实现自动化运维,除了引入智能算法,网元内部采集数据的方法也至关重要。一般而言问题的触发原因先于问题本身发生,简单罗列且无组织的数据采集难以帮助运维人员分析出问题根因,所以需要采集一定量的立体数据,包含时间维度、周边模块维度、业务逻辑维度等,才能协助网元内部在发现问题时实施自主分析,追溯根因。要做到业务自动调整和优化时,业务处理流程需要内置不同的数据维度,执行自动采集。
采集到数据后,网元要使用智能算法分析是否存在异常,或者预测业务的种类、状态等。如何选取智能分析算法又依赖于数据类型和样本特征。对于数值型的数据,可以采用标准差、箱型图、泊松分布、K近邻等常用的算法进行分析。而对于文本型的数据,可先通过内置的处理方法将文本数值化,比如MD5算法,再对数值采用机器学习算法进行分析。还有更多的人工智能算法可以用来处理这些数据,从效率和算力等角度考虑,建议业务网元用简单高效的算法或领域规则来分析数据,而在NWDAF网元用复杂的人工能智能算法分析数据。
可见在自治框架下,网元可对所服务业务实现“实时采集、智能分析、决策执行、修正/优化”的闭环控制,在此闭环中还可加入专业规则,实现更灵活的策略。同样,网元还可实现对问题的运维闭环,实时监控状态数据,内部智能分析后决策是否进一步收集数据和执行主动修正动作,执行和上报呈现。内置的智能自动分析能高效协助运维人员快速诊断问题和采取措施,同时在网元内部可按专家规则或算法对问题模块实施隔离或恢复。
xSF网元作为5GC的一个AF部署在5GLAN中,对5G网络用户的业务流进行优化,以期提升终端用户的业务使用感受和提高无线网络使用效率。LTE网络中传统的业务流优化网元在运维过程中,存在无法直接证明优化效果、调试算法和参数耗费时间较长、需要通过抓取海量报文来分析客户的疑问等非常现实的痛点。面对5GC网络的更高要求,xSF网元实践上述自治框架,解决传统运维中的痛点。
业务流优化过程的特点是处理大量的数据报文,因此xSF网元的运维需要用到用户报文数据信息。传统运维方式分析问题时需在SGi/N6口抓包,难度大且无法抓全。xSF网元采用自治思路,不依赖外部抓包,内置按流的信息提炼和自动收集能力,结合接入类型(Radio Access Type,RAT)对这些流信息进行定期分析,可轻松面对单用户投诉分析、数据网络侧业务质量分析、单类型业务质量分析及优化效果证明等问题和场景。这些流信息数据还可以由NWDAF订阅,提供给网络做更多场景的分析和应用。
xSF网元内置的用户报文信息自动采集实践可以推广到其他5GC媒体面处理网元,媒体面处理网元既可针对小流量报文直接内置抓包,也可针对大流量报文提炼概要信息。运维人员能用这些信息与传输通道上其他节点对比,处理用户投诉、定位传输质量问题。在计算资源允许的前提下,网络可自主对这些信息做传输质量分析,为网络优化提供建议。内置自动化数据采集方法也可扩展到其他5GC信令面处理网元,对信令报文提炼必要信息,用于应对特定问题的分析。
业务流优化的结果表现为被优化业务流的传输速率等指标好于未优化流的指标,或者在多种优化方式中选取了最优的那种。xSF用到很多优化算法和参数来实现业务流优化,并通过人机界面提供修改接口。运维人员在业务闲时(夜间)修改参数,再观察若干个业务忙时段(白天)的指标来确定修改效果,这个过程效率较低。
实践自治框架时,xSF网元内置指标采样、打标签和智能分析功能。xSF自动对比同时段未优化的指标及不同算法优化的指标,选取最合适的算法、参数执行下一个时间粒度的优化。这种方式可以做到实时采集数据,实时分析决策和实时执行优化。xSF同时将分析后的决策结果呈现给OAM模块,以便在OAM模块可使用专家经验对优化结果进行干预。
xSF在优化过程中,对流的属性采用智能算法进行预测。当前流结束时,xSF抽取其特征,并标记此流的属性、采用的优化算法和达到的优化指标等。在完成一段时间的流数据采集之后,xSF采用智能算法学习这些数据,形成模型来预测下一个流的属性、是否要优化或采用什么算法来优化。后续这种能力可通过接口暴露,和NWDAF协作完成更精确的预测。
在自治框架下,原来人工方式进行指标调优的过程被网元内置的智能分析能力实时完成,极大提高了调优效率。通过对业务指标的自动对比和自动优化,闭环了业务体验。
xSF网元内置的智能分析实践可扩展到其他5GC网元的业务处理流程上。比如控制面网元某个KPI降低时,可自动收集贡献降低因素的相关维度信息(如失败的会话、对应的DNN或分片、周边接口KPI等),分析后再呈现给OAM。
在自治框架下,xSF网元的运行状态和业务的状态信息都被自动收集,这些信息中的某些能反映隐患的信息被设定为关键信息。xSF定时对关键信息进行智能分析,当满足设定为隐患的条件达到时,会自动提取此隐患相关的信息,交给隐患分析模块分析。这种提前分析出的隐患,既可自动在网元内按预设的规则进行处理,也可将信息打包向OAM模块呈现,以便运维人员有实时、立体的信息来处理这个问题。xSF网元还提供自动巡检和分析能力,针对网元的参数变化、指标变化等完成监控和呈现。上述提前预判、进一步收集信息和分析的方法克服了传统模式中反映问题滞后和问题信息不足的短板,缩短了问题处理时长。
xSF网元内置的问题信息收集和分析能力可扩展到其他5GC网元。比如,上层模块发生通信中断时,网元自动收集对应链路配置信息,在各协议层面进行主动探测,将结果和本中断问题一起呈现,给运维人员指向性更明确的实时信息。
通过以上实践,xSF网元内置的运维方法实现了新业务/算法启用、调优和问题分析的自动化,避免了传统运维方式的抓包、人工修改参数、依赖其他设备以及人工分析等低效动作,提升了网元运维效率。还可进一步和无线侧指标、第三方拨测指标以及终端用户体验感受结合,用数据自动化实现业务体验闭环。这些实践经过分析和简单调整即可扩展到其他5GC网元。
本文探讨了在自智网络中如何自底向上地实现5GC网元管理自治,并在xSF网元实践了部分场景。随着业界对自智网络和内生智能的深入研究,本文后续计划实践更多网元管理场景的自治,并进一步研究如何向上级自治域提供本网元的管理自治能力。
希望本文进行的实践能促进5G核心网实现“内生智能,简化客户”,让运营商的业务运营更加简单、高效,助力运营商开拓新的商业模式,推动5G网络为社会数字化转型作出更大贡献。