杨 旭,沈昱佳,唐文强
(中国移动通信集团云南有限公司,云南 昆明 650228)
5G的出现为推动社会数字化发展提供了有力支撑,同时为业务多元化发展提供了良好契机。随着5G技术的不断发展和业务不断扩张,5G终端运维也遇到一些问题和挑战。5G时代下,满足当前网络运维管理的需求和保障5G网络稳定性成为广大学者积极讨论与研究的重要课题[1,2]。
相较于计算机主机而言,5G终端属于外设,本身并不提供运算处理功能。5G较强的连通性催化了通信服务逐渐向数字化转型,而相关运营与维护管理也由通信技术(Communication Technology,CT)升级到互联网技术(Internet Technology,IT)运营。5G时代,运营与维护都是由原生云计算和DevOps来驱动,软件开发、技术运营以及质量维护3个环节相互协同形成5G终端与局端设备运行维护专用的DevOps体系。随着全云化的应用,在设备和战略方面,运营商要与设备制造商紧密合作,同时严格遵守有关技术规范和标准,以此确保终端设备之间的网络连接和业务互联。互联网用户爆发式增长的趋势下,网络可靠性和安全性成为网络维护与运营中不可避免的现实问题。5G终端中使用的容器式内核共享在一定程度上会造成极大的安全隐患,需要对其进行科学、高效的管理[3]。
5G终端运维对于维护人员的要求较高,受诸多因素影响,操作人员可能会在工作中出现差错,从而影响终端安全稳定运行。由于操作人员很难保证多台设备和基站的全面维护和管理,导致运维效率无法提高,如果不能及时解决问题,那么造成的后果会越来越严重。运营商所使用的移动终端通信设备主要是由厂商提供软件与硬件,日常维护、故障检修等工作中,如果设备出现硬性故障,需要厂家维修人员及时到场维修。此外,因5G终端设备维护环境不一,存在时间、空间协调问题,势必会导致设备长时间处于故障状态,对于保障5G信号稳定性造成一定影响。边缘计算(Multi-access Edge Computing,MEC)和网络切片的出现使得网络变得更加复杂,5G网络环境下如何降低运维费用并实现远程运维、快速、资源分配等都给运营商带来新的挑战[4,5]。
5G是具有高速率、低时延以及大连接特点的新一代宽带移动通信技术,5G通信设施则是实现人机物互联的网络基础设施。与分组核心网(Evolved Packet Core,EPC)相比,5G终端核心网具有以服务为导向、网络分层、用户面和控制面结构分离3大优势[6]。
5G终端核心网络设计中不仅要考虑到节点自身特性,还要考虑到其所提供的各种服务与功能,根据用户的具体需求选取相应功能构成具有逻辑性的网络[7]。在用户面和控制面结构分离的情况下,维护人员能够分别调节控制平面和用户平面的系统能力。用户平面功能(User Plane Function,UPF)主要包括数据包的路由转发、包的检查、服务处理、包过滤以及数据流量监测等。服务管理功能(Service Management Function,SMF)主要承担着分配用户终端地址、控制策略执行、会话管理等功能。认证管理功能(Authentication Management Function,AMF)主要负责端与端之间的控制信令传输、用户数据安全管理、待机状态下的移动性管理以及认证。需要注意的是,核心网络的功能实现多种多样,所有功能可通过同一云平台来完成[8]。
远程运行管理平台能够为用户提供远程运行维护服务,主要由数据采集层、人工智能(Artificial Intelligence,AI)算法框架层以及应用层3部分组成。该平台支持多形态跨云边缘部署、边缘端协作,通过数据采集为5G网络远程运维提供服务。5G终端远程运维管理平台架构如图1所示。
图1 5G终端远程运维管理平台架构
5G终端运维需要制订完整的信息传输方案,为其提供相应的管理服务。围绕5G终端络建设过程分别提出相应的管理措施,主要从前传、中转、回传等环节进行。前传网络中采用密集型光波复用(Dense Wavelength Division Multiplexing,DWDM),运维管理需要对这一环节进行控制,提高系统性能,从而保证5G终端正常工作。在5G终端实际应用阶段,建立专门的网络管理中心进行针对性管理。网络管理中心主要负责数据传输、数据交换、业务拓展等工作,可以推动5G终端互联模式下的业务品质的提高。为了保障5G信号的稳定,维护人员需要根据网络连接顺畅程度、信号强度、网络传输速度等制定5G终端远程运维管理方案[9,10]。针对家庭无线网络用户,可以将5G网络与传统网络效能进行比较,利用速度测量软件分析造成5G网络不正常运作的原因。
5G终端可靠性高、延时低,应进一步加强对各项指标的监测,提高5G终端远程运维的科学性与合理性。为保证网络稳定,可采用相应指令来设计新的登录方法,并运用相应算法优化网络指标。通过实时性刷新和历史查询功能,为各类资源的投入和故障检查维护提供便利。为进一步提升5G终端运维管理效率,应提高故障预警相关性。多故障场景中,找到故障成因是提高系统可靠性的关键因素。利用机器学习方法综合处理和分析历史数据,归纳出与其直接相关的因素,通过去噪、去重、聚合、二值化以及时序化等方法得到有效的信息内容。
此外,利用Apriori等算法对各个预警间的关联进行有效分析,归纳出关联规律,与朴素贝叶斯、逻辑回归相结合,构建完善的关联模型。利用关联库进行网络维护,根据其状态信息变化及时发现设备异常,并采取相应预防措施防止故障范围进一步扩大,提高故障定位精度和故障解决效率。综合现有资料,通过归纳与分类得出当前5G终端运维中极易发生的故障,将相关资料存入知识库。设备日常检修和维修中,收集各类设备的工作数据,将其与知识库中的数据进行对比分析,确定具体故障发生前和发生时数据的不同,将相关数据用作故障预报参考指标,对提高5G终端远程运维管理水平具有重要价值。
除了提升故障预警相关性之外,还应注意提高故障自我修复能力。将已建立的知识库与预警相关结果相结合,可获得相应的故障预报信息,以便选择有效的解决方案。运维管理中如果发现设备运行故障,可自动触发重启功能,同时重启成功后发送故障信息至运维平台,给出相应预警和自我修复报告。如果自我修复失败,则报告“自我修复失败”,进而由维护人员进行检修,减少不必要的工作量,提高故障修复效率。在系统稳定的前提下,要保证系统参数配置能适应不同终端的要求,以此保证系统运维合理。
5G时代背景下,对5G终端远程运维管理及维护是提高其运行稳定性的重要组成部分。通过分析与研究5G终端发展现状,结合5G终端的特点提出5G终端远程运维思路,结合5G终端发展和运行需求提高其预警关联性、预测能力、自愈能力以及自动化水平。