张学良
南京中兴软件有限责任公司
经过一年多的5G建设,中国已经建成全球最大的5G网络。5G核心网采用SDN/NFV技术部署在云资源池上,引入大量的IT技术和新的组网技术,硬件层、虚拟层和业务层拥有大量的组件,运维工作量和复杂度成倍增加。整个5G网络是面向服务化和云化架构设计的,在业务层面采用切片以及微服务的SA组网,在NFVI层采用云原生以及SDN等新技术。但设备商和运营商缺乏云资源池的运维和运营能力,却要立即面对已商用的全球最大5G核心网网络,相比基于烟囱式的2G、3G和4G核心网设备,5G核心网的SDN/NFV云化部署给运营商的运维带来巨大的挑战。面对这些挑战,运维体系需要尽快做出演进,才能满足日益增长的高质量网络需求。
5G核心网采用NFV架构,如图1所示。该架构包含虚拟化的网元、MANO以及NFVI基础设施。MANO负责网元的设计与编排以及生命周期管理,NFVI基础设施负责将硬件资源云化,提供虚拟的网络、计算和存储资源。现在的电信云在该架构基础上进行局部调整,从而能够更加灵活部署以及更加快速上线新的网络需求。
图1 NFV架构
为了能够充分发挥5G网络的高可靠、低时延和大连接特性,满足全国人网和物网的高质量网络需求,采用层次化、结构化和模块化的原则来部署全部5G核心网的电信云,如图2所示。5GC核心网中的控制平面网元部署在集中云,而媒体平面的网元部署在边缘云中。
图2 电信云资源池部署图
集中云:为了应对全国的用户接入,运营商通常划分大区来部署集中的电信云。5GC的控制面网元AMF、SMF、NRF、AUSF以及UDM等网元部署在大区制的数据中心。管理子系统既可以与网元在同一个云资源池,也可以单独组成一个管理域的云资源池,负责整个DC资源管理、性能统计和统一告警。高性能服务器网络子系统既可以是传统的VLAN组网,也可以为SDN组网。分为计算型服务器和存储型服务器,前者给云平台提供算力,后者硬盘较多,作为分布式存储的节点。通常集中云的组网方案为OpenFlow+eVPN或纯eVPN的VxLAN组网方案。
边缘云:为了有效降低网络的时延,在接入层就近疏导接入流量,通常在靠近基站的地方部署核心网的UPF等媒体面网元。高性能服务器当做计算节点并提供本地存储。为了满足大流量的高速转发,服务器上会安装100G的智能网卡。在智能网卡中完成流量转发和流量统计。网络子系统中采用VLAN和高级路由协议来进行二三层通信。
集中云采用结构化和层次化网络设计原则,如图3所示。水平方向划分为接入层、核心层和出口层,垂直方向划分为管理平面、存储平面和业务平面。
图3 集中云采用结构化和层次化网络设计原则
接入层:不同角色的服务器提供接入网络的端口,通常采用10GE光纤连接。
核心层:汇聚接入层过来的流量并高速转发,通常采用40GE的光纤与TOR进行交叉连线。
出口层:负责与外部网络进行互联并提供高级路由功能,与外部网络进行快速互联。通常采用100G进行口字型连线。
管理平面:云平台和存储系统的管理类型流量通信,在不同的管理流量采用VLAN进行隔离。
存储平面:分布式存储集群的前后端通信平面以及云平台与存储通信的平面。云平台与存储对接用三层通信。
业务平面:核心网业务通信的流量,Underlay采用VLAN+OSPF协议保证VTEP点之间快速互通。Overlay采用OpenFlow+eVPN方案,保证众多5GC网元的东西流量和南北流量快速互通。
过去的烟囱式设备维护简单,运维人员只需负责单一设备的告警、配置以及性能监测,但是电信云在垂直集成上网元业务实现涉及到业务架构、云平台以及SDN组网等新技术,水平集成上涉及不同厂家的软硬件设备。在大规模数据中心中,软硬件设备众多,技术复杂度很高,而国内运营商并没有云资源池运维的经验,加上原来采用以省公司和市公司为主分级开展运维工作,而现在采用大区制集中云资源池部署,几个省份共用一个数据中心的资源部署核心网的网元。云资源的分配、监控和故障排查等运维工作需要大区和省公司能够有效协同起来,共同维护好大区资源池和边缘云的高质量网络。5G通信作为生活和工作的基本需求,又是物联网的重要组网部分,网络的稳定性和可靠性至关重要。在云资源池运维经验不足、资源池内组件众多、技术复杂的情况下,怎么才能做好高质量的运维工作?
为了更好地应对这些挑战,本文提出了以技术领域和能力模型的二维法来建立运维体系。首先,技术领域采用“高内聚、低耦合”原则将电信云分层划分独立的专业子系统。表1描述了专业子系统的运维工作职责。“高内聚、低耦合”是软件设计上的通用设计方法,同样能够将庞大、复杂的电信云划分为专业子系统,各个专业子系统有专门的团队或小组负责运维工作以及运维技术研究。
表1 电信云专业子系统
机房子系统 机架、机房供电和制冷等物理系统监测和维护工作网络子系统 (1)维护对象:网络设备硬件、网络操作系统、交换和路由、物理线路等(2)维护内容:网络设备的配置,网络流量、动态表等性能统计以及告警管理、版本升级管理等(1)维护对象:AMF、NRF、SMF、AUSF和UDM等5GC网元以及其它的MANO、EPC和IMS网元(2)维护内容:网元内部资源监测、网元内部和外部的业务指标测量与告警管理等安全子系统 (1)维护对象:防火墙、IPS、抗DDOS攻击以及漏洞扫描等(2)维护内容:安全威胁分析、入侵监测,安全事件处理等构建安全的技术和管理体系业务子系统
将整个电信云有机划分为专业的子系统,每个子系统通过能力模型来驱动持续改进运维工作质量。通过引入能力模型来度量运维的工作,不仅能够促进运维工作流程化和标准化,还能持续改进,引入自动化和智能化方法来不断提升运维效率,促进不同厂家产品质量提升,共同打造精品网络。表2展示了电信云运维能力模型。能力模型从人员构成、能力、运维的规范性、度量、自动化、智能化维度来评估。
表2 电信云运维能力模型
电信云的技术复杂度以及部署的数量远远超过以前,引入自动化和智能化运维工具尤其重要。自动化部署与验证、自动化巡检、AI故障识别以及故障定界和根因分析工具需要进入到运维工作中。整个电信云中成百上千的组件,每时每刻都会产生大量的日志以及KPI数据,再叠加上大大小小的集中云和边缘云,将会产生超大的日志和KPI数据,这些数据“价值连城”,利用AI技术可以从中挖掘出系统隐患,在故障产生前就能发现并解决;当故障发生时,及时推荐有效的解决办法,5GC业务流程链条长,云平台、网络、存储等各种因素都可能会影响业务的连续性,所以电信云的运维更加需要AI来智能化运维。
选取某电信云站点应用二维运维体系前后的运维数据对比,如表3所示。采集体系建立后三个月的运维数据,通过分析表明二维运维体系建立后缩短了故障平均定位时间和平均巡检时间,提升了团队发现隐患数量以及能力等级。团队能力等级按照本文提出的二维体系来测量,通过举证和专业技术考试来评价。
表3 运维数据分析
本文详细分析了5G核心网部署以及技术复杂度,相比传统的单一设备维护,电信云的运维面临前所未有的挑战。为了应对这些挑战,提出了二维运维体系,从技术划分专业子系统和能力度量模型两个方面来尝试组织开展高效的运维工作。通过“高内聚、低耦合”的方法对子系统进行专业技术建设,通过能力模型来指导各个子系统有序化、标准化、智能化、量化,并优化运维工作,使得电信云能够高效高品质进行运维。