一种5G云网融合下的一体化诊断方法

2021-06-16 16:42韩茹程东刘昊
电子技术与软件工程 2021年4期
关键词:云网网管基站

韩茹 程东 刘昊

(诺基亚通信技术(北京)有限公司浙江分公司 浙江省杭州市 310020)

5G 网络的智能化、虚拟化程度远高于4G。尤其是云网融合、网随云动、DC 下沉,使传统移动网络的无线网、承载网、核心网之间的边界越来越模糊,在5G 云网融合的背景下,网络边界的模糊化使得分专业运维的难度越来越高,迫切需要网络一体化的诊断方法。

为此,我们基于运营商现场的一体化诊断案例与经验,从资源联动、告警联动、性能联动多个维度梳理了智能联动、融合运维的方法,最终建立起5G 云网融合的网络一体化诊断方法。

1 5G云网融合下的网络一体化诊断方法详述

5G 云网融合下的网络一体化诊断方法,主要从资源联动、告警联动、性能联动三个维度来实现。

1.1 资源联动的实现方法

承载网在整个5G 网络中起到了承上启下的作用,由于核心网侧的DC 数量较少,基于5GC CE 和ASBR 设备可以很容易地建立起“承载网-核心网”的资源树,因此5G 网络的资源联动难点主要体现在“无线网-承载网”这一段。

根据5G 承载网PW+L3VPN 组网策略,通过在A 设备和B 设备上采集相关的端口、PW、VRF 信息,可以自动判断出每个A 设备下挂的基站设备IP 地址。

判定承载网与基站的资源联动关系的算法为:同时满足以下几个条件时,对应的子接口下挂的即为基站业务。

(1)接入PW 终结在B 设备的2 层子接口上;

(2)3 层子接口上的VRF 为“CDMA-RAN”;

(3)GW 的IP 地址+1 即为基站的IP 地址;

(4)通过IP relay address 来判断基站业务类型是5G NSA 还是5G SA。

1.2 告警联动的实现方法

1.2.1 告警采集方法

网管软件采集网元告警的方法有多种,包括:

(1)SNMP Trap:由网元实时上报,在5 秒内完成告警的收集和处理;

(2)SNMP Get:由网管系统定时轮询设备状态,轮询周期一般设置为5 分钟;

(3)Streaming Telemetry(流遥测技术):是一项从物理设备或虚拟设备上远程高速采集数据的网络监控技术,可以支持毫秒级的数据采集能力,支持基于订阅的推送模式(PushMode)主动向采集器推送数据信息,提供更实时、更高速、更精确的网络监控功能。

(4)阈值告警:由性能指标超过一定阈值后产生的告警,如CPU 利用率告警、光功率异常告警等。

1.2.2 告警归一化处理

系统将按照统一的告警模型,对采集到的告警数据进行归一化处理。

1.2.3 告警联动处理

在5G 组网中,承载网络承上启下,对接包括5G 基站gNB、边缘网关MEC、下沉的DC 节点、核心网5GC、入云业务的云资源池等。无论是对接哪类设备,都需要进行告警的联动处理。

承载网侧网管将对图中涉及到的设备都进行设备告警、链路告警、协议告警、其他告警的监测与联动处理。通过接入与业务通断、性能相关的告警,按照告警协同定位来定位业务异常根因点。当业务故障或性能异常后,有些可通过显性告警直接定位根因,例如设备掉电等;而有些则需通过告警逐级判定,例如链路正常但OSPF邻居状态异常等。

1.3 性能联动的实现方法

1.3.1 性能数据采集与联动

承载网管通过SNMP 协议每5 分钟采集一次全网所有A 设备、B设备的每个接口的流量,计算出相应的5分钟接收速率、发送速率,并按照基站业务自动发现的资源联动信息,得到每个基站的5 分钟接收流量、发送流量及总流量。

根据每个基站的IP 地址,承载网管可以匹配到该基站对应的ID、名称、经度、纬度信息,从而通过GIS API 进行分图层的独立值专题图方式呈现,按照基站的流量进行分等级设置,不同级别以不同的颜色表示。如图1 所示。

1.3.2 性能测量联动

网络的隐性问题,还可以通过性能测量来实现联动与定位,如网络的端到端Ping 测、基于RFC2544 的性能测量、Y.1731 测量等。

(1)端到端Ping 测:周期性对业务进行PW 全程PING 操作,初步统计分析业务性能指标。

(2)基于RFC2544 的性能测量:对于客户业务性能异常,而无法判定原因,此类状况可剥离客户侧设备及网络,再通过RFC2544 协议实时的对网络端到端性能进行探测及统计,包含吞吐量、丢包率、时延及抖动等性能指标。可用于判定网络侧或客户侧性能故障点。

(3)Y.1731 测量:自动/手动方式进行测量,测量方式基于Y.1731 协议(对业务运行无影响),分析端到端时延、丢帧率等性能指标。

2 网络一体化诊断方法的关键技术

在上述的网络一体化诊断方法中,最关键的几项技术说明如下。

2.1 承载网络上自动发现基站业务的资源联动算法

通过基站业务自动判定的方法,在不依赖其它系统平台的情况下,直接由承载网管侧发现每个A 设备下挂的基站IP、挂接的端口等信息,这也是在承载网管上实现无线网与承载网智能联动的前提。

2.2 网络智能联动、融合运维的GIS互动呈现方法

图1:性能流量指标的联动GIS 呈现

A 设备、BB 对与基站的互动,是通过百度地图的API 来实现的,但由于全省各类基站数量众多,因此直接采用百度地图的API 控件,会导致地图在加载基站图层后打开很慢(15s 左右),而且进行地图的操作会出现卡顿。因此对应用做了优化,包括:

2.2.1 批量入参优化

百度地图API 支持JSON 方式的入参,通过入参的批量处理优化,在数据库中直接转换得到要求的JSON 方式,使百度地图控件能够批量处理,从而实现GIS 图的加载时间在1s 左右。

2.2.2 多级动态合并

比如10 万个基站同时作为一个图层进行显示,则当地图缩小时,基站图层将完全覆盖住底图。因此,需要按照基站的实际经纬度以及站间距,实现动态的基站图标合并。在不同的放大等级下,当基站的站间距小于门限值时,后台会自动把这些基站合并为同一图标,从而实现在不同的GIS 图放大、缩小等级下,都能够流畅地呈现基站位置、告警、流量等信息。

百度地图自带的API 在计算基站图标合并时,速度较慢,这会导致GIS 操作时的响应时间较长,采用多级动态合并技术,由数据库异步计算所有放大、缩小等级下全网基站的站间距以及图标的合并关系,当在GIS 图操作时,响应时间可以小于1s,从而解决了百度地图API 在大数据量时处理能力不足的问题。

2.3 性能联动的并发处理算法

由于基站设备数量众多,因此目前移动网网管只能提供最小粒度为小时的流量等性能指标采集和统计能力。

根据无线网与承载网的智能联动要求,需要实现基站流量5 分钟粒度的采集和分析能力,为此我们采用Erlang 语言设计和开发了大规模分布式云采集服务,可以同时通过云资源的集群分布调度数百万的采集任务。

调度原理简述为,所有的分布式采集Node(节点)集群在一起组成一组Hash 环。每个采集任务由唯一的UUID 标示,Master(主节点)根据任务的UUID 作Hash 运算,生成Key,然后在一组Hash 环中找到前置的Node(节点),将任务分配到该Node 进行调度。

利用上述并发调度原理设计的框架,目前已经实现每秒并发10000 个端口的采集和流量差值处理能力,按5 分钟采集粒度,可以支持到全网300 万端口。如果后续网络设备数量增加,也可以通过相应增加虚拟机采集服务器来扩展。

3 结束语

根据上述资源联动、告警联动、性能联动实现5G 云网融合下的网络一体化诊断,不需要后端维护人员一直进行值守和分析,只需在网络出现异常后由系统自动通过短信、邮件等方式通知相关人员即可,这将有利于5G 业务大发展的背景下,进行“能远程不现场、能自动不人工”的集约化运维,也能够显著提升维护人员问题处理的工作效率和准确率,从而提升5G 网络的客户满意度。

猜你喜欢
云网网管基站
下期要目
新型云网融合编排与调度系统架构与分析
基于ONAP开源架构的云网操作系统研究
航天云网科技发展有限责任公司
可恶的“伪基站”
基于GSM基站ID的高速公路路径识别系统
基站辐射之争亟待科学家发声
发射机房网管系统的设计原则及功能
网管支撑系统运行质量管控的研究与实现
从网管系统到网管云:论网管集约化的建设思路