张国光,赵占强,许国平,孙 宏,赵 煜,褚 旭(.中国联通江苏省分公司,江苏南京 009;.中国联合网络通信集团有限公司,北京 00033)
随着5G 时代来临,AI 技术蓬勃发展,新业务和新应用不断涌现,业界已经认识到需要一个高度智能的自动化网络,中国联通以5G 建设为契机,全面引入云化、大数据、智能化等技术,探索网络自动化与智能化转型升级之路,并于2020 年5 月发布了《中国联通自动驾驶网络白皮书V1.0》,首次公布了构建中国联通自动驾驶网络目标架构的关键要素和网络智能化指数的分级评估方法,为电信产业的数字化转型提供指导。2019年6月6日,工信部颁发5G牌照,2019年9月中国联通、中国电信联合推进5G 网络共建共享,加快5G 网络部署。5G 新技术、新网络给运维带来新变化、新挑战,网络NFV 化、基础设施IT化、第三方新应用常态化,也给网络运维运营带来新挑战。
随着5G 网络的部署,运营商将会面对4 代共存的复杂网络,设备存量与技术复杂度都成倍增加,基于当前的运维生产关系与生产力预测,未来1~2 年内运维优化人力需求将会有大幅度的持续增长,但随着大数据、AI 技术的不断成熟,将会持续驱动运维工作自动化、优化智能化程度提升,预期5G 试商用的2~3 年后运维人力会回归当前规模,甚至通过运维模式转变低于当前人力规模并持续优化组织人员,提升运维效率。
2.1.1 方案架构
5G 自动化排障方案架构如图1 所示。其主要特点如下:
a)自动识别根因告警,基于根因告警生成衍生告警和派单,提升派单准确性。
b)自动统计规模退服所影响的基站数量,并支持导出退服告警清单,缩短规模退服通报时长。
c)提供故障根因诊断结果和关联拓扑图查询,提升代维人员故障处理效率。
d)通过故障自动愈合,减少工单数量,降低运维成本。
2.1.2 5G自动化排障业务流程
如图2 所示,整个5G 智能排障业务流程分为2 个部分:故障跨域根因定位和故障自动诊断和愈合。
2.1.2.1 故障跨域根因定位
图1 5G自动化排障方案架构
图2 5G智能排障业务流程
故障跨域根因定位包括如下关键步骤。
a)从资源平台采集的资源存入资源模型库。
b)通过拓扑还原算法,将各个独立的资源,还原成有跨域链接关系的拓扑。
c)RCA 分析模块利用跨域关联规则和拓扑资源模块信息,对海量跨域告警进行分析,输出定位根因。
d)将定位根因返回给综合监控系统。
至此,系统通过一系列的自动化和智能化手段,完成跨域告警的定界和定位。
2.1.2.2 跨域根因RCA算法
RCA 模块为跨域告警关联引擎,通过调用跨域关联规则与网络拓扑(业务路径)对实时告警进行关联,识别跨域P/C关系。
支持跨域告警关联及压缩,通过告警逻辑运算以及规则配置,系统给符合规则告警进行PC 标注(规则关联类型=P/C/KC),方便运维人员在告警列表中观察重要告警,以提升监控效率。
跨域告警关联(RCA)技术方案如图3所示。
a)将拓扑还原模块输出的“通用拓扑路径表(link)”进行数据抽取,抽取后按照一定的资源模型算法运算,计算出拓扑二层资源模型。即通用拓扑路径表里的数据,包含了各个层次的结果,但是RCA 跨域关联可能只需要某一层次的结果。
b)将拓扑二层资源数据放入Redis 高速缓存,便于RCA引擎调用。
c)告警过滤:通过过滤规则筛选出要做RCA分析的告警。
d)告警-资源映射:根据映射规则抽取告警字段中的值拼接成资源模型ID,如果拼接的资源模型ID在拓扑资源库中存在,则建立告警和拓扑资源模型的映射关系。
e)状态传递:在拓扑路径中标注受影响的资源节点(Eg:A→B→C,发现A有故障告警,则将B,C也做上标记)。
f)跨域关联:根据告警关联关系规则,查看受影响的资源节点是否有对应的告警,并分析出根因告警及子告警(Eg:查找B,C 上是否也有对应的故障告警,若B 有,C 没有,则将A 节点故障告警标识为P(Parent),B节点故障告警标识为C(Child))。
g)关联结果回写:在RCA 关联分析完成后,需要对分析的结果进行合并,因为一个告警可能存在于多个跨域场景中,必须对此类告警的结果进行合并。在合并完成后,将关联结果(RCA Result:P/C)回写到告警的RCA Result字段。
其中,RCA 资产包中告警过滤/关联关系规则(PC),也可通过AABD 智能算法基于历史告警&拓扑数据自动生成,生成后由专家再进行优化。
2.1.3 故障自动诊断及愈合
故障自动诊断及愈合包括如下关键步骤。
a)通过综合告警监控系统采集告警,入告警管理库。
b)匹配到诊断规则库中的诊断规则,触发诊断流程。
c)诊断流程中触发对应的诊断执行动作,通过统一指令平台下发到对应的设备。
图3 跨域告警关联流程
d)满足复位条件时,复位决策模块进行复位。
e)最后将诊断根因和自愈结果再回写到对应的告警信息中。
至此,系统通过一系列的自动化手段,完成了对告警的诊断和愈合,找到了根因并完成告警的自愈。
2.1.3.1 诊断模块
通过诊断表或诊断API 匹配故障规则、故障树实现故障诊断,诊断成功时,输出对应的根因和处理建议,并具备把可进行远程恢复的故障,推送到故障事件恢复子模块能力。
a)基于诊断表诊断:对于有些故障场景,在原始告警中已经携带根因,或者故障识别模块已经分析出根源告警,则无需再进行深入诊断,这一类故障,可通过配置一些诊断表的规则快速诊断,减少系统开销。
b)基于诊断命令诊断:对于通过告警无法直接得到故障根因的场景,则需要向设备下发命令进行深入诊断。
2.1.3.2 恢复模块
实现故障事件恢复前的业务影响查询判决,对满足远程恢复条件的故障事件进行远程恢复,并对远程恢复的结果进行确认。记录所有的远程恢复日志和结果信息。
故障事件诊断及恢复流程如下。
a)接收事件识别模块传递的事件信息,或者直接从数据采集和治理模块接收告警数据。
b)根据故障识别模块传递的“是否需要ADX”标识,判决是否需要启动该时间对应的诊断流程,如果该标识为“否”,不用启动诊断任务。如果该标识为“是”,进入场景判决。
c)根据“设备领域”字段进行判决,当前“设备领域”为“无线”时,进入现像告警判决。
d)当“现象告警”为“告警ID/告警名称”时,进入“XXX”对应的诊断支持诊断流程。
e)根据“现象告警”告警中,携带的告警源,在Datahub中,查询到对应的物理站点、机房站点信息、对应的控制器父节点信息等关联站点的信息。
f)通过查询到的关联物理站点信息、机房站点信息,获取在规定时间窗内该站点的全量告警信息。
g)如果需要基础公共信息,登陆对应的物理站点或者父节点信息,下发MML 命令,获取对应的公共参数信息。
h)根据故障树,故障规则,诊断输出诊断根因、诊断概要、处理建议;如果诊断模块中,未诊断输出根因,调用OWS 系统功能AI 模块,根据历史根因,提供推荐根因。
i)通过接口模块输出诊断结论到SDM 模块或者事件模块,对具备恢复能力的故障,传递恢复需要的参数X 柜X 框X 槽X 端口号、设备类型、设备编号等信息到恢复模块。
j)恢复模块收到诊断模块信息后,判断告警是否恢复,生成对应的恢复脚本。
k)收集恢复预置条件数据,判决本次恢复是否会影响本制式的其他小区业务、是否会影响其他制式的小区业务。当预置条件满足的时候,进入恢复流程。
l)执行恢复措施,并对恢复结果进行验证。
2.1.3.3 应用场景
单域:完成5G 小区不可用、gNodeB 退服智能排障场景。
跨域:完成单域/跨域告警关联、拓扑还原的基础功能验证。
2.2.1 5G网络优化面临的挑战
5G网络优化面临如下挑战。
a)5G 产品形态丰富,单产品安装特性、质量和前期产品有较大的差异,RF 调整更加复杂,需要专门的辅助工具,增加了传统人工RF优化方式的难度。
b)需要同时考虑SSB 和CSI-RS 两层波束覆盖优化,权值不同,一损俱损。
c)道路与整网覆盖优化如何兼顾?
d)G/U/L/NR 多制式共天馈,RF 优化难度大幅增加。
2.2.2 基于Pattern寻优的5G网络优化智能化
基于当前的优化挑战以及降本增效的大趋势,本文尝试基于5G MIMO 特性的波束优化研究,分别选取点、面进行基于Pattern 寻优的5G 网络优化智能化试点。通过大数据以及智能算法的支撑,不仅解决了传统人工优化存在的各类问题,而且大大减少了传统人工优化周期长、不能兼顾、大量人员车辆投入等一系列问题。不仅可以更精准快速地解决网络问题,而且大大降低了同样优化效果的成本投入。
通过设定的弱覆盖、干扰和重叠覆盖的优化目标,结合准确的数据输入,对数据进行栅格化评估得出质差网格,然后利用迭代寻优算法对质差网格进行多次模拟优化直到总体网络性能达到设定的优化目标,最后将优化方案输出并预测优化结果。
Pattern 寻优主要是通过参数调整AAU 的覆盖场景、数字方位角、数字下倾角来提升栅格级、小区级、网络级的指标。为应对覆盖场景的多样性,当前5G Massive MIMO 波束具备覆盖场景、水平波瓣、垂直波瓣调整能力,共支持17类覆盖场景(见表1)。
表1 17类覆盖场景
根据不同的覆盖目标和覆盖场景,Pattern 寻优会充分考虑SSB 波束和CSI 波束覆盖,自动选择最优化的覆盖场景ID 并给出最优的方位角、下倾角搭配,充分考虑外包络天线的覆盖,可以实现单点及连片区域的网络质量、用户感知的提升,可以通过后台调整快速响应,免去了塔工上站工作。
Pattern寻优围绕通信网络优化智能化,基于DT数据、现网工参对优化区域设定目标,对SSB 弱覆盖、SINR 质差和重叠覆盖路段进行识别,然后通过参数迭代调优提升道路覆盖、质量、速率等网络指标。实现技术主要分为以下几个方面。
a)高维解空间迭代寻优。基于设定的参数调整优先级,搜索各小区Pattern 和RF 参数最佳取值(见图4)。
图4 Pattern寻优迭代示意
b)网络质量评分和增益预测。基于优化目标和权重计算进行网络质量评分(Fitness),计算调整前后分值变化,预测优化增益,正增益保留并继续寻优,负增益回退。Fitness 计算公式如下:Fitness=wrsrp×SSB_RSRPf+woverlap×Overlapf+wsinr×SSB_SINRf基于DT实测数据获取空间初始路损,在迭代寻优过程中,基于3D 天线文件和BT 传播模型,计算RF 或Pattern 参数调整后天线增益和路损的变化,准确预测RF调整后各栅格内各小区的RSRP 变化,并进一步预测优化后的SINR以及重叠覆盖率指标:
Step1:计算初始路损
Pathloss=TX Power -Feeder loss+Antenna Gain-RSRPbefore。
Step2:计算天线增益变化。
Step3:利用BT传播模型仿真路损变化。
c)波束场景选择。基于地物矢量轮廓确定水平和垂直波宽可调范围。Pattern 寻优目前已集成14 款AAU 及RRU 天线文件,遍历所有波束场景、数字倾角和数字方位角组合,并考虑时隙配比、波束加密等特性对波束数量的影响,单款AAU 天线文件数超过10 000+,支持SSB 波束方向图3D 和2D 呈现,支持广播波束Pattern 全量范围寻优。天线文件能够表征AAU 或无源天线在三维空间中各个方向(水平0~359°,垂直-90~90°,步长1°)上的天线增益,是Pattern 寻优覆盖预测的重要输入。为提高工具运行效率,数字方位角以5°为步长进行迭代寻优。
d)建模优化。在Cluster 单用户峰值速率优化场景,综合考虑道路周边小区的覆盖、质量、速率和距离等因素,进行各条路段最优服务小区建模(即切换链建模),并基于建模结果进行RF参数寻优,以获得更好的道路覆盖和峰值速率。具体如下:
(a)候选小区集合:筛选每个路测采样点上与最强小区的RSRP差值在6 dB内的小区作为候选集。
(b)质量排序:综合考虑SINR、速率、距离、扇区朝向等因素进行候选小区排序。
(c)异常小区排除:排除存在越区覆盖、覆盖不连续和采样点数量小于10的候选小区。
(d)生成最优切换链:考虑候选小区排序和减少切换因素,生成各路段目标服务小区输出调整方案。
2.2.3 5G网络优化智能化应用
5G网络优化智能化具体操作流程如下。
a)数据采集。采集准确的工程参数、电子地图、DT测试数据、现网XML配置数据。
b)现网覆盖问题评估。通过得到的数据进行弱覆盖、质差问题栅格识别。
c)迭代寻优。对识别出的问题栅格进行区域性汇聚,并分析问题区域之间的关联性以及相关覆盖小区,随后对相关覆盖小区进行优先级排序并分析问题小区当前参数设置,随后尝试对问题小区的参数设置修改并建模模拟调整后效果,将模拟出的效果与设置的优化目标进行对比,若不满足设定的优化效果则继续对相关小区进行参数调整,直至模拟出的效果满足设定的优化目标。
d)参数优化调整。输出优化调整建议,包括覆盖场景选择(17 种可选覆盖方案)以及相应的数字方位角和数字下倾角设置。
以某试验区为例,Pattern寻优方案利用5G的Massive MIMO 特性,在大型综合居民密集区域,对不同场景使用不同Pattern 进行立体覆盖调优。仿真结果显示SSB RSRP≥-115 dBm的室内覆盖率提升10.86%,根据仿真结果进行方案调优后,选取高层楼宇、中层楼宇进行实地测试来验证。
Pattern 调优前后,室内CQT 测试,低、中层楼宇覆盖稍微改善,高层楼宇调优前无信号,调优后覆盖改善明显(见图5)。
图5 改善对比分析图
5G 维护自动化以5G 智能故障管理解决方案为主,聚焦故障识别与故障诊断、自动化排障。通过采集各领域的告警与资源信息,还原出无线与IPRAN/动环设备的拓扑信息,并基于标准化故障场景与告警关联压缩规则,将现网告警根据故障进行分类;通过对已分类的故障中根源告警进行诊断,定位故障的真正根因,并通过自愈手段远程修复,或派单进行上站精准修复;通过系列的自动化手段,完成了对告警的诊断,找到了根因告警并完成了告警的自愈。
5G 优化智能化通过参数化调整覆盖场景、数字倾角、数字方位角,解决了传统人工RF优化难以应对5G产品形态各异且优化手段不尽相同的问题,并且减少了传统优化手段所需的大量车辆、塔工、网优人员支出,简化了优化操作;同时考虑SSB 和CSI-RS 的覆盖和干扰,在不影响5G终端的初始接入和切换性能的情况下提升网络覆盖能力,在不影响5G 终端的CQI 上报、MCS 选阶、RANK 等的情况下提升用户的体验速率;5G 商用初期用户较少但高价值用户多,RF 优化以DT 数据为主。DT 数据仅能反映道路覆盖水平,单纯优化道路覆盖可能导致真实用户感知下降,需要提升道路覆盖和速率的同时考虑整网覆盖优化,兼顾初期的测试比拼和高价值用户感知;另外优化5G的同时还应兼顾对存量制式的影响。