杨士军,于平苹,谢绍富(中国联通山东分公司,山东济南 250101)
网络KPI 直接关系着网络质量和用户感知,如何快速发现网络指标异常波动并充分利用各方数据和经验库,高效对质差根因进行精准定位和及时处理是网络维护和优化人员一直面临的挑战。基于数据挖掘的5GC 网络质差根因分析定位系统首先实时跟踪5GC 和IMS 域的关键性能KPI,通过完善的算法及时发现质差指标,然后结合各类关联数据进行聚类分析并匹配经验库完成根因定位,最后派发一线维护人员实施优化。该系统可提高运营效率,是推动核心网数字化转型工作落地的有效途径。
首批确定指标及其定义如表1所示。
表1 关注指标及其定义
整个系统分为数据挖掘、KPI 异常检测、关联数据聚类分析、经验库匹配、与其他系统交互等模块。不但实现指标波动告警、质差根因定位,而且与现网生产系统打通,全面实现告警派单和经验库优化等全流程闭环管理。
质差根因分析系统整体设计逻辑如图1 所示,所有数据均以网元为单位每15 min 提取分析,KPI 检测规则支持灵活设置,检测时间可分时段,时间粒度可以为15 min或1 h。
图1 根因定位系统设计逻辑图
2.2.1 数据采集入库
数据源包括设备专业网管中原始性能统计数据,厂家专业工具(华为Discovery 等)中协议失败原因、次数及用户明细,端到端系统中的无线小区和IMEI等信息。如图2 所示,定位系统通过专用接口完成这3 类数据的采集,然后解析入库做进一步的汇总分析。
图2 数据采集入库
为便于后续及时精准分析,对采集入库的数据有如下要求。
a)原始数据必须齐全:指标涉及尝试、成功次数,各类原因失败次数等原始统计项均需上报,以便对各统计项进行波动分析,可以有针对性地发现问题。
b)测量对象最小原则:网管上有关KPI 指标的测量对象齐全,并且细分统计到支持的最小粒度(如TAC),以便进行精准定位。
c)专业工具和端到端系统数据根据分析要求提供。
2.2.2 数据预处理
获取到原始数据后的处理规则如下。
a)数据完整性检查:如有网元、指标项统计数据缺失,系统会在告警界面发出告警。
b)异常数据剔除:该系统会删除测量结果为0 的统计项。
2.2.3 操作网元数据处理
系统与网元操作登记或标工系统对接,获取网元和操作时间,将操作时间段内对应网元的性能统计数据剔除,以免影响指标波动判断。
2.2.4 KPI检测参数
手动输入用于指标检测的阈值,如果该环节不输入数据,则使用系统默认值,系统默认将表1中指标的检测阈值设置为99%。
2.2.5 KPI检测
KPI 检测包括指标波动检测和指标阈值检测2 类规则,2类规则并行运行,均对单网元指标进行检测。
2.2.5.1 指标波动检测
假设当前需要检测指标为Xt,取前31 天与Xt对应相同时段的KPI时序样本,记为X=(x1,x2,x3,…,xn),如果前31 天数据不足,则按天向前顺延,直到取到31 个样本为止。
指标波动检测采用3σ算法,具体算法步骤如下。
a)均值计算,均值μ=(X1+X2+…+Xn)/n。
b)标准差计算,标准差σ=sqrt{[(x1-μ)2+(x2-μ)2+......(xn-μ)2]/n}。
c)异常判断,判断规则如图3所示。
图3 3σ算法检测规则
2.2.5.2 指标阈值检测
根据A5环节输入或系统默认值对指标进行检测,低于阈值即判断为异常。
2.2.6 符合检测规则
只要在KPI 检测的A6 或A7 环节(见图1)被检测出异常,都将进入聚类分析环节,根据更多数据做进一步的分析和定位。
2.2.7 数据入库
KPI 检测正常和异常的数据都将做入库处理,并且根据新入库数据对之前告警做是否恢复的判断。
a)正常指标入库:A6、A7 环节未被检测出异常,则入正常库,作为X样本在后续使用。入库字段包括但不限于省、网络类型、网元、时间、指标。
b)异常指标入库:检测出异常,则入异常库,入库字段包括但不限于省、网络类型、网元、告警时间、指标、波动情况、统计子项波动情况。
c)前期告警恢复:如果某指标入正常库,而异常库中有该指标之前时间的异常告警,则生成之前异常告警的恢复告警,输出字段包括省、网络类型、网元、指标、告警时间、指标波动情况、恢复时间、恢复后指标值等。
2.2.8 聚类分析
针对某项指标从省分、网元和跟踪区维度对各类失败码、失败用户/终端、无线区域涉及失败次数进行占比分析,对各类失败次数逐项与前7 个相同时段的平均值做比较,波动超过50%为异常。
通过多维度细化聚类分析和对比,实现质差问题定位。
2.2.9 经验库匹配
将原因明确或者经过回单验证过的根因和处理方法逐一汇总到经验库,并通过智能算法对回单结果进行分析处理,不断优化更新经验库,经验库格式如表2所示,后续不断补充完善。
表2 经验库格式
2.2.10 KPI异常波动告警处理
系统根据派单规则和根因定位情况,将KPI 指标异常的告警派发到相关单位/人员处理,携带信息主要包括网络类型、网元名称、KPI 名称、时间、异常情况、波动子项信息、根因定位、建议处理步骤等。接单人进行KPI 异常波动告警工单处理,直至告警恢复。告警恢复后,总结处理步骤,按照固定格式回单。
2.2.11 更新经验库
系统支持根据回单结果对经验库中的根因定位进行更新,包括对指标检测阈值进行调整优化,不断提升系统告警有效性和根因定位准确性。
a)经验库更新:系统根据关键字段对回单内容进行机器学习建模,自动分析学习回单内容,并输出关键词汇得到具体原因和处理步骤,并更新经验库。系统支持根据每次的回单内容及分词结果评估情况进行自优化。
b)如果KPI 属于正常波动,则回单时提出算法更新和告警阈值参数设置调整建议。
该系统的优势如下。
a)根据自定义算法实现指标波动告警,支持全国指标排名波动告警。
b)根据TAI 归属对指标进行细化,实现地(市)和TAI 粒度指标统计。支持网元、用户号码、小区等多维度失败次数统计分析,精准发现网络中存在的局部问题,增强监控灵敏度。
c)根据经验库实现网络质差根因定位,精准高效支撑网络优化、提升。
该系统基于多维度对网络指标中的失败次数做波动分析,不但可以通过及时定位解决网元、无线区域甚至用户/终端级别的问题来优化指标,而且可以强化端网业匹配,提升网络运营效能。
a)第一时间发现解决无线网络和异常终端等问题。某省AMF 初始注册成功率出现突降,从协议原因失败次数上发现52+UE 无响应占比最高,无法进行根因定位,如图4 所示,再从TAI 的维度做失败次数排列,则可以看出TAI 4600133XXXX 明显异常,该TAI下的失败次数占到了总失败次数的65%,其他TAI 变化不大,联系网优确认为该TAI无线拥塞引起。
图4 协议原因失败次数和TAI失败次数排列图
b)根据终端、无线区域用户分布和指标情况加强端网业分析,指导建网和无线优化。
基于数据挖掘的5GC 网络质差根因分析定位系统给出了精准有效的指标波动预警算法,并通过对各类相关数据的聚类分析和派单等相关流程的设计,实现了KPI 异常波动的精准定位和快速处理,提升了网络质量和用户感知。后续在逐步完善优化功能的基础上,对其他网元指标进行迭代,不断提升网络数字化运营能力。