智能承载网络告警分析技术研究及应用

2022-08-17 13:32薛金明中国联通研究院北京00048中国联通江苏分公司江苏南京009
邮电设计技术 2022年7期
关键词:现网根源运维

赵 良,张 贺,薛金明,潘 皓(.中国联通研究院,北京 00048;.中国联通江苏分公司,江苏南京 009)

0 前言

随着5G 时代的来临,ICT 产业全面融合,SDN/NFV、云和大数据等新技术的出现和发展,使得运营商面临来自各方面的严峻挑战。基于人工方式的传统运维技术,已经不能满足运营商未来网络高效运营和维护的要求,特别是在自动监控网络异常和排障、提升网络运维效率以及降低运营成本等方面,自动化智能化运维技术成为高效运维的必然之选。

承载网络故障的根因分析一直是个困扰运营商的疑难问题,其由不同厂家、不同设备类型构成,现网一旦出现故障,不同网络层级、模块、厂家、设备类型的大量故障告警就会出现,造成大量突发故障的假象,据统计现网单个地(市)每月告警量就可达到上百万条。传统采取人工处理方式消耗了大量的资源,运维成本居高不下。目前现网运维对于网络故障告警的处理主要采用人工总结经验的方式,排障效率低、故障定位难、运维难度大。

1 人工智能在网络故障分析方面的应用现状

中国SDN/NFV 产业联盟在其发布的《网络人工智能应用白皮书》上提到过网络人工智能的概念,指将人工智能技术应用在网络中,使用机器替代或优化目前依靠人工进行的工作,使运营商能够更加便捷地提供更加优质的网络服务。目前全球多家运营商都发布了各自的人工智能战略,希望引入人工智能技术到网络规划、建设、维护及优化等各个方面,帮助自身实现网络智能化。其中,最为关注的热点是实现智能运维,降低运维成本。

在故障溯源方面,著名的IT 研究与顾问咨询公司Gartner 在2016 年提出AIOps(Artificial Intelligence for IT Operations)的概念,即通过人工智能的方式来支撑现在日益复杂的运维工作。AIOps 可以在深度集成DevOps 工具链的基础上获取系统数据,然后通过机器学习算法进行数据分析,更深度地解析数据中所蕴藏的运维信息。国内外各大公司,例如AT&T、Microsoft、Facebook、百度、阿里巴巴等都在他们的运维系统中实验或部署了机器学习算法,助力某些运维任务智能化。华为诺亚方舟实验室开发了智能故障诊断系统,利用网络故障的历史记录数据自动构建通信领域知识图谱,并在知识图谱上进行概率推理,以自动问答的形式帮助工程师找出故障的根本原因。中国移动也发布了其AIOps 智能网络运维系统,旨在强调实现以运维为中心依托数据挖掘技术与机器学习、深度学习算法,实现网络故障早发现,由被动的处理问题改为积极的预防问题,从而提高整体资源的利用率和运维效率,降低运维成本。

2 智能承载网络告警分析系统设计与研发

2.1 系统总体架构

为了解决承载网络的海量告警故障定位难的问题,本文提出运用人工智能和大数据技术,设计了一系列对承载网络告警数据进行过滤、压缩、关联分析、故障溯源和派单的算法,开发了一套承载网络告警分析系统。通过系统对现网数据的智能分析,快速实现告警关联压缩、故障精准定位和故障原因诊断的任务目标。

系统总体架构如图1 所示,通过对现网海量的告警、资源、拓扑、工单等数据的综合关联分析和训练模型学习,自动生成各种告警关联规则,准确定位根因告警,自动实现故障原因诊断和故障派单。功能上分为离线分析和在线处理2个部分。红色标识的为离线关联规则分析的信息处理流,绿色标识的为在线告警识别的信息处理流。系统整体是一个数据信息的处理机,其中相关模块通过不同的组合可以完成不同的目标任务。

图1 智能告警分析系统总体架构

2.2 算法设计及功能

系统中引入人工智能的主要算法包括告警关联自动挖掘算法和故障自动派单算法。

2.2.1 告警关联规则自动挖掘算法

基于人工智能技术对当前的告警中关键信息进行恰当的分析处理,通过对告警信息进行规则匹配、时间序列模式挖掘等流程实现对告警信息的过滤、压缩,并依据各个告警之间的关联性来确定告警根源。实现从现网海量数据中挖掘告警之间的关联规则,形成统一有效的告警关联规则知识库。告警关联规则自动挖掘具体流程如图2所示。

图2 告警关联规则自动挖掘算法流程

本文提出了基于PrefixSpan 算法改进的关联矩阵挖掘算法,该算法的最大优势在于结合算法和网络原理,可以在规则挖掘过程中自动挖掘出告警之间的约束条件,如同一网元、同一端口、直连对端网元、直连对端端口、同一业务隧道同网元、同一业务隧道对端网元、同一业务隧道对端端口、同环途径网元等,从而避免传统算法对规则挖掘时不考虑约束条件的问题,提升挖掘算法对规则挖掘的精确度。

2.2.2 故障智能派单算法

在历史工单数据和现有历史告警过滤、压缩、根源-衍生关联分析结果的基础上,通过机器学习技术提取系列告警模式特征,运用神经网络算法来进行故障派单,并给出基于大数据推测的故障原因诊断,如设备故障、设备掉电、线路故障等。

图3 示出的是故障派单处理流程,故障智能派单算法分为离线训练预测模型和在线派单处理2 个部分。先利用机器学习,学习历史告警与派单之间的关系,然后再在在线告警过滤与识别结果的基础上用前一步训练的模型指导在线派单。

图3 故障派单处理流程

2.2.2.1 数据预处理

数据预处理的具体流程如下。

a)将网元表、链路表、业务表、离线告警表导入数据库中并清洗告警数据。再利用告警关联规则知识库对其进行告警关联关系分析处理。处理完成之后,数据就会被录入数据库并包含了根源衍生关系(见图4)。其中每个节点都代表一个实际发生的告警,连接2 个节点的边代表了一条唯一的规则,有一个确定的规则ID与之对应。

图4 关联告警的根源衍生关系

b)提取历史工单中的派单与告警之间的关系。得到派单列表和每个派单对应的关联告警。

c)对于b)中能找到的某一派单下的每一条关联告警,查找这条告警根源衍生关系。如果该告警存在根源衍生关系,则遍历这个根源衍生关系,直至找到这个关联告警的根源告警。得到一系列派单和每一条派单对应的一系列根源告警。

d)对于c)得到的根源告警和其对应的派单,再根据根源衍生关系,遍历每一个根源告警对应的根源衍生树。

e)对于任一根源衍生树,取构成树的边的集合,构造特征向量。

2.2.2.2 构造训练测试样本

对于构造的特征向量,由于其是从派单表中的实际派单取得的,所以这些根源衍生树代表的根源衍生关系都需要分配工单。除此以外该厂家地(市)下的所有根源衍生树都被认为是无效的,即不需要派单。因此将该厂家地(市)下的根源衍生树分为2 类,一类是从派单表的关联告警中提取的(简称正样本),另一类是除第一类外其他的所有根源衍生树(简称负样本)。正样本被认为是要派单的根源衍生树,每棵树都构造出一个特征向量,并被打上正的标签。负样本被认为是不要派单的根源衍生树,同样构造出一个特征向量。但是由于负样本的比例远远大于正样本,为了平衡需要删除其中重复出现的特征向量,以保证同样的负样本只出现一次。

2.2.2.3 构造模型

神经网络模型如图5所示。为一个全连接的神经网络,最底层的节点代表输入层,每个位置代表一维输入向量。每个节点会与上层(隐含层1)的每个节点相连。隐含层1 的每个节点也会与隐含层2 的每个节点相连。隐含层2的每个节点还会与输出层的每个节点相连。每个节点是一个神经元,中间蕴含了一系列操作。每条边中会包含相连2个节点的运算参数。

图5 智能故障派单神经网络结构

3 智能告警分析系统应用效果

智能告警分析系统关联规则来源于对现网海量告警数据的挖掘分析,应用于对现网告警的识别和压缩。因此,真实的告警数据是系统最为关键的要素。告警数据越丰富,系统处理效果越好,在本文研究过程中采集了现网海量告警和资源数据用于大数据挖掘,并在省分试点部署系统,对于现网的实时告警进行分析处理,验证系统的可用性和有效性。

3.1 系统部署方案

图6 为系统部署架构,即智能告警分析系统部署在集团云资源池中,采用一级架构,各省分利用现有ESB 系统进行告警和资源数据的上传,可供用户在任何地点通过浏览器便捷访问,简单高效,节约成本。

图6 系统目标部署架构

3.2 系统应用效果及数据分析

智能告警分析系统功能包括规则库管理、黑名单管理、告警关联规则挖掘、告警在线分析、在线派单、告警和资源获取接口、拓扑图查询、告警查询、任务管理和用户管理等功能(见图7)。

图7 智能告警分析系统功能项

系统目前已通过亿万量级的告警数据挖掘,完成建立统一的主流厂商承载网络告警关联规则知识库。

对于实时告警,系统可以自动对需要派单的告警进行派单和故障原因诊断。当运维人员需要结合网络拓扑查看故障位置时,可以点击相关告警按钮直接将告警投影在物理拓扑上查看。

经过综合测试,系统对实时告警的分析处理压缩率可达到99%以上;故障派单结果与现网故障匹配,准确率高;可对全省各个地(市)实时告警同时进行在线关联分析、故障原因诊断和派单处理,以实现故障的快速定位。

4 结束语

本文提出了一系列基于人工智能的承载网络告警分析算法,开发了一套承载网络告警分析系统,从而实现通过智能化和自动化手段对网络告警故障进行自动分析和处理,提高运维效率,以此节约人力和资源成本。通过从海量现网数据中挖掘告警间的关联规则,已建立主流承载厂家设备的统一告警关联规则知识库,实现故障准确派单和故障原因的快速诊断。训练模型对于学习各厂家的告警和派单通用,无需各省分各厂家人工总结规则,解决了不同省分公司不同厂家由于一线运维人员的经验和技术水平差异而带来的网络维护能力参差不齐的问题。系统对实时告警的压缩率可达到99%以上。训练模型的派单准确率在95%以上。从网络管理的角度来看,排障过程花费时间更短,资源消耗更少,运维效率更高,是其内部提高企业OPEX 的主要贡献因素;从用户使用的角度来看,网络性能更好,网络故障更小,用户体验会更好,提升运营商网络的核心竞争力。

猜你喜欢
现网根源运维
追课本知识本意,溯解题思维根源
面向5G C-RAN组网模式在现网中的应用
一道电偏转创新题的命题根源剖析
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
4G LTE的关键技术及其现网实践研究
陈文茜:母亲曾是我痛苦的根源
传统媒体商业模式坍塌的根源
LTE覆盖的评估、定位和优化
IMS彩铃与现网彩铃的业务融合分析