薛 锐 中国移动通信集团黑龙江有限公司运维管理部主任
刘春华 中国移动通信集团黑龙江有限公司综合室分析员
王景尧 中国信息通信研究院技术与标准研究所高级工程师
一种新型网络告警管理系统设计
薛锐中国移动通信集团黑龙江有限公司运维管理部主任
刘春华中国移动通信集团黑龙江有限公司综合室分析员
王景尧中国信息通信研究院技术与标准研究所高级工程师
网络故障的解决很大程度上依赖网络告警管理和快速诊断,高效的网络故障管理对保障网络正常运行、提高网络稳定性具有重要作用。本文基于模拟退火的人工神经网络技术对网络告警信息进行管理,通过联想记忆的方式发掘出告警信息背后的真实原因。本文所提出的算法已经在电信运营商的实际网络中得到了应用,并取得了较好的效果。
电信网络管理 告警分析 模拟退火
随着我国信息服务的不断发展,电信网络的稳定运行已经成为保障民生的重要任务。因此,当网络发生故障时,运营商必须准确地检测到故障,在最短时间内找到网络故障的原因,以最快的速度解决网络故障,修复网络故障,确保通信网络正常稳定的运行。
网络故障的解决很大程度上依赖网络告警管理和快速诊断,高效的网络故障管理对保障网络正常运行、提高网络稳定性具有重要作用。然而,由于电信网络规模越来越大,一旦通信网络出现的故障,往往会引发海量告警事件,形成“告警风暴”,使故障被淹没在大量的告警信息中而难以及时发现。与此同时,告警信息本身不确定又加大了故障诊断的难度。
网络故障管理的关键就是对告警信息进行相关性分析。迄今为止,告警的相关性的研究主要基于专家系统,通过预先设定的规则是进行分析最常用的方法之一。但是,规则库的建立过分依赖于专家的实践经验,具有极大的主观色彩且无法随着网络的改变而实时更新。因此,随着网络日益复杂,这种方法已经很难满足当前电信网络的需要。
针对以上问题,本文基于模拟退火的人工神经网络技术对网络告警信息进行管理,通过联想记忆的方式发掘出告警信息背后的真实原因。本文所提出的算法已经在电信运营商的实际网络中得到了应用,并取得了较好的效果,本文成果对于相关研究的开展有着很好的借鉴意义。
在通信网络中,所有网络故障都可以视为一些最基本的“原子”网络故障单独或叠加产生的。因此,网络故障可以看作是通过网络所表现出来的“行为”来判断其背后的故障组成。这可以看作是类似的旅行商问题(TSP)、最短路径问题这样的一类最优化问题,即通过优化得到网络故障原因的“最优”组成,其具体的作用机制可以由图1所示模式描述。
图1 网络告警与网络故障的关联关系网络
上述问题是运筹学和组合优化领域中的NP问题,相关领域已经积累了大量的理论研究,但是其在相关行业上的应用依然是一个巨大的难题。近年来,人们提出了一些不依赖于具体问题的直接搜索方法。例如,模拟退火算法(SimulatedAnnealing,SA)就是近年来备受重视的一类软计算方法。
模拟退火算法是1983年5.KirkPatrick首次提出的,其可以求解各类非线性问题,且常常以较大概率求得近似解,具有很强的工程应用意义。同时,这种方法对目标函数和约束函数要求较少,因此其在结构优化中显得尤为重要。
模拟退火算法在搜索策略上与传统的梯度搜索方法不同,该方法通过引入适当的随机因素,来模拟物理系统退火过程的自然机理。“退火”的过程就是不仅接收使目标函数变“好”的步骤,同时也以一定的概率接受使目标函数值变“差”。模拟退火算法通过对物理过程的模拟提高了算法的可行性,对于工程实践有着巨大的指导意义。
(1)网络告警的预处理
在真实网络中,网络告警是多种信息的组合。根据ITU-TX.733标准,告警一般含有以下方面的属性信息:设备名称、设备类型、告警级别、告警类型、告警状态、告警时间等。如何选择告警属性来分析通信网络中的故障信息,是告警管理的一项重要任务。
在通信网络中,告警与故障之间的关系错综复杂,并非一一对应的关系,即在一个复杂的通信网络中,仅仅通过告警信息无法直接确定出现的故障。因此,需要对不同告警之间的关联性进行挖掘,依据告警的特征定义来确定网络故障的根源。
然而,仅仅原始告警信息挖掘网络故障的准确率依然较差。因此,除了对告警属性的提取,还需要对告警信息进行预处理,使之转化成为适合网络告警合并的“告警事务”。
所谓“告警事务”是指对原始告警信息进行的时间同步化处理后,得到的告警项集合。例如,对于观察时段,用滑动步长Δs在时间轴上进行推移,开始下一个时间窗口进行告警事务的提取。如图2所示,其中,W1,W2,…,W5告警事件包括A、B、C、D共4种,随着时间窗口的滑动,可以得到不同的告警事务。
其中,W1,W2,…,W5为取的告警事务,通过将同一时间窗口内的告警合并。形成含有一定历史记录的“事务”信息。从而将原本离散、孤立的告警变换成为定量、可处理的事件单元,并为后期的告警管理提供可靠的前提。
(2)模拟退火在告警关联中的应用
构造起告警事务后,需要对告警与故障之间的关联进行标注,来描述告警与故障之间的相对重要性。告警与故障之间的关系可以通过前文所述的网络结果进行表征。通过对网络结构的定量化构建,就可以得到网络故障与告警事务之间的相关度和影响性,使之更接近于真实网络中告警产生的原因,挖掘出频繁度偏低而兴趣度偏高的关联信息,同时也解决了告警信息不确定、不完整等问题。
图2 网络告警事务的生成方式
为了解决上述问题,本文采用模拟退火的方法对故障与告警之间的关联进行分析。在物理中,让多粒子系统达到最低能量的方法称之为“退火”。具体过程为:更新系统的状态序列:设系统中某粒子相初始状态i,其对应能量为Ei;选取其中某个粒子产生微小变化,得到一个新状态j,对应能量Ej;如果,则更新状态。最终系统处于状态i和状态j几率比值等于的玻尔兹曼因子,即:
其中,P(t)在温度t时的粒子能量为Ei的概率分布函数,KB为玻尔兹曼常数为分配函数。
设L(S,f)为优化问题中的一个实例,S表示解空间,f:S→R表示解空间到实数域的映射,t为模拟退火过程中温度的控制参数。设L(S,f)中存在最优解,f(i)、f(j)分别是某对应于i、j目标函数值,则备选解由i过渡到j的概率为:
对于本文所述的告警合并这一“最优化”问题,其本质是一种学习问题,即通过训练数据对故障和告警的相互影响关系进行分析。具体而言,假设故障与告警之间相关的实际概率分布为Q(α),模拟退火的任务就是通过随机仿真获得给定样本的概率分布P(α)用来对分布Q(α)进行学习,其学习的精度可由Kullback-Leibler距离来衡量:
告警合并的学习的过程是基于相对熵的梯度下降算法,即对于初始网络,按照下式更新结构中的每一个边的权重(概率):
其中,η是学习的步长,注意到在前文构建的连接告警和故障的网络结构中,P(α)具有固有明确的权值构成,而Q(α)则不然。因此,对于相邻的节点集合(α,β)有:
其中,Si(α,β)表示系统处于状态i时的网络连接结构。在学习过程中,通过不断减低温度使系统“活跃”程度逐步降低,最终使得系统趋于收敛。因此,通过对给定样本的学习,就可以定量地给出网络故障导致告警的概率。
通过训练好的网络可以对告警背后的网络故障进行判断,不仅可以容易地实现对网络告警的合并,同时可以直接向网络管理人员发送更容易理解的网络故障判断,从而提升网络管理的效率,并极大降低网络管理的开销。
(3)算法验证
为了验证本文所提出算法的有效性,采用天津移动的现网数据对告警进行分析。通过对10万条告警数据的分析,通过模拟退火算法构建告警—故障的对应网络结构,并基于此结构对告警样本进行分析。
在训练中,对于某一个告警事务的故障判断学习过程如图3所示,其中横纵两轴代表了该告警事务为故障1和故障2的概率。可以看到,随着训练次数的不断增长,对于该告警事务的判断不断发生变化,并最终落入结束点中,即将该告警事务作为故障1的大概率原因。
同时,本文对训练样本和分类准确地影响进行了模拟,结果如图4所示。可以看到,随着训练样本数量以指数提升,本文所提出的算法正确率首先出现了快速提升,继而保持在70%左右的水平。可见,通过增加训练样本数量可以大大提升原有网络管理系统的性能。目前,该算法目前已经在运营商实际的网络中得到了初步的推广和应用,并取得了较好的成果。
网络故障诊断是网络管理功能中的重要组成部分,它负责检测、收集、处理、分析以及预测网络中的故障信息。有效的网络故障诊断需要对网络告警进行有效的处理,并及时找出网络中最关键的故障。本文基于模拟退火的思想提出了一种网络告警合并的方法,该方法可以通过对告警的分析找到引起告警最大概率的网络故障,从而帮助网络管理人员更加准确的对网络进行管理和维护。本文所提出的算法目前已经在运营商的实际网络中进行了小规模验证,并取得了显著成效。未来随着相关领域的研究和工程化的不断深入,相关工作将产生巨大的科研和经济效益。
图3 基于模拟退火的网络故障判断训练结果
图4 算法准确率随样本数量变化
2015-10-20)