马 丽,樊 军
(新疆大学机械工程学院,新疆 乌鲁木齐 830047)
移动通信网络技术现已成为国民经济飞速发展的一大助力。移动通信网络规模不断增大带来了难以及时处理的海量告警信息,从而对移动通信网络的稳定性和可靠性产生了直接影响。提前预测移动通信网络告警可以避免由此导致的重大经济损失或安全隐患。目前移动通信网络告警的研究主要有两个方面:(1)海量告警信息引发故障,对于告警信息进行回溯,定位故障源头。文献[1]利用BP神经网络对告警进行模式识别分类,定位主要故障点;文献[2]通过挖掘告警数据中的时序关系来进行故障诊断和定位;文献[3]通过建立父子规则来挖掘告警关联来进行故障定位;文献[4]将支持向量机与滑动窗口相结合提取告警事务对故障进行定位;文献[5]建立故障集合,利用贝叶斯网络对通信网络故障进行定位。(2)根据历史告警数据预测未来故障的发生,如文献[6]用不同时针参数对网络系统设备产生的日志来预测未来故障;文献[7]利用已有的故障点通过负载再分配来预测故障传播和影响的区域;文献[8]通过卷积神经网络(Convolutional Neural Network,CNN)来提取告警日志特征,用长短时记忆(Long and Short Term Memory,LSTM)预测未来网络故障发生的概率;文献[9]利用贝叶斯学习算法来确定故障预测模式来预测故障即将发生的时间段;文献[10]用两层时间窗中报警事件的统计量来表示网络状态,并将统计量作为故障预测的决策特征用以预测网络故障。
由此可见,移动通信网络告警主要包括故障点定位和故障预测两部分研究,这里根据历史告警数据和实时告警数据,对未来可能出现的告警进行研究。首先,对原始告警数据进行数据清洗,完成告警事务数据库的转换;其次,用层次分析法比较告警级别与告警分析树最大分支数的相对重要度,对每个告警序列进行赋权,将告警信息存储在FP-tree中并对其进行挖掘,生成符合要求的加权告警关联规则;最后,通过告警关联规则模式匹配的方式进行告警预测,并通过实验验证方法的有效性。
厂商定义设备名称和设备类型,运营商定义告警级别、告警类型、告警时间,选取设备名称、设备地址、告警级别、告警类型、告警时间五个属性来表述一条告警事件。删除告警事件中任一属性为空数据,然后将属性都相同的告警合并成一条记录,并将告警事件按照时间序列排序。在同一滑动时间窗口内,除时间属性外其他属性相同的告警被认为是同一告警,在该窗口内只记录一次。同时完成告警数据库到适用于数据挖掘的告警事务数据库的转化。
层次分析法(AHP)[14]通过专家给出指标两两之间的相对重要性比较,计算出他们各自的权重,根据分析告警级别和告警分析树最大分支数之间的相对重要度来确定告警权值。
(1)建立告警分析树获取所有告警最大分支数,从高到底分成5个区间,将告警级别与分析树最大分支数进行两两组合,如图1所示。
图1 告警权重层次分析图Fig.1 Alarm Weight Analytic Hierarchy Process
(2)将组合内的告警级别与告警分析树最大分支数进行两两比较,形成判断矩阵A=aij。aij表示的是元素Ai相对于Aj的重要程度,用(1~9)标度点[15]区分事物之间重要程度,其取值范围为{1,3,5,7,9},aji=1/aij,ai=1,i,j=1,…,n。如表1所示。
表1 标度的含义Tab.1 Meaning of Scale
图2 判断矩阵AFig.2 Judgment Matrix A
(3)元素的重要度取值为(1~5)之间的整数,bij表示为元素Ii相对于元素Ij的重要程度,形成判断矩阵B=bij。
(4)用根法计算相对权值,即:
(5)合成权值,即:
在关联规则挖掘中,支持度(Support)[11]是指包含Ii的事务在数据库D中所占的百分比,即:
式中:Support_count(Ii)—项集支持计数,且Ii⊆I,i=1,...,n。
在关联规则挖掘中,输出的规则如I1⇒I2都满足置信度阈值。置信度[11](Confidence)是指包含I1和I2的事物数与包含I1的事物数之比,即:
只考虑告警项集出现的频度,没有考虑每个告警级别及其它因素对告警重要程度的影响,会导致产生许多无效的关联规则[12]。通过分析告警级别与告警分析树最大分支数两个因素对告警权值的影响,采用层次分析法[13]为告警序列赋权。加权支持度Wsuppor(tIi)可以表示为:
加权置信度(Wconfidence)可以表示为:
FP-growth是把数据集压缩成保存所有基本信息的FP-tree(频繁模树)结构,进而产生关联规则。加权FP-growth基本步骤如下:
(1)扫描事务数据库,告警事务按照告警支持计数降序排列,过滤低于支持度阈值的告警项集。
(2)将处理后的通信网络告警数据压缩到FP-tree中。
(3)构造加权条件FP-tree。
(4)挖掘加权条件FP-tree,输出加权告警频繁项集,滤去小于加权置信度的告警关联规则,生成满足条件的告警关联规则模式。
(5)记录每条告警关联规则及其加权支持度、加权置信度参数。
(6)将所的结果保存到告警关联规则库。
对实时告警数据进行预处理后,根据告警关联规则模式和实时告警数据,用告警关联规则模式匹配的方法进行实时告警预测。
假设一条告警关联规则含n项告警,在指定时间窗口内,实时告警和一条告警关联规则内告警集合的前(n-1)项匹配,则认为该告警关联规则内的第n项告警将在未来某段时间w发生,概率为p,其中,w为滑动时间窗口宽度,p为该项规则的置信度。
(1)首先,对告警数据进行预处理。
(2)将告警关联规则库存放到数据结构中。
(3)输入实时告警数据,遍历所有的告警关联规则,将实时告警与告警关联规则内告警集合进行匹配。判断实时告警与该告警关联规则内告警集合的前n-1项是否匹配。当前读入告警的发生时间与该事务的第一项的发生时间差小于或等于属于同一事务的最小时间窗口。
(4)告警关联规则内告警集合数量为n,判断实时告警数据是否与关联规则内告警集合的前n-1项完全匹配,如果匹配,则输出第n项告警,输出的告警将在某段时间发生(w)。否则遍历下一条规则,再次进行匹配,直至遍历完所有的规则模式。
(5)将预测所得集合按照加权置信度进行排列,并输出每条规则的支持度与置信度。
验证基于加权FP-growth 的告警预测在规则挖掘阶段和告警预测阶段是否都优于基于FP-growth告警预测。
实验数据来源于某市移动通信公司连续7天的通信网络告警数据,包括62090条网络告警数据、228个网络元素及236个告警类别。
表2 通信网络告警数据实例Tab.2 Example of Communication Network Alarm Data
4.3.1 数据预处理
将预处理后的通信网络告警数据分为两部分,大部分用于关联规则挖掘,小部分用于告警预测。
这里对原始告警数据进行属性及缺失值处理、过滤无意义告警合并重复告警处理,如表3所示。
表3 告警数据预处理Tab.3 Alarm Data Preprocessing
预处理后的告警数据中有提示告警、次要告警、重要告警和紧急告警四个告警等级,四个告警等级数量统计分布,如图4所示。
图4 告警数据中告警等级所占比例Fig.4 Proportion of Alarm Level Data
图5 窗口宽度对数据挖掘执行时间的影响Fig.5 Effect of Window Width on Execution Ttime of Data Mining
4.3.2 加入权值的关联规则
滑动时间窗口宽度的大小会对算法执行时间产生影响,当窗口宽度win<5min时,滑动步长小,窗口移动速度慢,算法执行时间较长。窗口宽度win >13min时,每个窗口中包含的告警增多,算法效率下降。窗口宽度在(5~10)min时,算法效率较高。同时大部分告警序列在10min 之内发生,故而选取时间窗口宽度为600s,滑动步长为480s,进行关联规则挖掘。
由于加权FP-grwoth算法构建加权FP-tree是通过加权支持度进行剪枝,使得告警数据集大幅减少,通过加权置信度过滤弱关联规则,保留强关联规则,减少关联规则挖掘所需的执行时间。在相同数据量下,数据挖掘执行时间越短挖掘效率越高,如图6所示。
4.3.3 实时告警预测
当支持度sup<0.2 时,支持度较小,产生较大规模的关联规则,无用关联规则较多,降低了规则模式匹配时的效率。当支持度sup>0.6时,支持度较大,大幅削减了频繁项集,虽产生较小规模的关联规则,但产生有效关联规则更少,因此降低了规则模式匹配时的精度。在支持度较小的时候,由于挖掘的有效告警关联规则较多,所以预测的也会较为精确。在不同的支持度下,基于加权FP-growth 的告警预测在精确度、F1值等方面都优于基于FP-growth的告警预测,如图7所示。
图7 不同支持度下的F1值Fig.7 F1 ValueUnder Different Support
通信网络告警预测可有效避免通信网络故障,减轻经济损失。通过层次分析法为每个告警序列有效赋权,提出基于加权FP-growth挖掘告警关联规则模式,并通过模式匹配方法进行告警预测。通过上述方法对一周的告警数据进行实验验证,在告警数量相同时,加权FP-grwoth挖掘效率高于经典关联规则挖掘效率,在告警数量为20000条时,挖掘效率取得最大值428条/s。在告警预测阶段,基于加权关联规则的告警预测F1值高于经典的关联规则告警预测方法,且F1最大值为0.65。此方案在告警预测中具有较高的价值,提高了通信网络的可靠性和稳定性。