基于数据挖掘技术的告警恢复模型

2016-09-06 12:50:41熊鹰周御峰谢捷中国移动通信集团四川有限公司达州分公司达州635000中国移动通信集团四川有限公司成都60097
电信工程技术与标准化 2016年8期
关键词:恢复模式工单时延

熊鹰,周御峰,谢捷( 中国移动通信集团四川有限公司达州分公司,达州 635000; 中国移动通信集团四川有限公司, 成都 60097)

基于数据挖掘技术的告警恢复模型

熊鹰1,周御峰2,谢捷2
(1 中国移动通信集团四川有限公司达州分公司,达州 635000;2 中国移动通信集团四川有限公司, 成都 610097)

随着信息通信网络设备功能和业务服务的发展,监控部门在网络维护日常工作中的作用日益突出。本文利用数据挖掘中的K-means算法对半年内的原始告警做聚类分析,论述了告警恢复所遵循的普遍规律,并分别利用离散和连续两种方法建立数学模型对最佳派单时间点的设置进行研究,为告警管理的提升以及大数据技术在电信运营商中的使用提供了思路和建议。

大数据;数据挖掘;K-means;回归分析

1 背景概述

近些年来,随着国民经济的不断发展以及电信业改革的不断深入,信息通信网络在规模上不断扩大,在多业务上逐渐融合,并且新业务的引入速度也在加快,这些变化无疑会给电信网络管理及维护工作带来极大的挑战,另外,目前的国内通信服务竞争态势更是日益白热化。因此,“支撑一线”、“客户感知”和“网络质量”将会是电信运营商日常工作的重中之重,如何保障通信企业的生命线,作为一项迫切需要解决的任务,已经摆在了新形势下的电信运营商面前。

监控部门作为网络维护工作中的核心部门,承担着全省通信网络7×24 h集中故障管理以及重大故障、突发事件的快速响应任务,有着举足轻重的作用。与此同时,四川省与东部省份相比,具有特殊的地貌特征并且地震、泥石流等自然灾害发生的次数较多,这不仅给一线网络维护工作带来了影响,也使得对网络中产生的大量告警进行有效地工单派发成为了一个重要而迫切的管理需求。

告警分析作为监控部门的一项日常工作早已深入人心,其不仅对网络维护工作具有实际的指导意义,同时也将直接决定故障处理时长,从而影响客户感知。

2 工单派发现状

为了深化网络运维体制改革,加快形成“集中化网络维护管理和属地化服务支撑相结合”的运维模式,以省为单位的集中故障管理模式作为提升通信企业竞争力的途径之一应运而生。

在集中化故障管理的具体实施过程中,故障从发生到通知维护人员处理再到消除,大致需要经历以下7个阶段:网络设备告警获取、告警关联、告警标准化处理、故障工单派发、维护人员处理故障、故障工单回复和故障工单质检。因此,故障工单派发规则是否高效将直接影响故障历时。

故障工单派发时延点的设置,对于告警管理的效率具有至关重要的影响。其中,若是派单时间点设置的靠后,虽说可以减少故障工单的数量,但另一方面也会使告警失去意义,无法发挥监控部门故障及时发现并通知一线的作用;若是派单时间点设置的靠前,虽说能够及时派单,减少故障历时,但同时也会使得故障工单数量大幅度上升,从而导致分公司花费大量人力、物力苦于回复故障工单的情况。在目前的日常监控工作中,告警派发故障工单的时间点设置,一般来说都是维护人员和监控人员根据经验随意设定的一个延迟值,该延迟值的界定规则是模糊的,延迟或者提前多久缺乏严格的理论依据。与此同时,延迟值设置的合理性是由一线维护人员的接单量多少来核算,只要接单量过大,就认为不合理。因此,若是能够通过一种有效的算法设置派单时延,并且科学地给出其合理性的评判标准,则必将提高新形势下网络维护工作的管理效率。

在现有通信网络中,不同专业、不同级别和不同地市的告警种类和特征繁多,若是对全量告警建立故障工单,不仅不会减少浩大的维护工作量,反而还会隐藏关键的故障源点,从而导致故障得不到及时处理,直接影响网络质量。因此,需要对全量告警进行统计分析。

以半年内的64 892 918条告警为研究对象,按照不同专业、不同地市和不同级别的维度对其进行整理,发现其中绝大多数告警的恢复模式并非是以匀速走势呈现,而是会在短时间内自动恢复,如图1所示。

图1 多维度告警恢复模式

从图1中可以得出,不同专业、不同地市和不同级别的告警恢复都呈现类似的“潮涌”现象,不难发现,在告警恢复模式图中存在这样的一点:该点之前的每一分钟内告警的恢复量较多,该点之后的每一分钟内告警恢复的较少。在本例中,具有这样特征的点称之为告警恢复拐点。可以猜想,若是把派单时间点设置在告警恢复拐点,不仅可以大量减少故障工单派发量,同时也能够使故障得到及时处理,从而提高告警管理能力。

3 原始告警数据处理与分析

由上述可知,不能仅仅分析各种告警汇总的表现,而是应该采取逐一分析的方式研究告警恢复模式。与此同时,考虑到研究对象是半年内由网络设备获取的64 892 918条原始告警,数据量极大,因此,需要采用大数据的分析手段首先对原始告警进行处理。对64 892 918条原始告警按照告警标题进行筛选,可以划分为4 439种相互独立的告警。通过对这些告警的分析,发现不同告警的告警量存在极大的差异,极少数的告警具有极大的告警数量,绝大多数的告警的数量却是微不足道。若是设定一种告警平均每天发生11次为门限(平均每个月发生333次,半年发生1 998次),超过此门限值,则认为属于大告警量的告警,那么,统计结果近似符合2/8原则,即超过这一门限值的告警共有885种,占总数的19.937%,大约20%种告警产生的告警次数占总次数的80%。因此,对于告警恢复模式的分析,只需要关注那些告警量大、告警级别高的告警。

3.1大数据与电信运营商

随着“互联网+”新形态、新业态的推进,物联网、云计算和大数据等作为新一代信息技术必将在经济社会中得到更大的延伸和发展。新的技术往往会带来新的变革,目前,已经有越来越多的企业和个人意识到大数据的巨大价值,也意识到大数据分析给传统数据分析和处理技术带来的挑战。大数据,是需要新处理模式才能具有更强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,具有Volume(大量)、Velocity(高速)、Variety(多样)和Value(价值)的4V特点。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。电信运营商的系统本质是为用户与用户、设备与设备、用户与设备之间提供通信信道,每天承载着海量信息,是互联网大数据的源头。在大数据应用方面,电信运营商具备无可比拟的数据资源,这在网络维护和网络优化分析中体现的尤为充分。

3.2数据挖掘技术

数据挖掘就是从大量的、不完全的、有噪声的、模糊的以及随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘技术运用于网络指标分析中,不需要事先对网络的具体结构或者组成有深层次的掌握,其主要是从有效地历史告警数据集合中依靠挖掘工具来发现数据背后的规律。常见的数据挖掘系统模型如图2所示。

图2 数据挖掘系统模型

利用数据挖掘技术对数据进行分析,常用的方法主要有以下几种:分类、回归分析、聚类、关联规则、偏差分析、Web页挖掘等,它们分别从不同的维度对数据进行挖掘。其中,较为常见的是聚类分析,它是把一组数据按照相似性和差异性分为几个类别,每个类别又称之为簇,其目的是使得属于同一类别的数据之间的相似性尽可能大,不同类别的数据之间的相似性尽可能小。该分析方法常常应用在客户背景分析、客户购买趋势预测以及市场的细分等领域。

3.3K-means聚类算法

K-means算法是聚类分析中的经典算法,采用欧氏距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象所组成,因此,把得到紧凑且独立的簇作为最终的目标。其计算过程可以非常直观地分为以下5步。

(1)从D中随机取K个元素,作为K个簇的各自的中心。

(2)分别计算剩下的元素到K个簇中心的相异度,将这些元素分别划归到相异度最低的簇。

(3)根据聚类的结果,重新计算K个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数。

(4)将D中全部元素按照新的中心重新聚类,直到标准测度函数开始收敛为止,标准测度函数一般选取均方差。

(5)将结果输出。

利用K-means算法确定的K个簇到达的平方误差最小。另外,在处理大数据集时,相对可伸缩,其计算复杂度为O(NKt),其中N是数据对象的数目,t是迭代次数。

3.4数据分析

利用K-means算法对4 439种告警进行聚类分析。4 439种告警作为一个元素集合,对集合中的每一个元素进行30维坐标量化,坐标值为(A_1,A_2…A_29,A_30),其中,A_n为告警在单位时间内的恢复占比。从元素集合中随机挑选5个元素作为第一次聚类的中心,然后,分别计算剩余的4 434种告警和5个中心之间的欧氏距离以判断相异度,并把相异度最小的划分到一个簇中,依次迭代,直到标准测度函数收敛。聚类分析的结果如图3所示。

图3 K-means聚类分析

从图3可以看出, 4 439种告警聚合成为5大类,其中,占比特征-1所占比例最大(57.2%),其告警恢复曲线衰减极快,占比特征-2所占比例次之(26.0%),恢复曲线衰减缓慢,占比特征-3/4/5所占比例较小,并且恢复曲线的峰值不在最初的几分钟,即潮涌现象不明显。因此,占比特征-1中的级别较高的告警将是值得关注的重点。

4 工单派发规则的策略实现

以占比特征-1告警中的PWE3-CES分组丢失状态告警(一级告警)为研究对象,对其恢复模式曲线建立数学模型以求得告警恢复拐点,并把此点作为派发工单时间点用于工程实践。

4.1原有模型

PWE3-CES分组丢失状态告警的恢复模式曲线如图4所示,以7个点的分布来代替在某个时间点邻域内的曲线走势,即以某一点为中心,往前取3个点,往后取3个点,进行模拟。以n=4为例:

图4 模型原理图

由于只关注K4在K1~K30中是否为最大,并不关注具体的值,因此,为了方便计算,可以对上式进行归一化处理:

进而可以抽象出一般权值公式:

在上式中,Kn代表不同时间点的权值,An是指单位时间内,告警恢复的百分比。例如A3代表的是2~3 min期间恢复的告警占总告警的百分比。0~30 min 内Kn最大时的那个n,就是我们寻找的告警恢复拐点。

通过公式(3)计算可得,本例中的n=4时,Kn取得最大值0.593 5。因此,对于PWE3-CES分组丢失状态告警,最佳派发时间点应该设置为4 min。

4.2原有模型的分析

模拟曲线所用的离散点个数是设置在一个比较模糊的规则之上,模型中采用7个点是依据经验所设,并没有进行准确性论证,因此,无法和设置为其它个数时的情况相比较。另外,针对每一条告警,都需要计算30 个Kn(K1~K30),每一个Kn又需要利用前后共7个点进行11次运算,因此,该模型总共需要进行146.5万次(4 439×30×11≈1.46×106)运算,无疑会增加系统的空间复杂度和时间复杂度。基于以上两点的分析,考虑对原有模型进行改进,用回归分析代替离散拟合,从而弥补原有模型的局限性。

4.3模型的改进

4.3.1幂函数、最小二乘法、多元函数极值

由于告警恢复模式和幂函数分布及其相似,因此,考虑采用幂函数模型进行回归分析:

由于最小二乘法具有较好的线性拟合特性,因此,对公式(4)两边取对数,进一步化简得到:

对公式(5)进行变量代换转化(Y=logy,A=loga,B=b,X=logx;),得到:

根据最小二乘法原理,可以构造出如下形式的多元函数M=M(A,B),当公式(6)中的函数值与实验数据之间的偏差最小时,M取得最小值,从而可以确定出公式(4)中的待定常数a和b,以满足回归分析的准确性:

由多元函数极值的必要条件可知,当M取极小值时,必有公式(8)成立:

即:

通过列表计算,可得:

进而求得:

把求得的a和b带入公式(3~4),从而得到拟合后的曲线表达式:

4.3.2幂函数、SPSS回归分析

通过SPSS软件做出告警恢复模式的散点图,并利用幂函数进行回归分析,结果如图5所示。

从图5中可以看出,通过幂函数进行拟合的可决系数为99.3%, R2的值越接近于1,回归方程的拟合度越好。同时,从图中也可以得到回归方程的数学表达式:

形式上与最小二乘法求得的结果相一致。

4.3.3数学模型构造

上式中,f'(n)代表n时刻拟合曲线的导数值(斜率),f'(n-1)代表前一时刻的导数值,Kn代表n时刻斜率相对于n-1时刻斜率的变化率,并作为n时刻告警恢复时间点的权值,使Kn最大的那个n值,就是我们寻找的告警恢复拐点。

图5 SPSS回归分析

把公式(11)代入(12)中,可以得到,当n=2时,Kn取得最大值0.855 7。因此,对于PWE3-CES分组丢失状态告警,最佳派发时间点应该设置为min。

4.4改进后模型的分析

通过回归分析建立的模型与真实值的误差较小,即99.3%可以由该模型进行解释。另外,结合公式(12)可以得到该模型需要进行的计算量为39.9万次(4 439×30×3≈ 3.99× 105),明显少于原有模型,这不仅可以减轻系统运算负荷,同时也能够缩短运算时长。

在工程实践中,最终是选择4 min还是2 min作为派单时间点,还需要统筹兼顾综合考虑。四川省各个地市分公司的维护条件不同,若是按照模型计算的结果统一设定明显不合理,例如甘孜藏族自治州和自贡市相比,甘孜最远的基站离康定城区700多公里,驱车需要近20 h,就是当地驻点的维护人员到最远的基站也需要15 h左右,然而自贡最远的基站离城区仅2 h车程。另外,四川省的地貌特征呈现多样化,就算是在同一个分公司,地理环境也不尽相同,例如绵阳分公司的直属区属平原地形,江油市属丘陵地形,北川羌族自治县属山区地形。

因此,以上两种模型所计算出的结果只是作为派单时延点参考值,具体在工单派发系统上设定时仍需多方面考虑。

4.5派单策略的扩展

4 439种告警聚合成5大类,每类占比特征各不相同,在具体的告警工单处理程序中,针对不同告警提供不同派单时延点,如图6所示。

图6 派单策略实现框图

对于告警量达到一定门限并且恢复模式符合“潮涌”现象的,利用模型计算时延点并把结果更新至告警派单时延映射表中,对于那些不符合条件的告警则根据其告警级别和专业,采用默认的派单时延并更新至映射表中。

5 应用与未来工作

通过两种建模方法分别对告警恢复模式进行分析,实现了大数据处理技术与数学模型的有效结合,对于监控部门的日常告警分析工作具有实际指导意义。本例中,在PWE3-CES分组丢失状态告警的工单派发策略更改前,时延点的设置为25 min,告警恢复占比为97%,工单派发量3张;策略更改后,时延点的设置改为3 min,恢复占比变为88%,工单派发量变为4张,由此可以看出,采用新的工单派发策略后,工单派发量仅仅多了一张,然而派单时延点却提前了88%(22 min),这就使得在控制工单量的基础上故障仍然能够及时通知的效果得到了充分体现。

另外,派单时间点的设置只是上述数学模型的一个应用,其它方面,如网络故障查找、告警关联性分析是否也能够应用该模型可以作为未来工作的一个研究方向。在模型的改进中,采用了斜率变化率的概念,若是改为曲率或者高阶导数思想重新构造数学模型,效果会不会更加完善,也可以作为以后工作的研究内容。

大数据作为互联网时代发展的必然产物,具有变革价值、变革经济和变革组织的力量,其核心在于对海量数据进行存储和分析。处于移动互联网时代的电信运营商若是能够有效地利用大数据分析技术,并且充分发挥自身丰富的信息资源优势,则必然能挖掘出更多的价值,从而更好地服务于社会。

[1] 黎娟. 通信网网管支撑系统运行质量管控的研究与实现[J].电信科学, 2013,29(12):139-144.

[2] 矫秀梅. 推进集中故障管理提升网络生产效率[J]. 科技与创新, 2014(20):75-77.

[3] 包劼. 大数据,大变化,大未来-大数据支撑驱动电信运营商转型发展[J].通信世界,2013(20):49-50.

[4] (加)Han J, Kamber M.数据挖掘概念与技术[M]. 范明, 孟小峰,等译. 北京:机械工业出版社, 2001.223-262.

[5] 姜启源. 数学模型[M]. 北京:高等教育出版社, 2011.

[6] 韩中庚. 数学建模方法及其应用[M]. 北京:高等教育出版社,2009.

Discussion of alarm recovery model based on data mining technology

XIONG Ying1, ZHOU Yu-feng2, XIE Jie2
(1 China Mobile Group Sichuan Co., Ltd. Dazhou Branch, Dazhou 635000, China; 2 China Mobile Group Sichuan Co.,Ltd., Chengdu 610097, China)

With the development of the information communication network equipment functions and business services, the role of the monitoring department has become an increasing important in the daily work of network maintenance. In this paper, use the k-means algorithm of data mining to make cluster analysis with the original alarms which come from six months, discussing the universal rule of alarm restoration,establishing mathematical mode with discrete and continuous ways to study the setting of the optimum time, offering some ideas and suggestions for the alarm management and the use of big data technology.

big data; data mining; k-means; regression analysis

TN915

A

1008-5599(2016)08-0069-07

2016-01-01

猜你喜欢
恢复模式工单时延
基于量化考核的基层班组管理系统的设计与应用
电子测试(2022年7期)2022-04-22 00:13:16
基于transformer的工单智能判责方法研究
高技术通讯(2021年6期)2021-07-28 07:39:20
白龙江干旱河谷恢复植被物种多样性特征
基于AHP-PCA的铁尾矿不同植被恢复模式土壤养分评价
基于GCC-nearest时延估计的室内声源定位
电子制作(2019年23期)2019-02-23 13:21:12
基于改进二次相关算法的TDOA时延估计
测控技术(2018年6期)2018-11-25 09:50:10
基于HANA的工单备件采购联合报表的研究与实现
中国核电(2017年1期)2017-05-17 06:09:55
FRFT在水声信道时延频移联合估计中的应用
基于分段CEEMD降噪的时延估计研究
电力95598热线全业务集中后的工单预警机制