张永华(中国移动通信集团广西有限公司,南宁 530022)
基于大数据技术的电信网络告警关联分析设计与实现
张永华
(中国移动通信集团广西有限公司,南宁 530022)
摘 要本文研究将网络告警数据进行合理有效的存储和筛选之后,通过分布式内存计算,将同一时间窗口内同时出现的告警进行采集,计算出告警的共现的频率大小,根据共现频率的高低判断潜在告警之间的关联关系,提供给相关网络专业做出进一步确认。
关键词电信大数据;分布式计算;告警关联;数据挖掘
本文为解决现有广西移动公司综合告警平台因应用场景不同而无法进行海量告警信息的数据关联分析和挖掘,日常需依赖专业人员的经验来获取的告警关联规则等存在的不足,提出利用大数据技术实现自动化网络告警关联分析。本系统设计能够满足海量电信网络告警数据存储与分析要求,基于Hadoop云存储构架,管理海量告警数据,通过MapReduce并发处理的每日全量告警FTP文件和关联计算任务,实现告警分析的快速查询、统计与关联分析,解决了大并发、高读取问题,全面提升了集中化故障告警运维管理水平和工作效率。
本文提出了基于分布式存储、内存计算的电信告警数据处理在关联分析下的通用分析应用领域的扩展方案,进一步拓展本案的应用范围。
广西移动的综合告警平台,主要规划是实现“设备告警、性能监控、拓扑监控、场景监控”一体化的移动通信网络全专业网元综合告警监控平台,支撑全专业的集中故障管理的运维工作。
目前,综合告警平台基本能够满足全专业网元的监控告警及故障处理需求,然而在告警分析方面仍存在不足。
1.1 目前告警处理模式无法提前发现问题
平台在实际使用过程中,每天大约产生4~5 GB的告警数据量(文本,约60~80万条告警信息)。由于目前的告警信息主要依赖于监控人员进行手动确认,监控人员通常会忽略75%以上的低级别告警信息,而重点处理一些更加紧急的高级别告警问题。在实际排查问题中发现,高级别告警问题往往在前期就会有部分低级别告警表征。而现有的系统下,这些有预警价值的低级别告警完全被忽略,只有等到发生较严重问题时监控人员才去处理,这是以降低网络运维的管理质量和牺牲数据的分析质量为代价的管理模式。如何针对性地对大量告警数据下,如何快速甄别出现频率高的告警数据的问题亟需得到解决。
1.2 对海量的业务告警数据缺乏有效的应对技术和架构
目前,使用消息队列和关系数据库等技术来传输和存储告警数据,每天的数据库增量为16 GB。而目前的告警系统存储设计容量为2 000 GB。因此,目前的架构下和性能条件下,系统只能保存3个月左右的告警数据信息,超过3个月的数据只能被丢弃或归档。这使得历史数据的分析和处理受到很大的限制,只能做简单的近期数据的统计分析。
针对现有综合告警平台分析能力的欠缺,提出利用大数据技术实现全专业网络告警数据同步存储、同步分析以及针对海量告警进行关联分析和数据挖掘的思路,并进行系统设计与实现。
分布式多层级的存储框架告警存储主要是在保证数据处理性能和查询性能的情况下,解决海量告警数据存储的问题。通过当下流行的大数据技术,使用廉价的分布式存储,能够支撑以后的容量扩展和更健壮的运维能力。同时,针对不同的数据处理需求和目标,利用多层级和多目标的数据存储系统来存储和管理不同的数据。系统实现主要包括存量数据处理和每天的增量数据处理,使用基于本地计算优先的分布式海量数据处理对告警数据进行高效并发数据处理和分析,实现快速有效的数据分析、过滤、挖掘工作。
为此,提出一种基于大数据处理平台的大规模告警关联分析方案,针对电信网络告警关系进行梳理和挖掘告警关联之间的依赖、因果关系的方案具有十分重要的意义。
3.1 分析算法
关联分析的基本原理是,首先找出所有的频繁项集,然后,根据频繁项集产生强关联规则,这些规则必须满足告警出现的最小频率。紧接着使用第一步找到的频繁项集产生期望的规则,产生只包含集合的项的所有规则。一旦这些规则被生成,那么只有那些大于设定的支持度即最小频率的规则才被留下来。为了生成所有频集,使用了递归的方法。
算法描述如下。
将该思想应用到电信网络告警数据,可以理解为将频繁出现的一种告警筛选出来,再根据规则将频繁出现的两种告警进行过滤,依此类推,选择出频繁共现的告警进行分析,达到数据挖掘在告警分析应用中的效果;规则的使用可以溯源到关联分析中的规则。
3.2 在电信网络告警分析场景中改进关联分析算法
关联分析算法在电信行业应用广泛。武丽芬等人利用关联分析算法对移动用户的消费习惯进行分析为移动制定套餐提供科学参考。石永革等人针对告警网元每天产生的大量数据,通过过滤冗余告警之后,提出将关联挖掘算法Apriori与事件滑动窗口相结合的告警相关性规则生成算法,实现自动生成告警相关性规则。关联分析算法在电信行业有着丰富的应用案例和成果,证明了本论文研究的可行性。
我们结合广西移动通信网络告警数据特点,分析每天产生大量非结构化的告警日志。这些告警日志一方面是故障事件的集合,该集合与连续性时间紧密相关,因此没有明显的事务的特征,导致其并不能直接使用关联算法进行分析;另一方面,这些大量的告警蕴含了丰富的网元关联关系,一旦分析出这些关系将大大简化了故障定位过程提高故障定位速度,为快速响应故障处理提供强有力的支持,基于大数据技术的电信日志关联分析算法,在原有的关联算法(如Apriori算法)的基础之上进行包装,算法的整体结构如图1所示。
图1 算法的整体结构
从图中可以发现,我们使用并行化内存计算框架Spark实现了关联分析中的核心算法,并围绕该算法外层加入了日志语义提取算法、事务化算法和语义复现算法。
本系统实现方案主要由分布式存储模块,智能数据转换模块、基于分布式内存计算高速报表模块以及智能告警模块组成。
4.1 解决方案对比
现有的关联分析解决方案主要分成3种,第1种是基于多算法的数据挖掘平台Weka;第2种是基于大数据处理开源挖掘框架,包括Apache Mahout、Spark MLlib、Cloudera Impala等大数据平台;第3种是针对行业特点,结合行业场景定制开发的专业关联分析解决方案。
Weka是一个Java实现的GUI数据挖掘平台,该平台集成了大量的数据挖掘算法,也包括Apriori和FP-Growth关联分析算法。该平台主要的优点在于使用简单,无需过多的配置,下载安装即可,然后提供符合Weka要求格式的分析数据,即可选用其中的现成的算法进行关联挖掘的分析。Weka的主要问题有:第一,Weka是基于Java实现的单机挖掘平台,故难以适应大规模通信网络设备告警关联关系的挖掘;第二,Weka仅仅接受标准的事务数据的挖掘,大规模通信网络设备告警的日志信息无法在该平台上运行;第三,使用Weka平台进行关联关系的挖掘全程需要人工参与,无法实现自动挖掘分析每日告警关联关系。
Apache Mahout是开源分布式挖掘平台的典型代表。Apache Mahout是基于分布式MapReduce系统实现的大规模数据挖掘平台。以Apache Mahout为代表的开源分布式分析系统,其优点有以下几点:第一,算法全面,通用性强。Mahout实现了线性回归、关联分析、协同过滤等数10种数据挖掘方向,过百种算法,能够满足一般领域,具备一定数据规模的数据挖掘、分析场景。第二,有成熟的应用案例可以参考。Mahout开源分布式挖掘平台,存在以下不足:第一,追求过强的通用性的同时,缺乏对于专有领域的支持深度。目前Apache Mahout能够成功应用在行为数据分析、电商精准营销等领域,但是对以大规模通信网络设备设施为代表的隐式事务的特征的挖掘却不尽人意。主要表现在通信网络设备告警专有领域不具备事务特征,没有明显的事务边界,其次,电信专有领域的分析挖掘要求输入的大量的包括结构化、半结构化和非结构化的数据,要求输出的是结构化或者可视化的分析结果。第二,Mahout分析的结构分布在分布式系统的每一台参与计算的节点,并且是二进制流的格式存在,不便于查看和可视化全局的分析效果。
基于通信网络设备告警特性为基础,以解决电信行业关联分析痛点为宗旨的,以Spark分布式内存计算框架为依托的大规模告警关联解决方案,其最大的优点在于:第一,深入了解大规模通信网络设备告警所具备的告警数量规模大、告警噪声强、告警数据难以事务化的特点;第二,深入理解通信网络设备告警挖掘的实际场景,针对性对挖掘算法进行改造和补偿。
海量告警关联分析解决方案,利用先进的标签提取和复原技术,与现有流行的Apache Mahout解决方案进行对比,详情如表1所示。
4.2 实施方案
本系统实验环境由4台主机组建而成,每台计算机的配置为24 cores CPU,64GB RAM,4台计算机分别命名为Hadoop-Master、Hadoop-Worker1、Hadoop-Worker2和Hadoop-Worker3.在实验环境中使用Hadoop 2.2.0提供的HDFS分布式文件储存服务,其中后3台主机均是HDFS DataNode节点,内存计算框架采用Spark-1.0.1版本,其中Hadoop-Master为master节点,Hadoop-Worker1、Hadoop-Worker2和Hadoop-Worker3均为worker节点。
4.3 软件部署
软件部署采用大数据处理套件CDH进行部署,其中Hadoop-Worker1、Hadoop-Worker2、Hadoop-Worker3作为分布式存储节点和内存计算节点。在大数据和云计算时代,CDH很好地融合了基于Apache协议与大数据处理技术如Hadoop、Spark之间的关系。它可以做批量处理,交互式SQL查询和及时查询,基于角色的权限控制;是在企业中使用最广的Hadoop分发版本。采用该软件,可以使关联分析计算更及时和更有效,系统软件部署如图2所示。
4.4 功能模块设计
为了更好地利用电信网络告警大数据处理技术上丰富的数据资源和快速的处理技术优势,关联分析模块可以设计为嵌入大数据的通用方案,将分布式文件系统存储功能、分布式内存计算功能、结构化数据库存储功能综合一起,整个大规模告警数据处理方案包含数据接入与转换,数据分析与处理,海量数据存储,前端系统等4个子系统。系统功能设计如图3所示。
4.5 平台管理功能
图2 系统软件部署
表1 关联分析方案比较
系统后台采用可视化处理,对不同的功能组件,如分布式存储HDFS、内存计算框架Spark等,进行插拔式管理,并对机器的运行状态采用曲线趋势图进行展示,运维人员就可以避免繁琐的命令行方式,直接点击图形实现故障定位和运行状态获取,如图4所示。
图3 系统功能设计
系统可将告警数据进行合理有效的筛选之后,通过分布式内存计算,将每5min内同时出现的告警标题进行采集,计算出告警标题的出现频率大小,如我们选取2015年7月18日广西省的网络告警数据进行关联分析计算,选择维度为全广西省和全专业,得到结果如图5所示。在图中可以看到,告警“RRU光口故障”出现频率为52%,即在7月18日,广西省电信网络告警“RRU光口故障”每5min就出现一次的频率为52%。我们还可以发现,“S1ap链路故障”出现频率为100%,即在7月18日,广西省每5min就出现一次该网络告警。二项告警集合“Smartgroup接口失效告警”和“交流缺相告警”共同出现的频率为65%,即7月18日在广西省“Smartgroup接口失效告警”和“交流缺相告警”两个告警每5min出现一次的频率为65%。
图4 平台运维管理界面
本文针对广西移动网络综合告警平台现有应用场景不足以及海量告警数据分析的关键性能分析需求,设计了一套基于分布式技术的电信网络告警关联分析模型,同时提出了基于大数据技术处理平台的模型设计与实现方案,通过实验表明,在全网网络告警规模也越来越庞大,网络厂家的网元类型和型号呈现多样化,故障也日益呈现规模化的背景下,本系统能够解决电信网络中海量告警数据的智能化挖掘及特定场景分析需求等问题,解决了告警分析大并发、高读取问题,全面提升了集中化故障工作的告警管理水平与效率。
后续工作我们将进一步研究在如何做到分网元类型、分告警内容、分时间粒度的事务提取,实现更多的潜在告警关联分析,同时在此基础上扩展告警维度在不同的时间和空间中的拓扑关系,达到深入挖掘现有电信网络告警数据价值的目的。
图5 告警关联分析界面
【编者按】OVUM是一家在世界电信产业界富有权威性的独立/中立咨询顾问公司; 从事信息通信技术(ICT)商业策略研究,研究领域涉及电信、IT、广电及互联网4大领域。OVUM拥有30年协助全球电信业制定策略、规划及国家电信法规的丰富经验。
OVUM全球电信研究报告在大量有关情报研究的基础上从商业的角度对运营商的网络投资及运营、业务创新、营销策略、 政策法规、客户市场需求、新兴技术和前景预测,帮助运营商在不断变化的政策环境和市场环境中稳固地位的同时,更加有效地谋取潜在的商业价值; 并为运营商的规划设计单位提供不断更新的全球电信市场动态和战略视野以帮助产品创新。
本刊设置OVUM观察专栏,定期发表OVUM的研究成果,包括翔实的相关信息,供信息通信业有关管理、规划、决策人士参考。
Design and implementation of telecommunication network alarm analysis based on big data technology association
ZHANG Yong-hua
(China Mobile Group Guangxi Co., Ltd., Nanning 530022, China)
AbstractWe collect the concurrent alarm occurred in the same time window after storing and fi ltering the network alarm data effectively. The concurrent frequency of alarm occurred in the same window will be computed leveraging distributed memory computing and the system will mine the potential association among alarms according to the concurrent frequency. The result will be offered to network maintainer to make a primary decision.
Keywordstelecommunication big data; distributed computing; alarm associated; data mining
中图分类号TN915
文献标识码A
文章编号1008-5599(2016)04-0018-06
收稿日期:2016-03-03