大数据技术在电信网络故障管理中的应用研究*

2016-11-30 07:44牛作元张锋军
通信技术 2016年8期
关键词:网络资源故障用户

牛作元,张锋军

(中国电子科技集团公司第三十研究所,四川 成都 610041)

大数据技术在电信网络故障管理中的应用研究*

牛作元,张锋军

(中国电子科技集团公司第三十研究所,四川 成都 610041)

随着电信网络的不断发展,现有管理技术无法满足管理需求的不断变化。大数据技术作为当前的热门技术,得到了广泛关注和研究。研究大数据在电信网络故障管理中的应用,分析总结了多源故障管理数据,提出了基于大数据的故障管理架构,并对大数据在多源故障数据处理、面向用户感知的业务质量评估、业务质量趋势预测、故障定位及恢复等故障管理过程中的应用进行了分析。这对提高故障处理效率和提升用户体验具有重要意义。

大数据;故障管理;业务故障;用户感知

0 引 言

目前,信息化从基础网络建设、业务系统建设,逐步进入了业务和网络融合发展、网络和业务系统复杂度和规模不断成熟和扩大、以智能化和业务导向为特点的新时期。电信运营正在经历以“网络为中心”的运营模式向着以“业务和用户为中心”的运营模式的深刻变化。因此,保障业务的高可用性,及时掌握业务质量情况,主动发现业务故障,在业务出现故障时迅速查明故障的根本原因,并恢复业务的正常运行变得十分重要。

随着电信网络和业务的快速发展,电信网络产生的数据量(Volume)急剧增长,使得传统数据仓库的数据处理和存储压力增大。传统的电信网络数据以结构化数据为主,但是当前的业务发展和管理需求需要有效处理结构化、非结构化、半结构化等多样化(Variety)的数据,传统数据仓库难以完成。此外,在电信网络管理中,为了满足用户体验不断提升的需求,需要保证数据处理速度(Velocity),而传统数据仓库根本无法满足上述日益增长的管理需求。

故障管理是电信网络和业务管理的重要组成部分,其管理过程同样具有数据来源广泛、数据量大、数据类型多样、即时性要求高、处理逻辑复杂等典型的大数据特征。因此,本文将大数据技术引入到故障管理中,将网络、用户、终端和业务产生的结构化数据、用户地理信息数据、语音业务数据、视频业务数据等各种形式的所有相关数据进行多维度多层次的深入分析挖掘,在研究大量数据的过程中寻找业务故障影响和传播模式、告警相关性规则等,从而发现隐藏在大量告警信息背后的有用知识,准确地诊断和定位故障,快速完成故障的处理和恢复,提升业务质量和用户体验。

1 故障数据

数据无疑是基于大数据进行故障管理的核心。在网络和业务的运行过程中,网络、设备、业务、用户及终端等都会产生大量的数据。这些数据能明确或潜在地反映出网络运行状况、业务质量以及故障告警信息之间的关联关系等。因此,明确电信业务运行过程中故障相关的数据非常重要。

根据eTOM功能划分,电信故障主要包括用户体验类故障、业务故障以及网络资源故障三类。故障管理在eTOM中的位置及相关数据[1-2]如图1所示。

图1 故障管理在eTOM中的位置及相关数据

1.1网络资源故障相关数据

由于网络资源类型多、分布广,因此网络资源数据是进行电信故障管理的基础和主要数据来源。网络资源故障相关数据主要包括:

(1)网络资源库存信息,用于展示网络资源之间的拓扑连接、物理分布及关联关系。

(2)话单、信令等原始信息。

(3)各设备、EMS、NMS的日志文件。

(4)原始的故障信息,包括结构化故障信息、故障现场的视频、图片、声音等非结构化信息。

(5)网络资源的运行性能数据。

(6)网络资源的配置信息。

(7)资源性能故障信息,是根据资源性能信息和网络性能指标阈值得出的数据。

(8)历史经验知识、案例库等。

1.2业务服务故障相关数据

业务服务故障是电信业务无法提供的直接原因,因此业务服务数据是电信业务故障定位的直接数据来源。业务服务故障相关数据主要包括:

(1)业务服务库存信息,用于展示业务服务与网络资源之间的承载关系、业务服务之间的关联关系等。

(2)资源故障单,由资源故障管理产生。

(3)资源性能信息。

(4)用户业务使用情况信息。

(5)业务服务性能数据。根据资源性能数据、业务与资源之间的关联关系得出的数据。

(6)业务服务性能测试数据,通过主动测试或定期测量主动获取电信业务的使用性能获取得到的数据,可主动发现业务故障或业务性能下降趋势。

(7)业务服务系统日志文件。

(8)用户QoS/SLA合同。

(9)用户业务故障单,根据用户故障申告,人工或自动生成的故障工单。

(10)业务服务质量违例信息,是根据业务使用情况、资源性能数据、业务与资源的关联关系、用户SLA合同、业务服务性能测试数据等进行综合分析得出的数据。

(11)历史经验知识、案例库等。

1.3用户体验类故障信息

用户体验类故障信息是用户的直接感受,直接影响用户体验。用户体验类故障信息主要包括:

(1)用户故障申告数据,用户在业务故障或SLA违反时通过多种方式进行故障申告,系统采集到的网页、文本、语音、视频、图片等故障数据。

(2)用户SLA违反工单,用户使用业务过程中自动产生的SLA违反工单。

(3)SLA评估报告,用户使用业务过程中定期产生的SLA评估数据。

(4)用户信息,用于展示用户与业务之间的订购关系、用户的基本信息、用户业务使用上下文信息、用户使用行为习惯等信息。

(5)历史经验知识、案例库等。

2 基于大数据的故障管理架构

传统的故障管理系统分专业、分厂家建设,故障数据源相对固定单一,且故障数据分散在各个烟囱式的故障管理系统中,导致不同专业的故障数据无法关联分析,使得故障的响应、定位、恢复以被动式的人工维护为主。可见,传统的故障管理架构无法适应当前电信网络和业务管理的需要。

因此,为了实现故障的准确定位、智能预测和快速恢复,提高主动服务能力,提升用户体验,本文在云计算技术基础上,提出了基于大数据的故障管理架构,建立基于云和大数据的故障相关数据存储、计算、挖掘、分析平台,实现故障数据的集中统一存储、分析和管理,并可以以云服务的形式向其他应用系统提供故障数据存储、查询、统计和分析服务。管理架构如图2所示[3-6]。

图2 基于大数据的故障管理架构

2.1数据源

数据源负责通过各种采集手段(如探针采集、设备采集、拨打测试、投诉搜集、网络爬虫、系统接口等)从网络、OSS、BSS、用户等方面全面采集电信业务故障相关数据。除收集网络业务数据外,还应搜集企业内部其他数据(如话单、用户账务数据)及外部数据(气候、重大事件、自然灾害等)。数据源应保证底层数据的丰富完整,为大数据分析提供强大的数据支撑。

2.2数据存储

数据存储采用NoSQL技术对所有相关数据进行集中统一存储。存储的数据既包括采集到的网络资源故障数据、业务服务故障数据、用户体验类故障数据等各类结构化、半结构化、非结构化原始数据,也包括产生的临时性、过程性数据,如故障产生的模式、故障恢复策略等。

数据存储层与其他各层进行数据交互,提供故障相关数据的存储、查询、访问等功能。

2.3数据汇聚

数据汇聚主要用于建立与不同系统之间的连接,集成多数据源的数据,并保证来自不同数据源的相同数据具有统一的数据格式,以便传递给上层使用。

2.4数据处理

数据处理用于对数据集施加一系列的处理功能,包括转换、关联、压缩、处理以及数据质量保证、数据安全保证等。

2.5数据分析

数据分析对数据进行深度挖掘,是基于大数据进行故障管理的重点。数据分析平台采用Hadoop,由并行批处理计算框架(MapReduce)和实时流计算框架(Storm/Spark)组成,提供非实时大容量并行计算和实时流计算功能。而对于复杂逻辑的处理分析和数据挖掘,则以组件化的方式注入不同的分析挖掘算法和模型。

故障管理的数据分析内容侧重于以下方面。

用户业务故障模型建立:建立用户、业务服务、网络资源之间的关联关系模型,掌握业务故障的影响和传播。

故障模式挖掘:基于历史故障数据和实时数据,采用使用机器学习、数据挖掘算法等分析电信业务故障趋势和规律。

故障处理策略制定:结合历史经验知识、案例库、故障模型等制定故障恢复策略,并指导后续的故障恢复。

2.6数据监管

数据监管主要通过数据隐私保护、数据访问控制、数据授权、法律法规遵从等手段,保护数据的安全性。

2.7数据应用

数据应用层是根据故障管理数据处理需求,结合各类应用要求,实现故障数据服务能力的开放和共享,以云服务的形式对外提供故障定位、故障预测、故障恢复等故障数据应用功能。

3 基于大数据的故障管理应用技术

基于大数据的故障管理应用技术是以提高用户体验为中心,通过对网络和业务的端到端实时监控、对用户行为的细致洞察、对网络-业务-终端-用户的综合关联,形成智能监控、智能预测以及智能保障,对运营过程中涉及到的大量、复杂、快速生成的故障相关数据进行收集、分析、共享和应用,从而实现故障的准确定位、快速恢复,提高用户服务质量。

下面以某一用户观看移动视频这一典型应用为例,介绍通过利用大数据技术实现用户业务质量评估、预测及快速定位,从而实现主动服务,提升用户感知。面向用户感知的故障管理流程[7]如图3所示。

在面向用户感知的故障管理流程中,大数据在多源故障数据处理、面向用户感知的业务质量评估、业务质量趋势预测、故障定位及恢复等步骤方面将发挥重要作用。

3.1多源故障数据处理

针对用户观看移动视频这一典型应用,系统在运行过程中需要从移动终端、移动网内部和移动网到因特网的网关,同时收集与业务使用有关的控制面与用户面的信息,包括无线和核心网的信令数据、无线环境测量报告、网关的流量和应用统计数据;需要从运营支撑系统等采集用户的服务质量信息、用户观看视频的历史数据、故障申告描述、视频马赛克截屏等;甚至需要采集用户的位置信息、天气信息等。同时,要基于上述数据实现数据的初步处理,为进一步的数据融合分析奠定基础。

通过上文的分析可以看到,故障管理数据源众多,采集方式各异。传统的故障管理数据分散在各类系统中,往往也仅仅采集某一类或几类数据,而在大数据环境下,需要从各类系统采集业务运行相关的全部数据,提供各类数据集成共享平台并结合大数据的异构性、冗余性和相关性等特性,建立多源多形态数据集成模型、异构数据智能转换模型、数据容错阈值设置、整合数据的正确性验证方法和可用性评估方法等一系列方法,来完成数据融合和数据质量控制。

图3 面向用户感知的故障管理流程

3.2面向用户感知的业务质量评估

用户观看移动视频时,系统需要实时监控用户业务体验状态如视频的吞吐量、重传、中断等指标,并从运营支撑系统中获取用户业务服务等级信息,同时根据当前网络质量数据、业务质量数据、用户业务服务等级等数据,综合评估用户业务质量,为保障用户业务服务质量提供决策。

传统的信息采集或流量监控,只注重运行设备和视频的工作状态,很少涉及指标与视频服务质量的关联度,但是用户感知才是用户的直接体验。因此,在大数据环境下,需要对检测到的每项指标都进行服务质量趋势匹配,如IP丢包率上升,就意味着用户点播出现马赛克、卡顿等问题。

大数据环境下,面向用户感知的业务质量评估从用户角度感知和分析网络和业务信息,打通多个业务系统,实现数据和资源共享,建立面向用户感知的业务质量评估体系,从网络质量、业务质量、用户感知[8]等多层次实现面向用户服务的全局分析,以合理调配网络资源,保障用户业务服务质量。

3.3业务质量趋势预测

上述场景中,系统需根据当前网络状态、故障关联数据、用户观看行为等信息,预测用户业务质量趋势,并提前处理,主动服务,提升用户体验。

大数据的核心是预测,业务质量趋势预测是充分利用大数据的机器学习等技术,将从各个层面获取的全体数据梳理出具有规律性的事件发生模型,并用于未来某些事件发生与否的预判和防范。

通过深度挖掘电信业务历史数据,发现数据中蕴藏的价值,建立故障预测模式;通过全面分析和主动挖掘各类数据,发现业务质量变化规律,预测其发展趋势,实现故障发生前的预警并处理,避免用户体验下降,实现由被动运维向主动运维的转变。

3.4故障定位及恢复

传统的故障定位方法有基于规则、事例推理、模型推理、编码、贝叶斯网络、模糊逻辑和神经网络算法等[9]。但是,由于业务的多样性、动态性、用户敏感性等特点,使得业务故障与传统的网络故障存在很大不同。传统的故障定位方法主要存在以下问题:①只能适应某种拓扑结构的网络系统,或只适应某一种、某一类网络设备和系统服务的问题;②集中于网络层和网元层告警信息之间横向规则的挖掘,而没有涉及告警、相关基础设施、特定用户业务等多个层次的纵向关联关系的研究。以上原因都对在短时间内快速定位业务故障造成很大的困难。

与传统故障定位相比,基于大数据分析的故障定位及恢复突破单一的数据源限制,通过引入用户、业务、网络等关联数据,实现多维数据综合分析,全方位透视和分析故障传播,建立故障影响分析模型,为故障定位和恢复提供更加准确的数据支撑。

因此,上述场景中视频服务出现故障或用户服务质量下降时,系统可根据关联分析结果及时快速定位故障,并通过智能化专家知识库系统等制定故障恢复策略,由运维人员及时高效完成服务恢复。

4 结 语

大数据技术逐步应用于智能运营的实践,是电信行业的共识和趋势。国内外很多运营商也已经或计划利用大数据技术改造现有的运营中心,以迎接数据和信息爆炸增长带来的挑战[10]。本文将大数据思想引入故障管理,通过挖掘蕴含在大量数据中的有用信息提高故障定位、故障预测、故障恢复的效率,从而提升用户体验。随着两者结合的不断深入,相信其必将为未来网络管理的发展带来更多突破。

[1] TMF.GB921D ,V8.3, Enhanced Telecom Operations Map Addendum D:Process Decompositions and Descriptions [S].America:TM Forum,2008.

[2] Dave Raymer,Marc Flauw. JSR 263, 1.0,Fault Management API Overview[S].America:OSS through Java™ Initiative,2007.

[3] TMF. TR202, V1.10, Big Data Analytics Reference Model[S].America:TM Forum,2013.

[4] TMF. GB979, V2.0.1,Big Data Analytics Guidebook Unleashing-Business Value in Big Data[S]. America:TM Forum, 2014.

[5] TMF. GB979 Addendum A, V2.0.1,Big Data Analytics Guidebook -Use Cases[S].America:TM Forum,2014.

[6] TMF. GB979 Addendum B, V1.0.2,Big Data Analytics Guidebook-Big Data Analytics Building Blocks[S]. America:TM Forum,2014.

[7] TMF. GB921F, V7.6, Enhanced Telecom Operations Map Addendum F:Process Flow Examples[S].America:TM Forum,2008.

[8] 刘露.异构/融合网络中端到端服务质量控制与管理的研究[D].北京:北京邮电大学,2010. LIU Lu.End-To-End QoS Control and Management Research in Heterogeneous/Convergence Network[D]. Beijing:Beijing University of Posts and Telecommunications,2010.

[9] 张成.增值业务的概率故障定位[D].北京:北京邮电大学,2009. ZHANG Cheng.Probabilistic Fault Localization for Value-Added Services[D]. Beijing: Beijing University of Posts and Telecommunications,2010.

[10] C114中国通信网.爱立信:大数据辅助智能运营[EB/ OL].(2014-08-28)[2016-06-09].http://ucwap.ifeng.com/ tech/news?aid=88574010&rt=1&p=2. C114 cn-comm.Ericsson:Big Data aids intelligent operations[EB/OL].(2014-08-28)[2016-06-09].http:// ucwap.ifeng.com/tech/news?aid=88574010&rt=1&p=2

牛作元(1983—),男,硕士,工程师,主要研究方向为网络管理、软件工程;

张锋军(1975—),男,学士,高级工程师,主要研究方向为网络管理、软件工程。

Application of Big-Data Technology in Telecommunications Nerwork Fault Management

NIU Zuo-yuan, ZHANG Feng-jun
(No.30 Institute of CETC,Chengdu Sichuan 610041,China)

With the development of telecom network, the existing management technology could not meet the changing management requirements. Big data,as a hot technology at present,attracts extensive attention and research.This paper discusses the application of big data technology in telecom network fault management, summarizes multi-source fault management data, presents a fault management architecture based on big data,analyses the application of big data in multi-source fault data processing, user perception-oriented service-quality evaluation, service-quality tendency prediction, fault locating and recovery. All this is of significant imprtance for improving the efficiency of fault management and user experience.

big data;fault management;service fault;user perception

TP311

A

1002-0802(2016)-08-01051-06

10.3969/j.issn.1002-0802.2016.08.018

2016-04-21;

2016-07-19

date:2016-04-21;Revised date:2016-07-19

猜你喜欢
网络资源故障用户
知识组织理论下图书馆网络资源发现服务体系优化研究
基于SDN的分片网络资源编排系统设计
故障一点通
日本网络资源存档项目实践研究
关注用户
奔驰R320车ABS、ESP故障灯异常点亮
关注用户
关注用户
故障一点通
运用优质网络资源 促进数学课堂优化