基于PCIM的告警分析处理方法

2011-03-26 08:52薛尤贵
电信工程技术与标准化 2011年7期
关键词:网络故障网管关联

薛尤贵

(广东省电信规划设计院有限公司,广州 510630)

目前,电信运营商运维人员每天都会处理大量的各专业网络故障告警信息,这些网元网管、专业网管和专业综合网管中的告警很多是没有过滤分析的原始告警,告警量大,专业性强、格式不统一、告警描述晦涩难懂。大量的告警很容易造成监控人员视觉疲劳,重要的告警信息被淹没在海量低级别的告警信息中,不利于网络故障的集中监控和集中处理,导致运营商维护任务日益繁重,维护成本日益突出。

本文将策略核心信息模型(PCIM,Policy Core Information Model)策略管理应用于告警管理模块,融合了新的管理理念和管理技术,通过策略将管理行为的控制和具体执行分隔开来,在不需要关心具体业务细节的情况下,提供通用的管理功能。

1 基于策略的管理

1.1 策略的概念

“策略”是一个抽象的概念,是一套指导和决定如何管理、分配和控制资源的业务规则,这些规则描述了在特定的条件下系统应采取那些动作。策略对管理目标和管理行为进行了抽象和概括,具有可重用性和灵活性。当基于策略的管理系统所监控的环境发生变化时,往往不需要对整个系统作出重大修改,只需要调整相应的策略,系统就可以迅速的适应新的情况。

1.2 策略信息模型

基于策略的管理系统需要两部分内容支持,分别是策略信息模型和策略框架。策略信息模型定义了策略的组织形式;策略框架规定了系统如何使用策略。二者相互联系构成完整的系统,而它们又是相互独立的,一个策略信息模型并不指定具体的策略框架,在应用中,要视实际情况而定。

Ponder是Sloman教授及其研究小组设计的策略描述语言。由于其具有良好的可扩展性和灵活性,并完全公开,因此,已经成为目前最具有代表性的策略描述语言。

PCIM是IETF 策略框架工作组根据通用信息模型(CIM)扩展而成的模型。主要的研究内容是将策略信息转换成面向对象的形式表示的模型。该策略模型主要定义了两个层次的类框架:表示策略信息和策略控制的类,另一个是表示策略信息类和策略控制类之间联系的类。

1.3 IETF策略框架

IETF RAP工作组为完善IETF综合服务体系中的访问控制部分,提出了框架结构。该结构中,进行策略控制的两个主要元素是策略执行点(PEP,Policy Enforcement Point)、 策 略 决 定 点(PDP,Policy Decision Point)。PEP一般位于网络节点上,负责执行策略决定;PDP一般位于存放策略的策略服务器上,负责做出策略决定。两个元素间的交互作用由PEP开始。

2 告警管理系统的PCIM

2.1 告警管理系统的策略需求

综合集中告警系统管理范围包括交换、传输、数据、动环、移动、IT等专业的告警和性能事件,大客户及其使用的电信产品(业务)数据。一个稳定、高效、可扩展的告警管理系统能够及时收集网络中的各种告警事件,并通过各种处理手段从多种多样的事件中找到网络故障的真正原因,它必须对纷繁复杂的网络事件进行一些逻辑处理过程-告警预处理,以提供网络故障处理所需的有效数据,并最终实现网络故障的定位和排除。

2.1.1 告警采集功能

告警数据采集功能采用探针的方式从专业网管系统、网元管理系统中采集网络的告警及性能事件,并根据探针上的预处理规则,对事件进行重定义、格式转换等操作,然后将预处理后的事件发送到上层处理模块。采集部分的主要功能如下。

(1)将来自专业网管系统或应用系统的事件信息转换成统一的事件格式。

(2)告警事件重定义:在进行事件格式转换的过程中重新定义事件告警级别,系统定义的告警级别包括:紧急告警、主要告警、次要告警、警告告警、不确定告警和清除告警。

(3)对事件进行规则处理,基于规则,格式化各类网络故障:定制、丰富故障信息,增加故障信息的可读性,方便网管人员发现和解决问题。

(4)自动压缩及相关性处理:对故障进行有效的过滤处理,保证高效管理。

2.1.2 告警处理功能

告警处理功能完成对采集事件的条件过滤、合并、延时、确认、清除等操作,对重复告警、类似告警、关联告警、瞬间告警根据预定规则进行处理,从而实现告警事件的压缩,有效的解决网管系统产生的告警风暴问题。

2.2 告警管理系统策略信息模型

告警管理系统需要提供组织、使用、维护策略信息的机制。这种机制对于大量使用规则的系统来说是非常重要的,有效的规则管理机制能够简化系统开发过程;提高系统的扩展性;促进业务和程序分离。

2.2.1 可重用策略条件与单独使用策略条件

当存储和使用策略条件类或策略动作类时,要记住它可能被单独使用,也可能被重复使用。区分单独使用条件和可重用条件,需要依据与之关联的聚合的情况,或者依靠条件命名规则。

(1)单独条件:当单独使用条件与告警规则进行关联时,关联类采用一对一的对应关系,即策略条件单独使用。

(2)可重用条件:当可重用条件与告警规则进行关联时,关联类采用一对多的对应关系,即策略条件可以被多个策略规则所使用。

2.2.2 策略角色

一个策略管理者将一个被管对象分配到一个或多个角色,同时,他又为这些角色制定专门的策略,策略管理人员不直接对网络中成千上万的被管对象进行重复的配置、修改动作,而这些动作是通过角色来实现。策略框架负责配置与一个特定角色相关联的被管对象,通过这种方法,配置由与角色相关联的策略来进行。当网络行为需要改变是,策略管理者只需要对角色的策略进行简单的修改,策略框架将保证所有与角色相关的被管对象的配置发生改变。

一个角色是一类属性,它从可用的策略中选择一个或多个关联到一组实体或组件。

角色可以进行组合。角色组合的定义如下:

一个角色组合是一组属性集合,这些属性用于从更多可用的策略中选择一个或多个特定的策略关联到一个实体或组件。

2.2.3 策略时间周期

策略时间周期是对策略规则何时有效,何时无效的规定。在PCIM中,策略时间周期通过“策略事件周期条件”类的实例来实现。每一个策略规则都有一个策略时间周期与之相关联,当策略规则执行时,系统首先会检查运行时间是否在策略时间周期内,如果时间有效则规则被执行,否则,规则无效。

2.2.4 关联与聚合

在PCIM模型中,策略规则、策略条件、策略动作都是以类的形式定义的,因此,需要提供一种关联机制,通过这种机制可以在它们之间建立联系,以实现“IF Condition=TRUE THEN Action”这种策略规则语义。实现这种联系有许多方案,PCIM为了模型一致性和管理统一性,使用与策略元素相一致的“类”概念来建立策略元素之间的联系。

3 模型的一个应用实例

在中国电信集团公司综合告警系统中,设备供应商朗讯公司(Lucent)希望告警管理模块提供对其DXCII数字交叉连接设备状态进行监控的功能。如果设备状态不正常,则生成当前告警,向告警呈现层汇报,以便网络管理人员了解网络状态,采取处理措施。

3.1 监控规则

根据DXC设备的端口状态,来决定设备状态,具体映射规则如下。

3.1.1 Lucent板卡状态与告警级别映射

通过SNMP协议,轮询设备的MIB-II管理信息库中的Interface接口组对象ifOperStatus和ifAdmin Status,根据表1组合确定设备端口的告警级别。

能源与环境问题是制约我国可持续发展的重要问题,优化能源结构,提高能源利用率、降低环境污染已成为能源发展的重点方向。区域分布式供能系统具有高效的能源利用率、灵活的运行方式、良好的调峰性能等优点,符合我国能源发展现状,具有广阔发展前景。大虹桥区域性分布式供能研讨会聚焦区域性分布式供能示范案例和创新应用,探讨区域能源多元化有机结合发展途径,通过思维碰撞,产生新思路、新途径和新方案。

表1 组合确定设备端口的告警级别

3.1.2 板卡状态与告警级别映射

设备状态不能直接从MIB变量轮询中得到,而是根据该节点所属全部端口的状态来确定,具体映射关系如表2所示。

表2 映射关系

3.2 监控规则的文字描述(如图1所示)

3.3 用策略模型来描述监控规则

按照PCIM来描述监控模型,需要如下一些模型元素实例。

(1)首先定义一系列策略变量与策略值;

(2)定义一系列简单策略条件和简单策略动作;

(3)再通过这些简单策略条件和动作的组合成复合条件及动作;

图1 监控规则的文字描述

(4)由条件和动作组合成策略规则;

(5)策略规则组合成策略组。

3.4 简单策略条件

简单策略条件包括如下。

(1)SimpleCond_ifAdminStatus_up //描述“ifAdminStatus==1”条件

(2)SimpleCond_ifAdminStatus_down // 描述“ifAdminStatus==2”条件

(3)SimpleCond_ifAdminStatus_Testing // 描述“ifAdminStatus==3”条件

(4)SimpleCond_ifAdminStatus_High //描述“ifAdminStatus==4”条件

(5)SimpleCond_ifOperStatus_up // 描述“ifOperStatus==1”条件

(6)SimpleCond_ifOperStatus_down // 描述“ifOperStatus==2”条件

(7)SimpleCond_ifOperStatus_Testing // 描述“ifOperStatus==3”条件

(8)SimpleCond_ifOperStatus_High // 描述“ifOperStatus==4”条件

图2示意了SimpleCond_ifAdminStatus_up条件的构成情况。

图2 SimpleCond_ifAdminStatus_up条件的构成情况

3.5 策略规则

图3 策略规则

策略规则由策略条件和策略动作组成,图3以策略规则Rule_board_stat_0来说明策略规则如何实现。

Rule_board_stat_normal规则实现如下语义:

需要用到两个关联类连接相应策略条件:

策略规则Rule_board_stat_normal的属性ConditionList Type=CNF,整个条件表达式逻辑为:Simple Cond_ifAdminStatus_up || SimpleCond_ifOperStatus_up。与策略规则Rule_board_stat_nomal关联的策略动作为赋值动作:“BoardStatus=0”。

本文围绕基于PCIM策略模型展开分析,并结合告警管理系统的实际完成了具体实现。

猜你喜欢
网络故障网管关联
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
VxWorks网络存储池分析在网络故障排查中的应用
基于信息流的RBC系统外部通信网络故障分析
奇趣搭配
给水网管的优化布置研究
智趣
Wireshark协议解析在网络故障排查中的应用
“五制配套”加强网管
通讯网络故障类型研究