论网络监控平台的告警机制

2014-05-30 13:37:40李育青王祥祥
电脑知识与技术 2014年8期
关键词:二次开发

李育青 王祥祥

摘要:为了实现全网统一监测和管理,长庆油田通过调研网络现状,分析数字化信息化对基础网络设施的需求,建立了统一的网络监控系统。其中,告警处理机制是实现对网络有效监控的关键。只有将网络产生的告警及时、准确地通知到相关责任人,才能实现问题的快速定位,从而尽早解决可能影响网络质量的问题。该文首先对告警处理流程进行了定义,接下来对每一步的原理进行了深入分析同时结合实际网络运维经验对实际应用进行了总结。

关键词:告警数据处理;告警分级;二次开发

中图分类号:TP393文献标识码:A 文章编号:1009-3044(2014)08-1660-03

1 概述

2008年通信处开始建立起公司计算机主干网网络监测管理系统,成功运行5年之后于2013年开始建设全油田公司包括主干网及21家二级单位的统一的网络监控平台,建设目标包括以下几点:

1)加强计算机网络的运行维护管理工作,以保障其他数字化管理系统的正常运行。

2)实现计算机网络管理分级,告警分级、声音报警功能、告警实时通知功能,实现异常情况实时报警、实时判断、及时处置,使计算机网络运行更加安全、可靠。

3)与安全环保预警中心联动,充分发挥数字化软件建设和分级分类管理功能,增强数据采集传输故障的综合判断能力,确保生产建设平稳有序推进。

其中第二条直接提出告警模块需要达到的目标,而其他几个目标均建立在其基础之上,或者说有着紧密的联系,因此告警管理成为长庆油田计算机监控平台最重要的功能模块之一。

2 告警定义及流程

2.1网管系统的告警功能定义

网管系统通过定时轮询所管辖的网络设备, 辅助trap信息的收集, 并按一定的規则对故障信息进行集中的采集,并且通过各种手段进行通知呈现,然后网络维护人员通过告警信息去分析、判断设备出现的问题并尽可能的找出设备存在隐患。这就是网管系统告警模块的基本功能。

2.2告警数据处理流程

完善的告警数据处理流程有助于掌握故障全部处理过程,把握故障处理的时限, 并可以达到经验的共享。长庆油田网络监控平台告警流程分为告警产生、告警分级、告警呈现、告警确认及告警处理几个步骤。

首先从告警产生开始,弄清告警信息的来源,弄清告警发生及恢复的信息到底怎么产生的?这也是下一章所要论述的内容。

3 告警来源及产生

告警信息按性能指标分为以下两类:

1) 状态告警,反映网络设备、应用系统、链路本身由于各种原因原因处于宕机、中断等状态。包括设备状态、接口状态两种。

2) 性能告警,反映设备、网络、业务性能情况的告警,通过与相关指标进行对比,将通信网络质量变化情况直观的呈现。包括设备cpu、内存利用率、会话数、接口流量、应用进程等。

3.1 设备状态告警

3.1.1告警产生

通过采用ICMP协议监测设备中断或连通,每次轮询连续发4个32字节ICMP包,只要有1个包可达,认为设备可达,只是在丢包率那里演示为75%。监视时间设置为1分钟,五次共发送20个包。如果这20个包全部没有到达,即判断设备停机。

举例:监视时间设置为1分钟。

当10:00:00第一次用Ping方式4个包全部不可达,系统认为设备“设备没有响应:可能设备关闭了或者设备太忙 ”,当10:01:00第二次用Ping方式4个包全部不可达,系统认为设备“设备可能有故障: 最后3次论询没有应答 ”,当10:02:00第二次用Ping方式4个包全部不可达,系统认为设备“设备停机: 最后5次论询没有应答”,这样系统判断设备当机,这三次共发送12个包,只要有一个包可达,即认为设备没停机。

3.1.2告警恢复

在告警产生后,继续按照1分钟/次的频率对设备进行轮询,如果收到的4个包全部或部分有回应,告警恢复。

3.2接口状态告警

轮询协议为SNMP。对设备的数据状态轮询是通过SNMP方式去获取,将设备的的所有指标的OID值存贮在数据库表中,系统对此表进行反复扫描,在扫描到到达该指标的轮询间隔时间即发起对该指标的SNMP值获取。

监视时间1分钟,连续三次监测到某一接口状态均为down时,判断该接口状态为断开并发送告警产生信息,之后继续按照1分钟/次的频率对接口状态进行轮询,如果采集到端口操作状态为up时就发送恢复告警。

3.3性能阀值告警

轮询协议与机制与接口状态相同,对设备的数据状态轮询是通过SNMP方式去获取,根据将设备的的所有指标的OID值存贮在数据库表中,系统对此表进行反复扫面,在扫描到到达该指标的轮询间隔时间即发起对该指标的SNMP值获取。

告警产生机制:每隔一段时间采集一次数据,根据性能采集后的数据结果和性能告警阀值进行比较,如果满足性能告警阀置条件,发送相应的性能告警。

恢复告警:如果发生了“满足性能告警阀置条件”->“不满足性能告警阀置条件”的变化,则发送相应的恢复告警。

3.4 告警分级及呈现

对于故障信息, 网管人员不可能一直盯着屏幕看,如果没有有效的告警呈现,这很容易造成遗漏, 从而造成故障处理的延时。因此需要网管系统对告警产生后可以分级的通知到相应的维护人员,这就牵扯到告警的分级和呈现问题。

告警级别应该按照信息的严重程度、影响范围以及与企业相应考核指标的关系确定,同时按照人员岗位与责任确定应该收到几级告警并且能对规定时间内没处理的告警信息,进行告警升级, 提示上一级网管人员注意。

网络监控平台根据<油田公司的网络与信息安全突发事件分级>将所有告警信息按照严重程度从高到低分为四级:一级告警、二级告警、三级告警、四级告警。

一级告警主要反映的是公司核心或出口网络中断等重大告警。 二级告警主要反映主干网二级汇聚节点网络中断,二级单位出口、核心或汇聚网络中断,重要应用系统、重要应急站点网络中断等告警。三级告警主要反映建设冗余系统的主干节点或链路中的单节点或链路中斷、三级节点网络中断、二级单位普通接入节点等告警信息。四级告警主要反映网络设备或板卡CPU/内存/电压超出限等影响业务的告警。

为了能及时通知到相关责任人,网络监控平台通过屏幕提示、声音、短信将每一条告警信息及时通知到相关责任人。

1)屏幕提示:当一条告警触发时,在实时告警界面自动按照事先定义好的级别进行告警显示。

2)声音提示:只要登录监控平台主页或实时告警界面,当有新的告警产生时就会发出声音提示,并以一定频率的间隔进行重复提示,防止漏报,直至告警被确认或自动恢复正常。

3)短信通知:利用通信处短信网关以HTTP(WebService)方式实现将网管系统的告警等信息通过短信的方式发送到手机上。将告警按照级别和范围发送至不同的网络管理及维护人员和领导。厂(处)级主管领导接收二级及以上告警短信;信息部门领导接收三级及以上告警短信;网络管理及维护人员接收全部短信。

3.5 告警确认及处理

一条告警信息产生后, 网管人员是否进行了有效及时的处理, 处理的结果是否进行了保存归档, 处理的经验是否能被共享,这个也是关系到一套网管系统告警功能完善与否的重要标志,因此告警确认和处理也显得相当重要。

告警确认:当一条告警出现时,在实时告警界面点击确认表示运行监控人员已监控到该告警,并按网络运维业务流程开始处理。

告警处理:当告警得到处理或恢复后,在处理结果处填写告警原因和处理情况,

至此网络监控平台上一条告警信息流程完成,信息进入历史数据库并且可以随时查看。

同时为了方便管理人员随时掌握告警信息的处理情况,统计报表中也开发设计了告警事件处理情况统计表。

4 总结

本文从告警数据的处理流程角度对长庆油田网络监控平台的告警机制进行了深入分析,从前面的分析内容可以看出监控平台实现了长庆油田整个计算机网络管理分级,告警分级、声音报警功能、告警实时通知功能,实现异常情况实时报警、实时判断,基本达成了平台建设目标。为了提升告警质量和效率,快速定位网络故障,减少冗余告警,告警相关性机制将作为今后新的研究方向。

参考文献:

[1] 蒋建春.计算机网络管理理论与实践教程[M].北京:北京邮电出版社,2008.

猜你喜欢
二次开发
浅谈基于Revit平台的二次开发
甘肃科技(2020年20期)2020-04-13 00:30:02
西门子Operate高级编程的旋转坐标系二次开发
浅谈Mastercam后处理器的二次开发
模具制造(2019年3期)2019-06-06 02:11:02
基于C#的AutoCAD建筑构件库二次开发
江西建材(2018年2期)2018-04-14 08:01:14
西门子Easy Screen对倒棱机床界面二次开发
基于全站仪二次开发的覆冰厚度测量与实现
电测与仪表(2016年9期)2016-04-12 00:29:52
Micaps3.2 版本二次开发入门浅析
西藏科技(2015年12期)2015-09-26 12:13:51
基于VB的ANSYS二次开发在变压器抗短路性能分析中的应用
基于CATIA的橡皮囊成形毛料展开的二次开发
机械工程师(2015年9期)2015-02-26 08:38:10
ANSYS Workbench二次开发在汽车稳定杆CAE分析中的应用
汽车零部件(2014年5期)2014-11-11 12:24:32