智能监控支撑电信企业运维

2009-04-15 09:30唐晖
中国计算机报 2009年19期
关键词:可用性插件运维

如何保证业务支撑系统安全可靠地运行?如何保证为客户提供优质的服务?这是电信行业IT运维部门人员常常在考虑的问题。在不久的将来,基于智能监控方式支撑电信企业运维的方案,可以让他们更轻松地解决问题。

■ 中国联合网络通信有限公司唐晖

随着计算机和通信技术的发展,通信用户数成倍增加。为改善电信公司管理、完善业务,运维支撑系统应运而生,并且得到了长足发展。运维支撑系统包括客户服务系统、业务经营系统、计费系统、营账系统等。对电信的IT运维部门来说,如何保证其业务支撑系统安全可靠地运行,如何保证为客户提供优质的服务,是他们面临的全新挑战。本文将针对电信运营企业业务支撑部门面临的诸多运维问题,提出基于智能监控方式来支撑电信运营企业业务系统运维的建议。

智能监控系统包括网管系统通信、告警、事件管理、性能管理等多个子系统。智能监控将日常通过人工手工方式执行的运行维护工作借助计算机技术通过电子化方式加以实现。我们通常把智能监控系统分为监控代理层、数据处理层和展现层三个层次。其基本工作原理是:通过监控代理层将各业务平台资源的指标信息传到数据处理层,通过对数据进行处理,形成所需要的性能信息、事件信息、告警信息,再通过展现层进行配置和展示。

四大关键技术

智能监控方式采用了多种先进技术,具体如下:

Agent采集技术

数据采集是智能监控系统能够实现其监控功能的前提。智能监控系统是依靠Agent来实现数据采集功能的。Agent中的采集插件是完成采集功能的主要模块。综合监控平台提供了多种采集插件,包括命令行采集插件、SNMP采集插件、JMX采集插件、JDBC采集插件、NetFlow插件以及Syslog插件等。对平台类资源还内嵌了丰富的采集命令,采集命令可以是使用任何语言编写的操作系统级外部命令,扩展容易,对于今后的系统二次开发提供了便利条件。

事件压制技术

事件管理能够接受包括SNMP Trap服务器、Syslog服务器以及系统内置的事件检测引擎检测到的事件,并按照统一的标准格式化事件信息,通过事件压制规则压制不同来源的相同事件。例如,SNMP Trap服务器报告了某路由的某端口宕事件,Syslog服务器也报告了同样的事件,则这两个事件将压制为同一事件。

事件自动关联技术

由于在实际环境中,很多事件之间存在关联关系,如因果关系、触发关系、影响关系等,同时由于很多被管对象之间存在父子关系,因此,可以通过建立合理的事件相关性模型和被监管对象的父子关系,以及面向应用过程的分析流图,判断已发生事件间的相关性,实现故障源识别和准确的故障定位。

资源可用性评估技术

IT资源的可用性状态可以分为5级:正常、警告、次要故障、主要故障、严重故障。资源管理可用性状态管理就是计算资源当前可用性状态处于哪一级别。按照资源结构树的概念,子资源的可用性状态将按照某种传递规则逐层向上传递,直到根节点。

资源可用性状态管理,帮助运维管理组织实现了一种自上而下的监控方法,真正实现所谓分层管理。不同级别的管理者,可以关心不同层次的资源,高级管理者只用关心高层父资源的可用性状态,而一般管理人员则需要关心子资源的可用性状态,以便定位故障根源。

由下到上的监控层次

由图1可以看到,智能监控系统是由Agent、Center Server、IE展现三个层次组成的。Agent通过SNMP、平台管理接口、自定义的应用软件接口规范及第三方产品的各种接口、协议等采集应用软件、主机、数据库、网络、中间件、存储、备份等监控数据,并对监控系统进行处理。Agent处理数据,处理后的数据传给Center Server,并通过统一数据模型进行数据分类、存储,同时展现界面能通过IE等浏览器去查看、配置相应的指标。整个数据处理过程都是通过系统的内部通信引擎进行信息交换的。

由图2可以看到,最底层是要监控的对象,每个监控对象部署命令服务器或开通相应的接口协议。上一层是代理Agent,Agent可部署在独立的一台或多台主机上,具体需要部署多少台主机,则需要根据监控对象的数量来确定。代理上一层是服务中心,服务中心包括应用服务器和数据库服务器,服务器可做双机。如果需要出报表,还需要提供一台报表服务器,同时告警服务中心可以通过一台告警服务器进行语音报警。最上一层需要配置多台终端,用于维护人员查看系统情况。

将复杂问题简单化

先进的设计理念。本方案基于ITIL理论等IT服务管理的先进理念设计而成,符合当前先进的IT服务管理标准。

完善的知识储备。本方案通过引入IT资源结构树以及IT资源相关有向图的概念,将IT系统的物理组成结构以及逻辑关系全部映射到系统中,并且可以通过直观的各种图示来了解和监控IT系统。

从下至上的监控手段。从监控IT资源的子资源的运行状态开始来监控IT资源本身的运行状态。这种监控手段有利于IT资源的故障定位。

从上至下的管理方法。方案通过提供业务视图,建立业务与IT资源之间的映射关系,从而使管理人员可以从业务的角度来监控IT资源对业务的影响,帮助快速恢复业务,提高IT系统对业务的贡献度。

故障发现的主动性。系统通过Manager/Agent技术,对对象资源进行自动监视,一旦资源特征发生变化,将立即通过事件检测引擎监测事件发生。

告警的及时准确性。当系统检测到事件发生后,经过相应的压制与根源分析处理,系统将通过手机短信以及电话语音等方式及时准确地通知相关的运维管理人员。这种通知机制还可以通过告警规则的定义实现提升、延迟告警等。

一键式配置特色。在对监控资源进行监控配置时,可以通过预先设定的配置模板,实现一键式配置功能,极大地方便用户的使用。

可配置性。本方案具有展示方式、事件类别、事件产生规则、告警及系统用户和权限的可配置性。

开放性。采用系统分层设计思想,在层与层之间,都提供了开放的API接口,其通信协议建立在开放的XML基础上,使系统具有良好的开放性。

可扩展性。数据库的设计采用了横表变纵表模式,满足当增加一个监控对象或监控指标时,数据库结构不需做任何修改。

被管理对象资源消耗可控制性。系统采用了监控代理技术,在需要被管理的资源系统上,安装一个监控代理,监控代理负责监管被监管对象的属性及其运行特征,其自身具备一定智能功能,可以过滤掉很多无关紧要的数据,从而减轻对网络传输资源的占用。

可维护性。方案建议采用将复杂问题分成若干简单问题的分层设计思想,层与层之间耦合关联,增加系统的可维护性。

在不久的将来,基于智能监控方式支撑电信运营企业业务系统运维的方案将逐步取代传统人工维护方式。我们有理由相信,随着智能监控技术不断发展和完善,基于智能监控方式的电信运营企业运行维护系统必将在新一代电信运行维护系统中得到广泛应用。

猜你喜欢
可用性插件运维
基于文献计量学的界面设计可用性中外对比研究
基于辐射传输模型的GOCI晨昏时段数据的可用性分析
自编插件完善App Inventor与乐高机器人通信
运维技术研发决策中ITSS运维成熟度模型应用初探
基于ITIL的运维管理创新实践浅析
MapWindowGIS插件机制及应用
空客A320模拟机FD1+2可用性的讨论
基于Revit MEP的插件制作探讨
黔西南州烤烟化学成分可用性评价