姜涛
【摘 要】随着IT业务的不断发展,弱电工程对于网络数据量的需求大幅提升。使得IT基础架构的管理建设在弱电工程中占据越来越重要的位置。本项研究基于从业务视角管理IT出发,探寻弱电工程中IT子系统管理的拓展与延伸,为IT子系统的管理探索一种全新的视角。
【关键词】IT基础架构;IT业务;IT综合管理
1 弱电工程中IT基础架构管理的现状
随着弱电工程信息化的发展,人们对IT系统的安全运行要求越来越高。IT系统的平稳运行关系到弱电工程各个子系统的正常运行。为此,IT系统维护所需要的人员也越来越多,技术水平要求也越来越高。这就需要对IT环境和运行情况进行监控,将故障解决在萌芽之中。
当前弱电行业在IT子系统管理主要存在以下的难点:
(1)无法从业务角度发现IT业务的问题
由于IT业务的运行依赖于诸多IT资源,当业务出现异常后的逐一排查增加了处理时间和业务中断造成的损失,降低了运维效率。
(2)缺少统一的报表及分析工具
目前数据统计依赖手动的方式,无法实现自动汇聚、抽取、分析数据。用户无法通过报表进行决策分析,管理决策没有数据依据。
(3)缺乏有效的IT资产管理手段
面对众多的IT硬件资产,无法准确、有效的进行资产的配置项变更管理。
2 建立IT综合管理平台的探索
通过建立IT综合业务监控管理平台,用ITIL理论及实践来指导、规范和提升弱电工程IT子系统信息化水平,为其建立高效IT监控与灵活服务管理平台,形成一套规范的管理体系,解决实际运行维护问题,实现精细化管理,降低运营成本和操作风险,提高工作效率和服务品质。
3 构建基于业务视角的综合管理平台
3.1 逻辑架构设计
IT综合管理平台的逻辑架构设计可分为如下四层:
数据采集层:由各种协议适配器构成,向上层提供统一的接口访问管理协议栈,获取管理信息,并在初始发现时作为驱动模块构建信息模型。
数据汇聚层:统一描述底层数据,组织管理信息库。使得各个业务模块面对统一的数据模型,方便对资源进行权限管理,使得面向事务的并发管理成为可能。
数据处理层:专注实现管理业务,不关心底层差异协议。响应前台应用的请求,完成数据查询,处理等功能。
数据展现层:从数据处理层得到数据在前台界面显示。
利用分布式总线实现各逻辑层之间的通信。模块通过内部定义数据接口,进行交互式操作。
3.2 技术架构设计
IT综合监控管理平台的技术架构拥有以下几方面的特性:
(1)符合信息行业标准和规范,采用层次化、模块化的设计,各模块采用松耦合设计,可部署于不同的服务器上;
(2)选用的产品或工具平台均是业界成熟、稳定、主流的,对监控对象的影响达到最小;
(3)监控指标、策略均可通过配置界面进行增加和调整,无需修改源程序;
(4)按照统一工作平台现有集成规范与统一工作平台进行集成,按照运维管理系统的集成规范与其他子系统进行整合集成;
(5)用户界面采用B/S架构,支持通用的浏览器,集成接口良好,支持通用标准,支持向大型监控显示屏输出显示;
(6)支持国际标准协议,如HTTP、JMX、SNMP、JDBC、Telnet、WMI等。
3.3 平台集成设计
管理边界应为网络内的所有IT网元元素,通过标准的监控协议及数据接口监控业务系统信息。与其他系统平台的数据交互将通过数据接口及Web Service 的方式实现,监控系统在管理边界上以主动推送事件为主。
3.4 平台功能设计
3.4.1 业务健康分析指数的建立
以关键业务为中心,提供图形化工具,根据实际环境,定义个性化模型,从业务角度对被监测资源进行关联、重组,建立业务内部关系模型图,帮助管理者搭建业务卡片视图,准确判断业务健康度、繁忙度、层级和告警等内容,客观评估业务运行水平,为管理者提供准确、有价值的管理信息。管理者宏观可掌握业务整体运行状况,微观可查询底层资源运行状况,提高故障定位准确性,保障业务稳定运行。
3.4.1.1 构建IT健康指数
该指数通过关键业务系统、关键资源的参数计算得来,包括业务的连续运行时间、故障恢复时间、告警信息、健康度、繁忙度等信息。综合反应整体IT运维状态,构建管理视角,快速定位环境弱点。
3.4.1.2 关键业务的健康度管理
指标由IT资源实时采集而得,包含业务系统可用性和性能状态指标,记录每天不同时间段的健康度指标,形成平均值,通过K线图显示
业务健康度监控指标项包含有:
(1)IT资源的连通性
(2)URL服务的状态、响應时间、响应结果正确性
(3)数据库的状态、响应时间、响应结果正确性
3.4.1.3 关键业务监控
使用360度雷达扫描视图,及时发现并了解关键业务的薄弱环节、运行状况,并同步显示到业务健康分析视图之上,方便管理人员了解业务状况,提前预知故障,及时采取措施。
3.4.1.4 关键业务建模
通过点击进入告警控制台,实时呈现所有的网络、系统、应用、安全等告警信息,包含告警的时间、告警源、告警次数、告警类型、告警描述等,支持运维知识库的创建和修改。并支持直接通过告警信息关联到IT资源的详细信息监测页面。
3.4.1.5 关键业务的繁忙度
综合管理平台可以就业务繁忙程度进行建模管理,提供相应监控指标,支持查看历史性繁忙度数据、对繁忙度指标进行权重比调整。endprint
3.4.1.6 关键业务的SLA指标建立
对业务系统的SLA指标进行考核需要重点考虑各资源间的权重比关系,通过选择重要资源,用权重比计算方式,计算业务系统的健康度和繁忙度等指标。
3.4.2 综合资源管理
弱电工程有大量资源,因此平台要自动发现全网网络设备,其次发现网络中的安全设备,服务器,应用软件及机房环境等,并能自动计算出设备之间的线路连接关系。通过网络拓扑,提供准确数据,完成网络管理。
3.4.2.1 资源的自动发现
平台应全面支持SNMP 协议,能根据网络规模、协议应用情况,有针对性的配置发现协议、并发进程、管理域和区域、屏蔽设备和网段等参数信息。
通过向导式拓扑资源发现功能,使用户能够快速了解平台自动发现的各类设备的统计信息,实时观测进程,掌握發现情况,减少管理复杂程度。
3.4.2.2 网络故障监控
平台应根据预先设定的参数,跟踪网络拓扑的变化,当网络发生故障或拓扑发生变化时可迅速通过前台拓扑反映,可展现设备故障、链路故障、网络协议故障事件等。通过节点告警将故障进行展现,显示在统一告警控制台中。根据报警事件的重要级别、优先级等信息,可以直观、快速地了解报警事件的紧要性。可设定报警过滤器和排列顺序,重点关注重要的网络报警事件。系统支持通过声音、邮件、短信等方式提示及时告警,为用户发现和处理事件提供数据信息支持。
3.4.2.3 网络资源性能监控
平台实时监测网络设备、服务器的端口流量、丢包率、Ping延时、CPU利用率等运行参数,超过预设阀值时能在拓扑图上据定义阀值以不同颜色、粗细显示线路运行状态,当链路出现异常自动告警。并提供历史数据统计分析。
3.4.2.4 主机操作系统管理
平台可实现对Windows、IBM AIX、Linux、等各种操作系统的主机的关键资源的自动监控,帮助管理员及时发现故障和故障隐患。
3.4.2.5 应用监控管理
系统能监控Oracle、SQL Server、J2EE、JBOSS、Mysql、DB2等应用,按照属性分为数据库工作状态、表空间的利用情况、数据文件和数据设备的读写命中率等。可直接使用相关的监控参数和项目,也可支持自定义。
3.4.2.6 机房动力环境
平台能集动力环境设备监控、安防报警系统、网络监控系统于统一的平台。可实现安防报警、供配电、UPS、空调、温湿度监测等子系统的统一监控,提高系统可靠性,减轻用户工作负担。
3.4.3 故障及告警事件处理
平台在事件发生时通过事件过滤、压缩和根因分析等方式帮助管理人员定位故障,向相关人员发送报警,及时处理问题,提高工作效率。建立综合告警通知机制,例如短信、邮件、移动终端、桌面即时通讯工具等;
4 构建综合监控管理平台的显示意义
4.1 管理效益分析
从管理效益分析:
(1)减少系统事故发生,降低事故造成的影响和损失。
(2)通过管理工具及时获悉资源状态,处理潜在问题,提高工作效益。
(3)建立IT资源与业务的关系,提升项目的影响度。
(4)通过IT服务管理保障体系的建立实施,规范和评估第三方维护公司的工作质量。
4.2 经济效益分析
从经济效益分析:
(1)全面、及时发现问题,针对信息系统具体情况,制定相关解决方案,保证系统平稳运行,减少投资成本。
(2)使运维人员的时间和精力放在解决技术问题上,利用知识库降低人员变动风险,减少聘请专业人员开支。
(3)降低事故发生的次数、减少不利影响带来的损失,提高系统可用性、可靠性、运行效率,带来间接的经济效益。
【参考文献】
[1](荷)博恩.基于ITIL的IT服务管理基础篇.北京,清华大学出版社,2007.
[2](南非)布鲁克斯.IT服务管理指标.北京,清华大学出版社,2008.
[3]黎连业.智能建筑弱电工程设计与实施.北京,中国电力出版社,2006.endprint