夏正伟 方 吉
(1.武汉大学图书馆,湖北 武汉 430072;2.华中科技大学图书馆,湖北 武汉 430074)
夏正伟 男,1979年生。硕士,馆员。研究方向:数字图书馆、网络管理、网络安全。
方 吉 男,1982年生。硕士,馆员。研究方向:数字图书馆、存储管理、云计算。
湖北省高等学校数字图书馆是依托现代化的分布式网络、存储及数字图书馆技术,服务于湖北省全省110多家高校、数百万用户的区域性数字图书馆共享服务体系[1]。为了向湖北全省上百万读者提供稳定的文献资源信息服务,必须运用先进的网络管理技术建立一个适合湖北省高等学校数字图书馆分布式网络环境的监控管理系统,向管理人员提供系统运行管理、设备与应用服务监控、故障通知和服务质量监测等功能。
针对湖北省高等学校数字图书馆网络监控管理的需求,提出了一个基于Nagios的网络监控管理系统的框架,并在此基础上进行二次开发,实现对网络中的设备、主机以及各种应用服务的故障预警及部分故障的自动修复、性能采集和展现。管理人员通过浏览器随时随地对网络运行的状况进行实时监控;对网络性能的采集,则为领导层提供准确的统计信息和趋势预测,为湖北省高校数字图书馆的下一步建设提供参考。
调研发现,国内外图书馆在数字图书馆高速发展的过程中遇到了不同程度的网络管理与监控问题,主要是以下几个方面[2]:
①数字图书馆环境下设备和应用服务增长较快、数量繁多,传统网络管理手段无法满足需求;
②图书馆对网络管理软件基本上没有资金投入计划,图书馆界技术部门人员沟通交流相对较少,数字图书馆管理手段相对落后;
③数字图书馆环境下的数据监测和收集重视程度不够,容易给远期规划带来困惑和不确定性。
尽管图书馆对数字图书馆网络管理有着强烈需求,但由于经费问题,大多数图书馆只能采用设备生产厂商提供的随机软件对部分设备进行管理,难以实现全面的网络与应用监控管理。传统的网络管理一般较多依赖于SNMP(Simple Network Management Protocol,简单网络管理协议)协议实现对设备状态的监控,而对于众多数字图书馆相关的应用及服务来说,一般缺乏对SNMP协议的支持,常规的网络监控手段无法对服务的健康状态进行有效的监控。
然而,兼容性、可移植性、互操作性、易用性和易管理性是网络管理技术发展的趋势[3]。在管理对象上,越来越侧重于对系统业务和应用的管理。数字图书馆网络管理系统需要具有为适应不同规模的数字图书馆以及未来数字图书馆联盟发展的能力,应该能够适应分布式、集中式和集中分布式等多种结构,并且能实现实时监控、及时报警和智能故障恢复等功能[4]。具有开放架构和易扩展性的开源网络管理监控软件,正受到越来越多的关注,如Nagios、GroundWork、Qlusters等。对于缺乏资金投入的图书馆,应用开源网管软件并根据需要进行二次开发和扩展,为实现智能化的数字图书馆网络管理创造了条件。
通过湖北省高校数字图书馆的网络监控管理需求分析,选择开放源代码软件Nagios作为网络监控管理的核心,在此基础上,进行相关插件的开发,以达到对计划管理对象的监控。Nagios是一个开放源代码的网络管理监控框架,由Nagios核心模块和扩展部分(插件)构成。Nagios的核心模块负责调度、服务状态检查,以及进行一些通知和自动恢复机制等附加操作,插件则用于服务状态检查,它们都由Nagios服务调用[5]。
系统主要由4个层次组成,分别是信息采集层、事件处理层、网络管理层以及Web交互层[6],其逻辑结构如图1所示。
湖北省高校数字图书馆主要的被管对象归纳如下:Windows类服务器、Unix类服务器、网络设备、机房温度、UPS电源以及各类网络应用服务等。其中,机房温度、UPS电源状态是所有服务器及网络服务运行的基础;被管对象中Windows类和Unix类服务器需要监测其内存使用率、CPU负载、磁盘使用率;网络设备需要监测丢包率、SNMP状态信息以及带宽和流量;网络应用服务主要检测HTTP服务的状态。
在对上述被管对象的监测过程中,发现故障需要进行事件记录,并根据事件通知规则通过E-mail、短信或者即时通信工具等向管理员发出通知。当监测到应用服务状态异常时,网络监控管理系统还能触发预先定义的修复脚本,尝试重新启动应用服务,实现部分服务的自修复。
根据目前湖北省高校数字图书馆的规模,采用了集中管理模式,将Nagios部署在一台Linux服务器上,对湖北省高校数字图书馆两个数据中心进行管理,被管对象包括6台Linux服务器、30台Windows服务器、2台思科网络交换机、UPS电源以及4条互联网专线。具体见表1。
在网络管理的诸多功能中,故障报警是最重要、最基本的。通过故障报警迅速发现和排除网络故障,是网络正常运营的必要条件。Nagios系统支持多种故障报警方式,如E-mail、SMS短信息、即时通讯等。
Email方式的故障通知需要管理员定时收取邮件,实时性不高。即时通讯比E-mail方式有更高的实时性,能直接以弹出消息的方式通知管理员,但在网络中断的情况下,消息将无法发出。SMS短信息的方式更加灵活可靠,并且没有地域限制,在网络中断的情况下,管理员也能通过手机短信得到通知,但需要服务器上安装GPRS Modem(短信猫)。
表1 网络监控被管对象表
根据未知、警告、严重等不同的故障级别,故障报警发送方式的选择策略见表2。
首先,需要安装支持环境Apache、GCC编译器、GD开发库组件、RRDTool以及PNP等,在Linux系统中建立支持Nagios运行的用户nagios和用户组nagcmd,并将nagios用户和apache用户加入nagcmd组。然后编译和安装Nagios核心系统,为Nagios web界面创建用户账号,完成插件的开发与部署,最后进行监控对象、故障通知的配置。
表2 故障报警发送策略
部署的系统可以通过Web方式访问,管理人员通过浏览器登录后,可以完成有关管理操作。图2是监控系统运行的主界面。
笔者实现的系统具有以下特征:
①扩展了常规网络管理的范畴:除网络设备、主机外,对网络中的应用服务、机房温度、UPS电源状态等也可进行管理;
②结构合理,设计了一个开放性好、效率高的框架,具体功能模块通过插件来实现,用户可以视需求来设计有关插件,可扩展性强;
③系统基于B/S结构,使管理人员可以随时随地通过Web页面对网络进行管理;
④对重复、相关的事件进行关联,避免事件风暴的产生;
⑤利用事件处理脚本实现了部分故障的自动修复。
笔者实现的网络监控管理系统还存在一些可改进的地方,如系统的配置过程较复杂,在网络拓扑上的显示能力较弱等。在下一阶段的研究中,可进一步对现有系统进行改进和完善,实现系统配置的简单化,网络拓扑结构的可视化。
[1]湖北省高等学校数字图书馆管理中心:湖北省高等学校数字图书馆的建设.高校图书情报论坛,2007(6):1-5.
[2]汪精明.高校校园网管理综述.计算机与信息技术,2009(5):75-76.
[3]雷震甲.计算机网络管理.西安:西安电子科技大学出版社,2006:25-34.
[4]管海兵,白彩英.计算机网络管理系统设计与应用.上海:上海交通大学出版社,2004:56-78,125-134.
[5]Imamagic Emir,Dobrenic Dobrisa.Grid infrastructure monitoring system based on Nagios.In:Proceedings of the 2007 Workshop on Grid Monitoring, GMW’07,2007:23-28.
[6]I Raad,P Vial,W Raad.Telecommunications network management applications in an educational environment.International Journal of Engineering Education,2006(4):896-905.
[7]李晨光.Linux系统网络管理模块的实现.铁路计算机应用,2008(6):35-38.