HostMonitor监控软件在山西地震前兆台网的应用

2016-04-01 05:22胡玉良程冬焱李惠玲穆慧敏王鹏伟李颖1中国太原030021山西省地震局2中国山西030025太原大陆裂谷动力学国家野外科学观测研究站
地震地磁观测与研究 2016年1期
关键词:远程管理阈值监控

胡玉良程冬焱李惠玲穆慧敏王鹏伟李 颖1) 中国太原030021山西省地震局2) 中国山西030025太原大陆裂谷动力学国家野外科学观测研究站



HostMonitor监控软件在山西地震前兆台网的应用

胡玉良1), 2)程冬焱1), 2)李惠玲1), 2)穆慧敏1), 2)王鹏伟1), 2)李 颖1), 2)
1) 中国太原030021山西省地震局2) 中国山西030025太原大陆裂谷动力学国家野外科学观测研究站

摘要将HostMonitor应用到山西地震前兆台网,根据不同监控对象配置相关参数,设定监控周期及阈值,实现邮件告警及远程管理,便于台网服务器、网络化前兆仪器的全面监控。该技术在山西地震前兆台网应用以来,效果良好,地震前兆台网运维工作效率得到提高。

关键词HostMonitor;前兆台网;监控;阈值;邮件告警;远程管理

E-mail:huyuliang130@163.com

本文收到日期:2015-04-07

0 引言

随着“九五”“十五”“十一五”项目的建设完成,地震数字化前兆仪器在山西省投入运行。目前,山西地震前兆台网具有数字化地震前兆仪器68套,地震前兆服务器16台。地震设备的正常运行是确保地震各项前兆业务正常开展的前提条件,需要采取先进的技术手段对设备运行状况进行监控,及时发现并处理故障,不能依靠技术人员巡查发现问题再处理(马文娟等,2011)。天津市地震局、黑龙江省地震局局及湖北省地震局等采用基于Nagios等软件,实现地震网络化设备的实时监控(宋化等,2011;李刚等,2012;高东辉等,2013),并实现了短信告警功能(李刚等,2012)。

Nagios软件免费开源,功能强大,通过相关插件即可用来监控多种系统主机及服务,并在其工作状态发生变化时通知管理员。该软件安装复杂程度较高,且事件控制台功能较弱(宋化等,2011),无法设置阈值(如内存、硬盘、数据库表空间等),则无法在设备超过阈值时进行告警。

HostMonitor是一款商用运维管理软件,不开源,基于Windows操作系统,维护简单,提供77种测试方法,30种报警方式,适用于Windows、FreeBSD、 Linux、Solaris等不同平台的远程监视管理程序,可轻松监视远程网络;通过Web服务、Telnet服务和远程控制台技术可以简化远程管理。基于此,本文应用HostMonitor监控软件,实现山西地震前兆台网数字化前兆仪器和前兆服务器监控、Web显示、异常告警等功能。

1 系统监控思路

根据“十五”地震前兆观测设备网络通讯规程,数字化地震前兆仪器针对现行 IPv4网络进行设计,具备网页浏览、HTTP、FTP等功能(中国地震局,2005;王秀英等,2008)。地震前兆服务器普遍在Suse Linux操作系统下安装Oracle数据库和中国地震前兆数据管理系统。

HostMonitor软件主要监控数字化地震前兆仪器网络、网页、FTP等运行状态、前兆服务器网络状态、管理系统运行、硬盘、内存及数据库qzdata和system表空间使用现状,并实现Web显示及邮件告警。整体结构见图1。

图1 监控系统整体结构Fig.1 The whole structure of monitoring system

2 部署

2.1 监控对象及方法

在Windows操作系统下安装HostMonitor软件(本文使用软件版本是9.32),安装成功后,在桌面上双击打开软件,增加监控条例,点击图2中Test by下拉框,即可选择监控方式。HostMonitor提供两类监控方式:①直接从客户端发起,如“ping、HTTP、ntp、Check Oracle server、ODBC Query”等,此监控方法可直接使用;②通过被监控机执行相关命令或语句的agent方式,如主机“硬盘、内存”等,此方法需要配置代理程序(RMA)。

图2 监控系统设置界面Fig.2 The settings screen of monitoring system

通过以上两类监控方式,即可实现监控网络通断(前兆仪器和前兆服务器)、网络服务(前兆仪器网页和前兆管理系统网页)、数据库服务(数据库连通状态、表空间查询等)和服务器相关参数(可用硬盘、可用内存),具体监控项目见表1。

表1 监控对象及参数Table1 Monitoring targets and parameters

前兆仪器及服务器网络状态主要通过ping设备的IP地址进行监控,结果是Host is alive,表明网络正常;结果是No answer,表明网络故障。

根据“十五”地震前兆观测设备网络通讯规程要求,前兆仪器实现FTP、HTTP通用数据传输应用层协议等功能,也具备Web浏览功能,因此不仅要监控前兆仪器的网络连通性,还要检查前兆仪器的FTP、Web服务等网络服务,通过利用HostMonitor监控前兆仪器的特定端口返回的信息,从而判定其服务是否正常,检测方法有URL请求,HTTP、FTP等,每种检测方法还可以进行详细设定。

地震前兆数据服务器是开展地震前兆各项业务的核心,前兆数据库采用Oracle数据库,在Windows系统下对地震前兆台网各数据库参数进行ODBC数据源配置,利用HostMonitor的Check Oracle server方法即可监控Oracle连通情况;通过ODBC Query方法即可实现对Oracle数据库更高级别监控。使用下述查询语句

select round(sum(bytes)/1024/1024/1024, 2) as GB from dba_free_space where tablespace_name = 'QZDATA' group by tablespace_name;

可实现对qzdata可用表空间的查询,且可设置阈值,低于该值时进行告警。具体设置见图3。

图3 表空间设置界面Fig.3 The settings screen of tablespace

利用HostMonitor可监控地震前兆服务器各项硬件参数,如硬盘空间、可用内存等。地震前兆服务器操作系统均为Suse Linux,监控各项参数需要配置代理程序(RMA),RMA与HostMonitor主监控程序进行通信,接受来自主程序的监控请求,将获取信息返回HostMonitor,其通信过程是加密的。具体配置过程不再赘述,可查阅相关资料。以监控可用硬盘空间为例,在Script Manager下新建一个Shell脚本,脚本名称是SYSTEM: Disk free:suse,核心命令是“df – hl”,具体脚本内容如下

#!/bin/sh

PDiskMem_size=`df -hl | awk 'NR==2{print $2}'`;#硬盘总容量

PDiskMem_avail=`df -hl | awk 'NR==2{print $4}'`;#硬盘可用容量

PDiskMemused_per=`df -hl | awk 'NR==2{print $5}'`;#硬盘使用百分比

#硬盘使用百分比高于70%告警

if [ ${PDiskMemused_per%%*} -ge $70 ]

then

echo "ScriptRes:Bad:"$PDiskMem_size"":""$PDiskMem_avail"":""$PDiskMemused_per"" else

echo "ScriptRes:Ok:"$PDiskMem_size"":""$PDiskMem_avail"":""$PDiskMemused_per"" fi

在监控方法Shell script中调用脚本,对Suse Linux系统的硬盘参数进行监控。

2.2 监控周期

调整各监控条例的监控周期十分必要,既要考虑监控的时效性,又要考虑到监控频率太快可能引起异常。由于仪器和服务器的网络状态对时效性要求较高,监控时间间隔适当调短,可调整为每2 min监控一次;地震前兆仪器的网页、前兆管理系统及数据库服务器的Oracle连接状态,监控时间间隔采用10 min监控一次;对于服务器可用硬盘、可用内存及数据库服务器的可用表空间等监控对象,由于地震前兆数据量增长较慢,对系统资源占用不多,因此监控时间间隔可调整为60 min。

2.3 异常告警

监控项目的异常告警对工作人员比较重要,监控状态由“Bad”变为“Good”或者由“Good”变为“Bad”时,HostMonitor会产生异常告警。为了防止异常告警,把动作的触发条件设置为至少连续2次出现“Bad”或“Good”的测试状态,以避免误报或者错报(刘胡赟等,2005)。

HostMonitor提供多种告警方式,如:声音告警、界面告警、邮件告警、短信告警等。本系统采用邮件方式进行告警,接收端采用139邮箱,开通邮件到达免费短信通知功能,出现异常告警时,系统自动发送邮件并进行短信提示,方便工作人员及时处理。配置界面见图4。

图4 邮件告警配置界面Fig.4 The settings screen of alarm by E-mail

2.4 远程Web管理

HostMonitor支持远程Web管理,使用WebService服务即可实现,方便远程巡检与异常判断。为确保安全,需设置TCP端口、访问账户及相关权限,监控系统网页见图5。

图5 监控系统网页Fig.5 The Web page of monitoring system

3 结束语

利用HostMonitor监控软件,实现山西地震前兆台网网络设备实时监控,通过配置监控策略实现139邮箱告警,第一时间接收异常告警邮件并及时处理故障,提高地震前兆台网运维工作效率。该系统存在一些不足,如:不支持自动发现,首次配置比较繁琐,需要对每一套仪器监控参数进行一一配置;未实现与值班工作匹配,按业务系统分类管理的统一告警模式(李刚等,2012)。今后该系统需进行以下完善:①按系统配置文件格式实现配置信息录入自动化;②利用系统告警日志数据库实现分类告警,按台站对仪器告警进行分类,实现按台站值班人员分类发送仪器告警信息。

参考文献

高东辉,孟祥龙,张守国,等.基于Nagios的网络监控系统在黑龙江地震监测网络中的应用[J]. 防灾减灾学报,2013,29(2):67-73.

李刚,王晓磊,孙路强,等.基于Nagios软件的综合短信联动告警系统在地震行业中的应用研究[J]. 地震研究,2012,35(1):133-138.

李刚,周利霞,王晓磊,等.开源网管系统在地震监测网络中的应用[J]. 西北地震学报,2012,33(4):380-385.

刘胡赟,陈巍巍. 采用HostMonitor系统掌握网络动态[J]. 中国科技信息,2005,21:10.

马文娟,张锦玲,常明,李芳芳,柳忠旺.区域地震前兆台网管理及运行监控[J].地震地磁观测与研究,2011,32(4):74-77.

宋化,刘可,张亦梅,等. Nagios在地震网络监控中的应用[J]. 长江科学院院报,2011,28(11):36-41.

王秀英,周振安,刘爱春.“十五”地震前兆观测设备网络通讯规程应用探讨[J].大地测量与地球动力学,2008,28(4):131-135.

魏根芽. 基于Linux的Nagios服务器监控系统的研究与实现[J]. 计算机与现代化,2010,(6):170-172.

中国地震局编.中国地震前兆台网技术规程[M].北京:地震出版社,2005.

Application of HostMonitor for Shanxi Seismic Precursor Network

Hu Yuliang1),2),Cheng Dongyan1),2),Li Huiling1),2),Mu Huimin1),2),Wang Pengwei1),2)and Li Ying1),2)
1) Earthquake Administration of Shanxi Province,Taiyuan 030021,China 2) National Continental Rift Valley Dynamics Observatory of Taiyuan,Shanxi Province 030025,China

Abstract

HostMonitor is briefly introduced and applied in Shanxi Seismic Precursor Network. In the software,parameter con fi guration,monitoring cycle and threshold can be set according to the different subjects. E-mail noti fi cation function has been realized when problems reach warning and error thresholds. Remote management can be used to monitor servers and network instruments. Since the system is applied in Shanxi Seismic Precursor Network,it has achieved good results,improved the ef fi ciency of operation and maintenance management.

Key words:HostMonitor,precursor network,monitoring,threshold,E-mail notification,remote management

doi:10. 3969/j. issn. 1003-3246. 2016. 01. 022

基金项目:中国地震局地震科技星火计划项目“山西前兆台网应急服务软件研制”(XH14008Y)和山西省地震局科研项目“虚拟仪器在地震专业仪器检修中应用”(SBK-1518)联合资助

作者简介:胡玉良(1981—),男,硕士研究生,工程师,研究方向:前兆系统及仪器运行维护。

猜你喜欢
远程管理阈值监控
The Great Barrier Reef shows coral comeback
GSM-R网络SIM卡远程管理技术方案研究
小波阈值去噪在深小孔钻削声发射信号处理中的应用
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
基于自适应阈值和连通域的隧道裂缝提取
比值遥感蚀变信息提取及阈值确定(插图)
被忽视的远程管理模块
室内表面平均氡析出率阈值探讨
Radmin在服务器远程管理中的应用