王文兴 李文倚 杨旸
摘要:构建一个智能的自动化运维监控平台,以运行监控和故障报警这两个方面为重点,将所有信息系统中所涉及的系统功能模块和数据库等纳入运维监控平台中,主要收集网络数据、业务系统数据、数据库及iis、tomcat等日志数据,然后将收集到的数据进行提取需要的数据到监控报警模块,进行报警规则设置、报警阀值设置、报警联系人设置和报警方式设置等。为实现自动化监测的功能,该次研究主要包括实现三部分:短信通知功能、错误现场拍照和数据库备份检查功能,实现运维规范化、报警准确化、预警自动化的运维管理系统。
关键词:自动化监测;故障报警;短信通知;错误现场拍照
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)32-0009-02
1 背景
近几年,随着公司信息化应用的快速发展,公司管理的部门、各院、中心建设完成的信息系统已达到一定的规模。随着业务规模的增长,任务将不断增加,如客户端软硬件环境变化,特别是安全类软件或设置导致的兼容性问题;随着服务器端软硬件升级可能导致的代码、配置等兼容性问题;还有由于使用方法不当或者其他因素导致的无效数据的维护问题等问题越来越突出。
目前公司内已经有多达40余个信息系统的建设以及公司新老信息系统的日常维护工作,并且各课题组成员几乎都交叉承担了多个课题工作任务,人员紧张,没有足够的人力来完成课题开发和运维工作。因此,需要设立一个有针对性的运维系统,以保障各个系统运维工作的有序进行、运维经验的有效管理,进而保证各个系统的稳定运行。
为了更好地协助运维人员对信息系统进行日常运维,近年专门设立运维课题,针对性地对自动化运维监测系统的进行研究设计和开发工作。
2 问题与研究思路
目前的运维工作较大程度依赖于客户提出的问题,而该系统主要针对用户量较大的如科研管理平台、公文系统、流程审批系统,等现有的系统提供自动化的预警检测;同时,上述几个系统目前的问题只能用户提出出错问题,而没有建立自动化的运维的错误信息;而且各系统在其数据库服务器上的是否处于联通的状态,各系统的数据的自动备份工作等问题尚未实现自动化监测的能力。
因此为服务于日常信息系统运维工作,减少运维人员工作量为目标思想,以网络、数据库、操作系统底层接口等技术为保障,以监测文件夹内容变化的方式实现对数据库备份结果的监测[1]。针对在线系统优化完善问题,加强系统版本控制与整体测试,避免优化完善问题带来其他问题;在技术支持方面,通过积累问题解决方法,逐步建立自动化支持平台,为技术支持人员及用户提供参考,提高技术支持效率[2]。同时,由于需要运维的各个系统都是已经在线运行的软件系统,承担了公司内外各个业务单位的管理、科研、生产等多种工作,研究的目标为保持各个信息系统的安全平稳运行,在不影响正常运行状态下部署自动化监控运维程序[3]。
3 设计思路与实现
为解决前面的问题,实现自动化监测的功能,通过对各系统运维人员的需求调研,在已有的传统的正常运维管理的基础之上,该次研究主要包括实现三部分的功能:短信通知功能、错误现场拍照和数据库备份检查功能。图1是该系统设计的各功能模块的业务模型图。
3.1 短信通知功能
使用IDEA,JDK1.6,Java语言,SQL Server 2008数据库开发,具体功能设计为:定时从数据库中获取需要监测的路径,测试连接情况。如果监测到状态变动(从上一次正常联通到该次连接失败,或者从上一次连接失败到该次连接成功),则根据运维系统中记录的相应管理人员手机号码发送短信,提醒运维人员查看邮件报警的详细信息,并解决问题。同时把此次短信内容、收件人和时间记录在运维服务器。
3.2 错误现场拍照
使用IDEA,JDK1.6,Java语言,SQL Server 2008数据库开发,具体功能设计为:定时从数据库中获取需要监测的路径,测试连接情况。如果监测到状态变动,则利用java环境自带的thread dump功能实现java环境下的现场拍照,把错误信息通过邮件发送至运维系统中记录的相应管理人员邮箱,以供运维人员根据错误现场追踪和修复错误,同时把此次邮件内容、收件人和时间记录在运维服务器。
3.3 数据库备份检查功能
使用VS2010,FrameWork4.5,C#语言,SQL Server 2008数据库开发,具体功能设计为:对目標文件夹内的文件变动进行监测,在变动发生时、结束时,将文件属性情况各发一封邮件通知指定用户。各系统管理员自行部署到数据库服务器,可以监测一个或多个文件夹,可以由一个或多个邮箱接收监测信息,可以监测文件夹内文件的增、删、改和重命名情况。同时根据管理员的设计自动实现数据的迁移和备份工作。下面代码为发送报警邮件的代码实现函数。
4 总结与展望
该文完成了自动化运维监测系统的设计和实现,监测系统每周末完成数据库全库备份,并将数据文件传输到另一台独立物理机,以备必要时进行数据恢复。同时,系统通过异常监测程序,完成对数据库运行实例、Weblogic数据库连接池、应用相应时间、应用阻塞情况进行监测,并通过邮件和短信发送通知,保持系统平稳运行。
参考文献:
[1] 石坚. 校园网运维管理系统的分析与研究[J]. 价值工程, 2016(3).
[2] 陆春, 黄杰, 陈云. 高校信息系统运维自动化的研究与实践[J]. 中国教育信息化: 高教职教, 2014(5): 85-87.
[3] 熊宇梁. 基于BS架构的IT资源监控系统的设计与实现[D]. 北京: 北京邮电大学, 2014.
【通联编辑:谢媛媛】