葛炎明,张 磊,王志勇
(海军军医大学附属长海医院信息科,上海 200433)
随着新时期对医院运行与建设要求的变化,医院信息化建设得到越来越多的重视,临床业务的信息化工作快速发展[1]。截至2017年,本院在用业务系统共82个,涉及服务器数量217个,主干业务均已初步实现信息化,大幅度提升业务开展与管理的效率。但是随着信息化步伐的迈进,医院整体信息环境的规模不断扩大,在规模化为医院发展带来便利的同时,其规模化产生的短板也逐渐暴露[2]。在大量系统与硬件的维护工作中,常规的信息化管理模式显现出分散、被动、低效的特征,尤其在问题的发现、查找与解决上有着较为明显的滞后,无法有效满足全院信息化工作运行需求,难以应对信息化建设的进一步推进与未来发展可能面临的问题[3]。对医院信息资源进行有效监控与管理,是医院当前信息化发展的瓶颈。
为了在信息资源的监控与管理上寻找突破,本院于2013年启动系统运行自动监控项目。集中监控系统利用通用的API与系统、硬件的对接,涵盖长海医院整个IT基础架构的监控和管理,实现对IT基础设施运行情况的实时监控和采集数据,并根据集中监控系统的事件处理机制,判断IT基础设施中潜在的问题和故障,通过短信推送的方式及时向相关责任人提交报告,达到对信息问题及时响应与快速处理的目的[4-5]。集中监控系统的落实,有效提高运维人员对信息系统的管理效率,推动信息管理模式向集中、主动和高效的方向转变,为医院信息化建设的下一步工作奠定基础。
1.1架构布局集中监控系统主要包括三个部分:监控对象、监控平台、短信平台(图1)。监控对象指被监控的软件、硬件,主要分为操作系统、数据库、网络、服务器存储及其他定制化监控对象,兼容性好,基本可覆盖数据中心所有信息系统;监控平台由数据采集、数据入库、数据处理、事件告警、报表生成等五大模块构成,实现从数据采集到事件告警的快速处理;短信平台根据发送人员清单及时发送短信通知管理人员,及时解决告警故障,保障业务的稳定运行。
图1 系统架构
1.2监控指标监控对象通过与监控平台的网络连接,实现操作系统、数据库、网络、服务器存储和其他定制化对象的监控。考虑到告警事件的正确性和重要性,监控对象KPI的设定尤其重要。其间,专业公司根据本院信息系统实际情况就每项KPI进行多次的讨论、测试和设定,分为Warning和Critical两类,满足Critical类KPI的事件由短信平台发送告警信息,及时通知管理人员处理告警事件。网络、服务器存储等硬件主要是通过设定Trap方式,主动推送告警信息到监控平台。其他定制类的监控通过编写脚本,实现对其定时监控进行告警,如后台任务、定制SQL执行等。操作系统监控KPI(表1)。
2.1系统搭建监控对象主要分为操作系统、数据库等对象,每个监控对象通过安装代理软件或配置SNMP的方式,主动推送相关数据至集中监控平台。集中监控平台由性能监控、数据库、事件告警3台服务器构成,主要实现接收监控对象的推送数据、分析处理后根据配置的监控KPI生成事件,并发送Critical事件给短信平台。短信平台由1台服务器构建,配置监控对象的短信发送人员清单,在事件平台传输事件过来后按清单发送给各管理人员。
2.2功能实现集中监控系统监控平台采用B/S架构,操作系统使用Redhat6.6,数据库采用DB2,Web服务采用WAS。通过监控平台,管理人员可根据实际情况进行监控对象的新增、删除、更新和KPI的调整,保障告警事件的正确性和合理性。监控事件平台(图2)。
短信发送,通过在Windows操作系统上部署MySQL数据库和Apache应用,实现管理相关事件发送给指定人员的功能,且发送延时小于1分钟,保障处理告警事件的及时性(图3)。
表1 操作系统监控KPI
图2 告警事件平台
图3 短信平台
集中监控系统自2014年正式上线以来,本院信息部门共计收到300例告警信息并及时处理,平均处理时间不超过30分钟。四年间未发生一起重大信息事故,为医院信息化工作良好有序地开展提供巨大帮助,尤其是在操作系统、数据库、服务器存储等硬件设备和定制化上。
3.1操作系统由于监控的操作系统越来越多,不可能做到每个操作系统都关注。尤其是磁盘空间使用率,在超出警戒线后,可能导致业务系统性能下降,甚至宕机,需要及时处理。在医院临床数据中心建设过程中,因为数据量的庞大,经常报磁盘不足,需要及时处理,不然影响数据的展示、医师的体验。另外还有CPU、内存的监控告警,通过结合业务分析,可以及时发现业务潜在的问题。在本院HIS系统使用超过6年后,服务器的性能难以满足业务的增长使用,尤其是各科的统计类查询,经常引起业务的卡顿、死锁。所以在系统正式割接前期,本院信息部门通过CPU、内存的告警,做到全天候及时处理该类故障,保障本院业务的正常稳定运行。
3.2数据库根据对数据库监控KPI的设定,实现对数据库重要指标的监控,保障诸多数据库的正常运行。2017年9月,随着某Oracle数据库业务新增一批客户端,导致其数据库的会话数增加,高峰期超过告警线,达到会话总数。在收到告警短信前,业务部门告知数据库访问卡顿,管理人员还在分析是何原因导致业务卡顿。一接收到告警短信,立刻怀疑会话数限制,把原先默认的会话数150,调整至300,业务立即可正常访问。另建议业务开发及时断开数据库连接,减少性能的消耗,也及时调整会话数KPI的设定。
3.3服务器及存储随着业务的快速发展,服务器存储的数量也越来越多,设备的故障率也相应提升。尤其是一些老旧的设备,一方面努力迁移至虚拟化环境中,一方面通过服务器存储的监控,及时处理告警故障,努力保障设备的稳定运行。
通过集中监控系统在本院的使用,达到预期设计的目标,有效地将医院信息系统涉及的相关对象整合起来,统一监控和管理,使整个医院信息系统的可监控行和可预测性大为提高,大幅度缩短系统故障的判断及处理时间,保障信息系统的安全稳定运行[4]。但也存在一些不足:①机房环境类的硬件设备暂时沿用原自带监控系统,待网络整合之后纳入到集中监控系统中进行监控;②针对所有的监控结果目前就展示方面只有事件平台和短信平台,管理人员才能看到,后期打算对监控的数据进行分析、过滤,通过图像化界面的效果展示;③考虑到业务的调整,对于监控KPI的调整,一直在持续进行。希望本研究在基础设施集中监控项目落实推进上的做法能够为其他医院信息资源的监控管理提供参考。