张云
摘 要 医院信息系统是现代医院重要的生产工具,为保障系统硬件平台的正常运行,本文分析了医院环境下常见硬件故障及原因,提出了故障排除模型及管理措施,以最大限度保障医院信息系统正常工作。
【关键词】医院信息系统 硬件平台 故障排除模型
1 引言
随着计算机网络技术的不断发展,信息化已经成为了现代医院管理的重要标志。医院信息系统加快了信息处理过程,优化了就诊流程,提高了医疗效率,是现代医院重要的生产工具。
信息系统的基础是硬件平台,是应用系统功能得以实现的根本,也是应用系统能够发挥效用的前提和保证。硬件平台故障或者运行速度、效率下降时,将影响医疗业务执行、造成负面影响。为保障医疗工作的正常进行,降低因硬件设备性能下降、故障和突发事件所造成的影响,降低故障发生率,缩短故障排除时间。基于某医院硬件平台现状,提出了硬件排除及管理方法。
2 硬件平台常见故障及分析
医院信息系统硬件平台,由小型机、服务器、存储阵列、交换机、网络线路以及众多的桌面终端设备组成。从运维监管系统中查询得到常见的硬件故障包括:小型机的电源、CPU风扇;服务器的风扇、内存;存储阵列的磁盘、电池;电脑的主板、内存、硬盘、显卡、网卡、主机开关;网络的交换机风扇、端口、光纤模块、网络线缆、网络环路;以及其他外部设备:打印机、键盘、鼠标、显示器、读卡器等。
在医院信息系统持续运行和工作环境下,计算机硬件及其设备出现故障,通常有以下原因:
(1)使用者未按操作规程使用计算机及外设,造成硬件故障。如带电插拔设备、强行关闭主机电源、设备间错误插接、过度用力使用键盘及鼠标、随意改动配置参数或意外造成的硬件损坏;
(2)电子元器件自身老化、机械部件达使用年限,电子元器件存在质量问题或生产工艺、材料不标准,以及计算机设备常年持续工作等;
(3)医院环境每天进行物理或化学消毒,可导致环境温度、湿度过高、化学腐蚀,以及灰尘;在大型医疗设备区域,存在电磁干扰、电压不稳定因素,使得设备性能降低、电路及元件损害;
(4)由于医院业务的不断增长,在工作区子系统采用不可网管的交换机进行端口扩充,破坏了原有网络结构以及在开放环境下,可随意改变网络连接,导致网络环路;维护人员错误使用网络线缆检测工具,导致交换机端口损坏。
3 故障排除方法与管理措施
3.1 事故等级定义
事故管理的主要目标是尽可能小地影响业务的情况下,尽可能快地将服务恢复到“正常状态”。医院业务具有明显的时间规律,通常8:00-11:00(A)是业务高峰期,14:30-17:00(B)是业务次高峰期以及其他时段(C),结合医院业务状态,根据在不同时段硬件故障对业务的影响程度,将硬件事故分为:1级(A\B\C):核心设备故障致全院应用瘫痪、2级(A\B\C):单个主要业务系统或网络汇聚层故障致业务系统或整栋楼宇应用瘫痪、3级(A\B\C):辅助业务系统或网络接入层故障致辅助业务系统或楼层网络瘫痪、4级(A\B\C):单个终端设备或接入层交换机端口、网线故障
3.2 事故处理流程及方法
缩短硬件事故排除时间最好是采用系统化的处理方法。根据实践和理论,给出了故障排除模型的系统化处理流程,如图1所示。
在故障排除时,首先向受故障影响的用户询问详细情况,从系统日志、诊断命令、软件注释信息、网络管理系统等信息源收集有用的信息。其次遵循由外部到内部的原则,即从主机外部设备向主机机箱内或从内外网边界向内网;遵循由上到下的原则,即在外部设备检测后,按应用软件数据处理过程,从输入到输出或网络协议的应用层到物理层,对可能出现的故障进行逐一排查。采用观察法、测量法、最小化系统法、组件替换法、组件比较法[3]等方法,将收集到的信息加以利用,尽可能的缩小目标范围从而制定出高效的行动计划并实施。对于每个已经解决的问题,记录故障现象以及相应的解决方案,在今后类似故障排除时作为参考,从而极大降低故障排除时间,最小化对业务的负面影响。
3.3 管理措施
以能够实现最大限度保障业务系统正常工作作为硬件平臺维护管理的工作目标,通过分析整个信息系统的结构,评价影响系统正常运行的风险、隐患所在,做好人员、技术、工具和工作细节准备,保证工作目标得以实现。主要措施包括:
(1)建立人员管理体系:加强运维人员的理论与技术培训,提高工作能力和工具使用的技能;对医护人员开展计算机基础理论及常规操作培训,提高使用能力。
(2)建立健全管理制度及维护操作规程,做到职责到人并应用PDCA对制度及执行持续改进。
(3)建立运维监管系统:对硬件平台设备的性能、效率、利用率、状况以及机房动力环境进行监控;对信息资产的生命周期进行全面管理;应用运维过程控制,对运维工作进行跟踪记录,对运维过程中发现的故障隐患和故障处理操作过程及方法进行归档留存,形成特定的运维知识库,以便发现存在的问题,并进行改进,避免不可预期故障的出现,降低其损害和影响。
(4)建立备品备件库:库存物品建立台帐,并进行必要的测试。保障运维和应急时的可用性、有效性。
(5)根据事故定义,制订相应的应急预案和应急措施。
4 结语
总之,为保障系统硬件平台的正常运行,对硬件平台设备进行必要的日常检查和预防性维护,监控其运行状态及运行效率,检查相关的设备运行日志,对随时可能出现的告警信息进行跟踪、分析,做到出现问题及时解决,就能最大限度保障业务系统正常工作。
参考文献
[1]薛玉林.计算机网络系统在医院管理中的应用[J].当代医学,2009,15(04):23-24.
[2]刘道践,李源,顾风军.基于ITIL的医院运维管理流程研究[J].中国数字医学,2011,6(09):90-92.
[3]朱来友.浅谈计算机硬件故障与维护[J].经济管理者,2012(10):388.
作者单位
昆明医科大学第一附属医院信息中心 云南省昆明市 650032