吴艳艳
摘要:该文通过探讨采用业界领先的技术和合理的投资,规划建一套我院要求的容灾平台,该文主要从计算资源、传输资源、存储资源三个方面来讨论数据容灾技术。同时结合本院的实际情况提出了HIS系统数据容灾的解决方案。该平台具备良好的可扩展性和性能,满足今后医院4-5年的信息化发展要求。
关键词:医院信息系统;存储;容灾作用
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)29-0109-02
1概述
我院在医疗信息化建设方面,一直走在行业的前沿,作为医院的业务支撑——IT信息系统也日趋完善,包括HIS、LIS、PACS等业务。此次计划进一步巩固,建立一个高可用的、安全可靠的、面向服务的医疗信息系统,更好地为病人服务。本文采用业界领先的技术和合理的投资,规划建一套我院要求的容灾平台,该平台具备良好的可扩展性和性能,满足今后医院4-5年的信息化发展要求。
该容灾平台能够将最主要的业务系统实时纳入处理,还可以支撑新的HIS、LIS、PACS等系统,做到数据实时交换和共享、集中管理,统一调度,增强系统的安全性,实现按需分配IT资源的资源池能力,有效的控制IT信息化系统运行的风险,以及医院运营的风险。真正意义上帮助我院解决:物理故障和逻辑故障。改善用户的体验,化繁为简,化难为易。
2当前系统现状、存在的问题分析和影响
目前医院最核心、最重要的HIS系统运行在2台IBMX3850的服务器和1台IBMDS5020和IBMDS4700存储上。
整个系统的架构如下:
3可能导致的风险
一旦遇到存储物理故障、数据库逻辑故障、甚至机房电力不可用时,极有可能导致全院的HIS系统中断,导致数据丢失,医生无法正常开出处方,患者无法拿到药品,等等一系列风险。从而导致患者的投诉、医患关系紧张,优秀医生的流失,甚至是医疗纠纷,给医院带来了极大的负面社会影响和降低了医院的营业收益。
为此,医院信息化系统已经不再是传统意义上的支撑部门,而是全院所有业务正常开展的一个重要的生产部门,其信息化势必为病人提供更好、更快的服务,提高医院在医疗服务市场上的竞争力。
我院信息化的基础设施如存储、服务器等都存在严重的单点隐患,随着数据的不断增多,应用系统的越来越复杂,在发生物理或者逻辑的故障后,传统的补录数据已经无法满足医院的要求,为此有必要尽快采用市场成熟的技术,建立一套稳定、高效、可靠的,适应于医院的容灾方案。
当前系统中已经使用了一台IBM DS5020存储,建议容灾方案中采用EMC的容灾技术,可靠性会高于其他的公司。其次,降低方案的整体投资成本和实施的复杂性,最后EMC提供硬件3年原厂的维保,减轻医院维护的工作量。
4我院系统信息化要求和IT故障分析总结
根据医院信息化系统的真实要求是:系统停机时间越短越好,即RTO=0;数据丢失量为0,即RPO=0。物理上要求数据和应用部署在至少2个机房。
IT系统分析:
從系统安全层面来看,随着技术的不断发展,故障的种类变得越来越多,而方式变得越来越复杂,越来越难以预防和解决。最典型的是每一类设备的生命周期,每一类设备在其设计之初就定义了有限的使用生命周期,随着设备投产时间的持续,硬件故障的因素越来越高,给用户带来的潜在风险是越来越大。除了硬件故障外,还有一些软性的故障,也越来越多,越来越频繁,如应用程序故障、数据库损坏、崩溃、文件误删除、病毒等等。这类故障发生的概率低于硬件,但对生产系统的危害更是大过硬件故障。
今天,随着医院业务的逐步开展和追求高质量、高效率以及降低整体的拥有成本,越来越依赖于信息化的应用系统和底层IT设备了。一旦底层的IT设备发生重大的物理故障和软件故障,如果缺乏有效的应急方案、应急手段和机制都将会造成一些医疗纠纷、赔偿等损失,甚至带来极大的、负面的社会影响。
随着技术的不断发展物理故障的修复和冗余技术越来越成熟,物理设备的使用生命周期是可以预知的,在条件合适的时候提前更换和处理,从而避免了物理故障带来的大影响,所以80%的物理故障可通过技术手段有效的规避或降低风险。
但是逻辑故障的发生时间、发生地点和发生方式,我们无法预知,在故障发生后,往往缺乏有效的应急方案和有效的应急措施、制度流程等。
即使已经拥有较好的逻辑故障处理方案,但在故障发生时,也会给信息化管理者带来极大的挑战,此挑战和风险是:时间缺陷和数据丢失的风险
CDP与传统存储复制技术的优势:
复制颗粒度:CDP是基于每一个io进行复制,而传统的复制是基于每一个LUN的复制;
支持回滚:CDP支持任意回滚,可以做到基于每一个IO回滚,而传统的复制无法回滚,缺乏后悔药技术。
多平台和多数据库支持:由于CDP是基于最小IO的颗粒度进行复制容灾,所以支持所有的操作系统和所有数据库的容灾。
操作界面:CDP只需要点击三次鼠标即可在容灾端完成回滚操作,并且时间控制在10分钟以内。而传统的复制操作繁琐,费时至少需要30分钟以上。
5容灾方案
根据以上的分析,我们认为应该采用业界最成熟的、最主流的双活技术方案,帮助医院规划一套全新的容灾平台,该平台完全是一种开放式的,支持所有的操作系统比如windows、hnux、aix、hpux、vmware等,以及所有的数据库的容灾比如Ora-cle数据库、SQLserver数据库、Mysql数据库等等,最终实现应用级的双活。增强医院的数据保护级别,帮助医院建设一套数据零丢失,业务零停机的双活系统。3种技术手段共同去降低信息化的风险,解决物理故障、逻辑故障、数据库备份的问题,其技术如下:EMC Recoverpoint虚拟机版本的CDP任意回滚的技术解决物理故障和逻辑故障;Oracle Dataguard复制技术有效的解决数据库的逻辑故障;
帮助我院用户建设一套稳定、可扩展、高效、敏捷、可控、可管、可预知的IT基础系统。
6应用效果
同城2个机房同时双活在线,对外提供业务服务,部署的应用完全一致、配置完全相同。真正意义上帮助医院打造7*24小时不停机系统,任何一个机房不可用时,无需人工干预,机房零切换,数据零丢失,应用零切换、零中断。
服务器层:通过VMware服务器虚拟化软件实现了服务器的虚拟化,通过虚拟化的HA功能,解决服务器不可用的物理故障;
存储网络层:2台放置在生产机房,互为冗余的存储链路,保证链路的高可用,结合多路径软件实现了10的负载均衡,链路故障切换;
逻辑故障:当生产中心Oracle数据库故障无法正常启动后,通过Recoverpoint CDP技术快速的从容灾端恢复到生产端的一个正常时刻点,该时刻点确保数据库正常启动,从而帮助客户缩短业务停机时间,避免了数据库故障带来的惊慌失措和损失。或者先在容灾端回滚找到用户需要回滚的时间点后再反向恢复到生产端。当生产中心Oracle数据库的某条记录被误删除后,可以在容灾端服务器上查询容灾的数据库,找回删除的记录,再结合应用插回生产系统。
应用层1:结合Oracle RAC,SQLserver或VMware实现跨机房的应用双活,2个数据中心同时提供负载均衡的应用读写操作;
稳定性:物理上、逻辑上冗余,提供5个9的稳定和高可用;
可扩展性:VNX5200可以扩容到125块硬盘,满足用户容量和性能需求;
管理:一切可管。任何物理、逻辑层的设备都能够有效的管理起来,在管理的范畴之内;
风险:一切可控。任何物理、逻辑层的故障发生后,均能通过该IT基础架构解决,即所有可能发生的故障都会对业务的影响发生到最小甚至是无影响,都是有着成熟的、可靠的应急预案和操作手册。整体成本:x86服务器虚拟化成本将会成倍的减少,不仅仅是建设成本,还有维护成本、管理成本,机房空间成本、能耗成本都会大幅度降低。