◆陈博 李晨 李林
(郑州市骨科医院河南 450052)
随着医疗行业信息化进程的加深,如何对患者信息进行高效有序地存储和管理,并提供安全的信息快速访问成为目前医疗行业数据存储的主要发展趋势。郑州市骨科医院是一所集医疗、急救、教学、科研、预防保健、康复为一体的三级甲等中西医集合骨专科医院。目前医院系统主要有 HIS系统(医院信息系统,Hospital Information System)、LIS系统(实验室信息系统,Laboratory Information System)、PACS系统(医学影像治理与通信系统,Picture Archiving and Communication System)、EMR系统(电子病历,EMR,Electronic Medical Record)等,院内各个系统之间要求数据能够互联互通,交互共享。由于医院业务量大,收治病人较多,因此要求业务要保证7*24小时不间断运行,且系统具备容灾能力。目前大多数医院的采用传统的一主一备存储方式,当主机出现问题的时候,通过备机上的软件将原先备份的数据恢复即可。这种软件备份恢复的方式虽然目前有效,但随着数据量的日益增多,恢复的时间周期越来越长,而且对硬件资源要求也越来越高,成本也逐步增加。因此,建设一套高效稳定且成本较低的存储系统来保障医院关键业务正常运行,成为目前医疗行业信息系统灾难恢复建设的核心任务。
医院可根据业务的恢复时间目标(RTO,Recovery Time Objective)和恢复点目标(RPO,Recovery Point Objective)不同,选择不同的容灾方案。由于业务需求的不同,医院会采用不同的数据备份和数据保护方式,以达到容灾、容错两大目的,并且也可降低后期硬件上的维护成本。常用的容灾备份系统应包括硬件级物理容错和软件级数据备份,并且能够自动地跨越整个网络平台。当网络出现故障或系统崩溃时,能迅速地恢复系统和数据,保证业务正常运转。
硬件级物理容错是基于容错技术原理,采用硬件全冗余的技术,在两套同等规格设备之间做冗余,从而确保当故障来临时能及时切换服务器设备,并自动恢复到损坏前的正常状态,确保服务器正常使用。常见的硬件容错方式主要考虑以下几点:
(1)采用双机容错机制:在医院业务网络中,最关键的设备是数据存储服务器,为了保证网络系统连续运行,必须采用文件服务器双机热备份容错技术,以解决硬件的故障。从物理上保证医疗数据运行的所需环境。
(2)网络故障和容灾恢复:网络备份的最终目的是保障网络系统安全运行,当网络系统出现逻辑错误时,网络备份系统能够根据备份的系统文件和各类数据库文件在最短时间内迅速恢复网络系统。
(3)备份任务管理:采用定时自动备份措施,并指派专人定时巡检,尽量避免由于人为原因造成的操作性错误和遗漏。
硬件的建设是医院业务连续运行的重要保障。但对于数据量巨大、计算环境复杂的医院而言,仅仅只有强大的硬件设施还不够,需要硬件容错技术与软件容灾技术结合起来,才能提供及时有效的解决方案。
软件级数据备份可根据对系统的保护程度分为数据库级容灾备份和应用级容灾备份。数据容灾是应用容灾的基础,应用容灾是数据容灾的目标。在选择容灾系统的构造时,还要建立多层次的广域网络故障切换机制。
所谓数据容灾,就是指建立一个异地的数据系统,该系统是本地关键应用数据的一个可用复制。数据备份是数据保护的基础,也是抵御逻辑故障、恶性操作的唯一方案。备份系统通过备份策略,对计算机的操作系统、文件系统、应用程序、数据库系统等数据集实现某一时间点的完整拷贝,而拷贝的数据处于离线状态,不能被立刻访问,必须通过相应操作才能恢复。这就要求在本地数据或者整个应用系统出现灾难时,系统至少在异地保存有一份可用的关键业务的数据。该数据可以是本地生产数据的完全实时复制,也可以比本地数据略微落后,但一定是可用的。
应用容灾是建立在数据容灾的基础上,在异地建立一套完整的与本地生成系统相当的备份应用系统。在灾难情况下,远程系统迅速接管业务运行。数据容灾是抵御灾难的保障,而应用容灾则是容灾系统建设的目标。建立这样一个系统是相对比较复杂的,不仅需要一份可用的数据复制,还要包括网络、主机、应用甚至IP资源等之间的良好协调。在距离较远的容灾系统中,不仅要实现完整的应用容灾,还要在包含本地系统的安全机制、远程的数据复制机制上,具有对广域网范围的远程故障切换能力和故障诊断能力。即一旦故障发生,系统要有强大的故障诊断和切换策略制订机制,而广域网范围的高可用能力与本地系统的高可用能力应形成一个整体,实现多级的故障切换和恢复机制,确保系统在各范围的可靠和安全。
参照国际容灾协会DRII(Disaster Recover Institute International)建议的容灾建设流程, 要求用户业务系统容灾备份系统的建设必须以业务为核心,配备相关人员、制定完善的流程、采用成熟的技术,以保证用户容灾备份系统的成功实施。郑州市骨科医院是一所中西医结合骨专科医院,医院对于影像、检验、检查结果要求传输及时,且质量要求高。院内中心机房采用 SAN架构集群模式,采用 6台HPDL380服务器作为集群,两台宏杉存储管理机及磁盘阵列技术,ODSP Scope+界面管理模式,同时在集群上对数据库采用SQL Server AlwaysOn技术。该技术集中了故障转移集群、数据库镜像和日志传送三者间的优点,当一台服务器数据库出现异常时,系统上的业务可以自由地切换到另一台服务器上,从而保证业务正常运转。如图1所示,容灾主要划分为三个部分,即:接入平台、应用平台和存储平台。接入平台负责集群平台与存储之间衔接,均采用万兆光纤接口,提高数据流通速率。接口部分需要做好冗余,以确保当一个接口出现问题时,其他接口仍然能够为业务提供高质量的传输路径;存储平台作为整个系统的基础平台,部署着磁盘阵列、存储管理机、SAN交换机等硬件设备。这些设备承载着医院的病人信息,医疗数据以及院内数据流通,均采用万兆光纤接口;应用平台主要包含系统接口、应用软件与中间件、数据库、操作系统等,主要用于部署医院的HIS,LIS,PACS等业务系统,保持不同系统之间的数据复制和应用切换。
图2所示是在容灾系统模型下建设的一种对称“双活”灾备系统存储架构。存储“双活”是指主生产端数据库和备端数据库同时在线可运行,且处于可读可查询的一种存储状态。该方案采用在线式应用级容灾方式,按照数据库的语法组装成数据库能识别的数据集合,从而使用数据库自身的增量数据保存到在线的备用数据库中,以此来达到备用数据库总是可见、可验证的目的。备用数据库要保证是实时在线的,并且能用来实现查询统计功能,这样就分流了主数据库的计算压力。
图1 容灾系统模型
图2 对称“双活”容灾架构
针对目前医院灾难备份需求,我院按照预设的时间策略,采用同步镜像技术,将生产中心HIS01的LUN中的数据流量经由交换机同步写入HIS02副本LUN中,严格保证两者数据实时一致,这样做可以使得每个IO均要求同步写入生产LUN和副本LUN, 一旦主存储服务器停止服务,可立即使用备用存储服务器接替主生产服务器上的业务系统并使之持续化运行,从而实现在存储上的“双活”。存储上的双活主要是指“数据保护+业务连续性”,是在镜像基础上的增强,支持镜像的两个LUN对前端同时提供业务。当任意一个数据中心发生灾难时,业务将在另一个中心上运行,不需要人工干预。同时对重要系统数据做快照,双重保护数据安全。
我院根据国际容灾标准share 78定义,数据在两个站点之间相互镜像,由远程异步提交来同步,因为关键应用使用了双重在线存储,所以在灾难发生时,仅仅很小部分的数据被丢失,恢复的时间被降低到了分钟级或秒级。核心业务要达到RTO到0.5小时以内,RPO小于1分钟。同时在集群上使用VMware虚拟化平台的硬件加速方案,保障虚拟化平台和数据库平台业务可靠性,通过存储双活平台设备级冗余,整体方案可靠性达到99.9999%。当HIS生产服务器下的主存储出现故障,导致生产系统无法正常提供业务支持时,数据保护器会通过快照将数据写入到备份存储,从而实现双活存储机制与数据恢复机制的零切换。
结合我院目前信息化基础设施建设状况,不断探索适合医院未来发展的数据中心发展模式,双活数据容灾中心建设是其中一项重要课题。如图3所示是参照目前医疗行业等级评审中的要求,在现行的规范和标准下建设方案。在容灾系统上线后,将逐步解决遇到紧急情况下的数据灾难问题。院内采用多重防护措施,在数据库方面使用SQL Server AlwaysOn技术来保证数据库中业务能够自由切换;生产机房和容灾机房采用万兆 FC SAN等措施在物理接口上提升接口流量传输速率;采用快照技术针对小范围服务器宕机等情况进行快速处理,可以回滚0-24小时内任意时间点数据;而对称“双活”存储系统的部署则是针对大范围故障,能采用对集群中的卷进行恢复等功能。
图3 容灾系统拓扑图
医院信息系统具有信息量大、结构复杂、数据在线、可靠性要求高等特点,因此在规划存储方案时,要保证医院信息系统具有连续工作的能力,且系统的可用性应大于99.999%。上文提到的容灾备份方案可以很好改善数据备份中存储不安全,恢复速度慢、容灾能力低等的问题,对医院的数据容灾提供了科学有效的管理办法。今后还会专门针对患者对医疗资源方面的需求不断提高服务器的生产效率,在原有技术的基础上不断更新改善,以达到更快的恢复时间目标和恢复时间点目标。