马存宁 袁雪 刘玉泉 王泽川 胡欣 王杰 王至诚 曹新志
(江苏省中西医结合医院 信息中心 江苏 南京 210028)
CDP(continuous data protection)是一种在不影响主要数据运行的情况下,可以实现捕捉或跟踪目标数据所发生的任何变化,并且能够恢复到此前任意时间点的技术方法。CDP在医院主要应用于对医疗信息系统的数据持续保护[1]。CDP因可实现数据备份、系统恢复、灾难恢复和异地灾备等多项功能,故能完整保护医院的信息系统,它可提供一个业务生产系统数据的实时连续复制,而且提供了颗粒度无限的恢复点,可存取任何时间点上数据,还可将本地数据保护扩展到异地,实现远程容灾,各类故障情况下,均能在几分钟内恢复业务重新上线运行,从文件丢失到磁盘损坏到全站点损坏,均可利用CDP的快速恢复功能在几分钟内恢复业务上线运行,充分保证医院的业务连续性[2,3]。
CDP解决方案相比常规局部防御体系灾备技术,具备灾难防范的全面性,不会出现无法恢复数据的局面。CDP解决方案可以实现本地恢复和异地恢复的分层恢复体系,而大部分灾难在本地即刻恢复(如数据丢失或磁盘阵列损坏等),不需采用异地灾备系统,这种体系的恢复效率和减少灾难造成影响的能力获得其在医院中的普遍应用[4]。CDP这种分层次恢复的能力可以准确定位应对灾难的解决方案,做到快速有效的恢复。其精简复制功能带有独特的带宽优化技术,是存储设备级灾备技术占用带宽的1/50,是常规灾备技术占用带宽的1/6,在窄带环境下轻松实现异地灾备,可为医院节约大量带宽方面的投资。
然而在CDP实施过程中存在潜在风险,安装CDP过程中,需要系统重启,可能将导致系统不可用和业务数据丢失,提前备份好数据并规划预留停机时间,做好计划,测算好业务的流量并选择合适的时机都很重要。另外,在实施过程中,还可能会出现数据同步引起的主机运行异常,同步速度的限制,和其他因实施过程而导致的主机严重错误等问题。为此,我们引入PDCA管理方法,PDCA循环又称“戴明循环”,由美国的质量管理专家休哈特博士提出的,后由戴明采纳普及。PDCA循环由英文字母Plan(计划)、Do(实施)、Check(检查)、Action(处理)首字母组成,对于每件事情,通常我们会先做计划(P),计划完了以后去实施(D),实施的过程中进行检查(C),检查执行结果是否达到了预期,分析影响的因素、出现问题的原因,并提出解决的措施,对于没有解决的问题,应提交给下一个PDCA循环中去解决,PDCA循环不是停留在一个水平上的循环,不断解决问题的过程就是水平逐步上升的过程。PDCA循环可以使我们的思路和工作步骤更加条理化、系统化、科学化。其应用非常广泛,它可以运用于自己所做的每件事情中。在医疗行业里,PDCA循环可以发现和改善各种管理问题,如数据安全管理、绩效考核管理、医疗器械管理、设备安全管理以及其他医疗废物管理等,在处理和解决问题的过程中,对于成功的经验应该给予肯定,并进行标准化,不断提高该领域的水平。
针对医疗数据安全管理问题,本文探讨了如何利用PDCA循环来实现CDP在实施过程中的风险防控。
项目实施前,先制定计划,包括实施计划步骤、确定项目实施人员和制定风险故障应对方案等。
(1)实施计划步骤(2)确定项目实施人员(3)风险故障应对方案
CDP系统搭建时,新增CDP主机与目标服务器间的备份专用网络,使备份数据流量通过备份专用网络通信传输,不通过业务网络传输,可不占用业务带宽资源,使得备份任务执行期间不影响业务数据的交互[12]。但是在搭建这种架构的时候,需要充分考虑到集群服务器的特殊性,搭建局域网时,集群网络需单独设置,在故障转移群集管理器(WSFC)-网络中,选择新增的局域网,选择不允许在此网络上进行群集网络通信,此设置是为了不让新建备份专用网络干扰群集心跳网络的正常运行,因为实际操作过程中可能会出现备份而导致的心跳网络报错和群集强制切换报错等。
此外,在搭建CDP虚拟机的过程中,即使虚拟机的业务网络正常运行,也可能会存在组建局域网过程中无法与服务器私网地址(不同网段)通信,在VMware vSphere Client中需要添加标准交换机vSwitch,创建新的虚拟机端口组并设置网络标签,将新的网卡划分到新的标准交换机vSwitch上。
执行备份计划任务,检查备份是否成功,检查过程中出现因备份导致服务器卡死,首先考虑是I/O资源占用率太高,其次观察系统资源性能监视器,发现并不是I/O占用的问题,继续排查CDP软件的问题,保持配置步骤在另生产故障转移群集环境中测试并获得成功,但是Windows Server 2003 R2 群集,因系统环境不通无法进行对比并定位问题所在,进一步怀疑是操作系统的问题,预搭建Windows Server2008R2集群再次测试。
采用了2台Windows Server 2008 R2服务器做集群,采用相同系统环境并安装CDP Agent软件,测试通过,备份任务成功执行。查看日志进一步分析,备份执行到调用本地卷影复制服务(VSS)时发生卡死。继对比补丁安装情况,发现新建群集服务器并未安装补丁,问题目标服务器安装200余个补丁,怀疑为补丁导致服务调度异常,后逐个安装补丁发现安全更新程序 (KB3033929)安装后,执行时本地卷影复制服务挂起并触发系统宕机,导致问题目标服务器宕机,卸载相应补丁后测试通过,同步任务正常执行。
通过PDCA整个流程的运行,项目实施中解决了服务器卡死的情况,系统运行同步数据顺利,实现了持续数据保护的功能,数据可以在秒级和I/O级时瞬间恢复到任意历史轨迹,并且恢复的过程可迅速完成。此方法完全不同于传统体系的回存恢复机制,在恢复的速度上以及恢复到任何时间点的能力上均产生了不可比拟的飞跃。利用PDCA方法进行CDP的实施,使得备份的数据立即可用,无需各类备份技术冗长的数据回滚过程。通过此次实践结果看出,CDP可以在磁盘故障时无需停机,当生产数据发生严重故障不能生产时,CDP可以快速接管业务,无需等待故障修复,也无需事先部署备用系统,原数据库和应用在原服务器上照常提供服务。这个功能可以充分保证业务连续性,实现存储层面的冗余,大幅提高系统可靠性,同时也大大降低部署成本。
随着大数据和互联网技术的日益发展,医疗信息时刻面临着数据丢失、数据泄露、人为误删除、恶意篡改、黑客攻击、病毒等种种威胁。这些潜在的数据安全问题对信息保护、容灾备份等措施提出了有效性的挑战。在技术方面,定时备份已经不能满足市场需求,实时备份、镜像复制技术也呈现出一定的缺陷,CDP数据保护技术获得越来越多专业人士的认可。除了数据安全外,CDP容灾备份还可保障业务的持续性,对要求极高的医疗、教育、金融等行业采用CDP容灾备份方案,切实保障了业务的连续性和安全稳定性。在项目实施过程中,每一件事情先做计划,计划完了以后去实施,实施的过程中进行检查,检查结果以后进行处理总结,再把处理的结果进行改进,进行实施,进行改善,这样把没有改善的问题又放到下一个循环里面去,就形成一个一个的PDCA循环。PDCA循环应用了科学的统计观念和处理方法,作为推动工作、发现问题和解决问题的有效工具。本文以CDP项目实施为例,结合PDCA循环管理理念进行医院业务数据的持续性保护,不仅顺利解决了实施过程中服务器卡死等问题,还做到了快速响应和数据节点的瞬间恢复,保障了医院业务系统的正常运行。