大中型企业基于存储虚拟化的数据容灾系统建设研究

2016-07-12 09:26:01吕小兵

中国信息化 2016年5期

文｜吕小兵

文｜吕小兵

一、前言

近些年随着大中型企业信息化建设的不断深入，随之而来的是各种业务运作和管理的日渐繁多与复杂，各种应用系统生成的数据呈爆炸式增长。应用系统对业务连续性要求日益严格，各业务部门对信息中心服务质量的期望不断提高。在此背景下，大中型企业普遍加强了数据中心建设，以保障业务快速发展和IT 系统安全高效运营。许多企业目前没有基本的数据容灾部署，所有数据存储及备份设备都集中在数据中心机房内，信息化系统抗拒灾难的能力为零，一旦数据中心机房发生重大或灾难性事故，不但应用系统无法继续运行，而且将丢失所有数据，这样的损失是企业无法承受的。本文就是在这样的背景下对大中型企业数据容灾系统建设的方式方法进行分析和讨论。

二、容灾技术简介

容灾是指在同城或较远的异地，建立两套或多套IT运行系统，各系统之间可以进行健康状态监视和业务切换，当生产系统因严重故障而无法正常工作时，备用系统可以在另一场所接管其业务或恢复其数据。

故障通常可分为系统级、场所级和灾难级三个层次。其中，系统级主要对应主机系统或存储设备的故障；场所级对应电力中断、机房火灾水灾、恐怖袭击等场所故障；灾难级对应地震、战争等地域灾难。

容灾系统可分为数据级容灾和应用级容灾[1]。所谓数据级容灾是指在容灾中心仅部署存储设备和少量数据测试服务器，在生产中心发射严重故障时，容灾中心仅负责恢复生产中心的数据。所谓应用容灾，是在数据容灾的基础上建立一套完整的与生产中心相当的备份应用系统，在生产系统发生重大事故或灾难的情况下，容灾系统可迅速接管生产业务的运行。

（一）容灾关键指标

在灾难恢复方面，目前业界公认最关键的衡量指标有两个：一个是 RTO（恢复时间目标），另一个是 RPO（恢复点目标）。所谓RTO[2]（Recovery Time Objective），是指灾难发生后，从 IT 系统宕机导致业务停顿之时开始，到 IT 系统恢复至可以支持各部门恢复运营之间的时间段称为 RTO。所谓RPO[2] （Recovery Point Objective），是指灾难发生后，容灾系统能把数据恢复到灾难发生前时间点的数据，它是衡量企业在灾难发生后会丢失多少生产数据的指标。

（二）容灾实现方式

目前，容灾系统主要有以下几种技术实现方式：

1. 磁带备份异地保存方式；

2. 基于应用的容灾方式；

3. 基于数据库复制的方式；

4. 基于镜像软件的方式；

5. 基于智能存储的方式；

6. 基于存储虚拟化的方式。

在上面列举的几种常用的容灾技术中，磁带备份方式是最简单，投资最小的方案，但是它在灾难发生后，数据丢失率大，数据恢复时间长，因此，比较适用于业务量较小，投入资金不多，且对业务中断时间要求不高的企业。通过应用软件来实现容灾的方式需要对现有业务系统软件做大量修改，实现起来比较困难，并且对业务系统性能的影响较大。基于数据库的容灾方案实现起来比较容易，但对主机系统的资源消耗比较大，而且只能保护数据库的数据，备份中心的维护也较复杂。基于智能存储系统的容灾方式对应用完全透明，能保证大量数据复制的性能，数据的一致性程度高，设备利用率高，但要求存储设备必须同构。基于虚拟存储的容灾是一种较新的技术，能较好地保证数据的完整性和一致性，但这种方案需要增加专用虚拟化设备，适合规模较大的数据中心。

（三）基于存储虚拟化的容灾技术

存储网络工业协会（SNIA）对存储虚拟化[3]的定义为：“通过对存储(子)系统或存储服务的内部功能进行抽象、隐藏或隔离，使存储或数据的管理与应用、服务器、网络资源的管理分离，从而实现应用和网络的独立管理”。这是一个较宽泛的定义，目前，业内人士普遍认为存储虚拟化是一种可以将多个存储磁盘系统集成，并作为单一实体管理的硬件或软件产品，这种管理通常可以在主机、存储网络、存储设备上实现。例如，它可以将许多SAN磁盘阵列看作一个整体向外分配磁盘而不必考虑磁盘驱动器的物理位置。

存储虚拟化针对存储硬件资源，是对整个IT基础架构进行虚拟化必不可少的一部分。存储虚拟化不但可以实现整合存储资源、屏蔽异构存储环境复杂度、提升存储可靠性和可用性等基本功能，还具有存储分层管理、数据自动迁移、数据透明迁移、快照、同异步数据镜像等高级存储管理功能。

基于专用虚拟化设备实现的存储虚拟化已逐步成为市场主流，IBM、FalconStor、EMC、NetApp等厂商都有较成熟的解决方案。利用专用存储虚拟化设备的同异步数据镜像功能实现数据中心容灾具有以下优势：

1. 构造时不需更换原有的IT基础架构，只需在原本的存储区域网络中加入存储虚拟化设备；

2. 消除了异构存储设备之间的差异，本地端的主机和存储设备可以是任何品牌，灾备端的主机和存储设备也不需和本地端相同，有利于企业实现设备利旧，减少投资；

3. 操作控制在主机与存储之间的虚拟层实现，数据的复制过程不占用主机资源，对主机性能影响十分低；

4. 在虚拟存储上实施多点快照等增值功能，能使得各种数据的人为破坏得到瞬间恢复的能力（防止因为操作员操作失误、黑客入侵、病毒泛滥等逻辑故障造成的数据丢失。

5. 对于异地传输的带宽占用，虚拟化容灾方式具有各类调优方式，使得这种方式能够最大限度适应企业现有的网络环境。

三、容灾系统模型设计

容灾系统建设与企业的业务要求、应用现状密切相关，涉及众多技术和产品以及繁多的供应商，属于建设复杂、风险较高的项目。为降低项目风险，选择有经验的合作伙伴并且有成熟实用的方法论指导对容灾项目建设的成功非常重要。

在考虑建设容灾系统时，需要结合企业实际情况选择合理的技术，首先，要明确容灾系统可能会遇到的故障类型及严重性，明确建设目标，对于不同级别的故障，所采取的保护的方案也不尽相同。其次，要考虑故障发生后正在运行的业务所受的影响程度。最后，要考虑数据保护程度，也就是生产中心和灾备中心之间数据的连续性和一致性，它决定了容灾方案的规模和复杂程度。

（一）设计原则

在选择容灾技术时，应考虑一下基本原则：技术成熟，功能丰富，对现有设备兼容性好，在同行业中有成功案例。无需对应用系统进行改动，风险小，实施周期短。符合企业现实情况，在投资适度的前提下，故障恢复时间及数据损失尽可能小。集中统一管理，降低系统管理复杂度。

（二）容灾系统模型

利用存储虚拟化技术实现容灾可以有多种模型，它们实现的RTO、RPO指标不同，投资也不同，不同企业可以根据自身实际情况进行选择，甚至同一企业也可以根据不同业务系统的不同需求进行差异部署。下面以IBM SAN Volume Controller（SVC）为例列举了几种容灾部署模型并进行简要说明。

1. 本地数据容灾

如图1所示，生产中心与灾备中心在同一园区或城市，由于距离较近，可以直接连通两中心的SAN网络。在灾备中心部署容灾阵列及少量数据测试服务器。利用SVC磁盘image模式，对关键业务数据在生产中心和灾备中心实现同步镜像保存，当生产中心发生阵列故障时，灾备中心的阵列可以迅速接管生产阵列的工作，维持正常的业务运行。当生产中心发生场所级严重故障时，灾备中心的镜像数据也可用于将来的数据恢复。此外，还可以利用多点快照功能对业务持续性保护，尽可能减少由于逻辑错误造成的数据丢失。在容灾中心还可以部署备份系统，用于历史数据的长期保存及恢复。

这种容灾模型的特点是投资较小、自动化程度较高、RPO小、实施难度较低，缺点是在场所级故障时RTO长，也无法应对灾难级故障，无法实现应用级容灾。适合容灾投资较小及业务持续性要求较低的企业。实施成功的关键是两机房间的链路带宽及可靠性要有保障，容灾阵列的性能要与生产阵列相当。

图1 本地数据容灾部署示意图

图2 异地数据容灾部署示意图

如图2所示，生产中心与灾备中心在距离较远的不同城市，由于距离较远，可以采用FCIP协议转换设备通过IP网络来连接两中心的SAN。在灾备中心部署虚拟化设备、容灾阵列及少量数据测试服务器。与本地数据容灾不同的是，生产阵列与容灾阵列之间的数据复制是通过SVC的Global Mirror异步复制功能实现，因此，必须在容灾中心安装虚拟化设备。当生产中心发生场所级或灾难级严重故障时，灾备中心的镜像数据可用于将来的数据恢复。

这种容灾模型实施的关键条件是两机房间的链路带宽及可靠性要有保障，实施的关键技术是数据远距离异步复制以及数据的一致性保障。这种容灾模型下，容灾阵列的品牌、型号可以不同与生产阵列，性能可以低于生产阵列，投资主要集中在通信线路及设备、虚拟化设备，可以应对灾难级故障，RPO取决于两中心之间的线路带宽，实施难度适中，RTO长，无法实现应用级容灾。适合数据容灾要求高及业务持续性要求较低的企业。

2. 两地三中心容灾

两地三中心即“生产中心+同城灾备中心+异地灾备中心”的整体应用级容灾解决方案，可以满足不同故障情况下的业务连续性要求。同城灾备中心主要是用于防范系统级、场所级的故障，异地灾备中心用于防范大规模灾难级故障。与同城及异地数据容灾相比，应用级的“两地三中心”可实现生产与灾备中心之间应用的切换。同城中心可实现数据的同步复制及应用的快速切换，异地灾备中心由于与生产中心距离较远，相互连接的网络线路带宽和质量存在一定的限制，适合于数据的异步复制，应用的切换也需要相对较长的时间，因此异地灾备中心可以实现一定时间范围内的应用切换和可容忍丢失范围内的数据恢复。

在容灾领域，“两地三中心”的建设模式已被市场认可，并在金融、证券等业务系统在地理上分布广泛的行业中逐渐普及，目前，在实现应用级容灾的基础上，“两地三中心”模式正在从技术上向“分布式多活”发展。图3是以IBM SVC虚拟化技术为基础的一个“两地三中心”容灾部署示意图：

图3 两地三中心容灾部署示意图

生产中心与同城灾备中心之间的数据复制通过IBM Metro Mirror同步复制技术实现，同城灾备中心到异地灾备中心的数据复制通过Global Mirror异步复制技术实现，当同城灾备中心发生故障时，生产中心将通过Global Mirror向异地灾备中心复制数据。三个中心间的应用系统切换通过IBM PowerHA/XD集群软件实现。

实施过程中除了要保证数据复制的可靠性，还要解决多种系统平台上应用切换的问题，属于投资巨大、技术复杂、实施难度大的项目，此外，后期的运维管理也是长期艰巨的任务。因此，“两地三中心”的容灾模型建设仅适合那些资金充裕、业务部门在地理上分布广泛、容灾RTO要求高的企业。

四、结语

灾难的发生是“小概率、高风险”事件，随着

企业信息化水平的不断提高，为规避风险，容灾系统对于核心业务已成为必不可少的信息安全基础设施。容灾系统的建设是一个体系化过程，只有科学合理地进行规划、设计、部署，才能对企业信息系统的运行起到根本性的安全与保障作用。因此，在容灾系统的建设过程中，必须充分考虑核心业务系统的抗毁性与灾难恢复能力，合理选择容灾技术，制定和不断完善信息安全应急处置预案，提高应急处置和灾难恢复能力，才能保证在遭遇重大灾难和重大事故时发挥有效的容灾功能，真正构建企业信息系统的避风港。

作者单位：中航飞机西安飞机分公司。