郑捷
中国烟草总公司信息系统上海容灾中心,技术科,上海市浦东新区庭安路428号 200137
随着行业发展和两化融合深入,信息化已覆盖行业生产经营管理各个领域,行业对信息系统的依赖与日俱增。国家局烟草专卖局高度重视行业信息系统的灾难备份与恢复工作,通过建设中国烟草总公司信息系统上海容灾中心为国家局重要信息系统提供了应对灾难的运行环境,通过组织行业容灾演练全面验证了容灾系统功能。要确保灾难场景下信息系统的容灾效果,就必须做到容灾应用数据少丢失、应用可持续。选择合理容灾数据复制产品是确保数据丢失量符合设计要求的关键所在,也是确保应用连续性的前提条件。然而由于业界缺乏相关模型可供参考,因此要在众多的容灾技术和产品中进行最优选择并非易事。
为此,上海容灾中心在综合产品机制分析、容灾需求理解、系统现状调研的基础上,设计了适合行业特点的容灾产品评估模型,并对国内主流容灾产品进行了全面的测试、分析和评估,最终确立了合理的容灾数据复制产品。
容灾通常可分为数据容灾和应用容灾。数据级容灾用于保护数据安全,通过数据复制工具在异地建立一个本地数据的可用副本,该副本可以是本地源数据的实时副本(同步数据复制),也可以为相对滞后的副本(异步数据复制)。当本地生产系统出现不可恢复的故障时,容灾系统提供可用的数据,恢复后数据丢失量取决于数据复制工具及链路带宽。灾难发生后可通过事先备份的应用程序包及基础软件安装介质进行应用恢复,恢复耗时较长。应用级灾备不但需要一份可用的数据,还需要相应的应用程序以及与原应用系统相类似的硬件资源,以及各个资源间的良好协调,当本地生产系统发生灾难时,系统进行业务切换,由容灾系统对外提供服务。应用级容灾建立在数据级容灾的基础上,选择健壮的数据复制产品对于两种容灾模式都具有至关重要的意义。
容灾中心可分为同城容灾中心和异地容灾中心。同城容灾中心与生产中心一般处于同一城市的不同风险区域内,能够抵御机房灾难与系统故障等小范围风险。异地容灾中心与生产中心处于不同城市,与生产中心距离较远,能够对自然灾难、机房灾难、系统故障三类风险提供全面防护,也因此无法做到数据零丢失。选择适用的异步数据复制产品对于异地容灾中心就显得尤为重要。
依据风险防范场景及于生产中心的距离,上海容灾中心属于典型的异地应用级容灾。其核心系统的数据丢失量目标(Recovery Point Object,RPO)须达到10分钟,系统恢复时间点目标(Recovery Time Object,RTO)须达到4小时。为此需要首先选择数据复制候选产品,为进一步的评测和最终选择提供基础。
当前实现数据容灾的解决方案,主要分为数据备份(Banckup)、数据复制(Replication)和持续数据保护(Continuious Data Pretection,CDP)三类。依据数据复制产品的3R能力,即数据的冗余(Redundance)、可恢复(Recovery)和远程性(Remoteness),对主流数据容灾方案做简要分析如下表所示。
表1 主流数据容灾方案分析Tab.1 Analysis of primary disaster tolerance data schemes.
综上分析,基于数据备份技术方案的数据丢失量和数据恢复时间通常以天为单位,无法满足中国烟草总公司的容灾能力目标要求。因此数据复制产品将在数据复制和持续数据保护两类中进行选择。
数据复制和持续数据保护产品众多,对所有主流产品进行全面测试显然不现实。为了确保待测产品的完整性和典型性,首先需要对相关产品进行系统分类。
从技术实现角度看,数据复制与持续数据保护技术都需要首先实现生产数据变化量的持续捕获。不同的是,数据复制直接将数据变化量进行保存,以确保生产数据与容灾数据的尽可能一致;而持续数据保护技术会将数据变化行为进行描述并标注发生的时间再保存,从而为未来获得任意时间点的数据提供基础。因此可以从数据变化量的捕获模式对两类产品进行统一分类。
生产数据的捕获发生在数据从产生到存储的传输途径中。目前中国烟草总公司绝大部分系统已经实现了基于SAN的存储架构,因此在参照SNIA共享存储模型的基础上,基于SAN架构进行了模型细化,并最终实现了抽象模型到物理模型的对照,如图1所示。
依据以上分析,在图1.c)中标出的数据读写关键位置,均可以实现数据的捕获。因此,按照数据捕获位置的不同,可以将目前的数据复制产品划分为如表2所列的几种主要类型。
其中,基于应用系统的数据捕获类产品通常只能对应用系统本身产生和管理的数据进行捕获。考虑到中国烟草总公司核心应用众多,为各系统单独实现数据容灾不具备可操作性。因此,后续测评时对该类产品不予考虑。
图1 SAN架构存储模型对照Fig.Comparison of SAN storage model
表2 不同数据捕获技术分析Tab.2 Analysis of different data capture techniques
以上述分析为依据,为了全面评估各类数据复制产品的适用性,上海容灾中心为不同类别分别选择了1-2项业界典型产品,如表3所示。其中考虑到中国烟草总公司的存储子系统和数据库管理系统主要为IBM系列产品,从兼容性考虑,优先考虑了IBM的相关产品。
表3 备选数据复制产品列表Tab.3 List of alternative data replication products
为完整评估以上备选产品,设计了由指标项、指标评估得分和指标权重组成的评估模型。数据复制产品使用场景主要可分为正常状态和灾难状态。
对于正常状态,数据流向为生产中心捕获数据并复制到远端,此时数据丢失量和生产系统性能影响度为关键指标,该两项指标都可通过实际测试获得量化结果,得分计算按特定区间内反向比例确定。
对于灾难状态,数据流向为容灾中心首先启用灾备数据并择机反向复制回生产中心,此时数据可恢复能力(现有数据必须可用)、数据反向恢复能力(数据能否回传生产中心)、系统恢复支撑能力(启用现有数据的耗时)、任意时间点恢复能力(容灾数据能可恢复到过去任意时间点以应对生产中心数据误删除)为关键指标。该四项指标可通过测试得出定性结论,即功能上是否具备或能否达到特定要求,如满足则得该指标项下的满分,如不满足则不得分。
六项指标权重分别为20、10、5、20、20和10,用于衡量不同指标项的重要程度。
权重及数据丢失量10分钟、性能影响20%、备份数据就绪耗时3小时等数值设定来源于项目需求设计,在模型推广应用中可根据实际场景进行微调。
六项指标项评估得分乘以该指标权重并求和即为该产品的最终得分,即数据容灾综合能力得分=
上海容灾中心搭建了专业的测试环境,尽可能从系统架构、链路距离、数据容量等方面模拟真实的业务环境和容灾环境。各厂商也专门针对测试环境进行了产品的优化部署和策略的优化配置,以尽可能充分展现产品的功能和性能。
2.2.1 数据丢失量测试结果
灾难发生时总会有部分生产数据未来得及传输到容灾中心,从而造成数据丢失。数据丢失量一般以时间作为度量单位,通过在某一时刻人为造成灾难,查看容灾系统所能获的最新数据的时间点,可以测出该产品的数据丢失量。本次测试的6项产品数据丢失量测试结果如下表所示。
表4 数据复制产品备选模型Tab.4 alternative model of disaster tolerance data replication products
表5 数据复制产品RPO能力测试结果Tab.5 RPO test results
2.2.2 生成系统性能影响度测试结果
数据复制产品要完成生产数据的捕获、处理和传输等操作,因此会在一定程度上增加现有生产系统的工作负载,降低生产系统的性能。由于实现机理不同,不同类别的产品对生产系统性能的影响程度也不同。本次测试的6项产品对生产系统性能的影响如下表6所示。表中测试数据为生产系统性能下降比例。
2.2.3 数据可恢复能力测试结果
对生成的冗余后备数据,分别在相应产品的管理和操作下,生成可用的数据映像并考察:1)数据对后备应用系统是否可用;2)数据对第三方系统是否可读。其中,数据的第三方可读性要求,主要是为了满足特殊场景下数据的可用性,例如应急第三方查询或满足法规遵从性。经过测试,各项产品生成容灾数据的可恢复性测试结果如下表7所示。
表6 数据复制产品对生产系统性能映像测试结果Tab.6 Effect of data replication products on production system performance
表7 容灾数据可恢复性测试结果Tab.7 disaster tolerance data recovery test results
从测试结果来看,所有产品基本都满足容灾数据可恢复性这一基本要求。
2.2.4 数据反向恢复能力测试结果
容灾数据回切是灾难恢复的最后步骤。容灾数据的反向恢复,通常会安排在灾难影响完全消除之后,因此反向恢复过程主要关注是否影响当前业务的持续运行,对反向恢复的时间不太敏感。经过测试,各产品容灾数据的反向恢复能力测试结果如表8所示。
表8 各产品容灾数据反向恢复能力测试结果Tab.8 Test results of reverse data recovery performance
2.2.5 系统恢复支撑能力测试结果
对容灾数据,通常无法直接加载使用,需要在此之前进行一系列的恢复操作。由于数据捕获机制、异地存储机制的不同,所需的操作方法、恢复过程、恢复时间也各不相同。数据恢复到可用状态是应用恢复的基础,恢复时间过长,必然导致系统恢复时间目标(RTO)无法实现。
通常恢复时间与容灾数据的数据量大小成正比,但在相同容灾数据量的情况下,仍旧可以比较出不同产品容灾数据恢复快慢的能力。经过测试,各项产品生成的容灾数据恢复时间测试结果如表9所示。表中测试数据为容灾数据在灾备中心恢复所需时间。
2.2.6 任意时间点数据恢复能力测试结果
利用容灾数据任意时间点恢复功能,可以从容灾数据获得灾难发生前任意时间点的数据状态,而不仅仅是灾难发生时数据的最新状态。这对抵御生产数据的逻辑错误具有重要价值。实际上,任意时间点恢复能力由产品的功能定位和数据变化量的保存机制确定,本测试主要是验证产品的任意时间点功能在容灾系统环境下的实际可用性。经过测试,各产品生成的容灾数据的恢复任意时间点恢复能力测试结果如表10所示。测试结果基本与产品的功能定位一致。
表9 各产品容灾数据恢复速度测试结果Tab.9 Test results of data recovery rate
表10 各产品容灾数据反向恢复能力测试结果Tab.10 Test results of reverse data recovery rate
基于产品凭据模型和各项产品的测试分值,各产品的综合得分和评估排名如下表所示。其中,测试中有不予考虑项的产品,不参加综合评分和排名。
从测试结果来看,EMC的Recovery Point的综合评估得分最高,是行业容灾系统的容灾核心产品的最优选择。实际上,上海容灾中心最终选择了该产品,并在数据容灾的基础上建立了复杂的应用容灾体系。
对于测试结果存在两点意外。一是基于IBM PPRC技术的数据复制解决方案对生产系统的影响高达44%。从原理上讲,基于存储子系统的数据复制,应该主要消耗磁盘阵列的处理资源,不应当对生产系统的性能造成如此高的影响;二是IBM Q复制会造成54分钟的数据丢失量,从应用角度无法接受。对以上现象的分析超出了本文的范围。无论如何以上产品在实际环境下的表现与预计大为不符,这也说明了在现实环境中进行产品测试的必要性。
表11 各产品综合得分和评估排名Tab.11 Comprehensive score and evaluation ranking
基于评估模型所选择产品构建的中国烟草总公司容灾系统,上线以来功能满足要求,系统运行稳定。2012年至今共完成11次容灾演练,实现35套灾备系统和68家行业单位容灾演练全覆盖。其中4次为双向演练, 两烟交易等11套信息系统切换至上海运行后回切北京,容灾环境功能和性能经受了真实应用负荷的检验。在2016年起开展的省级单位容灾试点中,评估模型也在方案设计和产品选型阶段推广落地,加速了海南省局、中烟机技术中心项目建设进程。