持续数据保护技术在企业级业务系统中的应用

2019-07-23 01:46科,
关键词:快照存储设备数据保护

赵 科, 郭 磊

(中远海运科技股份有限公司 云数据中心, 上海 200135)

0 引 言

随着全球信息系统的飞速发展,信息化建设成为企业发展的重要组成部分,应用系统的数据安全和数据保护越来越受关注。因此,构建一套满足企业自身发展需求的数据保护方案,保证业务系统的连续性,使系统在遇到突发状况时依然能平稳正常运行,既是当前必须完成的一项重要任务,也是提高企业能效和竞争力的有效手段。

1 数据保护技术现状

当前企业的业务系统大多采用备份和快照等传统方式进行数据备份和数据保护,存在诸多局限性[1],主要体现在以下几方面:

1) 灾害影响时间长。当遇到灾害时,若采用传统方式进行数据恢复,恢复时间通常会持续数小时乃至数十小时,且恢复时间点为备份预设时间点,恢复之后要进行数据比对和数据丢失量分析等后续处理工作,整个过程会耗费大量的时间成本和人力成本。

2) 灾害影响面大。企业内部的业务系统经常出现多套应用系统共用1套数据库的情况,当数据库发生故障时,往往会影响多个应用系统的正常运行。

3) 安全级别较低。企业部分应用系统的数据存储仍沿用早期的直连存储架构,存储的安全性依赖于服务器磁盘阵列(Redundant Arrays of Independent Disks,RAID)和简单的数据备份,系统的安全水平局限于数据级安全,难以达到应用企业级安全。

4) 管理水平不高。备份工作通常是围绕各应用系统独立展开的,管理分散,独立性强,缺乏整体安全管理措施。

5) 备份资源消耗大。日常的备份工作通常采用传统的数据拷贝、生成快照和数据库备份等方式进行,备份过程会消耗大量的软件、硬件和网络资源,增加业务系统自身的负载,加剧业务系统资源的竞争,影响业务运行的流畅度。

对于很多关键应用系统来说,任何时间点的数据都是有价值的,这些明显的弱点不能保证数据得到持续性保护,每次发生故障导致的数据丢失都会给企业带来重大损失。显然,传统的备份技术已越来越难以满足企业级业务系统的要求。持续数据保护(Continuous Data Protection, CDP)技术的出现解决了存储及数据库对数据保护连续性的迫切需求问题,可实时自动记录数据库和存储端应用数据的变化量,当出现数据丢失、数据损坏或人为误操作导致数据异常等问题时,可将数据恢复至最新时刻或指定时间点的数据状态,极大地提高数据的安全性和可靠性。

2 CDP技术概要

2.1 CDP的概念

根据全球网络存储工业协会CDP技术小组[2]的定义,CDP就是在保证主要数据正常运行的情况下,实现对数据变化量的跟踪,并可将其独立存放在其他介质上,同时能在需要时将其恢复到此前任意时间点的方法。

2.2 CDP技术在数据保护技术中应用的优势

与传统的数据复制[3]、快照技术和有备份窗口的计划备份等技术相比,CDP技术具有以下优势:

1) 能持续捕捉数据的变化量,从某种意义上消除备份窗口的限制,解决采用传统备份技术时常见的数据差异和备份任务繁多导致的系统业务性能问题;

2) 能不断地监测关键数据的变化,真正实现“任意时刻”的数据访问和保护,相比定时备份和快照技术,能大大提高系统RPO(Recovery Point Object)和RTO(Recovery Time Object)的响应效率(见图1);

3) 能大大缩短数据恢复时间,精准定位到崩溃前的最近一个可用副本点,使整个恢复过程控制在几分钟(甚至几秒)以内,有效避免传统数据恢复方式中恢复时间随着数据量的不断增长而越来越长和恢复难度随着数据量的不断增长而越来越大的问题;

4) 在技术上更具竞争力,其所具有的成本低、架构简单、可防止逻辑错误或病毒攻击造成数据丢失或数据不可用等特点使其成为当前企业级业务系统进行数据保护和恢复的最佳选择。

a) 传统技术数据恢复

b) CDP技术数据恢复

3 CDP技术应用

3.1 总体架构设计

大型企业的业务系统通常具有规模大、复杂性高、用户多、涉及业务范围广、数据中心基础设施种类多和架构繁杂等特点,经过多次试验、测试和效果对比,设计并构建一套符合企业自身业务特点、满足企业自身业务需求的“本地+异地持续数据保护”解决方案(见图2)。该架构集备份、快照、磁盘镜像、数据持续保护和远程灾备技术于一体,对于生产环境中的VMware ESXi Server上的虚拟机(Virtual Machine, VM)系统的数据,通过存储虚拟化和CDP技术实现企业级数据保护[4]。

图2 数据保护总体架构设计

在该架构中,先将生产中心的3台存储设备全部映射给CDP设备,并将其中2台配置为镜像模式,随后将其映射给ESXi Server集群使用,此时生产数据会写入2台存储设备中;同时,开启CDP和快照保护功能,并将受保护的生产数据备份至第3台存储设备中,以使任何一台存储设备发生故障都不会影响生产系统的正常运行。若发生逻辑故障,可通过本地的CDP和快照进行快速恢复,最大限度地保证RPO=0和RTO最短。此外,利用窄带传输技术将生产中心的数据完全复制到异地灾备中心,实现对数据的异地灾备。当网络带宽不足或质量较差时,会从连续性复制自动转化为间断性传输,以保证复制数据过程的连续性; 待网络状况恢复之后,即可恢复为连续性复制。

对于该解决方案的实现,可保持企业生产数据中心现有的架构和SAN环境物理布线不变,仅需要较短的停机时间,通过旁路的形式接入存储虚拟化网关设备即可完成。即首先将原先通过SAN网络直接分配给VMware ESXi 主机的存储设备分配给存储虚拟化网关设备,随后通过SAN网络将存储网关分配给VMware ESXi主机上的虚拟机系统。通过该方式可将后端连接的不同品牌的存储设备通过虚拟化的方式整合成统一的虚拟存储空间分配给前端虚拟机环境,实现异构的主机和存储在整个网络环境内的全虚拟化[5]。

同时,根据企业级业务系统数据保护安全级别和系统等保要求,按照255(快照)/1 000(生产卷)的比例配置快照模块,实现多历史点在灾备中心的保护。

3.2 基于CDP技术的应急处理流程方法设计

据国际数据公司统计的数据,站点级灾害在整个灾害事件中的占比只有3%,而97%的灾害事件是故障导致的,因此第一时间消除故障是提高系统可用性的核心关注点,建立一套符合自身业务特点且行之有效的数据保护架构和应急响应恢复流程是关键[6]。下面通过对几种最常见的企业级业务系统故障情况进行阐述,为某企业级业务系统设计一套行之有效的应急处理流程及方法。

3.2.1 VMware中单个VM故障

当VMware中发生单个VM故障时,在生产环境的虚拟化存储设备Storage B上提取该VM发生故障前的一个快照并将其分配给VMware ESXi Server(见图3),此时该ESXi Server上就会出现一个新的存储LUN卷,打开该LUN卷,将发生故障的VM的文件夹复制到ESXi Server中的原存放位置,即可实现对该VM的恢复。此外,可先直接在该Storage上运行该VM,再用VM本身的迁移功能回迁至生产存储设备中。

3.2.2 整个ESXi Server磁盘卷瘫痪

在某些情况下,ESXi Server磁盘可能会发生整体故障,这时虚拟化存储设备Storage中的镜像数据处于相同的状态。因此,使用虚拟化存储设备中存放的快照和录像副本即可进行恢复:利用存储虚拟化端本地的snapshot“快照”,在几分钟内寻找到未瘫痪的磁盘,验证完成之后执行rollback回滚操作,即可完成对整块磁盘的再建。此外,可利用存储虚拟化端提供的journal“录像”数据,通过时间窗口设定到磁盘故障发生前的最后时间点,在几分钟内完成提取验证并执行rollback 回滚操作,即可实现VMware磁盘指定时间点的重建。

图3 VMware中单个VM故障

3.2.3 物理机/VM数据库数据丢失

由于误操作等原因,数据库会出现记录丢失或损坏等情况。面对这种情况,可利用验证主机上挂载存储虚拟化端提供的历史快照或历史轨迹提供的I/O时间点快照(该快照包含完整的记录条目),使用数据库命令将丢失或损坏的记录导入到生产数据库中,整个过程在几分钟之内即可完成。在业务十分重要、情况十分紧急的情况下,由于存储虚拟化端的快照是可读、可写的,因此可直接由挂载存储虚拟化端的快照磁盘接管业务,从而使业务快速恢复运行。

3.2.4 生产磁盘故障

对于业务等级要求和业务中断时间要求较为苛刻的系统,可通过配置虚拟化存储端的镜像功能来保护其业务系统的数据。将数据传输到虚拟化存储设备后端的镜像磁盘内,当VMware生产存储发生物理故障时,镜像架构关系中的镜像磁盘会自动接替生产磁盘运行,业务层面的VMware系统感应不到底层存储故障,能实现RPO=0和RTO=0的最佳情况。

对于上述几种情况,在采用基于CDP技术的应急处理方法之前,通常采用恢复至最近备份点的方式恢复发生故障的数据或丢失的数据。采用这种方式不仅恢复时间长、操作步骤多,而且有效数据的损失量级是采用CDP技术实施数据保护的几倍,甚至几十倍。此外,在采用CDP技术之后发生故障时,业务中断和恢复的时间能从之前的数小时缩短至数分钟。

3.3 企业级CDP技术实践案例

某集团的某业务系统有近500家下属公司在使用,活跃用户达1.5万余人,每月的数据增长量在15 GB以上,任何故障的发生都有可能导致系统大规模停用,对集团业务的正常开展造成巨大影响。对此,引入CDP技术迫在眉睫。

为进一步证明该架构具有良好的CDP能力,设计多组模拟测试场景验证架构的可靠性,包括对系统的物理故障、逻辑故障、站点灾害恢复、读/写性能和压力等进行测试。

3.3.1 测试场景1:生产存储故障测试

1) 测试目的:测试通过CDP技术的镜像功能,能否在有生产存储故障的情况下保证业务的连续性。

2) 测试过程描述:通过CDP技术的镜像功能,对数据库所在的磁盘做一份镜像,使数据库有一份冗余的镜像存储在另一台存储设备中,在主存储设备有故障的情况下数据库仍能正常运行。

3) 操作步骤:

(1) 通过CDP技术的镜像复制功能将数据库所在的磁盘镜像至另一个存储设备的LUN中;

(2) 在数据库中批量插入数据;

(3) 取消生产存储至原设备的映射,模拟生产存储故障导致存储设备离线;

(4) 观察数据库的状态,会话没有中断,数据库没有报错;

(5) 数据库IO恢复正常,镜像存储接管工作,接管时间在13 s左右。

4) 测试结果说明:使用CDP技术的镜像功能之后,某个存储设备发生故障不会影响数据库的正常运行。

3.3.2 测试场景2:生产存储恢复测试

1) 测试目的:测试生产存储恢复之后,重新加入系统能否使系统和应用不受影响,加入系统之后数据同步是否为增量同步。

2) 测试过程描述:数据库批量插入数据模拟正常业务,在宏衫存储上将LUN重新分配给原主机,模拟存储恢复。此时原主机重新扫描存储设备,对镜像进行增量同步。

3) 操作步骤:

(1) 数据库执行批量插入数据脚本;

(2) 存储设备恢复LUN对原主机环境的映射;

(3) 原主机环境扫描存储设备,再次识别存储LUN;

(4) 镜像自动增量同步完成,主机数据库没有中断(见图4)。

图4 存储LUN与设备映射

4) 测试结果说明: 存储恢复之后重新上线对主机和数据库没有影响; 镜像可增量同步,不必全量同步。

3.3.3 测试场景3:OA和邮件系统逻辑故障测试

1) 测试目的:测试CDP技术对OA和邮件系统准生产环境逻辑灾害的保护能力。

2) 测试过程描述:对运行有OA和邮件系统的VMware的Datastor进行timemark的保护,分别在OA和邮件系统上进行删除、修改和新建等操作,通过timeview功能对不同时间内的操作进行恢复验证。

3) 操作步骤:

(1) 选择OA和邮件系统所在的LUN,开启timemark功能进行保护;

(2) 针对不同测试内容,生成手动标签的测试timemark(见图5);

图5 带有标签的timemark列表

(3) 将OA或邮件系统关闭,防止恢复测试时发生IP等冲突;

(4) 提取不同测试场景下的timeview验证数据是否可用,业务系统是否可启动,是否可恢复至删除前的状态,包括整体系统文件都执行rm-rf的操作后的恢复能力(见图6);

图6 OA和邮件系统可恢复的存储LUN

(5) 经过反复对不同时间点timeview进行提取,对VMware下的业务系统进行启动和数据验证,证明OA和邮件系统在遇到删除、误修改等情况时都可利用CDP技术进行业务系统的恢复。

4) 测试结果说明: 可进行多历史点的细颗粒度恢复; 恢复过程快速、准确; 对上层业务系统具有完全恢复的能力。

3.4 企业级CDP技术实践结论

通过对多组模拟测试场景进行验证测试,同时充分考虑到某系统在整个集团信息化系统中的重要地位和关键作用,结合其业务特点和等保要求,对2个系统采取“配置8 h数据CDP,每小时生成一份快照,快照保留2 d”的策略,能充分预防系统灾害性宕机,并实现RPO和RTO在时间上的飞跃(见表1),可较好地应对设备硬件故障、误操作或系统逻辑错误导致的数据异常和恢复工作,对系统可能出现的灾害和风险做好充分的应对准备。

表1 应用CDP技术前后RPO和RTO对比

4 结 语

本文利用CDP技术实现对业务系统数据的保护,解决了传统备份方式存在的备份窗口长和按天备份的问题,且备份数据独立存放,数据恢复之后能立即使用,大大缩短了系统故障导致业务中断的时间;其灵活的集中管理功能有助于迅速发现故障并作出快速响应;同时,其灵活易扩展、硬件兼容性强的特点使得其能适应各类业务系统架构,为各大企事业单位信息系统的数据保护和数据安全提供保障。

猜你喜欢
快照存储设备数据保护
一种基于CANoe实现诊断快照数据测试的方法
欧洲数据保护委员会通过《一般数据保护条例》相关准则
巧破困局,快速恢复本本活力
欧盟最严数据保护条例生效 违反将严惩不贷
欧盟“最严”数据保护条例生效
注册表拍个照 软件别瞎闹
浅析计算机硬件发展史
浅析铁路视频监控存储设备设计
让时间停止 保留网页游戏进度
防止USB接口泄密