朱 龙,杨 非
基于VMware虚拟化环境下的连续数据保护技术探究
朱 龙,杨 非
(广安职业技术学院 网络与信息中心,四川 广安 638000)
文章着重阐述了针对VMware虚拟化环境下数据保护面临的挑战与相关保护方法,分析了针对VMware虚拟机的RP4VM连续数据保护方案的机制及优势,提出利用RP4VM产品方案建立实时备份域的二级备份体系,优化了传统备份的业务架构.
虚拟化;RP4VM;连续数据保护
对于高校而言,数据保护与容灾面临着3个问题的困扰,包括逻辑故障、物理故障及机房故障.这些故障均有可能造成高校数据中心停止服务甚至无法恢复,这对高校业务系统来说都是致命性的.随着VMware虚拟化环境在高校业务系统中的普及和广泛应用,虚拟机本身及运行在虚拟机上面的数据安全逐渐受到用户的重视[1].但目前虚拟机环境的数据保护方案繁杂,如何选择一种最适合的虚拟机数据保护方案也成为高校业务系统当前面临的问题.
1)数据的迅猛增长.在虚拟化环境下,通过虚拟化技术大幅度提高了系统资源利用率,尤其以CPU、内存、网络等资源利用率大幅度提升,有效降低了计算成本.随着数据量的增长,备份窗口也会大幅度增加,对生产业务影响的时间也就越长.
2)大量的冗余数据.当前主流的IT虚拟化环境中,大量的虚拟机大都使用相同的虚拟机模板进行快速的创建与部署,如此在系统备份时,会遇到冗余重复的数据很多,需要备份的数据量很大,受限于网络传输瓶颈,导致整个系统备份时间太长;此外,备份的数据量太大也对备份存储的容量提出了更高的需求,也难以通过远程数据复制的方式进行异地的备份.目前业界成熟的做法是引入基于源端的重复数据删除技术,可以大大提高备份效率,减轻备份网络压力,降低后端备份存储空间需求,缩短备份时间窗口.
3)资源争用问题.虚拟化可以带来整合优势,但是,在单一物理服务器上集中多个应用,资源(CPU、I/O、内存、网络)将高度紧张,如果再采用传统备份方式进行备份,即在虚拟机内部安装备份软件进行备份操作,这将导致过度消耗共享资源(CPU、I/O、内存、网络),使得虚拟化效率降低.要避免由于数据备份导致的资源争用问题,目前的成熟手段是在虚拟化环境中,采用部署一个或多个备份代理虚拟机,并对虚拟机对应快照进行备份;备份代理虚拟机可以直接部署在生产服务器上,也可以部署在专用的备份服务器上,只做备份代理服务,不对外提供其他服务,从而解决资源争用问题.通过在备份代理服务器上完成备份的好处包括:
①降低生产系统资源消耗:在虚拟化环境中实现无需在虚拟机操作系统中安装备份客户端的备份,极大降低了备份对生产系统的资源消耗.
②更加灵活的恢复手段:支持恢复到源虚拟机,或恢复到新的虚拟机.
③快速部署:通过虚拟化管理平台可以实现备份数据的快速导入与部署[2].
4)备份一致性问题.使用对虚拟机快照进行备份的方式,可以保证崩溃一致性备份.若只对同一时间点的虚拟机磁盘上现有数据进行备份,不对交易型数据库等事务型应用系统进行静默操作,不备份内存中数据,则无法确保应用一致性,备份出来的数据可能无法完全恢复.对于需要保证应用一致性的备份,需要采用所谓客户机模式备份,在虚拟机上安装支持对应应用的备份代理软件,从而确保备份事务处理型应用的数据一致性.
5)业务数据恢复问题.对于逻辑故障问题的频繁发生,例如误操作、恶意篡改、病毒攻击等防不胜防.如何在发生逻辑故障后,快速的恢复虚拟化环境下的业务系统,是当前面临的最大挑战之一.
除此之外,从高校仍至行业整体来看,大家热衷于建设数据备份和容灾系统.但是这些系统都需要很强的专业知识才能操作.因此,在方案选择上要求做到操作简单,在紧急情况下业务运维工作人员可以做出紧急应对措施.
根据企业、高校相关应用项目备份和恢复的实际需求,及业界在备份和恢复方面的长期实践,数据备份恢复服务逐步提出了分级的概念,并且确定了数据备份服务各级别的定义.数据备份服务初步分为3个级别,每个级别分别有恢复时间点目标(RPO)、恢复时间目标(RTO)、可恢复性和保存时间、备份数据异地保存、异地备份数据可恢复性等5个关键性能指标(KPI)来对其进行量化.为了实现每一个服务级别,必须从技术实现的角度提出要求.
该服务级别基本能满足企业和高校现有绝大部分项目对备份和恢复的需求,并且能很好的体现资源优化配置的要求.对于核心的、关键的业务提供最快速度恢复手段,并且在恢复中保证数据尽可能少的丢失;对于影响相对较小的业务,可以允许其恢复时间适当延长,在允许数据丢失量方面的要求也可适当放宽.备份数据的保留时间和级别的关联相对较小,需要根据具体项目的需求而定.
对业务应用容灾保护的RTO、RPO定义,初步确定备份服务参考等级定义见表1,每个关键指标相对应的技术含义说明见表2.
鉴于VMware 虚拟环境的技术特点,通常需要保护的数据种类大致分为2类:VMware虚拟机本身、VMware虚拟机上的应用数据(如exchange/SQL/Oracle等应用).
目前,市面上针对虚拟机数据保护的产品基本有以下几种:
1)通用备份软件.尽管这类软件可以备份VMware虚拟机镜像及VMware虚拟机上的应用数据,但它们对虚拟网络带宽和VMware主机资源占用较高,特别是备份虚机上的应用数据时,会对虚拟机上的应用性能产生很大影响.
2)新一代源端去重备份软件产品.这类产品在传输备份数据前先进行了压缩和去重处理,只传输全局唯一、变化的数据块,因此网络带宽占用小、对主机的CPU等资源占用率较低,可使备份和恢复性能得到大幅提升.
表1 备份服务参考服务级别定义
表2 备份恢复服务关键指标的技术说明
3)针对虚拟机的连续数据保护产品.通过基于记录对每个VMware虚拟机的变更的时间点信息,可像录像机一样保护虚拟机的所有变化信息,从而实现任意时间点的数据恢复,并且通过同步或者异步远程复制策略,将主机的虚拟机系统复制一份到备机实现容灾.
在高校的生产业务系统中,各个业务系统对于数据备份的RTO和RPO要求均不相同,同时还需要考虑除各种类型数据库外,大量临时文件和管理数据的备份.所以建议在数据平台采用统一备份恢复管理框架内,按照不同数据的不同备份恢复服务级别,采用不同的备份恢复技术架构,以实现最优的服务响应和最佳的性价比.
如果按照上文所述的三级备份恢复服务等级要求,不同服务等级对应的技术架构如下:
1)服务等级1级:由于要求RTO和RPO是在1小时之内,以分钟为单位,传统使用备份软件拷贝恢复数据的方式很难满足要求,一般多采用磁盘阵列内部卷快照克隆方式或连续数据保护技术(CDP).而由于磁盘阵列卷快照方式仍然有较长时间间隔,同时对数据空间要求较多,建议采用连续数据保护技术架构(CDP);
2)服务等级2级:由于要求RTO和RPO是在几个小时之内,使用虚拟化环境专用备份软件配合专用备份存储设备,实现基于重复数据删除的备份,可以满足此类业务的备份恢复要求;
3)服务等级3级:由于RTO和RPO要求较低,保存数据多为需要长年累月存放的归档数据和法律法规要求存档的历史数据,使用备份软件配合专门的归档存储设备即可.
连续数据保护(Continuous Data Protection,简称CDP)是一种新型备份方式,是对传统数据备份技术的重大改进.连续数据保护将受保护系统的所有数据变化做了记录和保存,因而能实现基于任意时间点的快速恢复.连续数据保护与传统的备份、快照最大的区别在于:连续数据保护可以根据事先设置的保护策略,实现任意时间点的数据恢复,类似数据保护的录像机;而备份与快照由于受限于其数据保护操作频率,只能恢复到有限的指定的时间点,类似数据保护的照相机,如图1所示.
基于磁盘存储的CDP方案,设计规划的恢复时间的颗粒度可以是秒或分钟为单位,从而满足企业级IT对关键生产业务连续性的更高要求.RP4VM是一个成熟的软件产品解决方案,它能通过现有的虚拟机平台,以高性价比的方式,方便快捷地实现本地连续性数据保护、连续远程数据复制保护及两者结合的数据保护.
RecoverPonit for Virtual Machines(简称RP4VM)是这类产品的代表,是戴尔易安信专为虚拟化环境推出的数据保护方案,不同于快照、备份,RP4VM提供的连续数据保护,能够像录像机一样,实时录像,数据可以回滚到任意时间点,实现“秒级”恢复,可以实现虚拟机的实时复制和远程容灾.
如图2所示,RP4VM除了可以提供针对本地数据中心虚拟机的连续数据保护外,还可以提供虚拟机远程连续数据保护功能,从而实现虚拟机跨数据中心切换的灾备功能[3-6].用户可以在生产业务运行的同时使用它录制下来的数据满足多种业务需求.在两地三中心架构中,RP4VM可实现数据压缩进行广域网传输,减少网络带宽占用,并支持“同步”和“异步”2种容灾方式.
RP4VM的备份存储可以使用任何存储设备,充分利用现有存储空间,保护用户投资.需要增加存储空间一般是进行CDP保护的应用数据的1.2倍,其中一倍的空间存储本地连续数据保护的副本数据,20%左右的空间存放RP4VM日志数据.
RP4VM的备份存储规划按功能分为:生产卷,复制日志卷与复制副本卷.针对虚拟机的整个连续数据保护过程分为以下几个阶段:数据分解,数据标记,数据传输以及数据分发,如图3所示.
1)数据分解:内嵌在Vmware Exi Server中的拆分器捕获受保护虚拟机的每一个写I/O,并将其拆分为2个写I/O操作,一份写到本地生产存储,另一份写到RP4VM的虚拟装置vRPA(virtual RP Appliance).
2)数据标记:由vRPA组件对每个写I/O操作进行相关命令封装,加上对应时间戳标签,以保证数据写一致性.
3)数据传输:在完成数据标记操作后,vRPA将对数据进行进一步打包、数据缩减、封装等一系列操作,将数据通过相关链路传输到异地的vRPA的历史卷,从而组成基于不同时间点的历史数据记录.
图1 连续数据保护与传统的备份、快照区别示意图
图2 RP4VM连续数据保护机制示意图
图3 RP4VM连续数据保护过程示意图
4)数据分发:在此阶段,RP4VM系统将按照事先设定的连续数据保护策略,把不同时期的历史卷与目标卷进行合并操作,从而生成针对特定时间的复制副本卷.由于数据传输与数据分发分为两个相对独立的操作阶段,暂停数据分发并不会影响RP4VM数据复制传输.因而,在RP4VM暂停数据分发操作之后,用户仍可以对数据复制卷进行读写操作.
通过RP4VM将虚拟机数据复制到异地数据中心后,目标端的复制卷与本地生产卷是完全一致的,用户可以随时使用Test Copy功能,启动复制卷上的虚拟机,做任何操作,例如备份验证,业务测试等.RP4VM是安装在VMware虚拟化平台上的,由vSphere Web Client进行统一管理,如图4所示.
利用RP4VM提供针对虚拟机的连续数据保护功能,根据IT系统具体应用数据的具体备份恢复要求分析,可实现传统备份业务架构的进一步优化,如图5所示.
图4 RP4VM的vSphere Web Client管理界面
图5 利用RP4VM优化传统备份业务架构示意图
1)构建连续数据保护方式的一级备份体系——实时备份域.利用RP4VM技术对VMware虚拟化平台实现连续数据保护,可以提供针对虚拟机逻辑故障与物理故障的有效防范.有别于传统的备份技术,RP4VM最大的优势就是能够提供针对虚拟机的任意时间点的快速恢复.由于连续数据保护技术需要消耗额外的存储空间,因此主要应用场景为针对运行核心业务的虚拟机数据保护增强上,可实现在发生故障时,业务丢失数据最少,恢复速度最快.
2)基于专用备份软件和专用备份存储集成的二级备份体系——定时备份域.采用通用备份软件提供对虚拟机以及所有业务系统实现时间点备份,提供传统的长期定时备份功能,同时借助备份专用存储提高备份恢复性能,使用备份专用存储的重复数据删除功能,大大降低备份存储空间.
通过RP4VM实现了对关键业务系统的连续数据保护,在发生故障时可以将业务系统恢复到指定的任意时间点,大大减少了故障导致的数据丢失.同时,RP4VM提供与vCenter高度集成的图形管理界面,学习成本低,操作灵活简单,能够快速恢复故障虚拟机,大大降低了发生故障后业务系统的恢复时间.
RP4VM的引入,大大增强了传统备份系统的业务保护能力,通过建立实时备份域与定时备份域的二级备份体系,实现对业务系统的分级数据保护.还可利用现有IT架构中的VMware环境,结合使用RP4VM提供高性价比的复制容灾方案,同时保护了数据中心的现有投资.
[1] 王杰昌.高校数据备份技术的应用与探讨[J].电脑知识与技术,2019,15(14):6-7.
[2] 袁静,吴海燕,刘长兴.基于云平台的智能数据中心的构建[J].中国医疗设备,2014,29(11):58-61.
[3] 万莹,林奕,尤红桃.连续数据保护中的滑动窗口技术的优化[J].计算机与现代化,2012(12):189-192,196.
[4] 赵科,郭磊.持续数据保护技术在企业级业务系统中的应用[J].上海船舶运输科学研究所学报,2019,42(02):59-64.
[5] 牛超,杨英杰,毛秀青,等.基于虚拟存储技术的持续数据保护机制[J].计算机工程与设计,2013,34(04):1207-1211.
[6] 韩荣杰,陈思超,傅浩峰.持续数据保护技术在电力信息安全中的应用[J].信息网络安全,2013(10):28-30.
Research on Continuous Data Protection Technology Based on VMware Virtualization Environment
ZHU Long, YANG Fei
()
This article mainly deals with the current challenges and related protection methods for data protection in the VMware virtualized environment. The analysis is focused on the mechanism and advantages of the RP4VM continuous data protection solution for VMware virtual machines. The use of RP4VM product solutions to establish real-time backup domains is proposed. The second-level backup system greatly optimizes the traditional backup business architecture.
virtualization; RP4VM; continuous data protection
2020-06-22
朱龙,男,工程硕士,研究方向为校园信息化建设.
TP31
A
1672-0318(2020)05-0030-06
10.13899/j.cnki.szptxb.2020.05.006