“互联网+”环境下的数据保护技术研究

2016-02-21 02:41
信息通信技术 2016年5期
关键词:数据保护备份虚拟化

联通系统集成有限公司 北京 100032

1 数据保护技术现状分析

1.1 数据保护的挑战

随着信息化建设的不断推进和深化,各行各业的生产和运维对互联网以及各类IT系统所产生数据的依赖程度越来越高,数据已经成为企事业单位的重要核心资产,数据的有效保护已经成为信息系统建设中最重要的环节。

当前,国内的信息系统建设情况表明,互联网的角色正在发生变化,尤其是互联网对于企业越来越重要的情况下,用户更加渴望能够实现“互联网+”服务,渴望通过互联网达到提升效率的效果。而在“互联网+”模式驱动下,随着云计算和虚拟化的不断落地,现代的信息系统由以往的传统IT架构环境迈向混合IT架构模式,传统的IT架构环境与云化的IT架构并存,企业私有云的部署和公有云的尝试,让企业在IT运维过程中减少系统配置和上线过程的时间,降低企业IT建设成本,提高了IT利用率和管理效率,混合IT架构已经成为现代信息系统建设的新标准。

然而,混合IT架构的模式给信息系统的数据保护工作带来了新挑战。传统数据保护方案已经不能满足现代“互联网+”业务的需求,现代信息系统更关注用户对于数据保护在应用环境、大数据、虚拟化平台的保护等方面的需求。业务驱动和“互联网+”实践的深入给信息系统的数据保护带来挑战。

1)虚拟化平台的保护。传统数据保护解决方案更适用于纯物理环境,如果应用在虚拟化环境下会产生严重问题,如资源争用严重影响用户业务;无法精准恢复数据,恢复效率低。

2)大数据的挑战。传统数据保护方案的性能提升速度远远跟不上数据量增长的速度,缺乏精细化的数据恢复。企业会为此付出更多的计算资源、网络带宽资源,以及更长的恢复时间,无法达到恢复时间目标(RTO),备份所需的存储空间在成本方面也给企业带来极大压力。

3)存储系统的保护。企业信息系统的持续建设以及“互联网+”业务的不断实践,传统存储系统与新型的软件定义存储系统不断充斥着数据中心的基础架构,随着存储系统的容量和性能越来越高,传统的数据保护方案无法在既定的备份窗口完成越来越大的数据量的有效保护。

4)可管理性的挑战。虚拟化的演进使得更多的用户信息系统环境成为物理和虚拟的混杂环境,传统数据保护方式不能很好地解决虚拟化环境下的数据保护难题,专门的虚拟化保护方案又无法兼顾物理环境下的数据保护,而多套保护方案的模式不仅成本高,且管理复杂,维护困难,这种变化使得数据保护变得更加具有挑战性。

1.2 “互联网+”数据保护设计原则

在目前常见的大型信息系统核心环境中,通常运行着小型机、操作系统、数据库,后端连接多个品牌、型号的存储,并存有大量结构化以及非结构化的数据。特点是数据总量大,动辄几十、几百TB,并且每年增长速度为几十TB,业务系统复杂,数据量不断激增,因此在数据保护方面需要能够灵活进行数据备份和恢复,并可实现异地容灾的解决方案。

方案应根据用户的需求和业务特点进行数据备份与灾难恢复管理的设计,为保证整个方案的针对性和合理性通常将以下几点作为方案设计的原则。

1)符合行业技术潮流和发展方向。软件产品应符合主流的技术和发展方向,符合大数据管理的要求和虚拟化应用的扩展,具有较长的技术寿命。

2)尽量减少对正常业务系统的影响。在资源争用环境下尽量不占用虚拟化环境的资源,设计上应满足节约资源合理分配的要求。

3)支持快速恢复和精细化恢复。通过技术提供有效的恢复方式,降低应用的停顿时间,数据恢复粒度变小,减少大数据量的恢复时间。

4)全面性。方案要能够管理现有的所有环境,从异构环境、异构平台到异构应用都能提供一体化的恢复和管理模式;从物理服务器环境到虚拟化环境,从操作系统、应用数据库到文件数据,都能够支持主流的虚拟化平台及保护技术,提供统一管理,与现有设备兼容,并能兼容多个主流厂商的存储设备与方案。提供备份和系统瞬间挂载多样保护能力。这种全面性往往直接决定了方案的可行性。

5)数据恢复的可靠性。备份的数据系统具有可靠的恢复能力,快照瞬间挂载特性可随时验证切换演习,具有完善的数据监控和可恢复验证体系。

6)系统的安全性。备份系统能够提供全面的安全体系,生产数据、备份数据和备份系统的管理都应该具有高可靠的安全保障体系,保证数据的安全。

2 数据保护方案设计

2.1 方案基本思路

针对“互联网+”业务的复杂性、多样性以及高可用性的特点,应采用新一代集中备份方案,对现代信息系统环境下的数据库、操作系统、文件系统进行安全的备份和保护,对重要应用实现短时间接管的能力。同时,还应综合考虑具体的混合模式下统一管理、虚拟化、大数据的处理能力。

方案设计应针对核心、非核心业务系统采用不同保护方式,达成不同的SLA服务目标。1)针对核心业务系统,需要实现数据定时保护,并实现同城双活以及异地数据级容灾。2)针对非核心业务系统,需要实现本地数据保护,可有选择地实现异地数据级容灾。

2.2 主要技术

数据保护方案设计采用的技术通常分为以下几个部分。

1)本地数据集中备份(定时):通过完全备份与增量备份结合的手段,配合重复数据删除、压缩、加密等技术,实现从系统到数据库到应用平台及文件的全面保护,解决逻辑错误问题,避免数据丢失。此设计建议采用专门的备份产品,通过LAN以及SAN方式接入网络(如本地服务器压力或者网络流量较大时,建议选用SAN方式,可确保系统整体的高效性),根据数据量及保留时间设计产品规格,并可横向扩展为备份集群,提升存储空间及并发备份性能。

2)通过CDP(连续数据保护)容灾功能,将原生产环境进行P2V(物理机到虚拟机)保护,转换的虚拟机存放在容灾服务器中。当原主机故障时,可5分钟内在容灾服务器中启动虚拟机(尤其是单机系统),实现应用接管,保障业务连续性。

3)针对核心业务系统,一般要求RTO(恢复时间目标)、RPO(恢复点目标)趋于0,应当实现架构上的冗余,自动切换与回切,可利用存储虚拟化技术,实现存储双活保护。任意一台存储出现故障时,都可保证业务不中断,数据不丢失。

4)无论是备份系统,还是存储虚拟化网关,后续均可平滑扩展,在不改变现有组网的情况下实现异地容灾。

2.3 备份与恢复策略

2.3.1 备份策略

备份策略的选择与传统的数据保护技术并无太大区别,周一到周六每天做增量备份,形成共计6天的增量数据,周末系统访问量较小,建议在每周日进行全备份。同时,还应综合考虑用户现在的定时备份数据总量、未来数据增长量以及数据重删、保留副本数,设计备份策略时通常是将定时备份数据保留1个月以上。

2.3.2 数据备份方案

数据备份方案中应规划使用专用备份设备和备份软件,并一定要兼顾诸多系统的整体保护,无论是操作系统、数据库还是文件系统,均可纳入到保护范围内,避免数据丢失或发生逻辑错误,导致数据恢复不可逆。

将备份系统部署到生产网络中,应不改变现有网络结构,并与需保护的服务器或虚拟机网络连通,通过在多个层面分别创建各个系统相应备份任务与计划,即可实现自动化数据保护。

1)操作系统保护。应将操作系统整体备份,做到信息全部保护,存放到备份设备中。当系统发生故障时,可通过光盘引导、USB引导、网络引导等多种方式完成系统快速恢复,且支持原机恢复、异机恢复、裸机恢复等。

2)数据库保护。数据库的备份与恢复应覆盖应用系统数据以及数据库事务日志数据。数据库的备份方法主要有完整备份、差异备份、事务日志备份等。根据数据安全性的要求,推荐的备份方式为每周一次完整备份,每天一次差异备份,每半个小时一次事务日志备份。

3)文件系统保护。支持对当前操作系统环境下的重要应用、文件、目录进行整体保护,并支持整体恢复及单文件恢复,有效解决重要文档的保护难题。

4)虚拟化备份与恢复。“互联网+”业务的推广也推动了虚拟化技术的广泛使用,资源的合理利用也成为备份恢复技术新的关注点,在进行信息系统建设时应从以下几个要点规划虚拟化备份方案。①虚拟化无代理备份方式已经实现,无需在虚拟化平台或者各个虚拟机上安装客户端代理,只需通过代理客户端连接虚拟化平台即可。无代理备份方式可有效避免虚拟机资源争用。②重复数据通常是备份技术的难点,处理不当会导致存储资源的浪费,因此,虚拟化备份必须与重复数据删除技术相结合,可大幅减少备份数据所占用的存储空间。③建议采用CBT(变化快追踪)备份技术,只对新增的或变化的数据块进行备份,提升增量备份效率。④应全面采用多种备份模式,以满足复杂应用环境下多种虚拟机环境的备份需求。同时,还应支持高级备份方式,从而满足虚拟机级别挂载恢复和文件级恢复。⑤虚拟机备份应支持挂载恢复,即使是TB级别的虚拟机,也可在几分钟内完成挂载恢复。通过挂载恢复,能够在灾难发生时,大幅减少虚拟机业务停顿时间,降低生产损失。⑥应支持细粒度恢复,可精准恢复虚拟机中的单个文件或文件夹等,提升恢复效率。

3 “互联网+”数据保护方案的要点

本方案不仅对所有物理服务器和虚拟化平台提供全面集中的备份,而且还能使数据、应用、系统得到统一保护,以保证在数据丢失、系统损坏时高可靠的恢复性。

3.1 混合IT环境的全面数据保护

应全面支持物理服务器环境和虚拟化平台下的数据保护,降低因混合IT环境而需要多套数据保护方案带来的成本压力和管理复杂性;同时,支持各种主流平台下的系统、数据库及文件数据的保护,也支持主流的虚拟化平台的保护,并可对物理服务器及虚拟化平台下的备份数据进行瞬间挂载恢复,提供业务应急的能力和数据快速恢复能力。

3.2 全局重复数据删除

采用可变长数据块检查的全局重复数据删除技术,可以将用户环境中的不同操作系统平台上的各类数据库应用及非结构化数据进行全局去重,而先进的可变长数据块检查技术能够使将分割的数据块获得更高的重复率,最大限度地节省存储空间,即便是首次备份也能获得相当高的去重率。而基于源端的去重,可使网络传输的数据量大幅下降,从而节省带宽资源。

3.3 细粒度恢复

当灾难发生需要进行恢复时,恢复时间目标十分重要。传统的恢复方案必须将整个备份集恢复出来,这就使海量数据的备份恢复变得极其困难。而很多情况下,用户只需要恢复备份集中的部分数据,进行更细粒度恢复的需求就变得更加迫切,因此方案应采取虚拟机级别和文件级别恢复、数据库单表级别恢复、单邮件级别恢复、操作系统备份文件级的恢复方式,将恢复时间大大缩短,使“互联网+”复杂环境下的数据保护变得更加有效。

过度追求数据恢复颗粒度的细化,必然会导致硬件投资和维护管理成本的大大增加,因此,应依据需求区分对待。对于用户关注的数据,如核心业务数据、邮件等,采取单表级别、单邮件级别恢复方式,针对其它数据则可根据实际情况采取虚拟机级别、操作系统级别等备份恢复方式。

3.4 数据保护统一管理

应采用基于统一的管理控制平台,对物理环境、虚拟化平台环境以及传统存储平台和新型的软件定义存储平台提供统一的数据保护管理,对本地及异地灾备系统提供统一的灾备业务和数据管理,对多个备份站点提供统一的远程监管平台进行统一运维管理。基于统一的备份容灾管理平台,将能较好地支撑“互联网+”业务需求,大大降低混合IT环境下数据保护的复杂度,降低方案本身部署、运维管理的复杂度,也会间接降低用户的投资成本。

4 “互联网+”数据保护方案选择

基于前文的设计原则和要点,在“互联网+”业务中实现全面的数据保护,可根据用户需求以及成本酌情选择不同组合,分步实现,通常有三种方案可以进行选择。

4.1 本地数据集中备份与异地数据级容灾

本方案中实现了主数据中心的全面数据保护,通过定时备份、实时备份等手段,将关系型数据库以及应用产生的非结构化数据等保护起来,并异步传输到异地灾备中心,可满足24小时内数据不丢失的要求以及本地发生灾难时,在异地仍有一份数据可以恢复的要求。

因为备份是容灾的基础,所以若要实现上述效果,需要通过两套备份系统予以实现,第一套用于主数据中心,实现数据备份及数据容灾,第二套用于灾备中心,实现数据容灾。

4.2 本地双活/同城双活

本方案中实现了本地数据中心内的存储双活,或升级为同城双活数据中心,达到在本地数据中心或同城两个中心核心业务不中断、核心数据不丢失的目标。

由于用户环境的多样性、复杂性,为实现双活建议配置存储虚拟化网关,分别部署在同城两个机房,并在两机房至少各设计两台SAN交换机,配置级联授权。为保障核心数据复制的及时性、准确性,应在同城的网关之间和SAN交换机之间均通过单模裸光纤连接。两机房间业务网络也需打通,并配置网络负载均衡。

如只建设本地双活,则不需要单模裸光纤和级联授权,只需将设备都放在本地,通过多模光纤连接即可。

4.3 异地应用级容灾

异地应用级容灾是在同城双活基础上实现异地短时间内的核心业务接管,按照业内常规的设计指标以及用户的心理预期,应用级容灾至少应达到在异地RPO低于2小时、RTO低于8小时,这两项指标越低越好,但投资成本也会倍增。

应用级容灾设计指标主要与容灾系统的数据恢复能力有关,最常见的设计指标就是RPO和RTO。RPO是指可以把数据恢复到过去的某个时间点,而RTO则是指在出现问题后多长时间可以恢复数据。

直观地讲,RPO其实就是企业所能容忍的最大数据丢失量。传统数据备份方式,通常都是在晚上进行一天一次的备份工作。如果第二天出现错误,那从备份完成后到错误出现时所写入的数据将都无法挽回,这期间没有备份,数据就会全部丢失!如果错误出现在一天结束时,那一天的数据都将丢失,这种情况下,RPO就是24小时。为改进RPO,数据保护必须更频繁地进行。大多数情况下,增加备份的频率不现实。一是因为应用的高峰时段无法进行备份操作;二是因为备份数据所花时间太长。为改进RPO,应采用恢复管理策略,用连续复制和快照技术有效地改进RPO。

RTO则可简单地描述为企业能容忍的恢复时间。在传统的数据保护中,备份数据不能立即使用,必须先恢复。对象级别的恢复功能可以有效恢复单个目标,如一个文件或一封邮件,甚至是许多文件和邮件的集合。然而,恢复整个数据库和海量数据时仍需要时间。要解决这个问题,应该对生产数据创建镜像快照或连续复制,或两者都做。因为复制是在线的,能立即投入使用,整个数据库或海量数据的RTO也许只有几分钟甚至更短。

作为应用级容灾方案,除了采取上述恢复手段,还应在异地灾备中心增加与核心业务系统对应的主机,用于出现问题时快速接管业务。

5 结语

“互联网+”思路正在快速推动各行各业进行产业升级,各级政府、企事业单位都已加速业务战略升级转型,纷纷开始整合分散的业务和产业链,逐步形成更具平台性质的业务系统,这也必然导致数据呈爆炸式增长。但目前大部分信息系统的数据保护架构仍然是传统的技术架构,和“互联网+”范畴内的云端、虚拟化及大数据技术架构难以融合。其直接影响是随着企业数据规模越大,数据管理成本也越大,管理系统和设备也越来越臃肿,多个管理设备之间无法统一管理。可以说数据保护技术的优劣已经成为影响政府、企事业单位“互联网+”战略实施的重要因素,非常有必要引入新的技术理念,形成更多也更加完善的数据保护解决方案,为整个社会的“互联网+”变革添砖加瓦。

参考文献

[1]GB-T20988-2007信息安全技术信息系统灾难恢复规范[S]

[2]张唯维.云计算用户数据传输与存储安全方案研究[D].北京:北京邮电大学,2011

[3]陈科有.混合云计算数据安全与隐私保护问题研究[D].南昌:江西师范大学,2013

[4]吕琴.云计算环境下数据存储安全的关键技术研究[D].贵阳:贵州大学,2015

[5]段春乐.云计算的安全性及数据安全传输的研究[D].成都:成都理工大学,2012

[6]刘婷婷.面向云计算的数据安全保护关键技术研究[D].郑州:解放军信息工程大学,2013

[7]代炜琦.云计算执行环境可信构建关键技术研究 [D].武汉:华中科技大学,2015

[8]胡光永.基于云计算的数据安全存储策略研究[J].计算机测量与控制,2011(10):2539-2541

[9]张璟.云计算模式下数据安全的关键技术与应用[J].计算机光盘软件与应用,2012(21):50-51

猜你喜欢
数据保护备份虚拟化
VSAT卫星通信备份技术研究
创建vSphere 备份任务
数据保护护航IT转型
——戴尔易安信数据保护解决方案
基于OpenStack虚拟化网络管理平台的设计与实现
欧盟通用数据保护条例中的数据保护官制度
对基于Docker的虚拟化技术的几点探讨
浅析虚拟化技术的安全保障
H3C CAS 云计算管理平台上虚拟化安全防护的实现
TPP生物药品数据保护条款研究
旧瓶装新酒天宫二号从备份变实验室