吴志峰
企业和政府部门对数据的高可靠性和高可用性越来越重视。数据丢失,尤其是核心数据丢失,很有可能造成整个系统的瘫痪,给企业带来无法估量的损失。
导致数据丢失的原因很多,包括人为的操作错误、软件缺陷、硬件故障、电脑病毒、黑客攻击、自然灾难等。IDC的调查数据显示,造成企业数据丢失的原因中,44%是物理错误,53%是逻辑错误,3%是自然灾难。无论是哪种原因导致的数据丢失,都可能轻而易举地摧毁企业赖以生存的IT系统。
针对企业数据丢失可能造成的严重后果,2007年7月颁布的《信息系统灾难恢复规范》(GB/T 20988-2007)要求,企业要根据RPO(恢复点目标)和RTO(恢复时间目标)指标的不同要求,制定不同的容灾机制,建立不同级别的容灾系统。
容灾系统是不是只有硬件厂商推崇的两地三中心这一种模式?是不是所有的企业都需要拿出几百万元甚至更多,建设只防范小概率灾难事件的容灾系统?答案当然是否定的。事实上,容灾的要求因不同的企业、不同的应用类型而异,究竟采取什么样的容灾措施,应该依据灾难的程度而定,这样才能保证最低的整体拥有成本和最大的投资回报率。
不同级别的容灾要求各异
用户无论采用什么样的容灾方案,灾难备份都是必须的。建立灾难备份系统是企业实现容灾的第一步。
《信息系统灾难恢复规范》(GB/T 20988-2007)明确了信息系统灾难的概念。一旦信息系统出现了灾难,就要进行灾难恢复,而为了进行灾难恢复,就必须提前进行灾难备份。
按照《信息系统灾难恢复规范》(GB/T 20988-2007)的定义,灾难备份系统由数据备份系统、备用数据处理系统和备用网络系统三个子系统构成,其中最为复杂的是建立满足灾难恢复要求的数据备份系统。
数据备份系统的作用是对数据进行保护。为防止物理错误和逻辑错误,满足RPO、RTO指标和数据保留时间的要求,数据备份系统普遍采用了复制技术、快照技术及备份技术。这三项技术各有利弊,但无论哪一种技术都不能完全满足灾难恢复的所有目标。因此,企业在规划设计灾难备份系统时,应该综合采用上述这些技术。
寻找适合的容灾方案
选择容灾解决方案,切忌贪大求全,适合的才是最好的。
1~2 级灾难备份方案 1~2级灾难备份系统要求每周做备份,但没有数据复制要求。要满足上述要求,用户可以选择一款具有多副本管理功能的备份软件。
与传统备份软件在多副本管理方面不够完善、存在很大局限性不同,CommVault Simpana备份/恢复软件提供了内嵌的灾难恢复能力,当灾难发生后可以快速而轻易地在某个热备中心恢复数据。为了改善备份/恢复的RTO指标,CommVault Simpana备份/恢复软件采用自动预恢复的策略,在每次备份完成后,把备份数据提前恢复到备用系统上,从而更好地满足了RTO指标的要求。
3~4级灾难备份方案 3~4级灾难备份系统要求每天进行备份,定时进行数据复制,RPO指标要求小于24小时,RTO指标要求小于两天。要实现这一目标,灾难备份解决方案除了要具有数据复制和快照功能以外,重复数据删除功能也是必不可少的。
CommVault Simpana复制解决方案是一款能满足3~4级灾难备份需求、性价比很高的方案,能提高数据可用性和存储、网络等资源的利用率,满足客户应用级容灾的需求。CommVault Simpana复制解决方案能很好地利用CommVault领先的重复数据删除功能,消除来自远程办公室的冗余的备份数据,从而减少数据备份量,并将经重复数据删除的数据以压缩格式复制到中央站点,使得在带宽有限的广域网创建灾难恢复副本成为可能。
5级灾难备份方案 5级灾难备份系统要求实现实时复制,对RPO、RTO指标的要求比较高。传统的容灾方案通常采用昂贵的存储设备或卷管理软件来实现,投入非常高,而且对原有系统的改变也很大,需要重新安装系统或数据库。
CommVault的CDR连续数据复制方案是一个性价比很高的解决方案。CommVault CDR以近似实时的方式把数据从源计算机复制到目的计算机,保护应用数据和文件系统。
6级灾难备份方案 6级灾难备份系统要求能实时复制,实现数据零丢失,备份场地和设备要与生产系统完全一致,并且能无缝切换,RTO小于几分钟,RPO为零。
要实现上述目标,软件、硬件和网络的投入都相当大,在应用数据变化比较大的时候尤其如此。用户要想实现零数据丢失,可以采用两种方式。第一种是基于应用软件的容灾,即通过应用软件同时向两个中心提交事务,当两个中心都成功进行事务处理后,应用软件才确认该事务提交成功。这种方法的优点是对网络和存储的要求不高,最大的缺点是必须随着应用的变化不断更新应用软件。第二种方式是,在存储层建立同步的数据复制,要求两中心有高速、稳定的网络连接。
CommVault的解决方案也能满足6级灾难备份的要求,具体来说,在生产中心和容灾中心同时进行数据备份或快照管理,一旦生产中心或容灾中心的系统发生问题或崩溃时,可以利用备份数据或快照副本进行快速恢复。例如,当容灾中心的数据丢失时,如果容灾中心没有本地备份数据,则需要花费很长时间把生产中心的全部数据同步到容灾中心;如果容灾中心本地有备份数据,就可以先恢复本地的备份数据,再同步差异的生产数据,花费的时间比较短。
应急库容灾解决方案是不错的选择
不同的行业、不同的企业甚至是企业内不同的应用系统对容灾的要求都是不同的。对于电信、金融等行业大型用户而言,一些关键的核心业务系统的容灾必须做到瞬间起效,绝对不能让突如其来的灾难影响企业业务的正常运营,中断一秒也不行。但是对一些辅助的系统,容灾的要求相对较低。很多中小企业虽然也需要容灾方案。
对于既要求较高的RPO和RTO指标,又无法承担高昂的容灾系统建设费用的用户来说,建设应急库是一个比较好的选择。建设应急容灾解决方案的目标是提高备份恢复的RPO和RTO级别,确保数据丢失后能在一定时间内恢复。
CommVault首推的应急库并不是容灾系统,只是为了保证数据和系统的正常应用,但是无法实现自动切换数据库应用,RPO的指标也相对较差(只是分钟级别,而不是秒级别)。应急库能够帮助企业在发生极端灾难的情况下临时应急;能够避免用户生产库的物理和逻辑故障;方便用户实现数据灾备系统的验证和演练;提高传统应急方式(备份恢复)的RPO/RTO级别;利用自动化的手段,实现数据库应急。