数据中心灾备系统的规划

2010-02-27 04:38中国电子工程设计院李洪鹏
智能建筑与智慧城市 2010年11期
关键词:灾备备份数据中心

文|中国电子工程设计院 李洪鹏

1 灾备模式的基本体系架构

灾备模式主要有“同城灾备”、“异地灾备”、“同城/异地灾备”三种方式。同城灾备,是指灾备中心与数据中心处于同一城市内,可同时采用同步备份与异步备份技术。其具有最低的投资成本,最快的灾难恢复速度,极高的数据保障,但无法应对区域性的灾难风险。异地灾备,是指灾备中心与数据中心在不同的城市,一般只能实现异步备份。其投资成本较高,灾难恢复速度与数据保障能力略低,但可应付广泛的灾难风险。同城/异地灾备则是两者的结合,投资成本最高,但同时具有前两者的优点。同城/异地模式也分两种实现方式,一种是先建立同城灾备中心,然后异地灾备中心实现对同城灾备中心的备份;一种是同城灾备中心与异地灾备中心分别独立,为数据中心实施备份。

具体选择何种灾备模式,需要综合考虑所面临的风险特点、业务特点、成本投入等多种因素。由于数据中心面临的重大风险绝大多数都发生在数据中心范围内,而同城灾备中心在业务迅速恢复方面具有比较突出的优势,因此同城灾备中心的建设是必须的。灾备模式的选择建议如下:

(1)集中式的数据中心采用同城/异地灾备模式。由于其业务系统与数据的影响面广,由此必须采用最为可靠的灾备模式。

(2)分布式的数据中心,可在区域数据中心建立同城灾备,并通过数据总中心的异地灾备中心,实现对各分区数据中心的集中式异地灾备。当分区域数据中心出现严重故障时,可通过同城灾备中心实现对业务的迅速接管,而出现区域性重大灾难时,可通过数据总中心的异地灾备中心实现分区域业务的恢复。这一模式既减少了分区域自建异地灾备中心所需的庞大投资,又能提供全面的灾备保护。

2 灾备中心基础环境建设

灾备中心基础设施建设应重点考虑以下因素:

(1)选址。灾难备份中心与数据中心之间距离合理,应避免灾难备份中心与数据中心同时遭受同类风险。综合考虑数据中心与灾难备份中心交通和电讯的便利性与多样性,以及灾难备份中心当地的业务与技术支持能力、电讯资源、地理地质环境、公共资源与服务配套能力等外部支持条件。

(2)基础条件。机房环境要求与主中心相同,各项建筑基础环境、供配电环境、温湿度空调环境、消防和监控安全环境等,都应参照数据中心机房环境设计,至少达到数据中心机房环境所属等级要求。考虑到灾备恢复情况下额外的外部技术支援,灾备中心在工作人员容纳方面应作适当考虑,以保证有足够空间容纳一定数量的技术人员集中协同办公。

(3)建设方式。灾备中心的建设方式可采用自建、共建与外包建设等方式,三种方式各有优势,需要结合各类机构的实际情况加以选择。自建是指机构独立建设区域数据中心,此模式具有较高的可靠性与安全性,但投入较大,适用于大型机构。共建是指数家机构共同规划投资,建设参与各方共同使用的区域灾备中心。共建模式减少了各方的投资压力,但需要各方充分协调,有效实现灾备中心的建设管理,参与机构不宜过多,适用于中型机构。托管是指将区域灾备中心由专业的灾备服务商建设管理,机构向其租用灾备物理环境,实现数据与系统的区域灾备体系建设,此模式充分利用了灾备服务专业化的优势,在最大限度减少建设投资的同时,为信息系统提供可靠保护,适用于中小型机构。

3 网络备份体系规划

数据中心与灾备中心应建立网络热备份体系,当数据中心无法正常工作时,业务数据流可自动切换到灾备中心,保证灾备中心的备份业务系统顺利接管业务数据。目前网络热备份技术已经比较成熟,可利用多种动态路由协议实现。网络备份规划要点如下:

(1)建立核心网络热备体系。数据中心是面向某个区域的庞大数据处理节点,必须在核心网络层面实现热备,才能保证灾备中心对区域内通信的可靠性。同时,前述灾备中心的选址要求,决定了数据中心与灾备中心之间必须建立广域网互联,因此在广域网层面实现线路热备显得尤为必要。

(2)灾备中心网络容量。应与数据中心网络容量基本一致,网络应采用一致的技术标准。灾备中心与数据中心同步传输的链路,其带宽必须大于数据中心的峰值数据变化量;因此,同城灾备网络、应灾备中心与数据中心之间应建立光纤网络。

(3)灾备网络应与数据中心网络采用不同运营灾备中心,对外的通信线路应采用与数据中心不同的运营商,降低风险关联。而数据中心与灾备中心之间同样需要建立两条不同运营商通信线路,以捆绑技术建立两地路由器互联,从而提高两地之间通信的可靠性,确保热备功能的有效性。

(4)尽量建立数据中心网络与灾备中心网络的负载均衡,有利于提高灾备网络利用率与提高灾备网络可用性。灾备中心网络基本是数据中心网络的复制,目前网络热备份技术主要有两种模式。一种是主/备模式,数据流正常情况下使用数据中心生产网络,当数据中心生产网络出现故障时,才使用灾备中心网络。这一模式实现简单,但灾备网络日常并不使用,既造成资源浪费,也不利于提高灾备网络的可用性。另一种是负载均衡模式,正常情况下数据流同时使用两个中心的网络,数据中心网络出现故障时,则全部数据流向灾备网络。后者的实现技术比较复杂,需要专用负载均衡设备支持,但可以充分利用网络资源,也可以在日常使用中验证灾备网络的可用性,建议尽可能采用此模式。

4 数据环境备份规划

(1)备份介质

目前,主流的备份介质包括磁带库、虚拟带库与磁盘阵列。虚拟带库是将低性能磁盘组模拟成磁带方式进行读写存储的备份介质,它既保留了磁带顺序写入在数据备份过程中特有的高性能,又可避免磁带受外环境破坏,不宜多次读写的缺点,有利于数据保存与对备份数据的恢复验证。但虚拟带库与磁带库同样存在读取效率低的缺陷,只适用于数量庞大而RTO要求较低的数据备份环境。磁盘阵列则是以普通硬盘读写的方式,对数据进行备份的介质。磁盘阵列一般由具备高性能磁盘所组成,并通过高容量缓存与I/O负载均衡技术提高数据读写效率,适用于RTO性能要求较高的数据备份环境。

(2)备份传输

◆ 数据备份传输的技术选择:数据备份复制方式主要有快照技术、异步复制、同步复制(如表1所示)。数据复制方式的选择主要取决于灾备需求分析中业务系统对RPO的要求;

◆ 数据备份传输的实现:目前,数据中心普遍建立了集中存储系统,因此存在存储传输网络与业务传输网络两套专用网络,从而派生出数据备份传输技术的三种实现方案:主机代理模式、存储阵列模式与代理模式。三种模式的选择主要取决于灾备恢复需求与可用于灾备建设的资源投入。从目前情况看,CDP方式是适用面较广的数据备份传输实现方式,比较情况如表2所示。

表1 数据备份复制主要方式之比较

5 应用环境备份规划

应用环境备份的目的是确保灾备中心能够快速重建数据中心应用系统环境,并实现备份业务系统对工作系统有效替代。对应用环境备份的设计要点包括:

(1)通过配置同步技术,实现数据中心应用环境的一致性。灾备中心的应用环境在技术路线、设备部署方面应尽量保证与数据中心应用环境一致。这样有利于提高灾备应用环境与生产应用环境之间手工切换的效率,也有利于日常检验灾备应用环境的可用性。

一般可通过灾备应用环境定期向生产应用环境读取配置文件、参数等方式,实现两者配置的同步。

(2)灾备中心关键型业务系统实现集群间自动切换,其余业务系统则采用手工切换模式。数据中心应用服务器一般通过HA等技术建立高可用性集群,保证本地应用服务的高可靠性。同样,只要建立数据中心与灾备中心之间的高可用性网络监控技术,灾备中心备份应用服务器集群可实现与数据中心生产服务器集群之间的高可用性自动切换。为节约成本投入,建议对关键性业务系统采用此方式,以满足RTO一小时以内的灾备恢复需求。对于其余业务系统,只要如前所述,保证应用环境一致性,通过手工方式进行切换即可。

表2 数据备份传输三种模式之比较

(3)采用虚拟化技术对备份环境进行整合。灾备中心应用环境备份资源毕竟有限,充分利用备份应用资源对数据中心应用环境保护十分重要。虚拟化技术可实现一台物理应用服务器对多台逻辑服务器的虚拟。这样在数据中心里,大量性能要求不苛刻、RTO要求在数小时以上的应用系统灾备环境就可以集中部署在少数的硬件服务器资源中,有利于灾备中心尽可能提高对数据中心应用系统的灾备范围。

6 在灾备系统规划时应注意几个问题

(1)灾备系统对原有业务系统的影响:在制定灾备系统方案的过程中要考虑的就是灾备系统建设对原有业务系统带来的影响。比如,采用数据复制技术对系统I/O带来的延迟,应用数据同步对日常业务处理系统带来的压力等。因此,要通过周密的测试和分析来规避灾备系统建设时带来的这些风险,以保证业务系统不会因灾备系统的建设而出现处理性能下降的问题。

(2)数据状态要保持同步:为保证在灾难发生时,业务可以成功地切换到备份中心,就必须保证灾备系统数据同步机制的可靠性。因此,建立可靠的数据同步校验机制是必须的。同时,还要考虑建立定时的、自动的数据同步核查对比机制,以检验两个中心数据的一致性,这是数据灾备工作中非常重要的一部分。

(3)灾备系统的日常维护工作要尽可能轻,并能承担部分业务处理和测试的工作。灾备系统的维护和管理是灾备切换成功的重要保证,在系统建设中,就必须要考虑系统的维护管理流程。数据中心任何业务处理过程的改变都必须完整地复制到备份中心;所有新业务系统上线时,必须通知备份中心,并在备份中心配置好数据同步机制;对原程序的改动也必须保证两个中心同时上线。

(4)系统恢复时间要尽可能短:灾备系统主要是为了实现在主中心系统发生灾难时,可以在规定时间切换到备份中心,保证数据不会丢失,并且继续向用户提供服务。但往往在灾难发生时,主要技术人员不能及时到达现场,为了顺利实现系统间的切换,应该让系统切换操作尽可能地简单,并建立固定化的、标准化的切换流程,要求维护人员在切换演习时严格按照流程的指导步骤进行操作。

(5)可实现部分业务子系统的切换和回切:当人事变动、业务变化、IT设施变化以及其他可能引起恢复规划文档失效的变化发生时,应及时更新各恢复规划文档,并在必要时启动模拟测试或演习,确保业务连续性系统的工作能力。

(6)技术方案选择要遵循成熟稳定、高可靠性、可扩展性、透明性的原则:目前,国际上比较成熟的灾备技术包括: SAN/NAS技术、远程镜像技术、虚拟存储、基于IP的SAN互连技术以及快照技术等。其中基于IP的SAN远程数据灾备备份技术应用比较广泛,其利用基于IP的SAN的互连协议,将主数据中心SAN中的信息通过现有的TCP/IP网络,远程复制到备份中心的SAN中的。当备份中心存储的数据量过大时,可利用快照技术将其备份到磁带库或光盘库。这种基于IP的SAN远程灾备,可以跨越LAN、MAN和WAN,成本低、可扩展性好。基于IP的互连协议主要包括FCIP、iFCP、InfiniBand、iSCSI等。

(7)构建系统方案可以选择多种技术组合方式:目前,业内应用较多的灾备方案是基于智能存储系统的远程数据复制技术,它是由智能存储系统自身实现的数据远程复制和同步,即智能存储系统将对该系统中的存储器I/O操作请求复制到远端的存储系统中并执行。由于在这种方式下,数据复制软件运行在存储系统内,因此较容易实现主中心和灾备中心的操作系统、数据库、系统库和目录的实时拷贝及维护能力,且不会影响主中心主机系统的性能。如果在系统恢复上具备了实时数据,那么就可以做到在灾难发生时,及时开始应用处理过程的恢复。但这种方案也有开放性差,对于主、备中心之间的网络条件要求较苛刻等缺点。

7 在灾备系统建设时应注意几个问题

(1)灾备系统是整个数据中心建设的有机组成部分,应当和数据中心的规划建设同步进行。

(2)灾难备份的最终目标是保证应用系统的连续性,系统建设时要全面考虑数据中心的业务特点、服务的类型、服务的方式、服务的法律义务等多方面的要求。

(3)成本和效益平衡的原则。在分析数据安全和业务连续性需求的基础上平衡成本和风险,对风险的概率、风险的影响、风险造成的损失、灾难恢复系统的建设成本及运行维护成本等方面进行综合考虑,统筹规划,分步实施,防止不顾实际需求,一哄而上。

(4)按照灾难恢复的等级要求选择适当的系统和数据的备份及恢复技术。

(5)重视基础建设。基础性设施具有长期稳定不易更改的特点,打好基础避免重复建设。

(6)要充分利用现有资源,尽量做到资源共享,互为备份。

(7)根据数据中心安全要求的不同,从实际出发进行等级化管理。备份的数据也要考虑相应的安全保管,涉密数据的备份应加密处理。

总之,灾备系统的建设要根据业务实时性的要求不同,针对不同业务采用不同的备份与恢复方式,以减少投入。备份的目的是提高服务质量,创造更多的利润,因此不管采用什么备份方案,关键是在投入与效益间找到最佳平衡点。参考文献

1 林小村主编.《数据中心建设与运行管理》.科学出版社.2010年4月

2 刘洪发,唐宏编著.网络存储与灾难恢复技术.电子工业出版社.2008年

猜你喜欢
灾备备份数据中心
酒泉云计算大数据中心
VSAT卫星通信备份技术研究
浅析数据中心空调节能发展趋势
基于铁路主数据中心建设的灾备管理系统框架研究
创建vSphere 备份任务
关于建立“格萨尔文献数据中心”的初步构想
旧瓶装新酒天宫二号从备份变实验室
深蓝云海“云灾备”正式上线
基于云计算的交通运输数据中心实现与应用
基于3G的VPDN技术在高速公路备份链路中的应用