张 亮 北京电信规划设计院有限公司工程师杨春丽 北京电信规划设计院有限公司工程师马媛媛 北京电信规划设计院有限公司工程师
数据中心业务连续性方案设计
张亮北京电信规划设计院有限公司工程师
杨春丽北京电信规划设计院有限公司工程师
马媛媛北京电信规划设计院有限公司工程师
摘要:目前,信息已经成为企业的生命源泉,数据中心业务连续性也越来越重要,信息系统需要依据灾难恢复等级来统筹考虑业务连续性策略,探索信息系统容灾及灾难恢复方案。
关键词:业务连续性;容灾;灾难恢复
随着信息化进程快速发展,信息已经成为企业的生命源泉,业务数据的安全、可靠及可用性成为企业信息化亟需解决的问题。而信息化程度较高的电信、金融等行业,大量数据甚至是海量数据在一个或几个数据中心进行集中存储,一方面提高了信息和数据管理的自动化,提高了效率;另一方面也使数据中心的风险不断提高,数据中心发生意外而造成的业务中断或数据丢失都会给企业造成巨大的损失,因此保障业务连续性对企业变得越来越重要。本文依据国务院信息办颁发的《重要信息系统灾难恢复指南》,对不同等级灾难恢复进行了业务连续性的策略研究及方案设计。
2.1业务连续性概述
2.1.1业务连续性的定义
从广义上来讲,对于信息系统而言,一切引起系统非正常宕机的事件都可以称之为灾难。灾难大致可以分为以下几种类型:
(1)自然灾难,包括地震、台风、水灾、雷电、火灾等,这种灾难破坏性很大,影响面比较广,但不常见,频率较低。
(2)设备故障,包括CPU、硬盘等设备损坏、电源中断以及网络故障等,这类灾难影响范围比较小,破坏性也较小,但比较常见。
(3)人为操作失误,包括误操作、人为蓄意破坏等。业务连续性是指当认为以上灾难来临的时候,基于建设完备的灾难备份系统切换,达到业务中断时间最短和业务数据丢失最少的状态。
2.1.2业务连续性水平指标
业务连续性水平现在一般是以数据丢失量和数据恢复时间作为标准进行评价的,所公认的评价标准是RTO和RPO。
●RPO(RecoveryPointObject):即数据恢复点目标,主要指的是业务系统所能容忍的数据丢失量。
●RTO(RecoveryTimeObject):即恢复时间目标,主要指的是所能容忍的业务停止服务的最长时间。
RPO针对的是数据丢失,而RTO针对的是服务丢失,二者没有必然的关联性。RPO和RTO的确定必须在进行风险和业务影响分析后根据不同的业务需求确定。
2.2业务连续性层次
根据国务院信息办发布的《重要信息系统灾难恢复指南》,业务连续性划分为以下7个等级:
(1)第1级:这一级别的容灾,实际上只有很低的灾难恢复能力,提供支持备份介质场外存放,只能应付CPU以及磁盘损坏等硬件方面的系统灾难,并且在这类灾难发生后,也无法保证业务的连续性,需要较长的恢复时间。
(2)第2级:这一级别的容灾,提供备份场地,能调配所需资源。能够保证CPU以及磁盘损坏等硬件方面系统灾难,但系统能够迅速切换,保持业务的连续性。
(3)第3级:在本地将关键数据备份,定时传送。灾难发生后,按预定数据恢复程序恢复系统和数据。当数据量增大时,存在存储介质难管理的问题,并且当灾难发生时存在大量数据难以及时恢复的问题。并且出现灾难时,损失的数据量也较大。
(4)第4级:通过网络进行定时数据备份。也就是通过网络以异步方式,把主站点的数据复制到备份站点,备份站点只备份数据,不承担业务。当出现灾难时,可以利用备份站点的数据进行恢复。采用了通过网络进行数据复制的方式,因此两个站点的数据同步程度要比等级3高,因此只会丢失少量数据。
(5)第5级:通过网络进行实时数据备份。也就是通过网络以同步方式,把主站点的数据复制到备份站点,备份站点只备份数据,不承担业务。当出现灾难时,数据丢失量比等4级小,数据丢失趋于零,但是仍然存在系统恢复速度较慢的缺点,可能造成系统服务的长时间停止。
(6)第6级:在异地建立一个与生产系统完全相同的备用系统。当生产中心发生灾难时,备用系统接替其工作任务。数据零损失,并能立即自动转移到灾备中心。
(7)第7级:在异地建立一个与生产系统完全相同的备用系统。它们之间采用同步的方式进行数据复制。当生产中心发生灾难时,备用系统接替其工作任务。
3.1关键技术方案设计
3.1.1数据复制保护方案设计
由于业务连续性分为7个等级,不同等级灾难恢复需要不同的数据备份、复制保护技术,故需要按照不同等级灾难恢复要求来配置不同的数据备份及复制保护措施。
(1)第1级:只提供支持备份介质场外存放,即备份介质(如光盘、磁带等)具备场外存放的条件即可满足需求。
(2)第2级:提供备份场地及调配所需资源,建议对关键应用所需数据进行复制保护,即主机采用双机热备方式,存储采用Raid方式对数据进行保护。
(3)第3级:在本地将关键数据备份,定时传送。在第2级的基础上,建议对关键数据进行磁带库备份。
(4)第4级:定时对关键数据进行数据快照,完成数据在某一时间点的静态映像,实现关键数据的快速复制与备份。
(5)第5级:通过网络以同步方式,把主站点的数据复制到备份站点,备份站点只备份数据,不承担业务。此等级的数据复制保护建议采用数据远程复制技术(IBMPPRC、EMCSRDF、HDSTruecopy等),将本地数据同步镜像到备份站点。
(6)第6级:在异地建立一个与生产系统完全相同的备用系统。通过各种数据同步技术将本地数据同步到备用系统中。目前,主要的数据同步技术分为:基于磁盘数据复制、基于数据库的复制、基于操作系统级镜像的复制、基于应用的复制。
●基于磁盘数据复制:主要是在磁盘级别对数据进行复制,包括磁盘镜象等,对生产系统的性能影响较小,但是网络带宽要求高,依赖存储厂商。
●基于数据库的复制:在主系统正常工作的同时,将主系统产生的归档日志文件(ArchivedLog)不断地传送到备份数据库系统,并且利用这些日志文件在备份数据库系统上连续进行恢复(Recover)操作,以保持备份系统与主系统的数据的一致性,此类技术依赖于数据库厂商,主要有IBM DB2 HADR、Oracle ODG/ ADG等主流技术。
●基于操作系统级镜像的复制:通过主机上安装的操作系统级镜像软件进行远程数据镜像也可实现数据的容灾。操作系统级镜像软件能将主系统卷上每次I/O操作的数据实时地复制到备份系统的相应卷上,从而实现两地数据的同步或准同步。
●基于应用的复制:由应用软件实现数据的远程复制和同步。通过应用软件每次的业务处理数据分别存入主中心和备份中心的数据库中。
以上4种数据同步技术的具体比较如表1所示。通过对比可知,适用于数据中心的数据同步技术为基于磁盘数据复制和数据库的复制的技术。基于应用的复制技术适用于特定应用场景,而基于操作系统级镜像的复制技术则占用主机资源较高,对主机性能有影响,适用于生产压力不大的系统。
(7)第7级:数据保护方案同第6级。
3.1.2网络部署方案设计
考虑到未来数据中心的发展趋势,数据中心不仅有日益增长的南北向流量,而且服务器之间交互也会越来越频繁,产生大量的东西向流量。未来数据中心网络架构需要能够支撑虚拟机在数据中心的范围内进行动态迁移。因此,数据中心网络架构及部署应满足以下特点:
表1 4种数据同步技术比较
(1)应满足大规模东西及南北向流量,高吞吐高性能需求。
(2)支持更高系统级及数据中心网络的可靠性。
(3)支持更高的随需扩展需求。
(4)支持虚机及物理机的简单无缝迁移。
由于第1~5级容灾方案主要是针对数据级保护,没有建立备用的业务系统,因此网络部署比较简单,不再一一阐述。本文主要关注第6、7级容灾方案中的网络部署设计。
根据业务连续性需求,当灾难发生后,业务系统能够自动切换到备用网络系统,并且可以直接通过备用网络访问备用数据中心。
数据中心互联方案包括局域网络延展、存储网络设计和接入网络设计(见表2)。
表2 数据中心互联方案设计目标对比
传统数据中心一般采用二/三层组网架构,POD内采用二层组网,POD间通过三层网络进行互联。虚拟机只能在一个POD内进行迁移,如果需要跨二层区域迁移,需要更改虚拟机的IP地址。
3.1.2.1局域网延展方案设计
传统数据中心一般采用二/三层组网架构,POD内采用二层组网,POD间通过三层网络进行互联。虚拟机只能在一个POD内进行迁移,如果需要跨二层区域迁移,需要更改虚拟机的IP地址。
为了更充分地利用数据中心资源,虚拟机需要更大的迁移范围,可以通过TRILL构建的大二层网络来实现。TRILL(Transparent Interconnection of Lots of Links,多链路透明互联)是将成熟的三层路由的控制算法引入到二层交换中,将原先的L2报文加一个新的封装(隧道封装)转换到新的地址空间上进行转发。而新的地址有与IP类似的路由属性,具备大规模组网、最短路径转发、等价多路径、快速收敛、易扩展等诸多优势,从而规避STP/MSTP等技术的缺陷。TRILL与传统的L2POD和L2/L3POD方案的对比分析情况如表3所示。
建议选择TRILL方案作为主备数据中心互联方案,基于TRILL技术构建的网络架构能够很好地满足数据中心业务需求。
3.1.2.2接入网络设计
接入路径优化即数据中心切换方式的选择。目前,数据中心接入网络互联主要有3种方式:手工切换、基于域名解析(DNS)以及基于RHI(路由健康注入)。3种不同切换方式的对比情况如表4所示。
通过对比可知:手工切换适用于规模不大、流量较小、业务简单的场景;RHI路由适用于业务流量较大、IP规划复杂、业务连续性要求较高的场景,但安全性存在隐患(防火墙禁用状态监测);DNS方式则需要增加相应的DNS服务器。具体的方案选择还是要在实践中根据具体的应用场景来确定。
表3 TRILL与传统的L2 POD和L2/L3 POD方案的对比分析
表4 3种不同切换方式对比
3.1.2.3存储网络设计
主备数据中心存储网络互联主要有FCIP、DWDM 及SDH3种实现方式:●FCIP是主数据中心存储网络通过SAN路由器的FCIP功能将FC协议转换为IP协议,通过IP网络与备数据中心的SAN路由器互联,实现基于FC的高速数据通信。
●DWDM接入方案将主数据中心SAN路由器接到DWDM设备上,通过DWDM设备的波分复用功能将多条FC通信,通过裸光纤传输到备数据中心的DWDM设备,实现基于FC的高速数据通信。
●SDH接入方案与DWDM方案类似。
以上3种方案的对比情况如表5所示。
表5 3种方案对比
3.1.3时间同步策略设计
主、备数据中心服务器等设备的系统时间不一致,可能会导致业务切换后,对时间敏感类应用程序的运行出现异常或者业务逻辑错误,因此在主、备数据中心内均部署一台时间同步服务器与标准源时钟实现同步,所有设备均与时间同步服务器实现时钟同步。
3.2应急与灾难恢复计划
灾难恢复计划的关键内容包括应急响应、灾难恢复和重续运行流程、灾后重建和回退流程3个阶段。
(1)应急响应流程
●灾难预警处理流程
灾难预警是在灾难即将发生时所采取的通知流程。在灾难预警处理流程的制定中,需要明确规定通知流程、通知策略和通知内容等。
●损害评估流程
灾难发生时,损害评估人员应该尽快到达灾难现场查看灾难状况和确定事态的严重程度,并且召集相应的专业人员对灾难事件进行慎重评估,确认灾难事件对信息系统造成的影响程度,确定下一步将要采取的行动。
●灾难决策流程
在灾难决策流程的制定中,首先需要确定灾难恢复计划启动的条件,启动条件可以基于以下几个方面来考虑:
——评估员工伤亡状况。
——执行灾难恢复流程的足够人员需求。
——损失是否足以构成立即宣布灾难。
——转移至灾备中心比修复此损失需花费更多时间。
——所需设备均已具备还是有些设备必须更换。
——受影响的服务的恢复时间为多少(此服务是否经过营运单位判定为关键服务)。
如果损害评估的结果达到一项或多项启动条件时,将由之前授权的人员正式发出灾难宣告。如果达到灾难恢复计划启动条件时,则继续监控事态发展和损害评估直到问题解决或者提升为灾难。
●灾难宣告流程
灾难宣告是区分灾难和一般性操作问题的重要标识。灾难的正式宣告可以让企业内部的各个部门马上提供恢复所需的资源。
(2)灾难恢复处理流程
灾难恢复从大的方面来说,包括技术恢复和业务恢复。技术恢复包括对硬件、软件、数据、网络等的恢复。业务恢复指在灾难恢复团队按照预先制订的恢复规程完成技术恢复后,技术和应用业务的人员对业务完整性、数据一致性、网点和服务渠道进行检查和审核,确定具备条件后恢复业务运作。
(3)灾后重建和回退流程
●灾后重建流程
灾后重建阶段应该设定负责重建工作的团队。这个阶段进行的主要工作有:
——确认灾难种类和应该召集的人员,并按照各项灾难情形召集各相关单位人员。
——尽快安排检查灾难现场,灾难场地有可能因为公安人员、医护抢救而被限制出入,尤其在灾难造成人员死亡的情况下。
——评估基础设施和环境,包括场地建筑结构、环境污染、设备管道损害等。
——与保险公司评估人员、硬件厂商和灾难抢救专业人员评估和决定需要抢救的设施和设备。
——确定重建方案。
——实施重建方案,包括IT系统修复重建、网络连接、系统测试、数据装载等内容。
●灾后回退处理流程
灾后重建完成后,将生产由灾备中心回切到原生产中心是一个复杂的过程。在执行前需要进行严密的计划和广泛的测试。在制定灾后回退处理流程时主要需考虑以下内容:
——恢复和充分测试验证各应用系统,保证系统和应用功能的一致性、完整性。
——生产数据的装载和验证,保证数据的一致性、完整性。
——进行网络和系统切换。
——关闭灾难备份系统。
——安排恢复人员回到原生产中心。
目前,保障信息系统的业务连续性已经是企业不能回避的问题,因此数据中心的业务连续性也凸显重要,但是保障业务的连续性需要大量的人员及投资,企业应依据不同系统的重要性划分灾难恢复等级,根据灾难恢复等级实行不同的容灾方案,实现保障业务连续性与成本的平衡。
参考文献
[1]国务院信息化工作办公室.重要信息系统灾难恢复指南.
[2]汤勇,吕英杰.数据容灾技术介绍[J].邮电设计技术,2002 (10):40-43.
收稿日期:(2016-03-29)
Business continuity of data center design
ZHANGLiang,YANGChunli,MAYuanyuan
Abstract:Currently information has become the lifeblood of the enterprise,business continuity of data center has become increasingly important;information systems disaster recovery needs to be based rating and consider business continuity strategy to explore information systems disaster recovery scenarios.
Key words:business continuity;disaster tolerance;disaster recovery