烟草远程容灾系统的研究与实现

2020-06-13 07:45伍敏
电子技术与软件工程 2020年2期
关键词:小型机容灾存储设备

文/伍敏

(四川省烟草公司德阳市公司 四川省德阳市 618000)

1 数据容灾系统建设现状

1.1 容灾中心建设要求

近年,随着烟草信息化的发展与行业发展的新形势,对基础资源环境和安全保障体系提出了新的需求:一是各主营业务系统全面实现省级集中部署,需要有相应的容灾机制确保业务的连续性和安全性,降低单一数据中心机房环境的风险和压力。二是基于“互联网+”的应用项目都需要相应的基础资源支撑,以适应未来互联网应用大规模快速增长的需求。在同城异地建设一个容灾中心,形成与现有数据中心机房物理上独立、逻辑上互为一体的“大数据中心”,来满足业务新需求,提升业务的连续性和安全保障能力。

1.2 主机存储备份系统现状

目前行业核心系统数据库一般是运行在IBM小型机上的DB2数据库环境。此处以核心系统一的DB2数据库运行在2台小型机4分区环境中,核心系统二的DB2数据库运行在另外的小型机环境中,计划迁移到x86环境,其他关键系统数据库也运行小型机环境,其他系统则运行在x86环境为例,探讨系统实现。数据中心已经建立了统一冗余的光纤存储网络(FC SAN),并有2台中高端的存储设备和1台高性能的全闪存设备。全闪存存储供核心系统一使用。此外还通过EMC NetWorker备份软件和VTL(虚拟带库)设备建立了一套统一的备份平台,数据库及重要数据备份到该平台中。

1.3 目前存在的主要问题

目前行业系统普遍存在以下问题:其一是核心应用系统虽然在主中心有HA双机高可用机制,但受制现有机房供电、制冷等因素限制,仍不能保证业务连续性需求;其二是磁盘阵列易发生安全问题,导致数据无法存储、读取,进一步影响到业务的连续性需求;其三是信息系统未能实现远程灾备,一旦数据中心发生灾难,将影响到省内各个市(州)公司的业务运转;其四数据备份在本地带库中,难以针对数据的真实性、可用性做出精确判断,备份数据本地存放,数据安全难以保证;其五是RTO、RPO指标均较低,无法确保在灾难发生后实现数据及业务的快速有效恢复。

2 异地容灾系统的设计方案

2.1 大二层网络

在未统一使用DNS的情况下,考虑到核心应用数据库与全省各市州本地物流应用前置环境进行了数据联邦,如果主数据库环境迁移后IP发生了变化,那么会导致联邦失败,从而影响整个物流分拣业务的正常工作。因此在网络设计时考虑了采用大二层网络设计,保证两中心之间迁移,不改变服务IP。大二层网络示意图如图1所示。

图1:大二层网络示意图

图2:应用级容灾架构示意图

通过租用波分通道,实现了两中心业务网络和存储网络互联。其中两路波分通道之间与两中心核心交换机互联,形成大二层网络环境,保证主机在两中心切换服务IP不变。各市州公司还新增一条到容灾中心10Mb/s MSTP线路,一来保证市州公司到容灾中心的访问,二来降低两中心间中继线路压力。

2.2 新增主机

核心系统一和核心系统二,在建设时采用应用级容灾方式。核心系统一,采用同级容灾模式,在容灾中心新增一套与现有系统相当的计算环境。主数据中心内主机为IBM E850小型机,在容灾中心则新购2台浪潮K1 Power小型机,CPU类型、CPU核数、内存、操作系统等均于源环境一致。核心系统二,先把原来小型机环境迁移到x86环境,然后在容灾中心新增两台与主中心处理能力相当的x86服务器作为容灾备用环境。应用级容灾架构示意图如图2所示。

2.3 数据复制平台

两个数据中心之间生产数据复制是本项目重难点,选择不同的实现方式,则有不同的容灾设计方案,方案论证时,进行了不同方式比较。

2.3.1 数据复制技术

容灾数据复制技术包括基于应用层数据复制、基于主机层数据复制、基于存储网络层复制以及基于磁盘设备复制这几种方式。基于应用层主要是利用数据库或者数据复制工具来实现数据远程复制,基于主机层数据复制,主要通过主机操作系统自带或者第三方提供的卷管理器来实现数据的远程复制。利用逻辑卷管理功能。基于存储网络层实现的数据复制是I/O在联机专用设备或光纤通道(FC)结构中被分离,I/O分流器分析入站的写I/O的目的地址,如果地址是复制卷的组成部分,则将这次I/O的副本转发给复制目标,从而实现卷复制功能。存储虚拟化网关设备(以下简称虚拟化网关)是在存储网络复制的基础上,还可整合多家厂商存储设备的存储资源,重新合理分配,供前端服务器使用。基于磁盘设备层的复制是存储控制器实现的设备级数据远程镜像或复制的解决方案,是一个非常成熟的解决方案,但无法提供足够的灵活性,且成本较高,并不能保护用户之前在存储上的投资。

2.3.2 数据复制平台

基于上述几种技术的评估论证,最终认为存储虚拟化网关的方式可以使生产端存储设备和容灾端存储设备异构,不占用服务器和存储阵列资源,运维简单统一,还可以整合前端异构平台的服务器和后端不同品牌的存储设备,本地端和灾备端的设备无需成对配置,保护用户投资和降低用户在存储设备方面的投入。代表产品包括IBM SVC或EMC VPLEX等,现一些主流存储设备也提供了存储虚拟化功能。数据复制平台结合在容灾中心新增的主机设备,结合集群软件搭建本地数据库高可用环境,通过资源池资源,新部署应用集群,从而在容灾中心实现应用级容灾环境。

2.3.3 复制链路带宽测算

数据复制方式可以为同步方式,也可以为异步方式。如果采用同步复制方式,RPO可以趋近于0,但对两中心存储网络带宽和时延要求极高,如果时延RTT(往返时间)超过10毫秒,对生产端性能影响较大。如果采用异步复制,需对链路带宽进行合理评估测算,在经济性和RPO指标方面达到合理平衡。

经过前期跟踪,目前核心系统1个小时总的数据变化量(即写入数据量)大概为79416MB,要在1小时(3600秒)传送完成79416MB的数据,那最基本带宽要求是(本文中以10Mbps带宽≈1MB/s来估算):

异步数据复制最小带宽要求:可按照以下方式估算:

根据前期监控,业务高峰期IO写入带宽540MB/s,平均持续时间20秒,这20秒时间内总写入数据量为:

要把这个高峰期的累积的数据传完,假定此时不再有新的写入数据,在最低带宽下将这些累积的数据传送完毕需要多少分钟。

经过计算,可看出在假定没有新数据写入的情况下,数据滞后9分钟。如果此时数据源出现故障,那这9分钟的数据因为没有传送到目的存储,将会丢失。如果按照RPO≤1分钟要求,那最小带宽应该约等于1Gb/s。目前整个数据约8TB,第一次进行数据复制需要83886秒(约24小时)。综上分析估算并考虑预留后,租用1Gbs线路既满足RPO≤5分钟需求,也能在初始时大约用1天的时间完成数据初始同步。在实际测试时,因设备具备消重、压缩等功能,第一次实际耗时不到20小时。

2.4 数据级容灾

为满足数据级容灾要求,利用本次新购的Veritas Netbackup一体化备份设备,同时改造原有备份系统,在原物理服务器上部署Veritas Netbackup备份软件,利用其AIR (Auto Image Replication)功能,实现了将两中心备份数据互相备份功能,满足了备份数据异地存放需求。

备份数据从主中心到容灾中心,或者是容灾中心到主中心,链路是通过业务网络完成。因白天该链路供用户访问使用,在制定复制策略时,时间窗口需要错开业务使用时间,一般是利用晚上完成。随着数据量的不断增加,该带宽可能会成为瓶颈,这是下一步跟踪分析处理的重点。

2.5 容灾切换管理

当业务主中心发生灾难时,业务系统从主中心整体切换到容灾中心运行,容灾中心全面接管主中心业务。因灾难发生的不可控性以及灾难恢复的时效性要求,因此容灾中心应具备实时按流程进行快速接管的能力,以降低经济损失和社会影响。

结合Veritas InfoScale软件套件中的Operations Manager管理软件中的流程编排功能,并通过定制开发,实现了可按照预先制定的切换步骤,以直观的界面来执行,每个步骤可自动执行也可手动执行,同时还可对切换过程中出错的部分进行人工修复操作,从而大大提高容灾切换的时效性。

3 系统实现

经过近3个多月的实施,在容灾中心利用新购的小型机设备、x86服务器设备、存储设备、备份设备、以及切换平台软件,在容灾中心新搭建了存储平台、数据复制平台,虚拟化资源池平台、小型机双机平台等,在2019年国庆期间进行切换后,将核心业务一迁移到容灾中心作为主中心运行。稳定运行2个月后,11月底在切换管理平台的控制下,又回切到本地数据中心运行,运行一周后又再次切换回容灾中心运行(容灾中心作为业务主中心),完全达到目标要求。

4 结论

本文通过采用存储虚拟化网关技术来搭建数据复制平台,利用备份软件的自动备份镜像复制功能以及新增主机的设计方案,可在灾难发生条件下利用容灾中心主机接管新增磁盘阵列、实现业务数据的异步复制,通过切换管理平台快速有效进行容灾切换来实现核心应用级容灾和其他应用数据级容灾,大幅缩短系统宕机时间、强化数据安全保障,为公司业务连续性运营提供了重要的技术支持。

猜你喜欢
小型机容灾存储设备
关于建筑企业容灾备份系统方案的探讨
基于中兴软交换的电力通信网络容灾系统建设
Windows 7下USB存储设备接入痕迹的证据提取
Oracle集群常见故障三例
基于Flash芯片的新型存储设备数据恢复技术研究
小型机:背水一战
用批处理管理计算机USB设备的使用
实施存储虚拟化及应用容灾保障医院信息系统业务连续性