范宁军
【摘要】 随着通信网络不断发展以及业务需求规模不断扩大,安徽联通面向网络、业务、客户的运维支撑体系建设也随之变得日益复杂。运维部门必须要能够实现网络、业务、客户问题的“可视”、“可控”、“可分析”、“可溯源”,这需要长期的数据存储备份来支撑。同时针对网络设备不断增多,网络数据量不断增大的情况,对信息安全要求也越来越高,而数据备份是数据高可用性的最后一道防线,其作用是在网络系统崩溃或受灾时能够快速恢复数据。安徽联通运行维护部紧跟技术发展脚步,结合本省工作实际,对数据集中备份及数据库容灾技术应用进行了深入研究,通过搭建部门级的高速SAN存储网络,实现服务器、存储、虚拟磁带库等IT设备的互联互通。最终形成了多业务系统共享的存储备份资源池,完成业务数据的高速共享和集中保护的建设目标。
【关键词】 集中备份数据库容灾 SAN存储网络 LAN-Free Shareplex
一、引言
中国联通安徽省分公司(下简称安徽联通)在全省共有17个市级分公司、65个县级分公司,员工总数超过4000人,固定资产规模近90亿元,建成了全省覆盖率超过98%的GSM、WCDMA移动通信网络和覆盖全省的集基础网、业务网和支撑网为一体的现代化固定通信网络。
随着业务的飞速发展,各网管业务系统每天都会产生大量的业务数据,这些业务数据每天都会面临因为物理、逻辑和人为误操作所造成的破坏。目前安徽联通运维支撑体系已经累积了海量的不可逆数据,一旦被破坏,将会给企业带来巨大的经济损失和社会不良影响!因此,建立安徽联通运维支撑系统的集中备份和数据库容灾系统日趋重要。
二、集中备份与数据库容灾面实施应用
2.1 实施背景
安徽联通目前已建设完成综合体系的近二十套网管支撑系统,这些网管支撑系统是在不同时间,由不同的业务软件厂商单独建设的。在以往的运营商建设模式中,缺乏对底层IT平台的统一规划设计。纷乱无序的系统建设方式对业务数据的保护上存在以下几个主要问题:
1、存储设备的单点故障问题:各自业务系统中,数据库服务器都是直连一台单独磁盘阵列设备。磁盘阵列设备都是硬件厂商的中低端型号,随着使用年限的增加,设备出现物理故障的概率越来越大,业务数据丢失的风险也越来越大。
2、数据备份手段落后:传统的数据保护方法都是通过手工方式不定期的对重要业务数据进行手工备份(数据库导出、文件拷贝、操作系统备份),这种备份方式存在较多的问题,主要体现在以下几方面:(1)管理难度大,大量手工操作,备份人工管理,各备份系统分散;(2)数据恢复成功率不高,各备份数据管理不统一,存在数据损坏或无法索引,手工恢复操作不成功的情况;(3)无法防范在线存储设备故障造成的业务数据丢失;(4)发生故障后,业务数据的丢失量较多,恢复时间较长;(5)造成投资浪费,大量重复采购,小型系统的扩展性差、软件升级困难。
3、集中数据容灾中心上线后,有效实现以下目标:(1)数据保护集中,将大量分散的备份整合为一个整体的备份系统,集中配置备份策略,集中控制数据备份和恢复作业。(2)减小对业务的影响,采用高效的备份手段,缩短备份窗口时间,通过对数据库的准实时备份机制,不影响业务的正常运行。(3)易于恢复,能快速实现数据恢复,具备灵活的恢复方式。(4)减小分散系统建设投入,降低备份管理成本,资源整合实现绿色环保。
2.2 数据备份建设方案
2.2.1 数据备份系统总体结构设计
本次项目建设中的数据备份系统架构如下所示:在本项目中,我们采用集中统一的备份策略管理,通过单一的备份服务器,对整个部门数据库和应用系统的备份工作进行统一管理和监控。
2.2.2 系统组网
系统的主要包括:①IBM X3650 PC服务器为Netbackup软件的主备份服务器,连接到局域网。本机上的数据通过直接备份到磁带库中。它还负责整个备份系统的策略管理和恢复管理工作。②在LAN和SAN中其他的数据库服务器,作为NetBackup Client,连接到存储局域网中,并安装相应的数据库Agent,在线备份数据库,然后直接通过LAN和SAN将数据传输到备份服务器上进行备份。③一台大容量虚拟磁带库EMC DD630,负责在线数据备份和恢复。④一台利旧的物理磁带库Sun L25,负责需要长期保留的备份数据归档。
2.2.3 数据备份软件选择
本方案中采用Symantec功能强大的NetBackup 系列企业级备份软件,对业务数据实现LAN+LAN Free方式备份,本次备份方案中备份软件包括:①备份服务器,NetBackup Server,负责管理整个备份域和备份设备,可以实现跨平台数据集中备份,包括建立备份策略,跟踪备份作业,备份设备管理,管理备份/恢复操作等,是整个备份系统的核心;②备份客户端,NetBackup Client,需要备份数据的服务器或主机;③数据库备份选项,NetBackup DataBase Option,可实现对数据库数据的在线备份,在备份过程中不需要停止数据库;NBU支持Oracle、SQL Server、DB2、Informix等主流数据库系统;④磁带库支持,NetBackup Tape Support;⑤虚拟带库支持,NetBackup Virtual Tape Support,NetBackup备份软件支持对虚拟磁带库的备份。
2.2.4 磁带库系统
本项目中我们使用虚拟磁带库+物理磁带库组合的方式。其中虚拟磁带库以近似于磁盘的数据读写速度成为在线数据备份设备的首选,而物理磁带库作为需要长期归档的业务数据的最终存储空间。
2.2.5 备份系统日常策略管理
(1)操作系统及应用系统备份策略。操作系统及应用系统的备份采用全备份+增量备份的方式。在每个月初(或者系统发生重大修改后)进行一次全备份,后续每日进行定时增量备份。在实际工作中,系统上线后,操作系统和应用软件不会出现频繁的升级或者修改,因此此部分备份数据量不大,对系统资源和磁带的消耗也很小。(2)网管业务数据备份策略每日备份:备份当前月的每天产生的新业务数据,确保当前月工作库中所有的数据库表的数据安全性和数据结构的完整性,将由因硬盘损坏等原因造成的数据丢失损失降至最低。每月归档备份:归档备份当前月的所有业务数据。在每月末进行,对整月数据进行一次全备份,备份完成后,该月数据可以考虑离线,仅作为查询的数据归档使用。(3)网管业务数据库备份策略。数据库备份从备份技术上可以分为离线备份与在线备份两种,鉴于生产库无法中断的原因,目前进行的数据库备份都是采用在线备份的方式进行。(4)数据库备份方案应该以物理备份为主、逻辑备份为辅的方式进行。①数据库物理备份。每周应作一次物理全备份,保存周期为一个月;每月未应保存一次全月数据物理全备份,周期为一年;每天作一次增量备份,保存周期为一周。②数据库逻辑备份。每周作一次全备份,每天作一次增量备份,保存周期与物理备份相同。
2.2.6 网管业务数据恢复策略
数据备份的唯一目的就是为了保证在线数据损坏后能够恢复到最近备份点,因为它关系到系统在经历灾难后能否迅速恢复。业务数据的恢复可以分为三个级别:全系统数据恢复、个别数据恢复、数据重定向恢复。①全系统数据恢复是在应用在服务器发生意外灾难导致数据全部丢失时才会使用的数据恢复手段,在实际系统操作时很少使用。②个别数据进行恢复:在实际生产环境中,个别数据恢复的概率会比较高,相比全数据恢复而言,个别数据恢复的操作也比较简单。
2.3 数据库容灾建设方案
集中数据中心建设除了要满足支撑系统的数据备份外,考虑生产系统不能停机,在发生故障时要能快速切换系统,恢复业务,这就要求必须具备主生产数据库的实时备份容灾功能。
(1)数据库复制系统拓扑;(2)数据库复制实现功能;(3)快速应用接管。数据中心任何计算机系统硬件、软件、应用故障不影响整个中心的处理工作;发生故障时,有备份数据中心能够立即接管关键应用,继续运行;主数据中心恢复后,应用、数据可以迅速切换回主中心运行。(4)强大的数据恢复能力。通过快速、精确的数据复制功能,能够实时维护生产数据库的远程拷贝,在灾难发生时只有很少或没有数据丢失,极大程度地保证了数据的有效性。(5)消除计划内停机时间。由于在主中心和灾备中心采用了数据库复制方案,企业可几乎完全消除系统的计划内停机时间,而不用考虑在此期间进行何种维护工作,如操作系统升级、数据库升级等。(6)在线数据可访问。由于数据库复制软件独特的实现机制,容灾系统的数据可访问。容灾数据库的在线使用能够提高容灾系统的投资回报,增加容灾系统的利用价值。
三、实施成果
安徽联通的集中数据中心建设项目,有效实现了由原先以各自的单独系统建设方式向统一集中数据中心建设方式转变,紧跟技术发展潮流,改变传统观念,跨出了创新的步伐。
四、展望
随着虚拟化技术和云计算的逐步推广应用及日益增长的TB级海量存储的需求决定了在不久的将来,云存储将部分取代传统存储成为主流存储架构,新技术的不断发展必将推动数据中心的迅速发展。安徽联通的数据中心也将分阶段实施,满足公司业务发展的数据快速增长需要。
本次集中数据容灾中心平台建设为后期整个支撑系统进行集中数据备份及异地灾备建打下良好的基础,可通过新的存储备份技术的引进,提高运维水平,同时进一步细化备份恢复作业流程,引入周期性验证体系,实现全新的数据中心管理模式。
参 考 文 献
[1] 王改性,师鸣若. 数据存储备份与灾难恢复[M]. 电子工业出版社
[2] 王淑江. 网络存储·数据备份与还原[M]. 电子工业出版社
[3] 《虚拟化与云计算》小组. 虚拟化与云计算[M]. 电子工业出版社