管东升 李俊安
摘 要:近年来,随着我国电子政务系统建设的不断深入完善,其重要性和意义已越来越凸显,相应的对其安全性与可用性也提出了更高的要求。为了在遇到各类信息系统灾难时能够快速恢复,作为维持电子政务系统正常运行,保障关键政务数据长期可用的重要措施,电子政务信息系统的灾备系统建设越来越受到关注。文章以项目为例介绍了电子政务信息系统灾备建设的步骤、指标设计和测试过程, 希望为类似项目建设提供借鉴,更好地推进我国电子政务灾备系统建设。
关键词:信息化建设;灾难恢复;电子政务
中图分类号: TP309.3 文献标识码:A
Abstract: The importance and significance of e-government system construction in China has become more and more prominent, which puts forward higher requirements for its availability. In order to recover quickly in the event of various information system disasters, as an important measure to maintain the normal operation of e-government system and ensure the long-term availability of key government data, the disaster recovery system of e-government information system More and more attention has been paid to construction. Taking the project as an example, this paper introduces the steps, index design and testing process of e-government information system disaster recovery construction, hopes to provide reference for similar project construction and better promote the construction of disaster recovery system of E-government in China.
Key words: information technology; disaster recovery;E-government system
1 引言
容灾备份恢复(Backup and Prepare for Disaster Recovery,本文简称灾备)是指为了能够在灾难发生时,在尽可能短的时间内,以尽可能小的数据丢失量快速恢复信息系统的正常运行而做的数据备份和其他准备工作。
对于信息系统来说,灾难不仅包括通常意义上所指的自然灾难,还包括各种由于人为或自然的原因,造成信息系统运行故障或瘫痪,使信息系统支持的业务发生停顿或服务水平不可接受等各类突发性事件。信息系统的灾备体系是指以数据备份为核心,对不同类型的政府信息资源所实施的数据备份、系统备用、灾难备援等一系列技术和管理手段的总称。
灾备系统的建设在银行保险等信息化和业务敏感度程度高的行业已经成为惯例,而对于政务系统来说还不算普遍。伴随着我国电子政务信息化建设的不断深入,政务信息系统已成为行使职能的重要抓手,行使职能越来越依赖于信息化手段,对于系统的可用性要求也就越来越高。对于政府来说,信息资源的灾备体系是维持电子政务系统正常运行,保障关键政务数据长期可用的重要措施。
2 灾备信息系统实现过程
2.1信息系统灾备的基础作用
信息系统三大核心指标是机密性、可用性和完整性。而灾备系统受到关注就是因为其显著提高信息系统的业务可用性。
信息系统灾备的建设需要首先完成业务连续性规划(BCP),确认确保业务正常运转所需的资源会提供给依赖他们的所有人和系统,这意味着需要认真的执行备份,并且在信息系统架构、网络和操作建设冗余。虽然以往在提到信息系统灾备建设时,可能首先关注的是备份数据和提供冗余硬件上,这些是非常基础和重要的,但他们只是业务整体运行体系中的一部分,人员配置和操作也同样应该受到关注。因此,灾备项目的推进需要采用自上而下的体系方法,由管理层推动项目,统筹规划,全员参与。
2.2 业务连续性规划
灾备系统的建设是为了尽可能快速全面恢复信息系统业务的正常运行,那么进行灾备建设的基础就必然是全面梳理业务,进行完整的业务连续性规划。进行业务连续性规划时应当考虑的因素有出现紧急状况时提供及时和适当的应对措施、保护生命和确保安全、减少对业务的影响、尽快恢复关键业务功能、需要与外部供应商和合作伙伴等。
美国国家标准与技术研究院(NIST)在其出版的800-34中概述了信息技术系统的业务连续性规划指南,其描述的业务连续性规划主要内容和工作为七项:
(1)制定业务连续性规划策略,提供必要的指导文档,并给相关部门分配必要的职位来完成任务。
(2)进行业务影响分析,识别关键系统和功能,并允许根据功能和系统的必要性,对其进行优先排序,识别漏洞和威胁,并计算风险。
(3)制定预防性控制措施,一旦识别到威胁,需要确定并实施控制和对策,以权衡經济的方法来降低组织的风险级别。
(4)制定恢复策略,制定方法确保系统和关键功能可以快速恢复。
(5)制定应急计划,制定在应急状态下可以保持业务正常运行的措施和方案。
(6)测试计划及进行培训与演练,确定连续性计划中的不足,进行培训以确保个人对他们应负责的任务做好充分准备。
(7)维护确保BCP定期更新。
2.3 灾备建设的关键指标设计概念
在业务连续性规划中业务影响分析期间需要科学制定出指标值,从而能够把关键资源投入用于具体的业务功能、资源和数据类型中,保证灾备项目建设的科学合理以及经济。
业务连续性规划中涉及到相关的关键指标和概念有MTD、RTO、RPO、WRT等。
最大允许中断时间(MTD)指某个业务功能出现故障但是不会对业务产生无法弥补的损失的最大终端时间。
恢复时间目标(Recovery Time Objective,RTO)指为避免在灾难发生后业务连续性中断带来不可接受的结果而使业务流程必须恢复的最早时间期限和服务水平,RTO通常指使得基础设施和系统恢复运行的时間。
恢复点目标(Recovery Point Objective, RPO)指最大可容忍的数据丢失量,用时间来衡量,这个值代表着数据必须恢复的最早时间点,数据量越大,意味着要投入的资金或者其他资源越多,才能确保在灾难事件中损失的数据越少。
工作恢复时间(Work Recovery Time,WRT)指整个MTD值的剩余。
RPO、RTO、WRT和MTD相互之间的关系如图2所示。
要达到不同的RTO、RPO目标,就需要不同的恢复技术,同样也需要不同的建设成本和实现的技术复杂度。同步复制技术的恢复时间可以做到几小时内,需要付出的成本和实现的复杂度最高,异步复制需要几小时到几天,磁带恢复需要几天以上,成本和实现复杂度最低。
3 政务灾备系统建设参考
3.1 电子政务灾备系统的意义及背景
国家规定了必须建立灾备基础的8个重点行业,包括金融、民航、税务、海关、铁路、证券、保险、电力行业,同时要求各基础信息网和重要系统建设要充分考虑抗毁性和灾难恢复,制订和不断完善信息安全应急处置预案。2005年4月国务院信息化工作办公室下发的《重要信息系统灾难恢复指南》目前仍是我国灾难备份纲领性文件。《GB/T20988-2007 信息系统灾难恢复规范》是国家级参考标准。
但是,灾难备份是一个系统工程,其建设和维护专业性要求非常高。如何摆脱灾备系统成本高、建设难的困扰,仍是目前各地政府数据异地集中备份首先需要考虑的问题。
当前各地政府以实际基础情况在推进本地电子政务灾备系统建设,例如北京市和上海市这类信息化基础较好的地区都已经建设了全市统一的电子政务灾备中心,以提高抵御灾难和重大事故的能力,减少灾难打击和重大事故造成的损失、确保重要信息系统的数据安全和作业连续性,避免引起社会重要服务功能的严重中断,保障社会经济的稳定。
3.2 电子政务灾备系统指标设计
对于电子政务系统来说,选择什么样的灾备模式要受到政府信息资源的重要程度甚至涉密程度、政府组织灾备专业人才的数量、管理便捷性,以及各种灾备模式的容灾能力、容灾成本的高低等因素的制约。
一般对电子政务中重要业务系统应实现异地数据级灾备,核心业务系统应该实现异地应用级灾备。同时,对于数据存储及容灾业务应预留扩展能力,方便依据后期情况展开升级建设。
例如,某地灾备项目最终针对不同应用场景,设计出灾难发生后不同级别的业务系统恢复时间(RTO)和系统在此期间数据丢失程度(RPO)指标有三点。
核心应用系统:恢复耗时RTO<2小时;数据丢失RPO<1小时。
重要业务系统:恢复耗时4小时 一般业务系统:恢复耗时RTO大于1天;数据丢失RPO大于1天。 根据业务的重要程度采取不同的容灾备份策略,重要业务系统采用异步复制方式实现数据级灾备,核心应用系统采用双活容灾解决方案实现应用级灾备。 针对上述中核心业务系统实现业务恢复的容灾备份需求,建设方采用在异地灾备中心建设资源池,支撑灾备中心实现应用系统的应用接管功能;按照现有核心业务系统的规模和业务类型,配置服务器,重点进行业务连续性保护,考虑业务负载,配合实现高性能备份存储,以保证输入输出能力、吞吐能力的合理支撑,且后续可继续平滑扩展。 建设方案最终使用传统的IP连接将磁盘数据复制到异地备份系统,实现数据的异步更新。在源地发生灾难后,可以将异地站点的数据反向复制到源。为了保证数据能够恢复并保持有效,需要定期的在原始数据中心,在进行正常生产的情况下进行灾难恢复演习。 远程复制原理为当数据写入时,同时会存入缓冲池,缓冲池文件通过IP 进行数据传递,直至完全传递到异地的设备中;异地中的容灾卷,可以执行本地所有的功能。 3.3 电子政务灾备系统测试过程 为测试灾备系统的建设效果,对灾备系统测试,测试要求及过程为两项内容。 (1)灾备基础环境要求 在异地容灾机房中,应用主机、机房用电、网络都完全具备主站点灾难恢复的条件,一旦发生灾难,可直接在容灾机房进行恢复,需要完全热备站点。 (2)测试内容 1)数据恢复(数据级灾备)。数据恢复是利用远程复制功能,通过异步同步来实现本地机房数据库数据复制到容灾端,在灾难发生时,创建当前时间的快照,将快照映射给灾备应用服务器,来实现应用数据恢复,查看测试恢复时间和数据丢失程度是否满足系统要求。 2)应用恢复(应用级灾备,以门户应用为例)。应用恢复测试时应保证本地双活组对应的数据磁盘已经建立好远程复制并初始化完成,本地双活组与灾备端网络互通,相应的端口已经开启。 测试过程包括检查本地卷状态,检查卷是否正常映射到门户服务器,检查灾备卷状态,检查灾备端新建快照拉起验证,新建快照(在灾备端),映射到灾备主机,最终灾备端查看应用门户是否正常。在功能实现的基础上,查看测试恢复时间和数据丢失程度是否满足系统要求。 4 结束语 本文对灾备系统在电子政务类信息系统中的意义及推进建设的过程步骤考虑进行了阐述,并介绍了指标设计思考和针对不同类型的测试过程,希望本文的分析和研究能够为我国各地电子政务灾备系统的建设提供参考和借鉴。 参考文献 [1] 赵生辉,侯希文.政府信息资源灾备体系建设模式综述[J].电子政务, 2011(7):41-47. [2] 杨义先,姚文斌,陈钊.信息系统灾备技术综论[J].北京邮电大学学报, 033(2):1-6. [3] 姚文斌,伍淳华.中国灾备标准和产业发展现状[J].中兴通讯技术(5):6-9+19. [4] 胡晓燕.城市电子政务灾备中心建设方案研究[J].计算机安全, 2008, 000(001):71-74. [5] 朱洪斌, 王重, ZHUHong-bin,等. 应用级灾备关键技术研究[J]. 电力信息与通信技术, 2011, 09(12):40-43.