◆黄 硕
企业数据中心业务连续性保障体系建设实践
◆黄 硕
(山东省专用通信局 山东 250001)
为适应市场需求,企业陆续开始数字化转型,数据不只在生产控制和企业运营中发挥着重大作用,甚至作为业务的一部分向用户开放,为企业创造价值。企业数据中心作为承载信息化系统的基础,对确保业务连续性有着重要作用。该文以某集团公司的数据中心为例,在明确组织和指导方针的前提下,经过分析、设计、实施、验证[1]四个过程,在IT层面构建业务连续性保障体系,为企业信息化业务提供可靠的支撑。
数据中心;业务连续性;应急预案;灾备
随着数字化技术的不断推进,某集团公司高度重视信息化建设,在集团总部新建数据中心,将各分公司分散的信息化系统整合,统一管理维护。数据中心承载了企业ERP、OA、MES、网站、财务管理等各类应用系统业务,同时,企业正在研发智能平台,准备对外提供信息化服务。随着业务系统的增加,对数据中心的可靠性要求越来越高,如果发生中断,将对企业的正常生产运营工作带来重大损失。因此,企业决定在数据中心构建业务连续性保障体系,确保数据中心运行稳定。业务连续性保障体系不只是简单的备份和恢复操作,而是包括事前的风险评估、BCP(业务连续性计划)制定和演练,储备应急物资,事中的监测和巡视,事发时的障碍处理,人员协调,汇报等制度流程,以及事后的总结改善等一系列内容。
该企业数据中心按照《数据中心设计规范》GB50174-2017的A级机房标准进行设计建造,配置了电源、服务器、存储、通信设备、安全设备和环境监控设备,符合等级保护2.0三级防护要求,租用运营商互联网出口以及至各分公司的VPN专线。总部和各分公司内部通过光纤组建局域网。计划与运营商合作采用5G技术替代原先的光纤或无线WIFI组网,实现智能工厂现场设备数据的链接。数据中心配套建有统一的监控中心,有专门的运维团队负责信息系统的维护工作并实行24小时监控管理。“灾备系统”计划通过租用某公司云服务器业务实现,只对关键系统通过云端进行热备份,其余系统进行定期的数据备份,以降低“灾备系统”建设成本。
制定保障体系方案前,需要对现有业务的使用情况、业务可用性要求、网络抗风险能力以及可能发生的风险进行了解和分析,确保应急处置方案能够顺利实施。同时,也能够通过区分维护等级,按照不同的标准进行防护和处置,降低成本。
首先对需要进行保障的内容进行分类,例如:“动环”监控系统、互联网业务、供配电系统、ERP等,便于后期保障方案的制定。通过调研,了解业务系统的现状和影响。包括数据中心所承载的业务使用情况,业务占用的资源,业务涉及的部门或用户,明确上级对业务重要性的定位,了解系统维护现状。通过假设分析,列出业务中断或异常时,在使用流程中各环节的影响情况,估算RTO和RPO,但也需要找出重要的时间段加急处理,以“动环”系统为例,具体内容如表1所示。
表1 业务和影响分析表
分析该业务可能受到的威胁,以便针对威胁制定相应的风险应对方案。以“动环”监控系统业务为例,如表2所示。
表2 “动环”监控系统威胁分析表
该部分需要了解以下三个方面的内容:一是管理层重视程度。该企业从高层就高度重视数据中心的业务连续性体系建设,要求各部门相关人员在方案制定和应急处置时积极配合各项工作。二是应急物资储备情况。该企业信息化负责人要求按照配置管理的规定,对现有备件、材料、工具仪表等保障资源的种类、数量、放置位置等信息进行核查,定期检查维护资料的可用性和准确性,确保能够准确定位故障。三是技术防护能力。从系统设计时,就考虑到了冗余架构,通过双链路、双设备、双板卡等方式进行保护。评估中心所承载的软、硬件的备份能力,了解其恢复方法。对厂家的支持能力进行了评估,明确支持细则。
保障方案的设计是针对突发的系统安全事件提出的,需要从监测开始,对业务的全过程进行管理,包括监测、备份、应急预案等,应用技术与管理等手段,确保业务的持续性运行[2]。
监测与预警作为确保业务连续性最常用的环节。虽然不能阻止障碍的发生,但可以通过及时发现以降低突发事件造成的影响。监控方案需要明确监控人员的职责、监控内容、记录规则、告警阈值,以及通知流程等事项[3],使其作为安全防护的第一道防线。现场的设备巡检也同样重要,需要明确维护人员巡检的周期、巡检内容,以及对应指标等。同样,对巡检中发现的问题,也需要有明确的报告机制、指定人员和权限。
数据中心中的各类设备可进行整机备份、板卡备份、链路备份、软件备份等,根据保障级别的不同,也可以分为热备份,冷备份和温备份[4]。
热备份方案用于对连续性要求高的业务,不允许业务中断。备份系统也处于工作状态,通过同步、镜像等方式保持与在用系统的同步性。冷备份方案用于一般业务,中断后,根据RTO/RPO的要求,制定备份计划,对于硬件或软件安装包,可放置于备件库内保管,对于数据,可做好离线备份计划,确定周期,并做好版本登记。温备份比较折中,备份系统处于带电运行状态,但不参与系统运行,需要定期同步数据。温备份系统中可根据实际安装多个业务系统,作为应急使用。
对于系统的重大变更操作,无论选择哪种备份方案,都需提前将数据进行备份,并做好版本登记。
应急预案是业务连续性保障的关键环节,几乎涵盖确保业务连续性管理所需的全部工作内容,为应急响应工作提供重要的指导[2]。对于应急预案的内容,国家有相应的标准[5]提供参考。详细的内容以及业务影响分析结果、威胁分析和应急资源情况和应急演练方案模板等内容,均可作为应急预案的附件,以便更好地指导实际工作。应急预案大致包括以下几个部分:
(1)角色及职责
该部分明确应急事件在企业内部和外协组织中,明确管理、实施及运维的组织设置和职责分工,可通过建立呼叫树的方式使人员和职责更加清晰地展现。
(2)预防和预警机制
明确应急事情发生前的各项预防工作,详细见3.2和3.1章节。
(3)应急响应流程
一是事件通报机制,明确事件发生时的通知规则。二是事件分类和定级机制,将系统各类安全事件明确类别和优先级,对应不同的保护模式。三是现场处置内容。发生应急事件后,进行何种操作等。四是恢复流程。需将为抢通业务而做的应急操作,及时恢复正常,使系统具备持续保障的能力。
(4)应急响应保障措施
需要高层明确的支持内容,包括制度、人员、奖惩、物资、电力保障、辅助软件、甚至移动应急保障系统的建设等,使应急预案能够顺利实施。
该企业面向IT运维人员,组织了两种类型的培训。一是安全教育。通过案例,讲解安全的重要性,提高企业IT“运维”人员的忧患意识和危机意识,并在安全教育,介绍企业的业务连续性保障制度。二是技术培训。有针对性地提高维护人员的业务水平,使其在应急处置时,能够准确判断障碍并及时恢复业务。
企业对应急物资的购置较为及时,每年有针对应急物资的采购预算。企业应急物资种类涉及设备、辅材、软件、工具仪表等,规格和数量庞大,且定期更新,为降低障碍处理历时,常用物资甚至放置在了现场,使物资较为分散。因此,企业对应急物资储备库,实行了电子化管理,详细记录了物资的情况,并做好出入库的登记,便于紧急情况时快速定位资源。对应急物资,还需要定期进行功能测试,确保其可用性。
按照业务连续性保障体系中的各方案要求,做好事前,事中,事发,以及事后的各项工作,并在实践中随时发现问题,及时提出整改意见。
应急演练是验证业务连续性保障能力的有效途径,没有演练过的应急预案,因无法验证其有效性,甚至不能作为正式版本的预案推行。
该企业要求公司全部人员每年均参与应急演练。涉及指挥能力、技术能力及业务方面的应急水平。每次演练反复论证演练方案,确保演练有效,但风险最小。
应急演练方案一般包括目的和预期、范围、人员和职责、时间地点、详细步骤和方法,演习前的准备工作,演练异常的处理措施,注意事项等内容。演练的模式分为了虚拟型、突袭型、计划型三类。虚拟型为邀请专家和相关人员对方案进行论证。突袭型为控制演练方案的知晓范围,验证企业的真实应急处理能力。计划型为传统的演练,涉及范围广,人员多,频率高,目的是真正出现障碍时,能够有序开展处置工作。演练后,该企业会进行复盘,及时总结并处理演练中发现的问题。
对各项业务连续性保障方案,需要定期进行符合性检查,验证方案涉及面是否完整,是否在公司有效推行。也要进行实质性检查,测试相关因素是否正常,确保方案的可行性。
企业数据中心业务连续性保障体系的建设,为IT“运维”人员提供了完备的应急响应措施,减轻各类突发事件对业务的影响。体系的建立是个复杂的过程,需要循序渐进的推进,甚至在信息系统整体架构设计时,就开始规划,给“灾备”部分预留资源。后期可由IT系统扩展为构建业务连续性体系,涉及公司生产运营各个领域,有效提升企业的管理水平。
[1]国际业务持续协会,余绍强译.良好实践指南[M].第一版,北京:中国标准出版社,2014.
[2]姜琪,李亚龙,张洁,马犇. 基于业务连续性管理的应急管理体系建设研究[J]. 电脑知识与技术(学术版),2019(8Z):42-45.
[3]信息技术安全技术信息安全管理体系要求GB T 22080-2016 [S].
[4]柳鹏,何潇锐. 备份技术研究[J]. 中国科技信息,2011(8):124-125.
[5]信息安全应急响应计划规范. GB/T 24363-2009[S].