杨大为,肖安洪,张 娜,冯云娇,彭 辉
(中国核动力研究设计院核反应堆系统设计技术重点实验室,四川 成都 610041)
数据中心应急关机处置方案研究
杨大为,肖安洪,张 娜,冯云娇,彭 辉
(中国核动力研究设计院核反应堆系统设计技术重点实验室,四川 成都 610041)
介绍了数据中心在遇到突发情况时,为确保信息系统在短时间内安全、高效地完成停机操作,如何通过制定应急关机计划,以此避免由于次生灾害对数据中心带来的进一步损失,为系统的运行安全和数据的存储安全提供技术保证。
数据中心;容灾处理;紧急关机
随着数字化设计技术的迅猛发展,种类繁多的信息系统已成为各单位日常工作开展的必要条件。目前,具备大数据处理、多应用集成等特点的数据中心,已经成为众多单位信息化建设的主要目标[1]。考虑到由于信息系统自身存在的缺陷、脆弱性以及可能面临的外界威胁,使信息系统容易受到各种已知或未知的威胁而导致信息安全事件的发生,那么就应该制定应急响应预案,将可能的损害降至最低[2]。
应急关机作为应急响应过程的处置手段之一,是每个数据中心都必须考虑的问题,尤其是面对地震、电力中断等极端环境时,但是应急关机和恢复绝不是关闭/开启电源这么简单。
随着信息化技术的不断提高,数据中心的规模和复杂程度也逐步增大。以某单位数据中心为例,目前中心机房部署的服务器、小型机、工作站、网络设备、安全防护设备等共计百余套,其上承载的软件除与日常业务处理相关的办公软件外,还包括科研工程所需的超算平台、知识管理和协同研发等多套应用系统;同时,考虑到紧急关机情况下,可能还有大量事务在数据中心执行,如何及时地取消未执行作业,并将正在执行作业产生的数据结果最大化地进行持久化保存,这都是需要仔细考虑的方面。
本文针对上述问题,从实际工作出发,对应急关机所面临的策略制定、活动执行和系统恢复等行动项进行逐一阐述,为处置方案提供合理的技术解决思路。
为确保应急关机要求的正确实施,其活动划分应包含以下几方面内容。
1.1人员职责
数据中心应组建应急响应小组,由1名总指挥和若干操作员构成。总指挥负责紧急关机时小组成员的召集和突发情况下工作的协调。各操作员按照应用系统、服务器设备、网络设备和数据存储等实际情况进行责任划分,落实所有关机操作的全覆盖。
考虑到紧急关机时,受操作时间、场地空间和机房KVM接入授权的多方面限制,在人员配置上,操作员人数不宜过多。因此,这需要操作员专业技术过硬,能完成对同类型或多类型系统及设备的应急操作。同时,在应急响应小组组建时,应保证各职责岗位满足A、B角色设定,防止因为人员休假、出差等情况发生时,应急关机操作无法正常执行的情况出现。
当人员职责划分完毕后,应将上述信息以文件的方式进行记录并予以发布,使其制度化、规范化,确保每个责任人知晓其职责范围。
1.2策略制定
一个切实可行的关机策略是保障紧急情况下迅速完成关机操作的基础指导,但是没有一个策略可以满足所有数据中心的操作需求,只有具体问题具体分析,结合实际运行情况,制定与其匹配的关机策略。
因此本文仅对关机策略制定过程中具备共通性的要点及环节进行描述。
1.2.1关机流程制定
在数据中心,应用与应用、应用与设备、设备与设备之间普遍存在着依赖关系。违反依赖关系的关机流程很可能造成运行数据的遗失和破坏。最典型的例子即为数据库服务,一旦非正常终止,所有依赖该服务的应用系统其运行数据将无法进行持久化保存。所以梳理数据中心各业务的依赖关系,按次序关机是流程制定的关键。
同时,为尽量缩短关机时间,应将彼此相对独立的系统并行实施操作。如该单位的超算平台与日常办公系统两者关联不大,完全可以独立并行操作,如图1所示。
除此之外,应根据每个关机步骤预估其耗时,细化各节点的里程碑时间。通过上述操作,可以为紧急关机操作提供明确的量化指标:一方面,通过各操作节点时间的累加,可以确定该关机策略的总耗时是否超过UPS、柴油发电机等应急设备提供的最长保障时间,以此检验该策略的技术可行性;另一方面,在关机过程中,难免出现执行异常现象,此时应急小组总指挥需要根据该数据,为继续排除该技术故障,或忽略故障直接跳转至下个操作节点而做出决策。
1.2.2关键数据划分
没有一个应急响应计划可以满足所有场景的需求,特别是面对地震等颠覆性的自然灾害时。当数据中心出现无法避免的损失的情况下,需以关键数据的划分结果为依据进行取舍。
关键数据需根据单位实际业务进行划分,没有一成不变的规则。以该单位情况为例,个人邮件、计算结果等作为过程性文件,虽然有存储价值,但是若出现损坏,其影响面仅局限于少部分使用者,故定义为一般数据;而对于数据库存储的事务型数据和文件服务器存储的存档文件,其数据的完整性必须得到保证,故定义为关键数据。
当出现应急关机情况时,对关键数据存放的设备和应用系统应优先考虑,这样的处置策略才能保证数据中心存储安全的最大化。
1.3关机完结确认
考虑到现在各单位的数据中心规模愈发庞大,当完成紧急关机操作后,必须对数据中心内部署的硬件、软件系统进行复核工作,以保证所有系统均按照关机要求关闭,防止因为人为疏忽或技术故障,导致某系统未正常关闭,由此带来数据损失。
在该单位实施时,采用技术手段与管理手段相结合的方式,确保该行动项的执行。在技术手段方面,采用ICINGA[3]网络管理软件,将数据中心内的设备进行集成,其运行状态信息均在此平台上进行实时显示。当完成除基础网络设备以外的所有系统的关机操作后,通过ICINGA管理软件进行检查,确定受监控的系统和设备已处于关机状态。同时,通过关机操作员A、B角色的划分,保证应急小组的操作员进行交叉检查,确保关机操作的准确到位。
1.4演练与评估
当应急关机策略制订完成后,应定期组织应急小组培训与演练[4],确保应急响应人员熟悉处置过程、累积处理经验。应急演练有两种基本方式:课堂演练和功能演练。课堂演练的参与人员在桌面上对规程进行排演,而不实际进行操作,其目的是使人员初步熟悉处置过程;而功能演练相当于实战演习,作用是验证预案的完备性、正确性和有效性。
每次培训均应做好完备的记录,以备对执行策划进行评估。评估应着重以下方面:1) 策略是否合理;2) 技术措施是否有效;3) 工作流程是否合理,可否优化;4) 所有软硬件资源是否充分;5) 人力资源是否足够;6) 人员技能是否满足要求。
预案策略的建立并不意味其内容和存在方式都是一成不变的,应随着时间的推移和技术的发展而不断变化。应急演练为这个更新的过程提供了良好的实验基础。通过对演练过程的重复操作,从而对处理流程进行不断迭代,达到过程优化的目的。
鉴于每个单位数据中心应用环境、设备部署和运行方式均有明显的差异,因此没有一种解决方案可满足所有场景需求。本文结合实际情况,从应急关机操作出发,对具备共通性的要点进行总结归纳。
2.1自动化关机应用
当突发事件发生时,数据中心必须在规定的时间内紧急关闭。由于依赖人工手动的方式完成关机操作已经无法满足实际要求,因此如何借助新技术手段,逐步实现自动化关机,将是数据中心应急响应手段发展的主要目标之一。
在该单位实际操作中,现已在机房内部署了一台管理控制机,作为开/关机的操作台。通过集成,使用网络远程操作的方式,以批处理文件完成大量设备和关键应用的关机操作。实现自动化关机后,关机人员的工作量大大减少,而关机执行的可靠性和效率大大提高。后期,还打算与网络管理系统进行集成,完成关机、校验等多流程的一键化操作。
2.2群集系统的应急关机
为提高数据中心运行的稳定性,在数据中心大量采用群集技术,如主从冗余、双机热备等,实现应用服务的高可靠运行。但是上述技术手段的应用,对数据中心的应急关机操作也提出了更高的要求。防止出现应急关机操作被系统误认为是运行故障的情况,而给正常关机带来阻碍。
该单位在关闭群集系统时,曾经出现过关闭数据库系统前,由于未停止故障侦听服务,数据库系统误认为运行故障发生,导致触发主从数据库的角色切换。上述的误操作行为,极大延长了关机时间,为数据中心带来了运行隐患。
2.3备件提供
每次应急关机操作执行后,数据中心的硬件设备均有可能出现损坏的现象。根据该单位实际运行经验,电源、硬盘为故障发生的主要集中部位。数据中心必须提前采购和准备少量部件,当数据中心恢复运行时,一旦遇到上述故障,可以及时更换,以备不时之需。
为确保数据中心的运行安全,必须针对单位信息系统的特点,有的放矢地建立应急响应计划并做好相关管理工作。只有这样才能做到有备无患,防范于未然。该单位数据中心经历了2008年5·12汶川地震和2013年4·20芦山地震,为防止次生灾害,均采取了应急关机操作,由于处置及时,未发生大规模的数据丢失和设备损坏事件,为运行数据的完整性和可靠性提供了有力保证。
[1] 冯智圣.区域数据中心信息安全防护技术探讨[J]. 华南金融电脑,2009(1):7-10.
[2] 石国忠,庞景瑞,张文华. 省域数据中心灾难应急方案[J]. 中国金融电脑,2004(9):81-83.
[3] Icinga, Inc. Icinga Documentation[EB/OL]. [2014-11-14]. http:// docs.icinga.org/latest/en/
[4] 姚刚. 试论信息系统应急预案编制及演练[J]. 信息系统工程,2013(2):17-19.
Research on emergency shutdown plan for data center
YANG Dawei, XIAO Anhong, ZHANG Na, FENG Yunjiao, , PENG Hui
(State Key Laboratory of Reactor System Design Technology,Nuclear Power Institute of China, Sichuan Chengdu, 610041, China)
It introduces how to ensure the information system to shut down in a short period of time and avoid the data losses due to the secondary disasters when emergency issues happen. This method provides the technical guarantee for the system running safely and securely.
data center; disaster recovery processing; emergency shutdown
10.3969/j.issn.2095-509X.2015.05.012
2015-02-02
杨大为(1983—),男,四川宜宾人,中国核动力研究设计院工程师,硕士,主要从事核动力装置软件研发及高性能计算技术应用工作。
TP311.5
A
2095-509X(2015)05-0052-03