柳德睿,徐 娜,万松
(武汉船用机械有限责任公司,湖北 武汉 430084)
中小型制造企业涉及设计、工艺、采购、生产和运营等多个环节,信息系统繁多,系统使用范围、重要性各不相同,部署方式上多为单机部署,少数核心业务系统为双机或者集群部署;其次,信息化基础设施作为业务信息系统运行支撑环境,涉及面广、技术复杂度高,业务信息系统层面,不同业务系统管理人员对计算机相关知识掌握程度也有较大差别;最后,考虑到公司对信息化基础设施经费投入有限和信息化基础设施技术不断发展等因素,企业基础设施也难以从机房、动力环境、服务器、网络、存储、数据库和操作系统等内容全部实现容灾[1]设计。在这样的背景下,探究基于信息化基础设施的架构优化、技术保障措施和设备宕机、数据误删除等灾难场景下的有序、及时、有效恢复业务系统正常运行显得尤为重要。
在企业业务信息系统新建和技术改造时,信息化基础设施应先行或者同步考虑,结合企业架构现状进行设计。基础设施架构各模块应尽可能地实现容灾,减少单点故障,提高架构各模块可靠性,保证基础设施出故障时业务信息系统运行不中断、业务数据不丢失。
本文针对信息化基础设施运行过程中出现的问题,进行整理分析总结,在此基础上穷举信息化基础设施核心模块故障场景。其次根据每个模块编制灾难恢复预案。在实践中对人员职责、故障恢复流程、操作步骤和技术支撑等方面出现的问题进行总结,完善灾难恢复预案,进一步提升预案的可操作性。
灾备方式围绕信息化基础设施架构展开讨论。
信息化基础设施包括数据中心、网络、安全和保障系统四部分,其系统架构图如图1 所示。应用层主要为运行的业务信息系统;网络层为终端用户资源访问提供网络支撑;基础软硬件层包含服务器、存储、磁带库、操作系统、数据库、双机软件或者集群等,为业务信息系统提供运行环境;物理环境包括动力环境、消防系统、防尘及新风系统和安全保密系统,为IT 基础设施安全稳定运行提供电力、温湿度等物理环境及物理安全保障;网络安全主要使企业网络设备不受病毒攻击;保障系统主要包含备份系统,用来保障企业数据安全。
图1 信息化基础设施架构图
在实际运行过程中,信息化基础设施对业务信息系统稳定运行影响大的模块主要是应用、网络、基础软硬件、动力环境和备份系统,其中前四个模块影响运行安全,后一个模块影响数据安全,其影响模型图如图2 所示。运行安全方面,应用的运行依赖于基础软硬件环境,用户对应用的访问除了和应用相关外,还取决于网络是否互通;另外,动力环境是否正常运行直接影响到数据中心内的基础软硬件和核心网络是否正常运转,影响设备多、范围大。
图2 信息系统稳定运行影响因素模型图
应用模块采用集群、双机软件、冷备等方式[2]进行容灾。网络模块的核心交换机采用热备,消除单点故障,当核心交换机发生故障时,网络不受影响,业务不中断;接入交换机和汇聚交换机采用冷备方式进行备份,对交换机配置信息进行备份,当一台交换机出现问题时,使用备机中的一台进行替换;对于其他网络设备,备份配置信息。
基础软硬件模块采用虚拟化[3]或者超融合[4]技术统一服务器架构,屏蔽服务器层级技术差异,当物理服务器发生故障时,虚拟机能自动迁移到其他节点上,业务连续性不受影响;虚拟化或者超融合管理节点无单点故障;存储采用双活技术架构,数据同时写入主存储和容灾备份存储,存储双活架构图如图3 所示;核心服务器有备机,服务器硬盘设置raid1、raid5 等,电源、网卡有冗余,对于硬盘等易损坏零部件提前采购备用。
图3 存储双活架构图
动力环境模块的数据中心电力系统结构图如图4 所示,数据中心采用工业用电和UPS 设备的双线路供电,保证与系统基本业务运行相关的服务器、存储、交换机的电源冗余;工业用电采取两路用电,将企业电力系统改造期间断电对数据中心造成的影响降到最小;UPS 控制器冗余或者UPS 控制器为模块化设计,减少单点故障;机房精密空调冗余,做并机,一台空调出现故障时能自动关停并启动另外一台空调。
图4 数据中心电力系统结构图
备份系统的备份服务器无单点故障;备份数据存放介质不少于两份,可放在双活存储上、磁带库、虚拟带库和光盘库中的任意两种;备份数据包括虚拟机、操作系统、应用程序、配置信息和业务数据(文件或者数据库);备份方式包括手工备份和第三方备份软件备份。手工备份方式下,数据库可通过数据库自身备份工具或者命令加定时任务方式来进行自动备份;文件系统可通过手工或者批处理程序进行备份,操作系统可通过PE 盘对其进行备份。手工备份的数据传输到其他服务器保留一份,避免单台服务器系统或者硬盘故障时,备份数据难以使用,发挥作用。
根据上述信息化基础设施架构图从动力环境、硬件、软件和数据备份四个层面梳理企业基础设施核心模块现状、各模块所采取的灾备方式,评估基础设施架构的合理性,识别架构漏洞[5]。从企业信息化人员技术能力、经费投入、信息化基础设施常发生故障及核心模块对业务影响重要程度四方面综合考虑,通过信息化项目或者年底技术改造计划等方式对基础设施核心模块进行改造,优化完善基础设施架构,提高其容灾能力,降低风险。详细改造内容见表1。
表1 基础设施改造建设表
企业信息化系统管理员和业务信息系统管理员应根据信息化基础设施实际情况对系统中其资产价值和系统故障对业务工作带来的影响进行评估,确定系统恢复的目标。
评估内容包括关键业务功能、影响范围、重要性、依赖程度、恢复的优先顺序、恢复所需要的时间及系统恢复允许丢失数据的时间点。
分析和评估对象包括业务信息系统、业务数据、IT设备(如服务器、交换机、存储等)、电力供应系统和其他评估对象。
评估后,信息化管理部门应对信息化基础设施中的各模块设备和应用系统形成文件化的清单,让系统管理员和业务系统管理人员做到心中有数。当多个系统出现问题时,按照清单中明确的优先顺序解决,减少系统管理员和业务人员之间的沟通成本,做到有序恢复。
企业系统管理员和信息系统管理员应梳理总结各模块出现的故障、分析常见故障场景,制定灾难恢复预案,让企业信息化机构成员理解和执行灾备预案,更从容的面对各类突发事件。
灾难恢复预案内容:灾难场景、灾难恢复上报和解决流程、灾难类型及对应的解决办法。灾难恢复预案对象:数据中心断电场景下的设备和应用关开机预案、意外断电场景下的设备和应用分批关开机预案、服务器硬盘或操作系统崩溃场景下业务系统恢复正常运行预案、基础软硬件故障恢复预案、不同类别数据恢复预案。
灾难恢复预案中的流程和解决办法应基于企业特定信息化组织架构、采用的设备和技术进行编制,并根据实际遇到的问题进行调整、丰富、细化。流程和解决办法应在预案中进行明确,保证预案的可操作性,切实地为操作人员提供指导,减少灾难恢复期间因流程不清楚、技术不了解、操作不熟练花费的时间。
企业每年应定期选择信息化基础设施中某一模块进行灾难恢复演练,演练前编制灾难恢复演练预案、正式进行演练、对演练过程进行记录,以及评估演练效果并修订演练预案。通过灾难恢复演练,提升灾难初始状态下应急处置和响应升级的应对能力、检验灾难恢复过程中存在的问题,同时检验设备和软件使用时的有效性,进而提升应急处置人员的处置能力,保障业务信息系统持续运行。
通过建设信息化基础设施灾备体系,企业进一步提升信息化保障能力和信息化人员技术水平。主要表现在:全面梳理业务信息系统的重要性、灾难点、可能的业务中断时间和数据丢失情况,做到心中有数;明确业务信息系统灾难恢复流程、人员职责、解决过程及操作方法,形成初步固化、不断优化的文件化的应对方案,为信息化基础设施运维指明方向;了解信息化基础设施技术、人员薄弱情况,找差距、补短板,为信息化基础设施团队建设和信息化投资提供依据。
信息化基础设施灾备体系建设完成后,公司月度应用系统故障次数从建设前的5~10 次降为1~2 次,大部分故障恢复时间从2~4 h 降为1 h 以内,应用系统数据丢失恢复时间从建设前的2~7 天降为2 天以内。
建设信息化灾备体系应聚焦业务安全可靠稳定运行和数据安全,以业务不中断、数据不丢失为目标,以技术应用和管理提升为抓手,结合企业信息化投入、技术、人员、管理等因素,基于企业自身现状优化基础设施架构,防范业务中断、数据丢失风险;针对可能出现的各类风险编制预案,进行灾备演练,优化流程,提高技术人员能力,降低业务业务中断和数据丢失时间,保障信息化业务的安全、稳定、高效运行,助力企业发展。