贾栋
随着信息化技术的不断发展,企业的日常运营生产愈发离不开各类信息系统,信息中心的规模也随之不断扩大,随之带来的就是其面临的风险也越来越多,风险的范围越来越广,如:设备硬件故障、软件BUG、人为误操作、网络中断、机房停电、自然灾害等,同时市场竞争的日益激烈和客户服务质量需求的不断提高对企业信息中心的可靠稳定运行提出了越来越高的要求,信息中心需要拥有一套成熟、有效的应急保障体系,来全面保障业务运营保障对外服务及客户感知。
一、企业信息中心风险评估
一般而言,企业信息中心主要面临的风险可分为计划外和计划内两种:
计划外风险:主要指不在计划内,通常是不可预估的自然或人为问题,造成信息系统运营发生故障甚至瘫痪的情况,这种类型的风险往往无法避免,主要包括:设备硬件故障、不可预测的人为或自然的原因,造成业务系统运行严重故障或瘫痪的情况,这种风险不可避免,主要包括:自然灾害、设备硬件故障,空调故障,电源故障,人为误操作,恶意破坏,系统软件BUG等。
計划内风险:主要指在计划内,由于企业运营的需要,通常是由于维护或上线造成的虽可事先预知但无法避免的业务中断的情况。主要包括:信息系统上线,系统软件升级,硬件扩容维护,系统或应用迁移改造等。
通过对企业信息中心主要面临的风险分析,为了更好的保障信息系统的业务连续性,确保对服务影响的最小化,需要企业建立一套成熟、有效的应急保障体系,该保障体系必须以满足业务需求,最大化降低服务的影响为核心,其要点在于对各种风险问题的应对方法和措施。同时还需配备相关人员组织和资源保障方案、制定完整有效的流程、并采用对应的技术手段,以达到在企业信息中心发生故障和瘫痪情况下快速恢复信息系统和对外业务的目标。
二、应急保障体系
根据对企业信息中心面临的各种风险进行分析,企业应建立起包括数据备份、本地高可用、快速应急、应急系统、容灾系统在内的五层阶梯式应急保障体系。五层保障措施主要应用场景如下表所示:
通过实施阶梯式应急保障体系,涵盖解决目前企业信息中心主要面临风险,并提供具体的应对解决措施,最终达到提高企业信息中心的抗风险和业务连续性能力的目的。
数据备份保障:是最简单最基本的系统保障手段之一,通过对核心重要数据的定期及不定期的备份实现对数据的安全保护,常规的备份介质主要有:独立磁带机,物理磁带库,虚拟磁带库、磁盘整列、备份一体机,或是新型存储资源池(用于数据备份)。通常需将核心业务数据库、重要的服务器操作系统、敏感业务数据,核心应用程序及代码等建立起信息系统的备份恢复措施,一次来保障数据的安全性。但由于数据恢复步骤相对较长,一般恢复时间在小时级,因此其使用范围主要是提供最基本的数据恢复功能。实际可按照以下方式进行分类:
数据类型:系统数据(应用程序、应用配置、操作系统等),业务数据(记录文件, 数据库,关键配置数据,核心数据等);
备份方式:数据同步复制,文件备份,数据库备份,备份等;
备份周期:实时级,小时级,日备份,周备份,月备份,季备份,不定期备份;
本地高可用保障:主要适用于信息系统或信息中心本身内部的单点故障,是日常故障中最常用也是最重要的一种保障措施,也是对信息系统运营管理帮助最大的保障措施。具体实施中需要对信息系统及相关业务流程建立起没有单点隐患的本地高可用系统,诸如使用双/多电源、冗余备份链路、双网卡绑定、磁盘镜像、多副本、主备接管、应用/数据库集群等计算机技术。根据采用的技术种类,相关业务的恢复时长也不尽相同,比如使用应用集群、磁盘镜像、双网卡绑定等技术的,发生故障时对业务的影响在秒级甚至于对外无感知;而主备接管技术通常由于需要进行应用接管,调整应用流程,因此对业务的影响通常在分钟级。
本次高可用主要采用硬件层冗余和软件层高可用的结合配置,消除信息系统的单点隐患,其主要包括以下几点:
消除网络单点故障;
消除电力单点故障;
消除磁盘单点故障;
消除数据库单点故障;
消除主机单点故障;
消除中间件和应用软件单点故障。
快速应急:主要面对的是信息中心日常运营中遇到的诸如业务逻辑问题,应用上线异常、系统进程僵死等造成的业务中断。这些故障虽然影响面不大,持续时间不长,通常不会造成严重或特别恶劣的影响,但是往往发生的几率及频度较高,也会导致用户感知的下降,是信息中心日常运营中需要重视的方面。另外这些问题通常也不是高可用、应急系统、容灾系统可以解决的,需要通过脚本集成、模块化部署等方式,形成界面操作或后台自动化处理,供操作人员快速上手,加快故障处理速度。快速应急主要分为系统层面和应用层面,系统层面:针对应用进程异常造成数据库、服务器等系统方面异常,比如应用代码问题导致的数据库锁表,应用程序异常造成的数据文件被锁或损坏;应用层面:针对单个或少量进程、应用流程、接口等异常情况下造成的业务中断或错误。
主要为信息系统提供最关键业务的快速恢复能力,针对核心渠道以及核心业务,在出现不同类型故障情况下,或计划内维护(如新业务割接,系统升级等)情况下,在不启动应急或容灾系统的前提下,通过快速应急措施,实现故障快速处理或者旁路非关键功能,以此实现在故障后关键业务的快速恢复,进而减少用户的有损感知,提升业务服务质量。
快速应急主要分为以下两种方式:
自动处置:一般通过后台部署自动化脚本、程序,对出现的故障进行自动处理,不需要人工干预,主要适用于一些常规、常用、相对简易、方法成熟的问题。如:后台定时自动化处理。
人工干预:指需要通过人工介入、判断、处理的故障,处理期间需要相關人员进行一些简单判断,或者提前无法确认的问题,主要针对于一些相对复杂、危险系数高的故障。如:半自动化操作,界面处理。
应急系统:主要为信息系统提供核心业务的快速恢复能力,在部分或全部核心系统发生故障,且无法快速定位或解决的情况下,通过应急系统优先提供核心业务功能,让用户在故障期间可以办理关键业务,进而降低对用户的影响,确保核心业务的连续性。应急系统一般在应用层面实现,往往是生产系统的缩减版或核心版,一般需要分钟级别的业务恢复时间。注意,应急系统提供的是核心业务,不是全部业务,因此只适用于一些可以接受部分功能损失,或者已解耦核心业务的信息系统。另外,出于一致性的考量,应急系统还需和生产系统的应用版本保持一致。因此应急系统的应用开发维护成本相对较高,其适用面相对受限,通常用于一些业务简单、功能简洁、变更量少的信息系统。
容灾系统:主要设计用于各类系统层面的重大故障,诸如:系统大范围故障,火灾、地震、供电中断、传输中断等,造成信息系统完成故障并无法快速恢复的情况。对于这些灾难性的不可预见的故障,一般通过将启用容灾系统来满足对外服务的连续提供。平时,容灾系统对生产系统的数据进行同步或异步传输复制,在灾难性故障发生后,将生产业务指向到容灾系统,有容灾系统来实现业务流程,恢复信息系统相关业务。根据采用的技术和手段的不同,容灾系统一般需要小时级别的业务恢复时间。其相关技术可按以下分类。
技术架构: 主备中心模式, 双中心互备模式, 读写分离双活模式, 读写并行双活模式
切换技术:DNS,LDAP,TNS配置文件,L4/7
SWITCH
数据同步技术:数据库层复制(基于重做日志和归档日志两种),存储底层复制,操作系统卷复制,远程扩展集群技术
容灾系统的建设及技术类型有多种组合可以选择,具体实施时还需根据公司的运营情况,业务特点,对外影响,预算情况等进行综合评估后,再根据各技术的不同特点进行选择使用。
三、新技术的应急保障
目前随着云计算、开源软件等技术的发展,许多IT新技术涌现,同时在企业信息中心中发挥着越来越重要的作用,也成为了企业业务流程中不可或缺的一部分。因此在信息中心的应急保障体系中,也需要对这些新技术的应急保障进行考量并设计。下面将从Docker镜像、内存数据库、虚拟化平台、分布式架构这四个目前常用的新技术出发,考虑并设计其应急保障建设要求。
四、应急保障管理
应急保障体系建设完成后,还需要从管理流程上予以明确,通过有效的机制及流程,来确保体系中相关内容的有效落地,在故障发生后真正有效的发挥出应急保障体系的作用。应急保障工作可以按照事前、事中、事后三个阶段进行管理。
事前保障是在故障发生前做的准备工作,为后续的使用做好前期工作:建立应急保障组织、编制应急预案、制定演练计划,安排日常监控与测试工作;
事中保障是对事前保障措施的使用验证,是指当故障发生时,应急处理流程的具体运作方式及响应情况,包括故障定位,影响评估,应急决策,应急响应,对外通报,应急或容灾系统切换、切回,业务验证,故障解决等工作;
事后保障是指在故障发生和业务恢复后,对出现问题的原因进行分析和总结的过程,以及对现有应急流程优化的工作。
五、总结
通过技术和管理的相结合,建起完整的企业信息系统应急保障体系,在应急故障处理中实现人力保障、物质条件和技术支撑三个层面的保障,将有限的资源充分合理利用,将数据备份、本地高可用、快速应急、应急系统、容灾系统五层体系的功能彻底发挥出来,加强对各信息系统及功能业务的保障,为企业提供不间断的业务支撑服务,保证客户满意度、服务质量、企业信誉等不受影响,减少或避免财务损失,增强企业的市场竞争力。