本文由北京市社会科学基金项目(16YJC039)支持。
摘要:随着信息技术的发展,企业对其IT系统依赖度越来越高。当企业的核心业务都运行在IT系统之上时,企业的业务连续性管理成为其IT治理中的重要课题。目前,针对高实时性IT系统的业务连续性在企业中的实践方法研究并不多,各类型企业都结合自身业务模式和IT系统架构制定各自的风险事件应急管理策略和措施。本文旨在针对高实时性IT系统的业务连续性管理的内容进行探索,尤其在风险事件的应急管理方面,给出在企业在实际操作中的一些经验。
关键词:业务连续性;风险事件;应急管理
IT系统业务连续性管理近年来受到越来越多企业的关注。2012 年5月15日ISO 正式颁布了 ISO 22301:2012,ISO 22301:2012 致力于提高組织弹性,其管理体系框架能够帮助组织制定一套一体化的管理流程计划,使企业对潜在的灾难加以辨识,帮助其确定可能发生的冲击及对企业运作造成的威胁,并提供一个有效的管理机制来阻止或抵消这些威胁,减少灾难事件带来的损失。
随后,我国颁布了GB/T30146-2013《公共安全业务连续性管理体系要求》。这份国家标准等同采用国际标准ISO22301:2012。该标准的出台旨在推动我国组织业务连续性管理体系的建立及与国际接轨,这为我国组织业务连续性管理体系获得国际广泛认可提供了保障。
因此,企业开始根据自身IT系统技术架构,结合业务运作模式,着手思考和落实业务连续性标准在企业实际的IT系统管理工作中进行落地实施的问题。
一、业务连续性管理和风险事件应急管理
在我国,企业引入IT系统业务连续性管理是近几年的事情。对IT系统业务连续性管理的探索和实践工作,也随着企业的IT系统运行的规模不断扩大,对IT系统运行依赖程度越来越高而不断深入。
IT系统业务连续性管理是一项综合管理策略和措施,它使企业识别出潜在的风险和可能造成的影响。在此基础上,制订业务连续性的应对策略和恢复计划,其总体目标是为了提高企业的风险防范能力,以有效地应对非计划的风险事件,并降低受到不良影响。
IT系统业务连续性管理的理念即是为了应对各类风险事件对企业的业务运行造成影响以至中断的问题。业务连续性管理是识别对组织的潜在威胁以及威胁一旦发生可能对业务运行带来的影响一整套管理过程,该过程为组织建立有效应对威胁和自我恢复能力提供了框架,以保护关键相关方的利益、声誉、品牌和创造价值的活动。
IT系统业务连续性管理的内容其实比较丰富。根据ISO22301-2012的标准,企业的业务连续性管理按照PDCA的思路,构建相对完整的业务连续性管理系统,业务连续性管理系统是经常进行的活动的集合,业务连续性管理支持企业业务连续性管理活动,也支持技术灾难恢复活动。这些可以包括项目规划和管理、人员配备、计划、预测、预算编制、研究和开发、资源管理、通信、会议、教育活动、宣传等。
根据CMI组织近年对英国国内全行业的BCM开展情况的调查,发现:已有85%的银行业、保险业机构采用了业务连续性管理(BCM)理念管理企业运营中断风险。其中69%的企业采用了业务影响分析(BIA)作为BCM的基础,81%的受访经理表示业务连续性管理以及BCP的建立对其企业的稳定运营有极大的帮助运营,且BCM在中断事件时发挥的减损效益大于其实施成本。
早在2001年“9.11”事件时,摩根斯坦利银行和德意志银行就创造了世界金融界的两个奇迹,摩根斯坦利银行第二天宣布重新全线营业。德意志银行更是在2001年9月11日当天就完成了3000亿美元以上的巨额交易,这两家银行当时能迅速化解灾难,正是源于完善的业务连续性管理中的灾难备份系统。他们迅速恢复营业的能力,既增强了投资者的信心,又为企业树立了优良的形象。而同样位于世贸大厦的某银行由于数据中心位于现场附近,进而造成了连续性的业务中断,据其声明,恐怖袭击破坏了其部分计算机系统,一些分支机构被迫关闭,其第三季度的利润因此下降了33%。
二、风险事件管理的几个方面
之所以提出“风险事件”这个概念,是为了与日常IT管理中经常会出现的“事件“做区别。事件出现的概率相对较高,而并不是所有的事件都会对业务系统运行产生影响(因为一般企业中IT系统架构中都做了相对充分的冗余设计,某单一节点的失效不会引起整体业务系统运行)。而风险事件专指已经或如延误处置将对企业IT系统业务运行产生影响,对企业客户产生影响的事件。
在企业中,针对风险事件管理,都会制定应急管理管理制度规范,主要应包括以下内容:
1.应急组织体系
应急组织体系是指企业内部,根据其IT系统架构,设定专门负责风险事件应急管理组织人员团队,需要明确到具体的人员,而不仅仅是岗位角色。
一般地,企业风险事件应急管理组织由企业的高级管理人员挂帅,担任组织的业务连续性管理的第一责任人。然后,由企业核心业务部门、IT技术部门、办公室及后勤部门等组成应急组织体系。其中,核心业务部门的职责为在风险事件出现时,采取必要的业务应急措施,组织业务应急处置;IT技术部门的职责为采取必要的IT技术措施,组织IT技术应急处置;办公室和后勤部门的职责为负责风险事件的报告,组织包括人员、场地、交通、通讯、应急资金和应急物资准备。此外,如有必要,还需组织信息披露和媒体沟通等事宜。
2.应急管理流程
应急管理流程是指企业内部以及所可能涉及到的外部组织,在风险事件出现时,应急体系中各人有按照既定的角色和职责,开展应急处置工作的预定流程。一般的风险事件的应急管理流程应包括从风险事件的发现、报告、判断、报告、技术诊断与处置、业务处置和风险事件关闭等关键环节。此外,还可以包括媒体舆情监控、与外部组织互动等辅助性环节。
在应急处置中,业务处置和技术处置是同时开展的。业务处置主要面对公司的客户,利用有效的备份手段,确保企业业务能够顺利进行。如果对客户产生影响,需要组织对客户的安抚工作,避免或减少影响范围的进一步扩大。业务处置主要是IT技术部门的职责,此时应以快速恢复业务为原则,采取必要的技术手段(如主备切换等)。
在应急管理流程中,特别要注意风险事件的上报工作。一般的企业往往注重风险事件的处置,而忽略上报的环节。而实际工作中,风险事件的上报和处置一样重要。其原因在于,一方面,风险事件出现时,往往存在客户、技术、指挥和后勤等多现场。如果各现场的处置人员不能有效的将各个现场的情况进行上报,则经常会出现信息不对称的情况。应急管理总指挥应该在充分了解各现场的情况后,综合的判断,给出应急处置指挥方法。
3.应急预案和应急演练
风险事件出现时,都是计划外的事情,往往是在企业按部就班的进行日常业务时,突然出现。一旦出现后,对处置时间的要求非常紧迫。因此,如果业务系统运行实时要求高的企业,需要事先制定好各类应急预案。在风险事件出现时,能够按照既定的应急预案开展处置工作。
风险事件的处置包括业务处置和IT系统技术处置,应急预案也需要分成业务处置应急预案和IT系统技术处置应急预案。应急预案的内容,应该以出现的风险事件可能性场景为导向,针对不同场景采取必要的和既定的措施。必要时,企业可以结合实际情况制定舆情监控应急预案和后勤保障应急预案。
有了应急预案后,如果不组织必要的应急演练,则真正出现风险事件时,预案的指导性依然不足。企业应组织整个应急组织体系中的各个部门,进行联动式的应急演练工作。通过应急演练,一方面使各个角色对应急处置的各部分内容更加熟悉,另一方面也验证应急预案的有效性。因此,应急演练工作重要性很高。在证券行业中,我国证监会已经明确要求各证券公司每年至少组织两次IT系统应急演练工作。其目的就是确保各证券公司的核心业务系统在出现风险事件时,能够有效的按照既定的应急管理办法和预案,有效的开展处置工作,并将风险事件情况上报到监管部门。
4.风险事件总结
在完成了风险事件处置后,企业应该组织专门性的风险事件总结工作。工作总结的内容包括对风险事件的定级、评估风险事件造成的损失,确定风险事件的根本原因,分析产生风险事件和处置风险事件过程中的各方面责任,必要时采取一定的管理处罚手段。最后,形成专门的风险事件报告。
三、高实时性信息系统应对风险事件时的管理方法实践
上述给出了企业在IT系统业务连续性管理中,组织风险事件管理时所作的一些典型的、具体的和普遍的内容。在不同业务类型的企业中,都需要结合其业务运作模式和企业组织架构进行有效落地实施。然而,很多企业或组织的业务运行对信息系统依赖程度很高,IT系统运行的实时性也很高。在我国,银行核心系统、证券交易系统、海关的报关系统等,都是业务高度依赖信息系统,运行实时性很高的业务场景的典型代表。这种信息系统的运行一般是集中式部署,客户分布广泛,并发交易量非常大。其核心后台系统一旦出现故障,就很有可能发生风险事件,在很短时间内,企业的客户就会面临非常大的业务影响。以证券行业为例,证监会对事件应急处置的时长已经给出明确的要求:证券公司的核心交易业务系统,中断2小时以上,则定义为特别重大事件;中断30分钟到2小时之间,则定义为重大事件;中断5分钟到30分钟之间,则定义为较大事件;中断5分钟以下,则定义为一般事件。当出现较大及以上事件时,证券公司将面临着监管处罚。按照上述规定,证券公司的核心交易系统的业务连续性指标RTO(业务恢复时间目标)均按照5分钟来进行设计。除了核心交易业务系统架构要支持5分钟的故障切换外,其应急处置能力也需要在5分钟内保障业务的恢复。因此,高实时性信息系统如果在较短时间内,有效的应对风险事件,成为了企业业务连续性管理的重要课题。
在这种类型的企业组织架构中,一般按照职能型设置。业务部门、IT技术部门、办公室及后勤部门等隶属于不同的管理条线。一般性管理事宜,需要先按照其现有的组织架构内部层级进行汇报,到了部门负责人层级后,再进行部门之间的横向通报。这种汇报途径,在出現风险事件时,将很难满足短时间内的恢复业务的要求。建立有效的风险事件应急管理组织体系、管理流程、准备应急预案并演练等工作是基础,还需要在短时间内的联动开展应急处置工作。对业务运行实时性要求高的企业风险事件应急管理的组织架构,可以风险事件应急处置总指挥为核心,构建“星”型应急组织结构和应急处置联动机制,突破职能型组织结构的沟通壁垒。
很多业务系统运行模式是7×24小时,因此在应急处置总指挥的人员配备上,需要考虑实际人员的轮班值守的事情。应急处置往往是高强度、高压力、多人员的团队协作,企业实际工作中的多人轮班值守的方法非常有效。轮班值守要做好排班工作和各班之间的交接工作。
四、总结
企业的IT系统业务连续性管理越来越受到重视,国际和国内的标准也都先后颁布。而在实际企业组织中,需要结合标准和行业监管要求等,将业务连续性管理具体落地,在风险事件出现时,能够有效组织应急处置工作,避免或减少风险事件对企业业务和客户的影响。这些具体的工作需要结合企业具体组织和管理工作开展。有效的应急处置组织体系是基础,流程和应急预案需要进行演练而增强其实用性。针对高实时性业务系统,为了短时间内恢复业务,就要打破职能部门之间沟通的壁垒,按照“星”型架构快速开展应急处置工作,将人员、流程和技术等核心要素烂熟于胸。
参考文献
[1]宋劲松.英国应急管理中的业务连续性管理及启示,学术交流[J], 2011,(4):90-93.
[2]吕丹. 金融机构的业务连续性管理,首席财富官[J],2015,(4):66-69
[3]乔海曙.贺凌华. 中国银行业应急管理问题与对策,金融论坛[J],2008,(11):33-38
作者简介:武剑锋(1981-),女,山西省寿阳县人,博士,北京第二外国语学院国际商学院讲师,主要研究方向是公司治理。