商业银行应急管理技术研究

2015-01-05 00:22姜旭许国平郭会陈小庆
时代金融 2014年35期

姜旭 许国平 郭会 陈小庆

【摘要】为防范商业银行信息系统引发的风险、提升应急处置效率与能力,基于IT生命周期提出全生命周期应急管理技术体系,包括需求、开发、投产、运维四个阶段的知识库、变更管理、监测预警、应急会商、自动处置等五类技术。

【关键词】商业银行信息系统 IT全生命周期 应急管理技术

一、引言

随着信息技术的快速发展,IT技术已经成为商业银行赖以发展的基础,由此衍生的突发事件也严重影响了金融服务效率和正常运营管理[1]。因此,应加强商业银行突发事件应急管理技术的研究与实践,以提升风险防范水平和应急处置能力。本文提出了应急管理技术体系,并在IT全生命周期的各个环节进行技术研究与应用实践,涵盖知识库、变更管理、监测预警、应急会商、自动处置技术五个方面。

二、全生命周期应急管理技术体系

全生命周期应急管理技术体系主要包括知识库、变更管理、监测预警、应急会商、自动处置五个方面,涵盖了应急需求制定、运行架构设计、信息系统投产、系统监控告警、应急响应、事件汇报、问题排查、自动处置与验证等多个环节(如图1所示)。

在需求阶段,运维团队中的运维保障经理需要按照应急需求库中的通用应急需求模板制定信息系统应急需求,并进一步丰富维护应急事件历史库中的信息,从系统研发的最初阶段夯实后期运维保障与应急管理的基础;在开发阶段,企业架构资产库提供可复用资源;信息系统关系视图可辅助研发人员做好接口设计,多媒体应急场景库可帮助测试人员制定应急功能测试用例,使得系统测试更为丰富全面;在投产阶段,变更管理系统对信息系统的投产过程进行规范化管理,避免因审批不合规、流程不合理而引发生产事件,自动部署系统实现投产过程的自动化,以降低人工操作风险;在运维阶段,通过集中监控管理系统实时监控应用系统运行信息,并可根据历史数据动态调整报警基线,实现主动监控、主动预警,应急会商系统和掌上应急可以帮助应急人员及时响应,有效协作,实现应急响应的快速化[2],利用一体化自动处置工具,可快速排查故障,自动进行处置,自动模拟验证,以提高应急处置效率。

三、应急处置技术

(一)知识库技术

知识库技术主要应用于需求阶段与开发阶段的系统设计过程中,应急需求库、历史事件库、应急场景库等可为应急需求的制定提供参考,企业资产架构库为系统设计提供健壮性好、容错率高的可复用资源,信息系统关系视图可查看信息系统之间的关联关系而辅助接口设计。

应急需求库是为提高信息系统健壮性,减少投产后应急压力,可通过制定非功能性需求企业标准进行标准化,包括适合性、性能效率、兼容性、易用性、可靠性、安全性、可维护性和可移植性等方面,规定信息系统应满足的非功能性指标。非功能性企业标准按照层次关系可分为类、族、组件、元素以及元素选项等层级,通过不同类别的应用系统制定裁剪模板,运维经理依照系统类型选择特定模板进行元素匹配,根据元素的必选、可选标准定制该项目的非功能需求概要,并选择具体的元素选项,制定详细的需求(如图2所示)。

信息系统管理关联视图是在信息系统数量和规模逐渐增大、系统间的关系也随之错综复杂的情况下,对各系统的关联关系进行管理的一种方法,比如一支业务交易需在多个不同的信息系统之间关联调用,上下游环节增多,随着证券、基金、电商等第三方系统的接入,内外系统的关联度不断增强[3]。通过多维度多层次关系视图系统,制定通用的规则并有效的归纳各个信息系统的分类和关联关系定义,利用搜索引擎和展示功能,动态地将数据予以拓扑图的形式展现,同时带来丰富的属性信息(如图3所示)。

(二)变更管理技术

在IT全生命周期中的投产阶段和运维阶段,有效防控投产风险和人为操作风险,力争实现变更管理流程化,从而设计并研制了变更管理系统、自动部署系统等信息化系统。变更管理系统具有变更申请、变更评审、评审会议、公有模块等功能,同时还兼顾安全性、操作响应时间、并发数、交易高峰时段、存储、易用性等非功能性需求(如图4),将问题与需求跟踪、分行实施的应用变更纳入系统管理范畴,实现全行性的应用变更管理。系统需要对变更申请、变更评审过程实行日志化管理,对于申请、评审的修改细节与关键动作进行详细记录,对变更申请的来源进行重点审查,力求每个变更事出有因、有据可依。

(三)监测预警技术

集中监控管理平台是监测预警技术的关键平台,以提高生产运行的连续性和稳定性,实现快速响应、快速定位和快速处置,通过事件告警监控及性能数据监控,实现对被监控应用的关键进程、对外网络通道、交易流量控制、系统运行状态与参数、应用系统资源使用情况等的全面监控(如图5所示)。集中监控管理平台对监控系统的性能指标数据进行采集、分析、计算,当超出预设阀值或性能基线时产生告警,对选择时间段内采集到的监控数据进行统计分析,形成历史图表或报表,绘制监控数据基线,方便运维人员参考。同时还将各被监控系统发生异常时产生的告警事件发送给集中监控管理平台,由平台进行告警展示及集中处理,根据告警的不同级别、不同内容和不同分类对告警的通知渠道、通知人员、阀值、告警规则等进行个性化定制和灵活配置。

(四)应急会商技术

当出现突发状况时,为提高应急处置效率而搭建了应急会商系统,集合了总分一体通讯名录、多方会议、远程应急、集中会商等多项功能。其中,总分一体通讯名录包含了投入生产的所有重要信息系统以及相关责任人联系方式,每月更新内容以保证信息及时、有效;应急会商系统引入了多方电话会议形式,建立虚拟会议室呼叫所有人员同时对话,以避免单点通讯的滞后性;集中会商是指分布于银行应急操作间的以KVM为核心的大屏显示系统,可实时显示任意多台运维终端的内容,方便同时观看和操作多台终端而互不干扰;远程应急实现了应急响应与应急处置的无缝衔接,应急操作间安装相关设备,当应急人员在赶往处置现场途前,可以通过移动设备以及网页等方式查看生产信息,实时进行分析并指导现场人员操作。

(五)自动处置技术

以7×24小时类系统电子银行系统为例,电子银行自动应急处置系统要实现应急过程中的自动分析、自动处置和自动验证功能,集成电子银行各子系统应急处理机制,串联从前台页面到后台系统应急处理流程,主要包括各子系统状态监控、预案匹配、资源管理、配置调整和阈值控制等功能。其中,状态监控依托于电子渠道实时监控工具,实时监控网银交易运行情况,一旦出现某个交易成功率低于设定的阈值,立即发出报警并通过短信方式将错误信息实时通知系统运维人员关注,处置功能实现自动回收重启服务器站点、错误交易定位、流量阈值控制、路由配置调整等操作。

三、小结

本文主要提出了商业银行信息系统应急管理技术体系,并对IT全生命周期各阶段的知识库、变更管理、监测预警、应急会商、自动处置五类技术进行了详细阐述。该体系覆盖到应急流程中预防、监控、判断、报告、组织、处置、验证等各个环节,为应急活动提供了一定的技术保障与支撑,提升了银行应急处置效率与能力[6]。在后期研究中,还将强化管理活动及技术手段过程,推动业务部门深入参与应急处置、理清业务与技术应急责任边界、加强业务连续性与技术应急处置的关联关系,在业务与技术互相促进等方面进一步研究,以推进业务技术协同应急处置。

参考文献

[1]郭利根.强化信息科技核心竞争力,完善信息科技风险监管长效机制[N].金融时报.2012-3-29(001).

[2]王俊,王昕.国内外突发公共卫生事件应急管理综述[J].中国市场.2012(26).

[3]王海平.对现行支付清算系统应急机制的再思考.金融时报.2013.

[4]乔海曙,凌华.中国银行业应急管理:问题与对策[J].金融论坛.2008(11).

[5]何倩,李仕明,刘樑.非常突发事件在线信息处理:研究与发展[J].电子科技大学学报.2011(13).

[6]吴晓玲,必须高度重视金融突发公共事件应急处置[J].金融电子化.2006(08).