昆仑银行信息科技部 许中华
昆仑银行高度重视信息化建设,近些年特别强化了安全生产工作,加强了IT运维管理。昆仑银行自重组以来,经过5年的信息化建设与实践,逐步走出了独具昆仑银行特色的IT运维管理体系建设之路,保障了全行信息系统的安全稳定高效运行,系统可用率达99.99%,为昆仑银行稳健经营和业务发展提供了高效的运行服务。
ITIL由英国政府部门CCTA在20世纪80年代末制订,现由英国商务部OG负责管理,主要适用于IT服务管理(ITSM)。ITIL的核心模块是“服务管理”,这个模块一共包括了10个流程和一项职能,这些流程和职能又被归结为两大流程组,即“服务提供”流程组和“服务支持”流程组。其中服务支持流程组包括事故管理、问题管理、配置管理、变更管理和发布管理;服务提供流程组包括服务级别管理、IT服务财务管理、能力管理、IT服务持续性管理和可用性管理。
COBIT是信息系统审计和控制联合会制订的面向过程的信息系统审计和评价的标准。对信息化建设成果的评价,如对最终成果评价、对建设过程评价、对系统架构评价等。COBIT是一个基于IT治理、面向IT建设过程的IT治理实现指南和审计标准。
ISO20000是基于ITIL最佳实践与BS15000英标体系进行构建的,并由ISO组织发布的具有国际权威性的IT服务管理体系标准。此套体系秉承“以客户为中心,以流程为导向”的服务理念,目的在于帮助企业或者组织能够有效的识别与管理IT服务管理的关键过程,保证在满足客户与业务需求的同时,依照“P-D-C-A”方法论充分发挥IT服务持续改进的能力,最终达到企业或者组织利益最大化的目的。
ITIL、COBIT、ISO2000这三者之间的相互交叉和相互补充的,它们都是IT管理方法,但各自的侧重点不同。COBIT侧重于IT控制和评价,对IT流程和安全方面涉及不多,侧重事后管理;ISO2000主要是关于安全控制和管理的,侧重事前控制;而ITIL主要针对的是IT流程,对安全和系统开发关注不多,侧重事中控制。
由于昆仑银行重组时间短、基础薄弱、科技人员偏少、IT外包比重较高,大多数中小商业银行,特别是城市商业银行在运维管理中都不同程度地存在一些问题:
运维人员少、一人兼多岗、运维人员风险意识参差不齐,部分人在这方面意识不强,运维经验不足,过度依赖厂商。
网络故障、数据库表空间满、MQ中间件通道异常、消息队列杜塞、IPC消息队列堵塞、应用进程缺失、WAS宕机等问题都是被动发现。
IT管理成熟度模型如表1。
此种方法从IT服务管理的必备条件到用户使用界面和效果等全面对昆仑银行的IT服务管理水平同ITIL推荐进行比较,最终得出分析结果,我行的运维管理水平已经到达3级(已定以级)或者以上。
昆仑银行的运维管理体系建设的目标:保障IT系统的稳定与效率;从容应对各类紧急事件;合理的IT系统架构设计。我行的运维管理体系目前包括IT服务管理系统、集中监控平台系统。
表1
现阶段我行IT服务管理系统主要实现功能包括服务台管理、事件管理、问题管理、变更管理、处理服务请求、知识库管理、投产演练以及投产管理统计分析等功能;IT资产全生命周期管理,设备出/入库管理、设备调拨管理、供应商管理、合同管理等内容。通过此项目,我们也制定了一系列管理制度并且流程化,如事件管理、问题管理、变更管理、服务请求管理、投产演练管理流程、投产管理流程,严格控制工作流程和操作流程。
现阶段,我行集中监控平台系统主要监控的对象有:主机(AIX、Linux、Windows磁盘空间、CPU、HA状态等)、存储(EMC、HDS、IBM产品的性能管理和事件管理)、总分支行网络设备(路由器、交换机、防火墙)、总分行之间的通信线路、分支行之间的通信线路、总分行与外联通信线路的连通性、数据库(DB2、Oracle、Sybase的状态、表空间、锁数量等)、MQ中间件(通道状态、队列深度等指标)、WAS中间件(内存大小、连接池、线程池等)、50多套应用系统(核心、信贷、现金管理、综合网关、银联前置、POSP、国结、外汇清算、SWIFT等)(系统运行状态、可用性、交易量、成功率等性能监控以及批前检查、批量监控、批后监控等)。监控平台通过声光、短信、邮件的形式通知值班人员以及相关运维人员,做到不漏报也不误报。
IT服务管理系统和集中监控平台系统在物理上是独立的,但是这两者在逻辑上是紧密联系的。IT服务管理系统与集中监控平台系统集成,接收其产生的事件,及时作出处理,形成闭环,并达到自动预警和自动事件创建的功效,不仅可以管理人员跟踪相关事件同时也可以根据事件处理时长考核相关的运维人员。
建立IT运行的预警机制:从被动管理到主动管理,提高故障主动发现的比率,快速定位系统故障,缩短系统故障解决时间,提高系统的可用率。通过分析报告发掘隐患:
保证日常变更的完整与准确。
依据运行中的各类事件和要求,调整应用系统规范,做到预先控制,控制对关键配置信息的更改与维护。
建立系统的评估机制:基于数据对系统性能、容量评估,提升系统的性能,对系统优化提出合理的建议。
建立IT运行质量控制机制:问题的预先解决和质量把关。
建立应用监控接口规范,规范和完善我行业务应用的开发规范。
建立全面的监控管理体系:通过监控体系主动发现事故,通过自检、调整、判断、分析四个流程保证监控系统的不断自我完善;通过监控系统的积累,逐步建立告警知识库,同时建立和完善《综合监控规范》和《分行监控规范》。
未来,我们要继续加强运维管理体系的推广实施,积极总结、分析实施成果,从标准化、规范化、自动化等方面对运维管理体系进行定期审查和完善。要以加强运维流程管理、提升运维服务质量为目标,从而持续改进。同时引入新的工具,如批量作业自动调度、应用自动部署,这样可以消除人工操作风险,提高作业效率,提高系统可用率,提升我行运行操作管理水平,满足我行发展和行业监管要求,另外我们将在现有的集中监控系统的基础上实现业务影响智能分析,在对业务逻辑进行梳理的同时,建立了故障根源分析模型和影响分析模型,将跨业务系统的交易有序串联起来,生成交易树,实现对从交易发起到交易结束的完整的交易路由追踪,结合基础资源和交易日志监控,实现了交易异常或失败的故障准确定位。
运维管理体系用于管理层对整个管理体系进行管理,制定方针目标、进行管理评审。管理层通过这些流程制定管理方针目标,测量目标的执行,监督流程管理效果,执行PDCA(即Plan、Do、Check和Action)循环,以改进数据中心绩效,为昆仑银行的发展保驾护航。