郭敬泽
ITIL即IT基础设施库(ITInfrastructure Library),是一系列对IT服务管理提供描述性指导(要做什么、为什么要做)的准则,于20世纪80年代后期开始发展,现已成为IT服务管理在世界范围内事实上的标准,具有中立性、非私有性质、全面性和连续性以及广适用性的特点。它的核心内容是“服务管理”,包括10个流程和一项职能。其中服务支持包括服务台职能、事件管理、问题管理、配置管理、变更管理和发布管理、服务递交流程组服务级别管理、IT服务财务管理、能力管理、IT服务持续性管理和可用性管理。
“金保工程”运维管理的现状和挑战
“金保工程”是利用先进的信息技术,以中央、省、市三级网络为依托,支持劳动和社会保障业务经办、公共服务、基金监管和宏观决策等核心应用,覆盖全国的统一的劳动和社会保障电子政务工程。目前,金保工程一期建设工作已基本完成,全国共建立地市级以下统一的数据中心270多个,部、省、市三级联网的地市达到319个,已批准发行社会保障卡2亿张,实际持卡人数1亿人。
(一)“金保工程”运维管理的基本现状是:
1.地方在实际业务中高度自治,运维管理处于典型的分散状态。
2.地市、县的运维工作大多由集成商、开发商进行支持,没有系统化的运维管理。
3.信息化部门目前的支持与管理流程需要调整,以满足人力资源和社会保障核心业务的要求(如生产、交换、决策和公共服务等)。
4.各地信息化部门负责直属机关的运维工作,对数据共享与交换的集中管理有限。
5.目前信息化部门存在的地市分布式运维方式,无法满足人力资源和社会保障业务体系化的发展需求与“金保工程”对数据的集成与共享的管理要求。
(二)“金保工程”运维管理面临的挑战是:
1.信息化管理部门如何与业务部门有效对话。
2.如何建立数据中心运维管理体系以提供高效支持。
3.信息系统如何加强对业务发展的适应力。
4.如何建立并实现有效集中管理以满足核心业务需求。
5.如何加强信息口对业务的系统化支持。
6.如何加强信息化部门的协同力。
7.如何提高信息化部门的管理水平。
8.信息化部门如何帮助业务创新。
从以上分析可以看出各地“金保工程”运维管理还存在很多急需解决的问题。随着各地“金保工程”二期建设工作逐步推进,人力资源和社会保障信息系统多数已正式运行并进入维护阶段,而且人力资源和社会保障信息化管理部门在地位提升的同时,也意味着要承担更大的责任,即提高人力资源和社会保障的业务运作效率,降低业务流程的运作成本。为做好“金保工程”运维管理工作,各地人力资源和社会保障部门需要尽快规划,运用ITIL理论,以ITIL三个流程两个库为建设重点,采取必要的措施,解决“金保工程”运维管理中存在的问题。
以ITIL的三个流程和两个库为建设重点
ITIL的三个流程和两个库是事件管理流程、问题管理流程、变更管理流程,知识库和配置库。
1.事件管理流程
所谓事件,是指任何不符合服务的标准操作且已经引起或可能引起服务中断和服务质量下降的现象。事件管理流程通过对事件的相关环节进行规范,从事件的记录开始,经过分类和初步支持、调查与诊断、解决和恢复,直到与客户确认后事件的关闭,流程中的各个环节前后相连,流转有序,并规定每一环节处理的最长时限。通过事件记录员、事件分析员以及事件经理等角色的明确,责任到人。从而达到在发生事件后,能在最短的时间内解决并恢复客户中断的服务,提高客户满意度。
2.问题管理流程
问题管理流程的目标就是通过一系列规范的环节,找到问题的根源,并形成解决方案。从问题的检测与记录开始,经过对问题的分类和分派、调查和诊断,直到问题的最终关闭。各环节连续清晰,环节角色分工明确,从而实现在发现问题后,能够迅速地找到问题的根源,形成解决方案,为最终解决问题打下基础。
3.变更管理流程
变更流程是指需要对系统的软件或硬件进行变更,其流程如下:开单→风险评估→审核→审批→构建(设计、开发)→测试、实施→实施审核→实施→关闭。各环节紧密相连,易于控制,保证变更的高效有序。
4.知识库
知識库,顾名思义,就是为达到积累知识的目的,将事件、问题和变更的经验都总结到这个库里。一线工程师利用知识库帮助用户解决问题,如果发现知识库里没有相关的知识条目,就需要把这个新内容增加到知识库中。一线工程师详细记录出现故障主机的时间、故障现象、处理措施、主机的使用者,经过长期积累,可以针对经常出故障的主机用户进行分析,确定其操作行为特征,并提出相应的建议或处理措施。
5.配置库
配置库,主要是记录系统软硬件配置信息。在行业范围内不管是硬件,还是软件,配置库记录得越详细,给维护人员提供的信息就越准确。此外,不光是配置信息本身,关联信息也要在配置库里体现出来,譬如它的父或子分别是什么。可以说,配置库是事件、问题、变更管理流程的基础。
运用ITIL理论需要采取的措施
第一,建立三级运维架构,优化运维人力配置。通过人力资源的整合与配置,形成一线客服、二线支持、三线研发的人员梯队结构,更好地适应决策管理系统运维工作的开展。一线客服承担着ITIL理论中“服务台”的角色,受理服务请求,提供一线帮助,并对提出的各种情况进行处理; 二线即系统运维部门作为核心团队负责运行维护和管理工作,支持提供专业技术更强的技术支持服务,深入研究疑难事件和问题,对网络、数据库、中间件、应用、安全等进行主动运维,并解决信息服务台转交的请求,在必要时协调供应商、开发商等外部资源或者在提供现场服务的情况下及时到现场排忧解难; 供应商、开发商作为三线支持,支持运维中心二线不能解决的问题。采用分级管理的工作模式,通过一、二、三线之间的明确分工和紧密配合,形成较为合理的运维人力配置,提高了人力资源和社会保障系统运维服务效率和质量,并降低了运维服务总体成本。
第二,制定、规范、落实运维制度和流程。建立运维流程项目组、运维监控项目组和灾备系统项目组,完成包括网络管理、中间件管理、数据库管理、用户管理、机房管理、事件管理、安全管理以及外包公司管理等共计29个运维制度和流程,建立“培训-实施-报告-检查-回顾/审计”的流程实施和完善机制;引入运维责任事故通报和外包公司经济责任追究制度,提高人力资源和社会保障部门和外包公司技术人员安全防范意识,强化外包公司的管理;组织实施集中运维监控系统和集中监控室,实现对复杂IT系统的全面监控。运维服务管理系统规范运维工作流程,包括事件管理流程、问题管理流程、变更管理流程,并形成知识库和配置库,将日常维护管理工作明确化,保证人力资源和社会保障IT系统的稳定性、可靠性和用户的满意度,为人力资源和社会保障事业提供可靠、高效、安全的IT服务。
第三,建设集中运维监控系统。集中监控平台可以实现信息系统基础设施和应用的全面监控。监控平台实现提前预警,变“救火队”为主动运维,信息系统运行维护的效率大幅度提升。
第四,打造过硬的运维团队。为保证运维服务“业务不中断、数据不丢失”这一目标的实现,人力资源和社会保障部门需要组建一支技术过硬、综合素质较高的专业运维队伍并实施科学管理,从人力资源上给予充分保障。在配置运维人员时,采用AB角的方式,充分克服单点故障可能带来的风险,实现人力资源的互为备份。此外,人力资源和社会保障部门借助社会化培训、绩效考核、激励机制三个方面不断优化人员配置,做到“感情留人、待遇留人、制度留人”,提高技术人员的待遇,并为其创造锻炼成长的环境,逐步造就了一支专家型队伍。
第五,加强落实执行管理
在人力资源整合与优化的基础上,人力资源和社会保障应通过ITIL项目的建设使运维流程得以逐步规范,使每个运维工作中的事件、问题和变更等都能责任到人,并得到足够的关注和后续跟踪,提高运维工作的质量和效率。
人力资源和社会保障运维团队应对现有的流程模式进一步深入研究细节,逐步制定各细节环节的业务规范,并落实执行,通过定期的工作检查和业务考核,牢抓运维工作的落实执行,使运维工作的各项规范制度真正落到实处。
(作者单位:宁夏自治区人力资源和社会保障厅)