徐 健,孙 永
(国家知识产权局专利局专利审查协作江苏中心,江苏 苏州 215163)
随着近几年IT系统的持续建设,系统的规模和复杂度越来越大,运维效率和运维组织管理被提到前所未有的重要位置,对IT运维的要求越来越高。如何顺应形势发展要求,使不同运维组织协调配合,建立科学、高效的运维管理体系,成为当前面临的重要课题。
目前IT运维服务管理中存在的问题:(1)缺少系统的IT运维管理方法论的支撑,缺少IT服务流程管理系统的支持,IT运维事件的处理无法对进度、结果进行跟踪,运维质量难以保证,对人员的主观能动性和自觉性依赖较高;(2) 缺少运维人员日常工作质量和数量的考核数据,人员绩效难以考核;(3)内部的编制较少,运维主要依赖于服务商的驻场人员和外部服务商,人员的变动较大,知识的沉淀较少。三方(信息中心、服务商、厂商)运维职责不清晰,涉及的部门和角色多,在发生突发情况时,协调并合理调动人力资源困难,无高效的流程以至影响到响应的速度和质量。
ITIL作为一种主流的IT服务管理最佳实践框架,已经受到世界范围内的普遍认可,基于ITIL的运维体系规定了IT运维中各项活动的流程,为运维人员提供了标准化的行为准则,提高了各项资源的利用率以及工作效率;同时在管理体系中规定了一系列的关键性能指标和活动,保证了IT服务的质量。
业界经验表明:“一流的工程师到二流的IT服务组织,只能提供二流的服务,反之,二流的工程师到一流的IT服务组织则能够提供一流的服务”[1]。可见一个规范、标准、先进的流程十分重要。引用ITIL最佳实践,通过系统实施和推广优化并逐步提升IT服务管理能力,防范IT运维管理的风险,基于ITIL构建初步的IT服务管理体系是众多企业的一个必然选择。
如何实施服务管理没有通用的答案,每个组织都有其独特的业务、人员和文化。ITIL提供了最佳实践指南,采用这些最佳实践指南时应该根据具体情况对其做出调整[2]。
建立IT服务管理体系的过程分为以下7个步骤:理念导入、评估现状、确定目标及范围、流程设计、工具实施、上线试运行、持续改进。
理念导入是ITSM项目实施的第一步,也是决定项目能够成功实施的关键一步[3]。理念导入主要是学习、研讨、灌输基于ITIL最佳实践运维管理体系框架,包括ITIL的基本知识和实施理念,有共同的语言和目标,并明确IT服务管理的愿景,在组织内进行宣导。培训课程可以采用提问和研讨的方式,让IT人员成为主角。
完成理念导入并建立愿景后,需要评估组织当前的服务管理流程成熟度及IT服务管理的现状,并查找分析差距,进一步明确目标和范围。现状评估就是要通过定性和定量的分析、恰当的研究方法(包括调查问卷和现场访谈、观摩等)全面了解组织的IT服务状况,及其与理想状态之间的差距,并撰写评估报告。这是后面确定IT管理范围、工具实施的基础。
根据现状评估结果,制定近期IT服务管理的目标与范围。在不同评估现状下,制定的目标也不同,随着体系的不断改进完善,目标也在不断提升,迭代式地实现已制定的愿景。
梳理并固化服务流程,优化服务模式,通过系统实施和推广优化逐步提升IT服务管理能力,防范IT运维管理的风险,基于ITIL构建初步的IT服务管理体系。包括:(1)基于ITIL思想梳理并固化IT服务管理流程;(2)实现统一的运维服务台,建立集中的运维知识库;(3)完成事件、问题、配置和变更发布流程的实施;(4)构建统一的配置数据库,为IT服务提供 精确化的数据支持。
有了目标与范围,就需要制定和实施IT服务管理方案,主要包括管理体系的梳理、流程设计的选型等环节。流程设计可以遵从先事件、服务台、问题、知识、服务级别后变更、发布、配置管理等顺序。
流程设计包括流程研讨、流程详细设计、评审确认3个环节。其要点是保证IT人员、管理层的参与度,由咨询顾问带领企业人员共同设计,关键点是要做好评审确认,让IT人员和管理层尽可能达成一致。评审确认会一般有两轮或多轮才能完成。图1所示为服务提供流程。
图1 服务提供流程
管理体系的设计、流程的制定、流程中相关指标的确立,都需要结合选择的工具以辅助体系实施,从而提高实施的效率。为了更好地符合企业自身的特点,本文采用在某成熟供应商的成熟产品基础上定制化开发,实现功能相对简单且能满足使用要求的IT服务管理平台。
IT服务管理平台共包含事件管理、自助服务管理、服务请求管理、问题管理、知识管理、变更管理、发布管理、配置资产管理、计划作业(含任务管理)、服务水平管理、报表管理等11个功能模块,其逻辑框架图如图2所示。本文重点阐述已实施的事件管理、自助服务管理、变更管理、配置及资产管理等模块。
(1)事件管理
事件管理又称故障管理(Incident Management),其主要目标是尽可能快地恢复到正常的服务运营,将事故对业务运营的负面影响减小到最低,并确保可以维持服务质量和可用性的最高水平。事故管理的关键环节是:事件检测与记录、事件分类与初步支持、事件调查与诊断、事件解决与恢复、事件关闭、事件跟踪回顾等环节。
事件管理流程实施得好坏直接关系到项目的成败。主要考虑如下几点:
① 事件的分类。进行前期的梳理,事件按照类别、子类和条目进行分类。一级分类包括桌面、网络、系统、信息安全、机房环境和应用。
② 确定事件的优先级。事件的优先级由事件的影响度和紧急度来确定。影响度通常是考虑受影响的数量、部门,某种意义上将影响度往往等同于系统或设备的重要性。紧急度一般等同于事件的严重程度,对于业务系统或核心设备,宕机的紧急度大于性能下降的紧急度,性能下降的紧急度又大于单个非核心功能不可用的紧急度。
图2 IT运维服务管理平台逻辑架构图
③ 谁负责关闭事件。事件应由服务台和用户进行确认并关闭,也可以允许用户在自助服务系统中确认并关闭。
④ 转派规则的设计。同组可以转派,跨组需要回退到服务台才可以转派,或者特定角色的人才可以跨组转派(如事件经理)。
⑤ 各个环节如何通知相关的角色和责任人。一般是通知受理人即可,但重大事件要第一时间通知事件经理、部门经理等主管领导。对于事件补单的情形,也要通知事件经理。整个事件处理的环节中事件的分派、等待、解决和关闭环节要及时通知用户。
⑥ 事件是否可以过期自动关闭。事件一般由服务台或者用户自助关闭,对于超过10天未关闭的,系统可以自动实现关闭,并且默认为已经解决。但是对于重大事件,必须由服务台进行关闭。
⑦ 事件满意度的获得。事件的满意度是ITIL中一个重要的考核指标,高满意度是IT部门的一个主要追求。项目中实现了基于系统的自动发送满意度征询邮件,用户可以通过邮件或自助服务模块反馈满意度及意见,对于超期未反馈的,邮件再次提醒,三天之内仍然未反馈的由服务台进行回访。但对于重大事件,事件解决后,服务台第一时间回访满意度。
⑧ 告警升级规则的涉及。服务级别协议(SLA)是指对于供应方在需求方要求下应当完成的活动的清晰描述,一个SLA总是以某种详细程度描述何时、何处以及如何完成这些活动[4]。由于单位的IT发展还比较弱,信息中心还没有与业务部门签署SLA协议,在这种情况下进行讨论,以一套“预期的”并向业务部门公布作为警告的SLA,并基于此进行升级和告警。表1所示为基于解决时间的事件警告升级规则。其中,首次升级时间指事件的解决时限,即事件从创建开始到当前时间或解决时间,在该时间尚未解决即要升级告警的时间;升级告警对象是升级告警时,从行政或者管理角度的升级告警,即向何种角色或领导升级、告警,以引起重视。
(2)自助服务管理
自助服务管理即“员工自助服务管理”,主要包含在线申报事件、服务请求、查询工单、访问知识库、对工单解决进行评价、授权与委托等。主要功能是:按服务目录提交服务请求、在线申报事件、查询用户的历史工单、访问知识库、对工单解决进行满意度评价。有效地实施自助服务,增加了业务部门和IT部门的渠道沟通,依靠有效的知识库,简单问题还能由用户自助解决,不但提高了业务部门用户IT技能和知识,也减轻了信息中心的工作量。
(3)变更管理
变更管理流程通过可控的方法及步骤来管理所有针对IT生产环境的变更,从而消除或最小化变更对IT服务质量的影响,同时提高日常的运维效率。通过对所有变更的正确评估,可以维护IT环境的完整性;变更和变更实施得到正确记录,并提供审计记录。
在变更流程的实施中重点关注两个问题:一是变更类型的定义及审批流程。变更的核心是审批、授权,及其在变更流程中对变更风险的评估。二是变更时如何与配置管理数据库(CMDB)衔接,发挥CMDB的价值。要求所有的变更都要关联CMDB,这样既可以精细化定义变更流程,也可以经过长时间的数据记录,从CMDB的维度查看一个配置项曾经有过的变更请求,有利于提高运维效率,在出现事故时更快地查找原因。另外,在变更完成后,要求在变更流程中强化CMDB的同步更新和维护。
表1 基于解决时间的事件告警升级规则
(4)配置及资产管理
配置管理的目标是定义IT服务和基础设施的部件,维护与IT部件及利用这些部件提供IT服务有关的记录,并确保这些记录的可靠性;提供准确的信息和文档以支持其他服务的管理过程[5]。配置管理控制的范围包括硬件、软件、流程、人员以及相关文档,并在CMDB中集中管理。其逻辑模型图如图3所示。其中记录包含配置对象的详细配置信息、变更历史信息、生命周期信息、配置之间的关联关系信息以及与事件、问题、变更管理的关联关系信息。
图3 配置管理逻辑模型图
CMDB的建设至关重要,主要有以下几点需要重点考虑:
①CMDB配置模型的设计、管理的范围和颗粒度的选择。管理的类别,比如主机、网络、存储、应用系统、数据库实例、中间件实例等;管理的层次属性,可以业务系统为视角加以考虑,哪些业务系统及其支撑业务系统的主机、存储、数据库、中间件要纳入CMDB管理的范畴,一般是先实施核心系统后实施外围系统;管理范围的关系,配置项的关联有很多种:连接、依赖、运行、安装部署、父子、主备、等同等,不同类型的配置项之间可能有一种或多种关系。
② 要高度重视配置项数据的收集和梳理。配置项数据的收集是一项费力费时的工作,但方法恰当,可以事半功倍。建议除网络设备、机房设备(配线架、空调、UPS等)外,以应用系统为维度考虑:应用系统、主机、存储、数据库、中间件等类别的配置项,先应用系统后主机,然后数据库实例、中间件实例、应用实例,最后考虑网络设备、机房设备等。
③ 在收集完配置项属性和关系数据并规格化后导入CMDB,并建立基线。
④ 构建CMDB的目的和价值在于运用。在事件、问题等工单的记录中要关联CMDB的配置项,在变更发起和变更计划时要关联CMDB,并基于CMDB评估变更风险和影响。
⑤ 为了保证CMDB的数据的完整性和准确性,在有效实施变更流程的同时,定期对CMDB做“盘点”,即定期审计,主要是看配置项的属性和关系是否与生产环境一致,如果不一致要查明原因,并审查流程和制度规范。
⑥ 要考核配置管理数据库如何应用,比如是否有必要和监控系统整合;与事件、问题、变更、发布等流程的关联关系;与资产管理的关系等。既不要高估配置管理的短期价值,但也不要低估配置管理长期的价值。
(5)报表
基于ITIL的核心KPI考虑,包括事件总数、事件关闭的数量、事件成功关闭的数量/比率、规定时间内解决的事件数量/百分比、超时未解决的事件数量、规定时间内响应的事件数量/百分比、平均解决时间、一次成功解决率、问题总数 、已找到根本原因的问题数量、趋势分析问题所占比率 、通过变通办法解决的问题数量、问题成功解决率等。
在完成工具实施后,要进行上线测试、试运行和推广。在系统正式上线前,需要组织好相关人员参加培训,掌握流程、制度和工具。由于项目不仅仅涉及到信息部门,自助服务还涉及到业务部门的培训和使用,所以项目中对信息部门先做培训,在应用推广等相对稳定和成熟后,再向业务部门推广自助服务模块。
根据戴明质量环所倡导的PDCA的管理思想,流程设计应该是一个持续优化和改进的过程。业务在发展、技术在进步、成熟度在提升,IT流程也要不断优化和完善。项目结束后,主要是由流程经理或流程负责人定期或不定期地组织会议、研讨、总结、修订、完善IT运维流程。
该项目实施取得了以下成果:⑴构建了统一的服务台,初步梳理了IT服务管理的相关制度和体系文档,构建了IT服务提供的各项流程,更有效、有序地组织IT资源及时响应业务需求;⑵运维支持人员平均响应时间、平均故障解决时间得到了极大提升,设备和应用可用率大幅提升,针对业务需要提高了运维水平。通过与内部支持人员签订OLA(内部支撑协议),保证了各服务参与方之间的有效沟通,使问题、故障得以快速解决;⑶构建了较为完整的配置管理流程和CMDB,通过配置管理库的建立以及相关变更机制的制定,使各种IT资产得到管理;⑷实现了工作计划、工单调配、任务执行、状态跟踪等日常运维工作流程化、可跟踪、可监控、可度量、有数据支撑;⑸极大地改变了IT服务的现状,提升了组织的能力、地位和形象。
通过该项目的实施,有以下经验和教训值得思考:⑴基于ITIL的服务管理系统的建设是一个复杂的系统工程,流程的梳理和再造至关重要;⑵根据ITIL最佳实践,同时结合企业自身的实际分步实施。对于企业而言,服务台、事件管理、自助服务、知识库、问题管理、变更管理、配置及资产管理可以作为第一步实施,之后再考虑安全案例、业务连续性可用性管理、财务管理等流程;⑶高层的参与和支持至关重要,尤其是企业的最高管理者的认同和参与。在项目规划、流程梳理、制度设计和实施的各个阶段有效的领导、协调、授权、监督非常重要;⑷项目上线不仅仅是ITSM系统上线,更重要的是角色岗位映射到位、规章制度到位、培训及意识到位;⑸要重视基于PDCA的思想,持续改进。在IT服务管理体系实施过程中,需按目标和里程碑进行阶段性评审,提出和采取补救和改进措施以实现预期目标,并对最终建立的IT服务管理体系提出进一步的持续改进方案。
[1] 陈宏峰,刘亿舟.中国IT服务管理指南.理论篇(第2版)[M]. 北京:北京大学出版社,2012.
[2] (荷兰)Jan van Bon.IT管理框架[M]. 刘向辉,译. 北京:清华大学出版社,2009.
[3] 程栋,刘亿舟.中国IT服务管理指南.实践篇(第2版)[M].北京:北京大学出版社,2012.
[4] (荷兰)THIADENS T.IT管理的知识体系[M]. 李东,牛芳,译.北京:清华大学出版社,2007.
[5] 中国电子技术标准化研究所.IT服务管理标准理解与实施[S].北京:电子工业出版社,2011.