廖从涛 郭晓松 宋云飞 周益龙
摘 要:随着企业信息化建设进程的不断推进以及企业信息系统复杂程度的增加,IT运维管理也变得越来越重要,但IT运维管理也存在如管理功能单一、缺乏流程保障等弊端,因此难以满足企业对信息化服务越来越高的要求。通过将ITIL(Information Technology Infrastructure Library)引入IT运维管理中,达到有效管理、控制、维护信息系统及关联IT资源,为企业提供强有力的IT运维服务。
关键词:信息化系统 运维管理平台 运维服务 IT服务管理
中图分类号: TP319
Research on the Application of the ITIL-Based Operation and Maintenance Management Platform in Three Gorges High-Tech Information Technology Co., Ltd.
LIAO Congtao GUO Xiaosong SONG Yunfei ZHOU Yilong
Three Gorges High-Tech Information Technology Co., Ltd. , Yichang, Hubei Province, 443000 China
Abstract: With the continuous advancement of the construction of enterprise informatization and the increasing complexity of enterprise information systems, IT operation and maintenance management has become increasingly important. However, there are still drawbacks in IT operation and maintenance management, such as the single management function and the lack of process guarantee, so it is difficult to meet the increasingly high requirements of enterprises for information services. Introducing the information technology infrastructure library (ITIL) into IT operation and maintenance management can effectively manage, control and maintain information systems and correlate IT resources, so as to provide strong IT operation and maintenance services for enterprises.
Key Words: Information-based system; Operation and maintenance management platform; Operation and maintenance service; IT service management
我國的企业信息化建设还在不断推进中,然而企业信息化建设的重点已经不再是关注技术水平是否特别先进,而是慢慢转变为如何才能有效利用相关信息化资源,提供高效率的IT服务[1]。如果IT运维服务管理不到位,那么即使企业投入大量时间和成本建设了信息化系统,也可能不会给企业带来正收益。
为了保证IT系统的服务质量,IT服务管理(IT Service Management, ISTM)结合了IT运维领域相关的理论及实践,通过了服务级别的协议,形成一套协同的操作流程,主要包括变更及问题管理、资产管理等[2]。IT服务管理可以为企业信息化建设及管理提供一个系统基础框架,帮助企业制定信息化组织架构,从而在IT服务管理的框架性要求下运用ITIL(Information Technology Infrastructure Library)等工具及标准制定IT管理流程,达成固化和统一运维管理标准规范和流程、完善IT控制及管理体系等目标。
1. ITIL理论基础
作为业界最为广泛接受的IT服务管理方法,ITIL包含了如何管理IT基础设施的流程描述[3]。传统的IT管理模式主要是技术型和智能型,突出以技术为导向,但是解决问题时却比较被动、分散。为解决这一问题,英国商务部发布了一个IT服务管理核心流程——ITIL 1.0体系框架,这一体系框架包括业务管理、IT服务管理规划和实施、服务管理以及基础架构管理。ITIL 2.0在此基础上增加了应用管理、安全管理等模块,此时IT管理的重点转变为以服务为中心,从而使IT服务包含了服务台、事件管理、配置管理、变更管理、发布管理以及问题管理。
ITIL 2.0中最核心的两个服务是服务交付和服务支持,ITIL 3.0基于服务的整个生命周期划分为五个阶段:服务战略、服务设计、服务转换、服务运营以及服务持续改进。ITIL 3.0的这种生命周期模型改善了原来各模块独立部署实施的现象,可以在不同层面适应业务及IT需求的变化,使整个IT服务过程成为良性的循环体。ITIL 3.0包含了几个核心流程:事件管理、问题管理、变更管理、配置管理、发布管理以及知识管理等[4]。
2. 基于ITIL的运维管理平台需求分析
三峡高科的信息系统需要管理庞大的资源管理对象,传统的管理模式及运维模式难以满足日常运维要求,主要体现在以下方面。(1)用户需求问题。系统用户遇到故障需要解决时需要主动联系处理人,故障原因不明确会导致用户频繁参与到运维故障处理过程,就需要联系不同运维人员,而针对复杂性问题运维人员可能会相互推诿。(2)运维管理问题。首次接到用户故障的可能不是最终的处理人,而问题解决后未形成工作记录、知识库等,未成功解决的问题由新的处理人处理时就需要重新走一遍处理过程;(3)IT资源对象问题。虽然有海量的IT资源、IT资产,但是很难及时、精确地为日常运维提供有效信息;IT资源对象的逻辑关系及业务关系不明确,无法进行故障关联分析。
为了提高三峡高科IT系统服务效率、提升IT服务满意度,需要设计并实现一个基于ITIL的运维管理平台,基于ITIL管理标准来优化IT服务运维管理流程;并在完整的處理工作流程中实现日常运维各个环节的闭环,包括但不限于运维计划及任务、事件跟踪及反馈、预警提醒等。另外,需要实现ITIL管理标准的自动化、智能化办公,支持服务台、事件管理、变更管理以及配置管理等。最重要的是,为了避免信息孤岛,还需要将上述工作形成知识库,以方便信息资源的共享[5]。
结合上述分析可以发现,基于ITIL的运维管理平台需要具备的功能包括以下几个方面。
2.1 服务台建设
服务台可以看成是运维管理的工作台,作用是连接信息系统、运维管理人员以及用户。服务台可以接收用户请求,将问题或事件转送给正确的运维处理人员,以确保用户请求得到跟踪、处理和反馈。服务台中具备的主要功能点包括服务请求、处理请求、问题跟踪反馈、问题统计以及知识查询等。用户可以使用服务请求在线填写遇到的问题,或者对已经解决的问题进行记录及反馈。服务请求被提交到问题相关部门,问题负责运维人员接手并进行处理。
2.2 CMDB配置管理
配置管理数据库(Configuration Management Database,CMDB)是一种信息管理方式,不仅可以为整个运维流程提供基础信息数据,还能够实现业务流程间的集成及控制。CMDB提供了运维过程中涉及运维资源的机柜、操作系统、配件资源、虚拟机资源等配置项信息。
2.3 事件管理
服务台中的服务请求不能得到有效处理的,运维处理人员需要联系用户进行沟通,将服务请求转成事件单进行处理。事件单中需要记录事件产生的原因、已采取的处理方法、解决方案、最终处理结果等。事件单处理完毕后服务台会定期开展事件回访工作,以确认用户对事件单的处理是否认可,如果用户仍有意见则会重新分派人员处理,直至事件单关闭。
2.4 问题及变更管理
根据运维业务实际场景需求,建立变更、问题处理流程,问题处理是对运维事件处理的流程补充,而变更管理属于对问题处理、事件处理流程的补充,当问题处理流程、事件处理流程需要进行变更申请时(如IT资源变更),就需要进入变更流程。
2.5 知识库管理
知识库中可以包含成功处理的系统故障、软硬件问题等,这是提高运维人员技术水平,形成有效运维知识沉淀的重要手段。运维管理人员可以自发创建知识,或者对知识库中已有的知识进行更新或完善。知识库建设主要包括知识字段设计、知识库权限、知识库访问、知识的入库流程等。
3. 基于ITIL的运维管理平台设计及实现
三峡高科基于ITIL的运维管理平台设计系统具备的主要功能包括服务台、事件管理、CMDB配置管理、问题及变更管理、知识管理等。
事件管理的目的是快速处理并解决异常运维问题,并尽可能快速地恢复业务正常运行,其主要流程包括事件记录、事件分类、事件处理等,涉及事件负责人、服务台人员、一线运维、二线运维等。用户提出服务请求事件标志着事件管理流程的开始,此时对事件进行识别和记录。一线运维借助CMDB配置管理数据库、知识库等工具对事件单中的运维问题进行初步分析与定位,如果可以解决则在经过用户评价后直接关闭,否则升级给二线运维。二线运维根据一线运维提交的事件处理记录进行深入诊断分析,在必要时可以借助软硬件厂商、产品供应商提供解决方案。事件单处理完毕后,在关闭事件单之前需要将事件的处理过程、解决方案提交到知识库。本文设计的基于ITIL的运维管理平台事件处理模块是与ITIL服务台职能管理概念的合并,按照ITIL规范建立事件处理流程,因此在事件处理过程中事件负责人需要全程监控事件的处理进度,并为之协调必要资源[6]。
问题管理的目的是确认事件发生的根本原因、降低同类问题再次发生的概率,其目标是诊断出根本原因。问题管理涉及的主要活动有问题及错误控制、协助处理事件、问题回顾等。问题负责人接收到问题报告后创建问题工单,对问题进行仔细描述后提交给指定的问题处理人员进行处理。接收到问题单的ITIL 1.0体系框架解决人员优先对重要程度和优先级比较高的问题进行调查和诊断分析,诊断及解决过程中也可以联系厂商支持;如果问题复发较频繁,则需要先制定临时措施暂时恢复生产服务,然后查找问题根本原因,再制订根本性解决方案。
变更管理需要对业务及IT请求进行调整,以对在生命周期内的服务资产和配置项进行变更,从而使提供的IT服务和业务需求更加匹配。变更管理的主要内容是对ITIL生命周期中的配置项变更进行管理,包括软硬件、应用程序以及配套文档等。变更管理的主要活动有变更请求、变更评估及审批、实施变更、跟踪变更等。变更发起人根据变更需求填写变更内容、变更方案、风险等级等信息后提交变更单给变更评估人;变更评估人根据个人经验、知识库中的历史知识经验对变更内容及方案进行评估,评估变更可以实施则将其提交给变更审批人进行审批;变更审批通过后即可实施,否则退回到变更发起人进行修改。变更实施完成后,变更发起人记录实施结果后关闭变更单。
配置管理可以为运维操作提供正确、完整的资产配置信息,避免出现因为配置信息错误而导致IT服务质量下降的问题。常用的配置项包括IT组件、组件管理服务、软硬件信息等。配置管理的活动主要包括配置识别、配置控制等。配置识别会确定配置项的范围、字段、标签、基本属性等,并在确定配置基线的基础上初始化CMDB。配置控制对维护、更新过的配置项进行版本控制,确保CMDB只记录经过授权的配置项变更及更新操作。
知识库是提高运维人员技术水平,形成有效运维知识沉淀的重要手段。知识的入库流程是指知识从建立到发布的过程,知识可以来源于维护的提交,也可以来源于运维人员的直接录入,且知识必须经过知识审核人审核后才可以入库。已解决的事件可以用于直接创建知识,并和事件单相关联。
4 结语
本文研究了基于ITIL的运维管理平台在三峡高科中的应用。首先对ITIL的理论基础进行介绍;其次分析了三峡高科日常运维中存在的问题,并针对这些问题进行需求分析,提出基于ITIL的运维管理平台需要具备的基本功能;最后对基于ITIL的运维管理平台进行设计及实现。基于ITIL的运维管理平台在三峡高科应用以来,统一了内部运维管理标准规范和流程,实现了对信息系统运行监控工具的有效集成和应用,加强了信息系统运行监控和故障的提前预警,提升了运维响应速度和解决效率。
参考文献
[1] 王旭勇.基于ITIL的企业IT运维管理服务平台研究[J].信息与电脑(理论版),2022(9):113-115.
[2] 马锦波.基于ITIL的IT运维管理系统的研究与应用[J].信息技术与信息化,2020(4):53-54.
[3] 赵海洋,时延鹏.基于ITIL与物联网的开放型IT运维云服務平台的研究[J].现代信息科技,2022,6(1):160-163.
[4] 李少武.Y保险公司科技中心IT运维管理的优化研究[D].北京:北京交通大学,2022.
[5] 赵海洋,时延鹏.基于ITIL与物联网的开放型IT运维云服务平台的研究[J].现代信息科技,2022,6(1):160-163.
[6] 吴青,汪俊洋,邱林,等.基于ITIL信通专业运维新模式在电力系统的应用[J].电子设计工程,2021,29(5):118-123.