王昕 景旭 杨会君
[摘 要] 随着高校信息化的发展,教学、科研等软硬件资源平台的增加,加剧了资源浪费和用户需求的矛盾。以OpenStack为代表的开源云平台引入虽解决了信息资源管理和按需分配问题,但运维服务效率和运维成本面临巨大的挑战。文章立足于高效率、低成本的云平台管理理念,通过借鉴ITIL思想,以OpenStack为开源云框架,以底层的平台、软硬件资源为对象,提出了基于流程的、层次化高校云运维模式。通过基于ITIL改造传统的云运维业务流程,提高服务效率、节约资源、促进运维过程规范化,最終为IT服务水平的量化提供客观、科学的依据和标准。
[关键词] 开源云平台;运维;OpenStack;ITIL
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2019. 11. 076
[中图分类号] G647 [文献标识码] A [文章编号] 1673 - 0194(2019)11- 0176- 02
1 引 言
随着计算机技术的高速发展和信息时代的来临,为了提升教学水平、科研能力,学校投入大量资金用于教学科研平台建设,由于缺乏高效、科学的管理模式,存在平台可扩展性差、资源分配缺乏弹性、无法按需进行部署等问题,导致现有资源利用率低,无法满足用户需求。
以OpenStack[1]为代表的开源云平台解决了计算、网络、存储等硬件资源的共享性问题,通过引入分布式计算和虚拟化技术使得用户可以通过网络随时随地、按需使用、按需付费、节约了用户使用成本;同时虚拟化技术的引入使得管理层次增加、管理过程复杂、极大增加了日常运维的难度。ITIL(Information Technology Infrastructure Library,信息基础架构库)[2]运维实践理论的提出,被证明可用于企业管理中,并起到优化企业IT管理流程、提高内外部客户的满意度、提升IT服务水平,帮助降低IT服务成本,提高企业经济效益[3]。
本文立足于为高校师生提供更好的技术和服务,将ITIL流程化思想和OpenStack引入高校教学、科研平台管理,实现高校传统的“以IT技术为中心 ”,“被动式”[4]的运维模式向“以客户和服务为中心”,“主动式”[5]的现代运维模式转化,有效提高服务管理效率,降低高校的日常运维复杂性和总成本。
2 基于ITIL的层次化运维模型
鉴于传统的、以技术为中心的被动式运维管理模式对IT部门的日常运维提出的巨大挑战,同时作为IT服务管理的最佳实践标准,大量的成功案例表明实施ITIL可以将IT部门的运营效率提高25%~30%[6],为了解决OpenStack开源云平台造成的系统层次多、运维复杂等问题,切实改善运维效果,本文以ITIL流程框架为主导,以OpenStack开源云平台中的软硬件资源作为管理对象,提出了基于ITIL流程化的、层次化的高校云运维管理模型, 模型自下而上设计了云资源管理平台层、运维平台层和用户服务层三部分。用户服务层接受来自外部用户的服务请求并将其请求以流程化的方式传递给运维层进行处理,并向外部用户反馈处理结果。运维平台层通过调用OpenStack云管理平台接口为用户请求提供资源分配服务,同时为服务层提供故障申报、故障解决等一系列流程化管理功能和最终结果反馈接口,在整个模型中起承上启下的作用。云资源管理平台层直接对计算、网络,存储等资源进行管理,接收运维平台层提出的各种资源服务请求,为上层的运维模块屏蔽了底层软硬件资源细节。
3 运维流程设计
鉴于传统运维模式存在环节繁杂、故障重复递交率高、资源管理分散、处理周期长等问题,本文用流程化的思想对其进行改造,通过设计自上而下、逐步细化的业务分解流和自下而上、逐步解决的任务反馈流,优化高校云平台运维流程。此外,考虑到业务部门缺乏专业IT知识,对故障细节描述不清晰,影响后续服务台故障分类的科学性和指派的准确性增加了现场工程师流程。
在正向分解流中,模型在服务台之上增设了现场工程师环节,即通过现场工程师对故障进行初步判断和处理,不仅可以缩短响应时间,也为服务台提供故障的初步分类;其次服务台作为故障申报、资源申请的唯一入口,负责故障和资源的记录、分类并按流程将业务指派给相应的运维人员进行处理;最后由OpenStack平台调用相应的软硬件资源。在逆向的反馈流中,OpenStack根据服务请求调用底层的软、硬件资源,进行计算、处理、封装,反馈给上层的运维人员;其次运维人员根据云平台层提供的服务,在运维层实施资源分配与故障处理等流程,处理结果上报给平台与外部用户的唯一接口——服务台;服务台将处理结果反馈给外部用户和业务部门。
本设计的优势除了在不同层之间运用流程化思想,运维层内部如事件管理、问题管理、变更管理、发布管理、日志管理和案例库维护等功能也运用了流程化思想。
3.1 事件管理
本文的事件是指引起IT服务中断或服务质量下降的活动。服务台接收现场工程师上报的事件后,首先进行记录,然后根据故障类型和严重程度进行分类,以便指派给不同的运维工程师处理,处理完毕后关闭事件,同时将处理过程记录形成工作日志,最终将事件处理过程中形成的典型案例整理成运维案例库。此外通过对事件进行统计分析,将无法解决的事件升级为问题管理。
3.2 问题管理
问题来源于事件统计分析中的高频事件和事件升级,是运维工程师经过多次循环、反复讨论确定解决方案,上报并通过专家组评审,最终形成问题。故问题管理模块主要通过问题来源、记录、指派、方案制定、评审和实施等多个环节,解决严重影响业务系统正常运行的故障。并最终将问题管理、解决流程和案例分别形成知识,记录到工作日志和运维案例库。然而如果关系到影响整个IT基础设施重构的问题,则将问题升级并进入变更流程。
3.3 变更与发布管理
本文将系统整体升级或业务规模拓展等关系到系统重构的问题升级为变更管理,同时递交专家组进行风险和影响等综合评估,进一步制定详细的变更方案提交评审,通过的方案将通过递交请求进入下一个模块——发布管理。在发布流程中,首先由专家组综合上一环节的请求制定资源发布方案,同时为确保系统有足够的资源承担业务需求,在发布前增加资源审核环节,只有审核通过后才能发布具体实施内容,并进一步组织相关人员进行培训和测试,改善了传统的变更管理通过方案评审后直接进入发布流程带来的资源不确定性,从而将基础设施改变造成的业务系统无法正常运行损失降到最低。
3.4 资源管理
随着高校资源规模的不断扩大,传统的运维方式对资源的可扩展性和容错性管理不够灵活,资源彼此孤立,不能共享,突发性故障和即时性负载均衡缺乏灵活性等问题日益突出。本文基于流程化思想,以OpenStack作为底层基础设施管理的服务平台,利用分布式架构和虚拟化技术将计算、存储和网络等硬件资源以资源池形式进行管理,以虚拟机的方式按需对外提供服务,极大地提高了资源分配的灵活性。
4 运维角色設计
随着教学、科研等业务平台的增多,对运维人员的业务素质、知识背景等提出新的要求,为提高运维人员工作效率、加强运维团队成员的融合度,探索专业化的问题解决策略,本文根据运维模型对专业技能的要求设计了如下三种角色。
4.1 现场工程师
IT服务实践中存在大量的一般性和小型故障,由于用户缺乏IT专业知识,导致故障描述模糊,影响运维效率,模型在服务台之前增设现场工程师角色作为用户和运维平台层之间的过滤器。现场工程师主要对业务部门申报的故障进行初步判断和处理,及时解决用户申报的一般故障,只将无法解决的故障提交给服务台。
4.2 运维工程师
信息化技术的进步导致业务功能越来越强大,架构越来越复杂,同时由于基于OpenStack基础设施云的分布式和虚拟化特性,导致故障处理和系统升级需要不同领域的技术人员协同处理。故本文在运维层中设计了系统工程师、网络工程师、存储工程师、云平台管理工程师等运维工程师角色,为后续的问题管理、变更管理等流程提供强大的技术力量。
4.3 专家组
变更和发布作为运维具体方案落地的重要流程,只有经过严格论证、评审才能得以具体实施。模型设计了由运维工程师和企业工程师组成的专家组,负责故障的处理、变更、发布等方案的论证、评审与实施,从而确保因基础设施改变、整体升级、系统重构等重大决策不合理造成的损失降到最低。
5 结 论
本文以新工科背景下,解决高校教学、科研及软硬件资源的多态性和复杂性为切入点,设计了基于ITIL的流程化、层次化的运维模型。通过层次化管理模式,改变传统的“重建设、轻运维”,“重技术、轻管理”的管理模式;通过自上而下、逐步细化的模块化设计,实现了运维管理与业务部门的有效衔接,改善了“被动救火式”的人工运维现状;通过设计前馈的业务流和反馈的任务流,有效提高了故障的解决效率,增加了客户的满意度;通过引入ITIL流程化框架,解决了运维成本居高不下的现象。为促进新工科模式下产教研融合,促进运维方式的规范化、流程化提供理论依据和实践标准。
主要参考文献
[1]李喆, 魏巍. 基于OpenStack平台的私有云[J]. 天津科技, 2016(7):80-83.
[2]孟占永,张华,袁东,等. ITIL在高校IT运维服务管理中的应用[J]. 河南科技, 2012(23):55-56.
[3]周宇洁. ITIL管理理论在IT运维服务中的应用[D].上海:上海交通大学,2010.
[4]黄椿棉. 加强企业IT运行维护管理初探[J]. 企业科技与发展, 2015(5):95-96.
[5]章政海. 以“客户为中心”的IT运维体系的构建[C]// 电力行业信息化年会, 2014.
[6]李焕中.浅谈如何通过ITIL理念提升信息运维水平[J].数字通信世界,2015(12):29.