牛晓玲/Niu Xiaoling
(中国信息通信研究院通信标准研究所 北京100191)
我国云计算的发展受到高度关注,被越来越多的人所认识和接受。但随之而来的问题也是不可回避的,包括运维服务管理流程不规范、运维人员专业知识匮乏、运维自动化程度较低等。如何建立一个拥有完善的运维服务管理流程、功能强大的运维管理平台以及自动化运维管理研究是本文重点探讨的问题。
目前,我国企业运维管理主要还停留在对国外开源管理软件的二次开发及应用上,如何制定规范的管理流程、完善的管理制度是运维初期的主要研究目标。企业在实际实施过程中,往往忽视了内部人员的业务流程管理和对信息技术变更的管理。运维管理部门通常在做的工作都是“灭火”,运维团队必须7×24 h待命,以便处理运维过程中各种层出不穷的故障,即便如此,运维部门的服务质量和维护成本还是存在很多问题。因此,亟需将被动管理转变为主动监控,在维护过程中应加强对可能出现故障的预见性和计划性,最大程度地降低突发事件对公司造成的业务影响和经济损失。目前,多数企业都认同运维服务管理流程是支撑企业的核心战略,因为大多数的故障都是由于人员的误操作引起的,所以运维部门在企业中扮演着越来越重要的角色,企业管理层也发现,运维不再是业务的“保障者”而是“推动者”。与欧洲国家的发展现状相比,我国的服务管理仍处于发展的初步阶段。
目前,国际500强广泛使用ITIL(IT Infrastructure Library,IT基础架构库),通过制定IT服务管理的标准和规范,不断优化企业的服务管理策略,提高服务质量,降低服务成本,让企业的IT投资回报最大化。ITIL是根据政府部门、商业组织以及能源等行业/企业的需求开发的IT行业服务管理标准库,目的是为了保证IT资源的有效利用。目前ITIL已纳入ISO20000质量管理体系。作为国际上公认的关于IT服务管理的最佳实践,其运维服务支持的五大流程是信息运维综合监管系统中运维流程管理模块的重要理论依据。
服务管理的核心流程分别是服务支持和服务交付,ITIL运维体系框架示意如图1所示。
服务支持面向的对象是用户(End-Users),主要是确保服务提供商 (IT Service Provider)的服务质量,判定其服务是否符合服务级别协议(SLA)的要求。服务支持流程包括企业与用户沟通平台(服务台)的职能和其他5个运作层次的流程,即事件管理、问题管理、配置管理等。
(1)事件管理
快速处理发生在IT基础架构中的故障以及由各层支持服务团队提交的服务请求,将服务的中断时间和对客户的响应时间缩到最短。
(2)问题管理
找出故障发生的根本原因并加以分析,使生产环境中的故障数量减少。问题管理分为被动管理和主动管理两个部分:被动管理是在问题发生后再加以诊断,查出问题发生的原因并处理问题;主动管理是通过分析事件发生的趋势和可能性,主动提出解决方法来预防问题的发生。
(3)配置管理
对IT基础架构中的所有配置项进行管理和控制,存储各个配置项之间的相互关系,为其他模块提供准确的配置信息。例如,当服务器发生故障时,如果对服务器的配置项信息一无所知,则无法很好地解决问题。
(4)变更管理
保证生产环境中所有的变更处理都符合标准的方法和步骤,并将因为变更而影响服务质量的可能性降到最低。变更管理同时配合配置管理,能够保证CMDB数据的准确性。
(5)发布管理
服务上线需要在变更请求或服务请求被核准后,构建、开发和测试等工作才能投入生产环境中。工作重点是通过有计划的发布步骤,保护生产环境的安全。
服务交付面向的对象是为服务付费的机构或个人(Customer)。首先根据业务需求和实现服务目标所需要的耗费来计算服务成本,然后对服务的容量、持续性、可用性等服务级别目标进行规划和设计。服务交付流程主要包括服务级别管理、IT服务财务管理、容量管理、IT服务持续性管理和可用性管理5个服务管理流程。
(1)服务级别管理
根据服务流程监控服务水平,持续跟踪服务,并分析服务过程中是否满足服务级别协议要求,若不满足要求,则需要及时制定改进计划来弥补不足。
(2)IT 服务财务管理
为确保成本的回收,需要跟踪、控制服务和客户发生的实际成本。
(3)容量管理
通过跟踪、控制服务规模,提前预估未来业务增长所需的IT容量,确保服务能够满足服务级别的要求。
(4)IT服务持续性管理
确保灾难或故障发生时,能在限定的时间内恢复,从而保证业务的持续运营,主要包括风险分析和管理,目的是为了降低风险。
(5)可用性管理
跟进和分析服务规范,在必要时进行调整以满足服务可用性的需要,可用性管理和服务级别管理相辅相成,是其制定SLA的重要依据。
随着近几年业务量的迅猛增长,云计算平台服务端的复杂性成倍增长,这对于运维来说无疑是个全新的挑战,因此,运维思路和方式必须随之发生改变才能适应现状。这种改变不是优化传统运维,而是根据云计算的特征来重构运维体系;这种改变也并非一蹴而就,而是云计算平台不断演进、不断积累经验的过程。
工程学类实验室包括物理学、电工、药剂学、中药制备、制药工程、实训中心等实验室,其中有毒有害物质、放射性保护、用电安全、机械类损伤等是安全防控重点。
(1)集群是最基本的运维单位
云计算平台是由普通的PC服务器组成多个节点,平台的高可用性通过云计算平台自身的顽健性来保障,而非靠传统服务器硬件冗余(如RAID、网络双上联、双电源等)这种高投入的方案来实现,这就需要改变运维体系,将集群作为基本运维单位。
传统运维场景下的及时维修服务器,在云计算场景下,可以轻松定期维修。这种“轻松”,并不是对运维需求的降低,而是基于对集群整体容量和健康状态的管理能力,即通过有效提炼和过滤各种服务器的个体运行状态,映射出集群整体状态的能力。集群的部署、监控、故障管理、容量管理等运维任务,都必须以集群为单位进行。
(2)大规模
单个集群的规模是衡量云计算平台能力强弱的重要指标之一。在设计规划初期,都要以满足大规模为必要前提条件,而在实际生产环境中,云计算集群在达到一定规模后,才能实现云计算平台的高可用、低成本等真正价值。
(3)可运维性是云平台的基本属性
集群的可运维性包括是否能够实现高效和大规模的部署、升级、迁移、扩容和故障管理等运维任务,这是集群必须具备的能力。云平台从第一天设计开始,就必须包括该属性。开发团队和运维团队需要紧密协同,结合平台和运维特性加以实现。与传统运维相比较,对于大规模集群的可运维性、可管理性等的要求很高,这是集群落地的刚性需求。
(4)规范化
(1)北塔(BTNM)
BTNM是以业务价值为核心,注重企业对运维的全面管理,是一套与实践紧密结合的综合管理系统。以企业的业务服务管理流程为切入点,将行业中的新技术运用与人员的业务管理操作进行有效结合。以ITIL理念为思路,设计了与业务紧密联系的综合一体化管理平台,运维管理人员通过管理平台可以直观地看到故障发生的位置、状态、处理情况,具有先进的故障定位和智能联动功能,为运维管理提供了全面综合的管理解决方案。
(2)摩卡(Mocha BSM)
Mocha BSM注重ITIL对业务流程上的支持,在工作流程管理方面效果明显,但是对于服务器硬件监控集成的效果不好,且不提供资产管理的相关功能,功能比较单一。
(3)广通(Broadview)
Broadview也是国内主流的运维管理产品,主要从事运维管理软件与运维服务的供应,注重现有运维架构要符合下一代运维管理的理念,提供集中化的综合网络运行管理平台,借助eTOM、ITIL的先进理念,优化运维管理产品的概念。对于平台底层的监控和运维流程方面的功能卓越,并且可以向客户提供运维服务一体化的解决方案,包括运维平台、业务管理和网络管理等系统,展现效果较好。
随着IT建设规模的不断扩大,云服务运维管理的难度和复杂度也日益增加,如果只依靠几个高技术运维管理人员来处理故障、解决技术难题,早已无法满足企业的发展需求。结合云服务不同于传统运维的新特性,对运维的自动化能力提出了更高的要求,企业需要更高的自动化处理能力来实现运维管理规范化、流程化和自动化。运维自动化早已成为了云计算运维管理的趋势。
随着服务管理成本的逐步加大,其运维风险也在不断升高,因此,要用自动化的方式解决数据中心成本增加、操作复杂、数据架构设计等一系列问题,以满足企业的业务需求,让运维团队实现资源转型,逐步提高服务水平,这是数据中心的发展方向。自动化可以降低人工误操作的可能性,通过对资源和云服务的监控,运维管理系统可灵活部署资源,让运作更加简单,同时实现资源优化利用,这是企业级数据中心运维管理的重要任务。实现企业级数据中心自动化运维管理还能节省人力,通过先进的技术手段替代运维管理人员来执行一些日常的操作,可以使管理人员有更多的时间全身心地投入到解决技术难题和逐步优化管理系统中,实现数据中心运维管理的自动化。不仅节约了成本,还能够更安全、有效地开展工作,适应快速迭代的发展需求,达到可持续发展的目的。
日常运维中经常需要对一些操作进行重复性动作,例如每天执行一些脚本、检测一些状态等,重复繁琐的工作容易让工作人员出现操作失误。如果能通过一些技术手段替代人工的重复操作,使用户从重复繁琐的工作中释放出来,可以让用户有更多的时间专注于其他技术领域。
操作自动化是运维操作管理的终极目标,通过自动脚本功能,可自动帮助运维人员执行各种常规操作(如自动巡检、自动备份配置等),从而达到降低运维复杂度、提高运维效率的目的。
根据客户的现状及问题,可通过部署运维操作管理系统,实现以下效果。
实现维护接入的集中化管理。对运行维护进行统一管理,包括设备账号管理、运维人员权限分配管理、第三方客户端操作工具的统一管理;通过主从账号管理,使用户认证与系统授权分开,从而有效地解决系统因账号共享使用而带来的身份不唯一问题;实现与现有第三方认证系统(LDAP、RADIUS、AD域、TOTP等)的整合。
●能够制定灵活的运维策略和权限管理,控制运维管理人员访问授权及操作,避免未授权或非法访问,建立安全的访问控制机制;
●实现对核心设备操作的双人授权访问与双人操作复核,有效地降低了运维操作风险;
●密码管理和自动改密,使得密码管理规范能有效落地,避免因人员流动导致设备密码外泄的风险;
●能完整记录运维人员的操作过程,当系统因人为操作导致故障时,能够快速定位故障原因和责任人,满足信息安全审计要求;
●能够有效地检索运维操作细节;
●能够对高危及敏感的操作进行实时告警;
●能够提供灵活的报表及统计分析;
●实现运维操作的合规性要求,遵从现有的法律法规。
引入云计算技术后,云服务运维管理由原来的分散维护模式发展为制度建设与运维系统功能管理相结合的模式。在实际的运维过程中,首先需要理顺运维服务流程,其次要了解运维管理平台的特点以及相关功能,从而实现高效、规范化、自动化的云平台运维管理体系。通过本文的分析和研究,希望能对引入云计算后的运维体系梳理起到启发和参考作用。
[1]ISO国际标准组织.IS020000信息技术服务管理实施指南[R].2005.
[2] 牛晓玲.云计算运维管理系统框架研究[J].电信网技术,2015,(2).
[3] 麻建,周静,李中伟等.云计算环境下的信息系统运维模式研究[J].电力信息与通信技术,2015,(8).
[4]冯汀.基于ITIL的业务支撑系统运维管理研究[D].北京邮电大学,2007.
[5] 李欣.IT运维管理系统的设计与实现[D].华北电力大学,2010.
[6] 席敏晖.浅谈企业级数据中心运维管理[J].科技创新与应用,2014,(12).
[7] 陈永军,张蕾.云计算运维管理的探讨[J].ICT通信技术与标准,2011,(1).