资源池环境下的IT服务管理实施策略

2012-06-27 05:59陈春华姚文胜
电信科学 2012年9期
关键词:调度流程监控

陈春华 ,李 军 ,梁 奂 ,姚文胜

(1.中国电信股份有限公司广东研究院 广州 510630;2.中国电信集团公司 北京 100033)

1 IT服务管理实施现状

为了更好地满足客户需求,进一步提升IT服务水平、IT工作效率、IT运营稳定性,中国电信集团公司(以下简称中国电信)从2008年底开始,以ITIL V3(IT infrastructure library,IT基础架构标准库,IT业界的服务管理标准库,是一套IT组织用来计划、研发、实施、运维高质量IT服务的标准方法,已发展成为IT服务管理(IT service management,ITSM)领域的事实标准)为参考,根据企业发展战略对IT的要求,结合企业实际情况和未来需求,从组织与人员、制度与流程和技术手段3方面设计了完整的IT服务管理体系架构(如图1所示)和实施计划。

中国电信IT服务管理的体系架构包括组织与人员、流程与制度和技术手段3方面内容。

·组织及人员方面:建立统一的IT服务台组织,明确IT服务台为企业内部客户与IT部门的唯一接触点;同时定义了服务台的职能、IT服务管理各流程涉及的各种角色及其职责,以及流程角色与现有岗位的映射对应关系。

·制度流程方面:流程设计参考了ITIL V3,按照服务生命周期的主线设计了战略规划、服务设计、服务交付和服务运维流程,并根据企业的实际情况对服务设计域的需求管理流程,服务交付域的变更管理、资产与配置管理、发布与部署管理、知识管理流程,服务运维域的事件管理、接入管理、服务请求管理、问题管理和日常运维管理流程进行了详细的设计。

·技术手段方面:建立一体化平台,对IT服务管理流程进行固化,对关键点进行管控,建立统一的配置管理 数 据 库 (configuration management database,CMDB),并实现对IT基础设施、应用和端到端服务流程的监控,以提升主动预警和规范化的运作能力。

经过近3年的体系化实施,中国电信的IT服务管理已取得了初步成效:各省建立了统一的IT服务台,统一了服务热线和用户接触,规范了事件和问题的处理,提高了效率及用户满意度;实现了需求的集中管理,减少了无效需求,提高了需求质量,实现了需求的有序开发;实现了变

更、测试、发布流程的固化,减少了非审批变更,提高了版本稳定性和服务稳定性;固化了作业计划,并提示式执行,提高了维护工作质量;实现了主动式的运营监控,及时发现系统异常,减少了系统故障的发生数量,提升了主动预防式能力和快速恢复能力,进一步提升了服务水平和客户满意度。

2 资源池管理对IT服务管理带来的挑战

随着云计算的快速发展,中国电信也加快了云计算的研究和应用。中国电信已经对外正式发布了“天翼云计算”战略。明确对于企业内部IT私有云,将采用云计算技术整合内部IT系统的IT基础设施和应用架构,建设内部PC服务器资源池和Unix资源池(如图2所示),并逐步完成可迁移应用如CRM(客户关系管理系统)的Web、APP层向PC资源池的迁移,提高基础设施共享水平及应用系统弹性,降低IT总体拥有成本。

资源池的建设给管理和运营带来了新的变化。资源池的主要特征是虚拟化+管理自动化,通过虚拟化技术将主机等资源拆分成多个相互独立的虚拟机,并进行自动化调度,从而提高资源使用的精细化程度及利用效率;同时基于统一的流程,根据需求,申请快速提供和回收资源,从而提高业务响应效率。资源池的高效管理要求能够对物理资源、虚拟资源实现统一部署调度,并可在运行时根据资源的使用情况和应用要求动态伸缩或迁移等。所有的这些变化对现有IT服务管理体系提出了新的要求和挑战,ITSM的实施无疑将变得更为复杂。具体表现在以下几个方面。

(1)管理体系方面

资源池运营模式下,资源分配和使用发生了变化,不再像传统方式那样按单个系统部署硬件、独享式使用,而是要求IT基础设施资源统一规划和建设、基础能力提前具备、全专业共享。

(2)流程设计及支撑方面

用户要能通过服务目录进行自助式资源申请、创建、修改、回收,并能通过系统进行固化。

(3)技术手段方面

主要体现在资源的部署和监控管理两方面。

·资源的快速部署和按需动态伸缩:支持通过模板进行资源的快速部署就绪,支持应用及虚拟机动态迁移,可根据需要在应用繁忙时动态增加计算资源、空闲时释放计算资源,并可进行资源池内的虚拟机动态迁移,高效稳定运行并充分利用计算资源。

·监控管理:对异构平台的虚拟机进行管理,包括其性能和容量管理等都更为复杂。传统的监控、管理和优化软件已不能满足管理需求。同时,能够监控用户对资源的访问,包括用户身份、所访问的资源和数量以及对容量和可用性管理的有效控制。

综合以上几个方面,可以看出在这种资源池运行环境下,管理模式、流程支撑、资源调度以及监控方面等要求将使ITSM变得更为复杂。如何将现有的资源池管理要求纳入现有的IT服务管理体系,进一步提升资源池环境下的IT服务质量,加快服务交付,是IT服务管理体系优化需要急迫解决的重大问题。要解决这个问题首先就要分析对资源池管理的关键能力要求,这样才可以全面对现有的IT服务管理体系进行针对性的调整和优化。

3 资源池管理的关键能力要求

资源池管理带来的挑战,需要在自助服务、申请及开通、资源池管理、操作与运维、计量统计等主要方面具备以下能力要求,如图3所示。

·便捷的用户自助服务能力:基于不同角色(如用户、管理员)提供个性化的自助服务门户功能,方便用户提供资源申请及进度查询、所拥有资源利用情况统计,为管理员提供虚拟机开通与回收、资源池使用情况统计查询等。

·清晰的服务目录和流程配置能力:能够基于资源池提供服务目录,如不同配置的裸虚拟机、不同操作系统的通用虚拟机、安装不同版本系统软件的专用虚拟机等,并实现相应服务的流程支撑。

·快速部署和灵活动态伸缩的资源管理能力:可管理资源池所有管理对象(如虚拟数据中心、集群、宿主机、虚拟机、虚拟存储、虚拟网络等)及对象之间的关系,并能提供细粒度的系统、网络、存储的资源分配及调整能力(如CPU、存储空间、I/O带宽等);可根据预定模板及配置自动生成和开通虚拟机资源(含批量),支持灵活的资源分配和调度策略,并能够根据资源池运行性能及预定策略进行灵活的资源伸缩或动态迁移。

·主动性的运维支持能力:可提供资源池、物理机(宿主机)和虚拟机等不同粒度的性能和可用性监控,并能主动及时预警;可根据资源使用情况、增长情况等容量统计数据,实现资源池可满足业务的周期预测及需求预测,支持容量规划(如经过分析,当前资源池还可支持3个月的业务增长;若要满足未来1年需求,则需扩容资源池内物理机CPU总个数到1 000个、存储容量扩展到500 TB等)。

·准确的计量统计能力:可根据资源使用情况,提供容量使用报告数据,为业务部门提供准确的成本核算依据,以实现资源合理、高效分配和使用。

4 资源池环境下的IT服务管理实施策略

4.1 实施策略

根据上面的资源池管理的能力要求分析,需要对IT服务管理体系架构的制度与流程设计、人员岗位和技术手段3个方面进行调整和优化,才能保障资源池的稳定运营。

(1)流程设计方面

建立资源申请、开通、扩容、回收等所需的流程,提高资源申请使用的规范性和便捷性。为了避免流程种类越来越多,可以将此资源类流程纳入原来的需求管理流程范畴,通过增加需求分类标识和对应的资源需求模板来实现,并固化到原来的IT服务管理系统中;在管理制度上要制定资源池的统一规划建设制度。

(2)人员岗位方面

设置资源分配及优化的岗位,优化资源池利用效率:在现有基础设施统一监控岗位的基础上,设立专门的资源分配及调度岗位,负责资源池的统一管理、开通以及各种物理机/虚拟机模板的管理;设立专门的性能优化岗位,定期分析各虚拟机资源利用率,必要时进行纵向扩展及回收(CPU、内存、磁盘空间等)。

(3)技术手段方面

增强IT服务管理系统能力,实现虚拟化资源的统一管理,其主要功能要求如图4所示。

服务管理域:通过服务目录,为IT用户提供自助的虚拟机等资源申请、修改、回收、查询等服务,并通过规范化需求管理、变更管理等流程的支撑,支持资源申请的开通及回收,实现对资源服务全生命周期的管理。这部分还包括配置数据管理(CMDB)功能,增加资源池相关的物理机、虚拟机、网络、存储等配置项的关系管理及拓扑管理功能。服务管理域功能主要是增强原IT服务管理系统中的流程支撑和CMDB的管理能力来实现。

监视管理域:通过对资源池范围内的各类对象(虚拟数据中心、集群、宿主机、虚拟机、虚拟存储和虚拟网络)的性能数据管理、运行状态监视、容量监视、健康分析和告警管理,及时发现异常和潜在问题,并支持基于容量数据对资源池、数据中心、集群、宿主机等容量发展趋势做出预测。监视管理域的功能主要是通过增强原规范中的IT基础监控系统的能力来实现。

资源调度域:支持资源(宿主机、虚拟机等)的自动发现及纳管,支持多种格式模板的配置及管理;支持多种调度策略管理,如高可用、负载均衡等策略;支持资源创建、修改、迁移、克隆、回收的全生命周期管理;根据资源性能指标及预置调度策略,实现资源池运行时的自动伸缩及迁移调度。资源调度域的能力主要是在原IT基础设施监控系统中增强操作控制管理能力来实现。

采集与控制域:本层屏蔽异构的各种主流虚拟化技术平台(如 VMware、Hyper-V、KVM、Redhat Xen/KVM)的差异性,通过主动采集等方式,获取不同管理对象(宿主机、虚拟机等)的配置信息、性能信息、告警信息,并负责管理对不同被管对象发起调度控制时的命令传递和结果反馈;并把操作结果和各类信息以统一的接口对上提供。采集与控制域的能力主要是通过增强原IT基础设施监控系统的采集与控制功能来实现。

4.2 接口策略选择

实现系统能力重要的基础就是如何实现与虚拟化平台的接口互联,通过互联接口进行监视信息的获取和资源的调度管理。主要有以下两种模式。

模式1:与虚拟化厂商Hypervisor提供的接口进行互联,实现相关信息(如性能信息、配置信息、告警信息)的获取以及操作控制,如图5所示。

模式2:与虚拟化厂商管理软件提供的接口进行互联,实现相关信息(如性能信息、配置信息、告警信息)的获取以及操作控制,如图6所示。

从目前的情况来看,模式1的Hypervisor层提供的接口很底层,其接口开放程度不如模式2;模式1的Hypervisor层提供的接口的稳定性也不如模式2,其变更对上层系统的稳定性带来的风险可能比模式2要大,所以建议优先考虑模式2的接口方式。

5 结束语

资源池环境下的IT服务管理的调整和优化,首先要改变原来的以硬件独享式的项目立项、建设和使用的管理模式,实现IT基础设施的统一规划、建设和共享式使用;同时制定资源池的资源申请、修改和回收流程,并设置资源池管理岗位,负责资源池的规划、建设、监控和优化;同时要加强系统能力的建设,具备物理资源、虚拟资源统一的监控、资源部署与调度、事件处理的能力。只有在组织、流程和技术手段3方面齐头并进,才能有效实施资源池环境的IT服务管理,持续提升IT服务管理质量。

1 陈春华,梁奂.全业务电信运营商的IT服务管理实践探讨.电信科学,2011,27(3)

2 itSMF.ITIL Version 3,2007

3Jan van Bon主编.章斌译.IT服务管理——基于ITIL的全球最佳实践.北京:清华大学出版社,2006

4 Peter Brooks著.丰祖军译.IT服务管理指标.北京:清华大学出版社,2008

5 Theo Thiadens著.李东,牛芳等译.IT管理的知识体系.北京:清华大学出版社,2007

猜你喜欢
调度流程监控
The Great Barrier Reef shows coral comeback
吃水果有套“清洗流程”
《调度集中系统(CTC)/列车调度指挥系统(TDCS)维护手册》正式出版
基于强化学习的时间触发通信调度方法
一种基于负载均衡的Kubernetes调度改进算法
虚拟机实时迁移调度算法
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
违反流程 致命误判
本刊审稿流程