胡 平
(中国电信股份有限公司广东分公司 广州510630)
云计算由于其高性能、高可靠性、高安全性等特性,正被各行各业竞相追捧。特别是近几年随着云计算技术的不断成熟,各大电信运营商逐步开始从试验阶段走向大规模的商用和内部应用阶段。云计算IaaS层面的技术优势(资源共享、按需分配、快速部署等),很好地解决了现阶段业务平台发展和运维中存在的主要问题,但其技术特点决定了引入云计算后业务平台的运维模式不能照搬现有业务平台的运维模式,因此非常有必要在大规模应用前,结合云计算技术和业务平台的特性,探究引入云计算技术后的业务平台运维体系,确保云平台以及其承载的业务平台能高效、安全、稳定地运行。
根据现阶段业务平台维护的实际情况,结合云计算技术的特点,分析引入云计算后运维体系的变化以及面临的挑战。
根据现有业务平台的建设、运营、维护实际情况,可知目前业务平台的维护是采用垂直、分散的维护模式(平台独立建设、独立维护),如图1所示,主要包括如下两种情况:
·平台分散在多个维护单位(或维护部门),集中维护和分散维护方式共存;
·硬件(包括服务器、存储、网络设备等)和软件(操作系统、数据库、中间件、应用软件)的维护岗位分设和合设共存。
业务平台部署在云平台后,因资源池属于统一规划部署,各业务平台共享使用,因此从原来的垂直、分散维护模式演变为横向、集中的维护模式(资源共享,团队维护)。资源池集中建设后,云平台硬件层面(包括服务器、共享存储、网络设备等)和虚拟化层面(包括虚拟化软件、虚拟化管理软件、云管理平台等)的维护可以做到集中维护;而云平台上所承载的虚拟机(即业务平台,包括虚拟机操作系统及其上安装的数据库、中间件、应用软件等),则可参考现有业务平台维护机制落实相应的维护职责。业务平台云化后的维护模式如图2所示。
图1 垂直、分散的维护模式
图2 横向、集中的维护模式
随着云计算IaaS层面技术在运营商业务平台领域的大规模应用,传统的业务平台运维体系将面临挑战,主要表现在如下几个方面。
·维护管理制度。云平台和传统业务平台的建设、维护、服务模式不同,现阶段缺乏相适应的维护制度以适应这种变化。
·维护人员经验。缺乏具备虚拟化技术应用、资源自动化部署、资源综合调度、虚拟化技术安全保障等方面的专业技术人才,是快速推进云计算技术规模化应用的瓶颈之一。
·服务保障要求。保障难度变大,虚拟化增加了IT基础架构的复杂性,增加了虚拟化层、物理层与逻辑层的脱离,故障排查更为困难。
·管理流程适配。云平台建设特点是资源与项目分离,而传统业务平台的资源是独立建设、独立使用,因此为适配云平台资源共享的特性,需要引入资源管理和服务管理等流程。
·维护管理手段。现有云计算管理平台商用产品暂未成熟,不能完全满足运营商规模运营的需求,并且尚未有一套完整的与现有运营支撑系统 (如综合网管系统、资源管理系统、工单系统等)集成的综合解决方案。
运营商通过云计算统一资源池统一部署各种业务平台后,在业务平台的运维模式方面,从传统垂直维护模式演变成横向模式;在维护内容方面,增加了虚拟化层面相关的维护。因此需要根据这些变化,重新梳理现有的运维体系,以适应这种变化,梳理的内容主要包括维护组织架构、维护岗位职责及分工、维护岗位设置、维护界面划分、维护管理制度及流程等几个方面的内容。
图3 云平台维护组织架构
云平台属于业务平台的一种,只不过其承载的不是业务,而是其他业务平台,因此云平台的运维工作基本可以参考现有业务平台的维护制度,只是维护的内容及对象有所不同。根据上述业务平台云化后的维护模式演进分析,引入云计算后的维护组织架构如图3所示。
云平台的维护组织架构包括职能管理单位(运营管理和维护管理)、维护责任单位、技术支撑单位(厂商或其他支撑单位)3个层面。
职能管理单位主要包括业务平台维护管理单位省公司网络运营部、业务运营管理单位省公司各业务部门;维护责任单位主要根据云平台自身的特点,划分为硬件设备层、虚拟化层、虚拟机3个层面的维护内容,分别对应不同的维护责任团队,主要包括云平台维护团队、云硬件维护团队、云平台上所承载的业务平台维护单位,维护团队的成员包括省NOC、分公司或者第三方维护单位等。
基于业务平台云化后的维护组织架构,引入云平台后,与传统业务平台维护的主要差别在于多了虚拟化层的维护,在云硬件和云平台上承载的业务平台的维护与传统意义上的业务平台维护基本一致,因此本文重点研究云平台层面的岗位设置及其职责分工。
虚拟化层运营与维护的主要工作内容包括云资源管理、云服务管理、云统计分析、云安全管理等,详细工作内容如图4所示。
根据云平台运维管理功能需求,结合实际工作情况,可以把维护工作归纳成如下几种维护岗位:云平台资源管理员 (或称云平台管理员)、云平台服务管理员(或称云平台操作维护员)、云安全管理员、云平台统计分析员,其中云资源管理中的资源监控职责可独立为云平台资源监控员。
根据云平台维护岗位及职责分工,结合现有业务平台的维护情况,建议在省公司网络运营部设置1名云平台运维管理员,行使云平台维护管理职责。在维护单位内部,对云平台层面的维护岗位设置建议如图5所示,各维护岗位可根据实际需要与传统业务平台的维护岗位合并或者单独设置。
业务平台维护范围:虚拟机操作系统(客户操作系统)及其上安装的中间件、数据库、应用系统都属于业务平台维护范畴。
云平台维护范围:服务器、网络、存储等资源池管理(虚拟化层面)以及云管理平台等。
云平台硬件维护范围:物理服务器(包括安装虚拟化软件的服务器、安装虚拟机管理软件及相关辅助软件的物理服务器、云管理平台使用的服务器等)、网络设备(含防火墙、负载均衡器)、共享存储等。
图4 虚拟化层维护工作内容
图5 云平台岗位设置
图6 云平台故障处理流程
图7 资源管理流程
引入云计算后,与传统业务平台的维护流程相比,云平台的维护管理、软件版本及补丁管理、需求管理(主要是云管理方面的需求)、局数据修改管理、机房管理、值班和交班管理以及云平台的备品备件等,可以完全参考现有的维护管理制度及流程。本文重点研究引入云计算后的两个关键流程,即故障申告及处理流程和资源管理流程。
3.5.1 故障申告及处理流程
云平台的故障申告及处理,建议采取“一点受理、闭环管理”的原则。因云平台上承载的是业务平台,因此对云平台出现故障发起申告的可能者有:业务平台维护人员、云平台监控系统(硬件层面的监控和虚拟化层面的监控)、云平台维护人员(含虚拟化层面和硬件层面)。
通过前两种途径发现的故障,建议统一由云平台故障管控方(建议是云平台监控员承担)进行受理,并做一定的预处理,如果无法解决,由故障管控方通知省NOC云平台维护人员(含虚拟化层面和硬件层面的维护人员),当管控方不能定位是虚拟化层面还是硬件层面的故障时,先把故障报告给虚拟化层面的维护人员(建议为云平台操作维护员),虚拟化层面的维护人员牵头负责后续故障处理及协调(含协调云资源管理员、云硬件维护人员等)。
云平台维护人员发现的故障,由云平台维护人员直接做预处理,并判断在故障处理过程中是否需要业务平台配合,如果需要,由云平台维护人员或故障管控方通知业务平台配合故障处理,当云平台维护人员无法单独完成故障处理时,需及时联系厂商进行故障处理,并在故障处理完成后,对故障进行分析并向上级主管部门提交故障处理报告,反馈给故障管控方进行故障归档管理。
故障处理流程如图6所示。
3.5.2 资源管理流程
云资源的申请(变更)建议由业务部门根据实际需要,向网络发展部发起(建议配合电子工单流实现)资源申请,业务部门发起的需求至少要包括:业务发展预测(决策冗余资源配置)、忙闲时分布预测(便于维护部门根据业务情况制定错峰填谷的资源调度策略)、申请虚拟资源大小(CPU、内存、存储、带宽等)、SLA要求等。网络发展部根据规划情况审核业务部门的需求,根据实际情况对业务部门提出的资源申请进行核减,审核通过后提交给网络运营部(网络运营部批复后转NOC云资源管理员)审核,网络运营部根据云平台资源情况,充分考虑云平台冗余、安全等因素,判断目前资源池是否满足业务部门的需要,如果资源不够,则反馈给网络发展部安排资源池扩容,否则由云资源管理员配置相关资源,转云服务管理员进行开通。
在实际资源运行维护过程中,云资源管理员根据资源运行统计分析情况对资源池进行优化,并根据实际情况及时向上级部门提交扩容建议。资源管理流程如图7所示。
引入云计算IaaS技术后,业务平台由原来独立建设、分散维护模式,发展为业务平台的集约化运营管理,在实际运营过程中首先需要理顺维护管理组织架构问题,从全局出发实现跨专业、跨部门、跨单位的维护资源整合,在此基础上明确各部门间的维护职责及分工,落实云平台的各个维护岗位及职责,明确彼此间的维护界面,并结合相应的维护规章制度、维护管理流程进行约束,从而实现高效、规范化的云平台运维管理体系。希望通过本文的分析和研究,能对运营商引入云计算后的运维体系梳理起到启发和参考作用。
1 谭志远.云计算给业务平台的发展与运维带来的机遇与挑战.电信科学,2011,27(7)