沈振宇
[摘 要] 从传统信息化管理到云虚拟化管理,企业信息化管理需要经历从“监管控中心”到“云服务中心”的转变,在这个过程中,CMP云管平台扮演着“云服务中心”核心能力支撑的角色。通过构建规范的企业云运营模式、合理的云治理架构、可持续的云服务能力、新的云运维思路、完善的云安全思路,实现中车株洲所信息部门对目前企业中公有云、私有云的统一监控管理,满足用户自助使用总部云资源池中的资源,完成中车株洲所从传统的云运维管理模块向云运营模式的转变,从而进一步提升信息化部门的整体服务水平、量化服务质量,规范服务管理,提升用户部门的体验和感知。
[关键词] 云计算;云治理;云运营;云管理平台
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2019. 23. 021
[中图分类号] TP393.09 [文献标识码] A [文章编号] 1673 - 0194(2019)23- 0048- 03
0 引 言
为贯彻落实《国务院关于促进云计算创新发展培育信息产业新业态的意见》《国务院关于深化“互联网+先进制造业”发展工业互联网的指导意见》《云计算发展三年行动计划(2017-2019年)》等部署要求,推动企业利用云计算加快数字化、网络化、智能化转型,推进互联网、大数据、人工智能与实体经济深度融合,工信部印发《推动企业上云实施指南(2018-2020年)》,文中指出:
云计算是信息技术发展和服务模式创新的集中体现,是信息化发展的重大变革和必然趋势。支持企业上云,有利于推动企业加快数字化、网络化、智能化转型,提高创新能力、业务实力和发展水平;有利于加快软件和信息技术服务业发展,深化供给侧结构性改革,促进互联网、大数据、人工智能与实体经济深度融合,加快现代化经济体系建设。
中车株洲所为了更好地提升IT服务能力,自2015年开始推进从传统虚拟化平臺模式向企业私有云模式的全面建设过程。截止到目前,已基本完成私有云平台的构建,并将所有核心业务逐步迁移至自建私有云平台。
1 相关概念介绍
1.1 配置管理数据库(CMDB)
在实际的项目中,配置管理数据库(Configuration Management Database,CMDB)常被认为是构建其他ITIL(Information Technology Infrastructure Library,IT基础架构库)流程的基础而优先考虑。ITIL项目的成败与是否成功建立CMDB有非常大的关系。
70%~80%的IT相关问题与环境的变更有着直接的关系。实施变更管理的难点和重点并不是工具,而是流程。即通过一个自动化的、可重复的流程管理变更,使得当变更发生的时候,有一个标准化的流程去执行,能够预测到这个变更对整个系统管理产生的影响,并对这些影响进行评估和控制。而变更管理流程自动化的实现关键就是CMDB。
1.2 云治理
相对云管理而言,云治理解决方案提供了管理成本、预算、操作、安全性以及涉及多云的风险和合规性的能力。在解决方案中,其重点更多在于操作、成本和安全性,而不仅仅是资源管理。
1.3 云管平台(CMP)
在企业级云服务体系中,CMP(Cloud Management Platform,云管平台)从传统IT系统建设中脱胎而出,因云计算进入主流市场而愈发博得企业客户关注。CMP承载着统一调度传统IT与云原生资源与应用、支持业务快速迭代创新的使命。
根据研究机构Gartner对云管理市场的定义,CMP是一种管理公有云、私有云和混合云环境的整合性产品,其最小的功能范围应该包括自服务界面(Self-service Interfaces)、创建系统镜像(Provision System Images)、监控和账单(Metering and billing),以及基于策略的一定程度的负载优化(Workload Optimization)等。高级的功能还包括整合外部已有的企业管理系统,包括服务目录(Service Catalogs)、存储和网络资源配置,更高级的资源管理和监控,比如客户机性能和可用性监控等。
2 云平台现状分析
通过多年的规划与分步建设 ,该所的基础架构云已逐步构建完成,然而在不断深入使用过程中,从不同角色或部门的视角,对企业上云产生了一些疑惑。
(1)从领导的视角:“企业上云就是买了一堆新机器”?到底如何衡量上云的价值,云的绩效到底要怎么评估。
(2)从运维部门的视角:上云前后差不多,工作还多了。上云前,每天面对一堆资源配置、管理、调优;上云后,还多了对虚拟化层的管理。
(3)从云承建部门的视角:建设的大云如何向自己的子公司或者兄弟部门推广,其他部门跟云什么关系?他们要怎么才能用?通过回顾目前我所的云平台情况,存在以下一些问题亟待解决。
(1)针对公有云的使用:总部缺乏整体的监管,无法及时准确获取公有云的运营支撑数据。
(2)针对总部云:在前期的构建过程中,统筹建设和标准制定不够健全,目前没有非常完善的手段对总部云的全部资源池进行监管。
(3)针对分公司云:部分IT实力比较强的分公司自建了基础云平台,总公司与分公司之间行程了松散的建设状态,没有形成统一的规范和标准;对于IT实力相对较弱的分公司,则无法按需自助使用总部的资源。
3 云运营方法探索
基于目前多云的现状,结合研究机构Gartner对云管平台CMP的剖析,建立一套属于我所自己的云管平台,实现从“监管控中心”到“云服务中心”的转变已迫在眉睫。
构建一个符合我所特定情况的CMP云管平台,分为几个方面:搭建企业云运营模式、建立云治理架构、可持续的云服务能力、形成新的云运维思路和完善的云安全思路。
3.1 构建企业云运营模式——PDCA环
(1)云规划环节:负责需求收集及汇总、规划服务目录、规划云资源池架构、规划服务使用流程、规划资源管理架构;
(2)云建设环节:负责建设云资源池、提供资源交付服务、软件自动化交付服务、对接第三方软件;
(3)云运维环节:负责资源运维监控、服务运维监控、安全威胁管理、云效能分析与管理、云服务升级管理;
(4)云使用环节:自助云服务、标准ITIL服务、应用自动化部署,并向规划部门提出新的需求。
PDCA环将企业从需求到建设、运维、使用,明确角色与规范并形成闭环。而PDCA环的规范和能力要求在CMP平台中均得以体现。
3.2 云治理架构建立
捋清总部各部门、各分公司与资源池或云平台之间的责任关系,通过流程、策略串联起来。通过以下几步完成云治理架构的建立。
3.2.1 组织架构优化
按照新的云运营要求,参考Gartner承上启下的云组织架构,优化组织架构职责,清晰设置云组织架构边界。云规划部门:云服务设计、云服务监管;云建设部门:云平台建设、服务提供、审批、考核;运维部门:云平台运维、服务管理和运维;云使用部门:云服务使用、资源管理、组织内审批。
3.2.2 聚焦IT项目构建服务流程
对项目各个环节如项目立项、测试项目服务申请、生产项目服务申请、生产资源变更/效果实行服务流程化管理。
例如,开发测试环境的资源,一般不需要强管理模式,不会影响生产业务,资源环境可能隨时变化,用户可以在自己资源配额范围内自行管理,降低管理成本。而生产、运行环境的资源,管理严格、会影响业务,资源环境比较固定,资源发生任何变化,需要走审批流程。
3.2.3 资源池建设1+2+3+N
通过“强管控、松耦合”的部署模式,以统筹管理,分级建设的模型,面向集团公司和各二级分公司基础运行环境,提供一体化的管理和自服务平台,以1+2+3+N规划(参考图1)
3.2.3.1 一套标准
建设统一的云门户,并从技术、运营、服务三个维度以集团科技部统筹建设和制定标准。
3.2.3.2 两级建设及服务模式
(1)针对信息化应用以及IT能力薄弱的分子公司,由总部统一建设云资源池并提供服务支撑,以Project的方式由总部统一提供资源。各子公司在CMP中即可看到总部的云资源池,可作为本地云资源的扩展。
(2)针对IT能力较强的分子公司,则自建资源池,统一通过云管理平台提供服务支撑,最终实现逻辑上的云联邦统一管理,在资源不充足的情况下,可通过CMP平台使用集团的资源,可以将新上线的业务应用虚拟机部署到总部的资源池中。
3.2.3.3 三类运营核心
总部数据中心、各分子公司数据中心、公有云数据中心。
3.2.3.4 若干专有区域
云平台统筹管理三类运营核心中的多块专有区域,包括:
(1)总部开发测试区、总部生产区、总部灾备区、总部面向分子公司的云服务区;
(2)各子公司自建的云平台;
(3)面向海外公司或者客户的公有云生产区。
通过以上三个步骤,逐步实现:责任清晰、分工明确,扯皮逐步减少;云规模和使用范围逐步扩大;流程和管控手段逐步完善。实现各资源池CMP和总部云统一门户进行信息交换、数据传输,数据通信形成一个统一的互联接口规范。
3.3 可持续的云服务能力的构建
3.3.1 通过“四化”模式加速业务上云
服务化申请:将资源需求升级为服务化需求,对行业解决方案、系统中间件、数据库等整合成服务,实现服务化申请开通能力;
流程化审批:服务申请按照统一规范标准,形成流程化的审批规则;
自动化交付:针对服务化的资源,实现自动化部署交付的能力。
自助化管理:将能力开放至统一门户,给用户提供一个自助化的管理界面。
3.3.2 通过部署方案,创造“高级服务”
软件厂商、应用厂商、运维/架构部门通过搜集共性软件需求,创建新的通用部署方案,用户可自助选择新的“高级服务”。
3.3.3 通过 “运维方案”实现自动化运维
服务并非一次性资源,交付的资源后期需要进行升级、扩容等动作,对此,平台将允许定义“运维方案”进行自动化运维。
3.3.4 开启“有效期限制”自动回收资源
通过对云资源的有效期限制,能够更好地对有限的云资源进行有效管理,确保资源不再使用的时候,实现自动化回收,避免通过传统的管理方式出现的资源浪费的情况发生。
3.3.5 通过 “资源标签”扩展资源属性
通过标签化管理,进一步提升用户自助化体验,并提升更多的运维管理分析。
通过上面5个步骤,云服务种类将日渐增多;运维成就感和用户满意度同步提升;业务的上线速度将会大幅度提升。
3.4 新的云运维思路建立
以CMDB驱动,应用为中心,量化运维成果,构建新的云运维思路。
(1)资源全景图模式:通过CMDB构建云中资源信息全景图;
(2)自动发现告警机制:通过“监控看板”自动发现问题并告警;
(3)云巡检机制:构建云环境健康巡检规范;
(4)通过APP提升云运维的效率;
(5)以“应用为中心”汇集资源与性能信息;
(6)通过大屏“显性”展示云服务能力;
(7)通过自动月报“量化”云服务质量;
(8)通过定价+计费“转化”云服务价值。
新的云运维思路建立,将使得排查问题:从单一角度到多维度关联;从救火运维到主动发现问题;运维的服务价值量化看得见。
3.5 完善的云安全思路
不管是传统的IT架构、虚拟化环境,还是新型的云环境,安全始终是企业IT建设过程中不可忽视的重要环节,从传统的运维模式转向运营模式,云安全思路是至关重要的一步。
(1)依据业务数据流向使用云安全功能。
(2)通过SDN云网络叠加第三方安全能力。
开放架构:支持通过NFV编排方式,在云网络中增加第三方IDS、IPS、防火墙、WAF等增强云中安全;
无代理:支持通过流量镜像方式,实现无代理的IDS与防病毒等安全功能;
主流厂商支持:针对云平臺,应尽量多的适配更大主流安全厂商的产品。
(3)基于机器学习感知安全态势。
机器学习:基于对SDN网络流量的机器学习发现威胁,识别更准确;
全面感知:可对云网络及云主机进行弱点分析全面感知安全威胁。
(4)通过大数据分析SDN云网络,感知风险。
(5)通过主机漏洞扫描,感知风险。
(6)通过自动发现云外资产,感知风险。
4 结 语
从企业目前的状况分析,重建设、轻管理是企业信息化建设中存在的一个非常重要的问题。因此,在逐步完成基础架构云搭建之后,应建立合理的云治理架构,提升可持续的云服务能力,形成新的云运维思路,进一步完善云安全思路,确保建设与管理并重。通过云运营方式提升信息化部门的整体服务水平,量化服务质量,提升用户部门的体验和感知。
主要参考文献
[1]吕海红.省级数据中心云管理平台建设构想[J]. 电子技术与软件工程,2018(23):167-168.
[2]武旭春,何光宇,金铸.云管理平台资源管控性能指标研究[J]. 信息技术与标准化,2018(6):20-23,28.