那宝玉,周红亮,耿延军
(军委后勤保障部信息中心,北京 100842)
信息基础设施云资源管理是现代政府和企事业单位提升生产力的重要组成部分。依靠智能运维体系中的信息基础设施云资源虚拟化计费系统,能够准确反映单位信息基础设施云建设能力与效益的关系,并能够衡量业务部门和信息系统是否存在资源占用率与使用效益不匹配不协调的问题[1]。平台模型基于智能运维体系架构,通过对信息基础设施云资源的发放量与实际使用率的虚拟化计费算法设计,构建了云资源的价格构成及相互关系,提供了云资源使用量和使用效益的虚拟化计费方法,建立了信息系统与建设费用的关系图和效益关联图,构建了具有直观、准确以及科学的云资源虚拟化计费模型,为单位实现信息基础设施云精细化管理运营提供了重要依据。
某部门在申报时指定云资源。它的定价模型首先取决于成本,并根据相应的虚拟化技术方案和运营效能参考指标等核定云资源的单价。
云资源的总体投入成本涵盖建设成本、服务投入成本、服务投入虚拟化计费(包括运维合同、软件授权等)和运营虚拟化计费(水电生产经营费、硬件折旧、税务负担以及数据中心自身运维管理投入等)。为简化问题,成本可简化为CPU、内存、存储、网络以及其他5个部分,不考虑整机、弱电等对计费影响不直观的项。
通常情况下,云资源管理者会提供不同服务级别、不同资源配备需求的服务。部门会根据业务属性和实际需求,选择相应的服务[2]。例如,核心业务系统提供最高级别的服务级别保障和30 min的服务响应,且提供随时可弹性扩展的资源冗余;一般业务系统的资源配置和服务响应要求相对较低,服务投入虚拟化计费成本相对较低。为简化描述,暂不将人力资源的响应列为虚拟化计费的影响因素。
云资源的投入总体成本TC包括物理CPU成本CC、物理内存成本MC、存储系统成本SC、网络建设成本NC以及其他成本OC。
更多的政府机关部门对云资源的需求都是相对独立的,部门内部可能会建多个单业务功能的信息系统,或者在全部门内基于云资源分配情况建设业务云服务。无论采用哪种形态,对于单位自建的云资源占用与实际使用率都是可计算的。即使部门以VDC形式申请云资源,它的实际使用运行情况也能够通过智能运维平台进行准确计算,并得到对应的使用效益值账单[3]。CPU虚拟化计费的乘积均为效益计费,但不同的信息系统所使用的CPU类型不一致。有的信息系统使用虚拟化CPU,有的信息系统使用物理CPU,也有两种情况都使用。无论采用哪种情况,计费方式均相同。
云资源包括CPU、内存、存储以及网络等。为简化问题,给定云资源A,其产品定价总体思路是依据A的年度整体成本c,结合云资源A的运营效能参考指标i、A在虚拟化后的总数量a、付费周期p以及年份y等维度进行计算,得出单价uP。云资源单价的定价模型可以概括如下:
以CPU资源的定价为例,单位数据中心共采购N颗物理CPU,可以作价为X元。假设N颗物理CPU可以虚拟化成M颗虚拟的vCPU并进行分配,既可以按vCPU进行分配,也可以按物理CPU进行分配,那么无论采用哪种分配方式,在智能运维平台均可监控到CPU平均使用率。
1颗vCPU的包年价格如下:
1颗物理CPU的包年价格如下:
以虚拟化形式进行分配时,CPU本身也有一个平均使用率,这部分视作系统开销。为简化成本计算模型,这部分不参与计算。
云资源产品包括云资源或云资源的组合,也包括如服务级别保障等维度。为简化问题,可以简单地将云产品的定价pP设计为云资源的定价uP及其数量a乘积的累加。
例如,典型的云产品ECS包含了8vCPU、64 GB内存、40 GB SSD存储、500 GB普通存储以及5 MHz公网网络带宽等。该ECS的产品定价在本文中即是这些云资源及其数量乘积的累加。
计费的目的是衡量所有已分配云资源的价值。计费总额可以和投入总体成本进行比较和分析。
部门会根据实际业务需求建设各个业务单元信息系统,如图1所示。这些信息系统部署运行在单位提供的信息基础设施上,基于定价模型对各部门实际所使用/占用的资源采用虚拟化计费模型进行结算。某部门的计费账单金额结果是该部门负责建设的各类信息系统汇总计算的结果。
图1 计费模型构成示例
值得说明的是,由于定价模型中存在运营效能参考指标,当极端情况下所有云资源全部分配给各部门时,计费总额可能超过投入总体成本,即理论上有盈利的可能。但是,考虑到私有云资源产品定价模型和计费模型的虚拟性,目的是持续优化运营效能,参考指标是为了给运营本身带来一定的弹性空间而设置的合理参考值,每年可以动态微调参考指标并清零盈利,因此单位应追求合理而不应过度追求盈利。
为简化模型,云资源的计费仅考虑按订阅计费的方式,忽略按量付费和特殊费率等方式。按订阅计费是指根据预先订阅的产品或分配的资源量,与相应的产品定价结合,计算出部门或信息系统的费用[4]。平台根据该系统分配的云资源量,结合相应的定价,计算出信息系统的应计费用。其中,系统定价可以按照公式计算出每分钟的定价、每天的定价以及每月的定价。因此,平台可以计算出信息系统每分钟的费用、每天的费用以及每月的费用。部门同样根据所拥有的信息系统汇总出部门的每分钟、每天和每月的费用。
按订阅计费给定云资源产品A,A的应计费用e与包年包月的单价uP与订阅周期p有关,为:
部门的应计费用TE是汇总所有云资源的应计费用,为:
云资源的使用效益模型,主要包括使用效益值和使用效能等评价云资源使用效果的一组指标。使用效益值可以在财务方面衡量云资源使用效果,与应计费用进行对比分析,得出云资源使用效能指标。使用效能指标可以反映云资源使用的充分性即实际使用率,通过映射落在使用效能健康度模型的各个区间里[5]。
使用效益值是指平台采集各个业务信息系统实时使用的云资源情况,主要基于CPU、内存、存储、网络以及其他等资源的实际使用率,结合资源合理使用率,经过使用效益模型计算处理后,得出当前实时产生的使用效益值,并可以累计每月实际产生的使用效益值生成每月的帐单[6]。使用效益值账单的最小计费单元为业务信息系统,指标项包括CPU、内存、存储、网络以及其他等5类。对于部门来说,把所属的各个信息系统实时计算的效益汇总,可生成部门的实时使用效益值;把所属的各个信息系统的月帐单汇总,可生成部门的月帐单。对于单位来说,把各个部门产生的使用效益值进行汇总,可获得单位的使用效益情况。
给定云资源A,信息系统对A的占用量a在一定时间周期p内的使用效益值v与实际使用率r、合理参考使用率rR以及A的单价uP的关系如下:
某信息系统的云资源使用效益值是各种云资源使用效益值的汇总,为:
云资源的使用效能指标是使用效益值与应计费用的比例。通过分析资源使用效能指标,可以判断某部门或某信息系统的云资源是否达到预期的效益。若按使用效益值结果大于应计费用,则使用效能指标>100%,说明云资源利用率比较高;反之,则低。该指标可以表征系统的健康度,按照分值分为不及格、及格、良好以及优秀,如图2所示。
图2 使用效能指标图
若某个系统使用效能指标一直较低,甚至从未被使用,则可以认为该系统处于沉默状态,即僵尸状态。对于此类系统需要提醒并分析是否可以下线,并进行下一步处理。
使用效能指标过高、过低,平台可以根据设置对部门进行提醒,以便部门采取下一步的行动方案。此外,部门可以收到平台每月推送的帐单,以便了解云资源的利用率与使用效益。
简言之,有了计费的结果数据,单位可以基于数据分析效益情况,及时发现问题并提出改进方向。此外,当年的计费结果也可以为第二年的预算申报提供参考。
单位方面有平均使用效能和运营效能指标两个重要效能指标用于日常分析与部门评比。
3.4.1 单位平均使用效能指标
单位平均使用效能指标为单位汇总使用效益值与单位汇总分配云资源应计费用的比值。通过各业务部门的使用效能指标与平均使用效能指标进行比较,对低于平均使用效能指标的部门,可以分析差异和评比排名,如效能较好的Top10部门、效能需要改进的Top10部门、效能较好的Top10系统以及效能需要改进的Top10系统等。
3.4.2 单位运营效能指标
单位运营效能指标为汇总分配云资源应计费用与投入总体成本的比值。该指标反映了某单位资源的整体效益,通过运营效能指标的优化与提高,提升整体的运营能力。
虚拟化计费系统是基于智能运维平台的信息基础设施云资源计费模型的具体实现,包括数据采集层、平台层和应用层。其中,应用层主要涵盖成本核算、预算申报、产品定价、计费以及使用效益等App模块,如图3所示。
虚拟化计费系统的建设目标是为了回答3个主要问题:
(1)IT建设的投入总体成本核算,即单位总共花了多少钱;
(2)各部门的预算申报与资源占用应计费用,即部门用的资源值多少钱;
(3)这些资源发挥的效益值,即部门预算申报多少钱是合理的。
系统还可以在数据采集和平台支撑的基础上提供其他能力,包括可以满足多样化的数据分析需求。
云资源使用率数据采集层主要基于智能运维平台,在信息基础设施中采集云资源的实际使用率,它主要包括CPU、内存、存储、网络以及其他5个维度的云资源。数据采集层从智能运维平台的监控数据中获取物理资源或虚拟资源的实际使用量(率)与数据,并转化为指标推送到平台层的数据湖。
由于在原始数据中并不能识别具体是哪个部门或信息系统在实际使用信息基础设施中的云资源,这就需要在平台层中运用数字孪生对象模型,结合数字孪生对象的其他对象属性来标识和统计。
数据采集层主要包括云资源使用率数据采集Agent和云资源使用率数据采集Collector两类系统。
4.1.1 云资源使用率数据采集Agent
云资源使用率数据采集Agent通过针对不同云资源维度设置探针(Probes),如定时实时查询私有云平台API接口获取虚拟机性能监控数据、实时采集虚拟机的syslog等方式来采集云资源实际使用率的原始数据。它主要包括CPU、内存、存储、网络以及其他5个维度的云资源。
图3 虚拟化计费系统模块
云资源使用率举例如下。
CPU使用率为:
内存使用率为:
存储使用率为:
4.1.2 云资源使用率数据采集Collector
云资源使用率数据采集Collector,可以连接各个Agent,并将数据通过云资源的数字孪生对象模型打通物理空间与数字空间,形成云资源使用率的数字化,而不仅仅是数据的保存。
云资源使用率数据采集Collector进行云资源利用率数据接入的适配容器。系统提供内置驱动集和驱动集成框架,包括CPU、内存以及存储等维度的利用率数据采集驱动,支持Agent与Lake之间通过内部私有协议进行数据传输。
平台层包括数字孪生、数据存储、App服务编排、流程引擎、BI以及人工智能等子系统,为智能运维App层提供各种基础与支撑能力。
4.2.1 数字孪生子系统(Digital Twin)
平台层的数字孪生子系统充分利用物理模型、采集器更新以及运行历史等数据,集成多学科、多物理量、多尺度与多概率的仿真过程,在虚拟空间中完成映射,从而反映相对应的实体装备的全生命周期过程,包括对象建模和对象实例池两个子模块。对象建模模块可以根据采集的数据自动生成对应的数字孪生对象模型(如服务器、虚拟机等),并建立资源实体与数字孪生对象之间的联动关系。同时,对象模型也支持对组织架构的建模。对象实例池负责维护数字孪生对象的全生命周期,管理数字孪生对象的数据存储、数据更新以及监控事件等。
4.2.2 分布式多元对象化数据湖(Lake)
智能运维数据包括云资源使用率数据及其他各种数据,数据量大,数据通量高,数据维度多,需要采用分布式多元的对象化数据湖来支持,如图4所示。
4.2.3 智能运维大数据分析及AI算法
由于数据体量大,复杂多元,在运维过程中需要采用多种大数据分析平台,如图5所示。它拥有完备的大数据算法库,采用主流AI算法,通过图形化方式构建、训练、测试、评估以及调优算法模型来保证运维效率。
图4 分布式多元对象化数据湖(Lake)
图5 智能运维平台大数据分析模块
4.2.4 智能运维体系的App服务编排(orchestrate)
App服务编排为系统应用与用户自定义应用提供运行支撑,包括资源调度、配额管理以及安装/卸载/停用等应用生命周期管理和可扩展的系统服务。应用可以基于平台提供的系统服务和自身业务,实现各种业务功能。流程引擎可以连接数字孪生平台与各种异构系统,并通过工作流的方式编排系统事件,为应用运行平台提供应用内与跨应用的工作流能力。
应用层包括成本分析App、产品定价分析App、计费分析App、使用效益分析App、使用效能App、BI应用以及智能运维监控等。通过这些业务应用提供的能力,可以全面反映数据中心的信息基础设施运行状态、资源分配情况、资源计费情况、部门和业务系统的使用效益情况,以及对系统运行错误进行告警、自动除错和自动扩容等。
4.3.1 产品定价App(ProductsPricing)
产品定价App在产品核心微服务的基础上,提供产品的价格设置、成本设置与计算、各维度云资源的运营效能参考指标等。成本设置可以支持投入总体成本的直接设置,也支持各项成本项的属性设置,随后自动计算投入总体成本。定价主要提供包年和包月两种订阅方式。
4.3.2 计费App(Billing)
计费App主要是在提供各部门的资源申请后,按部门或信息系统进行定期的计费统计分析,并根据应计费值进行排名分析。计费App支持月度和年度的账单推送,按部门维度推送给部门负责人,按多维度形成报表推送给单位。部门可在需要时再发起云资源产品的订阅,以避免云资源的浪费。若部门在未需要时直接订阅云产品,会导致应计费用的增加,但并没有产生使用效益,导致使用效能指标降低。
4.3.3 使用效益分析App
使用效益分析App主要获取智能运维平台层数据湖中相应的数据,支持CPU、内存、存储以及网络等资源的使用效益值按小时、日、月等的使用效益值的计算。使用效益分析App支持CPU、内存、存储以及网络等资源的使用效能参考指标的设置。使用效能参考指标具备区间属性,如从2020-01-01 00:00开始到2020-12-31 23:59结束,表示2020全年均采用该送效能参考指标进行送效益的计算。
4.3.4 使用效能分析App
使用效能分析App主要是根据智能运维平台层的数据湖中相应的数据进行使用效能的计算,包括月度、年度、部门、信息系统、CPU、内存、存储、网络、其他以及系统可用性等多维度的大数据分析,进行部门或信息系统的云服务使用效能分析,并将该数据进行排名分析,以图表的方式呈现。
本文基于信息基础设施云资源分配与虚拟化计费的方法,通过智能运维平台获取运行数据,进行对单位各部门、各信息系统的云资源分配的使用效益值计算,实现了直观反映单位部门在用信息系统的建设成本与效益的相互关系。部门对于信息化需求提报准确性和信息化项目所消耗信息基础设施云资源的使用率,可以为任何单位信息基础设施建设提供准确的参考依据。
该模型的优点是在政府和企事业单位有普遍适应性,特别是在有自建信息基础设施需求的单位,可引导信息化预算据实提报,进行信息基础设施的扩展、扩容以及升级等。实际设计模型后,仍可继续完整。一些设计方面反映的资源分配与计费结果还有待优化。当前,从CPU、内存、存储、网络以及其他5个维度设计了计费方法与实现,其结果精确度的提高还可考虑更多维度和因素。