基于PDCA模型的云资源管理方法研究

2022-03-07 04:35孙建刚刘月灿王怀宇储方诚朱洪森
现代计算机 2022年24期
关键词:资源分配使用率内存

孙建刚,刘月灿,王怀宇,张 攀,储方诚,朱洪森

(1.国家电网有限公司信息通信分公司,北京 100761;2.南京南瑞信息通信科技有限公司,南京 210018)

0 引言

云计算[1-2]是继互联网、计算机后信息时代的又一次革新。随着云计算技术的不断发展,越来越多的企业为自己搭建自有的云平台,用来承担企业的各项业务,面向内部人员提供服务。云计算技术的出现使得传统的资源管理方式不再适用于云资源管理。云计算技术用各种软硬件资源构成各种虚拟的逻辑资源,并将这些虚拟资源组成一个大的资源池,供企业各项系统使用[3]。《Flexera2021 年云状态报告》数据显示,企业上云后平均浪费了30%的云支出,云成本预算处于失控状态[4]。因此,如何有效地管理云平台虚拟资源是企业云管理过程中一个重要的问题。本文基于PDCA(plan,do,check,act)管理模型提出的资源管理方法助力企业有效管控各项业务系统的资源需求,提高云资源使用率,降低成本。

1 基于PDCA的云资源管理理论基础

PDCA 模型适用于各行业的日常管理过程。PDCA 循环管理是自我发现、自我完善、自我发展的质量管理活动的科学程序和规律总结,不仅是被国内外诸多领域的实践证明了的科学有效的质量管理方法,而且还是能使任何一项工作有效进行的合乎逻辑的工作程序。PDCA 是一个动态循环的过程,云资源管理也是持续动态演进的一个过程。企业云平台管理人员需要主动开展云资源管理工作,建立循环往复、持续改进的云资源管理机制,以此推动云资源的充分利用,提高云资源使用率[5-6]。

2 基于PDCA的云资源管理方法

参考PDCA 管理方法,增加资源评价环节,以5 个过程管控手段加1 个评价晾晒分析,构建“5+1”资源管理模型,指导企业云管理部门持续开展资源管理工作。模型主要从资源规划、资源申请、资源分配、资源调整、资源回收5个必要环节进行云资源管理,通过资源评价反馈资源管控中各环节的问题,构成提出问题、解决问题、实现目标的云资源全生命周期闭环管理,使得云预算不再失控[7]。

2.1 资源规划

通过对本年资源分配容量、资源增长趋势和用户增长量的分析,结合企业内部各部门的次年需求,统筹规划确定年度云平台扩容规模。每年年底统一开展需求统筹工作,通过收集次年业务系统建设需求及扩容需求,分析云上系统资源增长趋势,综合考虑云平台剩余资源情况与系统资源使用率,形成云平台资源年度规划需求。计算方法如下:

年度规划需求=(新建业务系统资源需求+在运业务系统资源增长量-(平台总量×80%-已分配量))×资源利用率指数

计算结果为云平台某组件资源需求,每个组件均需单独计算,各参数说明如下:

新建业务系统资源需求:为次年上云系统资源需求,主要为新建系统上云资源需求。系统资源应根据业务系统的业务量、用户数、重要程度等参数评估测算,具体公式如下[8-9]:

资源测算计算方法:

虚拟CPU核数:vCPU=(TASK×S×F(/T×C))/149

虚拟内存(GB):vMEM=vCPU×N

存储资源测算方法:

结构化数据容量:SD=RU×UN×BS+[DU×12+(12-1)×6×MU]×[(PN+LN)×PS×30]

非结构化数据容量(KB):NSD=(DU+MU×12)×US

2.2 资源申请

资源申请指在年度规划需求的基础上,系统上云时开展资源申请内容填报。

(1)计划内资源申请。依照年度规划里收集的新建业务系统资源需求为计划内资源,相应业务系统上云时填报资源申请表,按需申请云平台组件资源。

(2)计划外新增申请。若业务资源申请并非年度规划里的新建业务系统资源需求,或者与计划内的业务系统资源需求差异过大,应按统筹规划的资源测算标准重新评估,并根据云平台资源冗余情况考虑云平台规模调整[10]。

2.3 资源分配

资源初始分配时默认按照最小化原则满足业务系统部署,根据系统部署和运行情况,按照资源调整方法逐步增加或减少分配的资源。

(1)最小化分配方式。资源申请后,ECS 虚机类资源规格参数默认按照最小化原则设置(详见下表),即最小资源规格分配方式;容器类资源还需按照总体容器节点需求量40%进行初期资源分配。

(2)部署配置调整。系统部署时,如资源分配不能满足业务系统实际使用,存在应用服务无法正常启动、CPU 内存使用率过高等情况时,参考当前系统使用率或报错信息进行调整扩容。

表1 最小化资源开通规范

表2 系统部署期间扩容标准

2.4 资源调整

资源调整是指针对在云上投运的业务系统,以业务视角通过实时监控、周期评价查看分析业务系统云平台资源使用情况,及时发现闲置、需要调配的资源,提出优化建议并主动进行资源调整,定期记录运行情况,灵活、高效开展资源扩缩容工作。

(1)调整策略。针对投运业务系统在定期巡检、资源告警等不同场景,实行不同的调整策略。

周期性调整:针对投运超过1 个月的系统,通过资源指标监控和定期巡检,每周或每月分析资源使用情况,根据资源利用率、资源闲置率等评价指标开展扩缩容。对于存在周期性规律的资源对象,可以制定定时扩缩容策略,按时执行资源扩缩容调整。

告警型调整:制定相关业务系统或应用实例的资源监控指标和告警触发阈值,系统投运后实时监控。当触发阈值时,根据告警信息自动或手动完成资源调整。

业务资源需求变更:在业务功能模块即将上/下线时,短期调整资源以应对已知功能模块上/下线,没有固定的触发阈值,根据实际业务资源使用情况和变更情况完成业务系统或应用实例的资源调整。

(2)调整方式。当触发资源调整时,针对不同的云平台组件,结合系统部署架构,确定调整动作和调整内容,开展资源调整扩缩容工作。其中,调整动作主要分为横向扩缩容和纵向扩缩容,说明如下。

横向扩缩容:针对云服务器(ECS 等)、容器等,通过自动化扩充/缩减服务器数量规模来改善资源利用率,通常不需要中断业务,对业务影响最低。

纵向扩缩容:通过改变单个云服务器(ECS等)、云数据库(RDS 等)的CPU、内存等配置来改善资源利用率,一般需要服务重启。对系统部署方式无要求。

2.5 资源回收

资源回收[10]是指针对业务系统下线、资源不再使用或闲置情况,每月定期开展资源回收工作,有效保障云资源合理充分利用。资源回收包括以下四种情况。

(1)僵尸资源回收:每月度末针对资源利用率低且系统长期不使用、资源不释放的情况,开展资源回收。

(2)闲置资源回收:业务系统上云后,超3个月未投运,按最小化原则降配;超6个月,则进行资源回收。

(3)系统下线回收:已下线业务系统,与业务系统所属部门核实后,开展资源回收工作。

(4)测试资源回收:对于已超过申请周期的测试资源开展资源回收工作。

3 基于PDCA的云资源管理成果

本方法在某企业某数据中心云平台上实验后,成果明显。原先某个系统的100 个微服务,网关服务和注册服务业务运行指标如表3 所示,根据公式计算出该服务计算需求为vCPU 4 核,内存8 G。所有微服务以此方法测算总的计算需求约为vCPU 400 核,内存800 G,从而指导该系统需要申请的资源实例数量及规格。而原先系统人员自身评估需vCPU 550 核,内存1340 G。使用该方法测算出资源需求,公式测算评估vCPU 节约112 核,内存节约498 GB。本环节资源测算方法更加精细,能够在满足业务需求,确保安全稳定运行的基础上,避免后续资源分配没有上限,造成资源浪费。

表3 微服务运行指标

根据前期资源测算结果,按照最小化分配原则进行资源分配,实际分配总量为vCPU 160核、内存320 GB、结构化存储1600GB、非结构化存储300 GB。分配后资源分配量占总需求比例分别为:vCPU 40%,内存40%,存储30%,最小化分配后资源使用率分别为vCPU 21.6%,内存36.8%,满足业务部署需求,后续根据实际业务量进行动态调整。

通过巡检,分析发现另一系统资源使用率较低,对该系统部分资源实例进行手动降配,经过本次缩容调整,节省vCPU 约600 核,内存约800 GB。CPU 利用率从3.4%提升至27.9%,CPU 利用率较调整前提高694.1%,内存利用率从15.7%提升至44.6%,内存利用率较调整前提高184.1%。

该数据中心云平台开展资源回收工作,回收僵尸资源、闲置资源、系统下线后资源、测试资源。累计回收vCPU 约7000 核,内存约18000 G,存储约180 TB,提升了云平台整体资源使用率。

4 结语

综上所述,本文提出了基于PDCA模型的云资源管理方法,详细分析和介绍了每个阶段的目标和方法,初步形成了科学有效的云资源管理方法论。使用该方法对云平台资源进行管理,有助于企业提升云平台资源利用率,减少云资源的浪费,降低云平台建设、使用预算,最大程度上减少在云平台上不必要的支出。本研究同时也可以为其他云平台资源管理方法研究提供思路和借鉴。

猜你喜欢
资源分配使用率内存
新研究揭示新冠疫情对资源分配的影响 精读
笔记本内存已经在涨价了,但幅度不大,升级扩容无须等待
“春夏秋冬”的内存
2018年中国网络直播用户规模为3.97亿
QoS驱动的电力通信网效用最大化资源分配机制①
基于动态规划理论的特种设备检验资源分配研究
基于动态规划理论的特种设备检验资源分配研究
云环境下公平性优化的资源分配方法
基于服务学习方法提高青少年安全带使用率
内存搭配DDR4、DDR3L还是DDR3?