范丽丽?阮前?苏超
摘要:随着云计算、大数据等技术的普遍使用,业务上云已经成为主流趋势,云服务商业似雨后春笋般出现。云资源的规模也越来越大,动辄几万甚至几十万台服务器的规模;云上承载的业务系统数量迅速增至几百甚至几千,运营分析的维度也变得精细化、多样化,传统粗犷的云资源运营管理方式已无法满足日益增长的运营分析需求。一套有效的云资源全生命周期精细化管理运营体系,能为云用户提供便捷得云资源服务,也能充分发挥“云”的优势,实现云资源的可控、可管、可查,助力云服务商、云用户实现降本增效。
关键词:AI分析;精细化运营;云资源运营;云资源管理
一、背景
随着微服务技术的快速发展和广泛应用,以及“业务应用”与底层“云资源”的不断解耦,云资源使用的方式基本实现“按需扩缩”,使用的便捷性逐步增强,“业务云化”已成为主流趋势。很多企业采用租用云服务商的云资源,实现业务的快速部署。同时,云服务商的“云”的规模也快速增加,从几万增加至几十万。传统粗犷的资源运营管理方式无法满足“云”模式下,更加精细化和多样的资源运营需求。因此建立一套适用于“云”模式下的云资源全生命周期精细化管理运营体系,合理有效地对云资源进行管控势在必行。这既便于云用户实时了解所租用云资源的使用情况、业务运行情况、及时扩缩云资源,有效控制成本,也为云服务商扩建云资源提供评估依据,避免云资源空置,以提升云资源效能。
二、云资源全生命周期管理
构建“事前、事中、事后”的云资源全生命周期运营管理,以云用户资源申请为起点,以云用户使用的资源回收至云为终点,打通资源交付、资源开通、云资源回收三个关键云资源状态节点,实现云资源的全生命闭环管理。管理以“事中”的资源监控和资源运营分析结果为依据,向前支撑“事前”云资源申请的审批评估,向后支撑“事后”云资源回收评估。
(一)资源申请
资源申请为云用户使用云资源的第一步,在此之前云用户需要根据即将上云的业务特点、需求、业务量等参数进行云资源需求评估。上云的业务系统架构设计必须为高可用架构,原则上应为集群部署方式,需求评估需同步考虑架构设计因素带来的云资源冗余。云服务商会面向云用户发布云资源产品目录清单,云用户可以根据评估后的需求进行选择申请。如果是扩容的业务系统则可结合现网运行业务的云资源分析结果进行“事前”的需求评估。云用户通过订单或者工单的方式向云服务商提交资源申请。云服务商根据云用户提交的资源申请材料对资源申请需求进行评估,对合理的需求进行交付,不合理的需求反馈云用户进行优化调整。
(二)资源交付
资源交付为云用户使用云资源的起点,也是成本费用计算、云资源使用分析的时间起点。云资源交付的数量以资源申请阶段完成需求评估后,云用户所提交的订单或者为准,为云用户后续使用云资源数量的上限阈值,云用户在此阈值范围内可以进行按需自服务创建和使用云资源。云资源交付的同时,云上的自动化工具也面向云用户同步开放,云用戶可以按需使用。同时云服务商可对订单或工单的审核、交付、通知进行闭环管理并对交付数据进行分析。
(三)资源开通
资源开通为资源交付后云用户通过自服务方式按需对云资源进行创建。开通后的云资源,云管理系统将会绑定开通时间、云用户ID、业务系统ID等相关配置信息,用于后续云资源分析使用。云用户开通云资源时,可以使用云管理系统提供的自动化工具批量安装标准化的操作系统、镜像、监控工具等,如遇到相关问题,可以通过“云服务台”向云服务商发起咨询,云服务商有义务协助云用户完成资源开通,配置策略等相关工作。云用户可以通过工单的方式发起网络策略、安全策略等云资源相关的其他需求。
(五)资源变更
资源变更主要是云用户根据自身使用需求,变更云资源类型或者配置关系。主要用于云用户内部业务系统之间调整云资源数量、类型,或者变更与云资源相关的组织管理关系等,均由云用户通过工单方式或者内部其他流程自主发起,经审批后生效。云管理系统会记录资源变更生效时间,用于后续资源运营分析使用。
(六)资源监控
资源监控是云资源全生命周期管理过程的“眼睛”,主要是对已开通资源的类型、状态、性能进行监控。资源类型包括裸金属、云主机、云存储等;资源状态包括测试中、运行中、关机中等,性能数据包括CPU利用率、内存利用率、存储利用率、网络资源利用率等。监控中发现异常会向云用户、云服务商发送告警信息。监控数据的来源大多为专业网管,通过数据接口方式获取,如kafka等。
资源监控的数据是云资源运营分析的基础数据,外部获取的监控数据格式一般不适用运营分析,无法直接使用,需按照运营分析相关要求进行数据预处理,将从外部系统获取的监控数据按照预处理规则,规范化处理后写入运营分析使用的数据库。在数据处理规程中需配置一定的数据排查稽核规则,及时发现数据缺失、数据漏传、数据漏取,以及数据异常等问题,并将相关问题及时向数据源反馈,以便及时排查、定位和修复相关数据问题。监控数据排查稽核周期应尽量短,建议设置为天,或者小时,过长的排查稽核周期会影响运营分析质量,同时也会导致数据问题排查周期长、问题定位难度大、排查效率低,也会进一步影响云用户使用体验。
(七)资源回收
资源回收主要是指云用户结合自身业务发展情况,以及云资源运营分析情况,经综合评估后,对计划不再使用的云资源通过订单或者工单的方式进行释放。释放后的云资源回归云服务商进行再分配使用,并停止计费。
三、资源运营分析
资源运营分析为云资源全生命周期管理最为核心的部分,向前为“事前”的资源申请提供需求分析、需求评审依据,向后为“事后”的资源回收提供优化部署、缩减资源的分析依据。
资源运营分析的基础数据包括资源监控的数据、资源交付和资源开通相关的配置数据,资源分析的主要目的是为用户提供详细的资源使用情况分析,以及改进建议。内容包括云用户申请的资源类型和数量、开通使用的资源类型和数量、资源利用率情况,资源整体效能情况等,展现形式通常为月度总结报告、月度账单、月度/年度趋势曲线等。也可以结合AI等技术对未来一段时间内的资源使用情况进行预测等。
(一)云资源使用效能评估分析
资源运行分析常见是使用CPU利用率、内存利用率,单一的指标无法全面体现云用户资源的真实的使用情况,因此需要构建一个综合的评估模型,用综合指标来告知云用户资源的整体使用情况及后续的整改建议。
综合效能评估模型可以将CPU峰值、CPU均值、内存峰值、内存均值以及其他参数作为输入参数,并根据专家判断法设置各参数权重,利用Bagging集成方法对输入参数进行AI模型训练,基于学习器包括K近邻、决策树和LSTM等方法,将计算的结果作为云用户、业务系统的综合效能评估得分,并反馈云用户资源使用优化的建议。比如回收某个业务系统云主机资源VCPU或者内存利用率较低,建议回收部分VCPU和内存资源;或者某个业务系统的裸金属资源选型不合理,建议选择性能更高或者更低配置的产品等。综合效能评估一般按月进行,并面向用户发布当月以及一定历史周期内的趋势分析情况。
(二)低效无效资源分析
资源效能评估是以用户、业务系统为对象分别进行评估,评估云用户、业务系统维度整体的资源使用情况,也是宏观的角度提升优化方向,但是如果云用户、业务系统有较多低效或者无效资源,资源利用率或者效能评估的分析结果也会较差,低效无效资源分析是以单台设备为最小颗粒度进行云资源运营分析,为云用户提供设备维度的更精准的优化建议,进一步为云用户节约成本,提升资源效能。
低效资源主要是指长期处于利用率低或者低效能的云资源,判断规则可以根据云资源实际运营情况进行设定,可以根据一个指标设定判断规则,也可以综合几个指标设定判断规则。通常是采用单台云资源的CPU利用率和内存利用率两个指标,通过专家判断法或者构建AI模型分析来设定阈值,附加一定的时间周期设定判断规则。最后统计低效资源占比情况分析,公式为低效资源总量/已交付的云资源总量,计算值越大,说明该云用户或者业务系统低效资源占比越多,云资源效能提升的空间越大,云资源成本的优化空间也越大。同时,通过低效资源占比分析结果可以向下查询低效资源的明细,包括但不限于设备ID、设备位置、归属业务系统、归属云用户。
(三)云资源使用预测分析
资源运行分析除分析资源现网运行外,需对未来一段时间内趋势进行预测,便于云用户预知未来一段时间内资源使用趋势,提前做好需求评估,提前进行资源扩缩申请。
结合一定历史周期内的资源利用率、资源效能情况,对未来进行趋势预测,建议评估周期选择至少13个月,兼顾同比和环比分析,采用数据统计分析方法计算设定预测合理区间的阈值,构建AI训练模型,并将预测的结果发送给云用户,如果预测结果不在合理区间,则同步给云用户发送预警。
(四)云资源成本费用分析
云资源费用分析为云用户提供清晰明了的云资源账单,包含但不限于云用户使用的云资源类型、云资源数量、使用时间、计费单价、计费总价等,并同时为云用户提供一定历史时间内的资源使用量的趋势分析、账单费用趋势分析等。云资源账单应具备向下钻取、可溯源等能力。
資源成本分析需要包含云用户预算管理,结合云资源使用预测分析结果,当预测有预算超支风险时,提前向云用户发布预警。同时,结合低效无效资源分析情况,向云用户发布闲置费用/隐藏费用的总量、占比等分析情况,便于云用户及时释放低效无效资源,节约成本。
四、结束语
云资源全生命周期管理各流程中云资源相关的属性、状态、性能等数据会产生变化,而这些数据均为资源精细化运营分析的基础数据,因此在各流程环节中务必要有稽核、校验等机制,以保障运营分析数据的准确性。同时,外部系统输入的数据,如专业网管的性能采集数据等,在进行运营分析前也需保障数据的质量,一般会先按照运营分析相关需求进行数据治理,以保障外部输入数据的完整性和准确性,也便于及时发现和解决性能采集数据的质量问题。
作者单位:范丽丽 阮前 苏超 中移动信息技术有限公司
参 考 文 献
[1]猴子·数据分析学院.数据分析思维方法分析和业务知识.清华大学出版社.2020.11
[2]云计算开源产业联盟.云优化治理白皮书第一部分:成本优化.2022.05
[3]云计算开源产业联盟.云优化治理白皮书第一部分:云资源效益优化.2022.07
[4]孙宇熙.云计算与大数据.人民邮电出版社.2017.01
[5]徐小龙等.云数据中心智能管理.电子工业出版社.2021.09
范丽丽(1982.03-),女,汉族,吉林长春,本科,中级,研究方向:云资源运营管理。