张晨霞
摘 要:云计算基于其计算能力、储存能力一直以来得到广大企业的追捧与应用。而在应用的过程中,对于数据的稳定性有着极高的要求,要求云计算服务商在提供相关服务的同时能够具备较强的稳定性与安全性。因此,加强云计算平台健康与故障预警成为云计算服务商必须重视的问题。本文从云计算平台监控工具软件结构入手,对状态监控与故障告警系统进行了分析。
关键词:云计算平台;监控技术;应用
一、云计算平台监控结构概述
计算平台的服务与节点性能以及存活状态有着密切关系,如果没有平台状态监控与故障告警等等功能,那么一旦发生故障,相关工作人员就无法及时发展故障以及明确故障原因,从而难以及时恢复平台计算能力。 作为目前成熟的监控工具能够管控集群节点性能,但是繁杂的监控指标又会让用户眼花缭乱; 等等是一个核心框架,而监控任务必须要有相关的插件支持才可以完成,意味着工具自身与平台的耦合度比较低。
为了能够达到云计算平台对于集群运行状态与硬件性能的监控需求,本文提出云计算平台监控工具软件结构模型,从而提升云计算监控的有效性与实效性(见图1):
二、云计算平台监控与故障报警系统分析
云计算平台监控结构模型主要包括数据采集、处理、分析、储存、异常警告以及可视化现实等等基本模块。云计算平台监控与故障报警系统运行流程具体如下:
(一)数据采集与数据处理
通常来讲,对性能指标进行采集,实则就是对系统文件进行读取,同时还要对指标数据进行计算、上报等等。本文所提出的云计算平台监控方案。在采集数据方面主要是定时从平台系统文件 中,对系统硬件性能指标的原始性数据进行读取,然后按照对应的计算方法计算目标指标的数据。为了能够确保数据能够及时上报与收集,方案中提到了 ,在对数据处理插件进行设计时,则可以利用 的指标扩展能力。而插件一般由 的语言来实现。需要注意的是,在插件中还要实现指标信息的定义、指标清除、指标初始化以及指标计算、处理等等功能。
(二)數据存储
传统的监控工具在存储时,主要对监控指标数据采用文件的形式实现存储,而这种形式不利于展示与使用。因此,为了能够实现可视化,数据存储方式需要进行改进。本文认为将指标数据存储到 表当中,同时还应当应用到定时任务与触发器事件。在数据库之中构建指标数据历史存储表(见表1):
表1中监控节点则代表了该记录是平台上哪一个节点,其性能值主要包括此时的状态值以及两个阈值,对阈值进行记录主要是方便之后能够对趋势展示进行标记,不用再对配置文件进行遍历,主要:正常、告警以及严重告警三种状态。与 中的数据进行结合可以对操作流程进行更新,在当数据库表中的状态数据在更新时,触发器事件完成此次数据更新的过程中便会触发一次插入数据库表这一操作,即将监控指标的历史数据保存下来。基于监控具有实时性,更新速度快的特点,很容易产生大量的历史数据,所以又需要通过触发定时任务功能将历史数据删除。例如,每天可以可以执行一次定时任务,将一个月之前的数据数据,同时保留最近一个月的历史数据。
(三)数据分析与异常告警
数据分析的功能是对指标进行分析,看其是否正常;异常告警则是指标数据出现异常时,给出告警提示。在数据分析的过程中,需要给每一个指标设置亚健康状态与故障状态两个阈值。通常来讲,CPU利用率如果保持在0-75%之间,代表着任务运行正常;如果长时间处于90%以上,那么任务运行会将逐渐缓慢。所以,针对CPU利用率可以设置对应的阈值,即75%与90%。
以单核处理器为例,如果CPU负载维持在0.70较为稳定;一旦达到1.0则表示CPU满载;如果已经超过1.0的话,则会出现等待。依此类推,多核处理器负载的两个阈值则可以设置为0.70×CPU内核数、1.0×CPU内核数。因为不同服务器配置不同,为了满足其要求,阈值不能设置为固定值,通常采用百分比机制,这样即使集群内节点的配置不同,而监控配置阈值都不需要进行修改。另外,磁盘的IO往往与磁盘种类有密切关系,磁盘不同其读写速率的极限自然也不同,例如,7200转台式机硬盘读写速率大约在130-190MB之间,所以磁盘读速率对应的两个阈值可以设置为100M/S与130M/S,而写速率对应的两个阈值则设置为50M/S与65M/S。通过相关实践证明,当内存使用率低于88%时,系统通常不会有卡顿情况出现;一旦超过90%,而卡顿情况就会严重。所以,对应的内存使用率阈值设置为88%与90%。将以上故障告警阈值汇总(见表2):
同时,还要将故障告警与 软件结合,对监控插件进行自定义设置,同时设置好监控指标阈值。一旦指标数据超过阈值时,则及时发出警告。
(四)可视化
实时指标数据与历史数据趋势是可视化的两部分。相关人员可以通过监控系统查看指标数据的数据与状态,一旦发现故障,要及时对云计算平台进行修复。历史数据趋势变化能够帮助相关人员进一步了解指标的变化趋势,从而分析故障发生的原因。
三、结语
综上所述,本文主要结合云计算平台监控结构模型,进一步提出了云计算平台监控系统实现的具体方案。该监控系统能够对性能进行监控,及时发出告警,同时可以实现可视化展示,能够达到云计算平台监控软件的基本需求。同时,基于云计算的发展其需求也会改变,所以还需要进一步研究以达到逐步完善的目标,进而提升云计算平台运行的稳定性。
参考文献:
[1]康文龙,王广桢,蒲志新,丛佩超.基于云计算平台的图像识别技术研究[J/OL].传感器与微系统,2018(06):30-32+35.
[2]王猛,谭跃生.云计算平台网络公共资源应急调度仿真研究[J].计算机仿真,2018,35(02):371-374+405.
[3]王俊童.云计算平台与传统服务平台的区别[J].电子技术与软件工程,2018(01):150.