程志华 杨孝果 付 雄
1(国家电网公司信息通信部 北京 100031)2(南京邮电大学计算机学院 江苏 南京 210023)
面向大规模云数据中心的轻量级监控研究
程志华1杨孝果2付 雄2
1(国家电网公司信息通信部 北京 100031)2(南京邮电大学计算机学院 江苏 南京 210023)
在云数据中心中,随着虚拟化技术的广泛应用,对虚拟机和物理机的同时监控使得监控系统面临着负载大、开销大等问题,传统的监控系统很难满足需要。设计出一种轻量级状态监控方案,该方案结合实时监控与状态监控,对实时性要求不高的监控对象使用状态监控。经实验证明该监控方案能够适用于云数据中心,并能较好地降低监控系统带来的网络负载。
云计算 云数据中心 轻量级 状态监控
数据中心是信息系统的核心,主要功能是通过网络向用户提供基础设施服务[1]。数据中心在经历了数据存储中心、数据处理中心和信息中心三个阶段后,伴随着云计算和虚拟化技术的运用,数据中心逐渐发展成为云数据中心[2]。
云数据中心的正常运行离不开监控。监控是维护云数据中心良好运行状态的基础,同时也是云数据中心实现其他功能必不可少的保障。通过监控云数据中心获取资源使用数据,是云数据中心实现资源分配、任务调度和负载均衡等功能的基础。监控云数据中心可以帮助管理员跟踪资源运行状态,及时发现和解决资源故障,实现资源预警和报警,维持系统的平稳运行[3]。因此,研究云数据中心的监控,对解决云数据中心的资源管理有着极其重要的意义。
当前,云数据中心的监控并没有形成统一的解决方案。现有的解决方案多为集群监控系统或是针对某些特定监控对象的监控系统。集群监控系统的监控数据一般用于故障处理和性能分析等工作,具有代表性的集群监控软件如Ganglia[4];针对某些特定监控对象的监控系统在某些监控对象上具有较好的监控效果,但它们的可扩展性较差,并不能适应云数据中心在规模上的飞速发展。此外,云数据中心大量使用虚拟化技术,只能达到物理机级别的监控粒度,显然不能满足云数据中心对于监控系统的要求,为了让监控系统具有更高的实用价值,云数据中心的监控粒度必须细化到虚拟机级别[5]。
当监控粒度达到虚拟机级别时,数量巨大的虚拟机产生的监控数据更加庞大。每个监控节点将监控到的数据不加鉴别地传输给位于其上层的集群管理节点进行分析、存储时,必然会造成极大的网络负载。在满足监控需求的前提下,如何降低监控系统产生的网络负载也是必须考虑的问题[6-7]。
基于以上分析,本文提出了面向大规模云数据中心的监控方案。它是一种云数据中心的轻量级监控方案,具有较好的可扩展性。在该监控方案的基础上,考虑到监控系统对云数据中心产生的巨大网络负载,提出结合实时监控与状态监控相结合的监控方法,并且提出状态监控的优化策略,有效降低状态监控的网络负载。
1.1 监控对象
监控对象是指监控系统以直接或间接方式获取运行数据的对象。云数据中心的监控对象繁杂,从不同角度出发,可以将监控对象划分为不同类型。从实体存在形式划分,监控对象可划分为物理形式和虚拟形式;从资源类型划分,监控对象可划分为计算资源、存储资源、网络资源等。
伴随着云数据中心规模的不断扩大和结构的日益复杂,对云数据中心监控的难度也不断加大,监控对象分布到云数据中心的各个层面。云数据中心的监控系统应当能够直接采集到物理机和虚拟机的包括CPU和内存在内的计算资源、网络资源、存储资源等的使用情况。
1.2 监控方式
监控方式是指监控系统对监控数据进行数据同步的方式,主要分为实时监控和状态监控两种。
实时监控是一种对监控数据进行实时同步的监控方式。对监控对象采用这种监控方式,用户能够获取监控对象的实时运行数据,数据处理与分析模块可以对获得的数据进行处理、分析。
进行实时监控获取的监控数据通常会传输到监控节点之外的节点进行存储。因此,实时监控虽然能够及时获取到详细的监控数据,但是由于监控数据需要同步传输,对网络资源的消耗会随着监控对象规模的增大而急速增长。
状态监控是一种只显示监控对象是否“健康”的监控方式。该监控方式下,数据采集模块在采集到数据后,只有该数据超越预定的阈值时,才会有所行动,否则只进行本地存储。这一监控方式适用于对监控数据实时性要求不高的监控对象。
进行状态监控时,首先对监控对象设定一个危险报警的阈值,监控数据与该阈值进行简单比对后进行本地存储。当监控数据处于安全范围内,监控系统静默,一旦监控数据超出预定的阈值,即出现本地局部越界,监控节点向集群管理节点发出本地越界报告。集群管理节点收到局部越界报告后发起全局轮询,确定集群内该监控对象的状态值是否发生整体越界。若发生整体越界则发出报警,否则监控系统继续监控。
简单的状态监控可以采用即时报告与轮询策略。它是指监控对象的报告和集群管理节点的全局轮询采用即时进行的方式,即监控对象发现本地越界时立即向集群管理节点报告、集群管理节点收到报告后立即发起全局轮询。
进行状态监控时,监控数据采集端可以对本地监控数据进行简单的比对处理,只有在有需要时将监控数据对外传输,大大地降低监控系统对整个云数据中心系统的网络负载。
1.3 监控架构
一个完整的监控系统主要分为数据采集、数据存储、数据处理、数据展现四大部分。图1是本文提出的监控方案的框架体系。
图1 监控系统框架体系
图1中实线框分别表示监控系统的三个主要角色——监控节点、集群管理节点和独立于所有集群之外的监控前端。监控节点在采集到监控数据后对监控数据进行分发。集群管理节点获得监控节点发送的数据后可以存储在本地数据库,便于后期分析处理。监控前端独立于所有的集群,可以随时查询任意集群上任意监控对象的当前运行状态,并根据需要调整监控系统。
图1中虚线框分别表示监控系统的数据采集、数据存储、数据处理和数据展现功能。数据采集功能主要位于在监控节点,用于对监控节点的虚拟机和物理机的运行状态进行数据采集。以往的数据存储一般采用监控节点本地存储或集群管理节点集中式存储两种方式。前者可以减少监控数据的传输,但在监控节点对监控数据的分析处理时会使得监控节点的计算负载增大;后者需要将所有监控数据不加鉴别的传输,虽然该方法在后期的数据分析时不会对监控节点造成计算负载,但是随着监控规模的增大和监控粒度的细化,监控数据不断扩大,会造成严重的网络负载。
本文提出的监控架构将数据进行两地存储:进行状态监控的监控数据和不需要进行集群相关性分析的监控数据存储在监控节点;进行实时监控和需要进行集群相关性分析的监控数据传送到集群管理节点(或其他的统一节点,图中省略)进行存储,便于及时进行数据分析和查询。
进行状态监控时,网络波动等原因造成的瞬时状态越界和突发值十分常见[8-10],局部阈值设置不合理也会造成某些节点多次发出不必要的局部越界报告。云数据中心的监控规模较大时,每一次的全局轮询都会造成较大的网络负载,所以,在保证正确率的前提下,减少局部越界报告次数和全局轮询次数显得十分重要。
基于以上分析,本文提出了状态监控的优化策略,它能在一定程度上减少短时局部越界和长时微弱越界产生的不必要的局部越界报告和全局轮询。该优化策略分为越界抑制算法和轮询抑制算法两个部分。越界抑制算法运行于监控节点,其作用是抑制瞬时剧烈越界和较长时间的微弱越界,并在必要时向集群管理节点发送局部越界报告信息;轮询抑制算法运行于集群管理节点,其作用是在接收到监控节点发送的局部越界报告信息时,能够根据自身对整个集群的预测,判断是否需要发起全局轮询。
越界抑制算法步骤如下:
输入 集群内监控对象的整体阈值T,监控对象的可容忍累计越界量Hi,越界报告权值系数w。
输出 判断是否需要向集群管理节点发送局部越界报告信息。
1. 根据T设定每个监控节点上该监控对象的局部阈值Ti,本地越界累计值Si(t)=0;
3. 若:Si(t)在达到Hi前,监控值mi已经恢复到本地阈值范围内(mi≤Ti),则本次越界累计结束,本地越界累计值Si置为0;
轮询抑制算法步骤如下:
输入 最近全局轮询的监控值之和M。
输出 判断是否需要发起全局轮询。
3. 集群管理节点在时间点tx收到监控节点发送的时间跨度Δt和越界强度Li,修改时间区间(tx-Δt,tx]内的全局越界强度L(t):L(t)=L(t)+Li,t∈(t0-Δt,t0];
6. 若:轮询后确定发生全局越界,触发报警。
在越界抑制算法的步骤1中,可以选用不同的分配算法对整体阈值T进行分配,从而使监控节点的局部阈值Ti更好地符合当前状态;在轮询抑制算法的步骤2和步骤5中,可以使用不同的预测算法对监控对象的全局空闲值进行预测。根据用户需求不同,可以定制更加符合系统模型的分配算法和预测算法,充分体现出本文的越界抑制算法和轮询抑制算法具有较好的可扩展性。
按照即时状态监控报告方案,任意一台虚拟机的本地下载速度超过本地阈值时,都会向集群管理节点发送局部越界报告,若集群管理节点同样采用即时轮询方法,那么在任意时间点,一旦集群管理节点接收到监控节点的状态越界报告,就立即发出全局轮询,根据轮询结果确定是否需要发出报警信息。
为了提高数据样本的准确性,在本次实验中,设定监控系统的数据采集频率为每秒一次。实验中,共有10 007次本地状态越界,由于存在某时刻多节点同时发生本地状态越界,而集群管理节点在同一时刻接收到多个本地越界报告时只需要进行一次全局轮询,因此,在本次实验中,全局轮询发生次数共计8 492次。
图2 本地越界报告量与Hi关系
从本文提出的优化方案可知,监控节点的越界报告量与可容忍累积越界量Hi有关,而轮询量则与可容忍累积越界量Hi、权值提升系数w和预测因子a有关。
如图2是本地越界报告量与可容忍累积越界量Hi的关系图。从图中可以看出,随着可容忍累积越界量Hi的增大,越界报告量不断降低。相比于即时报告方法,Hi为200、400、600、800和1 000时,越界报告量分别降低27.82%、61.26%、70.28%、76.59%和82.05%。
如图3是权值提升系数w=1.1、预测因子a=0.5时,全局轮询量与可容忍累积越界量Hi的关系图。从图中可以看出,随着Hi的增大,轮询量不断降低。相比于即时轮询,Hi为200、400、600、800和1 000时,越界报告量分别降低了18.13%、55.90%、65.85%、73.15%和78.31%。
图3 w=1.1、a=0.5轮询量与Hi关系
显然,优化方案与即时方案相比,很好地降低了局部状态越界报告和全局轮询的数量。具有较好的优化效果。
除了可容忍累积越界量Hi,优化方案的轮询量还与越界提升系数w和预测因子a有关。图4和图5分别反映了不同的w和a对轮询量的影响。从图中可以看出,较小的w和较大的a对轮询量的影响相对较大,但差别十分微弱。
图4 越界提升系数w对轮询量的影响
图5 预测因子a对轮询量的影响
不同重要性的监控对象可以设置不同的延迟轮询级别,对于整个系统安全性、健壮性影响较高的监控对象,可以将其延迟轮询时间设置为0,表示在系统出现整体越界真正需要发起全局轮询的时候,监控系统能够无延迟发起轮询;类似地,对于重要级别较低的监控对象,如果可以容忍短暂的轮询延迟,则将延迟轮询时间设置为可以接受的值,表示在系统出现整体越界需要发起全局轮询时,监控系统能够在预先设置的延迟值范围内发起全局轮询。
图6显示的是本次实验中,各个延迟级别下,发起全局轮询的命中率与可容忍累计越界量的关系。从图中可以看出,命中率随着可容忍累计越界量的增大呈现下降趋势,并且延迟级别越高(最高为0延迟),命中率下降的越快。
图6 各延迟长度命中率变化趋势
图7表示的是在保证95%命中率的前提下,即时方案和不同延迟的优化方案在本地越界报告量的累计趋势变化对比图(局部)。同时,为了验证优化方案的效果,还和文献[10]中提出的向量自回归VAR(Vector Auto Regression)预测方法引入延迟思想后进行了比较。
图7 不同方案的本地越界报告量累计趋势图(局部)
从图7中可以看出,本文提出的优化方案能够很好地降低因本地状态越界而产生的局部越界报告。在保证95%命中率的前提下,图中时间轴为2.0 h时,相比于即时报告方案,本文提出的优化方案的不同延迟程度的报告量分别降低了58.39%、76.26%、83.59%和87.47%。相比于VAR预测[10]引入的延迟仅能降低约6.2%,明显不如本文所提方案的优化效果,其主要原因是该方法预测准确度和所采用的延迟对抑制瞬时剧烈越界不够。
云数据中心监控是云数据中心发展的重要课题。本文以此为研究对象,探究云数据中心的监控目标,设计一种具有可扩展性的监控架构,该架构结合实时监控与状态监控两种监控方式。同时,本文对状态监控算法进行优化,有效降低状态监控引发全局轮询而产生的网络负载。
我们未来的工作主要集中在两点:(1)继续研究更为合理、完善的云数据中心监控方案,获取更加具体、可信的虚拟机监控数据;(2)完善监控方案中的能耗监控模块,挖掘监控系统的实用价值。
[1] 李丹,陈贵海,任丰原,等.数据中心网络的研究进展与趋势[J].计算机学报,2014,37(2):259-274.
[2] 魏祥麟,陈鸣,范建华,等.数据中心网络的体系结构[J].软件学报,2013,24(2):295-316.
[3] 魏亮,黄韬,陈建亚,等.基于工作负载预测的虚拟机整合算法[J].电子与信息学报,2013,35(6):1271-1276.
[4] Massie M L,Chun B N,Culler D E.The ganglia distributed monitoring system:design,implementation,and experience[J].Parallel Computing,2004,30(7):817-840.
[5] Jin Y,Wen Y,Chen Q,et al.An empirical investigation of the impact of server virtualization on energy efficiency for green data center[J].The Computer Journal,2013,56(8):977-990.
[6] 江逸茗,兰巨龙,周慧琴.网络虚拟化环境下的资源监控策略[J].电子与信息学报,2014,36(3):708-714.
[7] Raghavendra R,Ranganathan P,Talwar V,et al.No power struggles:coordinated multi-level power management for the data center[J].ACM SIGARCH Computer Architecture News,2008,36(1):48-59.
[8] Meng S,Iyengar A K,Rouvellou I M,et al.State monitoring in cloud datacenters[J].IEEE Transactions on Knowledge and Data Engineering,2011,23(9):1328-1344.
[9] Deligiannakis A,Stoumpos V,Kotidis Y,et al.Outlier-aware data aggregation in sensor networks[C]//Proceedings of the IEEE 24th International Conference on Data Engineering,2008:1448-1450.
[10] Chen H,Fu X,Tang Z,et al.Resource monitoring and prediction in cloud computing environments[C]//Proceedings of the 3rd International Conference on Applied Computing and Information Technology/2nd International Conference on Computational Science and Intelligence,2015:288-292.
RESEARCH ON LIGHTWEIGHT MONITORING FOR LARGE SCALE CLOUD DATA CENTER
Cheng Zhihua1Yang Xiaoguo2Fu Xiong2
1(DepartmentofInformationandCommunications,StateGridCorp.,Beijing100031,China)2(SchoolofComputer,NanjingUniversityofPostsandTelecommunications,Nanjing210023,Jiangsu,China)
In the cloud data center, along with the extensive application of virtualization technology, the simultaneous monitoring of virtual machine and physical machine makes the monitoring system face the problems of large load and large cost. The traditional monitoring system is difficult to meet the needs. In this paper, a lightweight state monitoring scheme is designed, which combines real-time monitoring and state monitoring, and it uses the state monitoring for the object with low real-time requirement. Experiments show that the proposed monitoring scheme can be applied to the cloud data center, and can reduce the network load brought by the monitoring system.
Cloud computing Cloud data center Lightweight State monitoring
2016-05-10。国家自然科学基金项目(61202354)。程志华,高级工程师,主研领域:电力信息化,云计算。杨孝果,硕士生。付雄,副教授。
TP393
A
10.3969/j.issn.1000-386x.2017.06.002