云计算数据中心可用度仿真方法研究

2021-06-03 06:11中国核电工程有限公司郑州分公司
电子世界 2021年9期
关键词:蒙特卡洛框图子系统

中国核电工程有限公司郑州分公司 芦 杉

针对云计算数据中心结构复杂,构成要素繁多,指标量化困难等问题,提出蒙特卡洛仿真方法对其可用度进行分析研究。首先分析确定可用度指标,然后应用可靠性框图结合蒙特卡洛模拟对中心可用度进行实例仿真分析,最后提出提高可用度的建议。该方法能够有效完成云计算数据中心可用度的仿真分析,为提升中心运行可靠性提供支持。

数据中心是信息化的核心,承担着各单位的关键性业务。随着云计算、物联网等信息技术的发展,数据中心由传统的IDC机房转变为云计算数据中心。云计算数据中心的特点是虚拟化、共享性,一旦数据中心出现故障,将给单位带来不可预测的损失,其可用度是运维人员关注的核心问题。然而,云计算数据中心的构成要素较多,各指标的量化方法不统一,导致无法采用传统的计算方法衡量数据中心的可用度。因此,构建云计算数据中心的可用度评估指标体系,探索可用度的仿真方法势在必行。

1 云计算数据中心构成分析

云计算服务类型包括三种,分别为IaaS、PaaS、SaaS。这里主要研究云计算数据中心IaaS的可用度。典型的云计算数据中心主要由虚拟化平台架构、网络通信系统、运维监控系统、供电系统、业务服务系统五个模块组成,如图1所示。

图1 云计算数据中心结构

2 可用度仿真相关理论

2.1 基本原理

(1)可用度的相关概念

MTTR:系统由故障状态转为正常工作状态时修复时间的平均值。MTTR越短,易修复性越好。

MTBF:对于可修复的系统,每次故障后又投入使用,平均故障间隔时间。

可用度:用来表示系统性能好坏的指标之一,用A表示。即:

(2)可靠性方框图

可靠性方框图(RBD-Reliability Block Diagrams)是一种图解方法,定义了复杂系统内部子系统的逻辑关系(串联、并联、串并混合)。

(3)蒙特卡洛模拟法

蒙特卡洛模拟法是一种基于随机抽样、概率分析的模拟方法,包括随机抽样、构造概率模型、随机数产生、系统仿真计算、结果统计拟合等过程。云计算数据中心具有结构复杂、设备种类繁多、数量大、故障模式多种多样等特点,可利用可靠性框图完成结构建模,再采用蒙特卡洛模拟仿真完成可用度计算。

2.2 分析过程

蒙特卡洛模拟仿真的基本分析步骤如下:

(1)通过分析云计算数据中心的构成和功能层次等,建立功能结构图,确定故障判别标准,建立可靠性框图模型。

(2)输入系统中单个部件的故障函数、MTBF等参数,使用蒙特卡洛法对基本部件寿命随机抽样,取得n个基础样本,分别将这n个基本部件至于失效,找出系统的失效时间。进行N次仿真后,可统计出系统N次失效时间。

(3)用区间统计方法进行系统失效数的分布统计,得出系统失效时间在每个区间内的失效数。

(4)通过蒙特卡洛仿真,可以计算出平均故障间隔时间MTBF和平均修复时间MTTR,从而可以得出系统的可用度。

使用同样的方法,可以推导计算出MTTR,最后利用公式可以计算出系统可用度A。

3 某云计算数据中心可用度仿真分析

3.1 云计算数据中心的结构

结合图1所示的云计算数据中心结构,某云计算数据中心组成见表1所示。该中心能够提供虚拟机服务、存储管理、业务访问、业务监控等功能,无法实现上述任一项功能视为系统故障。

图2 虚拟化架构子系统可靠性框图模型

表1 某云计算数据中心的结构

3.2 RBD建模

应用仿真平台软件建立RBD分析模型。

(1)建立云计算数据中心总可靠性框图,由五个子系统串联组成。

(2)建立各子系统可靠性框图

深入分析搭建各子系统可靠性框图模型,部分子系统的可靠性框图如图2所示,其他子系统的可靠性框图构建方法类似。

表2 输入参数表

表3 数据中心各子系统得仿真结果

3.3 输入参数的确定

结合云计算数据中心设备型号,通过调研生产单位及用户应用情况,得到10种设备的可靠性输入参数,具体如表2所示。

3.4 模拟仿真及结果分析

(1)模拟仿真

依据设备更新时间间隔和用户对该数据中心的运行要求,设置数据中心仿真运行寿命为15年,系统仿真次数为100次。人员调集延误时间1h,维修间隔期为720h,备品备件到达延迟时间为0.5h。

对数据中心寿命周期可用度仿真分析,结果如表3所示。

(2)结果分析

在系统运行的15年间,云计算数据中心共计停工239次、923.8h,平均故障间隔时间为733.1h(约30.55天、1个月)。服务子系统的故障率最高,主要是由于该子系统组成数量较多,且离用户最近,操作次数较多。在虚拟化架构、网络通信系统、监控及解析、供电子系统中,主要节点例如服务器、出口、供电均采取了冗余备份方式,且市电、通信线路本身故障率较低,故该四个子系统的故障率较低。

网络通信子系统故障引起的修复时间最长,主要是由于光纤通信线路的中断,需要找故障点,并进行光纤熔接,这样导致修复时间较长。由于虚拟化主机、存储等均设有备品备件,因此修复时间最短。

4 提高云计算数据中心可用度的策略

基于上述的实验仿真方法以及计算结果,可从以下四个方面提升云计算数据中心的可用度:

(1)重视机房巡检工作,加强机房温度、湿度等环境的监控,为设备的运行提供良好的环境,从而减低设备故障的风险;

(2)强化对机房设备的管理以及操作系统的维护。确保每天查看设备的硬件情况,保障设备硬件无故障,以月份为单位对数据中心的操作系统和应用软件进行检查,升级版本,提高软件的可用率。

(3)提升设备的质量,对于关键设备优选可靠性高、寿命时间长的硬件设备,如服务器、存储等;针对数据中心的核心设备采取必要的冗余热备份措施,实现自动切换功能。

(4)规范备件管理。对于核心设备,采购配置足量的备品、备件以及零部件等,同时建设一套完备的备品备件管理系统,当有故障发生时,能够快速更换有效的备品备件。

结束语:通过深入分析云计算数据中心的构成要素以及功能结构,确定了中心的典型结构,利用可靠性框图分析与蒙特卡洛模拟相结合的方法仿真分析中心的可用度,完成了某中心的实例仿真应用,提出了改进措施建议。实践表明,该方法能够为云计算数据中心的运维决策提供理论参考,为提高云计算数据中心的可用度提供依据。

猜你喜欢
蒙特卡洛框图子系统
不对中转子系统耦合动力学特性研究
GSM-R基站子系统同步方案研究
征服蒙特卡洛赛道
捷豹I-PACE纯电动汽车高压蓄电池充电系统(三)
驼峰测长设备在线监测子系统的设计与应用
基于蒙特卡洛法的车用蓄电池20h率实际容量测量不确定度评定
电路图2017年凯迪拉克XT5
算法框图的补全
利用控制变量方法缩减蒙特卡洛方差
蒙特卡洛模拟法计算电动汽车充电负荷