IDC运营的大数据分析与DCIM

2016-06-22 06:47任华华
中国信息化 2016年3期
关键词:运维数据中心服务器

文|任华华



IDC运营的大数据分析与DCIM

文|任华华

随着移动互联的快速发展和大数据和云计算的出现,成百上千栋数据中心拔地而起,海量的数据已悄然产生,并潜移默化地影响着我们生活中的点点滴滴。当我们出行时,参考高德地图的交通数据;当我们餐饮时,打开大众点评查看评论数据;当我们购物时,淘宝网的消费数据分析会推送符合我们倾向的商品。生活中的小事尚且需要大数据的分析,IDC运营这样一件严肃而又严谨的工作,同样需要大数据分析。

一、IDC运营需要大数据分析

所谓IDC,就是为电子信息设备提供运行环境的场所,包括数据处理、数据传输和网络通讯等IT基础设施,同时包括为IT设备服务的电力、空调、传输管路等场地基础设施。通过合理的IT架构和对场地基础设施完善管理,提供良好的IT环境,保障IT设备的正常有效运转、保障业务的顺畅进行和服务的及时提供。

一个典型的IDC如下图1-1:

图1-1 典型IDC组成图

从图1-1可以看出,IDC是一个复杂的综合体系,需要进行科学的管理,以保证其能正常运营。可以这样理解“管理”二字,“管”意味着决策与执行,“理”意味着整合与分析数据。“理”是手段,“理”的功能为采集数据;“管”是目的,“管”的功能是根据“理”的数据分析结果进行决策和执行,进行运维操作。

管理需要数据,如何获取IDC运营数据呢?如图1-2所示,IDC的电力监控系统会得到到柴油发电机、燃油、市电、变压器、UPS、电池、高压直流、开关状态、PDU电量等系列数据;制冷空调监控系统会得到冷机、冷塔、水泵、板换、精密空调、冷热通道温度、自然冷却的运行时间、PUE、WUE等系列数据;消防与安防监控会得到人流、物流等系列数据;ITSM系统得到服务器上架、流程进度等数据。

这些数据有的进行了分析,形成了报表,如图1-2中左一图片所示的设备电量波动趋势,左二图片所示的自然冷却分析,但是大量的数据还停留在初级采集阶段,并未形成综合分析与报表。例如,冷冻水泵的变频器发生故障,可能会直接影响冷机运行,但报警信息只显示在电力监控界面上,不对制冷运维人员开放,导致制冷运维人员不能在第一时间得到通知,无法快速响应故障。又如,制冷系统中的蓄冷罐温度异常可能由冷机故障引起,也可能由冷机专用变压器或开关故障引起,此时只分析蓄冷罐的温度数据或者只分析冷机的状态数据是不够的,还需要跨系统分析电气系统的冷机配电开关和变压器状态的数据库。

因此,IDC有效运营迫切需要对获取到的大量独立、离散的数据进行分析,需要对数据进行跨系统整合、关联、统计与挖掘。

图1-2 获取数据的方式与途径

二、大数据分析的有效工具--DCIM

为了顺应IDC运营跨系统数据关联、分析的需要,DCIM(Data Center Infrastructure Management数据中心基础设施管理)应运而生。DC IM概念起源于国外,不同的机构对其有不同的定义,但得到基本认同的观点是:DC IM是一座沟通场地基础设施和IT基础设施之间关系的桥梁,能够帮助数据中心管理人员更高效的运营数据中心。

G a r t n e r对D C I M的定义:D a t a c e n t e r in frastructure m anagem ent (DCIM) too ls m onitor, m easu re, m anage and/o r con tro l da ta cen te r utilization and energy consum ption of all IT-related equipm ent (such as servers, storage and networksw itches) and facility in frastruc ture com ponen ts (su ch as pow e r d is tribu tion un its [PDUs] an d computer room air conditioners [CRACs]). 数据中心基础设施管理(DC IM)工具可以监控、测量、管理和控制数据中心所有IT相关设备(比如服务器、存储和交换机)和基础设施相关设备(比如PDU和精密空调)的使用情况及能耗水平。

451 G rou p对DC IM的定义是:A d a ta cen te r in frastruc tu re m anagem en t system co llec ts and m anages in fo rm a tion abou t a da tacen te r’s assets, resource use and operational status. This information is then distributed, integrated, analyzed and app lied in w ays tha t he lp m anage rs m ee t business and service-oriented goals and optim ize the datacenter’s performance. 数据中心基础设施管理系统收集和管理数据中心的资产、资源使用以及运行状态的信息,然后分发、整合、分析、使用以帮助数据中心管理者满足业务和服务导向的目标,优化数据中心运营。

DC IM定义中的In fras tru c tu re,业内比较通用的认知是:基础设施(in fras tru c tu re)=场地基础设施(site facility in frastructure)+ IT基础设施(IT infrastructure)

三、DCIM为IDC运营带来价值

DC IM的主要价值就是在于打通场地基础设施和IT基础设施(硬件层)的组织和信息断层、打通场地基础设施各子系统的数据库,采用统一的平台管理场地基础设施如UPS、空调以及IT基础设施如服务器,并通过数据的分析和聚合,最大化数据中心的运营效率以保证数据中心的可用性和业务的连续性。

(一)可靠运维

IDC运营的第一要务是保证7×24×365不间断可靠运行,如果出现故障须即时处理,以减少事故历时、降低故障带来的损失和风险,因此IDC运营需要重点关注设备故障。DCIM可对故障期间的数据进行记录、整理、统计、分析,寻找故障发生的诱因和共性,探讨缩短故障历时的途径;通过利用DC IM对数据进行分析,可以帮助运维人员提前诊断哪些设备处于亚健康的状态,进而可预测故障、提醒运维人员提前排查故障,降低风险。

表3-1 关键设备平均无故障时间与故障率

如表3-1所示,DCIM可汇总、统计、分析关键设备如冷机、冷塔、水泵、开关、变压器、UPS等的平均维护时间、平均无故障时间和每月实际运行累计故障率。如果数据分析显示某一组电池的月故障率突然高于平均值,则有理由怀疑这组电池近期可能出现故障,提醒运维人员提前对这组电池进行维护和更换,从而避免故障的发生,减少宕机的可能。

图3-2 海恩法则

关于可靠性,图3-2是著名的海恩法则,即一次严重事故之前可能有1000起事故隐患、300起未遂先兆、29次轻微事故。DCIM的横向数据分析可以帮助运维人员在隐患阶段排除故障的可能。如制冷空调系统的环境温度监测,当温度超出限定值时,系统告警,但是等到系统告警往往为时过晚,局部热点极易导致宕机;然而电气系统的PDU电量监测可预警告空调的局部热点,例如某列机柜PDU电量持续徘徊在高位,则运维人员可以预判附近可能出现局部热点;通过提前加速周边空调的EC风机,避免局部热点的出现,减少宕机风险。

运维的可靠性常常需要多个子系统联合保障。例如暖通制冷监控系统(BMS)须准确感知电气系统中冷机的配电状况,并在冷机掉电或其他紧急工况时,平稳切换至应急冷源供冷,保障服务器的冷量持续供应;在应急冷源放冷完毕时,BMS须自动切换应急冷源至再次充冷。DCIM可横向整合电力监控、暖通制冷监控的数据,实现数据的互联互通,避免各子系统监控自成体系,执行子系统命令时影响到其他子系统的安全运行,从而影响整个IT环境的稳定可靠。

图3-3 服务器平均电量数据分析

DCIM通过对连续监测的IT电量数据进行汇总、分析和比较,发现某IDC大部分机柜服务器运行在5kW左右的平均值,而个别机柜服务器电量维持在2kW左右(如图3-3所示)。可想而知,这样的服务器对计算资源的贡献非常有限,极有可能是僵尸服务器。运维人员可据此优化服务器的配置及软件架构,或移除服务器另作他用。可见,DCIM数据分析可帮助IDC运维人员优化IT资源配置。

(二)绿色节能

IDC能耗巨大,绿色节能是IDC运营的重要课题。通过DCIM进行横向数据分析,可以帮助IDC运营优化,达到节能目的。例如,某IDC的设计IT负荷为5000kW,采用冷却塔串联板换的水侧节能,如图3-4,满载时湿球温度4℃开始自然冷却。鉴于服务器是分批上架,IDC也是分期部署,如果一期IT负载率低于某设定值如3000kW,则DCIM可建议运维人员设定湿球温度6℃或7℃开始自然冷却,从而延长自然冷却的时间,缩短电制冷的运行时间,达到节省制冷系统电耗、降低PUE、节能运行的目的。

IDC的规划、设计、建造都是按照IT满载做的,实际运行往往是变工况运行,通过DC IM进行综合数据分析,可根据运行动态数据分析结果改变设定值。如最初的空调送风温度设定为18℃,冷通道温度上限设定为22℃,运行一段时间后,系统监测到机房冷通道的温度普遍持续低于22℃,则可以提醒运维人员尝试提高送风温度设定值为20℃,甚至冷水机组的供水温度也可提高。冷冻水供水温度每提高1℃,冷机效率提升2~3%,自然冷却的运行时间也可相应延长,如此可实现节省制冷系统电耗、节能运行的目的。

(三)决策依据

DC IM通过对运维数据的动态收集、分析以及监测,为新建IDC的决策提供输入。

IDC管理三元素SPC中,S指空间、P指供电、C指冷却。DC IM收集到U位的总数据,已占用U位的数据,两者相减就可得到可用的U位空间;同样操作依次可以得到可用电力、可用冷量,详见图3-5。通过对SPC三个数据库的联合分析,运维人员可以确定上多少台服务器,在哪些U位空间进行摆放。由此可见DCIM可帮助IDC运营工作科学决策。

类似案例很多,如某企业某类业务的IDC,一期规划设计采用百分之百的满负荷进行基础设施的容量规划和平面设定。然而DC IM监控到的常年运行数据表明,此类业务平均运行在70%左右的负荷,峰值也不会超过80%。同样业务的下一个IDC规划中,就可以把IT的负载率设定为80%,则可以缩减基础设施的容量、节省基础设施初投资。可见,DCIM可帮助IDC优化配置,节约成本。

又如某企业某类业务在某一线城市采用双路市电加柴油发电机的冗余方案,但DC IM多年的运行数据表明市电从未断电,电网可靠性达到5个9,甚至更高,则在下一个IDC的规划中可考虑优化架构为一路市电加柴油发电机的方案。可见,DCIM可帮助IDC规划优化设计方案。

图3-4 冷却塔串联板换的水侧节能

图3-5 Space Power Cooling(SPC)管理

四、DCIM大数据分析的前景展望

大规模IDC存在多套监控管理子系统,如电力监控(EPMS)、暖通制冷监控(BMS)、消防与安防监控、ITSM等,每个子系统都有自己独立的数据采集、统计、分析和执行等装置,完成某项独立的功能;但是IDC的整体运营需要这些子系统的数据横向整合、纵向挖掘、综合分析;数据不进行分析,就只是数据,无法对运营产生价值;DC IM对各子系统的数据进行筛选、整合并加以关联、挖掘、分析,进而根据大数据分析的结果提出运维建议、优化运行能效、降低故障风险、提升IDC运营效率,为运维人员提供科学决策的依据。

此外,通过DC IM进行数据分析,可以实现其他更多的功能。如图4-1所示,可以实现成本管理、规划管理、工单管理、容量管理、可靠性管理、能效管理。如图4-2所示,可以关联故障与应急预案实现告警管理,可以关联资产与容量管理实现变更管理,可以汇总技术规范与运维手册实现知识库管理,可以供应商管理与二维码对应的方式实现供应商管理,可以从能效管理进一步提升为计费管理,可以把巡检的主动式运维流程化变成工单管理。

小结

运用DCIM进行大数据分析是提升IDC运营核心竞争力的有效手段,如图5-1所示,可以帮助IDC运营增能效、减成本、助运维、轻风险,是科学管理运营IDC的必杀技。IDC运营即将进入大数据分析的时代,DCIM是进行大数据挖掘与分析不可或缺的工具,亟需针对运维需求进行深度开发和有效运用。

图4-1 DCIM的大数据分析的多种可能

图4-2 DCIM的大数据分析帮助IDC运营的方式

图5-1 大数据分析的核心价值

作者单位:阿里巴巴集团技术保障部

猜你喜欢
运维数据中心服务器
关于间接蒸发冷机组在数据中心中应用的节能分析
浅析数据中心空调节能发展趋势
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
2018年全球服务器市场将保持温和增长
2017第十届中国数据中心大会榜单
电子政务甲方运维管理的全生命周期
用独立服务器的站长注意了
定位中高端 惠普8路服务器重装上阵