DCIM与数据中心基础设施管理

2016-07-20 05:37何新年安真叶雷霖华为技术有限公司深圳589深圳市迪威视讯股份有限公司深圳58000
电信工程技术与标准化 2016年4期
关键词:数据中心

何新年,安真,叶雷霖( 华为技术有限公司,深圳 589; 深圳市迪威视讯股份有限公司,深圳 58000)



DCIM与数据中心基础设施管理

何新年1,安真1,叶雷霖2
(1 华为技术有限公司,深圳 518129;2 深圳市迪威视讯股份有限公司,深圳 518000)

摘 要本文阐述了数据中心基础设施管理中存在的问题,DCIM的发展及其对基础设施管理的价值,DCIM在基础设施管理中的具体应用;指出DCIM关注数据的综合整理、关联、挖掘与分析,并根据分析的结果优化管理,是数据中心运营管理的发展方向。

关键词数据中心;基础设施管理;场地基础设施;IT基础设施;制冷监控

数据中心是一整套复杂的设施。一个现代化的数据中心可分为4个层级,如图1所示。L4层是应用层,包括各种信息服务、如私有云、公有云等;L3层是操作系统层,主要由各种软件、数据库等操作系统构成;L2层是信息设备硬件层,包括数据处理、数据传输和网络通信等多种IT设备;L1层则是场地基础设施层,囊括了支持IT运转环境的各种场地设施。

IT基础设施即L2层相关设施与场地基础设施即L1层相关设施统称为数据中心基础设施,这些基础设施涉及的产品数目众多,种类繁杂,需要科学地管理和运维。

图1 数据中心的分层架构

1 基础设施管理存在的问题

在我国,大规模数据中心的场地基础设施往往存在多套监控管理系统,如电力监控(EPMS)、暖通制冷监控(BMS)、消防与安防监控、动环系统等。这些监控管理系统往往并行存在,每个系统都有自己独立的数据采集、计算和执行等装置,独立完成各自的功能。各系统之间,有的存在一些简单的通信和联系,有的则没有任何关联。

根据CA和IDC联合推出的报告,84%的数据中心存在制冷、供电、空间和承重方面的问题,遭受的影响为延迟应用上线、OPEX增加甚至是中断服务。为有效提高数据中心的可靠性,最大化投资效率并节省运营费用,需要对基础设施进行统筹管理,但目前数据中心基础设施管理普遍存在如下核心制约因素。

1.1 IT和Facility分开管理

数据中心的IT基础设施管理相对比较成熟,很多企业都拥有具有自身管理特色的ITSM管理工具,它相对独立,也有一定的标准可遵循。但其管理内容几乎不与数据中心的场地设施管理发生联系。

根据IDC的报告,58%的数据中心将IT设备和Facility设备的管理分成了不同的部门,如图2所示,这种现象非常普遍。这种职能划分虽然在一定程度上有利于人员管理和权责划分并保证专业性,但是增加了部门之间的沟通成本,降低了数据中心运维的效率,甚至提高了数据中心发生事故的风险。比如业务部门对需求的预测失误导致了基础设施的过度规划和投资;Facility部门进行重大维护检修时没有及时知会到IT部门等。

图2 IT和Facility分开管理

1.2 使用离散的管理工具

数据中心是一个多专业的综合系统,各个专业和岗位的维护人员会按照自己的习惯选用数据中心管理工具,比如采用Excel软件进行资产和配置关系的管理、利用Visio软件建立简单的可视化模型、利用动环系统进行设备的数据采集和警告、使用系统自带或厂商赠送的IT管理工具,使用离散的管理工具带来了多方面的问题。

首先维护多个离散的管理工具提高了管理和拥有成本,造成无法采用统一的界面获得所需要的信息;其次不同系统之间的数据难以关联和共享,在制作报表和业务预测时尤其困难;最后需要花费大量时间去更新数据、保持数据同步,甚至新老数据发生冲突时找不到原因,数据维护非常痛苦。因此,采用统一的管理工具,对数据定义、接口定义和数据库管理进行统一定义,在基础设施管理中尤为迫切和重要。

1.3 L2和L1层匹配困难

为了满足业务可持续发展的要求、降低TCO、提高业务灵活性,新一代数据中心在IT架构设计上更加的弹性化,采用了更多如虚拟化、模块化等技术,使得供电和制冷等系统和服务器、存储、网络等IT基础设施之间的匹配更加困难,如图3所示。

图3 虚拟化

传统机柜部署的服务器数量通常不会太多,功率密度不会太高,用电负荷也不会波动太大,数据中心建设完成后,UPS的容量以及空调的制冷量很难再做出改变和调整。随着虚拟化等技术的应用和推广,负载可以在服务器之间实现动态的迁移,应用访问也存在爆发性的特点,云计算的数据中心IT设备的功耗波动较大且比较频繁,大量应用的刀片服务器使得单机柜的功率密度已经突破10kW,如果制冷和供电不能及时跟上IT的需求变化,在设计和维护上处理不当,就很容易造成局部热点,甚至导致服务器宕机。

1.4 场地设施监控管理系统缺乏互联互通

数据中心的电气、制冷等关键设施都有自己专用的监控系统,由不同的专业厂商负责实施,各自为政,互不干涉,因此监控系统往往各自独立,无法实现互联互通和数据共享。在数据中心运维管理上,这些系统往往牵一发而动全身,盲目操作,可能会造成意向不到的故障和混乱。数据中心场地基础设施的控制管理,迫切需要各个系统步调一致,协同作战,共同提高运营管理水平。

2 数据中心基础设施管理(DCIM)的发展

针对基础设施管理中存在的问题,数据中心需要统一的平台能够同时管理到IT基础设施和场地基础设施,实时监控物理设备的容量、功耗、空间和环境等信息,让多项专业管理功能互相匹配、互相协调、同步发展;同时也需要建立L1层和L2层的联系,使得数据中心运营变得更有效、更协调、更可靠性,确保信息业务连续可靠,管理成本经济合理。

针对数据中心基础设施管理的需求,数据中心基础设施管理(DCIM)理念开始出现,具体框架结构如图4所示。

图4 框架结构

不同机构对DCIM有不同定义,目前得到普遍认可的如下。

Gartner对DCIM的定义:DCIM工具可以监控、测量、管理和控制数据中心所有IT相关设备(如服务器、存储和交换机)和基础设施相关设备(如PDU和精密空调)的使用情况及能耗水平。

451 Group对DCIM的定义:DCIM系统收集和管理数据中心的资产、资源使用以及运行状态的信息,然后分发、整合、分析、使用以帮助数据中心管理者满足业务和服务导向的目标,优化数据中心运营。

尽管不同机构对DCIM有不同的定义,但是大家普遍认为:DCIM的价值主要表现为对各个场地基础设施监控子系统(EPMS、BMS、消防与安防监控系统等)采集到的数据,加以关联、整合与分析,并做数据展示,提供从规划、调优、预测和变更等多个维度的综合数据支撑,为决策与运维奠定数据基础,从而实现数据中心基础设施的科学管理。打通场地基础设施和IT基础设施的组织和信息断层,并通过数据的分析和聚合,最大化数据中心的运营效率以保证数据中心的可用性和业务的连续性。

3 数据中心基础设施管理的价值

数据中心基础设施管理虽然出现时间不长,业内没有统一成熟的模式,也没有对其管理的内容和方法达成一致,但其对数据中心基础设施管理的价值已日益显现。

3.1 帮助容量管理

DCIM能够对数据中心的电量、制冷、空间、承重等容量进行追踪、评估和记录,并对供电和网络等连接关系进行管理,并可对数据中心进行可视化建模,这种实时的精细化管理功能使得用户摆脱了过去靠手摸、眼看等粗放的判断方式。举例来说,数据中心的每1U位都是宝贵的资源,通过DCIM实时了解每个机架和整个数据中心资源消耗情况,从而提高资产的利用率,延长数据中心的使用年限,就能优化全生命周期的TCO,相应提高投资回报率。

3.2 筛选“僵尸服务器”

通过对服务器有功功率和CPU占用等信息的采集,可以定位数据中心空载或低负载的服务器,从而对这部分服务器资源进行负载整合或者下架,以提高设备利用率,降低数据中心功耗。通过结合IT设备的生命周期管理和服务器的能耗数据,可以提前做出预算和计划,淘汰一些老旧的、计算能力弱却又能耗较高的服务器,进一步节能增效。

3.3 为节能提供决策依据

数据中心电费的支出在运维费用中占用了相当大的比例,提高能源利用率已经成为数据中心行业的核心竞争力。通过DCIM管理工具,不但能够监控数据中心的PUE等关键能耗指标,能够实时查看IT设备和基础设施设备的能耗,还可以让场地基础设施与IT设备实现融合和匹配,让制冷和供电随着IT设备的需求变化而调整运行状态,真正做到按需而动,实现最佳的能源利用率。

数据中心的电力监控、制冷自控等系统记录了大量的基础设施的运维数据,但这些数据往往缺乏分析和管理。DCIM可以对这些数据进行分析和处理,并给运维提出更合理的运行方式和运行参数建议,甚至可以对部分故障进行预判断,从而让运维变得更主动、更有效,大大提高数据中心的可靠性和运营效率。同样,在一些应用混合能源供给的数据中心,DCIM还能够对水使用效率、碳使用效率或天然气使用效率等进行有效监控和数据分析。

3.4 协调流程管理

人员和流程也是数据中心运维过程中需要考虑的重要因素之一。UPTIME的调查显示,数据中心的安全事故中,有70%属于人为因素。DCIM可成为数据中心变更和流程管理的平台。在实施数据中心变更时,可在DCIM工具中对变更中涉及到的每一步人员和流程进行管理和审批,比如在上架服务器时,DCIM可利用采集到的数据对供电、制冷、空间、网络、承重等资源进行每一步的验证和审批,并在实施前在系统上进行模拟演练,甚至可与API、上层的业务管理平台或ITSM等工具的流程管理相结合,从而提高变更的可靠性,减少实施错误的概率。

3.5 优化应急预案,指导应急处理

数据中心可用性的保障,一方面依靠优秀的系统架构和高效的运维,尽可能地防患于未然,另一方面还要通过有效的应急演练和完善的灾难恢复流程,减少事故发生频率和缩短事故历时。完善的DCIM工具不但可以帮助数据中心进行日常运维管理,还可以帮助管理者进行特殊事件管理,比如通过数据分析和整合,进行故障和报警判断,完善灾难响应和恢复计划,指导应急处理,不断提升管理水平。

4 DCIM的应用

中大型数据中心拥有的制冷监控系统(BMS)通过软硬件和执行机构可以完成以下功能:根据负荷情况选择设备运行;根据气象参数选择冷源的节能运行模式;根据故障场景自动告警并执行预先设定的程序(选择相应的设备状态、阀门状态等);监测环境温湿度、漏水、新风设备等。这种情况下下,增加DCIM系统的好处是什么呢?DCIM和现有的基础设施监控系统到底有什么区别呢?让我们看看下面几个场景。

(1)BMS可根据内部、室外气象条件和设备运行情况,严格控制服务器的空间环境。系统可根据服务器对环境的要求,监视服务器的进风温度、相对湿度,并以服务器的进风温度控制精密空调的水阀开度,以送回风温差、地板下静压或者其它信号输入为依据控制精密空调EC风机的转速。当进风温度、相对湿度数值异常的,管理系统告警。DCIM则可以对运行参数进行统计分析,判断BMS的控制阈值是否合理,并依据数据分析的结果,导出调整策略,达到优化空调运行的目的。比如,BMS最初的空调送风温度设定值为18℃,运行一段时间后,机房冷通道的温度普遍低于20℃,则可以尝试提高送风温度设定值为20℃,甚至冷水机组的出水温度也可尝试提高,从而提升冷机能效、延长自然冷却的运行时间,达到节能运行的目的。

(2)BMS可以对制冷系统进行台数控制。加机时,BMS按照预设的顺序启动相应的制冷设备,减机时,BMS按照预设的顺序关闭相应的制冷设备。加减机的阀值由软件预先设定。DCIM则可以根据每次加减机的时机对数据进行分析,对照实际运行的冷机参数,判断加减机的阀值是否合理,是否避开了冷机的低效区,同时提出调整策略。BMS调整后,还可以分析比对调整前后的运行数据,再次判断调整的必要性和正确性。当然,这些对比分析必须与电力监控系统的数据相关联,比对调整前后用电量数据,才能得出正确结论。冷机是数据中心的能耗大户,通过对冷机的运行优化,一定可以为节能做出贡献。

(3)BMS可以针对故障组件告警,并选取备用机组投入运行。如当冷水机组故障时,管理系统应能自动启动备用冷机;当精密空调故障时,管理系统应能自动启动备用精密空调;当控制器故障时,管理系统应能自动切换至备用控制器。DCIM则从故障设备的记录数据,寻找故障发生的诱因和共性,探讨缩短故障历时的途径,总结规律,甚至可以对某些故障做出预判断,从而提前维修或更替可能故障的组件。力争减少小故障,杜绝大事故。

通过DCIM上面几个场景的分析,我们可以发现要做到基础设施的科学管理,仅仅依靠几个独立的监控系统是远远不够的,各监控系统采集到的数据也是零散的,需要对采集到的数据进行整合管理,现有数据还有巨大的挖掘空间。DCIM一方面读取监控数据,另一方面对数据进行关联比对、分析整理,并以此为依据对运营管理提出优化策略,帮助数据中心精简运维人员、减少事故发生、缩短事故历时、优化运维模式、降低运维成本、提升运维效率、节约能源消耗。

5 小结

在国内数据中心建设如火如荼,各种资源都在进入数据中心市场的大背景下,建设后期的运营服务已经越来越引起各方的重视,数据中心管理工具也越来越引起运营商的重视。DCIM代表了基础设施全面综合管理的一种方式和方法,可以帮助数据中心的管理者和运维人员不断提升数据中心基础设施的管理水平和运营效率。

参考文献

[1] FD Silva,JE Pultz,A Adams. Market Trends: Total Addressable DCIM Market Will Reach $1.7 Billion by 2016[R]. Gartner, 2012.

[2] IDC marketScape: Worldwide Datacenter Infrastructure Management 2013 Vendor Analysis[R]. IDC, 2013.

DCIM and datacenter infrastructure management

HE Xin-nian1, AN Zhen1, YE Lei-lin2
(1 Huawei Technologies Co., Ltd., Shenzhen 518129, China; 2 Shenzhen Diwei Communication Co., Ltd., Shenzhen 518000, China)

AbstractThis paper generally describes the problems of the operation and management of infrastructure of DC, the development of DCIM, the value of DCIM for Infrastructure of DC and the detailed use of DCIM. It points that DCIM attaches great emphasis on integration, mining and comprehensive analysis of data, then optimizes infrastructure management. DCIM is an effective tool for infrastructure management of datacenters in the future. Keywords datacenter; DCIM; site facility infrastructure; IT infrastructure; BMS

中图分类号TN915

文献标识码A

文章编号1008-5599(2016)04-0046-05

收稿日期:2016-02-29

猜你喜欢
数据中心
酒泉云计算大数据中心
陇东能源大数据中心
浅谈绿色数据中心的建筑设计
浅析数据中心空调节能发展趋势
数据中心ECC设计方案研究
关于建立“格萨尔文献数据中心”的初步构想
大唐电信数据中心产品解决方案
青海省交通运输行业数据中心节能探索
10kV油机在大型数据中心的并机控制与切换方案探讨
浅谈云计算数据中心在沪宁高速公路中的应用