李明江(中国移动国际信息港建设中心,北京 102206)
DCIM系统在数据中心部署中存在的问题探讨
李明江
(中国移动国际信息港建设中心,北京 102206)
探讨了目前大型数据中心在部署DCIM过程中遇到的问题,结合运维管理的需求和运维经验提出对DCIM部署的一些建议。指出DCIM在国内数据中心行业的应用尚处于起步阶段,但随着数据中心运维管理人员对降低能耗和提高运营效率的关注度不断提高,必将推动DCIM在数据中心的发展。
数据中心;DCIM;运维管理;用户需求
李明江(1978-),男,工程师,从事数据中心基础设施运维管理、节能技术应用方面的工作。
数据中心基础设施管理(Data Center Infrastructure Management,DCIM)结合信息技术和设备管理,对数据中心关键设备进行集中监控、容量规划等集中管理。通过软件、硬件和传感器等,DCIM提供一个独立的管理平台,对数据中心IT设备和基础设施进行实时监控和管理。DCIM是数据中心运维管理方面的一个较新应用,随着近期国内数据中心建设的高速发展,DCIM理念在数据中心行业得到广泛认可。
本文结合DCIM在实际部署中遇到的问题,从运维管理角度探讨对DCIM的认识和了解,并提出一些解决问题的建议。
目前,国际主流DCIM供应商在国外数据中心行业取得了较好的业绩。近年来随着国内数据中心建设的高速增长,国外厂商纷纷进入国内数据中心市场,与国内厂商进行市场角逐。国内外DCIM厂商对DCIM的理解主要存在以下差异。
1.1 对DCIM概念的理解
国际主流厂商认为DCIM是横跨传统不间断电源(Uninterruptible Power Supply,UPS)、空调等关键基础架构管理及IT设施管理的综合管理平台,实现对数据中心的资产和资源管理及关键基础设施与IT设施运营的紧密结合。基础设施涵盖数据中心配电、制冷等关键基础设施及服务器等IT设施,并包括综合布线、空间资源等管理。
国内DCIM厂商通常认为基础设施是指电源和空调等关键基础设施,多不涉及IT设施的管理,因此其提供的DCIM产品功能也多不包括IT设施的管理。
1.2 功能定位
DCIM主要目的是通过统一平台实时收集资产信息、资源使用情况及各个组件的运行状态,对这些信息进行分类、聚合和分析,并加以应用,从而提升数据中心运营管理的效率和水平。DCIM的价值不仅在于设备动态维护,同时包括设备的静态资产管理、机房资源管理和设备连接管理,并涵盖系统影响分析及设备管理、变更规划管理和运营流程管理范畴。
目前,国内市场上的DCIM仍以传统动环监控功能(监控和报表)为主,在数据中心的资产管理和资源管理等方面,与国际成熟产品还存在较大的差距。
近年来,DCIM在国内数据中心行业的认可度和关注度得到稳步提升,但目前仍缺乏大型数据中心成功部署的案例,一些在中、小型数据中心取得良好业绩的厂商在实施大型数据中心DCIM时却遇到很多困难。
2.1 系统组网结构
DCIM产品的网络结构以三层居多,即数据采集层(对高低压配电设备、柴油发电机组、冷水机组、冷却塔、水泵、UPS、蓄电池、空调和智能电表等进行数据采集)、聚合层(包括变配电子系统、动环子系统、冷机群控子系统、楼控子系统等)、服务层(数据库、存储设备和呈现等)和显示层(用户界面、监控大屏)。在数据采集层,通常采用Modbus协议或RS-485总线通过轮巡的方式对总线上的所有末端智能设备进行数据采集,并将轮询结果按照标准协议上报给数据库。
对采集设备逐个轮巡需要一定的时间周期,在中、小型数据中心应用效果良好的DCIM产品,在大型数据中心部署时如仍按在中、小数据中心部署实施的网络架构进行设计,会由于系统规模的增大、轮巡方式造成系统反应迟钝等问题而变得非常突出,甚至严重影响监控的使用功能。因此,在部署大型DCIM系统时,应对网络架构及通信方式充分论证,并进行严格的测试。
因此,设计和部署大型数据中心的DCIM时需要充分评估系统的规模,特别是数据采集周期。DCIM的网络架构一旦构建完成,后期再做改动困难极大,不仅需付出数倍时间,造成资金的浪费,甚至可能严重损害产品声誉。
2.2 缺乏对用户需求的了解
DCIM开发人员多数并不具备数据中心的运维管理经验,对DCIM最终用户的实际需求缺乏深入的了解,往往造成所开发的功能与用户需求存在巨大差距,甚至完全脱节。一旦与需求脱节不仅影响项目如期交付,而且后期如要更改困难更大。
每个数据中心的管理模式、安全保障等级、承载业务类型和设备选型等都不相同,因此每个数据中心运维管理部门对DCIM功能的需求、使用习惯等差异很大,每个DCIM产品都应当是个性化平台。以蓄电池监控功能为例,大型数据中心蓄电池数量非常庞大,蓄电池性能的监控依赖于DCIM系统提供的数据,同时受限于每个数据中心供电系统架构、蓄电池后备时间和产品选型等因素,DCIM系统中针对蓄电池的告警阈值、放电终止电压、蓄电池采样周期等要求也不同。DCIM开发人员如果对此类个性化维护需求了解不明确,往往造成开发的功能与使用需求脱节,影响用户的满意度。
2.3 产品缺乏标准化、规范化
大型数据中心的基础设施规模庞大,设备种类、品牌、型号多样,且在建设变配电、制冷系统和楼宇自动控制等系统时,业主方往往会在采购硬件设备时采购相应的软件系统,例如冷机群控系统、变配电系统、楼控系统等子系统(供应商都是整个系统供应的)。由于行业规范对各子系统的通信协议标准制约不够,DCIM提供商需针对每个子系统专门开发接口,在DCIM部署过程中DCIM厂商也很难协调第三方子系统供应商按照统一标准提供数据接口,造成DCIM实际连接困难。DCIM的建设除实现对硬件设备直接进行数据采集外,还需对第三方软件子系统进行个性化集成。
数据中心基础设施的差异性造成各DCIM系统的个性化,这是DCIM迟迟无法实现标准化的原因之一。由于缺乏统一标准和规范,数据中心在部署DCIM时需要解决以下几方面问题。
(1)设备信息命名标准化:设备信息包括被监控设备的开关量、模拟量、告警名称等信息。需要对不同品牌、不同型号的同类设备和同类监控信息的命名进行规范和统一,以提高监控识别率。
(2)告警分级标准化:按照数据中心业务重要性,应对所有被监控设备的告警进行分级,以便监控人员及时发现问题。另外,蓄电池、环境温/湿度等监控信息还应实现多级告警。
(3)采样周期标准化:针对被监控设备的特性对采集周期进行分类,在系统建设初期应充分评估拟采用的网络架构和预期的采样周期和刷新频率,明确各类设备的采样周期,避免后期产生争议。例如,蓄电池在正常浮充状态下可适当延长采集周期,以显著降低传输数据量,提高系统响应速度;当蓄电池处于放电阶段时则触发短延时,确保放电过程准确记录。通过对设备分类和优化数据采集频率,可显著降低数据采集量和存储量。
(4)数据存储机制标准化:大型数据中心DCIM系统采集的数据量非常庞大,缺乏良好的数据存储机制不仅增加初期硬件投资,还会造成系统稳定性下降。通过优化存储机制,可减少入库数据量,对大型数据中心部署DCIM具有重要的意义。
(5)功能需求明确化:在DCIM部署前,与需求部门深入沟通数据容量管理、能耗管理和流程管理等功能需求,在部署中定期沟通开发情况,避免功能与需求脱节,以减少开发成本和压缩开发周期。
2.4 与ITIL理念的融合
将IT基础架构库(IT Infrastructure Library,ITIL)的流程化管理理念融合到数据中心基础设施的运维管理中受到了行业的认可,目前推出DCIM平台的流程化运维管理基本参考ITIL制定的。不同数据中心管理体系不同,造成流程需求的差异化,因此DCIM系统中的运维流程应具备灵活的配置和调整功能,以满足不同客户需求。
2.5 管理功能不完善
DCIM优势在于其管理功能,通过系统的容量管理、资产管理和空间管理等管理功能,帮助最终用户提高数据中心的运行效率。管理功能的实现需要很复杂的采集、统计和算法,因此DCIM作为数据中心行业的新技术、新应用,参考的成功案例较少。目前,多数产品在管理功能方面还处于概念化层面,能帮助客户提高数据中心运行效率的功能还较少。
从国内数据中心行业发展来看,金融、互联及第三方数据中心对DCIM的需求迫切性相对较高,金融行业的IT管理成熟度最高,且要求提供的服务等级最高;互联网和第三方数据中心发展速度快,对能源消耗及新技术关注度最高。传统电信运营商经过多年建设目前基本已建成较为成熟的动环监控系统,从传统动环监控改造到DCIM的成本压力大,需求驱动不足以及公司管理架构都影响了DCIM的推广和应用。随着目前三大运营商已启动的超大规模数据中心建设以及市场竞争压力的加大,运营管理人员正逐步提升对DCIM的关注。
随着数据中心行业的发展,从降低运营成本及社会责任的考量,数据中心运维管理人员对降低能耗和提高运营效率的关注度必将进一步提高,这些都将成为DCIM发展的驱动力。
本文结合实际工作经验,讨论了DCIM部署中注意的问题,并提出了相应的建议。虽然DCIM在国内数据中心行业的应用尚处于起步阶段,且面临着建设标准缺失、成功案例匮乏的困境,但数据中心行业建设的爆发性增长和强劲的需求必将推动DCIM在数据中心市场的蓬勃发展。
[1] 黄锴.数据中心基础设施管理DCIM综述[J].智能建筑与城市信息,2012(192):39-42.
[2] 宗镝.智能基础设施管理系统在数据中心中的应用功能[J].智能建筑与城市信息,2013(197):61-63.
[3] 连雄伟.数据中心基础设施能效管理系统关键模块设计与实现[D].北京:中国科学院大学,2014.
Discussion about Problem s of DCIM System in Data Center Deploym ent
LIMingjiang
(Construction Center of International Information Port,China Mobile,Beijing 102206,China)
The problems encountered in the construction of DCIM for large-scale data centerwas discussed and the suggestions on the dep loyment of DCIM were put forward,based on the demands of data center and experience of operation and maintenancemanagement.It is pointed out that the application of DCIM in the domestic data center is still in early stages.As the operation and maintenance managers continuously enhance the attentions of energy-consuming reduction and operational efficiency improvement,the development of DCIM will be surely pushed in the data center.
data center;DCIM;operation and maintenancemanagement;user demand
TU 244.5
B
1674-8417(2015)09-0018-03
2015 09 07