张祖刚, 贾 琨
(中国电子工程设计院有限公司,北京 100142)
随着物联网、大数据、云计算等技术的快速发展,以及国内各行业数字化转型工作的不断推进,数据中心发展迅猛,我国目前已成为全球数据中心业务增长最快的地区之一。 与此同时,随着数据中心建设规模的不断扩大,需要监测的基础设施也变得越来越复杂和庞大,对数据中心运维管理水平的要求也就越高。 数据中心基础设施一旦出现故障就会立刻影响IT 系统的运行,对数据传输、存储的可靠性、安全性构成威胁[1]。 如何更好地做好数据中心基础设施的运维管理问题变得尤为突出,也使得行业对数据中心智能运维管理平台的需求更加迫切。
数据中心是为集中放置的电子信息设备提供运行环境的建筑场所,可以是一栋或几栋建筑物,也可以是一栋建筑物的一部分,包括主机房、辅助区、支持区和行政管理区等[2]。
如果将大型数据中心看作是一个综合型园区,那这样规模的数据中心仅应用传统的动环监控系统将会存在以下问题。 (1)设计、建设、应用同质化,难以满足个性化需求。 (2)建筑物与建筑物之间,建筑物内各子系统相对独立,存在“信息孤岛”的问题,智能化、智慧化水平低。 (3)数据采集孤立,难以实现系统联动。 (4)应用可扩展性差,扩展成本较高。 (5)难以实现高效、便捷的集中式管理,运维成本高。 (6)重要设备运行状态不易实时监控,事故预警难以实现。
物联网技术是指通过各种信息传感器件,有线或无线网络,按约定协议,把各种末端设施设备与网络连接,以实现信息交换和通信的一种网络技术。 目前已广泛应用于工业、农业、医疗等行业。
将物联网技术应用于数据中心智能运维管理平台,可以有效地解决上述问题,主要表现在如下几方面:(1)可实现数据中心智能运维管理平台各子系统互联互通,使其具有更高的开放性和可靠性,打破传统智能化系统的“信息孤岛”问题,系统间可以方便实现联动控制。 (2)通过多协议物联网网关,实现各末端设备不同通讯协议的信息采集,使平台数据采集更具有兼容性和广泛性,满足园区智能化终端设备的个性化设计需求。 (3)作为统一开放的物联网平台,可以实现数据中心海量数据的采集、存储、分析、挖掘,通过专家引擎识别运维过程中的风险点,做到故障预测预警,并形成专家诊断规则库,实现数据的统一、共享,为数据中心智能运维管理平台及应用终端进行数据建模和数据挖掘提供数据支撑。 (4)可进行数据中心基础设施设备的运行仿真和工作状态模拟,实现数据中心智能运维管理平台及应用终端的演示和演练。 平台软件架构如图1 所示。
图1 数据中心智能运维管理平台软件架构
可以看到,该平台分为采集层、接入层、平台层、应用层、展示层。
(1)采集层:数据采集的重要部分,也是物联网技术应用最多的地方。 从器件角度主要包括各类感应器件和传感网络,涉及到射频、传感、无线网络、现场总线等核心关键技术,包含动环系统(包括动力设备、配电设备、蓄电池、机房环境、机柜环境)、安防系统(包括视频设备、门禁设备、电子监控)、楼控系统(包括冷源设备、通风设备、空调设备)、消防系统(包括火灾报警、广播系统)及其他各类子系统(包括IT 设施、微模块、资产信息、智能照明、其他设备等)。
(2)接入层:通过各类网络通讯技术和设备,将采集层各子系统和设备数据进行接入,涉及Internet网络、有线网络、无线网络、数据接入网关、IoT 网关等,支持SNMP、Modbus、OPC、BAC net、MQTT 等各种协议。
(3)平台层:数据处理核心层级,包含数据的处理、分析、诊断能力的数据引擎;包括联动控制、权限管理、配置管理、服务接口等一系列的公共服务组件;包括模型库、知识库、算法库、数据库的专家系统引擎;还涉及无损实时数据压缩传输、实时工作流引擎支持的业务调度等关键技术。
(4)应用层:业务构建核心层级,包括设施监控、能效、容量、资产、连接、事件、变更、人员、智能巡检、智慧运维等业务管理模块或服务。
(5)展示层:面向用户的最终层级,以可视化大屏、移动App、个人工作台、报表展示等多样化的交互方式,为用户提供接入与访问。
一个典型大型数据中心园区的智能运维管理平台系统结构如图2 所示。
图2 数据中心智能运维管理平台系统结构
系统接入层既实现纵向结构的接入,同时在横向上实现数据中心各子系统的互联互通,并通过园区通讯网络向数据中心智能运维管理平台提供数据源。 利用采集的实时数据,向总控中心、运维部门、物业管理部门等提供智能化应用服务,并依靠平台基于物联网、大数据、人工智能等技术实现的高级智慧化应用服务,为数据中心园区提供统一数字化智慧化运维管理服务。
在数据中心智能运维管理平台软件架构中,应用层是应用服务业务构建的核心层级,同时也最能体现管理平台智能化、智慧化的特点,其核心功能模块如图3 所示[3]。
图3 功能框架
(1)设施监控:针对数据中心基础设施实现图形化显示、控制、分析、告警管理,实时监控显示设备的运行状态及变化趋势;设备实时运行参数显示及告警管理,包括告警的显示、处理和分析。 智能化应用火灾报警联动如图4 所示。
图4 火灾报警联动
(2)能效管理:主要针对水、电、气等能源消耗进行统计,以及通过采集、显示、分析、诊断、维护、控制等管理技术进行能效的持续优化,形成具有全面、系统、安全的能效综合职能管理功能,以达到能源消耗的节约与改善。 关键功能模块包括能源组成、能源利用率、节能诊断、用能预警预测等。
(3)容量管理:对空间、电力、制冷、网络等基础设施的容量进行统计、分析、部署、展示,建立相关模型,优化配置资源,提高容量利用率。 关键功能模块包括容量监视、容量优化、容量分析等。
(4)资产管理:提供对数据中心资产设施的入库、出库、变更、盘点等的全生命周期管理,主要功能模块包括资产台账及检索、资产可视化、资产统计分析等。
(5)连接管理:呈现数据中心设备之间的连接关系,为数据中心运维业务提供连接性关系的数据支撑。 关键功能模块包括连接总览、配置信息、设备操作、统计报表等。
(6)事件管理:主要包括事件识别和创建、事件处理与分析、事件升级、事件关闭等。
(7)变更管理:主要针对运维过程中对数据中心基础设施的增补、移除、修改等进行管理。
(8)人员管理:对数据中心工作人员进行全面管理,保障数据中心安全、高效、稳定运行,减少人为损失。
(9)智能巡检:数据中心机器人智能巡检是智能巡检最为典型的应用之一。
(10)智慧运维:针对相关基础设施进行日常运行、检修和维护的管理工作,包含设备维保信息查询、维保登记、维保预警、维保提醒、维保数据统计分析等功能。
针对当前行业对数据中心运维管理水平要求越来越高的实际状况,提出并分析了基于物联网技术的数据中心智能运维管理平台,该平台包括设施监控、能效、容量、资产、连接、事件、变更、人员、智能巡检、智慧运维等核心功能模块,满足了行业对数据中心智慧运维的迫切需求,将基础设施多个子系统集成在统一平台,实现各系统数据充分共享,运用物联网、大数据处理、数据挖掘、人工智能等技术,管理、分析、预警数据中心基础设施面对的各种复杂多样的运维问题,实现了数据中心安全、可靠、节能运行。