铁路数据中心基础设施运维管理应用实践

2021-07-27 01:18
铁路通信信号工程技术 2021年7期
关键词:运维数据中心管理系统

李 斌

(佳讯飞鸿(北京)智能科技研究院有限公司,北京 100044)

1 铁路数据中心基础设施运维管理现状

近10年来铁路行业高速发展,截止到2019年年底,国内铁路运营里程达13.9万 km以上,其中高铁3.5万 km。伴随着铁路的高速发展,铁路行业的信息基础设施— 数据中心在中国国家铁路集团有限公司(简称国铁集团)层面和18个铁路局层面,稳健有序的推进和实施,为铁路行业智能化演进提供坚实的基础支撑。

在数据中心建设和运维管理过程中,面临着诸多的困难和挑战:IT基础设施复杂度越来越高,厂商多,扩展难,不同厂商产品升级周期不一,补丁过程复杂;数据中心多厂商、多产品集成方案成本高,集成、测试、开通、运营、维护耗时耗力;异构环境可用性管理复杂,在通常的虚拟环境中,整体可用性难以保证,应用可用性更难管理;异构的数据库、Java层、消息层和Web层很难整体调优,整体性能难以保证;异构环境增加数据中心运维管理复杂度,部分职责不好界定,问题诊断及解决问题过程复杂;铁路上层业务要求IT基础设施可靠和透明,对于服务中断要求和部分铁路业务的性能需求苛刻;运维管理过程中需要多领域专业人才,人才缺口大,人才储备不足。

2 铁路数据中心基础设施运维管理系统整体架构

2.1 DCIOM系统概述

DCIOM是近几年在数据中心运营维护管理领域兴起的一个热点。

Gartner对数据中心基础设施管理(DCIM)的定义是:通过工具监控、管理和控制数据中心所有 IT 相关设备(如服务器、存储和交换机)和基础设施相关设备(如 PDU 和精密空调)的使用情况以及能耗水平。451 Group 对 DCIM 的定义是:数据中心基础设施系统通过持续收集和管理数据中心的资产、资源以及各种设备的运行状态,然后通过分析、整合提炼成有用的数据,从而帮助数据中心管理者管理数据中心并优化性能。

这里提出DCIOM,在DCIM的基础上,增加对于数据中心的运营功能,试图从第三方的角度去评估数据中心的运营情况。综上所见,采用统一的平台管理场地基础设施(如 UPS、 空调)以及IT 基础架构(如服务器),并通过数据的分析和聚合,最大化数据中心的运营效率,提高可靠性,是DCIOM 系统产生的根源及目的。

2.2 铁路DCIOM系统整体架构

铁路DCIOM系统涵盖较多被监控的对象,覆盖面较广,功能复杂,系统设计遵循模块式开发、部署,系统从底层到最上层的图形用户接口共分为4层,每一层实现不同的功能,系统整体的架构如图1所示。

图1 铁路数据中心基础设施运维管理系统整体架构Fig.1 Overall architecture of operation and maintenance management system for railway data center infrastructure

3 铁路DCIOM系统的构建

铁路DCIOM 系统是一整套包含硬件设施、前端传感器和定制化软件的运维管理平台与工具。DCIOM 技术路径主要体现为铁路数据中心基础设施运维管理作为一个专业的技术应用平台与工具,充分应用了计算机技术、通信技术、网络技术、软件技术、数据库技术、自动控制技术、传感技术、可靠性技术以及系统设计开发技术、系统集成技术、项目管理技术等。对于铁路DCIOM 系统,差异性主要体现在产品功能的聚集度上所涉及的检测对象种类、可管理的对象与范围、软件平台的功能、数据标准与通讯协议、第三方的衔接和可扩展性等。

3.1 采用大数据技术构建 DCIOM

铁路数据中心是铁路大数据处理和价值挖掘的的最大物理载体,随着其规模和数量的增加,为提升数据中心管理成熟度,智能化设备和实时传感器大量引入铁路数据中心,使其成为路内最大规模的物联网应用之一,处理海量运维数据能力是实现DCIOM系统实时可见性的基础。

DCIOM 系统作为铁路数据中心日常运营维护管理的平台,需要设计为满足数据中心的7×24 h的运行条件,为数据中心正常运营提供连续性的保证。其中对于大型铁路局数据中心(机架数量为3千到 1 万个)及超大型国铁集团数据中心(机架数量为1万个以上)而言,DCIOM 系统的架构设计,尤其是存储架构设计尤为重要。

从数据量来看,国铁集团数据中心每次进行数据采集时需要读取并存储的基础设施的测点数据基本在百万级别,并且每日数据处理量将高达上亿级规模。从数据复杂性来看,除了传统关系数据库管理系统能够存储的结构化数据以外,还需要处理并存储例如设备图片、维护文档、操作手册、维保合同等非结构化数据,以及海量实时控制和监测检测数据。

DCIOM系统管理的数据资源中主要分为两类。一类是存储数据中心的资源信息及资源与资源之间关系的数据,即设备属性、配置关系等;另一类是所有资源的监控及运维数据信息,如一台 UPS 的功率数据、 一台空调的维护工单等。第一类数据通常不会频繁更新、变动,这些静态数据称之为“冷数据”。第二类数据则需要频繁的进行检索和查询、以及更新处理,涉及到大量的查询工作。将这些动态的数据称之为“热数据”。因此,DCOIM 系统的数据库设计需要采用大数据技术来进行构建。

3.2 复杂事件处理

复杂事件处理(Complex Event Process,CEP)是处理实时数据流的关键技术,其特点是在内存中通过预定义规则处理来自多种异构数据源的实时数据流,并将生成结果推送给事件订阅者。复杂事件处理流程如图2所示。

图2 复杂事件处理流程Fig.2 Complex event processing flowchart

可用成熟功能的 CEP引擎实现以下功能:可接入多种异构数据源,通过适配器转换为统一数据格式;在内存中实时处理数据流,相比起传统事件引擎首先将数据存储至数据库后再根据业务规则加载处理的轮询方式有更好的性能;支持持续查询语言的规则数据库,其结构化查询语言类似 SQL,提供映射、过滤 、关联、聚合、模式匹配、延时和时间窗口等反式(Reactive)处理;支持订阅/发布机制,主动推送处理结果给事件订阅者。

3.3 分布式处理和监控

DCIOM系统所管理的对象具有数量众多、多种通信协议、不同连接方式和分布地点比较分散的特点。 分布式数据处理和监控比传统集中式监控模式具有数据响应时间更短、占用带宽更少、故障影响范围更小和支持系统规模更大的优势。

分布式处理监控管理应具有以下特点。

本地数据采集和协议转换:采集性能高和占用带宽少;复杂事件处理:过滤重复数据和聚合关联事件,快速上报关键事件;本地告警联动:联动速度更快,减少网络中断影响更安全可靠;本地数据存储:数据可靠性更高,减少网络依赖;热备监控单元:可部署热备监控单元,减少单一节点故障;多种传输模式:监控单元和中心之间可选取多种传输方式,减少网络依赖;多种采集模式:可支持任意总线和网络采集。

分布式处理减少中心系统的数据处理工作量,系统规模扩大只需要水平扩展增加监控单元,是支撑大规模 DCIOM系统实现数据实时监控的关键技术。

3.4 DCIOM系统数据接口

DCIOM是数据中心管理系统的重要组成部分,DCIOM系统必须提供数据接口与其他管理系统进行互联和集成。

3.4.1 智能设备协议

数据中心的设备种类较多,现实上每种设备协议基本都不相同,在数据中心行业标准制定前无法强制统一智能设备协议,因此DCIOM系统需要从上往下兼容所有智能设备协议。DCIOM系统应支持组件化设计, 每一种设备协议开发成一个驱动,支持动态的加载和卸载。

智能设备协议通常包括设备自动发现、数据交互、设备配置和安全验证等内容。如:设备自动发现指设备上线后自动发出注册命令或响应管理系统设备搜寻命令,能够使管理系统识别和把设备自动纳入管理的过程;数据交互通常包括实时信号、事件告警和控制命令;设备配置内容应包含设备唯一标识、设备类型、型号、厂家、协议和设备属性信息;安全验证包括对通信双方身份验证、数据完整性、可靠传输和服务质量的定义。

3.4.2 子系统接入协议

DCIOM系统作为数据中心基础设施运维管理的统一平台,应支持各种楼宇管理系统、动环监控系统、 安防系统和资产管理系统的接入。同样由于数据中心行业标准缺失,现在并无统一的子系统接口规范,但是对其共性归纳子系统接入协议应包含如下要求。

开放协议:即各子系统必须开放数据通信接口,提供规范的协议文档。

系统接口:应明确系统数据接口和设备协议的区别,通常系统由多个子设备组成,因此系统接口应支持子设备配置和数据通信协议,应避免采用SNMP或Modbus这种设备协议作为系统接口。

Web 服务:传统系统通常提供基于TCP的自定义接口,其缺点是难以理解和缺乏服务描述;随着 Web 技术的成熟,在运维领域 Web 服务API接口逐渐成为标准。

配置同步:子系统下接设备类型和数量通常不固定,因此必然要求子系统提供配置服务接口,当子系统配置变化时及时同步至DCIOM系统。

订阅发布:子系统应提供订阅/发布机制,避免数据轮询主动推送告警信息。

数据安全:所有子系统都应提供数据加密传输选项,并能根据权限定义提供有限访问,保证数据可靠传输。

3.4.3 API集成功能

DCIOM系统需要提供API与上层IT服务管理系统进行集成,包括资产配置、资产位置、连接关系、 容量管理、能效管理、实时监控、流程管理等服务。

资产配置:提供资产唯一标识、资产类型、型号、厂商、购买时间、使用年限、资产位置信息等一系列资产属性信息。可批量导入导出,并与CMDB 配置数据库同步;RFID自动资产管理系统可提供实时资产变更事件;支持变更管理和工作流派单闭环管理,可获取资产出入库记录和服务器上下架记录。

资产位置信息:提供资产位置信息。

连接关系:提供网络连接关系和电力连接关系。网络连接支持服务器网口到配线架端口到交换机端口的连接信息;电力连接关系支持上下游设备依赖和端口连接信息。

容量管理:提供数据中心/机房/楼层/区域/机柜等级别的实时和历史容量信息,包括可用容量和已用容量信息,支持空间容量、供电容量、制冷容量和承重容量类型。

能效管理:提供数据中心/机房/楼层/区域/机柜等级别的实时和历史 PUE 信息。

实时监控:提供实时数据获取,事件告警推送和控制命令交互接口。

4 铁路行业DCIOM发展展望

随着铁路行业数据中心规模和数量的快速增长,数据中心的高效运维逐渐成为铁路行业数据中心领域研究和落地的关注热点。DCIOM系统等数据中心智能化管理平台正加速在铁路行业数据中心部署应用,智能运维机器人或将替代大量传统人工巡检,逐步形成符合铁路应用实际的“智能化运维管理平台+智能机器人+专业工程师”三位一体运维体系。

猜你喜欢
运维数据中心管理系统
基于大数据分析的智慧高速运营管理系统
基于大数据分析的智慧高速运营管理系统
基于James的院内邮件管理系统的实现
关于间接蒸发冷机组在数据中心中应用的节能分析
浅析数据中心空调节能发展趋势
在线评审管理系统的建设与实践
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
2017第十届中国数据中心大会榜单
电子政务甲方运维管理的全生命周期