数据中心基础设施管理系统的研究与设计

2018-09-12 07:56李兢
电信工程技术与标准化 2018年9期
关键词:子系统数据中心运维

李兢

(广西电子政务外网管理中心,南宁 530000)

1 前言

广西电子政务外网云计算中心位于广西南宁市,面积为25 000 m2,建设级别为A级,机架数为2 800个。该项目是广西政府系统电子政务“十二五”规划重点项目,项目采用云计算、大数据等新一代信息技术,建设广西统一的政务云计算中心。目标是要建成全国一流的综合性云计算中心,为广西乃至西南中南地区的电子政务建设应用及信息化建设提供国内一流的云计算技术支撑服务。通过项目建设切实推动广西壮族自治区实现电子政务集约化节约化建设与应用,提高投资效益和质量,全面提升各级政府公共服务水平和社会管理能力。

数据中心基础设施作为承载信息系统运行的物理环境,其稳定性、可靠性、安全性决定了IT业务的持续性。如何做好运维工作,实时掌控基础设施运行情况,及时发现隐患、故障,降低运维管理成本,控制数据中心能耗,提高基础设施利用率,掌握基础设施容量情况,提升运营水平和服务成熟度,成为未来工作重点。

针对这些情况,需建立数据中心基础设施管理系统(DCIM)。系统要能全面管理基础设施、智能辅助分析决策、高效有序运维团队,保障基础设施可用性,主动消除故障隐患风险,缩短故障修复时间,降低能源消耗和运维成本,提高基础设施利用率,加强流程化管理服务水平,保障数据中心稳定、安全、高效运行。本文以广西电子照政务外网云计算中心的DCIM为例,简述实现思路与过程。

2 系统的架构体系

2.1 总体架构设计

平台总体架构图如图1所示。平台分为5个逻辑层:监控设备层、采集层、数据处理层、基础服务层、应用层。各层之间相互独立,从上往下相互依赖,各个功能和业务应用以组建的方式进行设计和开发,使层内各功能耦合度最小。

监控设备层:覆盖了数据中心动力系统、环境系统、安防系统等所有基础设施设备。

采集层:由各种I/O采集模块、串口服务器等组成,连接所有传感器和被监控设备,实现监控平台与被监控对象的数据通讯。所有硬件采用模块化架构,I/O模块采集传感器数据后通过系统配置实现对所有传感器的数据匹配对应;各种智能设备直接接入现场监控层。

数据处理层:基于大数据架构,对各子系统的数据进行统一筛选、整合并加以关联分析、聚类分析、分类、预测、时序模式和偏差分析。以为规划、调优、预测和变更等多个维度的综合数据支撑,为决策与运维奠定数据基础。

基础服务层:由动环监控服务器、热场管理服务器、资产容量管理服务器、IT一体化监控服务器等组成。服务器负责收集各子系统的监控的实时数据,进行本地处理、存储,并将数据经过滤后上传至集中管理服务器,进行统一监控和管理。

应用层:应用层是直接与用户交互到系统功能层,根据用户需求到不同构建不同到交互界面。包括资产管理、能耗管理、容量管理、运维管理等子系统。

2.2 大数据平台架构

大数据平台架构如图2所示。

2.2.1 大数据接入子系统

利用事件驱动的架构(Evnet-Driven Architecture)支持数据中心各垂直子系统大规模TCP/IP链接的高并发处理,使用消息队列模式的发布方式。利用均衡负载、反向映射等技术,构建接入服务器集群,实现高容错。

图1 系统平台架构图

图2 DCIM大数据平台架构

2.2.2 流数据处理子系统

面对海量数据实时处理需求,采用“流处理”(Stream processing)系统,一方面接受接入子系统传入的数据流,另一方面完成对海量数据流的连续查询、混合查询、多条件查询。

2.2.3 复杂事件处理子系统

在对监控数据处理的过程中,会产生大量有关联性的事件。为更智能的分析处理海量事件,采用智能的复杂事件处理引擎(Complex Event Process)。复杂事件处理引擎接受从流数据平台过来的数据输入,解释业务规则,并根据业务规则作出业务决策,实现事件过滤、合并、分流、定位、告警等服务。

2.2.4 分布式存储子系统

DCIM采集到的数据经过流数据平台处理后必须做存储处理。存储方式采用分布式数据库和分布式文件系统技术,将可靠的PC服务器存储设备集合起来协调工作,行程一个分布式、高容错的云存储平台。

2.2.5 大数据分析子系统

系统在采用分布式并行计算技术、复杂事件处理技术和机器学习的基础上,利用聚类、分类、推荐过滤、频繁子项挖掘等手段,发现数据的相关性和规律。对采集到的历史数据做智能处理和分析,对未来可能发生的故障做预测分析。

2.3 数据库设计

广西电子政务外网云计算中心监测参数项至少为300 000个,每2 s进行数据采集并存储,每日处理数量将高达上百亿规模。数据形式是为多样性,包括结构化数据、非结构化的数据、半结构化数据。面对海量数据,平台既要支持传感器数据流到实时分析与处理又要支持复杂查询与深度分析所需到高性能、低延迟需求。传统的数据库存储方式已不能满足需求,采用大数据Hadoop YARN架构存储如图3所示。

图3 大数据存储混合模式

底层由传统关系型数据库和Hadoop集群组成,系统配置信息存储在关系数据库,海量历史数据存储在分布式存储系统上。通过Hive数据仓库、HBase数据库与上层进行交互。为便于高效数据查询、分析、计算,采用分布式计算、并行计算和实时计算承担完成。

中间层采用了计算节点集群方式,运行的程序既包括传统应用服务器和Web服务器,Hadoop应用协作的分析服务器。

顶层主要用来呈现,从承载方式看:主要包括Web浏览器、移动设备以及桌面应用等;从展示内容看,既包括传统的报表表格也包括组态和3D等新式交互体验。

3 系统功能设计

图4 系统功能图

各子系统之间采用分布式集散结构,各子系统相对独立,一个子系统发生故障,不影响其他子系统的正常运作;DCIM系统平台发生故障,各子系统仍能正常工作。同时各子系统之间又可通过在DCIM系统平台上定义各自的联动策略,并可实现跨子系统的策略联动。系统主要包括四大部分:基础设施管理、运维管理、大数据分析、系统维护管理。平台主要功能模块,详见图4所示。

3.1 容量管理

对机房、机柜、基础设施设备等对象,综合空间、U位、供电、制冷、承重、电力口、光口、网口等因素构建容量模型。采用有线标签U位管理技术自动实现对机柜空间管理,结合CFD技术模拟数据中心发热量数据。容量管理具有规划部署功能,提供可用机位、机柜位的搜索、预占、审核和上线功能。对于已经预占的机位和空间,管理员可根据优先级,审核、取消、编辑和再分配。容量管理与资产管理、基础设施监控有紧密数据联系,能根据资产变更和基础设施运行状态自动更新容量数据。与能耗系统有关联性分析,根据IT设备实际能耗,对设备放置位置做建议。

3.2 能耗管理

对数据中心生命周期内连续供应的能源进行品质监测、效率提升、运营成本优化的过程,是对资源消耗持续计量、统计、分析、诊断、控制及优化提升的过程。能实时计算PUE、PPUE、CLF、RER等数值。结合能效数据,采用大数据分析各系统能耗使用分布,梳理系统运行过程中的能耗消耗点,根据匹配的能耗知识库,关联出相应的节能改进建议措施;支持查看能耗基准线、为数据中心扩容提供容量规划;根据采集的数据,绘制出数据中心的能耗图。

3.3 运维管理

对数据中心的所有工作进行规范化、流程化、标准化信息化、自动化管理。运维管理基于ITIL、ISO20000国际标准理论框,内置标准流程、分析报表、服务台、配置项管理、绩效考核、事件管理等一整套专业的服务台运营模型。通过工单管理流程,记录各种信息故障申报请求,并对故障处理的过程进行跟踪和处理,通过SLA(服务水平协议)完成绩效考核指标;建立知识库,提高故障排除效率;建立库存信息,对备品备件、工具进行统一管理;对设备供应商进行管理,为运维人员提供有效的设备参考信息。系统具备关联影响分析功能,对于运维工作的运行影响和业务影响进行风险评估,结合3D可视化进行展示。

3.4 变更管理

对维护过程中基础设施、系统或服务所作出的各种改变进行管理。建立变更管理流程,流程可自定义,主要包括:变更角色、变更内容分类、关联影响分析、变更审核、变更实施、变更保障、变更验证、回退/补救、配置备份等步骤。系统规范了变更工作顺序、记录工作详情、智能分析隐患、模拟变更结果,减少意外状况,节省时间与成本,改善服务质量。

3.5 资产管理

采用标签绑定采集条方式实现设备一对一高效管理,每台设备通过标签连接到机柜资产信息采集条,精确到U位。集成3D技术,多图层展示资产所在位置。建立资产全生命周期管理流程,对资产出入库态、上下架、变更、折旧、报废等进行跟踪。提供丰富的统计分析图标及可视化辅助决策、提供可定制化的变更管理流程。资产管理与财务管理进行资产数据交互,通过财务审核和财务账表,对IT资产进行监督。系统能自动生成IT资产总账、分类账、明细账。

3.6 线缆连接管理

管理有两种内容:第一对IT设备之间及机电设备之间的物理端口连线。第二基础物理连接上对IT设备访问,操作与控制。系统采用智能电子配线架,为系统管理员提供所有连接的状态信息,通过对主干链路或重要物理连接实时监控,使管理员能够更快的发现和解决网络中出现的问题。电子配线架与DCIM系统进行集成,共享设备连接信息,DCIM系统结合容量数据、能耗数据、IT设备运行数据等,对容量优化、能耗提升决策、机架空间优化等给出建议。

3.7 基础设施管理

管理范围包括动力监控系统、安防监控系统、环境监控系统等。使用传感器、电控装置、智能仪表、控制器等设备,对基础设施各子系统和设施进行实时监测和控制,能模拟仿真基础设施系统架构、运行状态。采用统一接口,对各子系统报警信息进行监视、过滤、分级,汇总,建立故障关联模型,预见或及时感知直接故障和间接故障、提前决策。提供各类数据统计与分析。

3.8 大数据分析系统

在分布式并行计算技术、复杂事件处理技术和机器学习的基础上,采用机器学习、人工智能、神经网络等先进技术,深度挖掘数据的相关性和规律,研究跨系统关联模型,实现智能故障管理分析。掌握设备和子系统运行趋势,前瞻性发现设备和各子系统可预见非突发性故障。建立能耗和电费成本模型,结合数据中心运行参数,计算动态成本,为经济性提供参考。实时分析数据中心运行参数,结合系统配置信息,智能预警系统运行状态。

上述的8个子系统是相辅相成,不可分割的,系统关系如图5所示。运维管理是DCIM核心部分,通过它对数据中心所有工作进行监督和管理。变更管理既是为资产的数据操作提供需求,也是资产数据维护、更新、分析的依据和来源,资产管理以价值来体现整个系统的应用。基础设施管理为数据中心运行提供设备保证。容量管理、能耗管理、线缆连接管理对维护工作起到重要支撑作用。大数据分析系统汇聚各个系统数据,通过数据汇聚、流数据处理、复杂事件处理等手段,从而实现数据中心管理智能化、自动化、流程化。8个子系统形成一个高效、规范和充满活力工作流程。因此,平台在设计上没有将各个功能模块孤立出来,而是以操作人员基础,以工作流程为锁链,以权限为安全机制,将各个功能模块的功能集成在不同的工位操作界面上,使各个功能在工作流转的过程中融会贯通,形成一个有机的整体具体的系统关系描述。

图5 系统关系图

4 结束语

随着广西电子政务外网业务向云架构、云计算技术等不断应用,数据中心基础设施作为最大的物理载体,规模将不断的增大。利用DCIM系统对数据中心日常运营工作进行管理,可提高数据中心的可用性、效率、运营管理水平和成熟度,达到最终的管理目标。在这个系统的基础上,可采用云服务的方式,将DCIM软件系统的能力云化,使DCIM系统以软件+智能硬件的方式实现SaaS服务,对区内其他电子政务外网节点的数据基础设施进行管理。

猜你喜欢
子系统数据中心运维
不对中转子系统耦合动力学特性研究
酒泉云计算大数据中心
浅析数据中心空调节能发展趋势
GSM-R基站子系统同步方案研究
运维技术研发决策中ITSS运维成熟度模型应用初探
驼峰测长设备在线监测子系统的设计与应用
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
基于ITIL的运维管理创新实践浅析
基于云计算的交通运输数据中心实现与应用