陆宏波 魏海波 袁以友
摘要:随着国家电网公司分布式数据中心建设数量的不断增加,受困于分布式机房的规模、距离等客观因素,运维人员疲于奔波应付巡检和故障检修,导致分布式数据机房运维效率低下,运维人员工作量日益加大。为了提升分布式数据中心监控管理和故障处置能力,该文将研究一套分布式数据中心统一运营支撑平台,通过对数据中心机房设施进行统一管理,对故障告警进行分级派单处置,对数据中心的可用资源以及运维专责灵活调度,提高运维效率,保持分布式数据中心的安全稳定运行。
关键词:分布式数据中心;运维管理;运营管理
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2022)04-0029-03
1 研究背景
随着国家新基建战略部署,国家电网公司加快推进新型数字基础设施建设,融合建设数据中心、充换电站、储能站、5G基站、北斗基站、光伏站等“多站融合”式变电站。2020年国家电网公司已完成1100余座分布式数据中心站建设,并且数量正在呈现规模化态势增长。这些数据中心利用现有的电力变电站闲置土地资源价值,但因具有“偏远、分散、规模小、交通不便利”等客观因素,给数据中心的运维管理工作带来了新的挑战。
目前这些“分散式、小型化”的数据中心机房运维工作仅依靠变电站点的运维团队,存在无专业运维人员值守等问题。现有的机房管理系统仅能实现分布式多机房设施综合监控,很难做到机房运维的集中调度和设施远程控制的调节。基于这些分散数据机房的运维管理的现状,需要一套统一的综合运维运营管理系统,能够纳管分散的数据中心站的设备以及系统,不仅能够满足监控需求,还具备远程控制和管理调度的能力。以实现分布式数据中心的自动化运维、智能化运维和自主化运营。
在人员成本日益提升的今天,如何提高分布式数据中心运维管理效率,提升机房故障处理时效性,保障数据中心安全运行,是当下研究分布式数据中心综合运维业务的重点和难点。
2 平台设计原理概述
分布式数据中心统一运营支撑平台从总体架构设计、机房基础设施运行数据采集、机房基础设施运维管理、机房能效提升、机房调度控制管理五个方面进行设计。以总体架构设计方法论、数据采集、大数据分析、运行监控、远程控制、数据中心运维体系等原理技术为理论研究基础。各原理相应的理论支撑与研究内容的层次架构如图1所示。
从系统的边界关系的角度,分布式数据中心机房及基础设施运行管理可作为运维门户的子模块与统一权限平台进行集成,亦可作为系统平台独立部署,对数据中心机房及基础设施运行管理进行用户、角色、权限的统一管理。与电力监控子系统、暖通监控子系统、机房环境监控子系统、视频门禁监控子系统以及消防报警子系统进行集成,通过采集接口采集各类基础设施运行数据和告警数据。
在总体架构关系中,业务架构从业务角度对分布式数据中心机房及基础设施的运行和管理等业务进行精细化、总结化,形成完整的业务能力即视图,为应用和数据的架构提供业务逻辑输入。应用架构和数据架构都基于业务架构,从系统的应用功能角度来定义功能的种类、应用功能模块的划分和应用的分布,组成了分布式数据中心机房及基础设施运行管理的应用架构轮廓图。从支撑业务数据的角度对应用数据模型、分类、存储以及流转等方面进行规划设计。从技术原理实现的角度定义系统的各个组件的集成方式、部署方式以及关联关系。
3 架构及功能设计思路
3.1 总体结构设计
“分布式”数据中心采用“中心站+分支站”的运维模式,通过构建综合运维平台实现“中心站”的统一监控和“分支站”的分层运维管理,并可实现的数据共享,在应急情况处理时,其他“站点”的管理人员也可以实时掌握信息。针对“中心站”数据中心,可将所有数据都汇总到中心站的支撑平台上进行统一管理、集中展示;而各个“分支站”的数据中心可进行独立的运维管控。
本方案采用Vertx 全异步式框架构建分布式数据中心统一运营支撑管理系统,适合物联网、分布式应用的海量设备接入。其次Vertx 也是微服务架构,可匹配国网微服务开发架构,方便和其他系统实现对接与集成。数据库采用开源的PostgreSQL,PostgreSQL是功能最全面的数据库,在集群方面有开箱即用的解决方案,数据库的扩展能力强,通过Extension 可以实现未来的各种高阶应用(如OLAP 数据分析,GIS 地理位置等)。为实现海量设备和海量数据的接入,硬件资源采用物理服务器方式,并配置SSD 固态硬盘做数据加速,便于数据的边缘计算、数据分析的应用。面向复杂SQL 处理的OLTP 在线事务处理场景,支持NoSQL 数据类型(JSON/XML/hstore),支持GIS 地理信息处理,适用于互联网、位置应用系统、复杂数据对象处理等应用场景。同时可以配合分布式集群软件,做读写分离、负载均衡、数据拆分等方案,实现数据的快速读取,支撑各类系统的大数据应用及分析计算的要求。
3.2 功能模块设计
3.3 基础设施数据采集、监控运维
基础设施运行数据采集主要包含电力设备的运行数据采集、暖通设备状态采集、弱电设运行数据采集、消防设备运行数据采集、机房环境设备运行数据采集、传感器设备运行数据采集。利用各“站点”数据中心内的采集传感器设备对机房内基础设施运行数据进行采集。通过数据采集实現提供机房基础设施管理和能效策略的数据基础。
基础设施运维管理是进行基础设施状态和运行的监控,以及机房日常的巡检、检修工作,包括电力设备监控、暖通设备监控、给排水设备监控、弱电设备监控、环境设备监控、消防设备监控。基于数据采集基础上,对异常设备发出告警,并进行检修工作。基于采集的基础设施监控以及运行数据,利用统一支撑平台实现分布式数据中心的综合运维管控,包括基础设施运行状态监控、基础设施运行告警、台账管理、可视化展示、设备巡视同质化管理、设备检修同质化管理、应急演练同质化管理等。
3.4 机房能效策略及可视化
机房能效策略研究是基于机房基础设施运行数据采集和运维管理的基础之上。通过对设施监控数据的采集及日常运行管理工作,构建能耗模型(总体能耗模型、单设备能耗模型、PUE模型、pPUE模型、影响分析模型、IT联动模型、节能控制模型等),利用统一的支撑平台结合大数据分析技术,结合模型计算各机房能耗及PUE值并进行智能分析,给出机房能效优化和改进策略,并根据策略实现对机房能耗的控制。
总体能耗监测:系统自动进行采集相关数据,并进行总体能耗计算。
分项能耗计算:自动收集并计算IT用电量、空调设备用电量、配电设备用电量等分项能耗数据,以量化的方式展示分项能耗的数据,掌握能耗的实时信息、发掘节能降耗的切入点以比对分析降低能耗的差异性。
PUE计算:按一年时间采集及统计数据中心总耗电、IT设备耗电。计算公式:PUE=数据中心总耗电/IT设备耗电。
实时PUE计算:能效指标的数值受机房环境、设备性能等各种因素的影响。故采用固定仪表进行实时测量,根据电量数值计算实时PUE,并采用自动化测量和记录。计算公式:实时PUE=数据中心总功率/IT设备功率。
pPUE计算:局部范围的PUE适合用于基于冷通道、微模块等单元型构建的模块化数据中心。计算公式:pPUE=局部机房总用电/局部机房IT设备用电。
CLF计算:系统将收集的数据,通过公式计算得出CLF值。计算公式:CLF=制冷设备耗电/IT设备耗电。
PLF计算:系统将收集的数据,通过公式计算得出PLF值。计算公式:PLF=供配电系统耗电/IT设备耗电。
数据机房设施可视化利用了数字孪生技术,将分布式数据中心的实体基础设施在数字空间中构建出来,并根据模型辨识和算法设计来对基础设施的特性、关系、参数、指令等进行描述和管理,包括数据中心的3D建模、设备空间分配模型、机房温度场模型等。通过数字孪生技术,运用模型构建和算法设计,将分布式数据中心的基础设施运维管理数字化。
3.5 分布式数据中心资源调度和控制
通过云端分布式数据中心运营支撑管理系统对各分布机房的设施运行状态以及监控告警进行分析,对城市各区域的机房运维负责人、运维专员等进行综合调度,遵循告警及时发现、故障及时处理、工单及时关闭的机房运维策略,通过对运维工单、人员的综合调度实现分布式数据中心的安全运行。
利用平台对各站点数据中心的基础设施进行远程操控,实现日常的设备简单操作,例如门禁远程授权、设备远程调节、重启等。通过远程控制的手段解决一些日常的运维管理问题,为机房运维工作提供便捷,提高效率。
4 总结
通过基Vertx 全异步式框架的分布式数据中心统一运营支撑管理平台建设,实现分布式数据机房的集中运维与管理。基于数据机房基础设施与资源的数据采集和运行监控,实时掌握各机房设施运行状态以及资源使用情况。对数据机房能耗和PUE进行分析,给出机房能效优化和改进策略。对各分布站点的资源使用情况以及故障工单处置情况进行计算分析,实现数据中心资源的灵活调度和远程控制。
通过建设分布式数据中心运营支撑管理平台,实现数据中心机房基础设施(供配电、制冷、弱电、防雷、安防、消防、机房等)运行指数据的实时采集、分析和展示,对数据中心运营情况、能耗利用等优化提供指导参考,进一步提升数据中心运营自动化、智能化水平。
参考文献:
[1] 姚宗国,李金屏.两级分布式数据中心的设计和实现[J].济南大学学报(自然科学版),2008,22(4):384-387.
[2] 冷迪.一种分布式数据中心管理系统[发明专利]:CN111355788A[P].2020-06-30.
[3] 田兆楠.一种分布式数据中心链路监控方法及系统[发明专利]:CN109981377A[P].20190705.
[4] 刘正伟,吕广杰,朱波.一种分布式数据中心云管理平台架构系统及方法[发明专利]:CN104158879B[P].2018-02-23.
[5] 张艳丽.分布式数据中心可生存性及性能优化算法研究[D].成都:电子科技大学,2015.
[6] 张鹏.分布式数据中心 让IT资源利用“最大化”[J].通信世界,2013(23):48.
[7] 季莹.ZStack——云行业的“Windows”[J].网络安全和信息化,2019(3):8-9.
[8] 赵建邦.HID:VertX门禁系统完美应用于高校[J].中國公共安全,2014(S2):138-139.
[9] 艾勇.IDC机房能耗分析及优化策略[J].中国电子商务,2013(18):22-23.
[10] 陈朝学.数据中心机房节能策略[J].科技信息,2008(29):83-84.
收稿日期:2021-08-11
作者简介:陆宏波(1984—),男,安徽舒城人,中级,主要研究方向为IT运营和运维业务。