王 青,李程贵,张建雪
(中国移动通信集团内蒙古有限公司,内蒙古 呼和浩特 010000)
数据中心的建设等级是评判数据中心高低重要的指标,目前国内外都制定了数据中心建设标准。美国电信产业协会制订数据中心的通信基础设施标准TIA-942,是国际上第一部较为全面的以数据中心为对象的技术规范标准,它为现代的机房建设提出了新的设计理念、系统构架与可靠度,将机房划分为4个等级,分别为Tier Ⅳ、Tier Ⅲ、Tier Ⅱ以及Tier Ⅰ,级别越高越可靠。国内对于数据中心的等级评估主要分为3大类,一是由国家和政府发布的指导性认证标准,如GB 50174—2017《数据中心设计规范》,该标准将数据中心分为A、B、C三级;二是行业和协会组织推动的认证标准,如数据中心联盟推动的《数据中心绿色分级评估标准》,该标准将数据中心绿色等级从低到高依次分为1A~5A级别;三是企业内部的评估认证标准,如三大运营商内部建设标准[1-3]。
根据《数据中心设计规范(GB 50174—2017)》、《TIA-942》等级标准细则,A级相当于Tier III或Tier IV,B级相当于Tier II,C级相当于Tier I。国际国内数据中心机房建设等级标准的主要性能如表1所示。
表1 数据中心机房建设等级标准表
数据中心冷源群控系统主要实现对数据中心冷源系统的集中实时监测和自动化管控,能够有效降低冷源系统能耗以及人力成本,极大地提高工作效率。随着数据中心建设规模越来越大,业界对于冷源群控系统的可靠性要求也越来越高[4]。无论国际标准还是国内标准,都要求数据中心机房建有冷源群控系统,但是对于数据中心冷源群控系统的设计、建设并没有明确的标准。
数据中心冷源群控系统主要是对冷水机组、冷却塔、水泵等设备进行信号采集和控制。系统主要由现场设备、控制器、系统网络、软件平台构成。现场设备主要包括温度、压力、流量等各类传感器。控制器的作用是将传感器传来的电信号转换为可处理的数据,常用的控制器主要有DDC和PLC两种。系统网络主要是用于构建现场控制器通网络。软件平台提供人机操作界面等。
目前数据中心冷源群控系统普遍存在两方面痛点问题。
1.2.1 设计痛点
国内大型数据中心大多按照国内标准A级或国际标准Tier Ⅳ或Tier Ⅲ的要求进行设计,但冷源群控系统没有相应的标准,各大数据中心通常是按照传统的楼宇控制系统进行设计。因此,Tier Ⅳ或Tier Ⅲ等级的数据中心其冷源群控系统的可靠性可能仅仅达到Tier I或Tier II等级,控制系统的低可靠性极大地降低了数据中心整体的可靠性。
1.2.2 运行痛点
由于设计的不匹配,数据中心冷源群控系统在实际运行中存在多种运行的问题,故障率非常高,单一故障影响整个自控系统的运行,系统切换波动、系统电源不可靠、无法在线检修更换部件等各类安全隐患问题,极大地降低了数据中心冷源系统的稳定运行。
控制系统本身故障导致的制冷中断问题已经成为突出问题,业界亟需一套适用于数据中心的冷源群控系统建设标准方案,确保系统能够合理部署,满足自身业务需求的同时,减少不必要的成本浪费等问题[5]。本文提出了一种基于数据中心不同分级标准下的冷源群控系统分级方案,对于不同等级的数据中心有相应的群控系统标准建设方案,具有一定的实践指导意义。
数据中心建设Tier I—Tier IV分级标准:Tier I满足基本需求,没有冗余部件,单一路径;Tier II在Tier I的基础上加入了备用设备,实现了部件的冗余;Tier III在Tier II的基础上加入了环路保护,通过多条独立路径保障系统持续运行,实现了系统的在线维护;Tier IV在Tier III的基础上采用两套整体系统2N运行,使系统能够具备容错能力[6]。
基于上述数据中心分级标准,数据中心冷源群控系统的分级主要从系统的高可靠性和不间断可维护性两个角度,考虑系统的组件、网络、功能3个方面提出了系统量化指标体系,建立了可满足冷源群控系统可靠性高、中、低需求的冷源群控系统标准方案,如表2所示。
2.2.1 精简型冷源群控系统
精简型冷源群控系统能够满足基本需求,即实现对冷源系统的实时监控,系统架构示意如图1所示。系统采用单路径的交换机、服务器、控制器、I/O模块、电源等,无冗余组件,单路供电,控制层网络采用单一总线通,不支持双点控制和无扰动切换[7]。
该方案存在单点故障,紧急情况下宕机概率高,系统操作或者系统自身故障可能造成制冷系统运行的中断。该方案适用于Tier I数据中心冷源群控系统。
2.2.2 高性能型冷源群控系统
高性能型冷源群控系统在精简型系统基础上,交换机、服务器、控制器、I/O模块等组件具备冗余,控制层网络采用双总线实现高性能。系统支持双点控制功能,水泵、阀门、冷机等设备在控制器断电情况下具备自保持功能,可靠性高于精简型群控系统,系统架构如图2所示。
该方案的组件具备冷备冗余,系统为单路供电,系统无法实现无扰动切换,因此该方案适用于Tier II数据中心冷源群控系统。
2.2.3 全冗余型冷源群控系统
全冗余型冷源群控系统是在高性能型系统基础上,要求服务器、控制器采用冗余热备系统,主、备系统同时运行,运行期间不会因为操作失误、系统设备故障、电源中断等导致冷源群控系统的中断,同时控制层网络采用环形总线实现高性能,采用双路供电方式实现高可靠性供电。对水泵、阀门、冷机等设备系统具备双点控制功能,能够实现断电自保持能力[8]。此外,系统具备服务器无扰动切换、网络环路无扰动切换、变频器及频率无扰动切换、开关阀无扰动切换的能力,切换时无报警或信息/中断丢失。当重要的系统设备或其他组件需要维护时,可实现系统不中断,系统稳定性、可靠性相比前两种方案更高。系统架构示意如图3所示,该方案适用于Tier III、Tier IV数据中心冷源群控系统。
图3 全冗余型冷源群控系统架构
以中国移动(呼和浩特)数据中心B03机房为例,建设标准已经达到国际标准Tier III级,然其冷源群控系统架构按照精简型系统进行设计和建设,数据中心一期冷源群控系统架构如图4所示。机房硬件配置与冷源群控系统等级不匹配,主要存在以下问题。
数据中心的机房建设已经达到国际标准Tier III级,要求系统容错冗余配置,即在系统运行期间,不会因操作失误、设备故障、外电源中断、维护和检修而导致系统运行中断。但一期冷源群控系统无论从供电、控制器、I/O模块、从站总线等都没有冗余容错配置,一旦发生故障,系统可能失控,存在极大的风险。如图4所示,系统每个制冷单元仅配置1台控制器、控制层采用单总线串行连接,当单台控制器出现故障或者总线中断,均可能导致制冷单元的控制失效以及制冷中断,存在单点故障隐患。
图4 数据中心一期冷源群控系统架构
数据中心一期冷源群控系统控制点输出采用单DO控制,控制器一旦发生掉电,被控设备接收不到控制信号就会关闭,如水泵和电动阀门,被控设备无法状态保持将可能导致整套制冷系统制冷中断,影响业务。
针对B03机房冷源群控系统存在的问题,按照机房Tier III级设计标准,将其冷源群控系统由精简型系统优化升级为全冗余型系统,与机房硬件配置相匹配。优化升级内容主要包括以下两个方面。
3.2.1 系统架构冗余优化
数据中心B03机房冷源群控系统经过优化改造,具体包括以下4个方面。
(1)控制器扩容:控制器采用冗余热备系统,两个独立的控制器同时运行、同步热冗余,1台主用,1台备用,单控制器故障不影响系统的正常使用。
(2)服务器扩容:主、备服务器采用双机热备保护的形式,单服务器产生的故障不影响系统的正常使用。
(3)交换机扩容:支持双控制器不同交换机,冗余交换机之间采用环网设计结构,双网络之间采用跳线方式转换,光纤或单交换机故障不影响整个系统的运行。
(4)电源扩容:所有控制设备均采用双路UPS供电,保证系统在运行时,一路供电中断,不受影响。系统架构如图5所示。
图5 数据中心全冗余型冷源群控系统架构
优化后的系统架构的优点主要包括以下几点。
(1)系统安全性高:冗余毫秒级切换,热插拔更换,可在运行中更换所有组件,任意单一故障点,系统不受影响,可在线修改程序,切换时无报警或信息/中断丢失,自动事件同步,错误识别、错误定位功能。
(2)无扰动在线检修:主控制系统故障无扰动切换,I/O接口冗余无扰动切换,监控服务器无扰动切换,网络环路无扰动切换,变频器切换无扰动,开关阀切换无扰动,阀门切换无扰动。
(3)信号处理:毫秒级处理速度,可实现实时监控,可更精准控制,双点控控制源。
3.2.2 系统自保持功能优化
系统由单DO控制改为双DO控制,实现断电保持功能。单DO控制接线示意如图6所示。
图6 单DO控制接线
改造后,双DO控制接线如图7所示,被控设备在自动模式下,开命令为一个控制信号,关命令为一个信号,系统为双路控制输出。当控制信号断开,被控设备没有接到带电命令信号,状态保持,不会影响原有业务中断。
数据中心B03机房冷源群控系统优化升级完成后,对升级后系统进行了模拟验证测试,测试结果见表3。系统升级后原系统存在的问题均已解决,系统可靠性大幅提升。
表3 系统模拟验证测试结果
基于数据中心不同分级标准下提出冷源群控系统3级方案,可以根据数据中心等级、业务保障需求等灵活配置系统不同的组件、网络及功能,为不同级别的冷源系统提供自动化监控管理,能够充分满足数据中心冷源群控系统高可靠建设需求,具有一定的实践指导意义。