蔡 荣,吴昕烨,徐 迟,金立标,曹 灿
(1.中国联通无锡分公司,江苏 无锡 214142;2.中国联通江苏省分公司,江苏 南京 210029)
数据中心的主要能耗系统为IT系统与暖通系统,IT设备节能技术主要用于新建数据中心。对于既有数据中心,其节能重点主要是暖通系统节能改造与运行控制优化。暖通系统作为数据中心的重要组成部分之一,既要达到安全、节能、高效运行的状态,同时也要具有高可靠性、高可控性[1]。基于此,对数据中心暖通系统进行控制与高效监管是保障数据中心安全运行和高效节能减排的重要方式。
目前,Google、阿里、华为等云服务商都有将人工智能(Artificial Intelligence,AI)算法在水冷设备端运用的典型例子,但主要集中在一些技术基础较好、历史数据较多以及数据处理维度较完整的互联网数据中心(Internet Date Center,IDC)中。数据中心的暖通制冷功率一般由水冷式机组功率、末梢精密空调功率、冷却/冷冻水泵功率以及冷却塔功耗4部分构成[2]。末端车间的精密空调功率约为整体冷却功率的30%,控制策略也和风冷机房基本相似。由于水冷式机组设计复杂、运行参数繁多,各组成部分的效率也受多种参数的制约,因此将通过收集水冷式机组的各种运行参数和历史数据进行建模,拟合水冷式机组的总功率,从而找出各技术参数和总功率之间的关联。拟合建成后,采用随机游走、遗传算法等策略,在确保最大输出制冷量达到末端机房负荷的条件下,维持水冷式机组良好的运行状况。
中国联通华东云数据中心为自有自建,园区占地面积100 000 m2,总体规划包含4栋IDC机房楼及配套动力中心。整个园区分3期逐步实施,现已建成投产一期。一期项目占地17 031 m2,包含一栋4层IDC机房及配套动力中心。
数据中心对环境温度和湿度的要求较高,需要建设高效制冷系统对IT设备进行散热。同时为保障IT设备稳定运行,往往依赖空调、冷水机等设备来降温,这是数据中心制冷系统能耗较高的主要原因[3]。数据中心制冷系统包括空调压缩机、冷却水系统、冷冻水系统以及冷却塔等,能耗占比约40%。影响制冷系统能耗的因素有各类设备的发热、建筑围护设备传热、太阳辐射热、系统能效比、气流组织以及空调运行时间等,可以概括为设备因素与环境因素。数据中心节能改造通常以提高制冷系统效率和降低冷量损耗为主,制冷系统能效提升对于数据中心节能意义重大。华东某IDC机房热力图如图1所示。
图1 华东某IDC机房热力图
现冷机模式水温设置为12 ℃,回水温度为17.7 ℃,机组电流比81%。设计水温为7 ℃,板式换热器(以下简称板换)模式时水温会更高。目前,负载只开一套系统,基本已经满负荷运行,后面负载上升需要再开一套。根据室外温度人为切换板换,切换板换的条件是湿球温度低于10 ℃,而切换冷机的条件是机房高温告警。机房是冷通道封闭,冷通道温度控制在27 ℃以内,回风温度高的地方达到34 ℃。此外,全年自然冷源使用时间为两个半月[4]。
目前,IDC机房的节能切入点设备大多为制冷装置,一般依据人工经验和暖通常识来优化机房环境温度和气流组织。冷却泵、冷却塔、冷冻泵的电量无法分开采集,系统冷却水侧水利不平衡情况较为严重,无AI系统自动控制,机组切换时需要人为调整冷却水水利平衡。空调回风反映了机舱内电器的总体发热状况,但机械的工作负荷在动态变化,气流组织也在不断改变,很难人为预测。
基于AI和大数据分析的智能化节能管理系统的研发重心在IDC核心数据分析层面,通过对数据的综合分析,即可获取节能决策中所需要的调节依据。数据采集资源主要包括自动环控系统信息、自动仪表使用信息、水冷式发电机组控制系统信息等。水冷式发电机组的信息包含水冷式电动机的执行技术参数(冷凝器进出水温度、蒸馏器进出水温度、冷冻供水电压、主机电压等)、泵的执行技术参数(运转次数、流量等)、冷却水塔的执行技术参数(运转次数、流量等)与其他技术参数(如室外温湿度、IT总负荷等)。风冷机组的主要数据包含IT产品耗电量、室内空调耗电量、机房室内外湿度、机房尺寸、机房地面架空高度、机柜数机房列头柜功耗、机柜总送风速度、机柜进风口湿度、机柜出风速度、机柜出通风湿度、区域中央空调出通风湿度、区域中央空调回风口湿度以及中央空调发电机组的总功率等[5]。
AI算法将持续采集冷机、水泵、冷却塔等冷站主要部件的温度、流量、压力、功率等基础参数,通过实时算法计算识别冷机启停、水泵变频、输送系数以及冷站能效等冷站基础运行情况数据,并与自控系统上传数据进行清洗比对。在累计一定基础数据后,建立冷站各设备运行特征模型,通过智能匹配最优运行策略下发自控系统,根据自控系统回传数据进行实时数据迭代计算,动态监测与评估冷站运行情况,诊断冷站运行问题,优化下发策略,以提高冷站整体运行效率。
智能AI控制系统可以对各网络系统的启、停、工作或失效状态等进行自动检测、管理调度。与此同时,控制器还可以对各网络系统和监控点的配置、工作方法、历史数据曲线等进行显示。各系统运行不良时,操作系统会产生非正常或故障状态的语音和图像报警信号。管理系统所有工作参量、信息均以图片方式表示,同时以图表、曲线等方式打印记录[6]。
控制系统必须具备扩充功能,未来扩充功能及系统时只需加装一个可独立编程软硬件整合控制器即可。信息系统中的设施需要根据特性要求的变化需求进行适当调整,通过与综合系统的融合,为其使用提供必要的机电设备运行基础。场内控制器应能安全可靠、独立工作,各场内控制器之间能进行点对点通信,当场内某一控制器故障时不会干扰控制系统中其他部分的工作。
将控制值班室的网络主机、网络控制台和现场控制器结合组成集散管理系统,通过设置在控制装置周围的现场传感器对各装置进行自动控制,使各控制区域的参数符合建筑物设计要求、故障告警指示以及建筑物节能的设定。由现场控制台经通信端口与网络系统控制器和监控值班室中的网络系统管理工作站通信后,控制系统工程管理站。系统工作站通过各地区的设备工作状态信息对现场装置参数实施自动/手动调节和监视管理,进而提供对受控装置状况的运动态势分析与报告。
对于系统工作站的控制用户界面,需要具有人员密码信息管理、树形构造、日期信息管理、趋势图表信息管理、告警信息管理、群组信息管理、控件实时展示、控件信息管理以及控件记忆体加载等控制功能。控制系统具有在线编程控制功能,现场控制器应用软件可以在系统工作站编辑并输入信息,设置正确后即可运行。
AI节能方案采用典型的大数据平台架构,支持主流的兼容接口协议,例如RS485、Modbus、控制器域网(Controller Area Network,CAN)以及传输控制协议 /网际协议(Transmission Control Protocol/ Internet Protocol,TCP/IP),同时支持从第三方平台获取源数据。基础运行数据是实现大数据+机器学习机房节能的前提和必要条件,通过传感器、数据网关与自控系统采集暖通系统运行动态数据,建立运行数据库,如图2所示。
图2 运行数据库
采用连续数据采集终端,建立云平台数据库,实现高并发数据采集与存储。使用基于Python的物理模型、经验模型与数据挖掘算法,动态计算冷站运行情况。采用机器学习算法和降维手段生成数据特征量,提取并建立冷站运行模式。根据马尔可夫决策理论,采用Q-Learning的强化学习方法,选择最优运行策略。通过串口、TCP/IP等接口下发控制策略,实现闭环控制。此外,提供图形可视化展示界面,直观理解运行状态,优化人机交互过程。数据处理模型如图3所示。
图3 数据处理模型
通过建立能耗分析平台,使用不同算法模块实现对数据的储存、清洗、流转、计算以及分析,完成对冷站各设备的完整闭环控制。在每个数据计算周期,根据平台采集得到的各项运行数据,结合现场获取的铭牌参数与额定数据,利用各项功能模块基于动态调参的经验模型与物理模型计算冷站设备基本性能参数。在累计一定时长的运行数据后,通过基于人工智能的层次聚类、密度聚类等算法对数据进行回归、聚类,提取该冷站设备运行的主要特征模型。同时对冷站所在地的室外温度、湿度等具有明显周期性的数据进行子集划分,并对子集进行层次聚类,获取当地外部条件的典型周期特征。
通过AI算法提取冷站内部与外部特征,划分若干种冷站运行典型工况,并利用人工神经网络(Artifical Neural Network,ANN)、随机森林、贝叶斯网络等算法建立典型工况下的主要运行参数预测模型。将分析得到的典型工况与数据库中存储的专家模型进行比对识别,根据设备自身条件,利用主要运行参数预测模型判断当前各参数与设定值的合理性,计算优化潜力与节能空间,为自控系统下发最优设定值与控制策略。与此同时,对调控后的设备运行情况进行实时监控,扩充数据集维度,提高模型精度,对优化控制建议进行动态迭代,使其更加匹配冷站实际运行工况。
持续采集设备能耗、环境温湿度以及空调运行参数,将累计至少一个月的数据作为历史数据集,根据实施机房状况、采样点分布以及不同空调型号分别建立制冷影响力模型、空调能耗与制冷量关联模型、机房温度预测模型和空调控制逻辑模型,并且评估空调的制冷量冗余情况,最终通过实时数据输入模型生成最佳的调配参数。针对可变频和不可变频设备类型,分别下发策略进行精准控制。采用深度学习、时间序列数据挖掘以及偏微分方程求解的推理框架,基于单指令多数据流(Single Instruction Multiple Data,SIMD)机器学习算法实现并行化加速。采用流式数据处理引擎,实现对实时数据的高并发数据采集及存储。此外,提供K8s容器化运行环境,支持动态部署以及弹性扩缩容。末端AI节能架构如图4所示。
图4 末端AI节能架构
机房空调AI节能是一个动态循环过程,每个循环周期包括的主要步骤如下文所述。
(1)数据采集。通过智能传感器和网关设备采集相关静态和动态数据,包括环境温湿度、设备能耗和空调运行工况,结合机房和传感器物理分布情况构建静态点位数据和动态信号量的关联数据集。
(2)分析建模。基于历史数据集建立制冷影响力模型、空调能耗与制冷量关联模型、机房温度预测模型、空调控制逻辑模型以及空调制冷量冗余度模型,根据实时数据集推理和验证模型的准确度。
(3)数据分析。采集空调运行情况下机房的环境温度变化,通过数据分析评估当前机房环境温度是否偏低或偏高,生成控制策略。
(4)设备控制。通过人工操作或程序下发自动调整末端空调运行参数,使其达到合理制冷量输出时能耗最低的状态,实现空调的运行省电。
通过大数据和AI技术分析机房历史温度数据、电量数据、空调运行数据,建立机房热交换模型。热交换模型逐级传参,典型的层级包括末端风机→表冷器→水阀→分集水器→冷冻/冷机水泵→冷却水泵/塔。除此之外,考虑外部气象和IT负荷因素,通过对全部机房内冷量需求的精准预测来调整冷站的最优输出,同时仿真推理得到制冷设备的最低功耗运行状态。精确匹配冷量需求曲线如图5所示。
图5 精确匹配冷量需求曲线
通过对室内温场进行分析来确定最佳的供冷需求,具体是采集每个机房内的温度、机柜和末端空调耗电以及精密空调的运行数据等,建立机房热量预测模型、区域温度影响力模型等,使区域温差最小,满足每台末端对冷量的需求。室内调节不仅需要考虑平衡本机房内部的需求,同时还要结合全局策略满足整个机楼的需求。
利用AI节能系统采集末端和冷热源设备的运行数据,以满足所有机房冷量需求为前提进行后续的模型推导,推理冷热源设备运行的最佳参数。AI节能系统需要实时分析全局、全量数据,对设备稳定性和可靠性有较高的要求。全量数据不仅包含通过群控系统和末端空调分散采集到的静态、性能数据,而且还依赖于大量由室内优化算法建模产生的结果数据和中间数据。除此之外,调节策略同样需要考虑全局能耗最低,理想状态下能够实现冷热源和末端空调能耗的双降。冷热源和末端工况联合建模如图6所示。
图6 冷热源和末端工况联合建模
华东云数据中心夏季日用电量约99 000 kW·h,冬季约92 000 kW·h,AI系统上线后可节电约12%。
通过收集IDC机房信息和AI建模,利用深度学习的控制方法将分析结论下发到机房的管理系统中,实现数据中心节能高效运转。将AI算法运用于IDC机房节电方面,能够使机房的节电方式变得更加智能化、精细化,节电效益更加显著。