基于模型深度强化学习的数据中心主动地板控制

2022-07-29 10:24温建伟段彦夺李雷孝
控制理论与应用 2022年6期
关键词:机架功耗风扇

温建伟 ,张 立 ,段彦夺 ,李雷孝

(1.内蒙古自治区气象信息中心,内蒙古呼和浩特 010051;2.内蒙古自治区基于大数据的软件服务工程技术研究中心,内蒙古呼和浩特 010080)

1 引言

近年来,随着人工智能、5G通信技术、物联网的不断发展,用户对存储、计算资源的需求不断增加.数据中心作为给用户提供存储和计算服务的载体,其数量在不断的上升.然而,由于数据中心空间受限,数据中心不得不提高功率密度来降低数据中心运营成本.但是随着数据中心功率密度提高,散热已然成为数据中心的一个难题.冷却问题成为当今数据中心的挑战.

目前关于数据中心冷却控制研究可以分为全局控制和局部控制.在全局控制研究领域内,Lazic等人[1]提出了模型预测控制的方法应用在真实的数据中心中,采用一种数据驱动的,基于模型的强化学习方法用于调节大型数据中心内的温度和气流.结果表明,强化学习代理仅仅需要几个小时的探索就可以有效、安全地调节数据中心的温度分布.并且相比于比例–积分–微分(proportional integral differential,PID)控制器的方式,基于模型的强化学习方法大大提升了工作效率.Li等人[2]提出了一种端到端的冷却控制算法(cooling control algorithm,CCA),该算法结合了Actor-Critic框架和深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)的离线策略,在真实的数据中心进行了评估.经过验证CCA可以节省11%的冷却成本.Chi等人[3]提出了无模型强化学习(model free reinforcement learning,MFRL)算法MAD-3C(multi-agent drl-based data center cooperative control),解决了数据中心能耗优化问题中状态空间和行为空间维数爆炸问题,并且设计了演员–评论家的深度确定性策略梯度算法(actor critic deep deterministic policy gradient,AC-DDPG)多智能体合作框架,用于改善IT系统和冷却系统之间的合作.实验表明,该方法能够在保证训练稳定性和提高资源利用率的同时,通过协同优化有效降低数据中心的能耗.以上相关研究均从数据中心级水阀,空调风扇等全局因素进行数据中心全局制冷控制,但是全局控制必然存在精细度不足问题,例如,在解决局部制冷问题时,全局控制通常能效比较低,无法达到预期效果[4].在局部控制研究领域内,Beitelmal等人[5]通过在数据中心冷通道安装AVT用于数据中心局部控制,改善数据中心整体冷却效率.为了减少数据中心能耗,Zhou等人[6]设计了一种基于AVT的模型预测控制器,以协调全局和局部冷却,并最小化数据中心冷却功耗,实验表明,该方案可降低36%冷却功耗.李永利等人[7]设计了AVT的热能效预测模型,对基于AVT的控制提供了模型基础.Wan 等人[8–9]提出了基于强化学习的AVT控制问题,分别使用了Q-Learning算法和深度Q网络(deep Q network,DQN)算法,通过在真实的数据中心验证,结果表明AVT的应用不仅可以缓解数据中心中局部机架热点问题,而且可以降低整个数据中心制冷能耗.以上AVT控制算法使用的都是无模型的强化学习算法,采样效率低,算法收敛速度慢.并且无论是QLearning算法还是DQN算法都只适用于离散行为空间问题,而AVT控制更适合于连续行为空间问题,所以上面研究都是将AVT 的行为空间进行了离散化,这不利于求解出AVT的最优控制策略.

为了解决上述问题,本文提出了一种基于模型深度强化学习(model based reinforcement learning,MBRL)的方法解决数据中心机架级AVT控制问题.主要贡献如下:1)提出了MBRL方法用于数据中心机架级AVT控制,消除了局部机架热点问题.并且对于AVT的控制采用其连续的行为空间,实现了AVT的细粒度控制;2)对于MBRL方法,本文在文献[1]的基础上对MBRL方法进行了改进.将文献[1]中线性的环境模型改为非线性的神经网络结构模型,使环境模型拟合更加精准.另外引入了策略神经网络学习模型预测控制器给出的专家行为,减少了整体决策的时间,利于系统向前推进;3) 通过在数据中心模型中进行仿真实验验证,仿真结果证明MBRL算法相比于PPO算法收敛速度快,并且MBRL算法相比于PPO算法节约了16%的功耗.

2 问题描述

数据中心普遍都是高架地板结构,如图1所示.

图1 数据中心气流组织Fig.1 Data center air distribution

机架面对面形成冷通道,背对背形成热通道.机房空调(computer room air conditioner,CRAC)通过下送风的方式,将产生的冷气输出到抬升地板的下气室.冷气经过穿孔通风地板进入冷通道,在服务器风扇的作用下穿过机架,带走服务器运行产生的热量,产生的热气流排进热通道.热通道的热气汇合被朝上开口的空调吸入进行换热.根据穿孔通风地板上是否安装风扇,可分为AVT和被动地板(passive ventilated tiles,PVT)两类.

安装被动地板的数据中心容易出现局部热点现象,即一些机架的一个或几个位置温度明显高于其他位置温度.通常机架热点产生的主要原因有两个:服务器运行负载过大.冷气供应不足引起热气回流,形成热点.容易形成热点的位置包括一些冷通道末排机架、机架顶端、机房空调周围机架等[10].在这些特殊位置,即使空调满荷运行,热点现象依然存在[11].针对当前数据中心机架的局部热点现象,在过热机架位置处的被动地板替换为主动地板,采用基于模型深度强化学习的算法控制AVT上的风扇转速,在不增加空调制冷能耗的前提下增强局部机架级冷气供应,实现降低整体机架温度的目标.

3 马尔可夫决策过程建模

AVT的控制是序贯决策过程,本文将AVT的控制问题建模为马尔可夫决策过程(Markov decision process,MDP).其中包括状态空间行为空间和奖励.

状态空间:采用机架进口温度分布作为系统状态.通过直接在服务器机架的正面安装一组温度传感器来测量入口温度分布.将温度传感器集合记为I,传感器I在t时刻的读数记为Tt,i,因此在t时刻的状态空间定义为向量st={Tt,i},i ∈I.

行为空间:通过控制主动地板上风扇转速实现对主动板的控制.本文将风扇转速定义为一个连续的行为空间,在t时刻风扇的转速为at,其范围定义为at ∈A=[0,fmax],其中fmax表示风扇最大转速.

奖励:奖励表示在当前状态下采取行为所获得的收益.本文的优化目标是消耗尽可能少的能源并且抑制局部热点,据此定义奖励函数如下:

奖励函数分为温度和功耗两部分组成,温度部分定义如下:

其中at ∈A,Amax为风扇转速最大值.显然,风扇转速越小,风扇功耗越低,风扇获得的功耗奖励Rt,E越大.式(1)中ω为平衡Rt,E与Rt,T的权重.由于Rt为负值,使得Rt最大化即趋向于0是本文的优化目标.

4 基于模型深度强化学习算法设计

无模型深度强化学习算法具有广泛的问题适应性.然而,无模型深度强化学习算法受到样本采样效率非常低的局限性,需要不断的与环境交互才能获得训练样本[13],因此在实时控制问题中难于应用.基于模型的强化学习算法通过学习环境模型可以直接与模型进行交互,不需要直接和真实的环境进行交互,因此样本采样效率更高.

4.1 算法设计

基于模型深度强化学习的AVT控制算法逻辑图如图2所示.强化学习智能体,通过策略网络选择行为at并执行到环境中,环境产生下一个状态st+1,并获得奖励rt,将智能体与环境交互产生的Experience(st,at,st+1)存储到Dl中进行训练环境模型,获取当前环境状态st+1通过环境模型与MPC控制器计算出在当前状态的最优行为,将st,存储到De中进行训练策略神经网络.

图2 算法逻辑结构图Fig.2 Algorithm logical structure

基于模型强化学习的AVT控制算法如下所示:

该算法第1步分别初始化经验回放池De,Dl,用于存放经验样本,分别用来训练策略网络(s)和环境模型(s,a).(s)通过输入当前时刻的状态预测行为.(s,a)通过输入当前时刻系统的状态和行为,预测出下一时刻系统的状态.第2步使用随机策略对环境进行探索,采集经验样本(s,a,s′)存储到Dl中,使用采集的经验样本预先训练(s,a).强化学习过程为第4–13步:其中,第4步观察系统当前状态.第5–7步使用ϵ-greedy策略在当前状态选择行为并执行,其中依概率ϵ在行为空间内随机产生行为,依概率1−ϵ使用策略网络生成行为,算法起始阶段ϵ较大,随着算法的不断迭代,ϵ逐渐递减,算法逐渐倾向于选择策略网络生成的行为.第8步观察系统的下一个状态并计算执行行为之后得到的奖励.第9步使用环境模型求解在当前系统状态下应该采取的最优行为(具体过程见第4.3节模型预测控制).第10–13步存储样本数据并训练环境模型与策略网络.重复迭代上述过程,当算法收敛时策略网络将学习到近似最优解.

4.2 构建环境模型与策略网络

算法的每次迭代过程中,在经验回放池中选取小批量样本(MiniBatch)将(s,a)训练K次.

4.3 模型预测控制

本文采用Random Shooting[14]的方式.随机生成M个维度为T的行为序列.使用环境模型预测出每个行为序列的累积奖励,然后将M个行为序列根据累计奖励进行排序,得到累计奖励最高的行为序列,如式(6):

将累积奖励最大的行为序列的第1个行为(at)∗∈作为最优行为存入到De中.而后,可利用模仿学习训练策略网络,即将(s)输出的行为与基于模型预测控制求解的行为的均方差作为损失函数训练策略网络,如式(7):

算法的每次迭代过程中,在经验回放池De中选取小批量样本(MiniBatch)将(s)重复训练K次.

5 仿真实验

5.1 实验环境

本文使用6SigmaDC进行CFD(computational fluid dynamics)仿真,数据中心采用典型的冷暖通道方式排列.数据中心内部环境具体设计如图3所示.

图3 数据中心布局Fig.3 Data center layout

数据中心由两排机架组成,其中每排放置了10个机架,其中每个机架内放置了5个4 U大小的标准服务器,每个服务器的功率是800 W,每个机架的总体功耗是4 kW.其中机房空调设置为送风温度控制,温度设置为22°C,风机转速设置为77%.经过初步仿真发现由于接近机房空调的机架热气回流现象严重,在该位置附近热点明显,所以在第1个机架上部署主动地板进行实验.

主动地板是由被动地板和9个风扇组成,其中每个风扇的风量取值范围为0到200的连续实数区间,单位为立方英尺每分钟(cubic feet per minute,CFM).在机架正面板上均匀放置6个传感器收集机架面板的温度.在主动地板的下面放置一个传感器,收集CRAC送风温度.

本文使用阿里云2018年发布的数据中心集群负载[15],用于模拟真实的数据中心服务器负载变化.该负载包括服务器CPU等资源利用率.由于服务器CPU的利用率与热负载成线性关系[16],本文将服务器CPU的利用率以线性方式映射为热负载.取得前190 step的热负载变化曲线如图4所示.

图4 热负载Fig.4 Thermal load

5.2 算法参数设计

表1 算法主要参数Table 1 Main parameters of algorithm

5.3 算法有效性验证

通过在实验环境中运行本文提出的算法,可以得出MBRL算法在抑制机架热点现象效果明显,如图5红框标记机架所示,其中上半部分左侧机架是使用被动地板时机架的温度分布,可以明显看到机架中上部温度明显高于下部,顶部温度达到33°C以上,热点现象非常明显.下半部分左侧机架是部署了主动地板之后机架的温度分布,明显的是机架整体温度分布变得非常均匀,整体温度分布在25°C,部署了主动地板的机架热点现象消失.所以通过部署主动地板可以改善机架的温度分布.可以有效的抑制机架热点现象.

图5 被动地板与主动地板的机架通风口温度Fig.5 The rack inlet temperature of pvt and avt

5.4 算法性能比较

为了验证本文算法的性能,将本文算法与无模型深度强化学习(MFRL)算法PPO[14]进行了比较.PPO是一种策略梯度算法,解决了策略梯度算法中步长难以确定的问题,在目前无模型深度强化学习算法中性能较好.PPO算法是基于Actor-Critic结构,其中Actor为选行为的策略神经网络,Critic是评价Actor选择的行为好坏的神经网络.本文将基于PPO的AVT控制算法作为基线用于性能比较.其中PPO算法中参数ε=0.2,Actor网络的学习率为0.01,Critic 网络的学习率为0.02.将本文提出的MBRL算法与PPO算法进行了对比.如图6即时奖励曲线所示.

图6 即时奖励Fig.6 The instant reward

随着算法的不断迭代,奖励呈现上升的趋势.从图中看到,在50 step之前PPO算法震荡明显,50 step之后算法开始收敛,本文算法在15 step之后开始收敛,所以本文算法前期的采样效率明显高于PPO.在50∼125 step之间两个算法都有较小的震荡,在125 step之后两个算法的即时奖励几乎持平.所以综合来看,基于模型的强化学习算法整体比较平稳,前期找到系统最优解的速度较快,算法收敛速度更快.

如图7平均风扇转速所示:MBRL算法和PPO算法在算法运行期间的平均风扇转速分别为158 CFM和174 CFM,因此MBRL算法运行期间的风扇功耗更低.根据风机定律可知风扇转速可以间接体现出风扇功耗,因此通过计算可得,与PPO算法相比,MBRL算法节约了16%的风扇功耗.

图7 平均风扇转速Fig.7 Average fan speed

6 结语

本文研究了数据中心机架级AVT控制问题,将AVT控制问题抽象为一个马尔可夫决策过程,并设计了一种基于MBRL的AVT控制算法.在数据中心模型中对MBRL算法进行了有效性验证,并与无模型PPO算法进行了性能对比,实验结果表明基于MBRL的AVT控制算法的采样效率与学习速度明显优于PPO控制算法,并且在抑制机架热点的同时,降低了AVT功耗.本文的研究内容,为当今数据中心局部冷却与主动地板控制提供了参考,对数据中心降低能耗,抑制局部机架温度过高具有重要的实际意义.

猜你喜欢
机架功耗风扇
无人驾驶替代农药喷雾车机架动静态特性分析
质子治疗装置旋转机架滚轮支撑结构及本体稳定性分析
基于任务映射的暗硅芯片功耗预算方法
夏日说“扇”
AirFan手持小风扇
兆瓦级风电机组前机架结构强度优化设计研究
最多支持36块显卡 德国水冷品牌AlphaCool推出矿机机架
电风扇
揭开GPU功耗的面纱
设计 创意风扇带来夏日凉风