张乾 徐欢乐 刘敬民
(1. 东莞理工学院 计算机科学与技术学院,广东东莞 523808;2. 香港中文大学 计算机学院,中国香港 999077;3. 维谛技术(西安)有限公司,陕西西安 710018)
数据中心是支撑大规模、关键任务的计算机领域基础设施,需要保持不间断运行,推动了IT行业的快速增长,甚至影响到经济发展[1]。数据中心的广泛应用主要由两个现象引起:一方面,大规模云服务提供商、电信运营商、银行和其他公司对数据计算、处理和存储的需求日益增长,这需要大型数据中心的支持,其中有的数据中心有数千台服务器(有时有数百万台服务器)[2];另一方面,应用程序的需求也促进了大规模计算机基础设施的建设。随着移动互联网的发展,我国已有数十亿网民使用移动互联网应用[3],例如淘宝、抖音、微信等,这类应用背后需要部署大量数据中心以支撑其向上亿人口提供服务。因此,数据中心在当今科技生活中发挥了重要作用,已成为必要的基础设施。
数据中心作为大规模计算基础设施,拥有巨大的能源预算,也导致了各种能源效率问题[4]。由于经济、环境和性能方面的影响,数据中心的能源效率也变得至关重要。首先,数据中心具有较高的经济影响力。数据中心空间的耗电量可能是同等面积大小的标准办公空间耗电量的100至200倍[5]。其次,数据中心消耗大量电能,而发电会造成多项环境问题[6]。在美国,数据中心消耗了全国所有用电量的1.7%至2.2%[7]。2012年全球数据中心消耗了270千瓦时的能源,从2007年至2012年,这种消耗的复合年增长率(Compound Annual Growth Rate,CAGR)为4.4%[8]。
数据中心内部系统中,主要有两类设备消耗电能:IT设备、相关基础设施(如冷却系统)[9]。衡量数据中心能源效率的一项重要指标便由以上两类设备的耗电量计算得出,这一指标为电能利用效率——PUE(Power Usage Effectiveness),2007年由美国绿色网格组织(The Green Grid,TGG)提出并将其作为数据中心能源效率的一项指标,目前被国内外数据中心行业广泛使用[10]。PUE计算公式如式(1):
PUE=Pt/Pit,
(1)
公式(1)中,Pt为数据中心总耗电量,Pit为数据中心IT设备耗电量。数据中心总耗电量必然包含数据中心IT设备的耗电量,所以PUE是一个大于1的数值,PUE越低,说明数据中心用于IT设备以外的能耗越低。在数据中心长期运行期间,PUE的值也会受到季节、天气以及IT负载等多方面的影响。通常来说,夜间的PUE要低于中午的PUE,为综合判断数据中心能源利用效率,使用连续24小时内检测得到的PUE均值进行评估。
在数据中心能耗构成中,制冷系统的能耗占比高达30%以上[11]。研究并优化数据中心的制冷方案,对于数据中心的能源节约有着十分重要的意义。本文要优化模块化数据中心(图1)的空调管理系统,是维谛技术有限公司开发并推向市场的模块化数据中心,其优势是有统一的建设标准,客户可根据自身业务需求进行定制。如图1所示,在数据中心内部,两侧交错摆放服务器S和空调AC,中间的通道称为冷通道,数据中心外部两侧称为热通道。当数据中心运行时处于封闭状态,服务器产生的热量进入冷通道,空调则会持续向冷通道吹入冷风,从而达到降温的目的。这种情况下,数据中心内部始终处于相对低温的环境,且冷通道与外界隔离,减少冷量流失,最大化利用空调制冷量[12]。此外,数据中心的IT负载以及外界环境温度都会发生变化,那么空调的开启状态设置也是要进行改变的。不合适的空调设置可能会制造过多或过少的冷量,冷量过多会浪费电能,冷量过少甚至会烧坏服务器。
图1 模块化数据中心平面图
在对冷却系统进行设置后,还需要考虑以下问题:
1)延迟影响。空调的设置在需要一定的时间才能起到调节环境温度的作用。在开启的瞬间空调能效比很低,会比较耗电,经过一段时间,随着环境状态趋于稳定,空调耗电也趋于稳定,这种情况下检测到的PUE值更具有代表性。
2)随机偏差。控制模块读取位于数据中心相应位置的检测设备(传感器、温度计等)的检测结果,其得到的检测数据不可避免会带来一定的随机偏差。
3)热点问题。模块化数据中心内部按照一个标准建设,但会发生一些无法预知热点问题,例如某个位置机柜只能吹到少量的冷风,导致这一位置散热效果略差。
为更好地控制数据中心冷却系统,本文提出一种基于在线学习的模块化数据中心空调管理方案,该方案可根据数据中心实时环境状态,给出空调设置决策(包括空调开启台数和设置温度),并始终保持在线学习,可适应环境的变化。此方案含有两个机器学习模型,第一个模型采用基于高斯过程置信上界(Gaussian Process Upper Confidence Bound,Gaussian Process UCB)的多摇臂赌博机(Multi Armed Bandit)决策出空调开启台数,第二个模型采用XGBoost回归模型在已确定空调开启台数的基础上决策出空调设置温度。双模型将决策空间解耦可加速学习过程,并且得到的决策可在保证数据中心安全的基础上,实现最低PUE。方案在维谛技术有限公司提供的数据中心模拟实验室进行测试,可在一周内实现出明显的优化效果,训练一周后,日均PUE稳定在1.25左右(IT负载固定在59 KW)。
二十一世纪初,人们更关注对冷却系统的优化,通过降低冷却系统自身耗能,以实现节能的目的。冷却系统优化涉及复杂的冷却系统控制,其中冷却系统由多个部件组成,如冷却塔、水冷机组和通风系统等。冷却系统控制的一种常见做法是调整设定点,即不同控制变量的目标值。例如,通过将空调器出口处的温度控制变量设置为所需的值,空调器可以通过消耗一定的能量来调整其内部状态以满足设定点。这些设定点的最佳选择可能是具有挑战性的,因为这个过程依赖于冷却系统的知识,从热动力学到力学。许多现有的方法都是基于一个近似的系统模型,该模型通常包含热、电和机械原理的一阶效应[13-14]。这些近似模型有时无法充分或准确地捕捉各种相互作用过程的复杂冷却操作,无法得到最佳或稳定的冷却控制。
因本研究要研究冷却系统设置结合当前环境状态对PUE的影响,以此开发算法模型对冷却系统进行控制,所以需要关注数据中心PUE相关的能耗模型。AeBischer等人[15]较早地提出数据中心能耗模型,如公式(2)所示:
(2)
在公式(2)中,n是类型i的设备数量,e是处于功能状态j的功率负载,u是用户k的使用强度。
Liu等人[16]研究发现,不同的工作负载下,电能使用效率也不同,他们将数据中心t时刻总电能表示为
V(t)=ηpue(t)(a(t)+b(t)),
(3)
在公式(3)中,a(t)是固定负载下的电能使用情况,b(t)是变负载下的电能使用情况。AeBischer和Liu的研究表明数据中心冷却系统设置同PUE之间存在联系,这为研究通过机器学习对数据中心进行节能控制提供了可行性。事实上,已经有学者尝试过在数据中心采用机器学习算法控制冷却系统并进行优化。
近年来,人们开始研究机器学习在数据中心节能中的应用,这类方案不假定底层系统的任何特定模型,而是从系统状态和能耗上收集的海量数据中学习并得到控制策略[17]。2014年,谷歌工程师首次采用神经网络解决超大型数据中心节能问题,他们利用大型神经网络建模,采用监控数据进行训练,从而去预测整个数据中心下一时刻的PUE[18]。其中,神经网络包含5个隐层,输入达19个参数,包含IT负载、温度、湿度、冷水机组、冷却塔数量、设备位置等。这一方案使用预先采集的离线数据,适用于超大型数据中心,无法被大面积推广,但证明了机器学习用于提升数据中心能效方面是可行的。杨振等人[10]在谷歌模型基础上做出了改进,他们在输入参数中加入了室内外温度、湿度、以及冷却水管温度等特征,从而更全面地描述环境状态。但以上方案有两点不适用于解决本文的问题。一是以上方案均采用离线数据集训练,需要收集足够数量的数据;二是以上方案面向超大型数据中心设计,最终训练得到的模型仅适用于被采样的数据中心,无法直接用于其他数据中心。本文目标是全程采用在线学习的方式,在较短时间内训练模型并有较好的优化效果,且模型始终处于学习状态,以适应环境的变化。
除了大型神经网络模型,还有人研究采用强化学习进行数据中心节能。强化学习属于机器学习,近年来其研究发展迅速,为应对解决复杂的问题,人们采用神经网络作为强化学习决策模型,将其称为深度强化学习(Deep Reinforcement Learning,DRL)。在游戏领域和虚拟机任务调度领域,深度强化学习已取得了进展[19-20]。深度强化学习可实现在线学习的方式,适合解决一些数据中心节能问题。Li等人[21]就已经采用深度强化学习算法进行处理数据中心冷却系统优化,他们将工作负载列表和环境温度列表定义为状态空间,采用PUE和每个区域的IT设备出风口温度作为收益值。他们的训练目标是最小化PUE,同时将IT设备出风口温度保持设定目标温度,收益值如公式(4):
(4)
在公式(4)中,s表示当前的冷却系统设置,εpue表示检测到的PUE值,T是检测到的IT设备出风口温度,φ则是设定的标准温度。但基于现实条件,可以获得的数据中心监测数据量还是太小,依靠PUE收益值的设计排除那些PUE低但温度较高的决策无疑会影响学习效率。经过实验,发现深度强化学习效果并不理想,转而采用一种复合式的在线学习方案。该方案采用多摇臂赌博机和XGBoost两个机器学习模型将空调设置的决策空间解耦,可加速训练。
多摇臂赌博机模型将决策视为一个个摇臂,决策时根据估计的各个摇臂收益值选择摇臂,做出选择后可根据真实的收益值进行训练。经过多轮决策,模型估计各个摇臂的收益越来越精确,从而做出最佳选择。
实现多摇臂赌博机的重要挑战是需要平衡探索和利用,以尽量能选择到哪些收益最高的摇臂。一方面,要多选择那些过去的实验中收益最高的摇臂,这属于利用;另一方面,要均衡选择,争取所有摇臂都被充分选择,这属于探索。在训练过程中,若过多注重利用,即频繁选择之前收益值更高的决策,一些潜在的好决策将无法被选择,造成模型训练陷入局部最优,对收益值的估计失准;若过多注重探索,即频繁随机选择决策,不参考模型对各个决策的收益估计值,那么会做出大量不好的决策,这样会大大降低模型的有效率。因此,需要对探索和利用做一个合适的权衡,避免过于偏向两者任何一方。
对于平衡探索和利用,最简单直接的策略就是ε贪心策略。在每轮试验t中,该算法首先估计每个摇臂的平均收益μt。然后,用ε的概率进行贪心选择,即选择收益最高的摇臂,以1-ε的概率随机选择摇臂。在训练轮次够多的情况下,每个摇臂都会被充分地尝试,模型每个摇臂的收益估计值μt也会更加精确。 此外,随着训练轮次的增加,可适当增大ε,这样将会逐渐降低探索的机率,增加利用的机率,从而保证模型收敛后做出更多收益高的决策。
与ε贪心所采用的非引导探索策略相比,置信上界(Upper Confidence Bound,UCB)策略使用一种更聪明的方法来平衡探索和利用。简单来说,就是每个摇臂的预估收益值由根据历史数据估计的收益值加上置信区间的长度得到。在第t轮训练期间,采用相应的算法去估计各个摇臂的收益值μt,a和相对应的置信区间ct,a,使得|μt,a-μr| (5) 在一轮训练中,对于过去训练中选择次数较少甚至未选择过的摇臂,其置信区间比较大,最终预估到的置信上界也会很大。对于多次选择且收益较高的摇臂,虽然置信区间很小,但预测的收益值很大。因此,UCB可以引导学习器倾向于选择那些表现好的或者选择次数不足的摇臂,从而比较好地解决探索和利用之间的权衡问题。 近些年多摇臂赌博机模型在多个领域(推荐系统,云资源配置等)皆有应用,并有了改进的实现方式。Li等人[22]提出了基于的Linear UCB多摇臂赌博机的个性化新闻推荐模型,用于雅虎的新闻推荐系统。Linear UCB是线性回归结合多摇臂赌博机的方案,其中使用岭回归对收益值进行回归预测。Liu等人[23]提出了Accordia模型——利用高斯过程置信上界(Gaussian Process UCB)结合多摇臂赌博机去决策自适应云服务最佳资源配置,其中采用Gaussian Process UCB进行计算各摇臂的收益值和置信区间。本文的在线学习方案也是将基于Gaussian Process UCB的多摇臂赌博机作为第一个模型。 μt(x)=kt(x)T(Kt+σ2I)-1yt, (6) kt(x,x′)=k(x,x')-kt(x)T(Kt+σ2I)-1kt(x′), (7) (8) 在第t轮决策周期,已经观察到t-1个样本数据,yt-1={y1,y2,…,yt-1}和At-1={x1,x2,…,xt-1},则可以采用公式(6)和公式(8)进行预测当前状态下选择每个摇臂所得到的收益值以及方差。可以根据公式(9)来选择第t轮要选择的摇臂(决策,即开启的空调台数): (9) 在公式(9)中, 其中times表示迭代次数,n表示存储的样本的数据量。 为了优化模块化数据中心冷却控制系统,提出的方案要能够根据当前的环境状态决策出数据中心的空调开启台数和设定温度,使得当前数据中心的冷通道温度维持在设定的目标温度,且空调的耗电量最低。采用日均PUE作为衡量数据中心能源利用效率的指标,并且保证冷通道温度稳定。一方面,数据中心的冷通道温度过高,会降低服务器散热效率,甚至会烧坏服务器硬件;另一方面,只有控制住冷通道温度这一变量,才可根据日均PUE来评估数据中心电能利用效率。因此,本目标就是:在冷通道温度维持在设定值的情况下,使得模块化数据中心PUE值最低,用数学公式表达如下: 珠三角、长三角、京津冀作为中国区域经济一体化的三大重点经济圈均受到了不同程度的政策倾斜与支持,改革开放之后,随着上世纪70年代深圳经济特区和90年代上海浦东新区的建立,珠三角与长三角的对外贸易和区域经济发展都得到了不同程度的推动。京津冀地区身处内陆,缺乏长三角和珠三角的对外贸易地理优势。同时相较于北京天津高水平的科技实力和对人才的强劲吸引力,河北省在基础设施建设、高新技术水平提升和产业结构优化等多个领域都与京津地区有较大差距。因而,要推进区域经济的协调发展,推动京津冀地区一体化水平的提升,需要通过新区的建设来增强河北省经济发展和产业结构调整的动力,从而提升京津冀协调发展水平[2]。 s.t:T0-V (10) 公式(10)中,T0表示目标冷通道温度,V表示允许温度波动的范围,Ps,t表示数据中心在t时刻的空调设置为s情况下的PUE,Ts,t表示数据中心在t时刻的空调设置为s情况下的平均冷通道温度。 为实现目标,要求模型可在一轮决策周期内对空调的开启台数和设置温度进行控制,并在保持冷通道温度达标的情况下,降低模块化数据中心PUE,直到PUE收敛到某一值。从模型上线时起,模型即可对冷却系统设置不断做出决策,同时搜集数据进行在线学习。在一轮决策周期内,模型首先从各类传感器得到环境状态,然后给出决策,之后得到新的环境状态和收益值,模型根据新的环境状态做出决策并使用收益值进行在线学习。决策共包含两个信息:空调开启数和设置温度。假定模块化数据中心配有6台空调,设置温度区间范围是18 ℃-22 ℃,只取整数选项。通常情况下,决策空间由全部空调开启台数决策和全部空调设置温度排列组合得到,那么决策空间大小将是空调开启台数决策空间和设置温度决策空间大小的乘积,即6*5=30,这样会产生两个问题: 1)决策空间过大,且含有过多无用决策,从而降低学习效率。例如,开启全部空调,设置18 ℃情况下冷通道温度会远低于设定值,导致制冷过度 2)决策空间中含有高危决策。例如,开启两台空调,设置21 ℃情况下,冷通道温度过高,服务器产生的热量无法及时排出,导致烧坏服务器。 为避免以上问题,采用两个算法模型分别对空调开启数和设置温度给出决策。即第一个模型首先给出空调开启台数决策,第二个模型跟据环境状态和空调开启台数决策空调的设置温度。双模型可将动作空间进行解耦,使得动作空间缩小数十倍,又可以避免选择不合适的决策。 每5分钟读取一次环境检测采样,设定训练周期为一个半小时,包含18组样本数据。在一轮决策周期开始时,模型会做出决策,包含空调开启台数和设置温度,采用决策周期最后4次检测样本的平均值作为此次决策后的环境状态state和PUE值,从而解决延迟影响和随机偏差。为解决热点问题,按照空调台数进行分区,每个区域所有检测结果的平均值作为该区域的环境状态。 对于空调开启台数,采用基于Gaussian Process UCB的多摇臂赌博机模型进决策。当一轮决策周期开始时,多摇臂赌博机模型会得到当前的环境信息,将环境状态同各个空调开启台数组合得到一组x(包括IT负载、平均送风温度、平均回风温度、平均冷通道温度、平均热通道温度、空调开启台数),然后将其分别代入Gaussian Process UCB公式进行计算,最后根据公式(9)进行决策空调开启台数。 对于设置温度,采用XGBoost回归模型进行决策。XGBoost是基于决策树的回归模型[26]。当多摇臂赌博机模型给出空调开启台数的决策时,将其同环境状态组合,作为监督学习的样本值,然后根据XGBoost回归模型预测各个空调设置温度下的冷通道温度,选择最接近设定的目标冷通道温度的设置温度决策。 图2 XGBoost模型预测过程 如图2所示,为了精准调节冷通道温度,将每个决策周期的环境状态以及空调设置作为特征X,将每个控制周期稳定后的冷通道温度作为标签Y。一方面,XGBoost回归模型采用数据集进行拟合训练;另一方面,XGBoost根据特征X去预测一轮训练周期结束时的冷通道温度。图3描述了使用XGBoost回归模型进行决策的全部过程。在进行空调设置温度决策时,首先将环境状态同空调开启台数组合,并依次拼接所有的设置温度(例如18 ℃,19 ℃,20 ℃,21 ℃,22 ℃)得到几组特征X,接着使用XGBoost回归模型依次预测每组特征X对应的冷通道温度Y,最后选出最接近目标温度的冷通道温度Y,其对应的特征X中的设置温度即为此次温度决策。整个过程如图3所示,此时环境状态(包括IT负载、平均冷通道温度、平均热通道温度、平均送风温度、平均回风温度)和空调开启台数已经确定,将各种设置温度决策带入,依次预测相应的冷通道温度。图3中可以看出,空调设置温度为19℃时,预测的冷通道温度最接近设定的目标温度(22℃)。 图3 XGBoost模型决策过程 介绍了多摇臂赌博机模型和XGBoost回归模型各自模块的决策过程,那么方案整体流程如图4所示,方案总共包括四个阶段: 1)每个决策周期开始时,在线学习模型得到当前的环境状态,将其输入第一个决策模型多摇臂赌博机,该模型根据公式(9)得出空调开启台数决策。 2)将空调开启台数同环境状态组合,得到新的数据,输入第二个决策模型XGBoost,该模型可得出空调设置温度决策。 3)将空调的完整决策输入控制系统进行应用,数据中心相应数量的空调将会处于开启状态,同时设定相应的温度。 4)数据中心环境随之变化,等到决策周期结束的时候,在线学习模型可得到数据中心PUE值,可用于模型训练,同时获得新的环境状态,接着重复1)、2)、3)步骤,进入新一轮训练周期。 图4 整体方案流程 在维谛技术有限公司提供的模块化数据中心实验室测试算法模型,每次测试为期十天左右。该类数据中心实验室可模拟真实场景下的数据中心并提供相应的IT负载环境。在数据中心实验室测试算法模型要注意以下两点:1)测试流程按照现实进行,比较费时且花费巨大,故在实验室部署测试前需要确保算法有效,避免无效的方案浪费时间;2)实验室完全模拟模块化数据中心环境,需要考虑安全性问题,部署前须确保方案不会导致实验室处于危险状态——机柜温度过高。针对以上两点,在设计开发方案时,需要提前在相应的环境模拟器进行测试。模拟器可像真实部署环境一样提供环境状态,并接受方案提供的决策。 在开发过程中,模拟器由公司相关业内人员根据服务器产生热量,空调制冷等相关参数开发并提供。最终采用环境模拟器和实验室对方案进行测试,并进行对比实验。其中,第二个模型固定XGBoost不变,第一个模型除了基于Gaussian Process UCB的多摇臂赌博机算法外,还会换成深度强化学习和基于Linear UCB的多摇臂赌博机进行测试对比。 首先在模拟器上面进行固定IT负载环境测试,之后在模拟器上面进行变IT负载测试,最后选择方案在维谛技术有限公司提供的实验室进行测试。 测试过程包含如下两个阶段: 1)实验的前三天,进行随机决策以获得样本数据用于XGBoost模型初始训练数据集; 2)采样完毕模型即会进行在线学习,并跟据当前环境状态做出空调控制决策。 首先设定数据中心的IT负载变化幅度很小,在数据中心整体IT负载稳定时,环境状态整体比较稳定,空调的决策也趋于稳定。这种情况下,空调的开启台数在昼夜交替的时候会变化,甚至不变,PUE的变化也会趋于稳定,因此学习难度也会更低。在环境模拟器上进行测试Gaussian Process UCB,Linear UCB,深度强化学习(DRL)三种方案。三种方案只有第一个模型不同,第二个模型均为XGBoost回归模型。 由于固定IT负载情况下学习难度较小,三种方案经过短时间训练即表现出优化效果,PUE迅速下降到较低的水平,且可以收敛。如图5所示,在固定IT负载情况下运行三种方案,可见到三种方案均起到优化效果,PUE降低,并可收敛。并且基于多摇臂赌博机的方案比基于强化学习的方案更优,其最终PUE更低。 图5 固定IT负载下PUE变化趋势 实际应用场景中,IT负载会因为业务变化或者一些外界因素出现抖动,这一现象势必也使得PUE变化,增大优化控制难度。调整了模拟器的参数,使得IT负载随着时间变化,且变化频率和幅度超过实际应用场景的变化程度,其他条件不变,在此基础上进行上述三种方案的测试。 两种基于多摇臂赌博机模型的方案可以较快地降低PUE,使其最终收敛在较低的水平,优化效果比较好。如图6所示,在IT负载变动情况下运行三种方案,深度强化学习的效果远不如Gaussian Process UCB 和Linear UCB方案,PUE优化效果不佳,后期无法稳定,甚至会PUE转而升高的现象。 Linear UCB同Gaussian Process UCB算法效果接近,使得PUE降低,直至收敛稳定。其中,Linear UCB收敛速度很快,Gaussian Process UCB方案探索性更好。 图6 变IT负载下PUE优化效果对比 将Gaussian Process UCB方案和深度强化学习方案部署在维谛技术有限公司提供的数据中心模拟实验室进行测试对比。实验室完全拟真模块化数据中心,前期设定IT负载为59 KW,若一周内观察到PUE明显降低且趋于稳定则会将IT负载降低为45 KW测试模型是否能适应IT负载的变化。在此需要说明,两个方案的测试时间相隔两个月,而现实数据中心环境会随着季节,天气发生改变,所以在模拟实验室的测试并非为了单纯比较PUE值的高低,而是比较PUE的下降趋势和冷通道平均温度是否稳定。 经过两周的实验室测试,Gaussian Process UCB方案效果比较理想,可根据环境选择合适的空调设置,降低数据中心PUE,并且可适应IT负载的变化。如图7所示,测试前七天内,Gaussian Process UCB方案可发挥明显的优化效果,PUE呈现下降趋势,第七天降低IT负载后,PUE短暂升高,但Gaussian Process UCB方案可适应环境的变化,继续进行学习优化,PUE随后降低并保持稳定。而基于强化学习的方案在实际场景中表现不理想,在全程没改变IT负载地情况下,初期可以见到PUE曲线降低,后期PUE曲线一直不稳定,出现了PUE再次上升的情况。 图7 场景测试PUE趋势对比图 在测试过程中,Gaussian Process UCB方案不仅可以降低PUE,还可以维持冷通道温度在设定值,可保证数据中心的安全。如图8所示,Gaussian Process UCB方案将冷通道温度维持在设定的目标温度(22℃)附近,数据中心的安全得以保证。而强化学习方案对冷通道温度控制不佳,始终在波动,后期甚至出现冷通道温度上升的情况。 提出了用于数据中心节能的在线学习方案,该方案包含两种机器学习模型,首先采用基于Gaussian Process UCB的多摇臂赌博机模型决策空调开启台数,然后用XGBoost回归模型决策空调设置温度。实验表明,该方案可使数据中心控制系统根据环境状态智能选择空调开启台数和设置温度。在没有任何前置训练的情况下,该算法搜集数据并进行学习,可在一周之内达到较好的优化效果。在技术细节方面,该方案有以下两个优势:第一、多摇臂赌博机模型结合XGBoost模型进行在线学习与空调控制,将可选动作空间解耦,加快在线学习的收敛速度,并可灵活调整目标温度;第二、模型以在线学习的方式持续学习,可适应环境的变化,包括IT负载变化、昼夜轮转、季节变换。 图8 场景测试冷通道温度趋势对比图2.2 高斯过程置信上界
3 方案设计
3.1 方案目标
3.2 方案流程
3.3 整体方案流程
4 实验分析
4.1 测试环境
4.2 测试流程
4.3 固定IT负载
4.4 变IT负载
4.5 模拟实验室
5 结语