殷佳辉 朱兵 张一鸣 黄金森 苗益川
关键词:数据中心;气流模拟;机器学习;快速预测;热参数
中图分类号:TK221 文献标识码:A 文章编号:1006-8228(2023)11-71-06
0引言
传统行业与云计算、人工智能、5G、物联网技术呈深度融合的趋势,数据及流量爆发式增长使数据中心向着大规模、高密度的方向发展[1],导致数据中心能耗逐年增加。数据中心的能耗由IT 设备、制冷系统、供配电和照明系统三部分组成。其中IT 设备占总能耗50%[2],其产生的热量直接决定了空调负荷的大小,影响空调能耗;而空调运行参数的改变,反过来影响着IT 设备的运行环境及其运行能耗,两者的能耗因热环境而彼此耦合[3]。因此,以IT 设备的负载动态变化为基础,预测数据中心的温度情况,探索数据中心热环境与能耗之间的平衡、对于数据中心能源优化管理具有现实意义。
基于计算流体力学(CFD)模拟的方法是预测数据中心温度分布的主流办法[4]。但CFD 预测过程中需求解复杂的数学物理模型,大型的数据中心机房往往需要划分几十万到几千万的网格[5],求解过程困难,难以实现气流的实时预测。近年来兴起的机器学习预测方式使数据中心气流组织的实时预测成为可能,对此国内外学者已有一些研究。Song Zhihang[6]开发了基于计算流体动力学(CFD)仿真的人工神经网络(ANN)模型对高架地板入口气流的温度和速度预测。Tsukamoto 等[7]人开发了可基于低网格数CFD 模型计算出的机柜出口风速对高网格数CFD 模型的机柜出口风速做出预测的深度神经网络(DNN)回归预测模型。Athavale 等[8]评估了人工神经网络(ANN)、高斯过程回归(GPR)和支持向量回归(SVR)三种机器学习方法对数据中心稳态工况下机架入口温度分布的预测性能。石桃桃等[9]建立了多参数POD 降阶温度场预测模型,基于POD-IDW 模型预测机柜进出风平面的温度场分布。
上述学者在数据中心气流组织优化、模型开发和数据中心结构设计等领域取得了大量研究成果,但在模型评估与优化及稳态热环境实时预测等领域研究不够深入。虽然CFD 模拟可以提供实验难以得到的特殊工况下的气流分布数据,但目前CFD 计算中常用的湍流模型并不适合,准确性较差,难以为快速预测模型提供高保真数据。基于此,本文为提高CFD 预测数据中心气流组织稳态热参数的准确性,以雪城大学/IBM 绿色数据中心(GDC)实验室(RL)[10-11]为模型。通过参数化仿真,模拟了在不同机柜负载率下的稳态温度分布建立CFD 数据集,并基于CFD 数据集训练将其用于Elman 神经网络,RBF 神经网络和SVR 支持向量回归三种机器学习模型训练。从而实现对不同机柜负载率下空调回风温度的快速预测,并评估了不同机器学习模型稳态热参数预测性能。
1 数据中心模型
1.1 实验模型
实验室共设有R1、R2、R3 三个大功率模拟机架,每个机架长1m,宽0.61m,高2m,在满载时可产生102kW 以上的热量(每个机架约34kW),每个机架包含四个模拟机箱,每个机箱均设置有恒速风扇和可变功率加热器,模拟机箱的流量特性和瞬态热响应特性与真实IBM 刀片机箱相同。并且高架地板模型采取数据中心常用的的体积力模型;湍流模型采用standard k-e 湍流模型。每个机箱的最大功率见表1。
1.2 CFD 模型及边界条件设置
如图1 所示,机架吸入穿过高架地板进入机房的空气以及部分房间内的再循环空气冷却机架,机架的排气进入机房与房间空气混合,然后进入空调回风口进行降温,冷空气进入增压室后穿过高架地板进入房间完成循环。
将实验室模型的计算域包含除机柜内部和增压室之外的整个房间,房间墙壁、天花板均为无滑移绝热边界、由于实验时未开启CRAH2 所以同样将其设置为绝热边界,地板设置为温度边界,机柜前方十块高架地板设置为速度入口,CRAH1 设置为质量出口,本实验研究房间级的气流组织,未对机柜内部气流进行分析,将机柜建模为一个黑箱,机柜入口为压力出口,机柜出口为速度入口,根据实验数据对机柜进行设置,边界条件及参数设置见表2。
稳态仿真基于三个机柜全部满载情况下进行,数据中心实际运行过程中服务器负载变化范围为0~100%,而负载率的变化直接影响机柜的出口温度,因此在探究机柜出口温度对针对12 个模拟机箱在不同的负载率下进行仿真抽样,为了确保数据集的填充,且尽量减少仿真次数,使用拉丁超立方抽样对12 个模拟机箱的负载率建立了容量为500 的样本,使用黑箱模型计算出不同负载率下的机柜出风口温度,此外,由于实验室模拟机箱均为恒速风扇,因此机柜出口流量不发生变化。
2 机器学习模型训练
建立CFD 数据集后,将数据集用于机器学习模型的训练,为了建立更准确的数学模型分别采用了三种机器学习算法,包括Elman 神经网络、RBF 神经网络与SVR 支持向量回归机。将12 个模拟机箱的出风温度作为输入参数,空调回风温度作为输出参数,进行了参数化仿真,完成500 组数据的仿真时间约为2500 分钟,且避免了繁杂的后处理工作。
2.1 Elman 神经网络
Elman 神经网络特点是其在隐含层中添加了一个可进行一步延时的承阶层[12],承接层将隐含层的输出进行延时与储存,并在下一时间步将其传递到隐含层的输入,使其对历史数据具有敏感性,从而使网络可以适应时变特性[13]。Elman 神经网络结构如图2 所示。
2.2 RBF 神经网络
本文使用的RBF 基于MATLAB 神经网络工具箱,该神经网络由三个层组成包括输入层,由隐藏层神经元构成的径向基层和由输出层神经元组成的线性输出层,构建函数newrbe 可建立精確径向基神经网络,与常用的中心选取方法不同,该函数直接将样本作为中心,并将第一层权值设置为输入向量的转置向量。其网络结构如图3 所示。
2.3 SVR 支持向量回归
支持向量机是一种监督学习的机器学习模型,它用分类算法来解决二分类问题,可利用已经标记了类别的训练集来训练SVM 模型,然后用它来对新的文本进行分类。支持向量机的分类问题求解思路是先将样本映射到一个特征空间内,基于间隔最大化的原则在特征空间内找到一个超平面对样本进行分割,对于多元分类问题,可将其分解为多个二分类问题进行分割。支持向量机结构如图4 所示。
3 训练及预测结果评价分析
3.1 Elman 神经网络预测结果分析
使用Elman 神经网络对空调回风温度进行预测,隐含层神经元数量设置为58 个,承接层神经元数量为1 个,epochs 设置为10000 次,学习率设置为0.1,由图5可知在训练集的期望输出与预测输出吻合较好,但在某些样本点仍有一定程度的误差。由图6 可知在测试集与训练集的误差情况大致相同,但在某些点仍有一定程度的误差,没有出现过拟合。Elman 预测性能指标见表3。
由表3 可知Elman 神经网络表现出了很强的预测能力,训练集和测试集的均方根误差分别为0.11424K和0.13722K,远低于0.5~1K 的测量不确定度,训练集和测试集的最大误差分别为0.40172K 和0.3526K 说明Elman 神经网络对某些点的拟合情况不够理想,但精度均在可接受范围内,Elman 神经网络的训练时间约为11 秒。
3.2 RBF 神经网络预测结果分析
使用MATLAB 中的精确径向基神经网络对空调回风温度进行预测,结果如图7 所示。
由图7 可知,训练集的期望输出与预测输出吻合较好,没有观测到有明显误差的样本。由图8 可知,测试集的期望输出与预测输出吻合情况与训练集相似,没有观测到有明显误差的样本,没有出现过拟合。RBF 神经网络的预测性能指标见表4。
由表4 可知,RBF 神经网络表现出了很强的预测能力,训练集和测试集的均方根误差分别为0.04937K和0.05713K,训练集和测试集的最大误差分别为0.16601K 和0.21838K,均方根误差与最大误差均远低于0.5~1K 的测量不确定度,在空调回风温度预测的问题中RBF 神经网络的精度明显优于Elman 神经网络,此外RBF 神经网络还有更快的学习速度,训练用时1.56 秒。
3.3 SVR 预测结果分析
使用基于MATLAB 的SVR 工具箱中的RBF 核函数SVR 模型对空调回风温度进行预测,由图9 可知SVR 预测模型训练集的期望输出与预测输出吻合较好,没有观测到有明显误差的样本。由图10 可知测试集的期望输出与预测输出吻合情况与训练集相似,精度较高,没有出现过拟合。SVR 预测性能指标见表5。SVR 预测性能指标见表5。
使用基于RBF 核函数的支持向量回归机的预测结果各项数据均优于RBF 与Elman 神经网络,训练集和测试集的均方根误差分别为0.0437K 和0.0481K,训练集和测试集的最大误差分别为0.0.07863K 和0.13206K,均方根误差与最大误差均远低于0.5~1K 的测量不确定度,在空调回风温度预测的问题中SVR 表现出了比神经网络更高的精度,此外支持向量回归机有比神经网络更快的学习速度,训练用时0.86 秒。
3.4 机器学习模型训练效果分析
由三种模型的模拟结果可知,在三种模型中Elman模型计算时间最长精度最差,RBF 模型计算时间大幅减少同时精度也有所提高,SVR 模型表现最佳,有最短的计算时间和最高的精度。从网络结构上看Elman 神經网络常用结构为四层,在隐含层增加一个承接层,RBF 神经网络只有一个隐含层,并且输入层到隐含层单元之间为直接连接,RBF 神经网络的结构更加简单,需要确定的模型参数更少。从训练方式上看,Elman神经网络需要确定的参数是连接权值和阈值,主要的训练算法为BP 算法或改进的BP 算法;RBF 神经网络可以动态确定隐含层单元数、数据中心和扩展常数等参数,训练算法支持在线和离线训练,有较强的输入和输出映射功能,并且理论证明在前向网络中RBF 网络是完成映射功能的最优网络。RBF 神经网络从隐层空间到输出层空间的变换是线性的,这样可以有效地降低计算复杂度内存消耗。因此,从理论上来说,RBF 神经网络具有更快的学习速度、更好的逼近性能、更优的泛化能力、更简单的结构参数学习等优点。
与RBF 神经网络和Elman 神经网络相比,SVR 结构更简单,参数更少,SVR 只需要在输出层进行误差反向传播和权重更新,而RB 神经网络需要在每个隐含层都进行误差反向传播并根据梯度下降法进行权重更新,因此SVR 的训练过程更简洁,计算量更小。此外数据中心内部热参数具有较强的相关性,所以不必使用结构较复杂的神经网络,使用SVR 即可实现数据中心热参数的准确快速预测。SVR 相比于RBF 神经网络和Elman 神经网络,不需要确定隐含层的结构和数量,也不需要进行复杂的误差反向传播算法,训练过程更加简单和高效,SVR 可以有效地处理高维数据和小样本数据,而不会出现维数灾难或过拟合问题且SVR 可以通过调整核函数、惩罚参数和松弛变量等超参数,来控制模型的复杂度和精度,具有较强的灵活性和鲁棒性。
4 结论
通过参数化CFD 仿真建立不同机柜负载率下空调回风温度的数据集,分别使用Elman 神经网络、RBF神经网络与SVR 支持向量回归机对数据中心稳态运行情况下的空调回风温度进行预测,三种模型均在短时间内实现了较为准确的预测。在三种机器学习模型中,SVR 支持向量回归机凭借其训练过程更简洁,计算量小的优势成为精度最高、训练速度最快的机器学习模型,均方根误差为0.048K,训练时间为0.86s。原因是数据中心负载率与空调回风温度具有较强的关联性因此并不需要复杂结构的神经网络即可建立快速预测模型,因此结构简单、泛化能力强的SVR模型更具有优势。