陶文铨,靳姝琦,李 楠,戴艳俊(西安交通大学数据中心节能与低碳技术重点实验室,陕西西安 710049)
数据中心(Data center,DC)通常是指具备可实现数字信息的集中处理、传输、交换以及存储管理硬件的物理空间,就像是数据集中存储和运作的“图书馆”。数据中心中的核心设备为服务器及网络交换设备,其他关键运营辅助设备有制冷、供电、消防、监控等系统。数据中心中的服务器及其他各类电气元件通常设置于机柜内,所以机柜是数据中心中最重要的部件。安置机柜的机房常称为主机房。数据中心的建设包括基础建筑的设计、电力能源的供给、机柜的布置、冷却方式的选择及运行中的管理、控制与操作,涉及到多个学科与专业,它是一个交叉工程领域与行业。
随着物联网、人工智能和云计算等计算科学技术的迅猛发展,我国数据中心发展也十分迅速,一个数据中心中包含的机柜数目从早先的几十个发展到目前的几千乃至上万个。与之相应的数据中心的能耗问题日益严峻,逐渐成为了社会上的用电大户。数据中心需要消耗大量电能的主要原因来自于对电子元器件的冷却需求。数据中心中包含了大量的用于处理、传输、交换及存储信息的电子元器件,它们在工作过程中都会产生热量,使得其温度升高。电子元器件的失效率随着温度升高呈指数式上升,图1 所示为典型的电子器件失效率随温度升高的变化曲线[1]。数据中心冷却技术的根本任务就是及时排走这些热量以保证电子器件工作在允许的温度下。
图1 电子器件失效率与温度的关系
冷却数据中心的最方便及经济的方法就是空气冷却,从数据中心开始形成的早期直到现在仍然被广泛采用,冷却气流组织的好坏对节约数据中心电能的消耗至关重要。近年来随着芯片功率的不断上升,单位面积的产热量(热流密度)不断增加,空气冷却已经无法满足这些高热流密度原件冷却的需要,液体冷却开始被较广泛地采用,目前较多的是采用冷板冷却的方式,此时高热流密度的器件采用冷板冷却,而低热流密度的器件一般仍然采用空气,业界称为双通道冷却技术[2],对于这情形,机房气流组织仍然是影响数据中心能耗的重要因素。即使到了数据中心广泛采用浸没冷却的时候,空气冷却仍然不会失去其应用。
《数据中心设计规范》(GB 50174−2017)[3]中指出,“在设计数据中心时,CFD 气流模拟方法对主机房气流组织进行验证,可以事先发现问题,减少局部热点的发生,保证设计质量”。气流组织研究的根本目的是要使气流中的冷量完全用于冷却电子器件,尽量减少冷热气流间的掺混,如图2 所示[4]。本文正是基于这样的考虑,着重研究数据中心中空气冷却的数值仿真技术及其目前的研究方向。
图2 冷热气流的掺混示意图
为保证数据中心电子元器件在被冷却过程中不受到气流中的尘埃及水蒸气的腐蚀,对主机房(即安置机柜的房间)空气品质有严格要求,例如按照《数据中心设计规范》(GB 50174−2017)[3],主机房空气的进口温度需在18~27∘C,而粒子的浓度,在静态或动态条件下测试,每立方米空气中粒径大于或等于0.5µm 的悬浮粒子数应少于17 600 000。因此这样纯洁的空气在被电子器件加热后必须循环使用。就是要把它冷却到18~27 ℃再进入主机房使用。我们把气流在主机房冷却电子元器件的过程称为一次冷却,而被加热的气体在主机房外被冷却的过程称为二次冷却。图3给出了一次冷却与二次冷却的示意。
图3 一次冷却与二次冷却
从热量传递的过程区分一次冷却与二次冷却具有重要意义。一次冷却是空气流与发热的电子元器件之间的对流传热,即IT 设备的冷却,旨在控制机房内IT设备的温度,包括空气冷却、液体冷却(间接和直接)等;这部分本质是对流热传递问题,所谓的数据中心冷却技术的进步多指一次冷却,它发生在机房内(空调行业称之为末端);而二次冷却是一次冷却介质的再冷却,一般是高温流体(如被加热了的空气)与低温流体之间的热量传递过程(Overall heat transfer),即热量从一种介质通过壁面传递给另一种介质。二次冷却发生在主机房外。传热学中称为“传热过程”[5]。为了减少能量的消耗,对流传热的强化与传热过程的强化既有相同的方面,也有不同的考虑。一次冷却与二次冷却的对比如表1所示。
表1 一次冷却与二次冷却的对比
本文着重研究数据中心主机房内冷却空气的流动与传热问题的数值仿真有关问题,不涉及二次冷却问题。
文献[6]中对于空气冷却的数据中心的能耗做了如图4 所示的分析,从图4 可以看出,一次冷却在冷却功能模块中约占1/3,二次冷却占2/3。但值得指出的是,如果一次冷却组织得好,相应可减少二次冷却的能耗,因此组织好一次冷却气流是数据中心节能的重要环节。
图4 空气冷却数据中心能耗划分
这里还要指出,数据中心中的冷却是一个多尺度的传热过程[7−9]。多尺度问题广泛存在于物理学和工程领域,从原子结构到宏观结构物体几何尺度变化十个尺度数量级;例如湍流,如果要同时研究各个尺度上的流动特性,就构成一个多尺度问题。数据中心内的冷却空气流动与传热是一个典型的多尺度系统,图5 清楚地显示了数据中心冷却过程的多尺度特性。数据中心中的气流冷却与传热过程的数值仿真课题在不同的尺度上进行,下面本文还要进行详细的讨论。
图5 数据中心机房传热的多尺度特性
下面介绍对数据中心气流流动与传热特性有重要影响的机柜数值模型问题。
机柜是机房中的热源,其内的电子元器件的温度也是数据中心运行中必须确保的参数;对机房气流组织做数值模拟时机柜数值模型的构建十分重要,既影响仿真结果的正确性,也与仿真所需的时间密切相关。
从对冷却气流流动的作用而言,机柜起到2 个作用。
a)阻挡气流流动,是造成机房气流流型的主要几何结构。
b)加热冷却气流,是机房中最主要的热源。
因此数值仿真软件中如何处理机柜是影响仿真结果正确性的重要因素。根据作者所知,现有文献中有6种机柜的数值模型,分别简述如下。
a)开箱模型。将机柜各个表面作为绝热表面,机柜前后表面用具有一定开孔度的表面来模拟,使空气能够流过,其内设置有加热板及风扇板;加热板按照服务器的功率设置均匀的热源;风扇板设定从进风到出风面方向的风速。机柜内的流动是计算所得(见图6)[10]。
图6 开箱模型
b)黑箱模型。将机柜抽象为中空的矩形框架,不考虑其内部的热量交换及流动状态(见图7),仅对出口气流的换热和流速进行简单计算。给定机柜的尺寸、流量和内部发热量,机柜进出口的气体温度等于对应位置机柜进口处的温度加上流经机柜温度的增加量,后者可据气流流量及给定的机柜功率得到[10−11]。
图7 黑箱模型
c)多孔介质模型。把服务器视为给定多孔度及导热系数的多孔介质(见图8);服务器产生的热量作为均布内热源,冷区气流流经机柜并被加热,数值求解时一并进行计算[12]。
图8 多孔介质模型
d)详细模型。对机柜内的服务器做网格划分(见图9),服务器简化为不同大小的固体块,具有内热源,服务器模型表面及服务器之间的间隙有气流流过,所需网格数量大大增加[13]。
图9 详细模型
e)压降模型。压降模型将机柜整体抽象为具有一定压降特性的平行直流道(不同流道之间没有气体交换)和一个位于机柜排风口处的风扇,服务器的热量按照体热源方式均布在整个流道内部。将各服务器内部风扇视为整体,置于机柜排风口处抽风。服务器的风扇特性曲线由实验测得,汇总得到简化风扇墙风机特性曲线如图10 所示。从机柜阻力曲线与风扇墙的风机特性曲线交点可推导得到风扇墙的实际工作点,决定了流经机柜的风量[14]。
图10 机柜流量的确定
f)源−汇模型。Patankar[15]在其开发的Compact软件中将机柜内的组件分为两大类,一类产生流动的阻力,另一类则产生流动的动力(例如小风扇)。该软件中把机柜的阻力部分在动量方程中用汇来表示(即负的源项),而产生动力的部分用源项表示。但文中对于具体如何表述未做介绍。显然这种处理方式将机柜部分也作为计算区域。
值得指出的是,上述文献中都没有具体说明数值计算中如何实现所采纳模型的细节。对这6 种现有机柜模型可做如下比较分析。
a)从机柜内空间的流动是否进行模拟的角度来看,6 种机柜模型可以分为两大类:一类是开箱模型、多孔介质模型、详细模型及源−汇模型,均进行计算;另一类是黑箱模型及压降模型,不做具体计算。
b)对机柜内的流场进行计算大大增加了计算区域及计算工作量,不适用于具有大量机柜机房的气流仿真;并且如何决定其中的参数,如多孔介质模型的多空度及有效导热系数,源−汇模型中的源项与汇项的确定,存在很大的不确定度
c)黑箱模型及压降模型可以减少计算节点数目,其有效的结合有望成为合适的机柜模型。
对一个合适的机柜模型需要进行如下考虑。
a)热平衡正确:即机柜的功率散发的热量要传递到冷却气流中去,上述模型都能满足。
b)机房气流的流动走向正确:机柜在机房级的模拟中除了是一个热源外,在很大程度上还起到了流动的障碍物的作用,决定了机房气流的总体走向。
c)不宜要求机柜的模型能正确分辨流经机柜气体的流动特性,这种气流的特性应该由机柜级的仿真来解决,机房级模拟结果要提供机柜附近正确的气流流场。
数据中心多尺度模拟的概念在2003 年由Joshi 教授等提出[16],用来解决简化模型造成的精度不足和详细模型造成的计算资源巨大的矛盾。他提出的解决方法就是从顶到底的逐级模拟方法,基本思想是:先对机房级别冷却气流进行仿真,网格尺度远远大于所感兴趣的局部区域(例如焊点)的尺寸;从本级模拟中找出的温度较高的机柜,对机柜内的服务器再进行较细密的网格仿真,直到最后进行焊点温度的预测。但至今未有公开发表的文献给出从机房直到芯片级温度预测的应用实例。本文对船上的一个具有15 个机柜的微型数据中心进行了从顶到底的冷却过程模拟,主要目的在于查明机柜中温度最高的电子器件(包括芯片的焊点)温度是否超过允许温度。在数值实施多尺度计算过程中,提出了子模型(Sub−model)的具体实施方法[17]。现将主要结果介绍如下。
首先是子模型的划分,对于图4所示情况,将其分为4 个子模型,每个子模型应包括2~3 个尺度的物体;相邻2 个子模型有一个共同的尺度的物体,进行信息传递,如图11所示。
其次为了验证多尺度模拟方法的可靠性,对图11所示具有15个机柜的小机房,对假定只有一个机柜的情形进行了全场详细网格模拟及多尺度模拟方法的对比(所有其他条件均保持一致)(见图12)。
图11 子模型的划分
图12 15个机柜的小机房
结果表明,整场模拟与多尺度模拟的最高温度分别是74.78 ℃及76.35 ℃,相差1.57 ℃(2.1% 相对偏差),焊点最高温度分别是61.96 ℃及62.16 ℃,仅相差0.2 ℃,而整场详细模拟所需的时间是多尺度模拟的2.5 倍,充分验证了多尺度模拟方法的可靠性及节省时间的优点。
子模型−3 及子模型−4 的部分结果如图13 所示。数值仿真发现编号为0101 的机柜中的IGBT01 的温度最高,但其最高温度低于允许温度。
图13 焊点最高温度分布
数据中心机房气流的数值仿真(CFD)技术,计算一个工况一般需要几个小时乃至几十个小时,适应不了数据中心控制与运行管理的需要。为了适应机房气流温度的快速预测的需要,目前应用较多的是本征正交分解方法(Proper orthogonal decomposition,POD)。
POD 的基本思想是对于一个给定的数据中心,在运行参数的一定变化范围内,设计多个场景先进行CFD 数据仿真,这样的仿真结果称为样本(Snapshot)。然后利用数学工具从这多个样本中提炼出对温度场影响显著的基本函数,称为基函数,有多少个样本就有多少个基函数,但各个基函数对于温度场影响的大小不同,通过一个系数(权因子),将各个样本的温度场表示成这些基函数的线性组合。
一个大型数据中心机房通常包括若干空调、机柜、服务器等设备,每台空调的出口温度、风量等因素,在POD 技术中称为因素数;而每台服务器功率、风量、压降等均可能在一定范围内变化,每个因素数变化的次数称为水平数;对机房的气流组织及温度分布产生影响的因素数可达上百个,每个因素数又有几个水平数,因此数据中心机房气流流动与传热是一个多因素、多水平的过程,需要设计多个样本。以一个有2个微模块组成的行级送风的数据中心机房为例,每个微模块由27 个机柜,13 个空调(ACU)及5 个配电、消防系统柜体组成,冷热通道均密封。则至少采用1 800多个样本才能基本满足POD 计算的需要。所以POD技术是预先以离线的方式用CFD 模拟所研究机房的气流传热特性,在此基础上提炼出基函数,并获得在所研究参数变化范围内任何一个工况温度场的简捷计算公式。
下面简要介绍文献[18]中用POD 技术的结果。该文中所研究的机房如图14所示,占地面积102.2 m2,有15 个机柜,机房总功率为76 kW,仿真时的工况条件是:左端空调关闭,同时机柜A5 及C2(总功率为25 kW)被背板水冷,因此其功率不计入产热量内。在右端空调的6 个进风量下(96%,92%,88%,80%,76%,72%和65%)获得了6 个样本。同时用实验测定了6个工况下的机房内的温度分布。
图14 文献[19]中的机房设置
在84%风量下POD 得出的机房温度分布与实验测定值的对比如图15 所示。平均温度偏差为3.2%,0.68 ℃;最大局部误差为8 ℃,但温度偏差大于1 ℃以上的仅占6%。在由POD 技术获得所研究数据中心的温度场线性计算式后,获得一个工况的温度场计算只要几秒钟即可。
图15 在84%风量情况的POD及实验测定值的对比
将POD 技术应用于具有上百成千个机柜的数据中心,变量的数目及每个变量的变化次数十分可观,需要解决如下3个问题。
a)如何设计样本?现有的正交设计方法只能用于变量及变量的变化次数很少的情形。
b)对于样本数目巨大的情形如何获得基函数线性叠加中的插值系数?
c)对于样本数目巨大的情形如何提高POD 技术的计算精度?
当前我国数据中心机房气流仿真软件均为外国产品,如表2所示。
表2 当前我国数据中心仿真的常用国外软件
众所周知,2020 年5 月美国突然宣布将包括哈尔滨工业大学在内的33家中国企业与高校机构列入“实体清单”,一些重要的工业软件被限制使用。鉴于当前的国际形势,自主研发数据中心气流组织软件势在必行。作者所在团队正在进行这方面的研究,待完成后将另文报道。
数据中心的气流组织仿真无论在数据中心的设计阶段还是运行阶段都有重要意义。为了满足运行中的数据中心对温度场数据的快速需要,可以采用POD 技术来获得温度场计算的线性计算式,但对于机柜数量大及变量参数多的情形,如何有效实施POD 技术还需要进一步的研究;目前我国用于数据中心气流组织仿真的软件均为外国产品,在当前复杂的国际环境下很有必要开发具有自主知识产权的仿真软件,构建一个合适的机柜模型对仿真的正确性及经济性有重要影响。