冯帅 王国岩 何嘉俊 张可牧 安青松
(1 天津大学中低温热能高效利用教育部重点实验室 天津 300350;2 歌尔声学 潍坊 261031)
随着互联网的高速发展,大数据处理需要具有更高稳定性与可靠性的大容量、高性能交换机。如图1所示,交换机的失效约有47%是由于散热能力不足导致温度升高造成的[1]。有研究表明,主流性能的交换机温度范围在50~60 ℃,其CPU 温度每升高1℃,可靠性就下降约25%[2]。
图1 交换机失效原因统计Fig.1 Statistical of failure reasons of communication equipment
影响交换机散热的原因主要有:1)交换机内部元件热流密度不断升高。目前交换机使用的交换芯片最高功率为363 W,热流密度可达100 W/cm2[3-4],四代Tomahawk 交换机芯片即将量产投入使用,最高功率将提至515 W,热流密度接近130 W/cm2[5]。以当前交换机传统冷却方式的散热效率来看,存在着较大的散热风险。2)交换机中部分元件支持的最高温度较低。例如交换机中的光模块,根据测试标准要求光模块允许达到的最高温度为70 ℃[6],风冷很难满足光模块散热要求。3)交换机内气流阻抗曲线不断升高,交换机内部元件尺寸增大、数量增多,导致交换机内部流体的局部损失和沿程损失增加[7]。唐金沙等[8]研究表明,依靠提高风速增加散热能力的方式,其综合性能很难得到提高,难以满足高性能芯片的散热需求。
浸没式液冷技术相对于风冷技术有着较好的散热表现,从最初应用于航天领域再扩展到军事领域,当前很多民用领域具有高热流密度散热需求的设备也尝试使用。对浸没式液冷技术的探究始于20世纪60年代,IBM 公司开始了氟化液与计算机在直接接触下的散热研究[9]。A.Bar-Cohen[10]将服务器、交换机浸没在盛有氟化液的水槽中工作,并对工作时的交换机进行了热测试,测试结果显示交换机内部元器件最高温升仅约7 ℃,而在风冷条件下温升为25 ℃。D.Pellicone[11]将总功率为1 500 W 的交换机浸没在氟化液中,在温度达到稳定后最高温升为23 ℃,而同等条件下风冷系统的温升高达55 ℃,已接近风冷系统可靠运行的极限温度。2017年阿里巴巴公司建造了全球首个浸没式液冷服务器,能效方面的表现也极为突出[12-13]。2018年10月,中科曙光联合上海超级计算中心、国家超级计算深圳中心的E 级超级计算机,采用了浸没式液冷技术,系统峰值功耗高达249 kW,PUE 值仅为1.04,实现了整机系统的高效节能[14]。综上所述,浸没式液冷系统具有结构紧凑,散热效率高等优势,是当前解决高功率交换机散热问题的前沿应用方向之一[15]。
尽管浸没式液冷技术已经在很多IT 设备或系统中得到了应用[16-17],但是仍然缺乏针对浸没式液冷技术的热仿真设计模型修正方法和浸没式液冷条件下的交换机极限功率分析数据,这使得实际散热技术应用开发过程中的可靠性降低、设计周期较长、功率控制缺乏支撑,而这些相关的研究极少。因此,本文对采用高沸点冷却液的浸没式冷却交换机进行模拟仿真与实验研究,并与风冷测试结果作对比。结合热测试结果对交换机在浸没式液冷条件下的仿真模型进行修正,对交换机进行极限功率测试。
将浸没式液冷交换机与风冷交换机通过热测试进行对比,通过测定在不同工况下交换机工作时各部件的温度来对比两种方式的散热效果。
实验中热电偶分别布置在芯片、光模块、电源处。交换机的测温热偶线选用的T 型线,材料为铜-铜镍。测温范围为-200~350 ℃,测试精度等级为Ⅱ级,T 型热偶线测试误差为±2.5 ℃。图2所示为交换机顶端位置截面,交换机内部的芯片、CPU、内存条等在正常工作时都是高功率发热元件,实验共布置12 个测温点。
图2 交换机顶端位置截面图Fig.2 Cross section of switch top position
图3所示为在交换机正视图方向可见光模块排布,前端光模块共有28 个,在上、下两排槽位中各选8 个光模块进行测试。其中上排测试的光模块槽位为1、3、5、7、9、11、13、15,下排测试的光模块槽位为18、20、22、24、26、28、30、32。
图3 光模块排布图Fig.3 Optical module layout diagram
交换机电源内部元件紧密,发热器件较多,是交换机内部散热的难点。因此在交换机电源处共布置11 个测试点,主要包括变压器、二极管、PFC 电感线圈等元件。图4所示为交换机电源测温点位置图。
图4 交换机电源测温点位置图Fig.4 Location of temperature measuring points for switch power supply
通过3D 软件对交换机进行1 ∶1 零件装配实体建模,其中外壳尺寸为445 mm×440 mm×43.5 mm,其他元器件主要包括主板、CPU、光模块、交换芯片、散热器及其他芯片,如图5所示。考虑到交换机进出口端、交换芯片及CPU、散热片和电源等位置流场复杂,且热交换频繁,为了提高仿真的准确性,对重要位置的网格进行局部网格加密处理。
图5 交换机热模型图Fig.5 Switch architecture diagram
对模型中固体和流体的材料属性进行设置,其中交换机外壳和散热器材料使用AL-6061,芯片、电路板等材料均使用软件材料库选项中相应的材料,其他参数如表1所示。在风冷仿真中流体的属性为空气,并对风扇的P-Q曲线进行设定;液冷仿真中对流体的属性为冷却液的基本参数,并将水泵的P-Q曲线进行设定,初始温度为45 ℃。仿真设定的环境温度为25 ℃。
表1 交换机内部器件功率统计Tab.1 Switch internal device power statistics
仿真采用稳态计算,计算类型选择非耦合求解法,流体流动采用紊流-湍流模型,选择PISO 算法,能量方程和动量方程选择一阶迎风差分格式,松弛因子改为0.7。
表2 冷却液物性参数Tab.2 Physical properties of coolant
图6所示为风扇在100%和75%转速下交换机内部的温度云图。在风冷条件下交换机内部局部换热系数不均匀且易形成局部热点(例如交换芯片部分)。在风扇75%转速下交换机内部的交换芯片温度已经超过了硬件允许的最高温度(允许最高温度如表3、表4所示),即使在风扇100%转速的情况下交换芯片的温度也已经很接近极限温度。
图6 风冷条件下交换机内部温度Fig.6 Internal temperature of switch under air cooling condition
如图7所示,通过改变水泵功率对进入交换机的冷却液流速进行仿真,冷却液在交换机内最小流速范围为0.22~1.43 m/s。图8所示为冷却液在0.22 m/s 和1.43 m/s 下的交换机仿真结果,浸没式液冷可大幅度降低交换机内部器件的温度,同时不再出现局部热点也没有散热死区,正常情况下可以保证交换机在长期工作状态下内部各个元器件均处于相对较低温度,因此提高了交换机的可靠性。
图7 冷却系统流速云图Fig.7 Flow rate cloud of cooling system
图8 浸没式液冷条件下交换机内部温度Fig.8 Internal temperature of switch under immersion cooling condition
为了在最严苛的条件下对交换机的换热情况进行评估,将交换机内所有芯片及发热器件都调至满载状态。
实验过程中,首先将交换机内的风扇或浸没式液冷条件下的泵打开并调至满转,然后再将交换机内所有芯片及发热器件的功率升至最高,最后对数据进行记录。在交换机运行时由于器件温度随时都在发生变化,为了保证测试数据的完整性,每隔10 s 读取一次数据,并对交换机功率进行实时监控,测试结束后将测试数据上传至工作站进行保存。为减小测试数据的测试误差并保证交换机内部器件温度达到稳定状态,相同状态下的工况进行三次测试,每次测试时间2 h。
通过实验测试,分别得到了风冷和浸没式液冷条件下交换机内元件的温度数据。表3~表6所示分别为风冷和浸没式液冷条件下元件温度统计。
表3 风冷条件下交换机元件温度统计Tab.3 Statistics of component temperature under air cooling condition of switch
根据上述数据绘制成柱状统计图9,由图可知浸没式液冷相对于同功率下的风冷主要器件的平均可降低20 ℃左右,散热效率较高。但是风冷元件与实测的误差率最大为3.0%,而在浸没式液冷条件下的仿真中,交换机的光模块仿真误差已经超过了10%,电源内部的变压器的仿真误差已经超过了20%,很难作为热设计仿真结果进行参考,因此有必要对浸没式液冷仿真模型进行修正使其仿真误差满足设计要求。
图9 风冷测试与液冷测试的主要器件温度数据对比Fig.9 Date comparison of air cooling test and liquid cooling test of main components
如上述分析可知,光模块和变压器在浸没式液冷环境下的实测数据与仿真数据差距较大,主要是由于光模块和变压器内部构造很复杂,交换机在仿真时多使用简化模型,而以往的简化模型主要是针对风冷仿真使用,没有考虑到浸没式液冷的环境。因此有必要对造成误差的原因进行理论分析,并对模型进行修正以保证浸没式液冷条件下的仿真模型的准确性。
表4 风冷条件下交换机电源内部元件温度统计Tab.4 Statistics of internal component temperature of power supply under air cooling condition of switch
续表4
表5 浸没式液冷条件下交换机元件温度统计Tab.5 Statistics of component temperature under immersion liquid cooling condition of switch
表6 浸没式液冷条件下交换机电源内部元件温度统计Tab.6 Statistics of internal component temperature of power supply under immersion liquid cooling condition of switch
1)光模块的修正
图10所示为光模块的内部结构,风冷条件下的修正方式如图11所示。其中包括光模块内部热源、光模块内壳、光模块外壳。其中光模块外壳为不锈钢材料,光模块内壳材质为铝6061。简化原理为通过设定内部热源与光模块外壳的热阻以达到仿真光模块外壳温度的目的。
图10 光模块内部结构Fig.10 Internal structure of optical module
如图11所示,在仿真运算时,间隙2 由通过交换机流体的传热面积、传热系数、光模块内部发热芯片与外壳之间的热阻确定。最终保证光模块外壳实测温度与仿真温度接近。
图11 光模块风冷条件下的模型简化Fig.11 The optical module under air cooling condition
由于在浸没式液冷环境中,冷却液的导热系数高于空气,所以导致光模块热源距离外壳的热阻减小,因此仿真温度比实测温度高。冷却液的热导率是空气的3.1 倍,因此可将模型中的间隙通过热阻关联式并结合物性数据修正后再重新进行仿真。
2)变压器的修正
图12所示为变压器的仿真模型,其中主要发热器件为副边线圈,而副边线圈主要是通过将热量传递至外壳铁氧体上进行散热。在经验模型中,副边线圈距离铁氧体为2 mm,同样将模型中的间隙通过热阻关联式并结合物性数据修正,再重新进行仿真。
图12 变压器仿真模型Fig.12 Transformer simulation model
交换机模型在浸没式液冷条件下进行修正的仿真数据如表7所示。所有器件的仿真误差都控制在了5%以内,基本满足了仿真要求。
表7 交换机浸没式液冷条件下仿真修正后元件温度统计Tab.7 Statistics of temperature of components under immersion liquid cooling condition
根据牛顿冷却公式Q=hA(T1-T2)可对交换机内部能够达到的极限功率进行推测。通过分析浸没式液冷环境下的测试结果可知,热风险最大的元件是交换芯片和光模块。分别对交换芯片、光模块的极限功耗进行推测:光模块在浸没式液冷条件下单颗功耗可支持60 W,交换芯片最高功耗可支持617 W,由于在实际测试中器件的功耗较高,芯片和光模块能够达到的最大功率不能达到要求,因此使用与其热阻、尺寸与其相同的等效电阻器件进行实际测试。如图13、图14所示分别为交换芯片及光模块与其替代元件。
图13 交换芯片及等效电阻芯片对比Fig.13 Comparision of switching chip and equivalent resistance switch chip
图14 光模块及等效电阻光模块对比Fig.14 Comparision of optical module and equivalent resistance optical module
从交换机热测试结果分析可知光模块15 的温度最高,因此在光模块15 位置布置1 处热电偶。待热电偶布置完毕后,开始对浸没式液冷环境下的交换机进行极限功率测试。不断提高loopback(光模块替代元件)及TTV(交换芯片替代元件)功率并随时观察热电偶的温度变化。如图15所示,经过2 h 的测试,TTV 的最高温度为101.4 ℃(允许最高温度105℃),loopback 的温度为69.3 ℃(允许最高温度70℃),已经接近于其允许的最高温度。并对此时的交换机各个元件功率进行记录如表8所示。交换机在浸没式液冷条件下的极限功耗可以达到3 837 W,是同等体积下风冷交换机的3.2 倍(上节热测试结果可以看出风冷交换机在1 217.66 W 时部分工件已接近极限温度,因此,风冷交换机的极限功率约为1 217.66 W)。
图15 浸没式液冷环境下交换机极限功率测试Fig.15 Test the limit power of switch in submerged liquid cooling environment
表8 极限功率下交换机内部器件功率统计Tab.8 Power statistics of internal devices of switch under limit power
本文设计搭建了交换机冷却测试平台并对风冷和浸没式液冷条件下交换机内部元件进行热测试,将测试结果进行对比,结论如下:
1)浸没式液冷条件下交换机的元件温度比相同功率风冷条件下的温度低约20 ℃。
2)通过使用等效电阻的方式对单位体积的交换机进行极限功率热测试,结果表明,浸没式液冷环境下单位体积的交换机极限功率约是风冷条件下极限功率的3.2 倍。
3)基于理论分析的浸没式冷却仿真模型修正,既可以提升温度预测的准确性,又可以简化复杂模型。本文提出的浸没式液冷条件下交换机内复杂元件模型修正的方法可对交换机等IT 设备的热仿真设计和优化提供参考。