张乐丰 郑品迪 张林锋 黄冬梅 杨 超 韩泽磊 李 扬 林 楠 宋 杰 贾 涛 冯 睿
(1.国家电网有限公司信息通信分公司,北京;2.北京瑞思博创科技有限公司,北京)
因冷却故障引起的机房温升可能导致灾难性的事件,如果IT设备因进风温度过高而宕机,则有可能严重影响人民群众、企事业单位的日常生产生活。采用CFD技术预测数据中心机柜进风温度有众多应用[1-2],包括瞬态温升模拟[3]及机房温升研究,采用的研究方法包括数值模拟、实测或两者的结合。
在数值模拟方面,傅烈虎应用6SigmaDC软件对1个100 m2的数据机房进行了三维建模和CFD仿真,模拟了冷却失效后的机房温升情况,得出了功率密度小于10 kW/机柜时温升速率与功率密度基本呈线性关系的结论[4];马昕宇等人建立了一种适用于瞬态CFD模拟的服务器机架简化模型,分析了服务器功率上升、空调冷却失效、供冷恢复后及降低送风温度等不同工况下数据机房内热环境的瞬态变化过程,结果表明,机柜功率为6 kW时,平均机架出口温度将在7 min内超过45 ℃[5];秦冰月等人根据机柜通道布局,空调回风温度设定值,空调失效台数、失效部件等条件,对7种场景进行了冷却系统失效后的机房温升分析,结果表明7种场景下设备达到极限温度45 ℃的时间均超过6 min[6]。
在实测方面,吕珂等人通过实验对3 kW及5 kW的机柜进行了温升测试,分析了无连续制冷的风险,结果表明,对于5 kW机柜,冷却失效15 min时服务器出口温度达到42 ℃[7];朱述振等人对华东地区某数据中心机房IT设备满载运行、关闭外部冷源工况进行了温升测试,得到了不同设定条件下的温升及温降时间,结果表明:机房平均温度从24.6 ℃升高到27.0 ℃,2台空调运行情况下用时7 min,4台空调运行情况下用时10 min;从最高温度降到26.0 ℃,2台空调运行情况下用时10 min,4台空调运行情况下用时6 min[8]。
张明蕊进行了实测与模拟相结合的研究,局限是温升研究对象为1个小型数据中心,只有10个机柜,采用直膨式地板下送风系统,对冷通道封闭与否时的温度梯度进行了对比分析,结果表明不封闭冷通道时机柜高度方向上的温度梯度大于封闭冷通道时[9]。
本文对国家电网某近500 m2、采用行级水冷末端的机房进行实测与模拟对比研究,基于CFD技术进行机柜级的数值模拟,实现末端空调水阀从关闭到开启整个过程的模拟分析,机柜级模拟考虑了机柜内部的循环气流、IT设备的具体安装位置,以及IT设备内部风机受负载和进风温度影响下的风量输出控制。相较于先前研究,本文对机房实际运行状态的模拟与实测对比研究更具针对性和普遍性。
机房采用行级送风系统,一共8个微模块,封闭冷通道;建筑面积486.8 m2,层高5.5 m,无架高地板;IT设备总负载为964 kW,空调末端总冷量、总风量分别为2 080 kW、320 000 m3/h,冗余总冷量与总风量分别为1 560 kW、240 000 m3/h。
机房三维模型如图1所示。机房设备与温度传感器平面布置见图2。
图1 机房三维模型
注:表示行级空调,AA为编号;表示关闭的行级空调,JB为编号;表示机柜,JA为编号;表示温度传感器,C-JG为编号;H-表示热通道的传感器;C-表示冷通道的传感器。
机柜三维模型见图3。单台机柜功耗为4.82 kW,200台,高204.47 cm(46 u),封闭空插槽,前后门为网孔结构,开孔率为64%。顶板有6个线缆开孔,底板有2个线缆开孔,高17.78 cm(4 u)的IT设备安装在机柜内高97.79 cm(22 u)处。
图3 机柜三维模型
IT设备的三维模型与流量设置见图4。IT设备功耗为4.82 kW,长600 mm、宽450 mm。IT设备内部风机的流量根据EnergyStar标准设置,考虑了不同负载、不同IT设备进风温度下风机的风量输出控制。
图4 IT设备三维模型与内部风机流量控制
空调末端三维模型见图5。水冷空调末端,32台,单台显冷量为65 kW,风量为10 000 m3/h,前送风尺寸为0.50 m×1.90 m,后回风尺寸为0.55 m×2.00 m。
图5 空调末端三维模型
按照现场运行数据设置空调末端的送回风温度,平均送风温度为21.65 ℃,平均回风温度为27.27 ℃。空调末端送回风温度控制值见图6。
图6 空调末端送回风温度控制值
其他边界条件见表1。
表1 其他边界条件
当前机房的冷水系统采用双环状管网,每个环状管网都有总可控阀门,末端都有控制水流量的电磁阀,关闭单侧供水阀就是关闭单个环状管网,另一个环状管网承担整个机房负载。
本文建模对象为1个机房包间,模拟时只需考虑末端风扇与末端电磁阀的状态。本文针对断水工况进行分析,所以末端风机需要开启,而末端水路电磁阀则关闭。
冷热通道测试设备为温湿度记录仪,型号为ONSET UN100-003。冷通道布置16个温湿度记录仪,热通道布置10个温湿度记录仪,距架高地板高度为1.2 m。多个通道全部同时测试,用磁贴将温湿度记录仪贴在机柜前门上,定时自动记录。
温湿度记录仪技术参数见表2。
表2 温湿度记录仪技术参数
在进行瞬态模拟之前,需要以稳态计算结果作为瞬态模拟的初始值,所以本节将分析测试数据的初始值与稳态数值模拟结果。测试时间为15:05—15:45,初始时间段为15:05—15:13。
2.1.1测试数据验证与误差分析
1) 冷通道测试数据分析。
冷通道温升现场测试结果见图7。图中传感器编号与机柜的编号相对应,选取图中黑线左侧区域为冷通道断水初始时间段,选取平均值作为初始值。
图7 冷通道断水温升实测曲线
表3显示了冷通道断水初始时间段内温度传感器的测量值,其中最大差值为传感器MC的0.81 ℃,偏差为3.66%。
表3 冷通道断水初始时间段内温度统计分析
冷通道测试与瞬态模拟时间段如表4所示,时间步长为10 s(与传感器采样周期相同)。从断水开始到断水结束温升最大的传感器(KC)的温升率为3.97 ℃/min。
表4 冷通道瞬态模拟结果
2) 热通道测试数据分析。
热通道温升现场测试结果见图8。图中传感器编号与机柜的编号相对应。选取图中黑线左侧区域为热通道断水初始时间段,选取平均值作为初始值。
图8 热通道断水温升实测温度
表5显示了热通道断水初始时间段内温度传感器的测量值,其中最大差值为传感器OF的0.66 ℃,偏差为1.45%。
表5 热通道断水初始时间段内温度统计分析
热通道测试与瞬态模拟时间段如表6所示,时间步长为10 s(与传感器采样周期相同)。从断水开始到断水结束温升最大的传感器(PE)的温升率为1.13 ℃/min。
表6 热通道瞬态模拟结果
2.1.2数值模拟稳态计算结果与误差分析
冷热通道模拟与测试数据的对比见图9。图中AC~PH为冷通道温度传感器,AF~PE为热通道温度传感器。由图9可见:冷通道16个传感器模拟与实测的温度变化趋势一致,模拟平均误差为3.1%,最大误差为CC传感器的7.73%;热通道模拟与测试数据平均误差为3.6%,最大误差为KF传感器的8.19%。
图9 冷热通道模拟与测试数据的对比
IT设备平均进风温度分布见图10,最低值为17.9 ℃,最高值为28.52 ℃。
图10 IT设备平均进风温度分布
图11为高进风温度IT设备入口处的流线图,可以看出,机柜内部存在短路气流,此时IT设备入口对应的机柜前门温度为24.71 ℃,与IT设备的进风温度相比,差异为3.81 ℃。
图11 高进风温度IT设备入口处的流线图
2.2.1瞬态模拟结果与实测对比分析
冷通道传感器瞬态模拟结果与实测结果对比见图12。从图中可见,冷通道温度变化趋势整体一致。
图12 冷通道传感器瞬态模拟结果与实测结果对比
图13显示了冷通道所有传感器的平均误差与最大误差。可以看出:所有传感器的平均误差的最大值为13.88%,平均值为9.31%;所有传感器的最大误差的最大值为34.76%,平均值为19.33%。
图13 冷通道温度传感器误差
热通道传感器瞬态模拟结果与实测结果的对比见图14。从图中可见,热通道温度变化趋势整体一致。
图14 热通道传感器瞬态模拟结果与实测结果对比
图15显示了热通道所有传感器的平均误差与最大误差。可以看出:所有传感器的平均误差的最大值为12.27%,平均值为7.05%;所有传感器的最大误差的最大值为21.7%,平均值为15.6%。
图15 热通道温度传感器误差
综上,冷热通道逐时误差超过20%的共有26个点,占比为1.37%,且主要为IC、PE和AF 3个传感器,瞬态模拟误差整体在20%之内。
图16显示了机柜进风温度最高时IT设备入口平均进风温度分布,最低值为27.7 ℃,最高值为37.9 ℃,IT设备最高进风温度对应的机柜前门温度为33.82 ℃,与IT设备的进风温度相比,差异为4.08 ℃。
图16 IT设备平均进风温度分布(当前模拟时间180 s,总模拟时间720 s)
2.2.2空调失效时IT设备安全运行策略分析
通过上面的分析可以看出,为保证空调失效时IT设备能够安全运行,数值模拟可提供如下帮助:
1) 对机房热环境有更全面的了解,提高分析颗粒度。
通过布置的传感器只能了解机房内26个位置的温度情况,而模拟能够知道整个机房任意高度处的温度分布情况。
本文物理模型的分析颗粒度为详细的机柜+机柜内安装的IT设备,可以捕捉机柜内部的空气流动,以及IT设备进口的温度分布情况。
2) 优化空调末端控制温度。
总有一个合适的温度控制值可以平衡IT设备的运行安全与机房能效,IT设备的安全运行不能单纯依靠降低控制温度来实现,如果局部气流组织不合理,存在短路气流,降低控制温度不但不能彻底解决热点问题,反而还会增加机房的能耗。通过数值模拟可以找到合适的控制温度,达到节能与安全兼顾的目的。
3) 优化空调末端冗余方式。
通过数值模拟可以确定机房不同负载率下空调的运行数量和位置,保证机房良好的热环境,并且保证机组高效运行。
4) 量化机柜、封闭通道密封性对IT设备进风温度的影响。
通过数值模拟得到的流线图、温度图,可以更直观地加强运维人员对机柜泄漏、封闭通道泄漏对IT设备影响的了解。
综上,针对当前空调失效情况下出现的问题(机柜前门传感器温度与IT设备进风温度的差异大概为4 ℃),本文提出的优化方案为:控制空调的送风温度为20 ℃,提高机柜密封性,空调采用热备份方案。
优化后,机柜进风温度最高时,IT设备入口处的平均进风温度见图17,温度最低值为26.4 ℃,最高值为30.7 ℃,比优化前降低了7.2 ℃,满足GB 50174—2017《数据中心设计规范》允许的温度上限(32 ℃)。
图17 优化后IT设备平均进风温度分布(当前模拟时间180 s,总模拟时间720 s)
优化后冷、热通道传感器测得的瞬态温度变化如图18所示,冷通道传感器测得的温度(虚线所示)全部在32 ℃以下,最高值为29.35 ℃,比IT设备的最高进风温度低1.35 ℃,说明机柜内部短路热空气温度已经显著降低。
图18 优化后冷、热通道温升曲线
本文完成了国家电网某机房末端空调水阀从关闭到开启整个过程的实测与数值模拟对比研究,从断水开始到断水结束冷、热通道传感器的最大温升率的测试结果分别为3.97、1.13 ℃/min。
稳态模拟结果表明,冷、热通道机柜前门上温度传感器的模拟平均误差分别为3.10%、3.60%,最大误差分别为7.73%、8.19%,误差整体在10%之内。
瞬态模拟结果表明:冷、热通道逐时误差超过20%的共26个点,占比为1.37%,瞬态模拟误差整体在20%之内;所有冷、热通道传感器的平均误差的最大值和平均值冷通道分别为13.88%、9.31%,热通道分别为12.27%、7.05%。
分析瞬态模拟结果可知:机柜进风温度最高时IT设备入口处的平均进风温度最高值为37.9 ℃,对应机柜前门温度为33.82 ℃,比IT设备的进风温度低4.08 ℃,IT设备进风温度高的原因为机柜内部的热气流短路。
优化后,机柜进风温度最高时IT设备入口处的平均进风温度最低值为26.4 ℃,最高值为30.7 ℃,比优化前降低7.2 ℃,冷通道传感器测得的温度全部在32 ℃以下,最高值为29.35 ℃。数值模拟可以有效预测机房IT设备的温升情况,减少机房温升灾难事件的发生。