刘 清
(中国移动通信集团山西分公司,山西 太原045000)
近年来,随着信息技术的飞速发展,数据中心的建设规模进入了快速增长期,平均每年保持20%以上的增长[1]。“云计算”、“云服务”的提出,更是进一步提高了互联网企业对数据中心的投资力度。“云计算”的提出,刀片服务器的使用,改变了传统数据中心模式,呈现虚拟化、共享化的特征。数据中心IT设备向着小型化、高发热密度方向发展,高密度的设备(例如刀片服务器)服务企业数据中心,在未来的年复合增长率将达到7.1%[2]。
“云”会替我们做存储和计算的工作,刀片式服务器与虚拟化的结合正在迅速发展。而高功率密度机架服务器、刀片服务器等高热密度设备的应用,造成机房的单个机柜功耗不断提高,单位面积热量急剧上升,高发热密度机房的散热问题日益突出。
高发热密度机房最突出的问题是局部热点,目前解决高发热密度机房局部热点问题常用的解决方案有列间空调、吊顶式空调、热管制冷背板等。列间空调需要改变现有机柜布局,吊顶式空调易产生冷凝水。热管制冷背板既不需要改变现有机柜的布局情况,也不会产生冷凝水,是解决局部热点问题的首选解决方案。本文将探讨热管制冷背板系统在数据机房中应用的运行安全性问题。
该项目位于中国移动通信集团公司的枢纽楼,机房现有全部空调均全负荷运行,没有冷量冗余。经现场测定回风温度,IBM的P系列小型机出风温度明显高于其他机组,且超出或接近IBM厂家规定的温度,已达临界。局部过热时间过长,服务器甚至可能会出现宕机,这将会导致计费系统的严重事故。
针对上述问题,该项目选取了机房中局部过热较为严重的功率较大的机架使用热管制冷背板冷却系统,平均每个机架的发热量在7 kW左右。热管制冷背板系统流程图如图1所示,热管制冷背板安装位置如图2所示(数字框)。
图1 热管制冷背板系统流程图
图2 热管制冷背板安装位置平面图(数字框)
选取10#机柜做代表性测试,模拟风机故障时机柜温度的变化。
使用“温度自记仪”(如图3所示)测量机柜内不同位置的温度,找出温度最高点,即机柜内散热效果最恶劣的点或者是发热量最大的点。将“温度自记仪”测点布置在机柜内温度最高处。
先后模拟热管背板上两个风机上开下关、上关下开、都关、重启四种情况。机柜内温度最高点的温度变化情况。
实验前,10#机柜两个风机正常运行下,测试各测点温度如图4所示,机柜内温度最高处位于机柜内排风机的风口处,该处测点的温度为44.8℃。
图4 各测点温度
根据测试的温度分布情况,取机柜内出风温度最高处的实时观察测点,当此测点温度发生明显上升时,表明机柜的冷却效果变差。为保障实验过程中IT设备的运行不受过多的影响,避免设备发生故障,在实验过程中,如果机柜内测点的温度达到48℃,则应立即恢复热管背板原有的运行状态,或者立即打开机柜的柜门,恢复机柜的正常散热状态。
10#机柜关闭一个背板风机时机柜的出风温度测试结果如表1所示。
表1 10#机柜关闭一个风机时机柜的出风温度
可见,当仅有一个背板风机故障时,机柜出风温度最高点的温度仅上升0.6~0.7℃,对机房安全影响不大。
两台风机其中任何一个发生故障停转时,对机柜内温度的影响程度非常接近,说明该热管背板在设计时,两个风机是互相备份的冗余设计。
同时关闭10#机柜的两个风机,以测试当热管背板的电源被切断时,机柜内部温度的变化情况。
当热管背板两个风机均关闭时,15 min后测点处的温度上升到47.6℃,上升约2.2℃,为避免实验对IT设备的运行带来影响,此时迅速开启风机,测点处温度先上升了约0.5℃,1 h后降低约2.0℃。
也就是说,当两台风机均故障无法运转时,机柜内的温度不会突然上升,但呈现缓慢上升的趋势,因此,运维人员在接到热管背板风机的报警信号后,需要尽快到故障现场采取处理措施。
进一步将所有机柜背板的风机关停,以检验热管系统配电柜电源被切断的情况,观察其它机柜出风处最高温度点的温度变化,如图5所示,随着风机关闭,机柜出风温度升高,不同机柜上升幅度不同,但均在18 min内上升1~2℃。
图5 关闭所有背板风机时机柜出风温度变化(以8#、12#、13#为例)
通过以上测试,表明本项目的热管背板系统具有较高的安全性:
(1)热管背板的风机采用了冗余设计,当其中一个风机发生故障停转时,对机柜的散热效果影响很小,仅有0.6~0.7℃,可忽略不计。
(2)当单个机柜上的热管背板的风机全部关停时(即单个热管背板掉电时),机柜的温度不会发生突变,在15 min后,机柜的最高温度点的温度会逐渐上升1~3℃。
热管背板的风机都关停后,机柜内的热空调需要在IT设备自带风机的推动力下,穿越热管背板,排放至机房的环境中,此时,热管背板的风阻越小,机柜内的热空气越容易穿过热管背板,机柜内的温度上升就越慢。
(3)当整个热管背板系统的风机全部关停时(即热管背板系统掉电时),各机柜内的温度变化与单个机柜的热管背板风机关停时的变化情况相同,在18 min内上升1~3℃。
本文以中国移动某典型数据机房应用项目为例,讨论热管制冷背板冷却技术在数据机房应用的安全性。
在实验中分别模拟了:热管背板上的一个风机停转时,对机柜柜内散热环境的影响;热管背板的两个风机都停转时,对机柜柜内散热环境的影响;热管背板系统的所有风机均停转时,对机柜内散热环境的影响。结论如下:
(1)当一个热管背板仅有一个风机停转(模拟“热管背板的单个风机发生故障”),其他风机均正常运行时,机柜出风温度最高点的温度仅上升0.6~0.7℃,对机柜柜内的散热环境影响较小。
(2)当一个热管背板上的所有风机均停转时(模拟“一个热管背板的供电电源被切断”),15 min后测点处的温度上升约2.2℃。虽然在一个背板上的所有风机停转时,机柜内温度上升的趋势较为缓慢,但为了保证IT设备的正常运行,运维人员需要在接到热管背板系统的报警信号后,及时到故障现场处理。
(3)当热管背板系统的所有风机停转(模拟“热管背板系统配电单元的供电被切断”),机柜内温度升高,在18 min内上升1~3℃。
经过试验测试,本案例中的热管背板系统的安全性能良好,是数据机房消除局部热点的较好的解决方案。
数据机房对设备的安全性等级要求较高,每一项应用于数据机房的技术都应该经过严格的安全性检验。
根据实验结果,为使热管制冷背板系统在数据机房的应用中具有良好的安全性,需要对热管背板系统的设计作如下要求:
(1)对于7 kW的热管背板产品需要自带风机;
(2)热管背板产品的风机需要考虑冗余设计,至少为N+1冗余,即其中1个风机停转时,其他风机的风量必须能够满足机柜冷却的循环风量要求;
(3)热管背板设计时,风阻应该尽量减小,热管背板的风阻越小,在热管背板风机全部停转时,机柜内部的温度上升趋势越缓慢,热管背板的安全性越高;
(4)热管背板系统必须具备高温报警、风机故障报警功能,以便系统发生故障时,运维人员能够及时到达现场进行处理。
[1]全球数据中心市场现状与趋势[EB/OL].http://www.hyqb.sh.cn/tabid.
[2]中国数据中心建设市场保持稳定增长——能耗和IT资源管理成为用户最关心的问题[J].办公自动化,2010,(11):09.