桑永礼,郑 峰
(中国移动通信集团安徽有限公司阜阳分公司,安徽 阜阳 236000)
2020年6月初,中国移动通信集团安徽有限公司阜阳分公司南京路生产楼四楼数据机房CDN区域共触发高温告警200余次,告警显示最高现场采集温度达到32.5oC,同时核心专业网管显示该区域个别CDN系统设备出现高温告警,导致服务降级现象,省公司网络部将该区域高温故障列为高频次告警进行督办[1]。
部分告警截图如图1所示。
图1 数据机房CDN区域的部分告警截图
故障就是命令,接到省公司故障告警工单及核心网服务降级转派工单,阜阳分公司网络部立即召开部门专题会议,决定组派由核心网、动环两大专业组成的联合技术调查专家小组如表1所示,赶赴现场,进行故障现场调查分析,以根本消除故障隐患,确保数据核心专业CDN系统设备安全运行
表1 联合技术调查专家小组
2020年6月5日, 联合调查专家小组到达南京路四楼数据机房,进行现场资料收集整理。南京路数据机房平面图如图2所示。
(1)经调查,南京路数据机房整体面积450 m2,主要分为空调、数据、公安平安城市托管、政务托管、CDN共5个区域,交流不间断负荷(数据设备)98.3 kW,直流不间断负荷(交换设备)77.72 kW,计176.02 kW,具体设备如表2所示。
表2 南京路数据机房具体设备表
续表2
(2)配置专用机房空调5台,采用地板下送冷,总制冷量230 kW。
通信机房布局示意如图3所示。服务器机柜结构示意图如图4所示。
图3 机房布局示意图
图4 服务器机柜结构示意图
通信机房局部高温,也就是所谓“热岛”现象的产生,主要原因有:
(1)空调配置不足;
(2)空调故障;
(3)空调老旧效率下降;
(4)送冷不达;
(5)循环阻塞;
(6)冷量分配机制缺陷;
(7)温度点设置错误;
(8)局部高功率设备聚集等[2]。
以上原因都可能在机房局部造成热量交换、传输不畅,热量聚集,形成“热岛”,如图5所示。
图5 “热岛”形成要因
结合南京路四楼数据机房现状,联合专家小组对南京路数据机房CDN设备区产生高温告警可能原因分析如下。
(1)空调配置不足,导致在夏季机房热负荷高峰时,空调制冷量不能抵消甚至小于机房通信网络设备功耗散热而产生的热负荷,以及通过机房围体结构传导进来的环境热量,导致机房环境失衡,机房持续温度上升,产生高温告警。
(2)空调老化,制冷效率下降,导致夏季机房热负荷高峰时,空调制冷量不能抵消甚至小于机房通信网络设备功耗散热而产生的热负荷,以及通过机房围体结构传导进来的环境热量,导致机房环境失衡,机房持续温度上升,产生高温告警[3]。
(3)部分空调温度点、压力保护值设置错误,导致部分空调未达到温度设置点或故障保护停机,不能制冷。
(4)机房设备距离空调设备过远,冷量不能到达CDN设备区域,该区域通信网络设备功耗散热不能交换出去,热负荷积累,从而导致机房环境失衡,机房温度持续上升,产生高温告警。
(5)该区域设备过于集中,没有遵循设备布放列架间距规范规定,发热量集中,导致该区域机房环境失衡,机房温度持续上升,产生高温告警。
(6)制冷、送冷、热交换、回风循环不畅,区域通信网络设备功耗散热不能交换出去,热负荷积累,从而导致机房环境失衡,设备温度持续上升,产生高温告警。
根据南京路数据机房CDN设备区产生高温告警可能原因,联合专家小组进行逐一排查,结果如下文所述。
(1)空调配置不足,导致在夏季机房热负荷高峰时,空调制冷量不能抵消甚至小于机房热负荷,机房环境失衡,机房温度持续上升,产生高温告警。
根据计算,南京路四楼数据机房设备热负荷176.02 kW,机房面积450 m2,机房热负荷为:
现配置机房空调制冷容量为230 kW,满足夏季条件下南京路四楼数据机房恒温的基本制冷需求,该故障原因可以排除。
(2)空调老化,制冷效率下降,导致夏季机房热负荷高峰时,空调制冷量不能抵消甚至小于机房热负荷,机房环境失衡,机房温度持续上升,产生高温告警。
经现场检查,该机房专用空调均为2010年以后投入使用,设备运行良好稳定,无故障,该故障原因排除。
(3)空调制冷量不能抵消甚至小于机房通信网络设备功耗散热而产生的热负荷,以及通过机房围体结构传导进来的环境热量,导致机房环境失衡,机房持续温度上升,产生高温告警。
(4)机房设备距离空调设备过远,冷量不能到达CDN设备区域,导致该区域机房环境失衡,机房温度持续上升,产生高温告警。
经现场检查,CDN设备区紧靠空调区域,不存在“机房设备距离空调设备过远,冷量不能到达CDN设备区域,导致该区域机房环境失衡,机房温度持续上升,产生高温告警”可能,该故障原因排除[4]。
(5)该区域设备过于集中,没有遵循设备布放列架间距规范规定,发热量集中,导致该区域机房环境失衡,机房温度持续上升,产生高温告警。
根据现场查看测量,南京路数据机房CDN设备区机柜较集中,共有将近30个满装机柜,如图6所示。每个机柜设备热负荷接近1.8 kW,总体功耗发热超过50 kW,并且该区域列间距不足1 m,最狭窄处不足60 cm,如图7所示,导致该区域热量集中,不能正常交换传送出去,造成热量累积,产生“热岛”现象。该故障主要因素确认如图8所示。
图6 高功率密度机柜
图7 超小列间间距
图8 现场故障要因确认
(6)制冷、送冷、热交换、回风循环不畅,导致设备温度持续上升,产生高温告警。
经联合专家小组现场检查确认,制冷、送冷、热交换、回风循环存在以下问题:
(1)部分机柜下底板未拆除,地板下冷风不能进入机柜,未形成冷循环,机柜热量交换不畅,机柜热量产生堆积。
(2)部分机柜空余机位盲板未拆除,地板下冷风经过热交换后不能出机柜,未形成冷循环,机柜热量交换不畅,机柜热量产生堆积。
(3)机柜安装的服务器热交换为“前进风后出风”模式,机柜前无透冷地板,冷量不能正常到达机柜列前,冷循环阻塞,机柜热量交换不畅,机柜热量产生堆积。
经专家技术组现场确认,南京路数据机房CDN设备区产生高温告警原因为:
(1)该区域设备过于集中,没有遵循设备布放列架间距规范规定,发热量集中,导致该区域机房环境失衡,机房温度持续上升,产生高温告警。
(2)制冷、送冷、热交换、回风循环不畅,导致设备持续温度上升,产生高温告警。
技术专家小组对存在问题整改方案进行探讨;
(1)鉴于“该区域设备过于集中,没有遵循设备布放列架间距规范规定,发热量集中,导致该区域机房环境失衡,机房温度持续上升,产生高温告警”为历史原因导致,要想整改需要将部分列架搬迁,存在较大业务中断风险,且成本受限[5]。
(2)通过对制冷、送冷、热交换、回风循环存在问题进行整改,能够改善该区域“热岛”,达到规范环境温度要求。
因此,只对制冷、送冷、热交换、回风循环存在问题进行现场整改。
技术专家小组对制冷、送冷、热交换、回风循环存在问题进行现场整改:
(1)存在问题:部分机柜下底板未拆除,地板下冷风不能进入机柜,未形成冷循环,机柜热量交换不畅,机柜热量产生堆积。
整改措施:拆除机柜下底板,让地板下冷风进入机柜,形成冷循环,排除机柜热量交换不畅,避免机柜热量产生堆积。
(2)存在问题:部分机柜空余机位盲板未拆除,地板下冷风经过热交换后不能出机柜,未形成冷循环,排除机柜热量交换不畅,避免机柜热量产生堆积。
整改措施 :拆除部分机柜空余机位盲板,让地板下冷风经过热交换后出机柜,形成冷循环,机柜热量交换不畅,机柜热量产生堆积。
(3)存在问题:机柜安装的服务器热交换为“前进风后出风”模式,且机柜前无透冷地板,冷循环阻塞,机柜热量交换不畅,机柜热量产生堆积。
整改措施 :将机柜列前封闭静电地板更换为可调透风地板,让空调冷风进入机柜列前,满足服务器热交换“前进风后出风”模式,排除机柜热量交换不畅,避免机柜热量产生堆积,如图9所示。
经过整改,该区域温度降低到27.2oC,高温告警消失,故障排除。
本故障产生的基本原因均为工程机柜布放时设备集中,不满足相应功率密度列架间距要求造成热负荷累积,以及冷热交换循环不畅,形成“热岛”,导致温度上升,产生告警。
因此在以后的工作实践,需要注意以下两个方面:
(1)设备布置时严格遵循功率密度列架间距规范,避免热量累积形成“热岛”。
(2)保证“制冷、送冷、热交换、回风”循环通畅,避免“制冷、送冷、热交换、回风循环”不畅,导致设备持续温度上升,产生高温。