俞啸玲,卢科帆,张宓璐
(国网浙江杭州市余杭区供电有限公司,浙江 杭州 311100)
随着信息化产业的发展和电力系统数据中心业务的开展,数据中心的应用越来越广泛。数据中心内服务器的核心电子元器件(如CPU、芯片和内存等元器件)在日常运行时,因为电子元器件内部电阻的作用会产生热量,这些热量在电子元器件内部如果不能有效的散发,将会导致电子元器件的计算性能和运转效率降低,如果温度一直过高电子元器件故障率将随之升高,引起服务器故障,数据丢失破环,甚至有可能导致整个数据中心的瘫痪。因此,如何将数据中心服务器产生的热量快速地排去显得特别重要。
目前,服务器散热主要还是采用自身风扇把热量排除服务器机箱,再利用机房空调使温度降低。传统的服务器散热存在以下不足的地方:①在使用风扇对服务器内部进行吹风时,风扇往往会只往一个方向进行吹动,导致服务器的散热不均匀;②据统计,传统采用空调散热的方法,空调所消耗的电量最高可达整个机房耗电量的40%~50%,而且机房空调降温不能直接作用于服务器内直接发热电子元器件,大部分浪费在机房环境中。
目前,机房内的服务器散热方式通常采用风冷式降温方法。通过散热风扇单向吹风,进行服务器机箱内部热量跟外部冷空气交换从而达到服务器内部降温。
但是,仅靠风冷已经不足以满足高热流密度服务器的散热要求。传统的风冷模式均采用间接冷却的方式进行,换热效率较低,换热过程高低温热源间温差较大,需要较低的机房低温引导换热过程进行等诸多缺点,通过调研讨论,需要从以下2 个方面着手解决服务器散热问题。
(1)提升服务器降温效率。由于通过环境散热和降温存在效率低等弊端,本文从服务器自身降温入手,研究服务器自身的通风散热问题,探讨如何在有限的环境条件下,提高服务器散热效率,降低服务器本身工作温度,从而提高其工作稳定性。
(2)温度监控预警。根据已掌握的故障情况来看,故障设备的分布、设备自身使用年限并无完全可循的规律,总体来说,设备密集、设备老化、风扇灰尘过多、运转不良、服务器通风管被灰尘堵塞等都有可能导致服务器设备温度上升或宕机重启,需要具备有效的手段对服务器工作温度集中进行实时监控和预警,由此可以在服务器出现温度升高征兆时及时采取措施,降低整体网络故障率。
服务器通电开机状态电流通过服务器电子元器件使其正常运转,同时因为电子元器件内部电阻的原因使电子元器件在工作的同时会产生大量的热量,而这些电子元器件都自己的适宜运行温度环境,一旦温度过高或者过低都将导致电子元器件故障率升高。在服务器运行时对其内部温度进行监测,可以发现服务器80%发热来自处理器(CPU)。如果能够通过技术手段从源头上对服务器的处理器(CPU)进行降温则可以有效地降低服务器运行温度。通过查阅文献资料后分析以及借鉴普通电脑现有水冷产品方案,本文提出一种新型的服务器降温装置,应用水冷技术以及负压技术改进传统的服务器风冷降温,从而有效增强服务器的降温效果。
规划设计服务器水冷降温装置由负压泵体水冷头、冷却液导管、冷排、冷却液箱、温度显示等部件组成,所有部件通过导管连通,构成一个循环管路。
2.1.1 负压泵体水冷头设计
水冷头由导热铜排、真空负压泵体液冷头、压螺母、压力弹簧、绝缘垫片、固定螺母、螺丝杆等组件组成。导热铜排包括与主板相连的支架,以及与处理器相接的导热铜板,导热板安装在支架上,支架上设有凹槽,导热板可拆卸并安装在凹槽内。支架上设有螺杆,螺杆上设有调压螺母和弹簧,螺杆的一端依次穿过主板和支架后通过调压螺母锁紧,弹簧设置在支架和调压螺母之间。
2.1.2 冷排设计
设计冷排由铝制水道、散热片和低速风扇组成。散热片内部包裹铝制水道,外部采用蜂窝状设计增加与空气接触面积。低速风扇通过长杆螺丝固定散热片上,通过转动使空气流动,加速散热片散热。冷排上设计有进水口、出水口,冷排进水口与水泵出水口连接,冷排出水口与水泵进水口连接,使水冷装置形成一个循环,通过泵体抽取冷却液使冷却液在水冷头和冷排之间循环流动,实现通过冷却液热交换从而使服务器处理器温度降低。
2.1.3 温度监测设计
通过在水冷头出口与冷排之间安装部署温度监测器件,实时监测水冷头出口冷却液温度并通过监测装置自带显示屏幕直观显示CPU 实时温度。方便运维巡检人员及时掌握服务器CPU 运行温度环境。
目前采用SNMP 协议可以实现监控收集服务器运行温度。在服务器端开启SNMP 协议,通过开源软件平台Zabix 网络管理系统采用SNMP 协议获取服务器温度信息,也可以实现对服务器温度实时监测。
2.1.4 散热原理
冷却液箱用于存储冷却液,通过降温装置负压水泵抽取冷却液由导管输送到水冷头内部,通过水冷头热交换带走CPU 热量,再由导管将冷却液输送到冷排进水口流入冷排,通过冷排散热降温,使冷却液进行循环,达到降温效果。负压水泵在水冷装置运行时同时开启运行抽取水冷装置内部气体,使装置内部气压低于外部气压,形成水冷装置内部负压状态。
传统正压水液散热装置通过冷却液传递热量,因为内部压强大于外部压强,所以一旦破损就会漏液,而它又在机箱里,一旦漏液就会导致硬件损坏同时耽误工作,同时由于漏液前没有预兆,所以无法提前维护,只能盲目地定期频繁维护。
负压水冷散热装置同样通过冷液传递热量,通过内部抽取真空使内部压强小于外部压强,确保出现破损后,内部冷液不会立刻漏出,方便使用者在负压液冷散热器泄漏前做好维护,在安全性方面更优化于正压液冷散热装置。
服务器水冷散热装置与传统的服务器风冷散热装置,从本质上看散热的原理大同小异,只是散热的介质由空气替换为冷却液。由于冷却液相对于空气的散热效率高,因此该项目研发的服务器水冷散热装置的效率更高、温度波动差更小,使用水冷散热装置可以良好控制服务器CPU 温度,不会因为服务器突发计算性能而引起CPU 温度的大幅度变化,服务器运行更平稳。
该项目结合国家电网有限公司的质量管理目标,研究将当前主要用于传统终端机等设备降温的水冷散热装置用来解决服务器过热频繁故障重启等问题,取材简单、经济实惠,经实践检验取得了良好的效果,方案实施部署后具有良好的经济效益、社会效益。详细有以下2 点。
(1)提高了故障设备寿命,节约了宝贵的建设资金。服务器的电子元器件在处理转发数据过程中因为电流的热效应会散发热量,使其温度升高。高温会导致使用寿命缩短,甚至造成部件烧毁,酿成损失。绝大多数服务器可以在其标称工作温度范围内正常运行。但是,个别服务器由于设备老化、风扇故障等原因,在高温环境下会发生高温过热现象。采用水冷散热装置,成本低(材料购置200 元左右)、工艺简单、降温效果明显,大大降低设备故障率,可以大大延长这些服务器的使用寿命,延长设备更新换代的周期,节省大量建设资金。按照每台服务器6000 元计算,5 年折旧周期,平均每延长一年可节省1200 元,以余杭公司为例,11台服务器每延长一年使用寿命可节省1200 元×11=13200 元。直接的经济效益十分明显。
(2)保障了业务系统正常运行率,为业务开展提供了稳定支撑。电力供配电生产安全关系到国计民生和公共利益,随着信息技术在电力企业推广和深化应用,日常业务开展对于信息化系统的依赖越来越严重。针对故障频繁的服务器配置水冷散热装置后,业务系统整体故障率明显下降,大大提高运行稳定性可靠性,从而有效改善业务系统可用性的用户满意度。
通过对该服务器降温装置的研究项目进行攻关,解决针对服务器传统风冷效果差,提出了优于传统风冷降温的负压水冷降温方案,方案实施后改善了传统的服务器降温效果。在改善降温效果的同时节约电力能源消耗。项目小组成功研制了可用于服务器的水冷散热装置,实现了服务器散热降温、减少故障宕机重启的目标。在全年最炎热的8 月,发生故障的服务器总数从6 月11 台降低为4 台,宕机重启总次数从6 月的26 次降低为8 次,较去年8 月数据同比降低70%以上,研制成果较为理想,达到了预期设定的目标,在实际生产过程中发挥了良好的作用。
(1)创新方面提升:创新地将当前主要用于PC 机等设备降温的水冷散热装置用来解决服务器过热频繁故障重启问题,取材方便、制作工艺简单、经济实惠,对容易因温度过高发生故障服务器具有良好的降温散热作用。
(2)专业化技术层面提升:项目小组在项目的前期调研以及后期方案设计研发阶段,了解熟悉了服务器主板、芯片处理器、供电系统、散热系统等模块结构,加深了对IT 信息化资产的技术了解,积累了相关的研究、制作等经验。