林楷智,宗艳艳,张雁南
(1.高效能服务器和存储技术国家重点实验室,北京 100085;2.浪潮(北京)电子信息产业有限公司,北京 100085)
伴随着科技的高速发展,人类步入了信息化时代。移动终端的愈发普及,智能穿戴设备以及社交媒体的广泛应用,为人们的生活提供了巨大的便利,同时也产生了海量的数据[1,2]。因此,对呈几何级增长的数据存储和处理提出了更为严苛的要求[3,4]。云计算和大数据产业的蓬勃发展使得这个问题迎刃而解,并为信息通信产业提供了强劲的动力,越来越多的行业通过建立数据中心来满足数据计算和存储的需要[5,6]。
服务器以其可靠性、可用性、可扩展性、易用性和可管理性等特点在数据中心扮演最核心的角色[7,8]。而服务器上电子元器件集成度以及时钟频率提高的同时,其物理尺寸却在减小。元器件表面的热流密度迅速增大,工作温度急剧升高,这将直接影响芯片的工作性能。因此,在服务器有限的体积内,在众多高功耗电子元器件长期高负荷运行时,能否快速、有效地将其产生的热量传递到外部,将直接影响服务器运行的稳定性和工作效率[9]。
因此,如何高效稳定地为服务器降温已成为研究热点。沙超群等人[10]采用吸风式的强迫风冷散热设计,利用Flotherm热仿真软件对整机系统进行了仿真优化,并在35℃实际应用环境下对产品样机进行了热测试。张子轩[11]通过将大尺寸共模风扇模组直接安装在机柜上的方法提出了共享风扇的散热方案,同时对多台服务器进行共同散热,减少了使用的风扇数量,提高了散热效率。王晶等人[12]为了提高服务器散热效率,提出了一种热管与水冷技术相结合的散热方法,首先热管将服务器内部CPU的热量导出到服务器外部,然后通过水冷将热量带走,并通过测试验证了水冷热管散热系统的有效性。为了提高2U游戏服务器的散热效率,吴泽云[13]进行了机构散热部件的选型和布局,并完成了系统风道中导风罩和系统开孔的设计,最后通过仿真分析和实验测试验证了设计的可行性。
但是,传统的散热设计多为通过查表法读取当前时刻的温度值,再向风扇输出控制信号实现转速控制,这类设计会导致风扇转速波动较大,不利于散热效率的提高和服务器整体功耗的优化。本文提出一种基于预防性散热的功耗优化控制策略PTEC(Predictive Thermal Energy Controller),通过电流变化来预估温度的变化趋势,提前调整风扇转速,为系统进行预防性散热,故整体环境温度不会有显著的提升,这将有利于提高系统相关器件的工作效率,并节省因温升所带来的功率消耗。
为管控系统中所有关键电子元器件的温度,使其满足温升的要求,需对系统的散热设计进行优化,达到功耗优化的目的。散热器是将发热电子元器件的热量传导至周围环境或热沉中的热量交换部件。装配在PCB板上的元器件,其内部产生的热量主要通过热传导的方式传递至PCB板和元器件表面,再通过对流换热传递至周围环境中。
强迫对流换热公式为:
Q=h*A*ΔT
(1)
其中,Q为强迫对流的换热量,A为散热表面面积,ΔT为元器件表面温度与环境温度的差值,h是强迫对流时的换热系数。
热阻计算公式为:
R=ΔT/P
(2)
其中,R表示热阻,P为电子元器件功耗。当ΔT=(Tc-Ta)时,可用于计算元器件散热器热阻,其中Tc为元器件与散热器接触位置的表面温度,Ta为散热器进风温度;当ΔT=(Tj-Tc)时,可用于计算芯片内核与表面之间的热阻,其中Tj为芯片的结温。
但是,当元器件无法通过自然冷却满足系统温控要求时,需要采用风扇进行强制冷却。风扇的选择需考虑3个因素:温差、抵消温差所需功耗和完全消除热量所需风量。
在实际风扇控制系统中,电子元器件工作产生的热量首先传递至机箱内部,然后再由风扇将其带出,通过热平衡方程计算系统所需风量的公式为:
(3)
其中,Q1为系统冷却所需风量,P1为系统发热总功耗,ΔT1为系统允许温升。
根据系统总体散热量和预估的系统温升,评估计算出系统散热所需风量,从而确定系统风扇选型。
为了提高系统散热效率,满足服务器功耗优化的要求,本文提出了基于PTEC的风扇控制策略。通过监测发热电子元器件电流下降幅度来预估温度下降趋势,预先调节风扇转速。利用传感器监测服务器中核心电子元器件电流和温度的变化,若某元器件温度大于所设定温度阈值,根据该元器件电流下降的幅度,判断其功率呈下降趋势,并预估该器件因功率下降而产生温度下降的幅度,随后由风扇控制芯片发出相对应脉冲宽度调制信号PWM(Pulse Width Modulation),通过调节PWM信号的占空比实现风扇转速的调节;若发热电子元器件温度在小于所设定温度阈值的情况下波动,控制系统则不对PWM信号进行调节,避免因温度的波动而造成风扇转速的频繁调节。最后,利用PID控制器,实现风扇转速的精确控制,在满足散热需求的同时也达到了功耗优化的目的。
本文中风扇控制系统的核心发热电子元器件为NGSFF(Next Generation Small Form Factor)固态硬盘NF1。PTEC流程图如图1所示,具体控制流程介绍如下:
(1)给定风扇控制芯片MCU初值和各传感器初值。
(2)循环读取每一个NF1存储器的温度,并比较各存储器的温度,从而得到最高温度。
(3)判断NF1最高温度是否大于温度阈值,若是,设定该NF1为参考点;若否,返回上一步。
(4)评估参考点NF1的电流趋势,若电流呈上升趋势,保持当前转速并通过PID控制器基于实际温度对PWM进行调节。
(5)评估参考点NF1的电流趋势,若电流呈下降趋势,则根据电流下降幅度预估温度变化,相应地降低PWM;通过PID控制器基于实际温度调节PWM。
本文搭建了如图2所示的实验系统来验证所提控制策略的有效性。控制系统主要由系统控制板、存储设备、PTEC风扇板和6个4 056 mm风扇组成,其中系统控制板主要由PM8546 PCIe Swith芯片、Aspeed 2500 BMC、CPLD、16个支持NF1的固态硬盘接口、4颗redrvier芯片以及8个mini SAS HD连接器构成。
Figure 2 Experimental devices图2 实验系统装置图
图3是风扇控制系统拓扑结构,首先由存储装置NF1内嵌的温度传感器采集温度信息,电流传感器PAC1720采集NF1电流信息,电流和温度信息由I2C总线经扩展器PCA9546后由BMC统一收集,并传输至风扇控制芯片PIC32MX Microchip(MCU),随后MCU芯片通过调节PWM信号来控制风扇转速,实现温度控制。
Figure 3 Topology of fan control system 图3 风扇控制系统拓扑结构
考虑到系统中NF1存储器读写时间的不确定性以及工作环境变化所带来的差异,为了验证所提PTEC控制策略在各种复杂工况下的有效性,在不同周期、不同占空比以及不同温度下分别进行功耗验证实验。首先在图2所示实验环境下进行不同周期相同占空比的功耗验证实验;随后又在相同周期不同占空比与不同温度2种实验条件下进行功耗对比实验。
基于PTEC的风扇控制系统中,温度阈值设定为60℃,MCU每100 ms会更新PWM信号至风扇,以实现转速的实时调整,PID控制器的参数设定分别为:kp=5,ki=0.1和kd=1。3组实验结果都表明,采用PTEC控制策略的方法检测到电流开始下降,预估温度下降并提前降低风扇转速,进行预防性散热,较无PTEC的传统控制方法功耗有了显著的下降。
首先,在不同周期相同占空比下对PTEC控制方法进行验证,图4~图6分别是周期为20 s,100 s和180 s时3种不同频率的功耗实验验证。图4a是周期为20 s时,采用PTEC控制策略的方法和无PTEC的传统控制方法的风扇转速及NF1功率对比曲线。因为预先判断了温度下降趋势,调低了风扇转速,故采用PTEC控制策略的风扇转速明显低于传统控制方法,采用PTEC控制策略时NF1功率较传统控制方法也有所下降。从图4b可以看出,采用PTEC控制策略的方法的风扇电流值明显小于传统控制方法的,在同样12 V电压下,风扇总体功耗下降了27.48%。图5a和图6a是周期为100 s和180 s时,采用PTEC控制策略的方法和传统控制方法的风扇转速和NF1功率对比曲线,随着控制周期的增长,虽然预先降低了转速,但整体NF1功率和风扇电流值与传统控制方法较为接近,2种频率下风扇功耗分别下降了9.59%和5.39%。
Figure 4 Comparison of experimental verification when T=20 s图4 T=20 s实验验证对比图
Figure 5 Comparison of experimental verification when T=100 s图5 T=100 s实验验证对比图
Figure 6 Comparison of experimental verification when T=180 s图6 T=180 s实验验证对比图
为对PTEC控制进行充分验证,又进行了周期分别为40 s,60 s,80 s,120 s,140 s和160 s的功耗优化实验。图7是采用PTEC控制策略的方法相比于传统控制方法的功耗优化曲线。由图7可以看出,采用所提控制策略的方法在各个周期的风扇功耗表现均优于普通的控制方法,在周期较短时,即频率f=0.05Hz和f=0.025Hz时,风扇控制系统功耗优化效果最为显著,相比于传统控制方法,功耗优化率分别提高了27.48%和20.84%,随着周期的增长,功耗优化的值也会逐渐减小,在T=160 s时,功耗优化值仅为5.28%。
Figure 7 Comparison of power consumption with same duty cycle in different periods图7 不同周期相同占空比功耗优化对比图
为进一步验证功耗优化效果,本节在周期为80 s时,采用不同的占空比对采用PTEC控制策略的方法进行分组实验验证。图8~图10分别是占空比为12.5%,50%,87.5%时的功耗优化验证实验图。由图8a可以看出,当占空比较小时,采用PTEC控制策略的风扇转速和传统控制方法的风扇转速有明显不同,NF1功率较传统控制方法也有所下降,由图8b的风扇电流对比图可以看出,在同样12 V电压下风扇功耗降低了7.66%。
Figure 8 Comparison of experimental verification with duty cycle of 12.5%图8 占空比为12.5%实验验证对比图
图9和图10分别是占空比为50%和87.5%时采用PTEC控制策略的验证曲线。从图9a可以看出,占空比为50%时,通过评估参考点NF1的电流趋势,当电流呈下降趋势时,根据电流下降幅度预估温度,相应地调低了风扇转速。从图9b中的采用PTEC控制策略的方法和传统控制方法的电流对比图可以看出,功耗优化效果较为明显,达到了14.52%。而图10中,当占空比为最高的87.5%时,采用PTEC控制策略的方法的风扇转速、NF1功率以及风扇电流都与传统控制方法接近,风扇功耗优化值仅为0.68%。
Figure 9 Comparison of experimental verification with duty cycle of 50%图9 占空比为50%实验验证对比图
Figure 10 Comparison of experimental verification with duty cycle of 87.5%图10 占空比为87.5%实验验证对比图
图11是风扇控制系统工作周期固定为80 s,当占空比分别为12.5%,25%,37.5%,50%,62.5%,75%和87.5%时,采用PTEC控制策略的方法的风扇功耗与传统控制方法风扇功耗的对比折线图。由图11可以看出,占空比过高或者过低都会导致采用PTEC控制策略时功耗优化效果降低,而当占空比为37.5%和50%时,功耗优化效果最为显著,分别达到了14.71%和14.52%。
Figure 11 Comparison of power consumption of different duty cycles图11 不同占空比功耗优化对比图
为进一步验证本文所提PTEC控制方法的有效性,在20℃,25℃,30℃和35℃ 4种不同环境温度下,在周期为20 s、占空比为50%,以及周期为80 s、占空比为25%时分别进行采用PTEC控制策略的方法和传统控制方法的对比实验。图12~图15分别为4种不同温度下周期为20 s占空比为50%时,基于PTEC控制策略的方法与传统控制方法的NF1功率、风扇转速及电流的对比图。
Figure 12 Comparison of experimental verification at 20℃图12 20℃时实验验证对比图
由图12a可以看出,PTEC控制方法在20℃的环境下,风扇转速和传统控制方法转速有较大差异;从图12b的电流对比图可以看出,在同样12 V电压下,功耗优化值仅为13.56%。
Figure 13 Comparison of experimental verification at 25℃图13 25℃时实验验证对比图
Figure 14 Comparison of experimental verification at 30℃图14 30℃时实验验证对比图
Figure 15 Comparison of experimental verification at 35℃图15 35℃时实验验证对比图
从图13~图15可以看出,随着温度的升高,采用PTEC控制策略的方法的风扇转速明显低于传统控制方法下的风扇转速。从电流对比曲线可知,功耗优化的值会随着温度的升高而逐渐提高,在25℃,30℃和35℃度分别达到了27.48%,35.79%和39.52%。
为进一步验证PTEC功耗优化效果,本节还进行了周期为80 s、占空比为25%的验证实验。图16是周期为20 s、占空比为50%和周期为80 s、占空比为25%时在4种不同温度下的功耗优化折线图。从图16可以看出,随着温度的提高,功耗优化的效果更加明显,周期为20 s、占空比为50%以及周期为80 s、占空比为25%时PTEC控制方法功耗优化值在35℃相对于在20℃时分别提高了25.96%和16.12%;同时也验证了,随着风扇工作频率的升高,功耗优化的效果也更加明显。
Figure 16 Comparison of power consumption at different temperatures图16 不同温度功耗优化对比图
本文提出一种基于预防性散热的功耗优化控制策略对服务器的功耗进行优化,通过评估参考点的电流变化来预测NF1温度变化的趋势,然后发出相对应的控制信号来预先调节风扇转速,达到功耗优化的目的。随后搭建了实验系统,为了验证PTEC控制策略在不同工况下的有效性,针对控制系统中的风扇功耗优化问题,设计不同周期相同占空比、相同周期不同占空比以及不同温度3组实验来对所提控制策略进行实验。实验结果表明,系统中NF1工作频率越高即周期越小时,功耗优化效果越好;在周期相同而占空比不同的情况下,当占空比接近50%时,功耗优化效果最好;在不同温度下的对比实验中,随着工作环境温度的提高,本文所提PTEC功耗优化控制效果越好,验证了控制策略的有效性。与此同时,除对文中所提实验平台可以满足散热需求的同时也能达到较好的功耗优化效果外,针对不同种类的服务器以及不同的核心发热电子元器件,PTEC控制策略皆可推广使用。