雷 冰,张琳璐,康明魁
(中国航天科技集团有限公司九院七七一研究所,陕西西安 710119)
星载高性能计算机系统内热流密度急剧增加,高温环境将显著降低芯片及整机的性能和可靠性。研究表明,电子设备的失效率随工作温度的升高成指数增长,55%的电子设备失效是由温度超过规定值引起的[1-2]。
星载设备的主要散热方式为传导,热管理与热控制原则是设计一条低热阻传热通路,使内部元器件产生的热量高效快速地传递到机箱周围的热沉,以满足热可靠性及空间环境应用要求。当前,在星载设备热设计方面,文献[3]提出在大功率芯片现场可编程门阵列(Field Programmable Gate Array, FPGA)顶部贴导热衬垫来降低腔体与芯片的接触热阻。文献[4]提出了一种散热帽结构,在解决芯片快速散热的同时起到减重的作用。该类方法都是对常规金属导热材料进行优化设计,而常规材料导热能力有限且其本身密度较大,现有散热技术已无法适应星载高性能计算机的高效散热及轻量化需求。
石墨散热片因具有优异的各向异性导热性能成为新兴散热材料的焦点,其横向导热性最高可达1 500 W/(m·K),若与金属材料相结合,可充分发挥其在横向热扩散方面的作用[5-6]。本文结合某星上数据处理机的热设计需求,提出以石墨散热片为主的全路径高效热传导方法。采用仿真分析和实测方法对整机的热设计进行验证分析,并通过仿真分析定量研究了石墨散热片对芯片降温的效果,可为后期石墨散热片在星载高性能计算机上的应用提供参考。
整机按照VITA 48.2设计标准进行模块化设计。VITA 48.2子规范提出了针对导冷插件的机械设计规范,很适合星上设备的散热需求[7]。整机包括机箱、前后电源组件、5个计算模块、2个交换模块及BUS底板。单机模型如图1所示。各功能模块互联方便,便于各功能板的安装、调试和替换维修。单个插板模块由起拔器组件、锁紧组件、印制件、结构框架及VPX连接器组成,前后电源组件安装在机箱的前后壁板上。工作环境为真空环境,要求在高温55°C下大功率元器件满足一级降额要求。
图1 整机模型图
整机模块的布局如图2所示。该设备的总功耗为128.1 W,每个计算模块左右各分布一个数字信号处理(Digital Signal Processor, DSP)芯片,两个芯片互为备份,两个交换模块也互为备份。
图2 模块功耗分布图
各个模块上大功率器件汇总信息见表1,计算模块上DSP器件的热流密度最大。
表1 大功率元器件汇总表
计算模块的DSP芯片和交换模块的FPGA芯片为倒装芯片球栅格阵列(Flip Chip Ball Grid Array,FCBGA)封装,其散热方式如图3所示。电源组件的电源模块为全密封金属外壳封装,直接装配在金属冷板上散热效果最佳。
图3 计算模块DSP散热设计示意图
星载设备热设计的原则是设计一条低热阻、短路径通路,保证整机的热量快速高效地传递到机箱安装的热沉面。模块插拔区域与机箱导轨槽之间锁紧面的接触热阻是热控设计的一个重要参数。文献[8]基于6U(1U = 44.45 mm)板卡模块开展了导轨接触热阻的研究。研究结果表明:在无导热填料时锁紧面的接触热阻约为0.226°C/W;在导轨槽与模块之间的锁紧面涂覆导热硅脂时,锁紧面的接触热阻约为0.034°C/W。文献[9]提出在模块框架与机箱导轨槽接触面之间填充液态金属导热膏来降低接触热阻,降温效果明显。液态金属导热膏会与铝发生反应,存在腐蚀铝表面的风险。本文选择在接触区域涂抹导热硅脂的方法来降低金属之间的接触热阻。
在导冷板材料确定、器件尺寸和热耗已知的条件下,热量传输距离和导冷板厚度是影响传导效率的关键因素。文献[10]指出,当框架厚度达到某一数值后,继续增加厚度对降低器件的温度贡献很小,反而会增加重量。结合该产品对重量的要求,框架导热区域厚度h取3.5 mm,并在布局印制电路板(Printed Circuit Board, PCB)时,使大功率器件尽可能靠近框架边缘。
DSP芯片在计算模块内的布局如图3所示。计算模块1—5均采用左右备份方式,左侧DSP芯片的热量主要通过导热界面材料传导至模块框架,铝合金的导热性能有限,因而框架左右两侧温差较大。石墨散热片也称导热石墨片,具有超高横向导热性能。对于热量分布不均匀的布局形式,利用其横向高导热性可达到均温的效果。因此本文提出在计算模块1—5的框架表面贴一片石墨散热片,以提高整个框架的横向导热能力。整个石墨散热片的厚度为0.2 mm,单片质量为12 g,可保证在重量增加很小的前提下增强计算模块框架的导热能力。
采用FloTHERM仿真软件,按照功耗最大的工作模式对整机进行仿真分析。求解域内环境温度为55°C,并在整机底部安装面处添加55°C的source控温面。边界条件设置为真空环境,只考虑传导和辐射。机箱材料为铝合金,表面进行黑色阳极化处理,辐射系数为0.9。根据厂家的实测结果,0.2 mm厚石墨散热片的横向导热系数为900 W/(m·K)左右,纵向导热系数为50 W/(m·K)。关键器件的仿真温度结果见表2。
表2 关键元器件仿真温度统计
计算模块2分布在整个机箱最中间热量最集中的区域,其DSP温度最高。所有器件的最高温度均满足星上设备≤85°C的一级降额要求。整机的热仿真云图如图4所示。图5为计算模块2的热仿真云图,图6为交换模块(主)的热仿真云图。机箱前壁板安装电源模块区域的最高温度为70.8°C,机箱左壁机壳温差在10°C左右。仿真分析验证了整机的热设计满足要求。
图4 整机热仿真云图
图5 计算模块2热仿真云图
图6 交换模块(主)热仿真云图
图7为整机在55°C真空箱内进行的热真空试验示意图。真空箱内压力<1.3×10−3Pa,在产品参考点处设置控温传感器,保证安装面处参考点的温度在55°C左右。机箱外部的温度选用真空箱内自带的热电偶测量,机箱上的测温点及编号与整机云图(图4)上的参考点一致。热电偶数据无明显波动时,说明已达到热平衡,保存试验数据。
图7 热真空试验示意图
交换模块上FPGA器件内置的温度传感器可读取到FPGA的节温。产品的工作模式与仿真分析的工作模式保持一致。实验数据与仿真数据的对比结果见表3。机箱上的实测温度值除了编号5外均普遍低于仿真值,该误差来源于热电偶与机箱的接触热阻;交换模块内FPGA的仿真温度低于实测温度,该误差可能与FPGA芯片仿真设置的功耗值偏低相关。仿真误差在10%以内,证明了仿真模型的合理性。
表3 仿真结果与试验结果对比表
为了对比石墨散热片对计算模块的热控提升效果,以现有经试验验证过的仿真模型为基础,模拟计算模块1—5在粘贴石墨片前后DSP芯片的温度。左侧DSP芯片节温在粘贴石墨片前后的数据对比见表4。在未贴石墨散热片的情况下,计算模块2和3上的DSP节温大于85°C,不满足一级降额要求。与采用常规金属散热相比,在计算模块1—5框架上贴石墨散热片,可使DSP芯片的温度低4°C左右,铝合金2A12的导热系数为150 W/(m·K)左右,经计算在计算模块框架贴石墨散热片后可将整个框架贴合区域的导热系数提高至210 W/(m·K)左右,且对整个计算模块重量的增加完全可忽略不计。
表4 粘贴石墨片前后左侧DSP仿真节温对比 °C
图8为计算模块2框架在未贴石墨散热片情况下的热仿真云图。框架左右两侧的温差为7.6°C,而在贴石墨散热片后左右两侧的温差为3.7°C。由此可见,石墨散热片可将集中热源均匀化,可降低芯片节温,从而解决大功率器件的散热问题。
图8 无石墨散热片计算模块2框架仿真云图
针对星载高性能计算机对高效散热的迫切需求,本文开展了星上数据处理机热设计工作。热设计的重点在于从整个散热路径上提高整机的热传导能力。文中提出在热量集中的计算模块框架区域粘贴石墨散热片以提高整个模块的散热能力,并基于热仿真模型对比了粘贴石墨散热片前后的散热效果。石墨散热片可保证计算模块内的DSP温度降低4°C,效果明显。VPX类型的插板式机箱采用的热设计方法及石墨散热片的应用,均可为星载高性能计算机热设计提供工程指导。
文中石墨散热片的厚度为0.2 mm,该厚度的石墨散热片是否为最优选择还有待验证。建议后续对不同厚度石墨散热片粘贴计算模块框架后的散热效果进行研究,以为后续工程应用提供指导。