毋惧炎炎高温:OCP如何应对下一代数据中心的散热设计挑战

2022-04-09 17:06莫仕公司
电子产品世界 2022年3期
关键词:外形尺寸业界散热器

莫仕公司

随着数据密集应用不断增长,超大规模数据中心的工作负荷日益繁重。数据中心内的网络流量显著增加,促使架构师开始寻找新方法以实现更高的数据速率和吞吐量。

目前,最先进的网络适配器(NIC)达到每端口200 G速率。然而,为了满足数据中心日益增长的需求,业界正朝向使用400 G NIC方向发展,但前提是相关的支持技术需要同时进步,而这绝非易事。Molex(莫仕)深入探讨伴随这项转变而来的散热挑战,以及我们的合作工作小组解决这些难题的独特方法。

400G运作的散热挑战

下一代数据中心会过渡至400G网络适配器,因而面临各种散热方面的难题。

我们面对的第一项挑战是更高的数据速率会消耗更多的功率。通过广泛的研究、试验和仿真,我们发现数据速率和热量产生之间的关系大致是线性的,其中数据速率提高一倍,将使得系统发热量增加两倍以上。结论是什么?那就是网络适配器速率从200 G转变成400 G后,系统热量将会大幅增加。

第二项挑战则在于需要可支持400 G NIC的基础设施。与使用无源直接连接电缆(DAC)的200 G NIC不同,有时400 G NIC可能需要使用大功率有源光缆(AOC)来支持高数据速率。这些大功率AOC的功耗可高达8W,会将自身的热量导入系统,再加上以高速率运送数据,使得温度不断升高。

质疑基础设施

这些迫在眉睫的散热挑战,使得我们对目前NIC环境基础架构中某些零组件的可行性产生怀疑。我们与英伟达(NVIDIA)和Meta两家公司合作,更加深入地研究这个难题。

一项研究重点是外形尺寸。具体而言,我们调研了使用OCP NIC 3.0业界标准小型光纤连接头(small form factor,SFF)产品的可行性,看看它能否匹敌早前提出的TSFF(tall SFF)。众所周知,TSFF可以提供更多空间,因此能实现更优异的I/O散热解决方案。在理想情况,系统架构师可以在可能的情况下继续采用SFF。真正的问题在于,SFF是否能为400 G NIC提供可行的解决方案?或者我们是否需要转而将TSFF定为业界标准?

这个问题很难给予直接的答复,因为有几个变量可能会对结论有所影响。出于这个原因,我们的研究工作考虑了许多可能显著影响散热性能的因素,包括以下几个方面。

·外形尺寸:TSFF对比SFF。

·NIC ASIC功率限制(仅限使用DAC电缆)。

·模块类型:QSFP-DD Type 1对比Type 2 A。

·监测位置点:机箱后部上方的平均温度、散热器底座温度和前端温度。

·测试装置类型:有/无测试装置。

·冷信道对比热信道。

模拟试验的设置与假设

每一摄氏度温度的变化,都对结论有影响。由于涉及到可行性,因此有必要确保模拟试验反映着现实且合理的使用状况。

对此,我们的模拟试验同时使用了TSFF和SFF两种外形尺寸的OCP NIC 3.0网络适配器来建立模型。英伟达公司慷慨地为研究提供了进行模拟试验的ASIC原型设计散热模型ConnectX-6 DX。为了进行模拟试验,我们假设功率上限为23 W,并根据配备标准铝制散热器的装置建立了模型。

对于QSFP-DD类型模块,我们使用了常态功耗为10.2 W的多信道散热模型。与ASIC原型设计相似,我们选择为QSFP-DD模型配备了标准铝制散热器,使得覆盖的受热表面积最大化,但不采用任何先进的冷却技术或材料,目的是了解前面所强调的变量之间的相对影响。

对于模拟试验的环境,我们同时测试了热信道和冷信道两种环境。热信道的环境温度为55℃,气流速度范围为200至1 000 LFM(每分钟线性英尺),气流方向从后至前。所有这些都符合OCP 3.0技术规范。另一个不同环境是冷信道,模型环境温度为35℃,气流速度范围为200到600 LFM,气流方向从前至后。如图1所示,我们的模拟实验使用了符合英伟达OCP NIC 3.0规范的测试装置,包括安装在测试盒内的两个相同的网络适配器。

调研结果:外形尺寸的影响

通过模拟试验结果,我们了解到数个边界条件和变量如何对散热性能产生了非零影响(即是超过几摄氏度)。

在调研中,第一个值得注意的结果是,外形尺寸对QSFP-DD模型的散热性能造成了重要的影响。如图2 所示,我们发现TSFF的散热性能明显优于SFF,尤其是在气流速度较低的时候。在这种情况下,散热性能提升了多达6℃。尽管这个结果并不令人惊讶,但6℃的改进幅度确实很突出。

同样地,我们的研究结果显示,在热信道应用中使用TSFF尺寸时,ASIC原型设计的散热性能提高了10℃之多。另外,关于NIC ASIC原型设计的功率限制参数(无源DAC应用),与在热信道条件下使用SFF 相比,采用TSFF的模块功率限制增加了约2.5 W。

调研结果:还须考虑其他变量

除了外形尺寸,我们的调研还深入了解模块类型和监测位置点对于散热结果的影响。在比较两款业界标准模块时,我们发现QSFP-DD Type 2 A模块具有出色的散热性能,改进了大约4℃。这项性能改进的主要原因是Type 2A模块本身前端有一个外部整合散热器。同样地,这个结果并不令人惊讶,但非常突出。

最后,我们发现不同的监测位置点(也就是模块上的探测点)之间存在温度偏差。例如,仿真试验显示,散热器底座的监测温度相比前端的监测温度降低5℃。如图3所示,在量化NIC模块的热性能时,监测位置点显然是不可忽视的考虑因素。

調研结论

我们的调研深入了解了几个特定变量和边界条件对散热性能的影响,但结果并不是主要的结论。相比发现哪些设置“合理呈现真实环境”而言,更重要的是,这项研究表明业界迫切需要就这些变量和边界条件达成共识。

以模块类型和监测位置点等变量为示例,试验结果显示,模块类型对于散热性能会造成重大的影响(≌4℃),这个发现带来一个问题:除了排除SFF尺寸在400G NIC的可用性之外,是否可以保留SFF尺寸但改用Type 2 A QSFP-DD模块呢?到目前为止,业界尚未达成共识。如要对SFF的可行性得出真正的结论,首先要进行定义并在业界达成共识。

同样地,业界目前也没有针对监测位置点达成一致的标准。调研显示,监测散热性能的位置点会对仿真试验结果产生重大影响,差距甚至可高达5℃。如果我们不能就监测位置点达成一致共识,那么所有的研究数据之间就缺乏一致性,这将导致无法真正地比较试验结果。这里再次强调,OCP和整个业界要迈向400G NIC发展,首先必须达成共识。

呼吁采取行动

如何才能达成关键的业界共识?我们认为模块、I/O、NIC、系统和数据中心多个专业领域需要参与更多。这样的合作将帮助OCP更好地协调可实现的目标,并确定最合适的环境来进行这些可行性研究。而且,到目前为止的研究所涵盖的范围并不全面,我们还必须考虑其他的变量,包括采用QSFP-DD有源电缆(AEC)的可行性,预计其耗散热量低于AOC。

如果业界发现SFF无法适用于AOC,下一步可能考虑使用AEC。此外,如果发展采用TSFF尺寸网络适配器,就需要扩展研究内容,涵盖采用整合散热器的八个SFF可插拔模块(OSFP-RHS)端口的可行性。

业界多方合作对于达成散热设计共识极为重要,而OCP将会发挥关键的作用。Molex莫仕非常荣幸能与Meta和英伟达合作,针对相关的下一代解决方案进行试验研究。我们三方合作设计测试方案,并仔细进行模拟以量化每一个已定义变量的影响,然后共同分析结果,并且在数据中心需要援手时,寻求达到新性能水平的方法。

猜你喜欢
外形尺寸业界散热器
◆ 散热器
关于注吹塑瓶常见问题的检测研究
◆ 散热器
散热器
业界聚焦
业界聚焦
业界聚焦
业界聚焦
◆ 散热器
无内定位的小尺寸板外型尺寸精度改善研究