迎九
近日,Habana Labs宣布美国圣地亚哥超算中心为Voyager研究计划选择了Habana Lab AI 加速器。后者是典型的ASIC(专用芯片),但是可与英伟达的GPU在AI训练市场一比高低。为何Habana Lab AI 加速器有如此强大的威力?未来的超算架构会青睐哪种AI芯片?值此机会,电子产品世界记者采访了Habana Labs中国区总经理于明扬先生。
1 用于Voyager研究计划的Habana Lab AI加速器
据悉,超微 (Supermicro)提供内置Habana Gaudi AI训练和Goya AI推理加速器的高性能计算系统,将用于加州大学圣地亚哥分校圣地亚哥超级计算机中心(SDSC)的Voyager超级计算机,以提供高性能的AI计算能力,计划于2021年秋季投入使用。
Voyager将致力于推进跨学科和工程领域的人工智能研究。其采用了Habana独特的互联技术,用336片Gaudi加速器有效地提升了AI训练能力,这种架构很好地扩展了大型超级计算机的训练应用。Gaudi是目前业界唯一内置集成10個支持RoCE v2(RDMA over Converged Ethernet)100G以太网端口的AI处理器,可以有效提升扩展的灵活性,避免扩展能力受限于吞吐量。Voyager系统还采用了16片Habana Goya处理器用于AI推理模型。
之所以采用Habana的芯片,因为效率可以大为提升。例如Habana与AWS合作时,AWS称在AWS EC2实例上,8卡的Gaudi 解决方案可以在TensorFlow上每秒处理1.2万张图像训练ResNet-50模型。
AI处理业务中,既有GPU、FPGA,也有AI专用芯片(例如Habana的ASIC),他们各有所长,因此异构将成超算主流。
● GPU表现的是灵活性,在灵活性的基础上同时具有性能的优势。
● FPGA擅长整形与定制化。首先在整形表现了很好的性能,另外在灵活性与定制化之间选择了一个平衡。但是,FPGA有较大的应用门槛——如果客户想通过FPGA深度定制化实现加速,可能要对于FPGA的Verilog、VHDL语言有深入的了解。
● 以Habana为代表的ASIC路线。ASIC在模型加速过程中可以实现很好的定制化加速;同时因为Habana对于计算架构有深入的理解,又最大限度地保持了灵活性。另外,在很多应用场景下更接近于GPU的使用习惯,但性能又要比GPU有很大的提升。
因此,在未来在异构的场景中,GPU、FPGA和ASIC会承担不同的角色,很可能在一个大型的计算集群中承担不同的功能。
例如,在一些要求高精度的科学计算中,GPU会发挥其优势。FPGA的64位浮点计算的能力很强,在整形计算中的能力以及对于某些计算中的一些定制化的功能,有可能帮助其在流媒体的预处理、一些格式的转换中表现出一定的优势。而对于典型的AI应用,ASIC架构方案有望实现更高效的性能,以帮助客户降低训练的成本,提升效率。
因此可以预言,在超算中,异构是未来的一个趋势。超算中很可能会选择X86的架构作为整个计算、业务的调度和管理,所以X86架构会存在。同时GPU会在科学运算、高精度浮点运算中起到重要的角色。再有,超算对于未来AI应用有非常强的需求,这种应用中有可能会使用ASIC解决方案,诸如Habana ASIC解决架构方案,这样的组合给客户带来最大的灵活性,同时也可以助力超算最大限度地提升性能,而且降低其运营成本。
异构架构的应用挑战是如何在不同架构上部署自己和客户的业务。因此,如何提供这种融合的管理平台,帮助客户能自动地把其需求部署到不同的架构中,可能是一大关键。