清华大学电子系 苏光大
当前,非CPU、GPU的新型AI芯片的发展令人瞩目。谷歌的AlphaGo内置AI芯片TPU,在人机大赛中战胜了著名棋手李世石,展示了AI芯片的非凡能力。北京寒武纪科技有限公司、华为公司、北京比特大陆科技有限公司、北京地平线信息技术有限公司、深圳云天励飞公司的AI芯片得到了广泛的应用。人工智能芯片也应用于人脸识别,取得了骄人业绩。更多的公司也把AI芯片作为自己的发展方向。
AI芯片是执行人工智能算法的芯片,随着AI算力需求的飙升,AI芯片面临冯·诺伊曼“内存墙”的问题进一步凸显。虽然AI芯片计算资源丰富,但存储体数据搬运效率低下,导致了计算效率下降。显然,推倒“内存墙”,也是AI芯片发展的一个“金苹果”式的目标。
众所周知,芯片的发展有两大关键技术,一个是工艺技术,另一个是体系架构。摩尔定律是半导体行业工艺发展的一个著名定律,经过黄金发展时期之后,现在工艺水平的发展遇到困难,发展放缓已成为不争的事实。顺势而上,架构创新则进入了黄金发展时期。
清华大学发布了类脑计算芯片“天机芯”的研究成果。该芯片是面向人工智能的异构融合类脑计算芯片。基于此研究成果的论文“面向人工通用智能的异构天机芯片架构”(Towards artificial general intelligence with hybrid Tianjic chip architecture)作为封面文章在2019年8月1日的《自然》(Nature)上发表。天机芯片采用28nm工艺、存算一体技术,支持多种不同AI算法。具有高速度、高性能、低功耗的特点。采用28nm制造工艺却达到了世界级水平,存算一体技术功不可没,这个成果足以说明并行体系架构的重要性。
内存计算优于硬盘计算,二维内存计算优于一维内存计算。显然,发展二维内存计算,是当前计算模式的重要发展方向。清华大学提出了2D-PP on N-M的计算模式(2D Pipeline Processing On Neighborhood Memory 基于邻域存储体的二维流计算),这是一种二维内存计算模式,该模式采用了存储芯片的堆叠、裂变、不完全轮换矩阵技术,以及2D-PP技术。其最大优势在于算法、存储、处理具有二维数据结构的同一性和并行性,从而改善了冯·诺依曼瓶颈(即冯·诺伊曼“内存墙”),实现了高速的二维流水处理。
赛灵思公司新推出的ACAP自适应计算加速平台(Adaptive Compute Acceleration Platform),这是一种多AI核异构结构,在优化数据搬运路线与近内存计算方面取得了显著性进展。同时,赛灵思公司采用堆叠硅片互联技术将高带宽存储器HBM DRAM与FPGA 逻辑紧密耦合在一个封装内,2019年实现16GB HBM FPGA批量生产。
可以说,AI芯片的技术进步和应用拓展都异常迅猛。在AI芯片发展的过程中,不仅要关注冯·诺伊曼“内存墙”问题,还要注意AI芯片运算精度问题、编程的生态环境问题。
众所周知,芯片的精度有双精、单精、半精或8bit精度的。8bit精度的AI芯片对AI算法带来的负面影响有多大?即便用8bit的数据去训练,也会出现负面影响。至于编程生态问题,GPU的CUDA编程工具、赛灵思的FPGA编程工具都是值得我们学习的。
考量算力,不仅仅要考量人工智能芯片的算力,还要考量搭载人工智能芯片的人工智能硬件系统的算力。一般来说,人工智能硬件系统的算力要小于或等于人工智能芯片的算力。如果人工智能芯片的应用频繁存在冯·诺依曼“内存墙”问题,其算力将大打折扣。由此看来,仅仅强调AI芯片的算力是不全面的。
综上所述,AI芯片还在不断的发展。在本专题中,具有AI芯片的4家公司发表了在AI芯片方面的论文,值得大家分享。