熊安迪
高性能AI芯片公司鲲云科技近日发布了全球首款数据流AI芯片CAISA,以及基于CAISA芯片的星空系列边缘和数据中心计算平台——X3加速卡和X9加速卡。与依靠更大的芯片面积和制程工艺的传统方式不同,鲲云科技的定制数据流技术通过数据流动控制计算顺序,从而提升实测性能,为用户提供更高的算力性价比。
6月23日,鲲云科技在深圳举行产品发布会。发布会上,鲲云科技创始人兼CEO牛昕宇博士发布了全球首款数据流AI芯片CAISA。该芯片定位于高性能AI推理,目前已实现量产。
鲲云科技是一家高性能AI芯片公司,致力于提供下一代AI计算平台,加速AI落地。此次,鲲云科技通过自主研发的数据流技术在芯片实测算力上实现了技术突破,较同类产品在芯片利用率上提升了最高11.6倍。第三方测试数据显示,仅用1/3的峰值算力,CAISA芯片可以实现同类产品最高3.91倍的实测性能。
超高芯片利用率,完成3.0升级
鲲云科技此次发布的CAISA芯片采用其自主研发的定制数据流芯片架构CAISA 3.0。CAISA搭载了四个CAISA 3.0引擎,具有超过1.6万个MAC(Multiply Accumulate,乘积累加运算)单元,峰值性能可以达到10.9TOPs。该芯片采用28nm工艺,通过PCIe 3.0×4接口与主处理器通信,同时具有双DDR通道,为每个CAISA引擎提供超过340Gbps的带宽。
与上一代芯片架构相比,CAISA 3.0在架构效率和实测性能方面均得到了大幅提升。而且它在算子支持上更加通用,支持绝大多数神经网络模型快速地实现检测、分类和语义分割部署。CAISA 3.0在多引擎支持上提供了比上一代高出4倍的并行度选择,大大提高了架构的可拓展性。在AI芯片内,每一个CAISA都可以同时处理AI工作负载,进一步提升了CAISA架构的性能,在峰值算力提升6倍的同时,保持了高达95.4%的芯片利用率,实测性能得到线性提升。此外,新一代CAISA架构对鲲云科技编译器RainBuilder的支持也更加友好。软硬件协作的进一步优化,能够在系统级别上为用户提供更好的端到端性能。
CAISA 3.0的指令集架构采用冯·诺依曼计算方式,通过指令执行次序控制计算顺序,并通过分离数据搬运与数据计算提供计算通用性。CAISA架构依托数据流流动次序控制计算次序,采用计算流和数据流重叠运行的方式消除空闲计算单元,并采用动态配置的方式保证对AI算法的通用支持,突破指令集技术对于芯片算力的限制。
通过此次升级,CAISA 3.0架构的三大技术突破解决了以数据流架构作为AI计算平台的挑战。
通过时钟级准确的计算实现高算力性价比。
CAISA 3.0架构由数据流来驱动计算过程,无指令操作,可以实现时钟级准确的计算,最大限度地减少硬件计算资源的空闲时间。CAISA 3.0架构通过数据计算与数据流动的重叠,压缩计算资源的每一个空闲时钟;通过算力资源的动态平衡,消除流水线的性能瓶颈;通过数据流的时空映射,对芯片内的数据流带宽进行最大化的复用,减少对外部存储带宽的需求。这种设计使CNN算法的计算数据在CAISA 3.0内可以实现不间断的持续运算,最高可实现95.4%的芯片利用率,在同等峰值算力的条件下,可获得相比于GPU 3倍以上的實测算力,从而为用户提供更高的算力性价比。
通过流水线动态重组实现高架构通用性。
在保证每个算法在CAISA上运行均能实现高芯片利用率的同时,CAISA 3.0架构支持绝大多数的CNN算法。CAISA 3.0架构可以通过流水线动态重组实现对不同深度学习算法的高性能支持。通过CAISA架构层的数据流引擎、全局数据流网、全局数据流缓存,以及数据流引擎内部的AI算子模块、局部数据流网、局部数据流缓存的分层设计,在数据流配置器控制下,CAISA架构中的数据流连接关系和运行状态均可以被自动化动态配置,从而生成面向不同AI算法的高性能定制化流水线。在保证高性能的前提下,支持用户使用基于CAISA 3.0架构的计算平台实现广泛的AI算法应用,如目标检测、分类及语义分割等。
通过算法的端到端自动化部署实现高软件易用性。
针对CAISA芯片,鲲云科技提供编译工具链RainBuilder 3.0,支持从算法到芯片的端到端自动化部署。用户无需底层数据流架构的背景知识,通过简单的两步即可将已有的算法迁移和部署到CAISA硬件平台上。
编译工具链RainBuilder可自动提取主流AI开发框架(TensorFlow、Caffe、Pytorch、ONNX等)中开发的深度学习算法的网络结构和参数信息,并针对CAISA架构进行优化。其中的运行时(Runtime)和驱动(Driver)模块负责硬件管理并为用户提供标准的API接口,运行时可以基于精确的CAISA性能模型,实现算法向CAISA架构的自动化映射,同时提供可以被高级语言直接调用的API接口。最底层的驱动可以实现对用户透明的硬件控制。
高算力性价比的AI计算平台
此次发布会上,鲲云科技还发布了基于CAISA芯片的星空系列边缘和数据中心计算平台——X3加速卡和X9加速卡,并公布了包括ResNet-50、YOLO v3等在内的主流深度学习网络的实测性能。
星空X3加速卡
星空X3加速卡是搭载单颗CAISA 芯片的数据流架构深度学习推断计算平台,为工业级半高半长单槽规格的PCIe板卡。得益于其轻量化的规格,X3加速卡可以与不同类型的计算机设备进行适配,包括个人电脑、工业计算机、网络视频录像机、工作站、服务器等,满足了边缘和高性能场景中的AI计算需求。相较于英伟达边缘端旗舰产品Xavier,X3可实现1.48-4.12倍的实测性能提升。
星空X9加速卡
星空X9加速卡为搭载4颗CAISA 芯片的深度学习推断板卡,峰值性能43.6TOPS,主要满足高性能场景下的AI计算需求。与英伟达旗舰产品T4相比,X9在ResNet-50、 YOLO v3等模型上的芯片利用率提升了2.84-11.64倍。在实测性能方面,在ResNet50上,X9可以达到5240FPS,与T4性能接近;在YOLO v3、UNet Industrial等检测分割网络上,X9提升了1.83-3.91倍的性能。在达到最优实测性能的情况下,X9处理延时比T4降低了1.83-32倍。实测性能以及处理延时的领先,使数据流架构为AI芯片的发展提供了提升峰值性能之外的另一条技术路线。
据了解,目前,星空X3加速卡已经实现量产,星空X9加速卡将于今年8月推向市场。
商业落地在路上
基于其自主研发的AI芯片,鲲云科技提供一体化计算平台设备,能够保证产品的标准化,降低AI落地的成本。与之相辅相成,鲲云科技还提供与CAISA芯片相配套的领域落地解决方案,能够降低其计算平台的落地门槛和使用难度。此次鲲云科技公布的CAISA 3.0已经是第三代架构,其前两代架构此前已经交付给用户使用。
牛昕宇表示,CAISA芯片是一个计算平台,而计算平台需要为所有的AI领域提供算力支持。智能制造和自动驾驶等行业需要产生实时反馈,包括车路协同,对延时均有高性能的要求。从其落地客户的反饋信息可以看出,鲲云科技数据流架构的低延时优势比较明显。
由于鲲云科技的CAISA芯片考虑到了主流的开发环境、用户使用习惯,以及不同的操作系统和开发框架,客户对其在落地中的通用性和易用性表示了肯定。但对于芯片公司而言,软件生态也是一件非常重要的事情。“有些软件的生态还是需要我们去努力,毕竟我们是一个初创的芯片公司。” 鲲云科技合伙人兼COO王少军博士承认,“这种生态不是一天就能建立起来的,需要多年的积累,我们也一直重视生态的构建。”
此外,鲲云科技的星空3代加速卡也已经在航空、航天、电力、教育、工业检测、智慧城市等领域落地。
对标芯片数据来源:
[1] Xavier性能数据来源:https://developer. nvidia. com/embedded/jetson-agx-xavier-dl-inference-benchmarks
[2] ResNet50、ResNet152算法网络来源:https://github. com/tensorflow/models/tree/master/research/slim
[3] YOLO算法网络来源:
a.官方:https://pjreddie. com/darknet/yolo/
b.其他:https://github.com/pushyami/yolov3-caffe/
[4] SSD-ResNet50算法网络来源:https://ngc.nvidia. com/catalog/models/nvidia:ssdtf_fp16
[5] UNet Industrial算法网络来源:https://ngc. nvidia. com/catalog/models/nvidia:unetindtf_fp16
[6] T4性能数据来源:https://developer.nvidia. com/deep-learning-performance-training-inference#resnet50-latency