王永
2020年7月15日,Graphcore发布了第二代IPU Colossus Mk2 GC200以及基于第二代IPU处理器的一系列的产品。在此之前,Graphcore在中国的IPU开发者云也正式上线,面向中国的商业用户、大学以及科研机构和创新者免费使用。
Graphcore作为成立于2016年的英国初创公司,目前已经成长为全球性企业,总融资超过4.5亿美金,其全球办公室遍布了欧洲、亚洲和北美。目前在亚太区,Graphcore在北京、上海、深圳、台北、首尔设立了办公室,并计划下一步在日本东京设立新的办公室。
“Graphcore当前专注于三个方面:专门为AI应用设计IPU处理器、基于IPU处理器及面向AI应用的Poplar软件栈、围绕硬件和软件打造IPU平台。”Graphcore高级副总裁兼中国区总经理卢涛在接受笔者的采访时表示,在Graphcore的产品战略下已经推出了三种产品形态:IPUMachine、IPU服务器以及大规模横向扩展的IPUPOD的系统级产品。
据了解,此次Graphcore推出的新品有三大颠覆性技术突破:计算、数据和通信。
从单一芯片来看,Colossus Mk2 GC200处理器是目前世界上最复杂的单一处理器,基于台积电7纳米的技术,里面集成了近600亿个晶体管,拥有250TFlops AI-Float的算力和900 MB的处理器内存储。处理器内核(IPU-Tiles)从上一代的1217个提升到了1472个独立的处理器内核,相对于第一代产品,其系统级的性能提升了8倍以上。
“针对数据处理问题,Graphcore提出了IPU Exchange Memory(交换式存储)概念。”卢涛表示,与英伟达当前使用HBM的技术的产品比较,Graphcore在每个IPU-Machine: M2000(IPU-M2000) 里面通过IPU Exchange Memory技术,提供了将近超过100倍的带宽以及大约10倍的容量,这对于很多复杂的AI模型算法提升有很大帮助。
通信方面,Graphcore专为AI横向扩展设计了IPU-Fabric。这样一个结构可以做到2.8 Tbps的超低时延,同时最多可支持64000个IPU之间的横向扩展。通过IPU-Fabric技术,用户可以把集群无缝地从一个IPU扩展到64000个IPU,通过直联或以太网的交换机等技术进行互联。同时,IPU-Fabric支持诸如AI运算中的集合通信或全缩减(All-Reduce)操作。IPU-Fabric也是专门为AI应用从零开始设计的。
事实上,如果把计算和数据结合来看,IPU和GPU有着较大区别。在数据和计算密集的前提下,GPU的优势明显,反之,如果数据的稀疏性越高,和GPU相比,IPU的优势会越来越明显——领先会达到10-50倍,尤其是在NLP研究领域,对很多超大规模的AI模型有巨大的帮助。
另一方面,基于7纳米Mk2的IPU,Graphcore构建了IPU-M2000。这是一个1U结构的即插即用计算刀片,易于部署。在1U这样极小的空间内,Graphcore集成了1PFlops的计算能力,其密度非常之高。
此外,IPU-M2000还拥有450 GB的Exchange Memory;其2.8 Tbps的IPU-Fabric也提供了超低时延的通信。在1P的算力、450GB的Exchange Memory、2.8 Tbps的IPU-Fabric三项技术的结合下,IPU-M2000可满足当前最为苛刻的机器智能工作负载。
“IPU-M2000使用了Graphcore的Poplar软件栈,Poplar也可认为是IPU统一的软件栈。”卢涛表示,IPU-M2000拥有多种配置形态,比如1个M2000的配置、4个M2000的配置、甚至IPU-POD64这样的整机交付。“ IPU-M2000是Graphcore构建超大规模和弹性AI计算集群中的一个基本单元,帮助客户解决大规模集群的可扩展性问题。”
IPU-POD是結合计算、数据、通信三种颠覆性技术的大规模可扩展系统,用于超算规模的IPU-POD形态。它基于IPU-POD64构建块,并对AI的计算与逻辑控制进行了解耦,易于部署,网络时延极低,能够支持超大型算法模型以及安全的多租户使用。
对于一家初创企业而言,从技术到产品落地或许并不困难,难的是如何在需求多变且竞争激烈的市场中找到属于自己的位置。
“Graphcore在市场策略方面有三个维度:渠道合作伙伴、OEM合作伙伴,以及全球的云合作伙伴。”卢涛表示,Graphcore的首款IPU开发者云已经部署在金山云上。IPU开发者云支持当前最先进和最复杂的AI算法模型的训练和推理工作,比如自然语言处理类和高级计算机视觉类应用。
对于商业用户而言,敏捷、效率是其最为关心的问题,所以在较短时间内让用户快速体验IPU性能以及编程的易用性是Graphcore给出的解决方案。对于大学研究机构和个人研究者,Graphcore提供较长时间内的免费访问,帮助其用于研究的算法模型可以得到极大的优化、充分释放潜力、缩短研究成果面市时间,以及触发新的研究方向和领域。
与此同时,Graphcore也在中国积极组建其创新社区。据悉,Graphcore已在微信、知乎、微博和GitHub开通了官方频道,旨在与开发者、创新者、研究者更好地交流和互动。”
关于未来的AI计算领域,卢涛表示,未来会是 “CPU、GPU、IPU并行” 的时代。
“GPU或部分CPU专注于业务场景的实现和落地,而IPU专为AI创新者带来更多突破。”在卢涛看来,不管CPU还是GPU都无法从根本上解决AI问题,因为AI是一个面向计算图的任务、与CPU的标量计算和GPU的矢量计算区别很大,Graphcore找到了属于自己的赛道。