英伟达,被黄仁勋带向何方?

2022-05-30 15:34马点秋
看世界 2022年19期
关键词:算力架构芯片

马点秋

英伟达首席执行官黄仁勋

最近,百度推出的“AI作画”首款产品文心·一格正式上线,掀起了一阵“你说我画”的热潮:用户只要输入一段文字,就能一键生成各式各样瑰丽绚烂的画作。

不仅是“一键作诗”“一键作画”,AI热潮席卷之下,从“阿尔法狗”到L4级别的自动驾驶训练,乃至对新冠药物的分子动力学模拟与病毒机制的分析,都离不开AI技术的助力。

然而,美国芯片巨头英伟达8月31日公告称,其被美国政府要求,限制向中国出口用于加速AI训练任务的最新两代旗舰GPU计算芯片—A100和H100。另一芯片巨头AMD的数据中心级GPU—MI100与MI200,也同样遭到限制。

那么,AI加速芯片和GPU到底是什么,为何如此重要?

英伟达带动GPU发展

GPU即图形处理器,由英伟达在1999年发布GeForce 256时提出,一直沿用至今。对应于CPU“中央处理器”的名称,GPU的雏形“图形加速卡”在上世纪80年代的雅达利2600游戏机上诞生之初,便是为了弥补CPU进行图形处理时遇到的性能瓶颈而生。

CPU的设计理念基于冯·诺依曼架构,经过内存读取—转译—运算—输出等步骤处理数据,以低延迟为导向,专为串行处理而优化。这样的设计理念让CPU中的核心数较少,且绝大多数的晶体管都用在了控制电路和高速缓存上,用来完成实际运算的晶体管只占少数。这就限制了其进行大规模并行计算的性能。

而在3D图形运算中,往往需要对模型的每一个顶点进行同样的坐标变换,或是对每一个顶点按照同样的光照模型计算颜色值—这样的运算虽然简单,但需要计算的次数非常庞大,让早期的单核CPU叫苦不迭,专为图形计算进行优化的GPU设计理念就此诞生。

与CPU努力降低延迟不同,GPU以数据吞吐量为导向,由成千上万个更小、更高效的“小核”构成,专为处理并行任务而设计。形象地说,CPU的核心就像餐馆里的“大厨”,负责各类复杂任务的处理和调配;而GPU的核心就像“小工”,以人海战术高效处理各类简单任务。两者各司其职,构成了如今高性能计算机的基础。

GPU的发展史,基本上就是英伟达的发家史。

1993年,祖籍中国浙江、出生于宝岛台湾的黄仁勋刚及而立之年。他在斯坦福大学求学期间,为了追求喜欢的女孩,提出了30岁会成立自己公司的承诺。随后女友变成了妻子,黄仁勋也如约在1993年8月与另外两个伙伴共同创立了英伟达,并担任CEO。

CPU的核心就像餐馆里的“大厨”,而GPU的核心就像“小工”,以人海战术高效处理各类简单任务。

2021 ChinaJoyAMD展台

他不知道的是,这家公司的市值将在2022年初超越台积电和三星,成为全球市值最高的半导体公司,相当于4个英特尔或高通。而作为芯片公司中为数不多白手起家的企业,英伟达的起步无疑是极为艰难的。黄仁勋在一次演讲中说:“创立公司时,我清楚地记得当时兜里只有200美元,而市场上当时已有250个竞争对手。”

碰壁后,迎合市场主流

彼时,图形显示领域的大哥ATI(后来被AMD收购)已成立多年,而诸如3dfx等后起之秀也层出不穷。众多风投公司判断,图形显示市场已基本饱和,再成立类似公司前景不明朗。

然而,初出茅庐的英伟达潜心打磨两年,还是推出了旗下第一款面向游戏主机的显示芯片NV1。NV1集成了当时最大最全的游戏方案,不仅同时支持2D、3D处理能力,甚至还集成了音频处理功能,为当时竞争趋近白热化的游戏主机市场,带来了“保姆级”一站式解决方案,理论上应该成为某款传奇游戏主机的心脏,来大放异彩。

2022年世界人工智能大会

一款成功的硬件产品,首先要符合市场主流的技术标准和规范。

然而,NV1为了用更少的计算量实现更光滑的3D效果,选择了方形绘图的渲染架构。不巧的是,在NV1发布的同一年,微软发布了沿用至今的DirectX API图形标准的前身—Direct3D,加上此前的OpenGL(用于渲染2D、3D矢量图形的应用程序编程接口)都采用了三角形繪图渲染,这意味着NV1与业界的通用标准完全无法兼容,导致销量冷淡。

“叫好不叫座”的NV1,让英伟达出师不利,账面资金一度仅够公司维持运转30天。“记住,公司距离倒闭只有30天。”这也成为了黄仁勋激励员工不能松懈的口头禅。

公司陷入绝境之时,好在位于日本的世嘉游戏公司看上了英伟达的技术实力,其采购了NV1芯片用于自家的土星游戏主机上,并随后要求英伟达为其开发下一代游戏主机DC的显示芯片。

虽然这一合作再次因为英伟达坚持方形显示理念而与世嘉产生分歧,最终导致NV2芯片流产,但彼时财大气粗的世嘉并未收回700万美元的开发资金,这给了英伟达至关重要的一次机会。前两次失败的经验也让英伟达意识到,一款成功的硬件产品,首先要符合市场主流的技术标准和规范。

接下来,英伟达在1997年推出的采用NV3芯片的riva128显卡,便采用了三角形绘图渲染,并支持Direct X和OpenGL等主流应用编程接口(API),凭借极高的性价比赢得了市场的青睐。它随后发布的TNT与TNT2,又以低廉的价格与更新的API,击败了当时显示领域巨头3dfx旗下的Voodoo系列显卡。

终于,在1999年,英伟达以GeForce 256为名,发布了世界上第一款GPU,将原本依赖于CPU的3D计算完全转移到显卡上进行,并在之后的数年间开始了与ATI的争霸之路,直至2006年,以ATI被AMD收购告终。

虽然在这之后,AMD仍在延续ATI的Radeon显卡产品线,但英伟达已经坐稳显卡领域第一的宝座。

“皮衣刀客”黄仁勋

2006年,英伟达发布了通用并行计算架构,也就是大名鼎鼎的CUDA。其更是让GPU除了计算3D模型外,具备了进行通用计算和编程的能力。

同年发布的8800 GTX,堪称英伟达最经典的显卡产品之一。其不仅引入了沿用至今的流处理器概念,而且采用的Tesla架构,更是成为了同年发售的首代AI加速卡C870的前缀,并在这之后沿用多年。

自此,英伟达就在通用计算和CUDA编程软件平台上越走越远,并在2013年的AI热潮中脱颖而出,以强于同价位CPU数倍的模型训练速度,与优秀的软件适配,让原本仅用于游戏和建模领域的显示芯片,在人工智能的赛道上一往无前。

纵观英伟达旗下的产品线,可以看到其业务发展的清晰思路,如专注于游戏和个人消费领域的GeForce系列、专注于3D建模与渲染的Quadro系列,以及此次被限制出口的主角—专注于AI加速领域的Tesla系列。

有趣的是,英伟达在2020年发布Tesla系列加速卡时,因为与著名电动车品牌特斯拉“撞名”,容易产生不必要的误会,而放弃这一前缀,之后的产品仅以采用的架构名称缩写+数字方式命名,如采用安培Ampere架构的A100,和采用赫柏Hopper架构的H100。

GeForce与Quadro系列的最大区别,在于其提供的驱动程序不同。GeForce系列的驱动更注重游戏性能的优化,Quadro系列则注重于对专业图形设计与渲染软件性能的优化。两者的硬件规格差距不大,更多的是软件层面的区别。Tesla系列则不同。

首先,GPU中对于计算机常用到的浮点计算,需要由不同类型的核心来完成,主要分为FP32单精度计算核心,与FP64双精度计算核心。同时,还有FP16的“半精度”,与最近正在推行的FP8格式,以进一步简化AI计算所需要的精度要求,来提升效率、降低能耗。

世界上第一款GPU GeForce256

即便如此,超高精度的FP64,仍是诸多科研工作中不能忽视的计算需求。毕竟在特定领域,如军工、大气和病毒结构分析等對计算结果精度要求高的行业,有时一两位有效数字的差别,结果就可能谬以千里。而针对这些专业情况下所用到的计算需求,英伟达为Tesla系列芯片配备了大量的FP64计算单元。

在A100的GA100核心中,FP64与FP32的比例为1比2,而这一数字在如今消费级旗舰3090ti搭载的GA102核心上,仅为1比64—游戏渲染和AI任务的区别一目了然。

这也使得3090ti的FP32算力达到了45TFLOPS,但FP64仅有不到0.7TFLOPS。而A100的FP32算力虽然仅有19.5TFLOPS,但FP64算力则达到了恐怖的10TFLOPS,是3090ti的14.3倍。英伟达最近发布的下一代产品H100的FP64算力,甚至能达到30TFLOPS之多。

这样精准的“刀法”,在英伟达旗下的产品里屡见不鲜,又因为黄仁勋每次发布会上都身着一身黑色皮夹克,他也被游戏玩家授予了“皮衣刀客”的名号。

市值跌去近六成

英伟达在8月26日向美国证监会提交的资料中提道:“未来峰值性能与芯片I/O性能等于或大于A100的任何英伟达产品,以及包含这些电路的任何系统,都需要遵照新的许可要求。”

华为MDC810自动驾驶芯片

英伟达Tesla系列芯片

这样精准的“刀法”,在英伟达旗下的产品里屡见不鲜。

虽然两天后英伟达发表声明称,可以在明年9月前继续履行A100和H100的订单,但受前一消息影响,其股价仍在5个交易日内下跌了22%,再加上此前二季度财报低于预期带来的波动,其市值已较去年最高点8300亿美元跌去近六成。

瘦死的骆驼比马大。近年来国产GPU的研发工作频频被提上日程,如芯动科技发布的“风华”系列GPU,也在市场上引起不小的轰动,但其距离以英伟达为代表的世界先进水平,仍有不小的差距。

而在自动驾驶芯片领域,华为推出的MDC810,与“地平线”即将发布的征程6芯片,与英伟达的差距要小些。但英伟达智能驾驶芯片Orin的下一代产品Atlan,也凭借着1000Tops的int8算力(1TOPS代表处理器每秒钟可进行1万亿次计算),来势汹汹地面向市场。

尽管在今年多轮下跌行情下,英伟达的市值已跌至3500亿美元左右,但其市盈率仍高达46倍。这也从侧面显示出了这家公司的潜力,以及市场对于AI产业未来的巨大信心。明年即将年过六十的黄仁勋,会将这艘巨轮引向何方?让我们拭目以待。

责任编辑吴阳煜 wyy@nfcmag.com

猜你喜欢
算力架构芯片
卫星通信在算力网络中的应用研究
算力网络中基于算力标识的算力服务需求匹配
基于FPGA的RNN硬件加速架构
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
基于SiteAI算力终端的交通态势感知系统
功能架构在电子电气架构开发中的应用和实践
LSN DCI EVPN VxLAN组网架构研究及实现
芯片测试
多通道采样芯片ADS8556在光伏并网中的应用
一种基于FPGA+ARM架构的μPMU实现