英伟达,算力之王

2023-12-01 16:44姬婧瑛
新财富 2023年11期
关键词:算力芯片模型

姬婧瑛

2022年末,ChatGPT的火热出圈,带动了大模型和生成式AI的研发热潮,高性能、高算力、低能耗的AI芯片销量飙升,以英伟达A100、H100为代表的GPU芯片供不应求,推动其业绩和市值双双创历史新高,成为2023年跻身万亿美元市值俱乐部的新一代科技寡头,也是华人创立的市值最高公司。

追溯英伟达的发展史,软硬一体化是其商业模式的关键词。其以GPU硬件纵向迭代为发展主轴,从定义显卡的GeForce256,到纸面算力达到1Exaflops(每秒进行百亿亿次浮点运算)的GH200芯片,其GPU产品性能紧贴客户需求不断升级,并扩展出GPU、CPU、DPU协同的硬件布局。软件层面,其则通过开源的运算平台CUDA,横向开拓广阔的应用市场,打造了与下游客户不断更新的需求相匹配的算力平台,进而链接千行万业,成为AI时代智能驾驶、智能云、大模型、生成式AI等科技巨头背后的“卖铲人”。

内部研发与外部收购并重,则是其保持技术领先的要诀。与所有科技巨头一样,其一手专注研发,成立以来累计研发投入超过370亿美元,打造了内部技术迭代与进化的澎湃动能;一手频频外部收购,完善技术链条、延伸产业链,构建了强客户黏性的算力生态系统。

有效的策略,推动英伟达在五次科技大风口中迎风起舞,20年间营收增长近14倍,净利润增长58倍。

随着芯片产业整体竞争加剧,提出“做AI界的台积电”新目标的英伟达,仍在加速奔跑。其一边围绕AI提升GPU硬件性能,扩大软件生态,以快速迭代的新架构、新产品,加固其技术护城河,实现“赢家通吃”;一手加码投资AI赛道独角兽企业,扩张其AI生态圈,以合作双赢深度绑定B端客户,放大平台优势。

算力为王的时代,芯片是科技巨头打造算力底座最核心的部件,微软、谷歌、Meta、华为、百度等已自研AI芯片,并争相构建AI生态。算力军备赛中,英伟达的领先优势将会持续多久呢?

作为2023年市值增长最快的科技公司,英伟达(NVDA.O)备受各方关注。

2023年10月17日,拜登政府更新了针对AI芯片的出口管制规定,计划阻止英伟达等公司向中国出口先进的AI芯片。其A800和H800等芯片均受影响,用于游戏市场的RTX4090系列显卡在国内电商渠道已逐渐下架,存货单价被炒高至5万元。

AI时代,占据算力要冲的英伟达,2023年1至9月股价已翻了两倍,市值达到10843亿美元,替代特斯拉成为美股“万亿美元市值俱乐部”的“老五”,成为华人创立的市值最高公司,同时也是全球市值最高的芯片股。

为其提供芯片制造和封装服务的台积电(TSM.N,2330.TW),以4631亿美元市值紧随其后,市值位居芯片行业第二。

8月28日,英伟达发布2024财年第二季(2023年4月30日至7月30日)财报,当季实现营收135.07亿美元,同比增长101%,环比增长88%;净利润录得61.88亿美元,同比增长843%,环比增长203%,创历史纪录。

风口起舞的英伟达,何以成为新时代的科技寡头?有志于国产替代的企业,如何借鉴其成长经验?

业绩、市值均创历史新高,还有8年10倍成长空间

英伟达的营收主要来自游戏、数据中心、专业可视化、代工及其他、自动驾驶五大市场。其中,游戏和数据中心是其营收支柱,二者占总营收的比重已由2014年的50.73%上升至2022年的89.24%,2023年二季度再度升至93.4%。

得益于这两项业务的强劲增长,2013-2022年,英伟达营收和净利润分别增长5.5倍、8.9倍(图1)。其净资产收益率(ROE)由9.87%上升至19.8%,2023年二季度更升至29.93%,与A股ROE排第15名的山西汾酒(600809)接近。相比高通、AMD等芯片同行上下起伏的ROE,英伟达ROE长期稳定在20%左右,使之堪称性能稳定的印钞机(图2)。

图1 :2013-2022年英伟达营收、净利润和净利率

数据来源:公司历年财报,新财富整理

图2 :最近10年英伟达及代表性芯片公司的ROE

数據来源:Wind、公司财报,新财富整理

不得不说的是,2023年二季度,英伟达业绩如此爆发式增长,全靠上年同期业绩的“衬托”和大模型业务的爆发。

一方面,其2022年同期的业绩比较基数低。2021年12月至2022年9月,代表美股半导体行情的费城半导体指数(SOX.GI)下跌40%,游戏市场萎缩和币圈挖矿业务降温,导致英伟达游戏业务营收骤降44%,专业可视化业务营收下降20%,代工和其他业务营收下降11%,其录得近10年来第二差的季度业绩,仅次于2019年二季度。

另一方面,芯片行业整体陷入萧条的背景下,2022年11月末,美国科技公司OpenAI推出的ChatGPT爆火出圈,科技公司纷纷跟风推出大模型,带动作为算力“刚需”的英伟达高性能GPU芯片A100和H100等供不应求、价格飙涨,英伟达业绩由此实现连续3个季度增长。

AI暖风劲吹,英伟达股价昂扬向上,2022年10月末至2023年6月13日,由112美元/股飙涨至400美元/股。其也因此首次跻身“万亿美元市值俱乐部”。2023年8月31日,其股价涨至494美元/股高点,市值创历史新高,达1.2万亿美元,是美股“万亿俱乐部”中2023年股价涨幅最大的“当红炸子鸡”。

近5个财年(2018.1.28-2023.1.29),英伟达累计总股东回报达2.38倍,远高于标准普尔500指数、纳斯达克100指数的回报(图3)。

图3 :近5年标准普尔500指数、纳斯达克100指数和英伟达股价走势

数据来源:英伟达2024财年财报

英伟达市值飙涨背后,是投资机构真金白银的下注。

Wind数据显示,截至2023年6月30日,英伟达机构股东数达3178家,持股市值5956亿美元,较2022年12月31日的2338家增长36%,持股市值翻了1.7倍?而这仅是投资机构半年的回报率。其大股东贝莱德(BlackRock)和先锋集团(Vanguard)均持股超过10年,合计持股从2017年末的11.31%增至2022年末的15.55%。大资金持股的时长,与其投资回报正相关。

值得一提的是,英伟达业绩和股价双升,是全球计算转型的时代注脚。

算力世界正在从程序慢、成本高的通用计算,向加速计算过渡。正如英伟达创始人兼CEO黄仁勋所说,正在发生的计算转型是一个转折点,世界各地的数据中心正在对此做出反应和转变。这一变革中,企业提高数据吞吐量、能源效率和成本效率的最佳方式是投资加速计算和生成式AI(ArtificialIntelligenceGeneratedContent,简称“AIGC”)。据麦肯锡的研究,AIGC每年对全球经济的贡献将达7.9万亿美元。由此可以预见,遍及全球的算力转型需求,将为高性能AI芯片带来广阔成长空间。

公开数据显示,2020-2022年,全球GPU的市场规模分别为254.1亿美元、334.7亿美元、448.3亿美元,年复合增长率为32.8%。按照这一增速保守估算,2030年全球GPU市场规模将达到4337亿美元,8年有近10倍的成长空间。如果叠加2023年爆发的大模型和AIGC的强劲推动,市场空间将更大。

在二季度财报发布后的电话会议上,黄仁勋也提到:“目前全世界数据中心的价值高达1万亿美元,其中绝大部分使用的是CPU处理器。如果未来4到5年顺应AIGC大趋势,大部分数据中心改用GPU,这会是多么大的市场?”

英伟达显然对猎获这个增长红利野心勃勃。

为了成为算力王者,向智能驾驶、智能云服务、大模型、加速计算等领域的掘金者“卖铲”,英伟达正致力于成为软硬一体化的AI算力解决方案供应商:在硬件端,其建构了“GPU+CPU+DPU”的全栈布局;而其开发的运算平台CUDA(ComputeUnifiedDeviceArchitecture,一种并行计算架构),则被认为是最适合深度学习和AI训练的架构,开源、可编程性能够链接广阔的软件市场,并与通信服务提供商和数据中心建设者合力规划下一代AI世界的基础设施。

软硬件一体化,独占GPU市场超80%份额

当企业巨头用科技魔力重塑我们的生活时,那些性格色彩鲜明的商业大佬们,也在虚拟世界紧握着流量密码。

英伟达的创始人兼CEO是被粉丝们称为“华人之光”的黄仁勋。这位美籍华人在社交平台拥有不输明星的热度和拥趸,其焊在身上的皮衣与英伟达的GPU产品一样出圈。

1993年,30岁的皮衣刀客与另两位合伙人克里斯(ChrisMalachowsky)和普雷艾姆(CurtisPriem)创立英伟达。公司名称“NVIDIA”取自拉丁文,意为嫉妒,公司标识也用了嫉妒的绿眼睛。2023年,步入而立之年的英伟达确实成为了令人嫉妒的公司,连采购其GPU的大客户特斯拉(TSLA.O)的CEO马斯克也不无嫉妒地说了一句,“似乎每个人、每条狗都在购买GPU……获得GPU比获得毒品还难”

英伟达早期以生产为游戏PC(个人电脑)提供渲染特效的图形处理器(GPU或显卡)为主。其以超越同行的性价比获得了全球游戏厂商的大批订单,1998年营收首次突破1亿美元,达1.58亿美元。1999年,其推出全球第一款可编程显卡GeForce256,当年营收同比增长137%,达到3.75亿美元。

1999年1月22日,成立约6年的英伟达在纳斯达克挂牌上市,开启了20多年的高速增长。

2003-2022年,英伟达营业收入由18.23亿美元增至269.74億美元,净利润由0.74亿美元增至43.68亿美元,分别增长了14倍、58倍。

这20年中,英伟达精准踩中了科技发展的五个大风口:2005年的PC普及、2010年移动互联网、2016年的深度学习、2021年的币圈“挖矿”以及2022年的AI大模型,其净利润均出现了非线性暴增(图4)。

图4 :近20年英伟达净利润及同比增幅

数据来源:英伟达年度财报、季度财报,新财富整理

我们简单将其20年的发展划分为两个阶段,2013年之前为搭建业务架构的蓄力阶段,2013年至今为伴随AI迎风发展阶段。

搭建一体化业务架构,英伟达和AMD双寡头格局成型

第一阶段中,2005年PC销量爆发和2006年CUDA研发面世,是英伟达搭建业务底座的两个关键节点,前者奠定其產品搭载规模,后者为其打开通向软件市场之门。

2005年,从工业设计、工业造型,到电影、高清广播、医学成像,数字革命几乎席卷所有行业,全球PC销量达到2.185亿台,操作系统供应商微软2005财年净利润同比大增50%,2006财年营收突破400亿美元,并以超过2600亿美元的市值成为全球市值TOP10企业中唯一的科技企业。而搭乘微软东风的DirectX9.0GPU,在图形处理器市场独领风骚。

DirectX9.0GPU是英伟达可编程GPU与微软DirectX9.0高级着色语言的组合产品,能够高效处理和编辑高清数字视频、数字照片的图像,使计算机图形达到电影级视效。

英伟达与微软的合作最早在2000年3月,英伟达成为微软第一款家用电视游戏机Xbox的独家图形引擎供应商。当年6月,英伟达即被《商业周刊》评为全球第一的半导体公司;11月,其以7000万美元现金加100万股股票收购竞争对手“3Dfx”的图形处理器核心资产,成为图形处理器行业规模第一的公司。

2001-2003财年,英伟达营收由7.35亿美元增至19.1亿美元,年复合增长率达61%。突飞猛进的业绩让英伟达初尝游戏产品的甜头,自此,其锚定了以GPU硬件为核心主线的业务发展路径。

2004年,英伟达GeForce6800和6600GPU量产,推动其DirectX9.0GPU在兼容图形处理器领域的市场份额从21%上升至67%。2005年,趁热打铁的英伟达进一步扩展其架构和技术优势,当年6月发布的GeForce7800将其市场份额从67%进一步拉升到79%,成为GPU市场的第一大供应商。此时,英伟达已将客户需求融入产品DNA,其GPU随着微软操作系统迭代升级而快速升级。

英伟达的创始人兼CEO是被粉丝们称为“华人之光”的黄仁勋,其焊在身上的皮衣与英伟达的GPU产品一样出圈。

配合客户需求而发展的GeForce系列,成为英伟达最长青的产品系列之一。其2023年推出的最新产品GeForceRTX4090,单价12999元起。

值得一提的,上世纪90年代,硅谷诞生了一批专研图形处理器的公司,它们大多淹没在技术迭代的洪流中,而英伟达能够穿越周期,成长为全球GPU龙头,另一个重要的基石是从硬件向更广阔的软件市场延伸,最重要的工具是CUDA。CUDA之于英伟达,类似安卓系统之于谷歌。

2003年,斯坦福大学博士生伊恩·巴克(IanBuck,现任英伟达加速计算总经理)进入英伟达实习,其所在团队为解决微软创建的应用程序接口DirectX的编程门槛过高问题,推出了编程模型Brook。2006年,伊恩·巴克正式加入英伟达,并基于Brook模型研发出CUDA,利用GPU中的并行计算引擎来解决复杂的计算问题,可以加快密集型应用程序的计算速度,比单独使用一个CPU的速度更快。

2007年开始,英伟达将CUDA内置入其所有GPU产品中。CUDA以彼时最广泛使用的C语言为基础,不同客户的程序员可以根据具体需求和处理任务,对GPU进行相应编程,这一应用很快在程序员群体中流行,具备了成为通用计算工具的能力。这一能力,磨刀霍霍切分CPU厂商的蛋糕,引来了CPU巨头的联合围剿。

2006年,从英伟达采购90%GPU的AMD,以54亿美元对价收购GPU供应商ATI,形成CPU整合GPU的新型解决方案。2007年,英特尔收购物理加速引擎公司Havok,并发布CPU融合GPU的Larrabee架构,欲在其CPU中集成GPU。

CPU大厂绞杀叠加经济危机影响,2008年9月,业绩承压的英伟达宣布裁员6.5%。同年11月,英伟达发布的2009财年三季度财报显示,其营收下降20%,净利润下降74%至0.6亿美元,回到了2000年的水平。2008年和2009年,成为英伟达上市以来唯二的亏损年度。利空催化下,其股价一年内蒸发了85%。

业绩和市值双杀,成为黄仁勋创业生涯中一次刻骨铭心的失败记忆。

试图提振业绩的英伟达,抓住了移动互联网发端的“救命稻草”。2010年,英伟达开辟移动市场业务,推出费米架构(Fermi)和基于该架构的新一代QuadroGPU,其3D应用性能比上一代Quadro产品快5倍,计算模拟性能比上一代产品快8倍。这助推其专业解决方案(PSB)业务和消费者产品(CPB)业务营收分别实现60%、27%的增长。但是,随着竞争对手大量涌入,英伟达决定放弃移动市场,回归并聚焦PC端产品。

这次取舍对于英伟达发展的重要性不言而喻,正如黄仁勋在2023年台湾大学毕业典礼演讲中所言,“战略性撤退、牺牲、决定放弃什么才是成功的核心,并且非常关键”。

值得一提的是,业绩低迷期间,英伟达并未停下技术升级的脚步,3年投入26亿美元进行研发,以优化晶体管层的设计来解决散热压力带来的产品良率困扰,从而大幅提升产品性能和功耗比。

或许正是英伟达GPU和架构的快速迭代形成的压力,2009年末,英特尔宣布无限期推迟Larrabee架构发行,并于2011年1月再度与英伟达签订6年的专利交叉许可协议。伴随英特尔的退出,GPU领域英伟达和AMD的双寡头竞争格局成型,且持续至今。

超前设计的CUDA架构,与市场的生化反应延迟到了2010年才发生。这一年,AI先驱吴恩达使用AI程序识别出一只猫,使用了16000个CPU处理器,但是将CPU换成GPU,只需要12个GPU。2012年的ImageNet大赛(大规模视觉识别挑战赛)上,卷积神经网络模型AlexNet以超出第二名10%以上的正确率获得冠军,其利用英伟达GPU的计算能力解决了复杂的模型问题。自此,英伟达GPU被认为适用深度学习,被AI企业大量采购。

至此,GPU和CUDA已成为英伟达故事中关键的“1”,此后,其发展主线聚焦于纵向技术迭代和横向应用拓展,不断在后面叠加“0”。

纵向技术升级,得益于关键技术的引进。例如,2016年,英伟达引入TensorCore&NVLink高速互联技术,以多个GPU组建为GPU阵列,进而形成超级GPU,为超强算力奠定了硬件基础;2022年,其引入NVSwitch交换互联技术,大幅降低了GPU通讯的延迟,提升了AI大模型高速并行计算中数据同步的效率,为其GPU在深度学习领域建立了强大的竞争壁垒。

这些关键性的技术突破,让英伟达的芯片可以不断拓展出大规模的芯片集群,进而搭建出任意形式的芯片拓扑结构。2022年末,英伟达GPU显卡中的CUDACore(核心)数量已较2007年提升超30倍,其GPU搭载于世界上最快的超级计算机。

横向应用扩展方面,英伟达逐渐衍生出“GPU+CPU+DPU”的全栈布局,先后开发出Kelvin、Rankine、Curie、Tesla、Fermi、Kepler、Maxwell、Volta、Turing、Ampere、Hopper等不断升级的架构,并在这些架构基础上推出十多个产品系列(表1),支持从图像处理到并行计算再到AI数据处理等不同应用场景,英伟达的产品已成为GPU芯片专业性能和兼容性的基准。

表1 :英伟达主要的产品线及其应用场景

数据来源:英伟达2018财年和2023财年年报,新财富整理

数据中心替代游戏成最大营收支柱,净资产收益率稳定在20%左右

英伟达的营收中,游戏和数据中心是核心支柱,二者占营收的比重由2014年的50.73%升至2023年二季度的93.4%(表2)。

表2 :2014年至2023年上半年,英伟达游戏和数据中心营收及占总营收的比重(单位:亿美元)

數据来源:英伟达年报,新财富整理;备注:2023年上半年为2023年1月31日至7月31日,下文同。

这一变化来自游戏市场和AI产业对GPU日益膨胀的需求,而市场风口的切换,直观体现在英伟达营收支柱的切换(图5)。

图5 :近10年英伟达不同业务营收变化

数据来源:英伟达年报和最新季报,新财富整理

2021年前,游戏业务是英伟达绝对的营收支柱。2014-2021年,其游戏产品营收由20.58亿美元增至124.62亿美元,年复合增长率达30%。

近20年来,全球3A/3D游戏不断推新,催生了对GPU处理器的巨大需求。全球亿万玩家倒逼高性能3D图形渲染成为PC制造商重要的差异化卖点,而GPU是PC实现这一差异化的关键部件,因此,PC代工厂商进一步倒逼英伟达的GPU在满足终端用户、程序开发商和设备制造厂商三方需求中不断寻求平衡。

从早期的《生化危机》《全面战争》《荣誉勋章》到后来的《魔兽世界》《英雄联盟》《王者荣耀》等网络游戏,均拥有超长的生命周期,它们背后亿万付费玩家在全球培育出动视暴雪(ATVI.O,2022年1月被微软以687亿美元对价收购,2023年10月下旬完成交易)、腾讯、网易等多家市值超5000亿元的公司。

2022年,全球游戏市场营收约为1844亿美元,网络游戏市场营收为1326亿美元,占比达72%。其中,中国是网络游戏最大市场,贡献了全球收入的20.1%。2003-2021年,游戏市场规模急剧扩张,中国游戏市场规模由13.2亿元增长至2965.13亿元,18年扩大224倍。

面对如此扩容的市场,主要面对PC端用户的英伟达开发出四类产品,包括用于台式机和笔记本电脑游戏的GeForceRTX和GeForceGTXGPU、用于低功耗设备上玩PC游戏的GeForceNOW、用于电视上播放高质量流媒体的SHIELD,以及适用于游戏主机的片上系统(SOC)和开发服务。

不玩网络游戏的人很难体会显卡配置的重要性,但通过间隔一年的两代产品,可以看出英伟达显卡的迭代效率。

2022年9月,英伟达发布了AdaLovelaceGPU架构,并推出了基于该架构的首批产品,包括GeForceRTX4090、RTX4080和RTX4070。其中,RTX4090内置760亿个晶体管、16384个CUDA核心和24GB高速镁光GDDR6X显存,在4K分辨率的游戏中持续运行速度超过100FPS,光线追踪技术带来的纤毫毕现得以完美实现。而其于2020年9月发布的GeForceRTX3090产品,内置283亿个晶体管、10496个CUDA核心和24GBGDDR6X显存。

4090较3090性能提升2-4倍,但功耗同样保持在450W。保持同等能耗的基础上大幅提升产品性能,对于芯片公司是翻山越岭的难度。

即便产品性能提升不止,2021年后,英伟达游戏业务营收仍掉头直下。英伟达在其年报中的解释是,“全球宏观经济状况及中国游戏需求下降的影响”。

被英伟达特别强调的中国大陆市场,多年来一直是其销售额最高的市场之一,但近年销售额明显下降,由2021年的71.11亿美元下降至2022年的57.85亿美元,占英伟达总营收的比重由2021年的26.42%下降至2023年上半年的20.92%(图6、7),中国市场的重要性可见一斑。

图6 :2011-2022年英伟达分地区的营收来源

数据来源:英伟达年报,新财富整理

图7: 2021年与2023年上半年英伟达分地区营收来源对比

数据来源:英伟达年报,新财富整理

接替游戏成为英伟达创收支柱的,是数据中心。2023年上半年,这一业务的营收达到146.07亿美元,接近2022年全年150.05亿美元的水平,直线拉升了英伟达的业绩。

數据中心的营收不是突然暴增。2014-2022年,英伟达数据中心的营收年复合增长率达62%。同期,英特尔的数据中心营收由143.87亿美元增至191.96亿美元,年复合增长率为3.7%。两家公司数据中心的业务虽然不同,但英伟达增速之快,可见一斑。

数据中心业务是什么?

根据英伟达财报中的阐述,我们可以将其简单理解为算力平台或者算力服务。

英伟达算力平台,由英伟达的高能效GPU、数据处理单元(DPU)、互连和系统、CUDA编程模型,以及越来越多的软件库、软件开发工具包(SDK)、应用框架和服务组成,服务于大多数加速计算密集型的工作负载,如AI、数据分析、图形和科学计算、超大规模云和企业、公共部门和边缘数据中心等。该平台既可以作为整体系统打包出售,也可以单独出售,以应对客户的定制化需求。

英伟达的GPU和相关软件的大规模并行计算架构非常适合深度学习、机器学习和高性能计算,为AI时代的规模化计算提供动力。加速计算的能力,令英伟达得以借力三个应用风口,成就AI时代的高速发展。

第一个风口,2016年深度学习接管互联网。2015年的英伟达GPU技术大会上(GTC大会),黄仁勋宣布英伟达全面转型AI。2016年3月,谷歌的机器人阿尔法狗(AlphaGo)击败了围棋世界冠军、职业九段棋手李世石,引发全球关注深度学习。随后,谷歌、微软等互联网巨头快速将各自的深度学习平台开源,供全球开发者无壁垒使用,向企业提供传统编码无法提供的云和AI服务,大量数据反哺深度学习,加速了AI的进化。英伟达推出NVIDIATensorRT深度学习推理框架和Inception计划,以支持深度学习和数据科学领域的初创企业发展,这带动其2016年GPU业务营收同比增长39%。

RTX 4090显示芯片内置760 亿个晶体管、16384 个CUDA核心和24GB高速镁光GDDR6X显存,光线追踪技术带来的纤毫毕现得以完美实现。

第二个风口,2021年加密货币“挖矿”产业回春。英伟达推出了LiteHashRate(LHR)和GeForceGPU,并增加了CMP(cryptocurrencyminingprocessors,加密货币处理器)的供应,以满足“挖矿”大规模计算的需求。2021年一季度,CMP为英伟达创收1.55亿美元,上半年创收4.21亿美元,部分对冲了游戏市场下滑对其业绩的负面影响。

第三个风口,2022年11月,语言大模型催化AI时代提前到来。这一年11月30日,OpenAI推出ChatGPT,5天内注册用户数超过100万,两个月后月活用户超过1亿,成为史上增长最快应用,全球掀起语言大模型和AIGC研发潮。中国市场以华为盘古、百度文心、腾讯混元、阿里通义为代表的大模型如雨后春笋般涌现,对高性能芯片的需求井喷。

AI大模型是“大数据、大算力、强算法”结合的产物,其中,大算力堪称基础设施。英伟达基于Hopper和Ampere架构推出的A100、H100以及特供中国市场的A800和H800(A100和H100部分性能减配的替代产品)等高性能芯片,是AI大模型的核心部件。

大模型潮起,英伟达“A+H”系列芯片销量激增。2023年8月10日,多家媒体报道,百度、腾讯、阿里等中国企业向英伟达采购约10万颗A800、H800处理器,订单总额或超50亿美元。

AMD的CEO苏姿丰(LisaSu)曾提出,2023年,全球数据中心AI加速器的潜在市场总额将达到300亿美元左右,预计到2027年,这一数字将超过1500亿美元(折合1.095万亿元),年复合增长率超过50%。这意味着,英伟达数据中心未来营收的增长空间巨大。

AI风口上,大模型训练的“入门级”算力支撑,至少需要1000颗A100芯片。

除了硬件支持,英伟达也提供大模型服务,推出语言模型NVIDIANeMo、图像视频模型NVIDIAPicasso、药物研发模型NVIDIABioNeMo等全栈式服务,用户可自定义用例并调整模型。

值得一提的是,除了中国科技圈兴起“百模大战”,业务与AI毫不沾边的上市公司也在采购高算力芯片处理器,以图跨界“算力”提振股价。

2023年9月29日,莲花健康(600186)公告,其全资子公司杭州莲花科技创新有限公司将以6.93亿元的总价,向新华三集团控股子公司新华三信息技术有限公司采购330台英伟达H800GPU系列算力服务器(每台服务器含8张GPU)。在此之前的一个月内,莲花健康股价由3.22元/股上涨至5.98元/股,大涨86%,创5年来新高。“算力”概念对A股公司市值的提振效力,可见一斑。

马太效应下,越来越多不同行业的企业和初创企业使用英伟达的GPU和软件,将其构建的产品和服务实现自动化。例如,专业设计师使用其GPU和软件创建电影中的视觉效果,并设计从手机到商用飞机的建筑物和产品;交通运输行业用其构建自动驾驶平台;医疗保健行业用以增强医学成像和加速药物发现;金融服务行业借此进行欺诈检测。

英伟达成为二季度全球业绩增长最强劲的科技公司背后,是其在显卡领域遥遥领先的市场份额。公开数据显示,英伟达占据全球数据中心AI加速市场82%的份额,而且,以95%的市场占有率垄断了全球Al训练市场。

近乎“垄断”的市场地位,简单总结源于英伟达三方面的优势。

一是产品和架构。基于架构的灵活性、多功能性和稳定高速性能,英伟达能够胜任从数据处理到训练、推理,推理前对数据所进行的预处理,再到后期的数据处理,语言进行标识化以便用于训练等任务。尤其是大模型和AIGC的工作流程强度大,大量的应用程序需要强大的并行处理能力,英伟达的架构组合和产品能够加速中心计算程序,以保证最低的运算和保有成本。

二是规模和速度。在游戏、智能驾驶、大模型、加速计算、智能云等终端上,英伟达已拥有庞大的安装量。庞大的规模和超快速度,决定了英伟达能够在不同的使用模型和计算环境中,持续发展极其复杂的软硬件、网络和计算堆栈,在保质保量的前提下加快客户的工程进度。而软件开发者能够通过英伟达的平台,接触最大数量的终端用户,提升业务或获得投资回报。规模效应下,在行业未出现大的技术创新和拐点前提下,强者愈强的马太效应将不断巩固英伟达的领先优势。

三是系统和生态。在AI大模型训练等并行工作负载中,性能强大的芯片处理器重要,软件生态更重要。性能强大的GPU让英伟达成为芯片巨头,但使英伟达成为全栈计算平台的,是其庞大的软件体系。

英伟达除了提供CUDA并行编程模型、CUDA-X应用加速库、应用程序编程接口(API)、SDK和工具以及特定领域的应用程序框架,还提供NVIDIAGPUCloud注册表(NGC),这是一个涵盖科学计算、深度学习和机器学习等领域、易于使用且经过优化的软件堆栈的全面目录。借助NGC,AI开发人员、研究人员和数据科学家可以开发AI和HPC(高性能计算)应用。

基于英伟达构建的软件系统,其硬件可以在每个大型计算机制造商和大型云服务器(CSP)的行业标准服务器中使用,也可以在英伟达DGXAI超级计算机中使用(DGX是一个专门为深度学习和GPU加速应用而构建的系统)。为了扩大可用客户群体、降低使用门槛,英伟达围绕GPU构建了多种现成系统,包括面向超大规模和超级计算数据中心的HGX、面向企业和边缘计算的EGX、面向高精度边缘人工智能的IGX以及面向自主机器的Argan。

算力王者背后,是英伟达从产品到平台再到生态系统不断进化,并扩大其领先优势。那么,英伟达这样的優势能否轻易复制呢?

370亿美元投入研发,专业化收购完善技术链

风口即市场需求,连续踩中科技产业发展风口,背后是英伟达满足爆发性算力需求的能力。

这一能力,源自其对变化中的早期市场和初创公司的关注和长期布局。例如,在ChatGPT爆红出圈之前的2016年,黄仁勋已拜访创立于2015年12月的OpenAI,并捐赠搭载8颗P100价值百万的超级计算机DGX-1,成为“为ChatGPT算力助攻的英伟达”。

插播一句,OpenAI采用了与AI先行者谷歌不同的技术路线,谷歌2017年6月推出具有6500万个可调用参数的Transformer模型,而OpenAI采用GPT(生成式预训练)模型,并于2018年推出具有1.17亿个参数的GPT-1。二者之间的技术竞赛自此开启。

我们从其产品迭代的时间密集度上,感受一下OpenAI进化的速度:2019年2月15亿参数的GPT-2、2020年5月1750亿参数的GPT-3、2021年1月120亿参数的DALL-E、2021年6月120亿参数的Codex、2022年3月13亿参数的InstructGPT、2022年11月末20亿参数的ChatGPT相继推出。

OpenAI每一次进化,都伴随着谷歌的迭代回应。2021年5月,谷歌发布1370亿参数的AI系统LaMDA对话应用语言模型。正是巨头之间你追我赶的竞争,才推动了全面AI时代的提前到来。

堪称初创公司算力最强助攻的英伟达,全球超过30000家合作伙伴中,15000家是初创公司,其中包括数千家AIGC公司。截至2023年1月末,英伟达GPU支持的应用程序已超过2800个。英伟达为全球TOP500排行榜上超过70%的超级计算机提供支持,其中包括Green500排行榜上排名前30的系统中的23个。正如三六零(601360)创始人、董事长周鸿祎评价英伟达,“对用户真正产生价值,才能慢慢生出伟大”。

如前所述,从卖GPU显卡,到卖平台服务,再到构建软硬一体的AI算力生态系统,推动英伟达演进的核心动能来自研发与收购。

“Innovationisatourcore”(创新是我们的核心)是英伟达每一年的年报中均会出现的固定表达。研发是科技公司的第一生产力,截至2023年1月末,英伟达研发方面的投入累计超过370亿美元,拥有19532名研发人员,占员工总数的75%。

其中,2013-2022年,其研发支出的绝对值保持着高速增长,研发占营收的比重稳定维持在20%(图8)。与同类可比上市公司相比,英伟达研发投入占营收的比重达23.47%,高于高通和AMD(表3)。

图8:2013-2022年英伟达研发支出及占总营收的比重

数据来源:公司年报、季报,新财富整理

表3 :2013-2022年,英伟达和代表性芯片公司的研发投入及占比

数据来源:Wind,新财富整理

除了真金白银做研发,从内部构筑技术发展动能,英伟达也以收购从外部完善技术链。

科技行业是并购重组的主阵地,英伟达30年的发展历程中,并购时有发生。从2000年收购图形芯片厂商3dfx,到2023年计划收购移动芯片供应商ARM,英伟达借助收购来实现技术跃升、业务拓展,从而实现业务转型和产业链完整。

我们从代表性的案例,来看资产收购对英伟达的意义。

第一,2019年3月至2020年4月,英伟达以70亿美元的对价收购以色列芯片制造商迈络思科技有限公司(MellanoxTechnologies,简称“Mellanox”)。该公司是全球领先的服务器和存储端到端连接解决方案的供应商,产品包括以太网交换机、InfiniBand智能互连解决方案、服务器、存储设备和超融合基础设施,应用于高性能计算、云计算、数据中心、企业计算及存储市场,全球500强超级计算机中超过一半使用其设备。

借此收购,英伟达硬件产品布局得以从GPU扩展至DPU。英伟达推出了BlueFieldDPU,由数据中心基础架构软件DOCA提供支持,通过DOCA,开发人员可以为BlueFieldDPU构建软件定义、硬件加速的网络、安全、存储和管理等应用程序。因此,英伟达可以在整个计算、网络和存储堆栈中进行优化,以提供数据中心规模的计算解决方案。目前,BlueFieldDPU应用于顶级的安全、存储和网络公司,但渗透率还比较低。

黄仁勋在2022财年第一季度财报发布时表示:“Mellanox收购完成一年来,超出了我们的预期,英伟达也转型为一家数据中心级计算公司。”

第二,2022年1月10日,英伟达收购其十多年的合作伙伴BrightComputing。该公司成立于2009年,是全球领先的高性能计算软件开发商,其所生产的软件管理着全球700多个组织使用的高性能计算系统。

借此收购,英伟达强化了其软件在边缘计算、数据中心和公有云、混合云等领域的运作能力,从而进一步扩大其高性能计算市场。截至2023年1月末,全球25个高性能计算应用程序中的23个使用英伟达的产品。

第三,2022年3月,英伟达收购其合作伙伴Excelero。该公司成立于2014年,是一家高性能软件定义存储供应商,其开发的NVMesh软件,可管理和保護NVMe闪存驱动器的虚拟阵列,作为跨公有云和私有云的块存储,其块存储在运行DPU的DOCA软件框架中发挥重要作用。被收购后,Excelero的技术被集成到英伟达的软件堆栈中,并应用到AI和高性能计算平台。

第四,2023年7月,英伟达收购了AI初创公司OmniML。该公司成立于2021年的美国加州,主要产品是一个旨在快速、轻松地大规模进行AI优化的平台Omnimizer,其软件可以压缩机器学习模型的大小,以便在更小的设备上驱动人工智能,但其引用的示例主要涉及计算机视觉。例如,帮助智能摄像头或自动驾驶汽车识别周围的物体,是汽车实现自动驾驶的关键技术之一。

值得一提的是,OmniML的三位联合创始人本科均毕业于清华大学,分别是麻省理工学院电气工程和计算机科学教授韩松、Meta前软件工程师吴迪,以及参与发明深度压缩技术的毛慧子。

除了上述“强链补链”式收购,英伟达也曾启动收购移动芯片巨头,借以重回移动领域。

筹划收购ARM(ARM.O),是英伟达历史上最受瞩目的收购计划。

ARM是一家移动端CPU芯片和架构供应商,全球99%的智能手机和89%的平板电脑使用其芯片架构,其成立至2022年末,芯片出货量超过2500亿颗。一直面向PC客户端的英伟达,如果收购ARM,将实现其在移动端的业务突破,覆盖PC和移动端客户,成为芯片领域真正的“垄断者”。

收购的机会由ARM控股股东软银释放。2020年9月14日,因多笔投资价值大缩水而在2019财年出现成立15年来首次亏损(亏损130亿美元)的软银,为缓解财务压力,宣布将ARM以400亿美元对价出售给英伟达。但这一交易计划自带的“垄断”属性,很快遭到ARM公司创始人赫曼·豪瑟(HermannHauser)和英国、欧洲、美国和中国的监管机构以及高通、微软、谷歌等公司的反对。2023年2月9日,英伟达正式宣布放弃该项收购,软银转而推动ARM独立上市。2023年9月14日,ARM在纳斯达克上市,创下2023年全球最大规模IPO纪录。ARM最新市值为515亿美元。

长期坚守内部研发和外部收购,造就了如今拥有算力生态系统的英伟达。那么,需要提问的是,英伟达有哪些“软肋”限制其未来发展呢?

轻资产代工生产模式,两大环节“卡脖子”

AI风口上,GPU是一个卖方市场。

大模型训练的“入门级”算力支撑,至少需要1000颗A100芯片。GPT-3模型训练采用的超级计算机,则需搭载数万颗英伟达A100芯片,而升级后的大模型需要的芯片更多。因此,创建大模型的第一门槛,就是芯片的数量和芯片价格。

供不应求下,2022年12月至2023年6月的半年内,英伟达A100价格累计涨幅近70%。英伟达H100的单价在2023年8月末超过了4.5万美元,专业机构推算,其成本约3000美元,利润率达1400%。

这样的暴利产品,当然大卖特卖最好,让利润涨到天上去。但是,高端芯片的生产工艺复杂度和产品良率几乎成反比,英伟达“生产”不出来市场所需的芯片。站在产业链顶端的科技巨头,正在遭遇“卡脖子”。

芯片行业如同所有高端制造业,有重资产一体化模式,也有轻资产的代工模式,前者的代表如英特尔(仅20%的产品由外部代工),后者代表如英伟达,虽然二者的产品结构不同,但随着高端产品占比提高以及出品规模增长,2020年开始,英伟达的净利率超过了英特尔,2023年上半年,差距进一步拉大(图9)。

图9 :2013年至2023年上半年英伟达与英特尔的净利率对比

数据来源:英伟达和英特尔公司年报,新财富整理

作为一家专注芯片设计和销售的公司,英伟达生产上依靠台积电等供应商,其芯片产品升级迭代中,生产环节的复杂度和生产工艺的难度往往呈非线性增长,需要整个供应链的合力支持,甚至面临供应链的重构(表4)。

表4 :2013年、2022年英伟达重要业务的主要供应商

数据来源:英伟达年报,新财富整理

这就导致,在外包生产的轻资产模式中,如果代工厂遭遇生产效率低下或排产限制等问题,产品就会无法按期量产或交付延期。早在2012年,英伟达即出现过产品因代工厂原因而供不应求的问题。2012年一季度,由于台积电28纳米开普勒(Kepler)GPU容量限制,英伟达无法满足客户对高端台式机GPU产品的需求,导致当季营收下降4%,净利潤下降55.3%,一直持续到2013年一季度才重回正增长轨道。

截至2023年1月,对台积电营收贡献排名前10的客户分别是苹果、联发科、AMD、高通、博通、英伟达、Marvel、意法半导体、亚德诺、英特尔。2020-2022年,其来自最大单一客户苹果的销售金额由3367.76亿元新台币增至5296.5亿元新台币,增长57%,但苹果占台积电总营收的比重由25%降至23%。由此可见,台积电的客户集中度在下降,单一大客户很难对其业绩构成特别重大影响。

针对客户对台积电的产能占有问题,台积电在2023年财报中明确表示,由于设计技术和功能的快速变化,代工客户一般不会提前很多时间下采购订单来制造产品,但是一部分客户与其达成协议,通过支付临时费用以获得台积电晶圆厂的指定产能。

这意味着,台积电的排产计划中,预留了临时付费增产的空间。据悉,台积电正以超级急件(superhotrun)生产英伟达GPU,但H100和A100的订单已经排到2024年二季度,即现在下订单,明年年中才能收货。

一般而言,芯片的性能与晶体管的数量正相关,但单位面积的硅片上晶体管排布越多,能耗越大散热问题越突出,产品良率也越低,因此芯片设计的关键在于性能与能耗必须达成平衡。

以服务于超级加速器的芯片H100为例,其是由超过3.5万个零件和近1万亿个晶体管组成的系统组件,内部设计的复杂程度,外行难以想象。

拆分芯片结构,H100主要由逻辑芯片、HBM存储芯片、CoWoS封装、PCB板等辅助器件组成。目前,封装和存储芯片是两大“卡脖子”环节。

我们以H100最通用的版本H100SXM为例,其采用的是台积电CoWoS的7晶粒封装,存储芯片则是6颗16G的HBM3芯片分列两排、围绕中间的逻辑芯片。

首先,台积电CoWoS封装是一种2.5D封装工艺,能将计算、内存等晶片堆叠到硅中介层或硅转接板,通过硅中介层上的高密度布线,实现晶片互连,再安装到基板上进行封装。这提升了芯片的连接速度、降低了功耗,相较直接在芯片上打孔、布线的3D封装工艺,其成本更低、散热更优,数据吞吐带宽更宽,几乎是市场上高算力、高存储芯片的唯一封装工艺。

目前,英伟达、AMD的4款高性能GPU均采用这一封装工艺。但台积电该封装工艺产能不足,且目前几无可替代厂商,这限制了英伟达相关产品的产量,预计2024年,三星或可提供该封装服务。

按照集邦咨询预测,台积电正在扩产能,其CoWoS月产能将在2023年底达到1.2万片,即便是台积电把CoWoS产能都排给英伟达,英伟达高端芯片产能的天花板也仅是1.2万片/月。因此,解决了封装环节的限制,高端芯片的出货量才会增加。

其次,存储芯片供应不足。H100中的6颗HBM3存储芯片,由韩国SK海力士独家供应。一张H100SXM使用6颗HBM3存储芯片的成本约1500美元。2023年上半年,三星的HBM3量产出货加快,存储芯片在2023年下半年后或不再限制H100出货量。

一块H100重达70磅,这几乎是今年市场上唯一用“体重”计量的芯片产品,其2023年二季度出货量超过了900吨。从长期来看,H100的供需缺口会随着AIGC的应用爆发而水涨船高。根据金融时报的报道,2024年H100的出货量预计将高达150万-200万张,相比于2023年的50万张提升3-4倍。有华尔街投行预测,2024年英伟达“A+H”系列显卡的出货量合计将达到300万-500万张。

得益于H100等高性能产品的拉动,2023年二季度,英伟达的毛利率达到68.2%,较2022年末的56.9%提高了11.3个百分点,创历史新高,且高于直接竞争对手英特尔和AMD(图10)。英伟达的毛利率,在Wind美股半导体设备与产品分类的104家公司中,排名第10。排名前9的公司中,6家2022年净利润录得亏损,仅博通(AVGO.O)的净利润高于英伟达。

图10 :2005年到2023年上半年,英伟达与英特尔、AMD的毛利率

数据来源:英伟达、英特尔、AMD公司年报,新财富整理

令竞争对手不寒而栗的是,H100和A100产能尚在爬坡阶段,英伟达性能更强的新产品又来了,一场看不见硝烟的算力战争正在发生。

黄氏定律挑战摩尔定律,算力会锁死吗?

顺周期航程中,站在头部的巨头,只会加速。

2023年8月初,在美国计算机协会计算机图形图像特别兴趣小组(SpecialInterestGroupforComputerGRAPHICS,简称“SIGGRAPH”)组织的2023年年会上,英伟达发布了基于GraceHopper架构、搭载的存储器为全球首款HBM3e(较HBM3快50%)处理器的新显卡GH200,可用于处理大语言模型、推荐系统、矢量数据库等全球最复杂的AIGC工作负载所需。该芯片配备141GB内存、72核ARM中央处理器和每秒5TB的带宽,较H100芯片内存增加1.7倍,传输频宽增加1.5倍。

GH200已于2023年5月全面投产,基于GH200GraceHopper平台的新系统将于2024年第二季度开始交付。

对于使用者来说,投资800万美元使用GraceHopper,相当于使用8800个价值1亿美元的X86GPU,整体成本降低12倍、能耗降低20倍。这也是黄仁勋说的“买的越多越省”的原因。

需要强调的是,英伟达的新平台依旧延续兼容模式,客户可以通过英伟达NVLink与其他超级芯片连接、协同工作,进而部署大型AIGC模型。因此,英伟达的一致性技术使GPU可以访问CPU内存,在双配置中可提供总计1.2TB的快速内存。

这无疑进一步加大了使用者改换GPU和平台的难度和成本。用户忠诚度“被动”加固。

那么,英伟达GPU芯片的性能升级会永无止境吗?

芯片性能提升过程中,晶体管数量增加的规律诞生了一个摩尔定律,即集成电路上可容纳的元器件数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。在客观存在的物理限制下,整个行业间隔十多年便会出现困扰聪明大脑的问题,摩尔定律会不会失效、算力会不会锁死?

2023 年二季度,英伟达的毛利率达到68.2%,高于直接竞争对手英特尔和AMD。

2023年9月29日,英伟达发布的一篇博客称,在过去10年中,英伟达GPU的AI处理能力增长了1000倍。由此,“单芯片推理性能”中看到的加速不会逐渐消失,理论上会继续出现,这一发现被业内称为“黄氏定律”。

短期内算力不会锁死,但AI大模型最强助攻的英伟达,如果其显卡所有环节都实现产能自由,那么,根据工业品规模化生产的莱特定律,产品累积产量翻倍,单位成本将下降固定百分比。

例如,汽车行业,整车厂产量翻倍,其成本价格就会下降15%。据相关机构测算,在芯片行业中,晶圆产量翻倍,成本下降约22%。如果技术迭代,比如芯片从10纳米迭代到7纳米技术,交付处理器的最终成本每年可以下降30%-33%。

正如台积电2023财年年报所示,当其产能利用率增加时,固定制造成本会分摊到更大的产量上,产量越大,单位成本越低。为了提升芯片制造效率,针对当前的SoC开发方法,台积电开发了多项晶圆加工程序,多个客户可以共用掩膜(mask芯片制造中的模具),从而降低客户的原型成本、缩短产品上市周期。

OpenAI正在探索自研AI芯片,并有意收購一家芯片公司,解决被芯片短缺限制进程的障碍。

英伟达与台积电在长期合作中,学习曲线效应与技术难度升级共振,彼此均获得了不可替代的优势。这也是AI芯片赛道上,英伟达被英特尔、AMD、微软、谷歌等巨头追赶多年,却尚未被超越的根本原因,而台积电也越来越难被替代。

但是,产能受限的英伟达,必然无法独吞未来10年AI算力芯片的万亿市场蛋糕,哪些公司将会是英伟达强劲的对手呢?

算力行业竞争加剧,英伟达要做“AI界的台积电”

全球GDP增长乏力的背景下,数字经济保持强劲增长。发展数字经济,算力是核心生产力,未来很长一段时间,投资算力将对经济增长产生倍增效应。《2022-2023年全球计算力指数评估报告》显示,算力指数平均提高1个百分点,该国的数字经济和GDP将分别增长3.6‰和1.7‰。

算力已成为经济增长的主要驱动力之一,且全球主要国家数字经济占GDP的比重持续增长。2022-2026年,该比重预计将从50.2%增长到54%。其中,2022年中国AI算力规模达到268百亿亿次/秒,超过通用算力规模。预计未来5年中国智能算力规模的年复合增长率将达52.3%。

热门赛道上,从来没有独一份的生意,即使是在算力世界“广积粮高筑墙”的英伟达,也面临竞争对手的追击。

竞品频出,AI算力市场风起云涌

目前,英伟达主要的竞争对手有两类:一是以AMD和英特尔为代表的解决方案供应商和许可方;二是以谷歌、亚马逊、微软为代表的大型云服务商。

首先,专业处理器阵营第一梯队的英特尔和AMD,2023年均已推出对标英伟达H100的产品和对标CUDA的软件系统。

为应对AI时代的算力需求,2023年7月,英特尔推出面向中国市场的第二代Gaudi深度学习加速器HabanaGaudi2,用于AI训练,意在争夺“百模大战”的中国市场。

目前,英特尔数据中心有两大系列产品,Gaudi系列为人工智能加速领域中的专属产品,适用于大模型的工作负载,Max系列GPU适用于科学计算领域。预计到2025年,英特尔将把两条产品线融合,推出结合第二代Gaudi的GPU产品。

2023年9月19日,IntelOn技术创新大会上,英特尔CEO基辛格(PatGelsinger)披露了5nmAI芯片Gaudi3,该芯片将于2024年推出。同时,基辛格还预览了第五代英特尔至强可扩展CPU处理器,其较第四代的AI性能提升2-3倍。阿里巴巴的“阿里云通义千问大模型”,使用的即是英特尔第四代至强处理器。

英特尔还宣布与ARM合作推出AI推理和部署运行工具套件OpenVINO,不仅支持预训练模型,也支持跨平台应用,以构建其软件生态。

值得一提的是,早在2021年12月,英特尔已推出了oneAPI,作为其“软件先行”战略的重要一步。oneAPI是一个统一简化的编程模型,旨在简化跨多架构的开发过程(如CPU、GPU、FPGA、加速器),建立类似英伟达CUDA的软件桥梁。

2023年9月19日,英特尔的软件计划迎来新的跨越,Linux基金会宣布,成立统一加速UXL基金会。这是一个跨行业组织,致力于提供一个开放的标准加速器编程模型,简化开发高性能、跨平台应用程序的过程,其核心是加速演进英特尔oneAPI计划。

该基金会的参与组织包括ARM、富士通、谷歌云、英特尔、高通、三星、ImaginationTechnologies(2017年被凯桥资本以5.5亿英镑收购)等公司,不包括英伟达。简单概括,这些芯片公司试图建立一个更大更开放的生态系统,角力英伟达的生态系统。

GPU二号玩家AMD,2023年6月推出InstinctMI300A和InstinctMI300X两款加速显卡,用于AI和高性能计算等领域。

前者是全球首个为AI和高性能计算打造的APU加速卡,也是AMD首款采用“CPU+GPU+内存”的一体化组合产品,其中包含1460亿个晶体管、24个Zen4CPU核心、1个CDNA3图形引擎和128GBHBM3内存。后者则是对标英伟达H100、面向AIGC推出的加速器,内含1530亿个晶体管,单卡可支持400亿参数的大模型,其显存容量和带宽均超越H100,是AMD产品史上最大的芯片产品,预计将于2023年四季度量产。

除此之外,AMD还推出集合了8个MI300X的InstinctPlatform,对标英伟达CUDA,同样以软硬一体化模式提供AI算力解决方案。

其次,向英伟达贡献万颗芯片订单的云商大客户,也纷纷自研AI芯片。

云服务是能够将AI三要素(数据、计算和模型)融合的最佳模式。微软AWS、亚马逊Azure、谷歌云等大型云服务商,正在自研芯片和AI模型,以降低使用算力与模型服务的成本。

以最早研发AI芯片的谷歌为例,早在2016年,其数据中心已推出TPU,2023年4月推出AI芯片TPUV4,比英伟达A100处理速度快1.2-1.7倍,功耗却低1.3-1.9倍。更重要的是,谷歌已将AI芯片团队调整至谷歌云团队中,以提高谷歌云AI芯片的租用服务能力。

华为也提出全面智能化战略,打造中国坚实的算力底座,为世界构建第二选择。有消息称,华为的GPU技术能力已可以对标英伟达,其昇腾910芯片性能可对标A100。

而微软则因为投资了OpenAI而跃升为大赢家,从Bing到Office再到Windows,微软不断将OpenAI的技术置入旗下产品,风头压过了谷歌。2023年二季度,微软云全球市场份额达26%。2023财年,微软云收入同比增长22%至1116亿美元。持续增长的微软云,未来有望超越市场份额30%的亚马逊云。

作为OpenAI的独家云供应商,微软Azure支持OpenAI的所有工作负载。同时,微软也增加了对专业超级计算机系统的开发和部署的投资,以加速OpenAI的相关研究。

微软已宣布,对其生产力软件中的AIGC功能收取30美元/月的费用,云计算与大模型的叠加效应已经为其带来实实在在的收益。

面對日益高昂的算力费用,微软也将于2023年11月推出AI芯片“雅典娜(Athena)”,用于其数据中心服务器,并可用于ChatGPT训练,从而降低微软内部和OpenAI大模型训练和推理的成本,减少对英伟达芯片的依赖。

面对科技巨头的竞争与追赶,英伟达也在延伸服务链条,降低其产品的使用门槛和可触达性。

向云服务延伸,对标台积电

AI时代,高性能的算力配置价格高昂,大模型训练成本动辄成千上百万美元,并不是所有公司都拥有入场资格。

自2020年以来,OpenAI在其最大的支持者微软建造的大型超级计算机上,开发了AIGC技术,该计算机使用了1万颗英伟达的GPU。现在建造这样一台超级计算机,仅GPU成本已近20亿元。

Bernstein分析师斯泰西·拉斯贡(StacyRasgon)分析,运行ChatGPT是非常昂贵的,每次查询大约花费4美分,如果ChatGPT的搜索量增长到谷歌搜索量的1/10,它将需要大约价值481亿美元的GPU,每年需要价值约160亿美元的芯片来维持运行。随着英伟达GPU供不应求、价格飙涨,OpenAI不少短期计划被迫推迟。有报道显示,OpenAI正在探索自研AI芯片,并有意收购一家芯片公司,解决被芯片短缺限制进程的障碍。

成本高昂,但每一个企业都需要大模型和AI服务,这是增长潜力巨大的长尾市场。

为此,黄仁勋提出英伟达要做“AI界的台积电”,通过与大模型厂商、云厂商合作提供高性价比的云服务解决方案,帮助下游企业降低大模型训练成本。

向云业务延伸的英伟达,推出云服务相关模型的动作迅速,一手合作、一手投资。

2022年8月,英伟达发布原生AI模型OmniverseAvatarCloudEngine(ACE),任何规模的企业都能够通过其云端的模型和服务即时获得创建并部署虚拟助手和数字人所需的大规模算力。

2023年3月,英伟达推出用于自定义AI基础模型的AIGC云服务BioNeMo,能够加速新蛋白质和治疗方法的创建以及基因组学、化学、生物学和分子动力学等领域的研究。

2023年3月,英伟达宣布推出包括NVIDIANeMo、NVIDIAPicasso和NVIDIABioNemo在内的一整套云服务,使企业能够构建、完善和运行自定义大型语言模型和AIGC模型。

与此同时,英伟达与微软、谷歌、甲骨文等云计算巨头合作托管其DGXCloud,合力提升超大规模云的性能。用户无需采购和拥有服务器,可以通过浏览器访问DGXCloud,包括AI超级计算、AI框架、预训练模型服务,DGXCloud的收费标准是每个实例36999美元/月起,每个实例包括8个H100或A10080GBGPU,每个GPU节点内存达640GB,且计算资源专用,不与云中另外的租户共享。

除了与大型云服务商合作外,英伟达还密集投资了云服务初创公司。

投资标的之一是“算力黄牛”CoreWeave。成立于2016年的CoreWeave,起初业务单一,就是用算力“挖矿”,其向英伟达采购了大量GPU组建矿机中心,并在币圈低潮期逆周期囤积了大量GPU,一路将自己买成了英伟达的“VIP”,享有英伟达显卡优先配货权。

2019年,CoreWeave将矿机中心改造为企业级数据中心,为企业级GPU加速工作负载提供AI云服务或者为计算密集型用例构建云解决方案算力,比大型公有云快35倍,但价格便宜80%。

2023年,随着ChatGPT爆火,英伟达显卡市场紧俏,连马斯克都在2023年4月成立X.AI公司,加入AI混战。卖方市场下,诞生了GPU租赁服务,英伟达GPU成为可抵押融资的“硬通货”。

2023年8月,CoreWeave抵押其拥有的英伟达H100显卡,从黑石等机构获得23亿美元债务融资,公司估值达到80亿美元。此前2023年4月,CoreWeave完成4.21亿美元的B轮融资,投资者包括英伟达,彼时其估值仅20亿美元。4个月时间,其估值放大了3倍,足见这个市场的热度。

2023年6月末,黄仁勋宣布与云计算巨头Snowflake合作,售卖英伟达的软件和模型服务。2023年9月有媒体透露,英伟达正计划向云服务商LambdaLabs投资3亿美元,LambdaLabs最早业务是销售GPU驱动的计算机,后转型为GPU云服务器租赁,目前主要面向企业出租带有英伟达芯片的服务器,从而与亚马逊、微软、谷歌等云服务商展开竞争。

从谷歌、微软等科技公司的AI布局可以看到,云服务是AI业务落地的重要抓手和桥梁,英伟达在云服务上的研发、合作、投资将不会停止。

频密投资完善产业链,英伟达AI生态圈扩容

业绩大好的英伟达,正在以投资的方式构建以AI为核心的生态圈。

截至2023年7月31日,英伟达账面趴着58亿美元现金和现金等价物,较2022年末的34亿美元增长了71%。足够的钱,是英伟达对外投资的基础。

不差钱的英伟达,2023年前9个月参与了至少20家AI初创公司的融资,堪比风投机构。要知道,全球最大的独角兽投资者之一的老虎环球基金(TigerGlobalManagement)同期也仅投资了30家标的。

其中,AIGC是英偉达投资的主要赛道,2023年英伟达投资了8家相关公司(表5)。这8家公司已在AI领域做出领先产品,其中不乏InflectionAI和Imbue等英伟达的下游客户。

表5 :2023年英伟达参与投资的主要AI初创公司情况

数据来源:Wind,新财富整理

例如,在2023年6月30日完成13亿美元融资的InflectionAI,投资者包括微软、英伟达和三名个人投资者。融资完成后,其历史总融资额达15.25亿美元,成为融资金额仅次于OpenAI的AIGC初创公司。

该公司由谷歌AI实验室DeepMind创始人之一的穆斯塔法·苏莱曼(MustafaSuleyman)于2022年1月离开谷歌后创立,2023年5月即推出首款产品?名为Pi的AI个人助理,6月发布支持Pi的AI模型Inflection-1,被视为OpenAI劲敌之一。

穆斯塔法·苏莱曼称,英伟达和CoreWeave正在为公司部署数千个H100GPU,投入使用后Inflection的新集群将运行2.2万个H100GPU,超过Meta公司的1.6万个GPU集群。

另外,融资到I轮、估值超过430亿美元的Databrick,2023年3月发布ToB端的语言大模型Dolly,4月发布Dolly2.0,可用于构建商业应用程序,有望在B2B生成式AI应用爆发式增长时期占得先机。2023年6月,其以13亿美元的对价收购了开源大模型公司MosaicML,该标的也是OpenAI的劲敌之一。强强联合后,Databrick在AI领域的实力更强,IPO或将提上日程。

AIGC之外,医药AI是英伟达聚焦投资的另一核心赛道。据bioSeedin不完全统计,2023年8月、9月及10月第一周,共有29家AI制药企业完成新一轮融资,披露融资总金额超过16亿美元,达到2021年医药公司融资巅峰期的1/3,其中6家公司獲得了英伟达的投资(表6)。

表6 :2023年7月后英伟达投资的主要AI医药公司

数据来源:Wind,新财富整理

例如,上市公司Recursion(RXRX.O)获得英伟达5000万美元投资后,宣布将利用英伟达的AIGC云服务来加速AI在生物和化学领域的基础模型开发,而Recursion也能通过自身庞大的数据来不断训练英伟达的AI模型。IambicTherapeutics宣布将利用英伟达的DGXCloudAI超级计算平台和BioNeMo云服务,加速其药物研发。

作为熟知AI技术路线的产业投资者,英伟达通过投资AI领域的初创企业,并推动这些企业的发展,一方面有助于其紧跟前沿赛道的产品需求,不断迭代技术,保持竞争优势,另一方面,成为AI前沿赛道公司的股东后,这些独角兽无论继续融资还是上市,英伟达都将获得不菲的投资收益。

Wind数据显示,美股披露相关数据的88家半导体及半导体设备上市公司中,2023年10月20日的收盘价高于发行价的占比64%。由此可见,英伟达的投资从开端就大概率会实现双赢。

除了投资AI下游应用型企业外,英伟达同时向上参与光刻机制造。2023年,英伟达与台积电、ASML、新思合作发布了计算光刻库cuLitho。cuLitho可以通过部署有大量GPU的DGXAI计算系统对计算光刻(在芯片设计和制造领域的关键步骤,也是最大的计算负载之一)进行加速,使其达到基于CPU计算速度的几十倍,同时降低计算过程的总能耗,有助于晶圆厂缩短原型周期时间、提高产量、减少碳排放,将长期影响产业发展并累积形成代际差。

以GPU为核心,英伟达向上下游延伸业务,打造更庞大的AI生态圈,它也因此成为AI产业链上更重要的存在。

股价高位回调12%,英伟达高增长可持续吗?

在算力领域全面出击的英伟达,也不可避免被投资者投了看空票。多位投资人认为,受产能限制,英伟达的股价已提前兑现了未来的业绩增长。

我们先看美股半导体行业的整体走势。受益于OpenAI推出的ChatGPT大模型推动,2022年11月末至2023年7月末,费城半导体指数、标普500指数、纳斯达克100指数均走出了气势如虹的上扬线,费城半导体指数更终结了此前9个月下跌40%的萎靡(2021年12月至2022年9月),但仍未回升到2021年12月的历史高点(图11)。

图11 : 2022年10月至2023年9月费城半导体指数与标普500指数、纳斯达克100指数走势

数据来源:Wind

芯片行业整体仍处在萧条期。Wind数据显示,截至2023年10月20日,已披露2023年二季度业绩的美股93家半导体企业中,35家企业录得亏损。其中,英特尔亏损12.77亿美元,AMD亏损1.12亿美元,美光、安霸亏损额均呈现逐季扩大趋势(表7)。盈利的高通,净利润也同比下滑42.9%。

表7 :近期美股主要芯片企业净利润(单位:亿美元)

数据来源:Wind,新财富整理

除了亏损问题,存货飙涨成为困扰美股半导体企业的另一个问题。2022年末,英特尔的存货达到132亿美元。2023年6月末,高通存货达69亿美元。二者的存货均创历史新高。

韩国也不例外,其最大的芯片企业三星电子存货连续3年攀升,至2023年6月末,存货达3050亿元,创历史新高。2023年二季度,韩国第二大芯片企业SK海力士因需求疲软,亏损2.9万亿韩元,同比下跌169%。

同行可比公司普遍承受业绩下行和库存飙涨的双重压力下,英伟达股价也由高点回调。2023年8月31日至9月29日,其股价下跌12%,总市值蒸发约1500亿美元。同期,费城半导体指数下跌6.5%,标普500指数下跌5%。

值得注意的是,这一波回调,发生在英伟达发布最好二季度业绩和250亿美元的股票回购计划之后。

据报道,2023年10月9日,韩国总统办公室通报,美国同意三星电子和SK海力士向其位于中国的工厂提供设备,无需其他许可。这一变化或将扭转两家韩国企业的库存和亏损问题。这无疑是对萧条的芯片行业释放的空前利好,英伟达股价此后连涨两天。

但是,受拜登政府更新针对AI芯片的出口管制规定影响,费城半导体指数、标普500指数、纳斯达克100指数一致下跌,英伟达市值4天内蒸发1163亿美元,股价下跌10%。

中国仍是芯片巨头最大的单一市场。尤其是紧随OpenAI,2023年中国科技公司兴起“百模大战”,更是释放了对AI芯片的巨大需求。

中国AI头号玩家百度,2023年初整合昆仑芯、太行DPU、飞桨深度学习框架、文心大模型、百度智能云等产品,构建AI大底座。AI大底座将千卡并行加速比提升90%以上,训练场景资源利用率提升70%以上,模型开发迭代效率提升100%以上。目前,其万卡训练集群的加速比达到95%,有效训练时间占比达到了96%,千帆平台大模型调用量正以每周环比20%的增速攀升。

运营商方面,中国电信将采购I系列/G系列训练型服务器总计4175台,InfiniBand交换机总计1182台。中国移动在上半年业绩会上表示,正在建设亚洲最大的智算中心。

这些“基础设施”的建设中,算力储备至关重要,而大模型训练需要大量的英伟达GPU。百川智能创始人、CEO王小川曾对媒体分析指出,在大模型中,GPU的算力成本大概占40%-70%,而其中网络连接成本和GPU显卡成本的比例大概为3:1。而从大模型训练、推理两部分看,国产AI芯片在数据推理上可以争取实现国产替代。目前,在模型训练方面,英伟达做得最好。英伟达GPU在AI训练领域的市场份额达到95%,且暂时没有可替代产品或方案。

更重要的是,国内GPU企业面临生态迁移的难题,众多基于CUDA的代码和程序,转型新生态需要大量的时间和重建成本,以及处理兼容性难题。

有私有云公司的CEO在接受媒体采访时说,他们的公司也想过转去买AMD的显卡,但要把这些显卡调试到正常运转至少需要两个月的时间。而为了缩短这两个月,英伟达投入370亿美元跑了30年。

因此,英伟达在AI算力的领先优势看起来仍将持续。而不断增长的中国AI市场,或将再度成为其业绩增长的动能。

可怕的是,英伟达还在奋力奔跑。2023年5月,其宣布推出一款新型大内存AI超级计算机,由NVIDIAGH200GraceHopper超级芯片和NVIDIANVLinkSwitchSystem驱动的NVIDIADGX超级计算机,旨在助力开发面向生成式AI语言应用、推荐系统和数据分析工作负载的巨型、下一代模型。

TOB端的英伟达,与下游AI科技公司深度捆绑。未来,市场能否出现低成本的AI算力替换方案,或AI技术路线的颠覆性变革,挑战其竞争优势,我们拭目以待。

猜你喜欢
算力芯片模型
这个第二不一般
卫星通信在算力网络中的应用研究
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
基于SiteAI算力终端的交通态势感知系统
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
3D打印中的模型分割与打包
芯片测试
多通道采样芯片ADS8556在光伏并网中的应用
FLUKA几何模型到CAD几何模型转换方法初步研究