颜媛媛
“訓练数据+模型算法+算力”是ChatGPT成长的基础,以ChatGPT为例,训练ChatGPT3.5使用英伟达A100芯片,而一颗英伟达A100芯片的成本约8万元,完成整个训练过程需要三万颗英伟达A100芯片。此前战胜李世石的AlphaGO,训练只用了176颗GPU。
ChatGPT的兴起推动着人工智能在应用端的蓬勃发展,这也对计算设备的运算能力提出了前所未有的需求。虽然AI芯片、GPU、CPU+FPGA等芯片已经对现有模型构成底层算力支撑,但面对未来潜在的算力指数增长,全球当前的算力显然有些紧张。
全球算力每5~10个月就要翻倍,截至2021年,全球计算设备算力总规模达到615EFlops、增速44%。浙商证券预测,2030年,算力有望增至56ZFlops,CAGR达到65%。而这还是ChatGPT还未降临之时,正常的算力需求预测值。
2022年底,ChatGPT来临之后,无疑又将拔高算力的增长曲线。根据通信世界数据,ChatGPT的总算力消耗约为3640PF-days(即假如每秒计算一千万亿次,需要计算3640天),需要7~8个投资规模30亿、算力500P的数据中心才能支撑运行。而这才是参数规模1750亿的GPT-3,除此之外还有参数5620亿的PaLM-E,彼时,算力以及其背后的功耗还能顾得过来吗?
未来,AI算法算力行业的天花板,由半导体行业的发展决定。
AI算力进入大模型时代,大模型的实现需要强大的算力来支撑训练和推理过程。以GPT模型为例,GPT-3175B参数量达到1750亿,需要大量GPU协同工作才能完成。
以OpenAI为例,微软专门为其打造了一台超级计算机,专门用来在Azure公有云上训练超大规模的人工智能模型。这台超级计算机拥有28.5万个CPU核心,超过1万颗GPU(NVIDIAV100GPU),按此规格,如果自建IDC,以英伟达A100GPU芯片替代V100GPU芯片,依照性能换算,大约需要3000颗A100GPU芯片。每台NVIDIADGXA100服务器搭载8块A100,则需要375台,每台单价19.9万美元,则自建IDC的训练服务器算力成本为7462万美元。
AI的云端训练和推断计算主要基于AI服务器,对算力、存力、运力、散热性能要求更高,带动算力芯片、配套硬件、机箱等设施不断升级。算力芯片可谓算力的载体,通过其提供的计算能力,支撑互联网、科技、制造业等各个行业的发展和数字化转型。基于此,专家提出了算力与算力芯片之间的关系公式:算力=(单芯片)性能×规模(即数量)×利用率。
而CPU+GPU是目前最流行的异构计算系统,CPU负责神经网络模型的构建和数据流的传递,GPU只是单纯的并行矩阵乘法和加法运算。而随着专项计算需求的崛起,运行效率更具优势的NPU芯片成为AI算力芯片的主要发展方向。
NPU为特定要求而定制,在功耗、体积方面具有优势,在推理端应用潜力巨大。NPU作为专用定制芯片ASIC的一种,是为实现特定要求而定制的芯片,芯片设计逻辑更为简单。除了不能扩展以外,在功耗、可靠性、体积方面都有优势,尤其在高性能、低功耗的移动端。
在关乎未来科技领域话语权的竞争中,各种纷争与冲突就从未停息过,半导体“卡脖子”问题同样出现在了AI算力芯片领域,美国对华半导体管制已经从最初针对某些公司扩大到对半导体整个行业的全面限制。
2022年8月,英伟达被美国政府要求停止向中国出口两款用于人工智能的顶级计算芯片,其峰值性能和芯片到芯片的I/O性能大致相当于A100的阈值,即A100和H100两款芯片都将受到影响。AMD也同样被要求禁止将其MI100、MI200系列人工智能芯片出口到中国。而2023年3月1日的延缓期已过,后续将无法向大陆市场出货。
而在美国对中国半导体产业发展持续打压背景下,英伟达、AMD断供进一步激发算力芯片国产化需求。当前已经涌现出一大批国产算力芯片厂商,寒武纪、龙芯中科相继推出自研GPU,海光信息的DCU(GPGPU)也逐渐打出知名度,其他配套环节的国产化进程也正在加速推进。
具体产品方面,目前景嘉微已成功研发JM7200和JM9系列GPU芯片,应用于台式机、笔记本、一体机、服务器、工控机、自助终端等设备。而专注AI领域核心处理器的寒武纪目前已推出了思元系列智能加速卡,第三代产品思元370基于7nm制程工艺,本身是寒武纪首款采用chiplet技术的AI芯片,最高算力达到256TOPS(INT8)。
总而言之,AIGC推动AI产业化由软件向硬件切换,半导体+AI生态逐渐清晰,而在后摩尔时代,算力产业迎来巨大变局,我国算力产业迎来前所未有的历史机遇。