中国大模型，什么水平？

2023-09-29 03:07荣智慧

南风窗 2023年20期

荣智慧

半年多以前，ChatGPT横空出世，热钱奔涌。如今，当时的押注迎来了第一批收获。

8月的最后一天，中国多家人工智能大语言模型拿到许可备案，包括百度的文心一言、抖音的云雀、智谱AI的智谱清言、中科院的紫东太初等。此前，这些大模型一直处于内测阶段，即使下载应用也没法注册使用；备案后，它们真正面向社会开放，经受用户的花样考验。

同一天，阿联酋人工智能公司G42推出了Jais大模型，以阿拉伯语和英语数据为基础，供全球4亿多名操阿拉伯语者使用。Jais名字源自阿联酋海拔最高的山峰。G42的投资伙伴包括阿布扎比国家石油公司、财富基金穆巴达拉和阿提哈德航空公司。

全球各个语言文化圈，都为“自己的”大语言模型苦心经营。

更不消说大模型的发源地—硅谷，Meta正在憋一个据说足以挑战ChatGPT的“大招”、比LLAMA-2还“强大几倍”；苹果每个月在人工智能研发上砸下数百万美元；谷歌和微软各自为旗下“王牌”Anthropic和OpenAI招兵买马。

大模型之战，呈现出国家、地区以及内部竞争的火热局面—毕竟肩负着带领全球经济走出低迷的浪漫期待。因此，它是什么，如何运作，以及怎样变现，成为人们最关心的问题。

“注意力是必需”

人工智能时代，本质是大模型时代。

大模型，也叫大语言模型（Large Language Model，LLM）、多模态模型（multimodal model）。最火爆的GPT，是大模型的一种形态，G代表生成性的（generative），P代表预训练（pre-trained），T代表变换器（transformer）。

大模型的“大”，是指模型参数至少达到1亿以上。像GPT-3的参数规模是1750亿。大模型之外，还有“超大模型”，通常拥有数万亿到数千万亿参数。大模型和超大模型的主要区别，就在于模型参数数量的多寡、计算资源的需求和性能表现。

如今绝大多数大模型，都算得上“超大模型”，比如1.6万亿参数的谷歌switch transformer，1.9万亿参数的快手推荐精排模型，1万亿参数的阿里达摩院M6等等。

因为参数规模膨胀得比较厉害，“超大模型”都不大有人叫了，一律都用“大模型”概括。

模型，通常是一个函数或者一组函数，以线性函数、非线性函数、决策树、神经网络等各种形式呈现。模型的实质，就是对这个/组函数映射的描述和抽象。训练和优化各种模型，就能够得到更加准确和有效的函数映射。模型的目的，是为了从数据中找出一些规律和模式，好预测未来。

而且参数越多，模型就越“高端”，就可以处理更丰富的信息，具备更高的准确性。大模型一般用来解决自然语言处理、电脑视觉和语音辨识等复杂任务。

大模型是人工智能领域“联结学派”的“胜利”。

七十年来，人工智能研究者大概分为三个派别：符号学派、联结学派和行为学派。符号学派，也叫逻辑主义学派，主张通过电脑符号操作来类比人的认知过程和大脑抽象逻辑思维。联结学派，又称仿生学派，强调对人类大脑的直接类比，认为神经网络间的连接机制与学习方法能够产生人工智能。联结学派日后的技术突破最大，神经网络、深度学习都来自这一派。行为学派的思想理论源自进化论和控制论。它的目标在于预见和控制行为。

一直到20世纪80年代，符号学派都占主流。聯结学派自1986年以来，在机器学习、深度学习领域，综合应用了心理学、生物学、神经生物学、数学、自动化和计算机科学理论，取得较大进展。

特别是2017年6月，谷歌团队的瓦斯瓦尼等人发表论文《注意力是必需》（“Attention Is All You Need”），系统提出了Transformer的原理、构建和大模型演算法，将预训练模型推而广之。

Transformer一举击败了卷积神经网络、递归神经网络，成为最受欢迎的神经网络架构，主要优势就是“注意力机制”。

自此，Transformer一举击败了卷积神经网络、递归神经网络，成为最受欢迎的神经网络架构，主要优势就是“注意力机制”。

简单而言，就是它知道该把注意力放在哪里—通过“理解”上下文，Transformer会准确预测“重点”，从而做出判断：输入的序列再长、相关信息隔得再远，都没有关系。

淘金先要有“铲子”

大模型再神奇，也建立在“过硬的”硬件基础之上。

先不要争论OpenAI的ChatGPT是不是最火爆，或者Midjourney、Anthropic的Claude更有人缘，卖芯片的英伟达才是最大赢家—别人淘金时，他靠卖铲子暴富。

根据第二季度财报，英伟达该季度收入67.0亿美元，净收入飙升至6.56亿美元。在ChatGPT带来的人工智能热潮之前，英伟达靠卖矿卡—“挖”比特币的高性能GPU而闻名；再之前，它是PC游戏玩家的心头好。

东风压倒西风。现在人人都说，没有英伟达，就没有ChatGPT。财报显示，英伟达人工智能硬件部门的收入达到了创纪录的10亿美元—超过总销售额的3/4，远超加密币和游戏的收入。

英伟达最炙手可热的旗舰产品，是GPUH100，人称“世界上第一块为生成型AI设计的芯片”。只要想在人工智能、大模型的馅饼上切一块的人，都得尽可能多地囤货。假如买不到供不应求的H100，它的前身A100也行。

最惹眼的客户是微软，其花费数亿美元为OpenAI购买了上千块A100芯片。2019年，微软投资了OpenAI，投资协议就包含了“买芯片”的内容。正是由于这项投资，以及英伟达的硬件，OpenAI才能够打造举世瞩目的ChatGPT。

所以，每块售价4万美元的筹码必须“先下手为强”：沙特阿拉伯已经购买了3000块H100芯片，阿联酋也买了数千块。两个海湾国家的领导人表态，他们的目标是在人工智能领域取得领导地位，以推动雄心勃勃的经济发展计划。

谁不是呢？中国的科技巨头，包括腾讯和阿里巴巴，也在寻求购买英伟达高性能芯片的机会。

据悉，英伟达现在已经占据高达95%的人工智能GPU市场。

不过，纵观芯片发展史，一直坐在宝座的王者不多。AMD和英特尔等芯片巨头，已投入数十亿美元开发自己的机器学习处理器。谷歌和亚马逊也不甘人后。就算是买得多的微软，也不想命脉系于人手，正创建一个内部AI芯片项目。

这些竞争对手都看到了英伟达“落后”的产能：去年9月才发布的H100，2024年就会售罄。英伟达计划将其产量增加两倍，近日又推出了名为TensorRTLLM的新型开源软件，预计将令H100的性能翻倍，更快运行大模型。

B端变现路漫漫

由于高性能GPU芯片短缺，采购受限，以及中文数据库质量参差不齐，中国今年发布的100多个大模型，普遍与ChatGPT存在差距。

优质大模型开源已久，Meta的LLAMA-2近日又宣布开源，导致整个行业的技术门槛不高，且逐渐降低。

客观来看，中国在大模型开发方面，起步比美国晚，研制大模型的单位和企业比美国多，但数量不能代表质量和研发水平。一些模型的参数量已经超过1万亿，高于GPT-4，而同台评测的数据和报道，一般都显示出了它们肉眼可见的能力差异。

当然，评价大模型也需要多维度的标准。中国企业在获得中文语料和对中国文化的理解方面比外国企业有天然的优势，中国制造业门类最全，具有面向实体产业训练产业大模型的有利条件。

从技术上看，中国企业做企业级的大模型已经相对容易；从应用上看，在商业化上推陈出新，路径尚不清晰。

先行一步、面向C端（个体消费者）的ChatGPT，正在开启商业化模式。OpenAI宣布，预计在未来12个月内通过销售人工智能软件及其计算能力，将获得超过10亿美元的收入。

微软联合OpenAI发布的企业级Azure OpenAI GPT-4云服务，拥有11000名客户。今年以来，微软智能云收入超过了1100亿美元，其中Azure占比首次超過50%。

相较于头部的OpenAI的良好前景，到目前为止，市场还没有观察到中国企业级大模型明显的营收增长。即便是360公司获得近2000万元，也属于软件会员费用和企业安全云的SaaS服务。其他发布大模型的公司，也没有单独披露大模型技术所带来的收入数据。

从技术上看，中国企业做企业级的大模型已经相对容易；从应用上看，在商业化上推陈出新，路径尚不清晰。

商业价值的增加则有正向反馈。科大讯飞半年报显示，自讯飞星火大模型发布并完成首次升级以来，5月至6月，公司AI学习机的GMV（商品交易总额）分别同比增长136%、217%；讯飞AI硬件（AI学习、AI办公、AI健康）在“618”期间销售额同比增长125%。

此外，大模型也可以为内部赋能，提升整条产品链的商业价值。据讯飞星火介绍，其一开始就确认了“1+N”的体系。“1”就是通用的基础认知大模型，“N”就是讯飞星火在教育、办公、汽车、人机交互、医疗等领域进行应用落地。截至2023年8月15日，讯飞星火已经在讯飞AI学习机、讯飞智能办公本、讯飞听见APP、星火语伴APP、iFLYCode等C端软硬件及教育、医疗、工业、办公、汽车等B端业务赛道落地应用。

B端（企业用户）大模型赛道，比C端更具吸引力。

6月20日、9月1日，两批境内深度合成服务算法备案清单公布，其中包括360智脑文本生成算法、网易有道机器翻译算法、快手生成合成算法、天工大语言模型算法、爱奇艺生成合成算法、云雀大模型算法、华为云盘古多模态大模型算法等。

2023全球数字经济大会人工智能高峰论坛上，周鸿祎表示，大模型真正的机会在企业级市场，中国做大模型，最应该抓住产业发展的机会。但目前的公有大模型用在政府、城市、行业等企业级场景时，存在四点不足，包括缺乏行业深度、数据安全隐患、无法保障内容可信、训练和部署成本过高等。

当下B端大模型商业模式，可以分为三种：出售大模型API（应用程序接口），向公司或开发者按照调用次数收费；直接卖大模型开发服务，向传统企业输出大模型行业解决方案；使用大模型改造现有业务，提高产品的竞争力，获得更多商业回报，即Model-As-AService（MaaS），模型即服务。

在人工智能领域，复制比亚迪赶超特斯拉的经验也并非不可能。

中国工程院院士邬贺铨就表示，基于训练ChatGPT的原理，利用行业与企业的知识图谱进行深度训练，有可能开发出企业专用的大模型。

他说，在ChatGPT出现之前，有人认为中国在AI方面的论文与专利数与美国不相上下，ChatGPT的上线使我们看到了中美的差距。现在需要清楚认识和重视我们面对的挑战，做实实在在的创新，将挑战化为机遇，在新一轮的AI赛道上做出中国的贡献。