田丰
商汤科技董事长兼CEO徐立强调:“在现在这个时间点上能不能用AI来命名时代,取决于它能不能把我们这个时代生产要素的成本规模化下降,从而才能让AI走进千家万户。”2024年伊始,商汤科技智能产业研究院梳理出“中国大模型高质量发展的十大机遇”,为企业家、创业者们点亮数字化转型征程。
大模型、大计算、大数据都具有重资产投入的发展特征。智能计算基础设施在长周期建设过程中,具有“资本密度”“算力密度”“数据密度”持续增加的特征,目前投资总额尚具有极大提升空间,将不断增强我国经济的比较优势。例如支撑生成式智能应用的智能计算中心资产规模日趋庞大,新型AIDC(AI Data Center)智能基础设施通过高效整合能源、算力、训练数据、大模型等新生产要素资源,为以智能经济为核心的“数字经济3.0”构筑护城河,支撑实体经济生产结构的数字化转型调整。
正如卡尔·马克思在《资本论》中所说“基础设施,即固定资本,是生产过程所必须的持久性条件”。1995年,美国“信息高速公路计划”总投资额4 000亿美元,占年度GDP的5.8%,开启了全球互联网“数字经济2.0”浪潮,近年美国数字经济年均增速超过6%,占GDP比重已超过10%,年度产值高达20 000亿美元,并提供了5%的就业岗位。据国家发展改革委数据显示,2022年开始,中国“东数西算”工程项目总投资额超过4 000亿元,在国家年度GDP中占比不到1%,仍有加大基建投入的空间。IDC预计2022~2027年,中国智能算力规模复合增长率高达33.9%,是通用算力增速的2倍,且用于行业应用的推理算力从2024年出现“拐点”,首次超越训练算力规模。2024~2027年,推理算力占比从67.7%提升至72.6%,而2025年中国数字经济规模将首次超过实体经济(GDP占比超过50%)。
经济学理论中,新型社会基础设施的重大意义在于促进技术进步、提高生产率、加速内生经济增长,具有良好的“正外部性”与“网络效应”。1955年出版的《经济增长理論》一书中,经济学家阿瑟·刘易斯认为“基础设施投资对于经济增长至关重要,因为它们为生产要素提供了有效的运作环境”。在2023年2月,国务院印发的《数字中国建设整体布局规划》中明确:“数字中国建设按照‘2522的整体框架进行布局,即夯实数字基础设施和数据资源体系‘两大基础,推进数字技术与经济、政治、文化、社会、生态文明建设‘五位一体深度融合,强化数字技术创新体系和数字安全屏障‘两大能力,优化数字化发展国内国际‘两个环境。”
数字中国建设,与“数字基础设施互联互通”“数据资源规模和质量”紧密相关。在中国“智能计算基建化、传统基建智能化”的过程中,科技创新是推动经济增长、社会基础设施高质量发展的原动力。
基于大语言模型的对话式交互,降低全民对AI工具的开发与使用门槛,将极大刺激AI市场需求的爆发。“这场未来通信革命带来的好处与难题将比上次个人计算机革命造成的好处与难题大得多。”比尔·盖茨在1995年出版的《未来之路》一书中提道。
比尔·盖茨认为大语言模型是“自图形用户界面以来最重要的技术进步”,我们应把大语言模型视为新一代人机通信革命(表1)。人机交互界面意味着人类指挥终端的效率和体验,早期专业技术人员使用的命令行界面(CLI),是让人说“机器的语言”;之后Windows和iPhone上受教育大众使用的图形界面(GUI),以人类操作图形来控制机器;再到如今众多模型、软件采用对话式交互界面(CUI),让机器、程序使用“人类的母语”(自然语言、方言)交流,包括多模态交互方式,让冷冰冰的机器“拟人化”,变身数字人伴侣、生产力助手,走入服务行业,智商与情感的双轨进步,让AI突破“图灵测试”,成为人类社会的“新成员”。
MetaAI在WhatsApp、Messenger、Instagram上有28位AI虚拟角色,与人类用户社交,包括舞蹈爱好者、高尔夫职业球手、铁人三项运动员、手工艺专家、健身房闺蜜、烹饪大厨、水手、破案侦探搭档等虚拟人物。国内微博也上线了热门电视剧《长月烬明》《狂飙》中的AI虚拟人物,与粉丝微博、私信互动交流。终有一日虚拟角色将从线上走入线下,“具身智能体”带来的伦理影响颇值得深入研究。
AI云负责训练,AI终端负责推理,算力格局初显。目前AI写作、AI绘画、AI编程、AI生成视频、AI数字人、AI办公助手、AI营销助手、AI虚拟角色、智能驾驶等层出不穷的AIGC应用,预计将成为未来5年数字经济的新动能。每一次模型应用都是一次推理计算,虽然单次推理算力成本很低,但数亿用户进行数亿次推理时,推理算力的总成本将超过训练算力总成本。伴随爆款AIGC应用的出现,庞大的用户访问量持续推高推理计算成本,将带来“AI云-AI端”的算力分工与转移,英伟达、英特尔、ARM等芯片厂商,都在积极投入终端AI芯片产品研发,预计2024年消费电子市场上将会出现众多嵌入AI芯片的智能增强型个人电脑、手机、AR眼镜、家电等,“AI Everywhere”驱动的AI新终端,将会分担一部分推理算力任务,减轻AI云负载。
小模型正在拥有大模型的效果,以及硬件终端算力的良好适配性与功耗,终端小模型与云端大模型组成混合AI架构,AI PC/平板、AI手机、AI机器人、AR眼镜、AI可穿戴设备等一系列小型服务设备,也能跑得起压缩版“大模型”,多端小模型将融合感知、任务协同、共享记忆,形成一体化的“群体智能体”(模型矩阵)。微软27亿参数量的Phi-2,性能与Google Gemini Nano 2 相当或优于后者。这要归功于模型扩展和训练数据管理方面的新创新。
多模态大模型降低生产成本,激活指数级市场需求。多模态语言大模型逐步成为智能终端的决策器,将开启新一轮工业革命。我们把大语言模型视为新一代人机通信革命,当新一代“应用软件”(AI模型)与新一代“硬件终端”(机器人、AR眼镜等)加速融合后,下一轮工业革命大幕拉开。在供给侧,基于大模型的智能体變成人类的“生产力遥控器”。
伴随AI芯片嵌入智能车、智能机器人、智能AR眼镜、智能家电等所有终端,人类个体在“人机协同”模式下能够同时指挥的生产资料规模大幅上升,例如商汤用50 000条路线、30种天气照明场景、280小时长的驾驶数据,研发出自动驾驶大模型DriveMLM。将图像、激光雷达信息、交通规则、乘客需求等多模态数据输入大模型,DriveMLM就能给出控制车辆的驾驶决策方案,并告诉你为什么要这么开(可解释性),遇到没有见过的场景时形成端到端的智能决策,将LLM语言决策输出转化为车辆控制信号,比如根据救护车、消防车、警车等特种车辆原因能够主动变道让行,也能够在赶时间时主动灵活超车(表2)。
又如特斯拉正在研发2万美元的擎天柱机器人,并最终搭载X.ai的大模型Grok,有望成为受工厂主、家庭主妇欢迎的“超级智能体”。斯坦福李飞飞教授团队的论文、中国智元机器人公司的机器人产品同时展示出,没有经过特定训练的工业机器手,能够通过视觉语言大模型,第一次就能实现复杂任务处理,体现出令人惊叹的“柔性操作”能力,从大模型到AGI,新一代柔性生产模式正在显现雏形。
高度自动化的“AI劳动力”在提升GDP的同时,将与各国人口数量脱钩,与能源、AI研发实力挂钩,这将彻底改变发达国家与发展中国家的供需模式和生产分工,同时人工智能产业的特点也会从高端人力密集转向重资产密集。
AI芯片已成为AI从业者的沉重“税负”,让AI算力成本回归社会公共服务的平民价格,是数字经济3.0可持续发展的关键。市场上AI算力的稀缺为少数芯片制造商带来巨大的市场控制权,并享受涨价带来的高额利润。据美国金融机构Raymond James透露,头部AI芯片公司的利润率可能高达1 000%。在《埃隆·马斯克传》中,马斯克提出“白痴指数”,从第一性原理(物理学)出发,计算成品总成本与基本原材料成本的比值,如果一个产品的白痴指数非常高,则可通过设计更高效的制造技术来大幅降低成本,例如传统火箭上一个组件的成本是1 000美元,而其铝材料成本只有100美元,那么可能是因为设计过于复杂或制造工艺过于低效。虽然我们不知道GPU的生产成本,但从经济学原理来看,在如此高额利润的刺激下,更多低价格的竞争对手(含国产AI芯片)将会涌现,让AI芯片回归公共基础设施的本质,因为水电基础服务不会比金子更贵,在AI芯片架构研发与生产工艺创新中,更多价值将逐步从芯片释放出来,向算力服务、模型服务、AI2.0应用转移。反之,长期过于昂贵的AI芯片价格,会让面向大众市场(to Consumer)的所有AIGC创新应用因昂贵的“芯片税”而衰败,无法形成“数字经济3.0”的创新浪潮。
算力消耗的能源是另一半AIGC创新应用必须分摊的成本,持续降低的能源成本,对AI2.0应用生态健康良性发展至关重要(表3)。以Meta研发的语言大模型LLaMA为例,训练LLaMA-65B (650亿参数量,属于中等规模)的耗电,以美国电价0.87元/度估算,需要约40万元人民币。而OpenAI的GPT-3耗电量高达1287兆瓦时,伴随大模型参数量、数据量的上涨,能源支出成本将会急剧上升,产业链最终将成本分摊到每一个AIGC应用、AI for Science科研项目、智能制造系统上,引发AI2.0应用的“成本门槛”压抑大众创新需求。
大模型产业数据分析显示,大语言模型的训练成本中,电力费用占比高达65%。当“万亿参数量”的GPT-4,以及更大规模参数量的GPT-5到来时,能源与算力成本将会扭曲商业逻辑,或让很多应用创业者望而却步。例证是,微软基于GPT-4推出的AI编程工具Copilot,每月用户付费10美元,而微软还要再“补贴”20美元给每个用户,全年亏损超过一亿美元,这是小型AI应用创业团队所无法承受的。OpenAI CEO Sam Altman有感而发:“人类的未来,取决于低成本的AI,和它带来的高效能源生产。”所以,微软与OpenAI都投资了Commonwealth Fusion Systems(美国)、ITERA(欧洲)的核聚变创新公司,同时与美国橡树岭国家实验室、欧洲实验室、大学、研究机构多方共同研发核聚变技术,以求不断降低能源成本。
博古通今的大模型引发“知识生产力变革”,大模型是知识工程的生产力变革,天然具有跨领域知识的连接性。上一次知识革命是11世纪的毕昇发明的泥活字印刷术、15世纪的古登堡发明的铅活字印刷术,让人类千年历史中积累的庞大知识工程通过印刷书籍形式推广传承,知识从手工抄写到活字印刷,速度提升了118倍,自此浩瀚的知识源源不断地从印刷作坊以令人惊叹的速度向全球传播,堪称中世纪的“知识互联网”。
在比尔·盖茨的《未来之路》一书中提到,在古登堡印刷革命之前,整个欧洲大陆大约只有3万册书,几乎都是《圣经》或《圣经》评注性著作,而到了1500年,各类题材的图书猛增到900多万册。各种传单和其他印刷物影响了政府、宗教、科学以及文学。宗教精英圈子以外的人士第一次有机会接触到书面信息。据多方研究数据表明,大型语言模型显著地提高了知识学习速度、知识检索速度、知识传播速度、知识推荐准确性,具有跨语言、跨学科领域、跨信源的独特优势。在人机协同模式下,大型语言模型将人类科学论文的阅读时间缩短40%,知识搜索时间缩短20%,而这仅仅是ChatGPT出现一周年的“起点”,鉴于大型语言模型远超人类的超高速学习能力,预计将在2026年学习完所有人类历史上的高质量文本数据。人类的知识革命大幕刚刚开启,高新科研、三大类产业、公共服务的知识型工作范式正在遵循“计算→数据→模型→服务”链条重构。
大模型引发“软件变革”,每一次软件大革新,都会诞生新的超级平台企业,颠覆原有的数字经济霸主,从Windows、AppStore到GPTs都不例外,当前智能编程助手改变代码生产流程,大型语言模型成为新一代AGI服务入口、软件调度枢纽。20世纪90年代,未来学家雷·库兹韦尔发现指数级发展的规律:“一旦技术变得数字化,即被编辑为0和1表示的计算机代码,它就能够脱离摩尔定律的束缚,开始呈指数级加速发展。”所以数字经济中每一代超级平台企业都是软件创新型企业。例如商汤科技发布的“代码小浣熊”Raccoon智能编程助手,覆盖软件需求分析、架构设计、代码编写、软件测试等环节,支持中文、英文注释生成代码、跨编程语言翻译、单元测试用例生成、代码修正、代码重构、编程技术知识问答,在Python等30多种主流编程语言与主流集成开发环境上,提升开发者编程效率超过50%,并在以71%的一次通过率刷新HumanEval测试集成绩(GPT-4一次通过率为67%)。
预计未来人类程序员可以将80%的代码量交由语言大模型编写,人类开发专家的时间和精力逐步转移到更具创新性和高价值的工作中,商汤称其为软件2.0时代的“新二八定律”。另外,多篇权威论文显示,大型语言模型能够面对复杂任务,灵活自动实现多软件串行、多模型协同组合,例如AI Agent、MoE架构(Mixture-of-Experts)、综合型智能客服、GitHub Copilot等,能在日常使用中跨模型共享成果、快速学习迭代、增强安全性与伦理性保障。在庞大AI算力规模、训练数据集的基础上,新一代AI原生软件应用导致“传统软件智能化、智能软件枢纽化”全面普及,尤其是那些能满足目前还难以预知需求的新工具,作为“AI原生代”,我国青少年通过对新兴生成智能软件、辅助编程的学习,逐渐掌握MaaS模型化创新思维逻辑,并在未来十年将新型生产力软件带入每一个办公室与家庭。
大模型成为社会型公共服务的前提,是“AI计算变革”。大型语言模型的Scaling Law(规模定律)指出,指数级算力需求与线性增长的区域基建投入之间存在矛盾,AI算力基础设施将迎来大量技术工程创新,持续降本增效,普惠优势让AI真正成为赋能千行百业的通用型基础设施,同时“百模大战”变为AI产业专业化分工。
AI Now的《计算能力和人工智能》报告指出,早期AI模型算力需求是每 21.3个月翻一番,而2010年深度学习后(小模型时代),模型对AI算力需求缩短至5.7个月翻一番,而2023年,大模型需要的AI算力需求每1~2个月就翻一番,摩尔定律的增速显著落后于社会对AI算力的指数级需求增长速度,即“AI超级需求曲线”遥遥领先于传统架构的AI算力供给,带来了AI芯片产能瓶颈、涨价等短期市场现象。
CSET(Center for Security and Emerging Technology)在AI and Compute報告中预测:“在计算价格没有任何变化的情况下,尖端模型成本预计将在2026年6~11月超过美国GDP。”(图1)未来学家雷·库兹韦尔认为,从1890年到现在,人类计算设备(单位时间)的运算能力一直在成倍增强,每当一项指数型技术(例如符合摩尔定律的芯片技术)的实用性达到极限时,就会有另一项技术取而代之。
所以,针对大模型高昂的训练成本、有限的GPU供应量、芯片间通信瓶颈的核心挑战,各国均采用大规模智能基建资源投入,并在AI芯片、智能算力集群、大模型架构、专用模型加速等技术栈环节创新突破,相信在未来3年通过一系列AI基础设施技术革新,持续降低AI计算整体成本(采购、建设与运营),释放出各行各业的生成智能全民应用创新能力,尤其是推理算力成本下降,对中国AI 2.0的大市场、大用户量至关重要。同水电煤等平价公共服务一样,人人用得起AI算力,人人训得起AI数据,人人做得好AI模型。
“自由软件之父”理查德·马修·斯托曼认为软件是知识,任何人都应拥有软件的自由运行、自由修改、自由发布、自由分享的权利,很多软件通过开源代码方式实现部分自由权利。从信息时代开始,重要软件都是以“闭源商业软件”和“开源软件代码”形式共存的,例如PC领域的Windows与开源Linux、移动手机领域的iOS与开源Android、数据库领域的Oracle与开源MySQL、云计算领域的AWS与开源OpenStack、大模型领域的GPT4与开源Lamma2。商汤科技智能产业研究院统计数据显示,截至2024年1月,全球超过30多家AI研发机构已经发布超过120款开源大模型,包括语言大模型、基模型、多模态大模型等。
受企业级市场欢迎的开源大模型,往往比千亿参数量的闭源大模型参数规模要小一些,十亿级、百亿级参数量的垂直领域中模型,适合部署在企业、工厂、高校等产业环境中,又不会消耗巨大的算力和能源(图2)。例如2024年1月17日,商汤科技与上海AI实验室联合香港中文大学和复旦大学正式发布的开源大语言模型书生·浦语2.0(InternLM2),包括70亿、200亿两种参数量,在数理、代码、对话、创作等方面均达到全球开源模型的领先水平。有别于闭源市场的“百模大战”,书生·浦语大模型向全社会开源,企业和开发者可免费获得商用、科研授权。
林纳斯定律(Linus Law)强调:“足够多的眼睛,就可让所有问题浮现。”所以,既要看到开源大模型对低风险“普惠AI”的贡献,也应辩证地理解国际复杂竞争态势下自研国产开源大模型、建设全球开放性开源社区的必要性。
※※※※※
“上海人工智能实验室在黄浦江畔,希望成为我国人工智能产业的源头,为产业生态提供基座和支撑。”领军科学家林达华教授如是说。