AI圈又领教了一回“神秘的东方力量”。
继去年12月的V3模型之后,1月20日,国内人工智能技术企业深度求索(以下称“DeepSeek”)官宣了其最新AI推理模型DeepSeek R1。该模型在数学、代码和自然语言推理等任务上表现优异,性能直接对标美国OpenAI最新的推理模型o1。
消息一出,AI圈几近沸腾。社交平台X上,有国外大厂工程师直白表示,其所在生成式模型研发部门“处于恐慌之中”。英伟达资深科学家Jim Fan给予R1极高评价,称其不仅开源,还分享了所有模型训练细节,做了OpenAI“一直声称要做却没做到的事”。据统计,DeepSeek仅在1月的最后一周内,用户激增就超过一亿。由于服务器不堪重负,官方甚至不得不在2月6日宣布暂停面向开发者的充值服务。
作为应对,OpenAI公司在1月31日紧急发布其尚未官宣的大模型版本o3的小型版本o3-mini。2月6日,在全球最大的开源社区GitHub上,DeepSeek项目的评价星数首次超越了OpenAI,这被业内视为开源胜过闭源的“历史性事件”。
多位业内人士指出,DeepSeek此次最大的贡献,是向世界展示了快速、低成本实现o1同等模型能力的可能性。清华大学计算机科学与技术系副教授刘知远告诉《中国新闻周刊》,“东方力量”其实就是工程创新加持下的追赶能力。在算力吃紧的情况下,DeepSeek打了一场以少胜多的仗。
DeepSeek R1有多厉害?
有测试者让R1详细解释勾股定理,R1在不到30秒的时间内生成了完整的图形动画,给出了传统的面积法证明过程,没有出现差错。另一个常用的测试问题是碰撞检测,测试者要求大模型编写一个程序,使得一颗小球在某个缓慢旋转的几何形状内弹跳,并保持小球停留在形状内。碰撞检测十分考验模型的推理能力,稍有不慎就会导致肉眼可见的物理错误。这项测试里,R1的表现明显优于OpenAI o1 pro模式。
OpenAI于2024年9月发布了推理模型o1,首次实现真正的通用推理能力,相比其前作GPT-4o有巨大的性能提升,能在“博士级别”的科学问答环节上超越人类专家。新加坡南洋理工大学计算机学院助理教授刘子纬向《中国新闻周刊》解释,传统的ChatGPT模型属于感知模型,擅长提取事件信息。但真实世界的很多任务不能仅靠感知完成,需要一定的决策推理,而且越复杂的任务决策成分越多,比如编程、数据分析等。因此,推理模型是业界公认的通往通用人工智能(AGI)不可或缺的模型形态。
同为推理模型,在很多方面,R1都与o1的性能持平。在美国数学邀请赛AIME2024的测试中,R1取得了79.8%的成绩,甚至略高于o1,甩开其他开源模型一大截。编码类任务方面,R1也展现出专家级水平,在算法竞赛平台Codeforces上的表现超过了96.3%的人类参赛者。
DeepSeek公开的22页技术报告中,有一个展示R1能力的直观案例。在解决一道复杂数学表达式问题时,R1在解题步骤中突然停下来说“等等,这是个值得标记的啊哈时刻”,随后自主修正了解题过程。“啊哈”类似于人类的顿悟,R1的这种行为完全是自发产生的,而非预先设定。这也意味着,它已经拥有了相当程度的思考和自悟能力。
看上去R1已经走出了“题海战术”,转而进入了探究性学习的领域。事实上,这正是它的核心技术强化学习与传统监督学习的差别。刘知远指出,传统大模型特别是o1以前的GPT系列模型,都采用监督学习的训练方法,意味着模型学习的目标有标准答案。比如让模型根据一篇文章的部分文字,去预测下一个词。由于用于训练的文章是完整的,因此这个词是固定的,预测结果也有明确的对错。人类就像严厉的老师,对模型的预测行为反复规训。
而强化学习则是在开放环境中进行的任务训练,开发者只会告诉模型,它走出的每一步会得到外部环境怎样的反馈。模型需要根据反馈,自己学会如何接近最终目标。“这个世界没有那么多纯数学题,因此无法永远通过给标准答案的方式,让模型完成监督学习。”刘知远说。从监督学习向强化学习的范式转变,是实现推理模型的关键。
刘子纬指出,o1可视作大模型强化学习的鼻祖,但其没有公开技术文件,因此其强化学习的具体技术路线和占比,只能靠业内猜测,但可以推测其采用了预训练、监督微调、强化学习的流程。预训练类似“背书自学”基础知识,监督微调类似学生模仿教师的示范来解例题,最后强化学习相当于“模拟考试”。而R1则抛弃了监督学习,仅凭基础语言能力和数学规则,在持续解题试错中自悟方法论,考出高分,这一点得到了绝大多数从业者的赞叹。
R1提出的纯强化学习让模型自主学习成为可能。刘子纬认为,这可以类比AlphaGo,其早期模型也是混合模型,类似于监督学习加上搜索,从人类的棋谱中学习。2017年的AlphaGo Zero模型则完全抛弃了人类棋谱,通过强化学习完成自我对弈训练,产生众多“妙招”,最终完全超越人类棋手。“监督学习向强化学习的过渡正在大模型领域发生。”刘子纬说。
而除了性能外,R1更令人震撼的优点在于便宜。2024年底,DeepSeek推出V3模型,作为R1的前体,训练成本仅为557.6万美元,而2020年发布的GPT-3的训练成本接近1200万美元,GPT-4更是超1亿美元。技术报告显示,R1面向开发者的服务定价为每百万输入字符串(token)1—4元,这一价格只有o1的1/30左右。不过,DeepSeek团队目前仍未公开R1确切的开发成本。
R1怎么能如此便宜?刘子纬认为,在算力达到一定量级的情况下,可以通过工程创新把性能差距抹平。在堆算力的“大力出奇迹”路线进入瓶颈后,DeepSeek选择在底层算法、训练模式和数据三个层面进行了工程迭代。基于混合专家模型、注意力机制等方面的创新,R1做到了“用50次运算达成别人做100次运算的效果”,效能提升明显。而在抛弃监督学习后,计算资源的需求也大幅减少。
截至2月1日,DeepSeek日活跃用户突破3000万大关。有业内人士称,R1已成为美国顶尖高校研究人员的首选模型。一位不愿具名的来自澳门大学的AI研究者向《中国新闻周刊》表示,R1完全可以取代日常科研对GPT模型的使用需求,在对科研文章的错误识别、修改润色、语言转换上都表现出色。
尽管R1展现出了惊人的推理能力,但它的思维过程可能难以被人理解。技术报告指出,纯强化学习训练出来的模型存在可读性差和语言混杂问题,有用户反映多语言输入可能会造成模型输出混乱,有时中文的提问也可能得到英文回答。这一现象更多出现在纯强化学习的R1-Zero模型中。
刘子纬将R1形容为“有些偏科的数理天才”。R1在他眼中虽然很聪明,但给出的文字回复相比于o1缺乏流畅性和情绪价值,显得笨拙。“公司定位会导致其偏重模型性能。”刘子纬说。由于DeepSeek还在提升模型能力,尚未开始优化用户体验,因此用户亲和度方面还有待提升。在这一点上,OpenAI涉足较早。
当创作任务涉及推演和类比时,R1的表现仍可圈可点。有测试者用简单的几个提示词,就让R1在极短时间内创作了一篇情节精彩的科幻小说。社交平台上,有电影评论账号喂给R1《出师表》,让其仿照该文体创作一篇影评,R1给出了符合文言文规范,且“超越一般影评人”的洞见。刘子纬认为,模型的推理能力可以迁移到文学,令其产生通过逻辑思辨的方式创作议论文的能力。
用户使用R1的过程中,偶尔会得到错误答案,甚至有用户发现询问R1身份时,其有可能自称o1。这种混乱广泛出现在现有大模型中,有业内人士认为,这源于大多数模型对OpenAI基础模型的蒸馏。蒸馏操作将训练过的“教师模型”的知识传递给“学生模型”,从而在最大程度保存原模型性能的同时,大幅缩减计算资源消耗。“有模型做到了60分,我想迅速达到55分的水平,比较快的方式就是去蒸馏一个‘教师模型’,可以迅速拿到模型反馈,暴露思维过程,得到可贵的数据基础。研发初期,许多企业都依靠或者部分依靠模型蒸馏。”刘子纬坦言。
由于原模型只能提供60分的答案,要涨到70分就得靠模型努力找一条新路。因此蒸馏无法形成模型的真正迭代。刘知远认为,强化学习是通向AGI的重要版图之一,已成为大模型未来发展的业内共识。强化学习的技术成熟也需要时间,蒸馏遗存的问题有待发展过程中解决。
刘子纬指出,R1使用了一些GPT-4o产生的数据去做“热启动”,让模型先形成对现有问题的基本认知。完全“冷启动”让模型立刻进入强化学习状态是非常困难的。“一个小学生学习知识也得先学课本,达到一定的智力水平后,再进入实践中学习。”用真实数据而非模型数据训练模型是开发者的共识,但真实数据的筛选、清洗、降噪等并不容易。
“即使用模型输出数据也很难保证训练结果,这取决于人类给模型创造了怎样的问题,以及提供怎样的答案。”刘子纬说。例如,DeepSeek使用了大量代码数据、数学题甚至奥数题用于训练R1。“如何将这些数据喂给模型,需要大量创新。”
从这一意义上说,R1的表现已足够出色,而它的创造者的主业甚至不是AI。DeepSeek背后的投资公司为幻方量化,是一家依靠数学与计算机科学进行量化投资的基金公司。该公司从2016年起将深度学习模型应用于实盘交易,囤积了大量算力,正式成立大模型团队DeepSeek的时间则是2023年。“也算是副业做得比主业出圈的典型了。”刘子纬说。
DeepSeek的出圈很快在芯片、云计算等领域产生了溢出效应。国内外许多芯片厂商都开始致力于搭载DeepSeek模型或者其精简、蒸馏模型。1月29日,美国芯片厂商AMD上线了基于其芯片的DeepSeek模型部署指南。而在云领域,华为云、腾讯云等国内云厂商在春节期间“紧急加更”,均上线了DeepSeek R1的部署工具。
尽管如此,大模型企业仍需审慎研判模型的商业价值,也就是能不能赚钱。刘知远指出,国内外企业都还在寻找大模型的最佳变现方式。目前,市场上已有多家企业具备做出GPT水平大模型的能力,接下来要考虑区分度是什么,落地的用户App是什么,以及在价格战的前提下如何收回上亿元的研发成本。这些问题的答案都还相对模糊。
刘子纬认为,大模型已足够强,但在垂类上跟用户需求还没有紧密贴合,未来AGI的核心交互形态也尚无定论。目前,国内外大模型企业一部分继续高举高打AGI,保证模型能力,通过用户来试探落地方式。比如有学生用大模型来备考、写论文等等。另一部分企业则专注于做垂类应用,比如医疗大模型。刘子纬预计,2025年会涌现一大批大模型应用,是真正的“强化学习之年”。
多位业内人士表示,DeepSeek真正的价值,在于展示了工程实践和理论创新之间的平衡点,开创了一条符合现实算力约束的技术迭代道路。“R1说明开源 AI 仅落后于闭源 AI 不到 6 个月。”在刘知远看来,GPT阶段也就是2023年初的时候, OpenAI模型发布之后,国内团队需要一年的时间才能赶上。但是到了文生视频模型Sora,以及后来的GPT-4o和o1,国内的追赶时间缩短到半年以内。
R1发布后的几天内,美国芯片巨头英伟达股价大跌,市值蒸发达数十亿美元。美国总统特朗普在采访中将DeepSeek的成果形容为“对美国企业的警钟”。
过去一段时间,DeepSeek陆续出现各大端口不可用的情况,一度无法注册账号。DeepSeek于1月28日发布公告称,其线上服务正遭受大规模恶意攻击。这一现象到2月1日才有所缓解。当地时间7日,特朗普最新表态称,DeepSeek不会对国家安全构成威胁,美国最终可以从这家初创公司的AI创新中“受益”。
OpenAI也尝试与DeepSeek争风头。1月31日,o3-mini和o3-mini-high两大版本在ChatGPT正式上线。o3-mini可以视为其最新一代大模型o3的更小、更高效版本。与R1类似,o3-mini也擅长复杂的推理任务,包括科学、数学和编码,响应速度比o1快20%以上。谷歌也于2月6日发布了最新系列大模型Gemini 2.0。
这一次的碰撞检测中,o3-mini的表现明显优于R1,特别是在多球碰撞的情景下,o3-mini展现出了非常精准的物理推理能力,没有出现R1中出现过的反重力现象,其构建的小球碰撞模型,也令人咋舌。
不仅如此,OpenAI还在2月2日突然开启直播,介绍了下一代智能体产品Deep Research。该产品基于优化版o3打造,可以在互联网上进行多步骤研究,进行综合推理。根据直播内容,Deep Research思考时间可能长达半小时,但返回结果可能是一篇完整的、引用翔实的科研论文。多位受访者认为,如果性能稳定,Deep Research会将大模型的“专家级科研”能力向前推进一大步。
不过,o3-mini仍然没有摆脱语言混乱的问题。许多用户在社交媒体X上反映,o3-mini有时会在面对英文提问时用中文进行一长串思考,而此前的对话中从未出现过中文或使用中文的提示。这让用户怀疑o3-mini是否使用了DeepSeek的训练数据。刘知远认为,大可不必“谈蒸馏色变”。事实上,用多种语言训练模型,使其了解不同语言习惯和文化,也是训练必不可少的一部分。目前,大模型语言混乱的问题尚待解决。
多位业内人士表示,由于DeepSeek的冲击,o3-mini对所有 ChatGPT 用户免费,面向开发者时,其收费为每百万token输入1.1美元、输出4.4美元。这一价格比OpenAI o1-mini便宜63%,比完整版o1便宜93%,但仍是GPT-4o mini的7倍左右,也超过R1。而紧随谷歌Gemini 2.0的发布,2月6日,OpenAI宣布完全开放ChatGPT的搜索功能。也就是说,无须注册登录,所有用户现在都可以像用普通搜索引擎一样使用ChatGPT搜索了。
在刘知远看来,DeepSeek横空出世,引发的不仅是价格战,更是一种开源技术的“平权运动”。他认为,AI本身源于互联网场景的支持性技术,从其发展历程来看,AI领域基本由学术界、产业界共同推进,开源共享是“默认设置”。“作为研究者和从业者,从踏入AI领域开始,我们受到的就是开源熏陶。论文要接受全世界的检验,方法和数据要公开,模型要能被别人复现。这样才能评断好坏,从而形成对未来正确发展道路的共识。”
当技术开始变得有商业价值之后,自然就会有企业开始构建技术壁垒,放弃开源。在刘知远看来,闭源终将是不可持续的。DeepSeek的爆火让非从业者看到了行业的“部分真相”。现在普通人也知道,打算力阵地战不明智。有数据显示,采用DeepSeek优化架构后,同等任务下,华为昇腾芯片的能效比提升41%,AMD也借助DeepSeek实现了32%的推理效率跃升。“算法和架构能够颠覆算力垄断,通过芯片禁运等方式来遏制国内大模型发展难以行通。这就是开源的力量。”刘知远说。
2月6日,国家超算互联网发布官方消息,目前R1等系列模型已登陆超算互联网平台,涵盖从1.5B到14B大小的蒸馏模型,后续还会陆续上线32B、70B等更多版本。刘知远指出,DeepSeek模型进驻国家超算平台,证明普惠、可靠的AI大模型时代将要来临。“模型定义硬件”的新范式下,有业内人士表示,DeepSeek的影响可能进一步触及国家智算、超算领域,通过改变算力需求,来重构算力部署和建设。
“当然,闭源也有它的生命力。企业需要一套具备充足保密性和安全性的体系,来实现自身的稳定发展,从而保证其研究实力和锐度。很长一段时间内,开源和闭源大模型仍会共存。”刘子纬说。但无可否认的是,DeepSeek正构建出一种更加健康的业态。