杨智杰
李笛。图/受访者提供
2023年,AI大模型无疑是国内外科技领域最受关注的话题之一。ChatGPT大火,人们似乎看到通用人工智能的曙光。科技巨头、创业者乃至各个行业纷纷推出自研大模型。据北京市科委等统计,截至2023年10月,国内大模型厂商及高校院所共计254家,上演“百模大战”。
大模型热潮中,小冰公司CEO李笛是一个特别的存在。小冰公司的前身是微软(亚洲)互联网工程院人工智能小冰团队,公司曾发布过AI聊天机器人“小冰”。因此,当ChatGPT爆火时,小冰很容易被当作对比的对象。去年,接受《中国新闻周刊》在内的媒体采访时,李笛都提到,他承认大模型的进步,但并非大模型的“门徒”。他认为模型不用一味求大,更愿意谈技术如何商业化应用。
当时,李笛被看作是个“异类”。用他的话讲,大模型最热的时候,行业里不用“信仰”这个词就落伍了。到了2024年,经历了卷百亿甚至千亿参数的竞赛后,国内大模型厂商逐渐务实,落地应用成为行业关注的焦点。日前,《中国新闻周刊》专访小冰公司CEO李笛,他谈起过去一年对大模型热的感悟。现在的他语气轻松,李笛坦言,2023年他曾面临极大压力,甚至曾动摇不“卷”大模型的想法。
创新和保守天然对立,科技行业的人非常害怕被认為是保守的。但另一面,李笛从2013年加入小冰团队,见证了人工智能领域发展的几次浪潮,很多公司在风口中迷失。对李笛的专访,不只是在探讨大模型,更是探讨一个人面对巨大诱惑和时代焦虑时,如何坚持做自己。以下是李笛的自述。
我们是国内较早接触GPT大模型的一批人。2020年,小冰从微软独立出来前,我是微软Bing搜索引擎亚洲区总经理,微软将ChatGPT放在搜索引擎中,推出New Bing,我们都较早地看过了。当我们的兴奋劲已经过去时,国内才开始兴奋。
因此,我们也更早意识到,大模型有一些问题。比如,目前从技术上判断,要实现人工智能能力更大程度的飞跃,需要在GPT-4的基础上,把参数规模再提升三个数量级,但人们在短期内无法解决算力的挑战。此外,一味追求参数规模越来越大,并不会有新能力涌现。最近,行业里也有一些公司开始推出小模型。去年2月,我还判断过,如何商业落地是大模型的核心问题。过了近一年,业内越来越多开始讨论大模型该如何应用。
去年,我观察到,国内很多企业开始围绕大模型进行竞赛,背后主要有三种考量。第一种是,GPT-4推出后,大模型没有新能力的涌现,像是卡在了红绿灯路口,但很多人还要冲刺,因为他们想赌当自己冲到红绿灯路口时,红灯变绿,自己取得突破,领先行业。这一判断确实存在一定概率,但大部分情况下,技术创新迭代并非一飞冲天,而是发展一波后被卡住,一段时间后再迎来一波创新。这才是科技史的常态。
其次,国内现在有200多家大模型公司,其中很多并非传统意义的人工智能公司,而是各个垂直领域的企业,比如能源企业等。他们相信在掌握大模型技术后,能有机会打破该领域原有的竞争格局。这是因为大模型的基本特征是大力出奇迹,准入门槛低,可以很快看到一个结果,给了不同行业的人一个幻想。但深入后人们会发现,结果不如想象中那么美好。
最后一种是,他们只是把大模型当作一个概念,来获得一个新的卖点,就像是当年的元宇宙。
我们观察到了这些现象,所以,我不愿意说“信仰大模型”,大模型只是我们众多技术迭代的一部分。去年年初,你说大模型的技术好,还是比较客观的,但后来逐渐演变成,如果你不用“信仰”这个词就落伍了。我记得当时参加行业会议,在我前后演讲的人讲到大模型,都会提到“工业革命”。当一个行业只有用这么夸张的表达才能证明不保守时,就一定是个非常大的泡沫。我不想神话大模型,它是个有用的工具,解决了很多过去的问题,但它不是灵丹妙药。
我现在说的时候放松多了,因为行业现在开始有了这样的共识。在人工智能领域,一直没有产生真正成功的面向企业和消费者的产品。2020年前,小冰还在微软时,不太受外界影响。但2020年,小冰从微软分拆为独立公司运营,作为创业公司,我们还没有能力决定自己的生存时,如果跟行业主流有很大不同,会有很多人不认同你。去年2月,就有投资人问我,你是不是反对大模型?有投资人甚至跟我说,小冰也要做超大规模的、超大参数的大模型,我也差点没扛住。
外界对我们的误解是,我们不做大模型。我们很早就在关注,而且一直深入其中。但我们不拼大参数,更关注的是中等参数规模和小参数规模大模型的可用性。很早Google就发过论文称,650亿参数以下的模型,没有产生明显的思维链能力。我们当时不这么认为,现在回头看,我们赌对了,参数在几百亿,甚至几十亿的大模型,也有这个能力。
AI少女小冰。图/受访者提供
和其他行业相比,科技行业有一个突出现象:科技行业的人非常害怕被认为是保守的。在公开场合,当我们对一个新技术、特别是像大模型这么亮眼的新技术发表评论时,哪怕只是客观评价说“大模型是好的,但它不是全部,它没有把过去很多东西颠覆掉”,就已经算是保守了。
我们在2013年组建小冰团队,十年中,我们送走一波又一波风口追逐者。从玩家角度,这一次国内大模型的热潮,活跃的多是近两年成立人工智能企业,因为很多公司都在过去一波波风口中迷失了。面对这种短期的热潮,我们看似保守,但我们是目前为止存活最长的人工智能企业之一。从这一角度来看,我们被一些声音质疑为“AI旧世代”,也是一种“荣幸”。
在科技行业想要坚持做一件事情,是非常奢侈的。因为中国的科技公司,本质上是由一级市场、二级市场“击鼓传花”来完成企业的基本输血。很多公司及其投资人会把上市定义为最主要的目标。如果公司不追风口,就不能拿到下一笔融资,上一笔融资的投资人就没办法获得更高的企业估值,也就没有办法跟LP(有限合伙人)交代。这也是人之常情,但这使得很多创业公司的战略不得不走样了。
前段时间,有消息称,一个刚毕业的自然语言处理专业的博士生,年薪就有300万元,这是不合理的,也会影响博士生的自我职业认知。创业公司愿意给出这么高的薪酬,并不是因为他们给公司创造了价值,而是当公司去拉投资时,用以回复投资人关注的指标,比如公司有多少博士,或者有多少从Open AI出来的人。有些博士生在创业公司待了三个月,又被另一家公司以更高的薪酬挖走。博士生肯定是開心的,但他们在创业公司间不断流转时,除了薪酬提升,没有机会真正做有意义的研究。
你很难说这是投资人的问题,因为投资人要对LP负责。也很难说是LP的问题,因为他们掏钱就是为了获得回报。这似乎是一个没有人错的事情,也是中国科技领域很难诞生原始创新的原因之一。
我们去年也曾面临很大的压力。投资界在经历2022年巨大的失落情绪后迎来人工智能的浪潮,投资人看到了春天。去年,在人工智能行业里,固然有对大模型抱有热情的人,他们往往是科研工作者。除此之外,更多科技公司表现出的是一种焦虑。就像应试教育下的心态,不能输在起跑线上,尽管不知道它是什么,但总觉得错过一定会后悔。这种焦虑在行业内传递,但创新很难在焦虑中产生。
我个人也特别希望出现一个大模型,和小冰的对话框连接后,所有对话的问题都能解决,这是我做梦都会笑醒的事情。但这很难实现,背后还需要很多服务。这就像是个人电脑,不是说有一个CPU就得到了一切,还要有主板,CPU本身也是一个超级大规模的集成电路,需要各种模块组合。
人工智能领域从来不缺很酷的东西。当年,微软利用人脸识别技术做了个应用叫“How Old”,上传一张照片,就能识别年龄,一时间风靡。前一阵,机器人跳“科目三”也很酷。但真正缺的、值得我们重视的是商业模式的探索,究竟如何让人们真正认同人工智能的价值,并为之买单。
我有一个印象深刻的体会,产品价值和技术不一定是息息相关的。比如有的机器人会跳舞,但人们玩腻了,就会把它忘掉。但你发现,很多女生从小买的布娃娃,毫无科技含量,但她们对它倾注了巨大的情感,有人甚至在长大后会花1万块钱去修复儿时的“伙伴”。技术在其中不一定需要扮演什么角色。
今天,大家用大模型进行很多轮对话。很多人都认为,大模型要更智能、更聪明,像爱因斯坦一样。但生活中,我们不总是因为一个人足够聪明,才会和对方交朋友。有的人可能笨笨的,但很善良,你就不把对方当朋友吗?人不是这样的。那为什么我们在做科技产品时,就一定认为更先进的技术会更好?不一定,关键是如何把它用在更合适的地方。
2024年,我预测人工智能行业发展会退热,现在的大模型同质化严重,市面上用不了这么多大模型。而且,用户的付费意愿又不是很容易建立。一些去年融到钱的企业也可能会引发新的内卷,其实这些内卷的行为已经在发生了,只是在 2024 年可能会更明显一些。