2024年9月,人工智能依然是舆论场、投资者的热门话题,然而,当下的人工智能产业似乎发展得很好,但似乎和普通人没有多大关系,除了偶尔在短视频平台上看到一些AI生成的短视频作品,国内似乎还未出现一款AI大模型相关的杀手级应用,人工智能似乎进入了一个发展瓶颈期。
有人开始质疑,人工智能是否是科技巨头推出的一个虚伪概念,毕竟每隔几年,科技公司就会造一个概念,而上一个造出的概念是元宇宙。那么,AI大模型带来的是昙花一现还是技术革命?对此,我们需要先回顾过去,再展望未来。
要知未来,需知过去。人工智能的故事最多,跨越时间也最久。
事实上,计算机就是人工智能,二进制的晶体管显示“0”和“1”,这种模式和人类大脑神经元的信息处理方式类似,只是更加简化,且数量更少。所以,测试人工智能治理水平的图灵测试在1950年推出,因为那时候所有人的意识中“计算机=人工智能”。
继而,人工智能从计算机时代进入逻辑推理时代。举个例子,如果某个迷宫有出口,那么只要在迷宫中一直靠右或靠左走,就一定能找到出口,对于人类可能要跑断腿,但计算机有充足的耐心找到出口。逻辑推理就是按照路径一个个去对照着找答案,直到所有数据都被对照一遍,输出最后的答案。人工智能逻辑推理时代最成功的企业是IBM,面向B端,IBM推出专家系统辅助企业决策,面向C端,IBM的深蓝计算机在国际象棋上大放异彩,名噪一时。
2006年,辛顿等三位专家提出深度学习算法,一种基于神经网络的新算法开始流行。深度学习模仿人类神经元感知事物的过程,在算法中,大量神经元组成神经层,多个神经层构建神经网络,神经网络的一边是输入的问题,另一边是输出的答案,而开发人员只要一遍遍地输入问题和验证答案,神经网络就能模仿人类识别文字、图像、视频的能力。从而像人一样思考、创作。以视觉举例,我们眼睛看到的是一张树叶的图像,而这张图像要经过神经层的层层识别,才会在我们大脑中挑出“树叶”这个词汇。所以,深度学习的本质是模仿人类。
深度学习是过去20年人工智能大厦的地基,而在地基上,领跑的是谷歌,在布局10年后,2016年谷歌推出阿尔法狗,下围棋的AI,结果全球围棋界被阿尔法狗杀得人仰马翻。由于围棋是东亚传统项目,很多中国人通过阿尔法狗第一次开始正视智能时代的到来。而在阿尔法狗成功后,谷歌开始多领域普及深度学习。比如2012年起,谷歌就开始用深度学习布局自动驾驶,比如阿尔法狗升级为阿尔法折叠,开始在蛋白质特征预测领域发光发热,甚至颠覆了整个蛋白质科学的研究方式。
谷歌在人工智能领域最重要的贡献,是2017年发布的Transformer,算法描述非常复杂,比如注意力机制,比如允许对依赖关系建模,这些技术名词对于我们社科类文章并无益处,所以只需知道一点特征,Transformer能够实现更高水平的并行化。在深度学习时代,制约人工智能发展的基本要素是算法、数据和算力。而由于互联网发展,互联网产生的数据越来越充沛,而算力则相对不足。并行化的好处,就是能够让算力可以堆叠。一台智算服务器的算力有限,那么1万台并行计算呢?这就为大规模数据训练创造了很好的条件。
Transformer算法就是OpenAI开发的AI大模型ChatGPT的基础,GPT中的T就是Transformer。而基于Transformer的大模型有很多,比如谷歌的bard,和GPT不同的是,bard的生成模式是填空,而GPT的生成模式是用前文来生成后一个字,逐字生成。可以看出,GPT具有相对优势,因为逐字生成更符合人类语言特点。
2019年,GPT二代发布并开源,同年7月和微软合作,转为封顶盈利公司,其算法也从开源转向闭源。此时,OpenAI在人工智能领域的名气远不如谷歌,直到2022年11月,ChatGPT正式发布,继而一炮而红,迎来了颠覆。ChatGPT是第一款面向C端的人工智能杀手级应用。谷歌仓促应战,结果反而因为各种“答非所问”的状况被比下去,OpenAI在AI大模型领域独占鳌头。而面对OpenAI的成功,美国和中国的科技巨头都迅速展开算法、算力“军备竞赛”,“百模大战”在中美两国同时开启。
ChatGPT为什么能脱颖而出?
因为OpenAI做对几件事:首先是大力出奇迹,在ChatGPT之前,谷歌已经不止一次宣称自家AI能通过图灵测试,并在展示会上演示用AI订餐,但谷歌自己并不相信通过海量语料学习会产生奇迹,所以,谷歌经常用中小模型在垂直领域里倒腾,自动驾驶、阿尔法狗都是垂直领域的应用。而背靠微软之后,OpenAI获得微软语料数据和云计算的双重支持,一头扎进大模型里,用海量高质量数据去堆,最终大力出奇迹。OpenAI的成功经验也告诉其他AI企业,只要舍得花钱去提高数据质量,提高并行算力,就能做出成果。
很显然,相对于技术创新,烧钱是科技巨头更为熟悉的路径。而GPT的建设方式并非机密,用海量语料让GPT熟悉人类语言习惯,用高质量语料规范GPT语言生成,再对GPT生成的语言结果进行打分。
2023年,中国国内开启“百模大战”,参与方包括互联网科技公司、AI专业公司、学术科研机构、行业专家四类。2023年3月16日,百度捷足先登推出大语言模型“文心一言”,此后,阿里、华为、腾讯、京东、科大讯飞、360、字节跳动等科技公司都发布自家大模型。科研院所及AI创业公司也发布了“悟道”“书生”“智谱”“KIMI”等大模型。截至2024年4月,中国大模型数量已近200个,通用大模型数量40个左右。仅用一年,就是一片欣欣向荣、万物竞发的景象。而从全球看,中国的人工智能产业规模毋庸置疑是全球第二,仅次于美国。欧盟、日韩等国的科技企业响应太慢,已经被我们甩在身后。而中国企业大干快上也并不盲目,而是有明确的目标。各国母语不同,GPT成长吸收了大量英语语料,中文语料相对较少,所以,中国企业更适合开发中文AI大模型领域,因为中国科技企业拥有更多中文语料数据。也许整体上对比GPT有差距,但中文方面,国产AI一定能够超越GPT。
而和中国跟随策略不同,在发布ChatGPT之后,OpenAI的发展路径却发生了转向,两条发展路径齐头并进:
一条路是继续探索GPT在语言领域的应用,让GPT和更多的软件应用、数据网站融合,让GPT成为一种工具而非一个单一的应用,所以GPT嵌入了大量外部插件。
另一条路是发展多模态。比如DALL·E是图像生成,Sora是视频生成,而GPT-4o则演示语音功能。OpenAI试图用多模态构建一个完整的AI大模型生态,而一旦这个AI大模型生态完成,将全面取代人类创作文字、图像、语音、视频的能力。
综合看,无论是GPT和软件结合,还是多模态,OpenAI的主旨就是“万物兼可GPT”,而非将GPT局限在一个领域、一个应用场景。
国外AI厂商也追随OpenAI的脚步,多模态领域多点开花。在开源大模型领域,Meta AI(Llama)、Mistral AI等厂商领跑,在图像生成领域,Midjourney、Stable Diffusion、OpenAI的DALL·E等大模型各领风骚,视频生成领域,Runway的Gen、Pika和OpenAI的Sora等大模型各展所长。不仅如此,国外一些专业软件企业也在通过AI大模型推进应用变革。比如Adobe在用图片生成AI颠覆Photoshop的图像编辑功能,比如epic将AI嵌入到虚幻引擎当中,优化游戏和动画展现效果,再比如金融数据企业彭博社就推出了金融大模型BloombergGPT,利用了自身的数据优势。总之,从全球看,AI大模型正在不断试探应用边界,并已经在诸多领域打出名堂。
与之相对的,国内AI厂商虽有长足进步,但国内AI厂商正在掉入同质化竞争陷阱。大多数国内AI厂商发展的是智能体(AI Agent),也就是ChatGPT和GPT4.0类似的应用,而在多模态,AI大模型和应用融合上,国内AI厂商相对滞后。甚至出现了一种奇怪的现象,很多国内AI厂商热衷于和GPT做对比评分,似乎在做题上超过对手,就是成功。而由于国内很多大模型是在GPT2.0基础上迭代,所以有时候不同的AI产品甚至会给出近似的答案。更有甚者,有企业将国外AI大模型的API嵌入应用当中,讨个壳当自己的技术成果。
是什么导致国内AI厂商同质化竞争?笔者认为有如下原因:
首先,国内互联网数据生态较封闭。这里的封闭是多个维度的,一方面中国和海外互联网之间存在隔断,国内互联网数据总量有限,另一方面中国各大互联网公司之间存在数据生态壁垒,尤其是在数据入表之后,数据价值提升,很多企业尝到数据价值的甜头,更加不愿意分享数据,且往往以数据安全为由拒绝开放数据生态。封闭生态导致大模型很难和垂直行业领域的专业数据融合,只能基于公开数据来打造智能体,而公开数据往往缺少壁垒,大家都能获得,所以产品也就走向同质化。
其次,国内算力存在瓶颈。还是老问题,美国禁售高算力显卡和智能芯片,的确影响了国内大模型企业的AI大模型发展。事实上,语言类大模型需要的算力最小,语音、图像、视频生成的大模型算力远高于语言文字类大模型,所以,算力制约了中国多模态的发展。
再者,国内对AI发展的安全性存在疑虑。AI大模型带来的技术风险是显而易见的,比如AI大模型算法可以和搜索引擎结合,更精准地找到数据,技术本无善恶,但技术对数据的精准挖掘很可能暴露国家机密、商业机密和个人隐私。再比如AI生成内容会侵犯隐私,若有人用A的头像嫁接到B的视频,那么就会侵犯A的肖像权。过去我们说“有图有真相”,如今是“视频也未必是真相”。再比如,AI潜在的岗位替代,会引发失业,当然,相对于其他问题,这显然是个小问题,因为AI大模型并没有这么强大。
总之,面对AI大模型带来的风险,国内管理层有很强的规范动机,而这些规范行为虽然起到了作用,但也会限制AI技术的创新。安全和创新之间往往存在一定的冲突。相对而言,美国是判例法国家,虽然美国各界喊得很响亮,但并没有实质性的法律限制措施。
最后,从历史看,中国人有创新能力,但依然缺少原创精神。国内很多大模型是构筑在国外开源模型基础之上的,比如OpenAI过去的老版本GPT2.0,比如Llama,甚至有很多套壳AI。对于原创精神,笔者总结出一点原因:中国企业很害怕长周期投资,因为长周期投资存在很大风险,且风险不只是技术开发失败,而是应用落地可能遭遇多重阻力,比如审批通过难造成的不确定性。
除了同质化,国内AI产品还存在过度拟合和数据污染的问题。过度拟合往往是因为数据学习的量过大导致的。数据不足的时候,AI大模型往往会联想和脑补,甚至会胡说八道编故事,这就是欠拟合。而数据过多的时候,AI大模型也会陷入思维定式,这就是过度拟合。举个例子,AI看一张带有锯齿的树叶,欠拟合下,AI会将树叶描述成一棵树,而过度拟合下,AI会只关注树叶的锯齿。随着国内AI大模型数据训练的加强,很多AI大模型存在过度拟合的情况,回答问题就像八股文一样,有些AI大模型会给你列出很多点,但没有一点答在点子上。
现实中,用户生成内容的目的很多元,有时候要的就是AI的想象力,而由于学数据太多,AI会丧失想象力。雪上加霜的是,当前国内要求AI生成内容要合规,由于大模型算法本身是“技术黑箱”,开发者很难控制生成结果,有些结果哪怕概率再小,也依然有出现的可能,所以,客观上合规要求导致国内AI过度拟合的问题更加严重。
而回头看,国外AI厂商之所以探索应用融合和多模态的道路,事实上也是因为同质化和过度拟合限制了智能体的发展,所以,我认为未来国内AI厂商需要追随国外AI厂商的脚步,用更多原创创新来找寻AI大模型新的应用路径。
综上,介于同质化和过度拟合等问题,国内AI产业有可能经历一段冷静期,直到AI领域新一轮原创创新爆发。
而从全球AI产业角度,实际上美国AI巨头也很难逃脱技术周期。我们知道,很多创新产品将经历概念期、成长期和成熟期。美国AI巨头虽然在多模态领域有进展,但回头看,OpenAI的很多应用都是纸面应用,有展示,没有落地。当下,大多数美国AI巨头并未通过AI实现正向盈利。而因为AI估值高企的硅谷公司,诸如微软、英伟达、苹果、谷歌等则存在显著的估值泡沫,未来“杀估值”可能在所难免。事实上,这又只是历史的重复,2001年以前,美国互联网公司估值奇高,也属于概念期,结果2001年科网泡沫破灭。继而真正的成长期开始,从2001年开始延续了20年。任何科技从早期概念炒作到实际提升生产力,都会经历一个过程,这是一轮优胜劣汰,并不会毁灭AI大模型,会去伪存真,为AI大模型进入成长期打好基础。
总之,无论是国内还是国外AI产业,都将会有一轮风雨,但风雨过后必有彩虹。未来AI大模型产业有风浪,但依然能够远航。
纵观AI大模型的过去和现在,我们不难发现,其实从上世纪50年代开始的信息革命,本质上就是智能革命,人为地将时代划断,分为信息时代和数智时代,也只是给时间加了标注。换句话说,AI大模型是信息技术革命的延续,所以AI大模型就是技术革命。尤其是深度学习算法的出现,让人类看清了AI未来发展轨迹。人类发展AI的路径更加清晰了,让AI通过深度学习算法模仿人类,从而缔造真正的仿生智能。
然而,制约AI发展的因素,实际上有且只有三个,就像厨师做菜,一道好菜,需要有好厨师(算法)、好菜(数据)、好火候(算力)。其中算法的关键在人才和创新,数据的关键在打破数据壁垒,算力的关键在打破技术封锁。而当前,国内AI厂商最急迫的,是摆脱同质化。所以,人才和创新的激励将是国内AI产业发展的重点,那么,如何让“厨师”创新呢?
一个建议是算法创新的产权登记和产权保护。首先我们要明确一点,AI大模型算法不适合开源,因为AI大模型需要数据和算力,这些都要花钱,开源算法没人去添砖加瓦,注定走不远,这也是为什么OpenAI在非营利组织时期默默无闻,而在封顶闭源之后异军突起。其次,在产权保护上我们有过成功的先例,从2015年开始,我国药审中心开始扩容,并加快药品审批进度,在2016年之后,我国迎来创新药研究的爆发期,甚至在创新药领域出现了研发内卷,“百舸争流”造就了医药创新的大繁荣。事实上,知识产权保护一直是鼓励原创最佳的手段。
编辑:王延春