“大模型之都”,争夺战开打

2023-09-13 01:56赖镇桃
南风窗 2023年17期
关键词:算力人工智能模型

赖镇桃

暑期上映的好莱坞大片《碟中谍7》里,60岁的阿汤哥依然能打,只是这次他对抗的反派,是存在于虚拟世界却又无处不在的人工智能“智体”。

银幕之外的现实世界里,人和AI也在激烈博弈。7月份,好莱坞爆发了63年来最大规模的行业罢工,16万演员、编剧集体愤怒地走上街头,抗议数字人、生成式剧本“谋杀”他们的工作。

很快,AI也作出了反击:人不愿意拍电影,那就我上吧。

两部重量级影片《芭比》和《奥本海默》热映之际,一段《芭比海默》的预告片横空出世:打扮精致的芭比背负“拯救全人类”的使命,日以继夜在实验室奋斗,最终空中升起一朵粉色的蘑菇云。两分多钟的片子,从对白、演员、运镜、剪辑、配音全由AI一手包办。

人工智能,正在不断突破人类想象力的边界,而生成式AI的“大脑”—大模型,也成为科技圈热烈追逐的新风口。

每一项新技术的兴起,必然伴随着大量投资和企业的涌入。无论是在北京、上海,还是在深圳或者杭州,不少人都开始进入这个领域。那么,到底谁可能成为未来的赢家,还是赢家会有很多?

集聚和竞争

“OpenAI的成功,首先是技术理想主义的胜利。”搜狗创始人王小川曾在朋友圈如此总结。

回溯ChatGPT的养成,也确实始于硅谷极客的“放肆做梦”。OpenAI的创始人、现任CEO阿尔特曼,像大多数硅谷大佬一样,也拥有天才少年般的履历:8岁会编程和拆解电脑,考上斯坦福的计算机专业后,安分读书是不可能的,念了两年就辍学和同学一起创业,做出来的软件以4300万美元被收购,让他赚到了人生的“第一桶金”。

28岁时,他被“钦点”为硅谷顶级孵化器Y Combinator的总裁,给公司物色项目的同时还个人入股了两家创新企业,30岁就实现了财富自由。有多自由呢?用他自己的话来说就是“比我需要的钱还多”,以至于他要专门雇用几十个人来打理自己和家族的财产。

这个时候,追求物质和财富已经不能带来多少新鲜感,儿时的梦想反而击中了他:在一个新的世界里,机器替代人完成大部分的工作,从工作中解放出来的人能收到现金补贴,人工智能不是冷冰冰的机器,而是“人的意志的延伸”。

但在2015年,AI的技能点还停留在语音交互、人脸识别、下围棋这些单项任务,阿尔特曼想实现的是通用人工智能(AGI),也就像科幻小说和电影所展现的类似人类的人工智能。

也在同年,谷歌收购后来打败李世石的深蓝,在AI领域大有一家独大之势,阿尔特曼和马斯克嗅到一丝技术威权的威胁,于是拉拢到一批顶级“码农”,发起非营利的人工智能实验室OpenAI,“让人类以安全的方式构建通用人工智能”。因此可以说,硅谷在AI领域的智力、资本等资源集聚,以及大厂之间的互相竞赛,是AI取得突破性进展的重要推动因素。

成立初期,OpenAI实验室尝试了不少项目,甚至还包括教机器人如何解魔方,但都没找到通往AGI的具体道路。

直到2017年,OpenAI的研究人员才确信,AI学会像人一样读和写,才能像人一样理解和思考,打开AGI的“秘钥”最有可能是大语言模型。简单来说,大语言模型的逻辑就是一股脑先给AI投喂一波學习资料,让它自己学习,训练出一个初始模型,然后让它做题,再用“标准答案”来检验,碰到做错的题就反向微调模型的参数,通过“预训练+精调”提升模型的准确率。

这样的过程,又被人调侃为像大模型“炼丹”:只有不断提高参数和数据规模,达到一个质变的阈值,大模型才会猛然“顿悟”,更专业来说是出现“涌现”效应,相当于模型原本答题得分只有60分上下,给它堆更多的参数和数据“上补习班”都没长进,但堆到一定数量后,模型就突然“开窍”,答题准确率一下子从60分提升到了90分,而且给它一点其他科目的学习资料,它在新的领域就无师自通了。

就拿OpenAI的GPT来说,初代和二代一直被谷歌的BERT吊打,GPT-3将参数由原来的15亿猛堆到1750亿,表现上堪称惊艳逆袭。

硅谷在AI领域的智力、资本等资源集聚,以及大厂之间的互相竞赛,是AI取得突破性进展的重要推动因素。

不过,“大力出奇迹”的缺点正在于烧钱。虽然还没有专业的盖棺定论,但大模型要跨过“涌现”的门槛,参数规模普遍要触达千亿级,这背后是需要强大算力支撑的。当时GPT-3训练一次,在算力上就要花费460万美元,让OpenAI不得不“放下身段”转为营利机构,投靠微软。

但无疑,GPT的“惊险一跃”,也是AI发展史上的一大步。

“传统方式是,一个应用要开发一个模型,比如做语义理解、信息提取,或者人脸识别、指纹识别,不同任务都要一一适配不同的模型和应用。但现在一个大模型就可以解决这几十上百个任务,也就是AI研发从碎片化走向集成化。”厦门大学信息学院教授纪荣嵘对南风窗记者说。

方向和应用场景

对大模型的追捧一直在持续,甚至有人说,大模型即使有泡沫也是美丽的泡沫。

“我们已经到达了生成式AI的引爆点”“生成式AI会重塑所有行业”,在英伟达CEO黄仁勋的演讲里,你能看到形容大模型的各种美好词汇。高盛也在研究报告中推算,生成式AI可以在10年内将全球GDP提高7%,全球3亿岗位将被自动化取代。

同时,超然冷静的也大有人在。最明显的是投资人更谨慎了。“与国外相比,国内AIGC目前融资频次与体量有一定差距,大部队还处在缺乏明确逻辑和标的的观望状态。”一位专业投资人几个月前曾这样讲道。

“一冷一热都有对应到现实,”纪荣嵘对南风窗表示,“按照大模型的发展趋势,肯定会颠覆人工智能的创新生态,业界和投资圈不可能不跟进。但现在市场上很多模型不论技术过不过关都号称大模型,水分太高,所以也要谨慎。”

当行业洗牌的齿轮开始转动,更多大模型的玩家需要回归价值尺度。

一方面,一些外在标准就能筛掉一批套壳的“大模型”。强大的算力、巨量的行业数据,是训练大模型的先决条件,同时国内已经推出大模型评测,只有真正去打榜,才能准确判断模型有多大、性能有多好。此外,国内还有不少企业,都是基于开源模型做微调,也称不上有自己的大模型。

另一方面,模型的打分又很大程度依赖主观判断。上海交通大学软件学院院长姚建国告诉南风窗:“AI的对话是否流畅,生成的图片是否有瑕疵,这些都要靠用户体验来作出评价,所以ChatGPT现在看来这么成熟,一大原因就在于开放式测试与优化,通过大量的用户访问、收集用户体验来优化模型参数。”

狂欢过后,大模型的缔造者也开始思考向何处去的问题。“巨型人工智能模型的时代将要结束,我们要用新的方式让它变得更好。”阿尔特曼在4月份的MIT活动上讲道。

GPT-4已经将训练大模型的“报名费”抬到了1亿美元,从训练效果来看,参数堆到5000亿以上就会出现边际效应递减,一味追求更大的参数、更多的数据似乎已经难以为继。

姚建国认为,到明年年中,厂商应该会进入相对理智的阶段,去分析自己为什么要做大模型,要做哪些行业,解决什么问题,能够给技术带来什么提升。无论是小模型还是大模型,用在最适合自己的场景里才能体现价值。

但整体而言,大模型留给外界的更多还是未知:“涌现”究竟如何产生,AI会朝什么方向进化,未来的组织形态会是大模型一统天下还是大小模型彼此共生,都有待时间来回答。

“落地”很重要

2022年11月,ChatGPT的横空出世,一扫硅谷上上下下蔓延的“寒气”。而实际上,更早前的9月,红杉资本一篇名为《生成式AI:一个创造性的新世界》的重磅文章,就在业界广泛流传,里面第一次引出了生成式AI的概念,同时预测,生成式AI至少可以提高10%的效率或创造力,有潜力产生数万亿美元的经济价值。

就举一个例子:Midjourney,全球最火的AI绘图网站,每年一亿多美元营收,整个公司只有11位全职员工:1个创始人,8个技术开发,1个法务和1个财务。而全球最大的传统商业图片库,Getty Images,年收入9.26亿美元,员工1700人。直白来说,两者的人均产出比是17比1。

落到城市层面,抢滩AI大模型,不仅是对AI产业的升级激活,还能和大数据、云计算、半导体、基础软件等产业形成协同,不但拉动经济,还能使之转型升级。

企业忙着“百模大战”,城市在大模型的竞速业已开启。

今年5月,中国科学技术信息研究所发布的《中国人工智能大模型地图研究报告》显示,国内10亿参数以上的大模型已发布79个,14个省市都有团队在开展大模型研发,北京、广东、浙江、上海站在第一梯队。

值得关注的是,北京牢牢占据着头部地位,已发布的大模型占了全国的大壁江山。清华旁的中关村,更是国内大模型“宇宙中心”般的存在,这里有巨头—百度和智源研究院,有积极投身大模型的二次创业者—搜狗创始人王小川、美团创始人王慧文、京东前AI掌门人周伯文,还有创新工场掌舵人李开复;中关村之外,还有腰部大厂的入局—360、第四范式、昆仑万维等,北京称得上是国内大模型密度最高的城市。

落到城市层面,抢滩AI大模型,不仅是对AI产业的升级激活,还能和大数据、云计算、半导体、基础软件等产业形成协同,不但拉动经济,还能使之转型升级。

“大模型本身属于人工智能产业,所以大模型的城市格局,基本接近于AI产业的区域分布。一个城市如果没有领军企业的带动,就很难形成一个集群。”姚建国告诉南风窗。

入局大模型,不同城市也有各自的稟赋。

北京,多年来就是国内的“AI第一城”,学术资源和人才资源的加持不可低估。上海,算力硬件是强项,壁仞科技、天数智芯、燧原科技,都是能为大模型提供算力的国产GPU公司,英特尔、英伟达的中国区总部也都坐落上海。深圳擅长顶层应用,“北京做的是0到1的事情,上海做的是从1到10的事情,深圳则是做从10到100的事情”,业内人士曾这样形容。

“未来哪些城市能领跑大模型,肯定要有这几个特质:一是成熟的算力中心,这需要政府出钱主导建设,二是有充足的头部企业,能和政府部门间实现数据打通,此外很重要的是城市的创新基因,从移动互联网到大模型,头部的基本都是那几个城市,这就和城市本身善于拥抱技术、跟上日新月异的技术浪潮有关。”纪荣嵘对南风窗表示。

对于中国的数字经济重镇,比如北京、上海、深圳和杭州来说,城市有产业基础,企业有资本和雄心,当地政府也可能有充足的扶持资金去进军AI。竞赛是好事,就像当年的硅谷一样,谷歌、微软和阿尔特曼团队的竞赛,甚至还有马斯克的加入,才成就了ChatGPT的横空出世。

但另一方面,任何事情也都必须顺应产业趋势,找到方向和突破口,同时,更要避免泡沫之后的一地鸡毛。

猜你喜欢
算力人工智能模型
基于网络5.0的重叠网形态算力网络
卫星通信在算力网络中的应用研究
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
基于SiteAI算力终端的交通态势感知系统
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
2019:人工智能
人工智能与就业
数读人工智能
3D打印中的模型分割与打包