冯璐 梁钰诚
霓虹閃烁的东京街头,一名红裙黑靴、戴太阳镜的时髦女子款款走来。她身后广告牌出现的位置,潮湿街道的镜面效果,墨镜中的光影,还有其脸部的肌理、雀斑,都完全符合真实的世界。
这是近日“横空出世”的文生视频模型Sora输出的一部作品——仅凭几句描述,它立马能生成60秒的连贯视频,大片质感,镜头百变,如梦似幻。人山人海的龙年春节、火车窗外的倒影、戴红头盔的宇航员在沙漠中冒险……模拟真实场景的超强能力,使得Sora一问世就立即引爆全球,甚至连在人工智能领域一向野心勃勃的特斯拉CEO埃隆·马斯克也“坐不住”了。他很快在社交媒体上对此评价说:“人类愿赌服输。”
时代变革的钟声,似乎已经敲响。“Sora的最大意义,并非只是文生视频,而是意味着大模型可以认知世界,例如在智能驾驶领域从‘感知升级到‘认知,并且这还不是全部。”太和智库大数据研发首席专家、车车科技董事长张磊对《环球人物》记者说。不少业内人士认为,Sora可以被看作是通往通用人工智能的一座里程碑。
Sora是美国人工智能巨头OpenAI的新产品。此前,OpenAI旗下已经有自动语音识别系统Whisper、图像生成模型DALL-E等产品。
正是在以往的技术范式之上,OpenAI做出了新产品Sora。以2021年推出的DALL-E模型为例,其可根据用户输入的描述生成图像。据官方说法,他们利用DALL-E的数据集重描述功能,给训练Sora用的视频素材加上了高质量文本描述,以提高输出视频的质量。目前的Sora,不仅可以理解用户在提示中提出的要求,还能理解它们在物理世界中的存在方式。官方称之为“世界模拟器”。
OpenAI的CEO山姆·奥特曼甚至直接在社交媒体上根据网友评论为大家制作Sora视频。有人提出想要“一段海上自行车比赛的视频,让各种动物作为运动员骑自行车”。奥特曼在回复中发布了视频,里面有企鹅、海豚和其他水生生物骑自行车。有人向奥特曼要一段“由一名祖母辈的网红主持的自制团子烹饪课程,背景是一个质朴的乡村厨房,并配有电影级的灯光”,之后Sora生成了另一段视频:一位身穿围裙、面带微笑的白发女士邀请观众进入她的厨房。
Sora生成作品:女子漫步在霓虹闪烁的东京街头。
在 Sora 官方介绍页里,无数纸飞机在丛林中翩翩起舞、自由飞翔,如同正在穿梭的候鸟。在日语中,Sora 的引申义是“自由”。这或许意味着,每个人都可以通过Sora自由展示想象空间。
精准贴合文字指令和极致真实是Sora作品给人的第一印象。咖啡杯里浮沉的海盗船,符合流体力学;都市内虚空巡游的鲸鱼,遵从无形潮汐……这些作品意味着,Sora不是在虚构世界,而是在生成世界。
360创始人周鸿祎在社交媒体上表示,Sora的诞生意味着通用人工智能实现可能从10年缩短至一两年。通用人工智能是指能在复杂动态环境中,学习并完成多样任务的人工智能。
Sora并非首个文生视频大模型。2023年,Pika Labs发布首个产品Pika 1.0,能生成和编辑3D动画、动漫、卡通和电影,被视为零门槛“视频生成神器”。Runway、谷歌Lumiere视频AI生成模型、Stability AI的SVD1.1也相继问世。
不过,之前的AI 生成视频时间短,且易卡顿。Sora则弯道超车,单次能生成60秒的连贯视频。“之前的类似产品能生成10秒钟的视频,这次的Sora是1分钟,算是比较突出的量变。”智源研究院理事长、北京大学教授黄铁军说。
此外,Sora用户还可以输入图片转成视频,或更换视频中的元素,甚至把两个不相关的视频自然拼接起来,自主为视频补帧。这说明Sora能够模拟物理世界,并有一些预测能力。
据中信证券研报,如果后续持续扩大模型及训练集的规模,以Sora为基础的模型可能做到模拟世界,成为真正的“世界模型”。“通用人工智能要拥有世界模型,然后基于自己对世界模型的理解描述来行动。”黄铁军说,“Sora内部的这种世界模型的表达,在接近真实的程度方面有较大提高,可以说是走向通用人工智能的重要台阶。”
黄铁军指出,包括OpenAI在内的科研企业或机构,目的都是研究智能越来越强的基础大模型,运行起来会对各行各业产生影响,智能会成为越来越强的社会要素。
Sora“技惊四座”之后,其背后的团队也来到了聚光灯中心。
事实上,该研发团队成立时间还不到一年,成员背景多元,大多行事低调。这支集技术和艺术,博士和本科生,美国人、印度人和华人等为一体的团队,为Sora这一变革性AI模型的诞生提供了无限可能性。“不能用传统的高学历或资历来看这个事情,历史上很多创新往往是由年轻人以某种偶然方式实现的。”黄铁军对这支团队评价说。
Sora公布的研发成员名单显示,带头人有两位——威廉·皮伯斯和蒂姆·布鲁克斯。两人师出同门,均在2019年进入加州大学伯克利分校深造,并于2023年先后博士毕业。这两位应届博士生呕心沥血近一年时间,“每天睡得很少,高强度工作”,才有了Sora的问世。
皮伯斯青春洋溢,笑容很灿烂,喜欢自称“比尔”。像大多数博士一样,他戴眼镜,穿着清爽适体的衣服。在社交媒体上,这位技术大佬除了发布工作内容,时不时还会对一些公共政策发表意见。皮伯斯转发过很多美国政要的帖子,如2016年,皮伯斯就转发了特朗普的一条推文,大致内容是“选举团是民主的灾难”,皮伯斯评论道:“同意。”此次Sora成为关注焦点后,皮伯斯社交媒体的评论区几乎被挤爆,粉丝们纷纷发出“恭喜!”“伟大的工作!”“梦想成真了!”等赞叹。
海上自行车比赛中,动物运动员骑着自行车。图为通过这些提示词,Sora生成视频的截图。
Sora研发团队成员皮伯斯(左)与布鲁克斯(右)。
皮伯斯是个“学习小天才”,本科就读于麻省理工学院,主修计算机科学。他参加过多媒体制作软件开发商奥多比公司的暑期实习,还去过人工智能企业英伟达实习,研究计算机视觉。
尽管年纪尚轻,皮伯斯的业界经验却十分丰富。读博期间,他的研究成果多次入选国际图形学年会等学术会议。2022年5月,他到社交媒体巨头Meta实习,和同事合作发表了DiT模型。第二年,该成果被计算机视觉国际大会录用。也是在同一年,皮伯斯在加州大学伯克利分校的人工智能研究中心完成博士学业。DiT架构正是Sora的核心技术支撑之一。而Sora技术报告引用的关键文献《具有自注意力网络的可扩展扩散模型》也出自皮伯斯之手。从某种程度上说,皮伯斯为Sora带来了核心技术基础。
皮伯斯的博士师兄布鲁克斯早毕业了几个月。他本科就读于卡内基梅隆大学,主修逻辑与计算,辅修计算机科学,其间在脸书的软件工程部门实习了约四个月。2017年,布鲁克斯本科毕业,先到谷歌研究AI相机,之后到伯克利AI实验室读博,主要研究方向是图片与视频生成。读博期间,布鲁克斯研制出了AI图片编辑工具InstructPix2Pix——这是一项通过输入指令进行快速图像编辑的技术。这一研究经历使他在研发Sora时如虎添翼。2023年1月,布鲁克斯博士毕业,加入OpenAI,并相继参与了DALL-E和Sora的工作。
布鲁克斯多才多艺。他高中时拍的照片获过大奖。如今,他是一名专业摄影师,经常走进大自然拍动物。此外,他还在纽约百老汇灯塔剧院登台演出过,并赢得无伴奏表演节奏口技的国际奖项。他经常分享自己的文艺作品,还发帖称:“我对AI充满热情,幸运的是,这种热情与我对摄影、电影和音乐的爱好完美融合。”
在Sora项目中,布鲁克斯的研究重点是开发能模拟现实世界的大型生成模型。他的文艺爱好对Sora的开发大有裨益——作为一个生成视觉产品,Sora需要具有艺术和科技跨界背景的人。
Sora研发团队中这样的人不在少数,如来自旧金山艺术大学的乔·泰勒,他在页面设计、艺术指导等方面能力强,时不时还会去伯克利制作手工艺品。与其说是工程师,他更像一名艺术家。进入OpenAI前,他在多家公司负责过页面设计等工作,这些经验使他能在研发Sora时进行审美和设计上的赋能。
值得一提的是,团队里印度裔的阿迪蒂亚·拉梅什以及“00后”威尔·迪普都只有本科学历。拉梅什就读于纽约大学,在校期间就已经开始研究生成式模型。他毕业后本想继续深造,却意外地在OpenAI的暑期实习中被留下来,成了一名研究員。尽管拉梅什在学历方面“稍显逊色”,但在资历上是元老级的,算是Sora基础技术的奠基人之一,这让他有资格在整个团队中担任“执行制作人”。拉梅什主导了文字转图形模型DALL-E三代的研究,这三代模型的精确度和质量不断提高。
2023年,拉梅什在一次采访中表示:“人类能描述现实生活中可能遇到的任何情况,但也可以描述不可思议的情况或不可能发生的场景。我们想看看,如果训练一个模型,来从文本中生成图像,是否能够做到与人类一样的推断能力。”拉梅什的想法或多或少地影响了Sora的诞生,促成了Sora模拟现实的能力。他希望AI模型能够像人一样推理,这一期望已经在Sora上得到一定实现。
另一位本科生威尔·迪普2003年出生在西雅图,曾在阿根廷生活过,能说“半流利”的西班牙语。他半年前在一个节目中分享了自己的人生信条:“如果一件事要有人做,且没有其他人能做到,很好,那就由我来干。”这位“00后”的确是个实干派。早在高中时期,他就开始研发面向高中师生的即时通讯平台。该平台关闭后,迪普又招募团队研发了一个可视化工具,这家公司后来被社群管理与分析公司康索收购。2022年,迪普从密歇根大学计算机系本科毕业。同年7月,他加入OpenAI,并于2024年1月加入Sora项目组。
值得一提的是,迪普还是一位社交媒体达人,他2018年加入X平台,至今已发了5400余条推文,甚至曾分析过推文的传播规律:“最伟大的推文总有一种诗意,开头勾住你,然后让你进入一个阅读的圈,最后加上一个‘啪式的响亮结尾。这感觉就像海明威一样。”
备受关注的还有Sora团队里的华人研究员。他们的公开信息不多,显得颇为神秘。王宇2010年在南京师范大学附属中学就读,2013年考入加州大学伯克利分校,从毕业后到今年1月加入OpenAI前,他有在Meta和Instagram(照片墙)任软件工程师及工程经理的经历。研究员靖礼是湖北人,高中时曾获第四十一届国际中学生物理学奥林匹克竞赛金牌,2014年毕业于北京大学物理系,后在麻省理工学院获博士学位,在Meta工作两年后加入OpenAI。此外,作为曦智科技的联合创始人,靖礼还入选2019年福布斯中国30位30岁以下精英榜。他的社交媒体主页写着:“我热衷于帮助人工智能了解现实世界并创造新的智能。”
尽管Sora团队有几名华人,但类似成果并未出自我国。这是否凸显出中美高科技之间的差距?业内人士称,差距确实存在,但没想象中的那么大。
“美国在基础科学、计算技术、芯片产业等方面全球领先,也汇聚了大量尖端人才投身人工智能领域,形成了较强的竞争壁垒和先发优势。”张磊说。黄铁军也提到,美国头部企业在经济和人力资源方面,调度能力和活力较强,大量投资进入也可以让头部企业有能力不断开发新产品。
但他们同时表示,我国人工智能发展也非常迅速。“不论是BAT(百度、阿里巴巴、腾讯)等互联网巨头的持续创新,还是商汤科技、科大讯飞等专注人工智能的企业,在语音识别、自然语言处理、具身智能等方面都有重要突破。”张磊说。
尽管起步较晚,但中国在算力、芯片和5G等领域的发展呈快速增长趋势,为人工智能的大规模计算和数据处理提供了强有力的支持。目前,中国的人工智能专利申请量居世界首位。
“中国的头部企业其实也做得很好。”黄铁军说,“如果新的技术可能会带来新的机会以及冲击其原有产品、应用和服务,那企业自然会投入。中国现在有少数企业在这方面的积累和进展还是很不错的。只是受到的关注度没那么高,大家容易只关注‘冠军,不关注其他角色。”
谈及中国人工智能领域可能存在的问题,黄铁军表示,相较美国,我国的资源、经验可能比较分散,研究机构、企业、大学“各做各的”。“我们在技术上很前沿,但工程和系统上差距明显。相信不久的将来,国家层面会有部署和行动。”
张磊也表示:“我国政府近期在产业融合、数据交易、人才培养等人工智能产业方面出台相关激励政策,未来将依托广阔的市场空间和数据优势,加快人工智能发展,积极参与国际交流与合作,推动我国人工智能技术的创新和应用。”
人工智能是否会成为一条国际竞争新赛道?“‘赛道这个词可能说小了,它是整体性、基础性的。”黄铁军说,人工智能的发展可能会带来一个智能时代,智能有可能成为一种驱动社会的基础性能量,会在未来的新时代中充当核心角色。“智能时代和工业、电力、信息革命的影响可能是一样的。要从人类命运共同体的角度去考虑,人类智能和机器智能如何在新时代里进行碰撞。”
像任何新事物一样,Sora的问世也不可避免地引发了一些焦虑。它发布后第二天,主营视频制作的奥多比公司股价就应声下跌。网红博主“野兽先生”在OpenAI创始人推特下留言,“请别让我无家可归”。有游戏程序员预言自己“半年下岗”。甚至有投资人判断,5年内会有团队用Sora制作出票房超5000万美元的电影。届时,好莱坞的经典标志将被改为“SORAWOOD”……张磊指出,这些现象足以说明,Sora对于图像软件工具、影视制作、游戏开发等领域都有直接冲击。
Sora能生成动漫、卡通和电影。
随着Sora的不断推广,越来越多的行业迎来洗牌,但这也意味着机遇。如Sora可以将小说生成动漫,还能快速生成高质量广告。“技术进步了,这些产业有了创新,服务形式发生变化,如果用户更喜欢,那不是坏事,是好事。应该拥抱这种新的可能性。人工智能在视听内容方面潜力巨大。用好它,整个产业会发生翻天覆地的变化。新兴产业形态出现,一些旧的、大家不怎么喜闻乐见的产业萎缩。这是很正常的进步过程。”黄铁军说。
此外,Sora生成的作品过于逼真,这让人担心其是否会为虚假信息推波助澜,甚至可能威胁人类社会秩序。对此,黄铁军呼吁大家不用过于担心。“Sora目前对于真实世界的表达还有很大提升空间。如果实际开放使用,預计生成视频中会出现大量违反自然规律的东西。”Sora官网也提到,它目前可能无法胜任过于复杂的环境的生成,可能出现一些物理错误,“如一块饼干被咬了一口,但上面并没有出现缺口”。总之,距离作为一个安全的产品走向市场,Sora还有很长一段路要走。
黄铁军认为,不必过于放大Sora的风险,“人类一直在不断掌握新工具,正如火可以用于耕种,也可以用于战争。新技术想拦也拦不住。如何把一个新技术用好,降低负面效应,这需要系统思考。我们应有风险意识,尽快考虑相应规制手段”。
美国未来学家库兹韦尔提出的“奇点理论”,被用来形容机器智能与人类智能兼容,甚至超越人类智能的时刻。Sora很难不让人联想到这种时刻的到来。“机器可能超越人类甚至拥有意识,这也是一个对于人类智能祛魅的过程。我们创造的人工智能是否会把我们自己控制住,也是可以去讨论的话题。但我们不应因此对人工智能技术的未来感到悲观和抵触。”黄铁军说。
“未来永远是开放的。”黄铁军说,我们希望并相信Sora本身和它的年轻团队都在宣告一个更为开放与值得遐想的未来的靠近,而不是更多可能性的关闭。