杨智杰
Sora生成的视频截图。提示文字:“一位时尚女性走在东京的街道上,街道上到处是温暖的霓虹灯和动画城市标志……”
两只金毛犬在山顶上录制播客,会是一个怎样的场景?
北京时间2月16日,网友在社交媒体上写下对AI模型Sora的这一文字提示,OpenAI首席执行官山姆·奥特曼将其输入Sora,生成了一个10秒的高清视频,并将其发布在社交平台。画面中,两只金毛犬头戴耳机,面前立着两个话筒,放松地蹲坐在山间一块红白相间的野餐布上。金毛犬的毛发光泽、周围的山顶环境非常逼真,几乎和电视纪录片别无二致。
继AI生成文字和图片后,OpenAI正式涉足视频生成领域。北京时间2月16日凌晨,OpenAI发布首个AI 文字生成视频模型Sora,使用者只需用文字描述一个场景,Sora便可生成一个时长最高可达1分钟的视频。OpenAI仅在官网发布数十个Sora视频,目前,该功能尚未向公众开放,仅面向安全人员,还将向特定艺术家、设计师提供访问权限。但Sora视频对文字提示的超高还原,迅速引爆网络。有网友感慨,“Sora要革影视行业的命”“它将把视频内容带入‘零基础创作时代”。
英伟达的工程师王帅在Sora发布后惊叹,这是“又一个ChatGPT 时刻”。他在接受《中国新闻周刊》采访时提到,Sora显著提高了AI文字生成视频的能力上限,这无疑是业内共识。但Sora的产品和商业化路径是什么,如何产生价值,目前业内仍有分歧。“技术能力提高,并不意味着它能解决所有问题,帮好莱坞导演直接拍电影,不需要摄像,还远没有到那一步。”
即使不关注大模型技术的人,也会注意到社交网络上这一广为流传的59秒视频:一位戴墨镜、身穿红裙皮衣、踩着皮靴的女人,漫步在东京街头,镜头流畅地推到了她的脸部,你可以清晰地看到她脸上的雀斑和皮肤纹理。这个一镜到底的视频不需要人来拍摄和剪辑,只要把一段描述输入Sora后即可由AI直接生成。
1分钟的视频并不长,但对于AI文字生成视频可以算是巨大飞跃。过去一年多来,ChatGPT、Midjourney等现象级爆款应用横空出世,AI 生成文字、生成图片技术的飞速发展让人兴奋,相比之下,AI生成视频领域虽有Runway、Pika 、Meta、谷歌等多个明星公司入局,但因技术难度更大,发展仍处于早期。2023年12月,谷歌团队发布视频生成模型VideoPoet,一次能生成10秒超长、连贯大动作的视频,超过其他智能生成3~4秒的模型,已足以让业内振奋。
清华大学智能产业研究院(AIR)首席研究员聂再清向《中国新闻周刊》解释,在此之前,文字生成视频的时长短,一大原因在于,AI不知道接下来要发生什么,因而不知道该生成怎样的内容。
Sora的视频更长,观众也明显感受到其更加符合逻辑,因为它一定程度上“展现”了对现实世界的理解能力。在OpenAI公开发布的一个视频中,复古SUV在陡峭的山路上行驶,车身自然颠簸,轮胎扬起灰尘。OpenAI将这一能力称为“世界模型的雏形”。英伟达人工智能研究院首席研究科学家Jim Fan也在社交平台感叹,Sora并不只是创意玩具,而是一个数据驱动的物理引擎,可以对真实或虚拟世界进行模拟。
聂再清介绍说,世界模型可以简单理解为,AI对真实世界建模,能还原对现实世界中人和物的理解,“比如拿一個纸杯,AI‘知道很轻,如果这个杯子是铁做的,它会很重,如果一个人开车逆行,其他车辆会吓得减速或避让”。
Sora能做到准确理解文字含义,并呈现逼真的画面,在于和ChatGPT一样的逻辑,即“大力出奇迹”。聂再清提到,此前,文字生成视频的挑战在于,用于练习模型的视频,需要将分辨率、长宽比、时长等调整为统一格式,便捷性不够。Sora提出用时空视觉patch(补丁)将不同的视频数据转化成统一的视觉数据表示,patch即相当于训练ChatGPT过程中用到的token(文本的最小单元),每个视频不用修改格式,而是先压缩,提取时间和空间节点的数据,直接输入模型学习。OpenAI官方介绍,Sora可以采样宽屏1920×1080p、垂直1080×1920p以及介于两者间的所有视频。采样更加灵活,视频的数据量也会增加。
此外,训练文本生成视频,需要大量带有字幕的视频数据。OpenAI利用了DALL·E 3和GPT模型,为训练的视频集中生成字幕,可以提高文本保真度以及视频的整体质量。
但在王帅看来,模型技术实际上是个公开的秘密,Sora的能力之所以如此惊艳,更关键的是OpenAI喂给模型的数据,“他们到底用了多大规模的数据,数据如何选择,这些在OpenAI的报告中只是点到为止,几乎没有任何细节,但只有业内人士知道,这才是关键”。
纽约大学计算机科学助理教授谢赛宁是机器学习领域知名学者,他是扩散模型(diffusion)一篇重要论文的主要作者之一。Sora便是一个扩散模型,同时结合了ChatGPT使用的底层模式Transformer,在视觉领域实现突破。谢赛宁在社交媒体上也直言,OpenAI完全没有谈论数据来源和构建,这可能暗示数据才是Sora成功最关键的因素。他猜测,OpenAI可能用到了游戏引擎数据,以及电影、纪录片、电影长镜头等,数据的质量非常重要。
Sora根据提示文字:“两只金毛犬在山顶录制播客”生成的视频截图。
“你可以准确地画出你的想法,然后将其变为现实。”正如参与设计Sora的OpenAI工程师蒂姆·布鲁克斯所言,Sora降低了视频制作的技术门槛,但对于讲故事能力的要求有所提高。人们不免担忧,Sora的出现,对于好莱坞电影工业会产生重大影响,导演、摄像、化妆、道具、剪辑、配音等一大批从业人员或将失业。
一位不愿具名的AI产业研究者在接受《中国新闻周刊》采访时提到,生成视频工具不等于会讲故事的导演、编剧,就像印刷术不能替代李白、杜甫,所以视频的大规模生成,只是显著降低批量生产的门槛与成本,视频作品的创意性、故事性、艺术性,将在更加海量的作品竞争中要求越来越高。
现阶段,Sora仍存在明显的弱点。在社交媒体上,蒂姆·布鲁克斯根据提示语“人们在海滩放松,然后一条鲨鱼从水中跳了出来,让所有人大吃一惊”,发布了由Sora生成的视频。视频中,一位女性看到鲨鱼后扭头求救,但因扭头角度过大,被网友戏谑是“做了驱魔人式的180度旋转”。OpenAI也公开承认Sora当前的局限性,它不能时刻准确模拟物理世界的交互规律。比如,在它生成的视频中,一个人在跑步机上反向跑步,一些实体场景中,人或动物会自发冒出来,甚至AI将一把椅子建模成了一个柔性的物体。
在聂再清看来,现在人们看到的都是由OpenAI挑选后发出的视频,大家觉得很惊艳,但到底还有多少不完善之处,不能完全确定,还要等面向公众开放后才知道,Sora离理想中的世界模型还有多大的差距。
王帅对Sora模型的认知更为冷静。他更在意Sora這类模型如何落地。近期,有人向他询问,Sora生成的视频中,人和车辆那么自然,模型是怎么控制每个物体的?但实际上,模型运行的方式与人类思考的方式截然不同,模型根本不知道有物体存在,是大数据告诉它每一部分要做成什么样子。生成视频依靠的是巨大的数据量,如果有足够数据,便会更好生成视频。但未来在编辑视频时,可能会出现数据分布之外的情况,如果数据没有覆盖到,生成效果可能不尽如人意。
王帅进一步解释说,不只是要数据规模大,还要有更好的数据细节,“人们使用模型生成了一个效果很好的60秒视频,但这还没有结束,人们后期如果想做视频编辑,比如摘掉那位东京街头漫步的女士的墨镜,如果训练数据中没包含这一动作的视频,或很少见,模型可能做不到这一指令,或者做得效果很差。因此,在测试时,需要做非常多的调试工作,是非常耗时耗力的事情。”王帅提到,Sora的学习逻辑与ChatGPT是相通的,模型学到了足够多的数据,因而掌握了数据间的规律。但这仍和通用人工智能有区别—— Sora本质上还是在模仿训练数据中的视频。
“一段文字提示,模型中可能会对应上千万的视频,目前OpenAI呈现了一个看起来足够好的视频,大家就觉得这个模型很厉害,但你不知道它能不能很好地生成其他视频。”王帅提到,这就像是一个问题有100个答案,但它只给出一个正确答案,这意味着大模型就会做这个题了吗?不是,除非它也能把剩下99个答案都告诉你,才说明它的理解没有问题。
至于是否会颠覆影视行业,在王帅看来,大家现在猜测一些大方向,但很可能答案是在意料之外。“谷歌刚成立时,人们不会想到它会以做广告盈利;人们最初对Facebook改变社交方式寄予厚望,但不会想到它后来会出现泄露用户数据隐私的丑闻,AI技术亦是如此。很多技术人员认为只要解决技术难题就可以了,不是这样的。技术在商业和社会层面将会带来怎样的影响,是极其复杂的,很难单独用技术逻辑来理解。”
(王帅为化名)