Sora开启文生视频新世代？

2024-03-24 07:09杨智杰

中国新闻周刊 2024年7期

杨智杰

Sora生成的视频截图。提示文字：“一位时尚女性走在东京的街道上，街道上到处是温暖的霓虹灯和动画城市标志……”

两只金毛犬在山顶上录制播客，会是一个怎样的场景？

北京时间2月16日，网友在社交媒体上写下对AI模型Sora的这一文字提示，OpenAI首席执行官山姆·奥特曼将其输入Sora，生成了一个10秒的高清视频，并将其发布在社交平台。画面中，两只金毛犬头戴耳机，面前立着两个话筒，放松地蹲坐在山间一块红白相间的野餐布上。金毛犬的毛发光泽、周围的山顶环境非常逼真，几乎和电视纪录片别无二致。

继AI生成文字和图片后，OpenAI正式涉足视频生成领域。北京时间2月16日凌晨，OpenAI发布首个AI 文字生成视频模型Sora，使用者只需用文字描述一个场景，Sora便可生成一个时长最高可达1分钟的视频。OpenAI仅在官网发布数十个Sora视频，目前，该功能尚未向公众开放，仅面向安全人员，还将向特定艺术家、设计师提供访问权限。但Sora视频对文字提示的超高还原，迅速引爆网络。有网友感慨，“Sora要革影视行业的命”“它将把视频内容带入‘零基础创作时代”。

英伟达的工程师王帅在Sora发布后惊叹，这是“又一个ChatGPT 时刻”。他在接受《中国新闻周刊》采访时提到，Sora显著提高了AI文字生成视频的能力上限，这无疑是业内共识。但Sora的产品和商业化路径是什么，如何产生价值，目前业内仍有分歧。“技术能力提高，并不意味着它能解决所有问题，帮好莱坞导演直接拍电影，不需要摄像，还远没有到那一步。”

Sora效果为何远超其他模型？

即使不关注大模型技术的人，也会注意到社交网络上这一广为流传的59秒视频：一位戴墨镜、身穿红裙皮衣、踩着皮靴的女人，漫步在东京街头，镜头流畅地推到了她的脸部，你可以清晰地看到她脸上的雀斑和皮肤纹理。这个一镜到底的视频不需要人来拍摄和剪辑，只要把一段描述输入Sora后即可由AI直接生成。

1分钟的视频并不长，但对于AI文字生成视频可以算是巨大飞跃。过去一年多来，ChatGPT、Midjourney等现象级爆款应用横空出世，AI 生成文字、生成图片技术的飞速发展让人兴奋，相比之下，AI生成视频领域虽有Runway、Pika 、Meta、谷歌等多个明星公司入局，但因技术难度更大，发展仍处于早期。2023年12月，谷歌团队发布视频生成模型VideoPoet，一次能生成10秒超长、连贯大动作的视频，超过其他智能生成3～4秒的模型，已足以让业内振奋。

清华大学智能产业研究院（AIR）首席研究员聂再清向《中国新闻周刊》解释，在此之前，文字生成视频的时长短，一大原因在于，AI不知道接下来要发生什么，因而不知道该生成怎样的内容。

Sora的视频更长，观众也明显感受到其更加符合逻辑，因为它一定程度上“展现”了对现实世界的理解能力。在OpenAI公开发布的一个视频中，复古SUV在陡峭的山路上行驶，车身自然颠簸，轮胎扬起灰尘。OpenAI将这一能力称为“世界模型的雏形”。英伟达人工智能研究院首席研究科学家Jim Fan也在社交平台感叹，Sora并不只是创意玩具，而是一个数据驱动的物理引擎，可以对真实或虚拟世界进行模拟。

聂再清介绍说，世界模型可以简单理解为，AI对真实世界建模，能还原对现实世界中人和物的理解，“比如拿一個纸杯，AI‘知道很轻，如果这个杯子是铁做的，它会很重，如果一个人开车逆行，其他车辆会吓得减速或避让”。

Sora能做到准确理解文字含义，并呈现逼真的画面，在于和ChatGPT一样的逻辑，即“大力出奇迹”。聂再清提到，此前，文字生成视频的挑战在于，用于练习模型的视频，需要将分辨率、长宽比、时长等调整为统一格式，便捷性不够。Sora提出用时空视觉patch（补丁）将不同的视频数据转化成统一的视觉数据表示，patch即相当于训练ChatGPT过程中用到的token（文本的最小单元），每个视频不用修改格式，而是先压缩，提取时间和空间节点的数据，直接输入模型学习。OpenAI官方介绍，Sora可以采样宽屏1920×1080p、垂直1080×1920p以及介于两者间的所有视频。采样更加灵活，视频的数据量也会增加。

此外，训练文本生成视频，需要大量带有字幕的视频数据。OpenAI利用了DALL·E 3和GPT模型，为训练的视频集中生成字幕，可以提高文本保真度以及视频的整体质量。

但在王帅看来，模型技术实际上是个公开的秘密，Sora的能力之所以如此惊艳，更关键的是OpenAI喂给模型的数据，“他们到底用了多大规模的数据，数据如何选择，这些在OpenAI的报告中只是点到为止，几乎没有任何细节，但只有业内人士知道，这才是关键”。

纽约大学计算机科学助理教授谢赛宁是机器学习领域知名学者，他是扩散模型（diffusion）一篇重要论文的主要作者之一。Sora便是一个扩散模型，同时结合了ChatGPT使用的底层模式Transformer，在视觉领域实现突破。谢赛宁在社交媒体上也直言，OpenAI完全没有谈论数据来源和构建，这可能暗示数据才是Sora成功最关键的因素。他猜测，OpenAI可能用到了游戏引擎数据，以及电影、纪录片、电影长镜头等，数据的质量非常重要。

Sora根据提示文字：“两只金毛犬在山顶录制播客”生成的视频截图。

Sora仍存在明显弱点

“你可以准确地画出你的想法，然后将其变为现实。”正如参与设计Sora的OpenAI工程师蒂姆·布鲁克斯所言，Sora降低了视频制作的技术门槛，但对于讲故事能力的要求有所提高。人们不免担忧，Sora的出现，对于好莱坞电影工业会产生重大影响，导演、摄像、化妆、道具、剪辑、配音等一大批从业人员或将失业。

一位不愿具名的AI产业研究者在接受《中国新闻周刊》采访时提到，生成视频工具不等于会讲故事的导演、编剧，就像印刷术不能替代李白、杜甫，所以视频的大规模生成，只是显著降低批量生产的门槛与成本，视频作品的创意性、故事性、艺术性，将在更加海量的作品竞争中要求越来越高。

现阶段，Sora仍存在明显的弱点。在社交媒体上，蒂姆·布鲁克斯根据提示语“人们在海滩放松，然后一条鲨鱼从水中跳了出来，让所有人大吃一惊”，发布了由Sora生成的视频。视频中，一位女性看到鲨鱼后扭头求救，但因扭头角度过大，被网友戏谑是“做了驱魔人式的180度旋转”。OpenAI也公开承认Sora当前的局限性，它不能时刻准确模拟物理世界的交互规律。比如，在它生成的视频中，一个人在跑步机上反向跑步，一些实体场景中，人或动物会自发冒出来，甚至AI将一把椅子建模成了一个柔性的物体。

在聂再清看来，现在人们看到的都是由OpenAI挑选后发出的视频，大家觉得很惊艳，但到底还有多少不完善之处，不能完全确定，还要等面向公众开放后才知道，Sora离理想中的世界模型还有多大的差距。

王帅对Sora模型的认知更为冷静。他更在意Sora這类模型如何落地。近期，有人向他询问，Sora生成的视频中，人和车辆那么自然，模型是怎么控制每个物体的？但实际上，模型运行的方式与人类思考的方式截然不同，模型根本不知道有物体存在，是大数据告诉它每一部分要做成什么样子。生成视频依靠的是巨大的数据量，如果有足够数据，便会更好生成视频。但未来在编辑视频时，可能会出现数据分布之外的情况，如果数据没有覆盖到，生成效果可能不尽如人意。

王帅进一步解释说，不只是要数据规模大，还要有更好的数据细节，“人们使用模型生成了一个效果很好的60秒视频，但这还没有结束，人们后期如果想做视频编辑，比如摘掉那位东京街头漫步的女士的墨镜，如果训练数据中没包含这一动作的视频，或很少见，模型可能做不到这一指令，或者做得效果很差。因此，在测试时，需要做非常多的调试工作，是非常耗时耗力的事情。”王帅提到，Sora的学习逻辑与ChatGPT是相通的，模型学到了足够多的数据，因而掌握了数据间的规律。但这仍和通用人工智能有区别—— Sora本质上还是在模仿训练数据中的视频。

“一段文字提示，模型中可能会对应上千万的视频，目前OpenAI呈现了一个看起来足够好的视频，大家就觉得这个模型很厉害，但你不知道它能不能很好地生成其他视频。”王帅提到，这就像是一个问题有100个答案，但它只给出一个正确答案，这意味着大模型就会做这个题了吗？不是，除非它也能把剩下99个答案都告诉你，才说明它的理解没有问题。

至于是否会颠覆影视行业，在王帅看来，大家现在猜测一些大方向，但很可能答案是在意料之外。“谷歌刚成立时，人们不会想到它会以做广告盈利；人们最初对Facebook改变社交方式寄予厚望，但不会想到它后来会出现泄露用户数据隐私的丑闻，AI技术亦是如此。很多技术人员认为只要解决技术难题就可以了，不是这样的。技术在商业和社会层面将会带来怎样的影响，是极其复杂的，很难单独用技术逻辑来理解。”

（王帅为化名）