中学生也能看懂的Sora技术分析简报

2024-04-28 01:17崔原豪
科学大众(中学) 2024年5期
关键词:补丁文本图像

崔原豪

2024年2月16日,OpenAI在社交媒体上发布了一条消息,隆重介绍了自家的新文本转视频模型——Sora。几乎是一夜之间,Sora就在全网刷屏。

文生视频并不是一项从无到有的技术,为什么Sora的出现会引起这么大的反响呢?

目前,在视频生成行业中,一般的视频长度为4秒,且受到诸多限制。然而,Sora的出现彻底打破了这一现状,它能够生成长达60秒的视频,并且支持镜头的分切。同时,Sora还支持不同的分辨率。这就像你们班上的同学一起参加一场难度极高的数学竞赛,大多数同学的分数都是30多分,而这个名叫“Sora”的同学却以70分的成绩惊艳了全场。

生成一段60秒高质量视频有多难

我们应该都知道,视频是由一系列图像组成的,并且这一系列图像是存在先后顺序的。就像是我们自制的手翻书一样,它包含一系列连贯动作的图像,当这些图像被快速翻阅时,由于视觉暂留现象,我们会感觉图像动了起来,产生了动画效果。视频其实也是这个原理。

文生视频则可以说是时间维度上的运动建模。为了保证生成视频的连贯性,这使得模型需要在時间维度上进行建模,并能够捕捉、理解和生成运动信息。这大大增加了模型的复杂度。

而且,视频数据比图像数据更加复杂,因此需要更大规模且更高质量的训练数据。然而,目前公开的高质量“文字- 视频”数据非常有限。

此外,视频生成模型的训练需要大量的计算资源和时间,训练成本十分高昂。因此,生成一段长达60 秒的高质量视频是非常困难的!

那么,Sora 是怎么做到的呢?

中学生也能看懂的Sora 技术解读

首先,Sora 利用了被称为“视频压缩网络”的技术,将输入的图片或视频进行压缩。就好比我们数学试卷中的压轴题,出题老师通常将一道大题拆分成3 个小问题,第一个小问题通常是相对简单的,同时第二个小问题的解题思路也藏在第一个小问题里,要解决最难的第三个小问题,也要依赖我们前面做过的两个小问题。当然,命题老师其实是可以直接让你求解第三个小问题的。但是,如果没有前面两个小问题的铺垫,处理起第三个小问题会很困难。而把这道题拆解开来,就会变得相对容易。视频压缩网络技术也是运用了这个方法,将复杂的视频数据简单化,同时保留其关键信息,经过压缩后可以大幅降低计算负荷,使得Sora 能够在训练过程中更加高效地处理大量数据。

对于经过压缩网络处理的视频,Sora 会将其进一步分解成“空间时间补丁”,这些补丁是视频的小块组成部分,不仅包含了视频的局部空间信息,还融合了时间维度上的动态变化。

为了形象地理解空间时间补丁,我们可以将其比作电影的每一帧。如果我们将每一帧画面看作一张静止的照片,那么这些照片可以被撕成许多小碎片,每一片都是一个空间时间补丁,每个补丁包含了画面的一小部分信息。我们在看到这些小碎片的时候,也能联想出与之相关的其他场景。在 Sora 中,空间时间补丁使模型能够更精细地处理视频内容的每个小片段,并同时考虑它们随时间的变化。

在提取了必要的信息后,Sora便着手开始视频的生成过程。它基于Transformer模型,结合给定的文本提示和已提取的空间时间补丁,开始创作视频内容。

比如,你告诉Sora生成一段“在校运会上参加100米比赛并获得第一名”的视频,这段文字就是你给它的文本提示,它会怎么做呢?首先,Sora会去理解这句话的具体含义;其次,它会根据它所理解的意思,在它的“大脑”中寻找与之相关的记忆片段(空间时间补丁),基于这些片段,它发挥自己的想象力,不断地补全画面并进行时间上的排序,例如起跑画面是要在冲刺画面之前的。经过反复的补充、完善,Sora就会生成你想要的这段视频了。

在这个过程中,Sora会对初始的噪声视频(画面不完善、时间线混乱的视频)进行精细的“润色”,滤除无关紧要的信息,并添加必要的细节。通过反复的优化,最终生成与文本提示完美契合的视频。

刚才我们提到过,Sora最开始生成的是一个噪声视频,也就是存在瑕疵的视频。此时,视频中的每个像素点都被随机地赋予颜色值,所呈现出来的画面也是杂乱无章的。曾经看过“大脑袋电视”的人应该都对这个画面不陌生,电视没有信号的时候,出来的就是这种画面。

然而,通过不断训练和优化,Sora能够精确地调整图像块的位置、大小、角度和亮度等参数,最终预测出这些噪声图像背后的清晰画面。

这个过程就好比我写这篇文章一样,一开始可能只有一个大纲,先大概列好这篇文章的整体结构,要分为几部分去写,每一部分都要写什么内容,然后再不断地填充文字、配图等,最终呈现出一篇逻辑清晰、内容丰富的完整文章。对于视频而言,这意味着Sora 需要一次性地预测多帧画面,并将这些带有噪声的多帧图像转换为清晰连贯的图像序列。当这些清晰的图像以连续的方式呈现时,就形成了最终流畅自然的视频。

Sora 带来的新变化

Sora 的出现,可以说是打破了人们对文生视频这一技术的传统认知。

首先,Sora 展示了强大的多格式视频生成能力。我们平时在用手机或者其他设备拍摄视频的时候,经常会根据自己的需求选择横屏或者竖屏的拍摄方式,这就造成了视频的屏幕比例不是统一的,而Sora 能轻松处理各种屏幕比例的视频,满足多样的观看需求。此外,Sora 能在低分辨率下快速构建内容初稿,然后在完整分辨率下细化,整个过程都在同一个模型中进行,提升了创作灵活性并简化了生成流程。

其次,Sora 在视频构图和框架上有显著改进。传统的训练模型在裁剪视频时,会默认为裁剪成正方形,这就会导致部分画面无法展示,而Sora 能更准确地保持视频主题全貌。

最后,得益于OpneAI 拥有ChatGPT 这个大语言模型产品及其技术积累,Sora 对文本有着深度的理解,能够精确理解用户通过文本提供的指示,并基于这些指示创造出具有丰富细节和情感表达的角色以及生动的场景。这种技术使得从简单的文本提示到复杂视频内容的转换过程显得更加自然和流畅。无论是动作密集的戏份还是微妙的情感流露,Sora 都能够精准地捕捉和呈现。

如果说ChatGPT 的出现改变了人们生产文字的方式,那么,Sora的出现则让视频创作的门槛变得更低。对绝大对数人来说,将来各种社交媒体的内容也将不只局限在文字与图片了。

(责任编辑:白玉磊)

猜你喜欢
补丁文本图像
改进的LapSRN遥感图像超分辨重建
有趣的图像诗
在808DA上文本显示的改善
健胃补丁
基于doc2vec和TF-IDF的相似文本识别
绣朵花儿当补丁
补丁奶奶
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
大病医保期待政策“补丁”
如何快速走进文本