巴黎奥运会刚刚结束,2028年洛杉矶夏季奥运会似乎还很遥远。然而,曾为勒布朗·詹姆斯和芝加哥公牛队制作内容的体育娱乐电影制作人乔什·卡恩已经在思考更远的未来:3028年的洛杉矶奥运会会是什么样子?
这正是人工智能(AI)视频生成的完美创意实现。2024年早些时候,OpenAI推出的Sora使得AI视频生成进入主流。通过在Runway或Synthesia等生成器中输入提示,用户可以在几分钟内生成相当高分辨率的视频。与传统的CGI或动画创作技术相比,这种方式速度快、成本低,并且技术门槛较低。虽然每一帧画面可能并不完美——例如6指手或物体消失等失真现象很常见——但至少在理论上,这种技术有着广泛的商业应用潜力。广告公司、企业和内容创作者可以利用这项技术快速、廉价地制作视频。
卡恩一直在尝试使用AI视频工具,他利用最新版本的Runway构想出了未来奥运会的样子,并在模型中为每个镜头输入一个新的提示。这段视频时长仅一分多钟,展示了一个未来感十足的洛杉矶:海平面急剧上升使城市被挤到海岸线边缘,一座足球场坐落在摩天大楼的顶部,而港口中央的圆顶内则设有一个沙滩排球场。
这段视频由麻省理工科技评论独家分享,更多的是为了展示AI目前的可能性,而非城市规划蓝图。“我们在观看奥运会时,注意到主办城市在文化叙事上所投入的心血。”卡恩说,“洛杉矶有一种想象力和叙事文化,并且这种文化为世界其他地方定下了基调。如果我们能展示一下1000年后洛杉矶奥运会的样子,那该多酷啊!”
这个视频最重要的是展示了生成技术对创作者的巨大助力,但它也揭示了当前技术的局限性。虽然卡恩没有透露他为每个镜头使用的具体提示内容或为了达到理想效果所需的提示次数,但他提醒说,任何希望用AI创作出优质内容的人都必须接受不断试验的过程。在他的未来项目中,特别具有挑战性的是让AI模型在建筑设计上突破常规。比如,水上悬浮的体育场是大多数AI模型在训练数据中几乎没有见过的。
每个镜头都需要新的提示,这也让视频难以保持连贯性。颜色、太阳的角度以及建筑物的形状很难由视频生成模型保持一致。视频中也没有任何人像的特写镜头,因为卡恩认为AI模型在处理这些方面仍然存在困难。
“目前,这些技术在处理大规模场景时表现较好,但在人类互动的细节上还有待改进。”他说。因此,卡恩认为生成视频的早期电影应用可能会集中在风景或人群的广角镜头上。
AI视频专家艾利克斯·马什博夫也同意当前AI视频的缺陷和不足。他2023年离开了Snap公司生成AI部门总监的职位,创立了一家新的AI视频公司HiggsfieldAI。他指出,好的对话内容很难通过AI生成,因为它往往依赖于微妙的面部表情和肢体语言。
一些内容创作者可能会因为反复输入提示以达到理想效果所需的时间,而不愿采用生成视频技术。
“通常成功率是1∶20。”艾利克斯·马什博夫说,但需要50次甚至100次尝试也并不罕见。
然而,对于许多用途来说,这已经足够好了。艾利克斯·马什博夫表示,他已经看到像Temu这样的电商巨头开始越来越多地使用AI生成视频广告。在中国,视频生成器需求旺盛,用于快速制作产品的直接广告。即使一个AI模型可能需要大量提示才能生成一个可用的广告,用真人、摄像机和设备来拍摄可能会昂贵百倍。他认为,随着技术的逐步改进,这类应用可能会成为生成视频技术大规模应用的首批案例。
“虽然这条路还很长,但我对现阶段已有的部分应用充满信心。”艾利克斯·马什博夫说,“我们正在找出生成AI已经表现不错的领域。”(综合整理报道)(策划/多洛米)