Sora神话:迄今最具破坏性的网络威胁?

2024-04-15 10:33:31胡泳
中国新闻周刊 2024年9期
关键词:人工智能文本模型

胡泳

近期,美国人工智能研究公司OpenAI开发的Sora横空出世,引发全球广泛关注。人们一边惊讶于它强大的文本转视频功能,一边忧心于真实与虚假的界限是否会变得更加难以辨别。Sora到底是什么,是一支马良“神笔”,还是一个超级怪物?

Sora的技术成就和局限性

Sora是OpenAI开发的一种先进的文本转视频转换模型,它的功能和应用范围展示了现代人工智能技术的新视野。该模型不仅限于生成几秒钟的视频,还能制作长达一分钟的视频,在保持高视觉质量的同时忠实再现用户指令。对于使用者来说,它仿佛将梦想变为现实。

目前,Sora正处于独家测试阶段,只有部分红队人员(专门负责从对抗的角度对某一计划、战略、政策或产品提出质疑的专家组)、视觉艺术家、设计师和电影制片人可以使用。这一战略举措可确保技术在广泛发布之前,不仅达到而且超过创意和安全的最高标准。一旦Sora可以公开并为更多人所使用,勢将在全球范围内产生更加重大的影响。

Sora的技术实力证明了人工智能领域取得的长足进步。Sora代表着从静态图像生成到动态视频创作的飞跃,这是一个复杂的过程,不仅涉及视觉渲染,还涉及对运动和时间进程的理解。这一进步标志着人工智能在解释和可视化时间叙事方面的能力发生了巨大转变,使Sora不仅仅是一个创建视觉效果的工具,更仿佛成为一个讲故事的人。

该突破所带来的冲击波预计将横跨视频创作的各个方面,但它也很可能会从视频发展到三维建模。从目前的演示来看,Sora可以理解提示中描述的元素是如何在物理世界中存在和运行的。这使得该模型能够在视频中准确呈现用户意图的动作和行为。例如,它可以逼真地再现人奔跑的景象或自然现象的运动。此外,它还能精确呈现多个角色的细节、动作类型以及主题和背景的细微之处。

在发布Sora的同时,OpenAI公布了一份相应的技术文档,名为《作为世界模拟器的视频生成模型》。这篇技术论文写道:“我们发现,视频模型在经过大规模训练后,会表现出许多有趣的涌现能力。这些能力使Sora能够模拟物理世界中的人、动物和环境的某些方面。”对Sora如何在内部建立世界模型,英伟达高级研究员Jim Fan博士进行了更深层次的猜测。“如果你认为Sora是一个像DALL-E一样的创意玩具……那就想错了。Sora 是一个数据驱动的物理引擎。”

也就是说,虽然目前Sora被认为仅仅是一个视频生成模型,但像英伟达高级科学家Jim Fan这样的计算机科学家相信,Sora实质上是一个可学习的模拟器(simulator)或世界模型(world model)。这表明,人工智能有可能从大量真实世界的视频和那些考量物理行为的视频(如游戏引擎Unreal Engine中的视频,虽然OpenAI并没有明确提到这一点)中理解物理规律和现象。

果真如此的话,在不久的将来出现文本到3D的可能性非常大。届时,不仅是多角度拍摄的视频,就连虚拟空间(如元宇宙)中的视觉效果制作也能很快由人工智能轻松生成。

从OpenAI目前公布的视频看,制作质量相当高。许多视频都是电影级的;所有视频都有着高分辨率,大多数视频看起来都像是真实的——除非你用慢动作观看。摄影镜头会平移和变焦,人物和场景在3D空间中的移动具备一致性,初看起来,你甚至意识不到自己观看的是合成影像。

为了达到更高的逼真度,Sora 结合了两种不同的人工智能方法。第一种是扩散模型(diffusion model),类似于DALL-E等图像生成器中使用的那种。这类模型通过学习将随机化的图像像素逐渐转换成连贯的图像。第二种是转换器架构(transformer architecture),用于对连续数据进行上下文分析和拼接。例如,大型语言模型即使用转换器架构将单词组合成一般可理解的句子。在视频生成过程中,OpenAI将视频片段分解成视觉的“时空补丁”(spacetime patches),Sora的转换器架构可以对其进行处理。

然而,与任何突破性技术一样,Sora也有自己的局限性。尽管该模型具有先进的功能,但有时仍难以准确模拟更为复杂的场景的物理特性。这可能导致视觉效果虽给人留下深刻印象,但偶尔也会违背物理定律或无法准确呈现因果场景。例如,视频中的角色与物体的交互方式在物理上或许并不可行,也做不到随着时间的推移而保持一致。

所以,虽然Sora号称是在学习物理,但还并不能准确地建立物理模型。OpenAI的官方博客指出,它在模拟物理、理解因果关系和其他简单细节方面遇到了困难。例如,要求生成一个人咬饼干的视频,却发现饼干上没有留下任何咬痕;或是一名男子在跑步机上以错误的方式跑步。它还可能对提示的空间细节感到困惑,如跟随特定的摄像头轨迹等。

Sora在多个战场攻城略地

虽非尽善尽美,人们仍然很难不被Sora早期示例的质量以及它最终对视频、电影、游戏等产业的可能改写所震撼。

在视频方面,OpenAI以外的其他公司,从谷歌等巨头到Runway等初创公司,都已经推出了文本到视频的人工智能项目。但 OpenAI表示,Sora的独特之处在于其惊人的真实感,以及它能够生成比其他模型通常拿出的简短片段更长的剪辑。

例如,OpenAI公布的一个视频片段,提示要求制作“一个矮矮的毛茸茸的怪物跪在红蜡烛旁边的动画场景”,还有一些详细的舞台指示(“睁大眼睛和张开嘴巴”)以及对所需氛围的描述。结果,Sora创造了一种皮克斯风格的生物,似乎具有来自《怪兽电力公司》(Monsters, Inc.)中的怪物的DNA。当《怪兽电力公司》2001年上映时,皮克斯曾经大肆宣扬制作怪物皮毛的超复杂纹理有多么困难,因为在生物移动时,这些纹理也会随之变化。皮克斯的“巫师”们花了数月时间才把它做得恰到好处。而OpenAI的新文本转视频机器似乎轻易就做到了这一点。这当中并没有编码,Sora完全是从观察到的大量数据中学习3D几何和一致性的。

尽管场景确实令人印象深刻,但Sora的能力中最令人震惊的是那些它尚未接受过训练的能力。如前所述,Sora由OpenAI的DALL-E 3图像生成器使用的扩散模型版本以及GPT-4的基于Transformer的引擎驱动,它不仅能够制作出满足提示需求的视频,而且在这样做的同时,还展现了对电影语法的新型理解,这可以转化为讲故事的才能。

比如,另一个视频根据“一个色彩绚丽的珊瑚礁纸艺世界,充满了色彩缤纷的鱼类和海洋生物”创建。研究人员发现,Sora通过镜头角度和时间安排创造了叙事主旨。“实际上有多个镜头变化——这些变化不是缝合在一起的,而是由模型一次性生成的”,“我们没有告诉它要这样做,它就自动完成了。”

OpenAI团队没有展示并且可能在相当长一段时间内不会发布的Sora的一个功能是,从单个图像或一系列帧生成视频的能力。这将提高讲故事的能力:你可以准确地画出你的想法,然后将其变为现实。从讲故事的情形來看,Sora可以显示对剪辑和节奏的理解,似乎具有初步的导演能力。

然而,文本转视频要威胁到实际的电影制作,将需要很长一段时间,甚至可能永远都不会出现这种情况。你无法通过拼接120个一分钟时长的Sora剪辑来制作一部连贯的电影,因为模型不会以完全相同的方式响应提示——连续性是不可能的。但是,对于Sora和类似程序来说,时间限制并不是障碍,它们完全可以用来改造 TikTok、Reels和其他社交平台。在过去,为了制作一部专业电影,你需要非常昂贵的设备,而这一类的模型将使在社交媒体上制作视频的普通人创作出非常高质量的内容。

考虑到其进展速度,想象在几个月内人工智能模型能够创建长达五到十分钟的多场景、多角色的复杂视频并不算疯狂。然而,从孤立的剪辑到制作一种以故事形式运行的媒介,让观众在观看时不会脱离其中,还有漫长的路要走。除非Sora成为一款为创作者提供完全定制和控制的开源应用程序,否则它不会颠覆电影产业。但显然,该技术可以加快经验丰富的电影制作人的工作速度,同时完全取代经验不足的数字艺术家。

另一个常常被提及、可能同样遭遇颠覆的行业是视频游戏。正如OpenAI的论文所述,“Sora 可以用基本策略控制Minecraft(一款电子游戏)中的玩家,同时以高保真度渲染世界及其动态”。显然,这只是其游戏潜力的开始。未来的视频游戏机可能会使用扩散技术实时生成交互式视频流,而不是由艺术家手工渲染数十亿个多边形。

一些人推测Sora接受了视频游戏引擎的训练,特别是Epic Games的虚幻引擎5(Unreal Engine 5)。虽然Sora几乎肯定不会使用视频游戏引擎来打造令人着迷的感觉,但视频游戏世界可能被用来帮助训练Sora的底层模型。某些Sora演示看起来确实与现有的视频游戏世界非常相似。2023年,游戏开发者已经受到裁员的打击,Sora可能会给他们带来进一步的灾难。当然,它也可以显著降低进入门槛。

总体来看,Sora的核心是一个多方面的人工智能系统,能够理解和执行跨越不同领域的任务。与以前专门用于文本生成、图像识别或策略游戏等特定任务的模型不同,Sora旨在弥合这些功能,提供更全面的方法。这是通过机器学习的尖端技术实现的,包括深度学习、强化学习和迁移学习,它们使得Sora能够利用在一个领域获得的知识来提高另一领域的表现。

Sora最引人注目的方面之一是它的适应性。OpenAI强调了创建能够从最少的输入中学习并轻松适应新挑战的人工智能系统的重要性。Sora体现了这一原则,展示了理解上下文、生成相关响应甚至从交互中学习的能力。这种适应性不仅增强了Sora在各种任务中的性能,还减少了大量再训练的需要,使其成为人工智能应用更高效、更具成本效益的解决方案。

2024:不再可能区分人工智能和现实

然而,不管Sora有多么神奇,公司外部几乎没有人试用过它——这始终是一个警示信号。

从某种意义上说,OpenAI大可改名CloseAI,尽管其产品的功能强大到足以颠覆我们对世界的看法,但没人告知我们产品的内部运作方式是怎样的。公司外部的人员没有机会研究或测试 Sora,了解它是如何构建的,与以前的产品进行比较也是不可能的。我们只是知道,与大语言模型类似,OpenAI注入Sora的计算能力越强,其输出的质量就越高。

然而它的训练数据是从哪来的呢?公司含糊其词。发言人只是说该模型是根据“经许可的和可公开获取的内容”进行训练的;当被问及潜在危害时,发言人表示公司仍在努力解决“错误信息、仇恨内容和偏见”。所有这些,就像当初ChatGPT问世一样,引发了人们对深度造假、版权侵权、艺术家生计、隐藏偏见等方面极其熟悉但又颇为严重的担忧。

OpenAI表示,“我们从大型语言模型中汲取灵感,通过在互联网规模数据上进行训练来获得通用能力”。所谓“汲取灵感”是对Sora训练数据来源的唯一回避性提及。在论文中,OpenAI进一步指出,“训练文本到视频生成系统需要大量的视频和相应的文字说明”。大量视觉数据的唯一来源可以在互联网上找到,这也暗示了Sora的来源。

此前,OpenAI因使用《纽约时报》文章训练GPT-2和GPT-3未付费而面临诉讼。到目前为止,从整个互联网上搜索训练数据的理由是,这些数据都是公开的。然而“可公开获取”并不总是等同于“公域”。是否有艺术家、摄影师、表演者和电影制片人的作品被用于训练Sora?他们是否允许其创意作品以这种方式被使用?

看起来新的Sora和旧时的GPT在做同样的事情,只不过此次是专门针对视频。也和以前一样,OpenAI对自己的训练模型所依据的数据讳莫如深。

蒙着神秘面纱的Sora也许会成为一台想象引擎,一场电影革命,或者一架视频机器。但眼下最好将其视为一种挑衅或一波广告攻势。在很大程度上,OpenAI不是在发布产品,而是在制造神话。公众所有的看热闹都近似一种狗仔队行为。

所以,尽管我对Sora印象非常深刻,但我并不完全相信这种炒作。需要等到普通人可以使用这个工具,因为现在公众对 Sora的看法是经过精心策划的。OpenAI首席执行官山姆·阿尔特曼(Sam Altman)本人和该公司在新闻稿中分享了最精彩的视频。他们向一小群经过精心选择的用户提供了访问权限。或许可以把这些当作一个“伟大的科技公司产品演示”,而我们并不知道当我们拥有这样的工具时,生成的视频是否会那么好。

在这种情况下,我们不由得担心Sora构建中的安全和伦理考量。一个持久的问题是虚假信息,比如深度伪造。与生成式人工智能中的其他技术一样,没有理由相信文本到视频不会继续快速改进,从而让我们越来越接近难以区分真假的时代。想象一下,这项技术如果与人工智能驱动的声音克隆相结合,是否会在构建那些人们从未做过的事情的深度伪造方面开辟出一条全新的道路?

Sora的视频在描述有大量动作的复杂场景时仍然会出现一些奇怪的故障,这表明这类深度伪造视频目前还可被检测出来。然而长远看,必将出现鱼目混珠的局面。随着Sora在2024年用人工智能生成的视频让世界几乎不再可能区分人工智能和现实,信息时代已经结束,而虚假信息时代正式开始了。

到2030年,大多数人都将知道,使用免费的人工智能工具可以伪造任何视频、任何声音或任何陈述。他们每天都会在网上生成难以计数的虚构,而且其数量在未来的更多年里只会激增。

我们生活在这样的时代,人类知识的总和几乎完全可以从我们口袋里的小装置中获取,但人工智能却有可能毒害这口井。这并不是新鲜事——Sora不是互联网面临的第一个威胁,也不会是最后一个,但它很可能是迄今为止最具破坏性的。

从媒介素养的角度来看,这将使得验证任何用户生成的内容变得极为复杂,因为现在用户可以生成他们想要的任何内容。由于我们现在生活的整个世界都是后真相的,所以很多人致力于在故事中编造虚假的叙述。图像比文本更难,因为你必须具备Photoshop或类似软件的应用知识,它存在进入障碍。而视频是一个更高量级的难点。制作虚假视频需要花费大量时间、专业知识和金钱。但有了Sora及类似应用,现在只需输入提示并获取即可。

这将如何改变新闻业?我相信Sora使各路议程设定者能够生成比过去多得多的内容。而人工智能生成的营销者和影响者内容的爆炸式增长,这可能有效排挤合法的新闻和媒体。

可叹的是,人們对这样的可怕未来不仅浑然不觉,反而拼命欢呼每一波新的人工智能技术浪潮的到来。新技术总是具有天然的眼球吸引力,各种大小媒体的流量追逐并不新鲜。然而,在随波逐流当中,鲜有人分析人工智能报道的框架。有谁在认真对这些技术的工作原理进行澄清吗?存在令人信服的对一些真正离谱的炒作的有力回应吗?

结果是什么呢?公众得到的是科幻版的人工智能故事,最终被排除在围绕伦理、使用和未来工作的重要讨论之外。这一切都在加剧对人工智能理解的好莱坞化。

(作者系北京大学新闻与传播学院教授)

猜你喜欢
人工智能文本模型
一半模型
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
在808DA上文本显示的改善
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
基于doc2vec和TF-IDF的相似文本识别
电子制作(2018年18期)2018-11-14 01:48:06
人工智能与就业
IT经理世界(2018年20期)2018-10-24 02:38:24
数读人工智能
小康(2017年16期)2017-06-07 09:00:59
3D打印中的模型分割与打包
下一幕,人工智能!
南风窗(2016年19期)2016-09-21 16:51:29