吴晓凌
位于旧金山的美国人工智能公司“开放人工智能研究中心”(OpenAI),推出了能够通过文本指令创建视频的生成式人工智能模型Sora。这一突破巩固了其在人工智能领域的领军地位,但也加剧了人们对“深度伪造”等风险的担忧。
这是OpenAI首次进军人工智能视频生成领域。据该公司介绍,Sora使用Transformer架构,可根据文本指令創建近似现实且富有想象力的场景,生成多种风格、不同画幅、时长最长为一分钟的高清视频。该模型还能够根据静态图像生成视频,或对现有视频进行扩展或填充缺失的帧。
一些分析人士认为,Sora再次凸显人工智能技术进步对现实生活和传统行业的深远影响。人工智能在视频生成领域的巨大发展前景,在为塑造影视产业新业态打开大门的同时,恐将颠覆现有影视产业。好莱坞去年遭遇了63年来首次编剧和演员全行业罢工,因为该行业的部分工作机会可能被人工智能取代。Sora横空出世,让这一威胁变得更迫近和真切。其面世第二天,主营图像处理、视频制作软件的奥多比公司(Adobe)股价应声下跌超过7%。
虽不是第一家涉足文本转视频领域的公司,但Sora的推出使OpenAI在这一赛道领先,巩固了其在生成式人工智能领域的领军地位。第三方信息分析机构高德纳咨询公司的分析师钱德拉塞卡兰表示:“在这个领域,没有一家公司比OpenAI更雄心勃勃,且这种雄心似乎有增无减。”
OpenAI称,Sora对语言有着深刻的理解,其不仅了解用户文本提示,还了解所述事物在物理世界中的存在方式。“我们正在教授人工智能理解和模拟运动中的物理世界,目标是通过训练模型,帮助人们解决需要与现实世界交互的问题。”
Sora的发布可谓一石激起千层浪,但此次推出的更像是预览版,公众尚难以全面、深入了解该模型的优缺点。OpenAI表示,目前仅主要向一些设计师和电影制作人等特定人群提供Sora访问权限,以获取有关改进该模型的反馈。公司不仅未公布训练Sora模型的数据等,也没有确定向公众发布的日期。
OpenAI承认,目前Sora生成的视频中可能包含不合逻辑的图像、混淆左右的空间细节,难以准确模拟复杂场景的物理原理和因果关系实例,等等。不过,随着算力增强、模型改进,人们可能会在短期内获得更加完善、先进的视频生成功能。
不少业内人士担心,Sora将为“深度伪造”(Deepfake)技术推波助澜。加利福尼亚大学伯克利分校信息学院副院长法里德就表示:“当新闻、图像、音频、视频——任何事情都可以伪造时,那么在那个世界里,就没有什么是真实的。”
针对造假顾虑,OpenAI称在真正面向公众推出产品时,将确保生成视频包含来源元数据,并推出检测视频真伪的工具。OpenAI还承诺,在产品中使用Sora前将采取安全措施,包括由“错误信息、仇恨内容和偏见等领域的专家”对模型进行对抗性测试,来评估可能造成的危害或风险;核查并拒绝包含极端暴力、仇恨内容,以及他人IP等文本输入提示;等等。
即便如此,OpenAI也承认,尽管进行了广泛的研究和测试,“我们仍无法预测人们将使用我们技术的所有有益方式和滥用我们技术的所有方式”。
在科技领域颠覆式创新不断涌现的情况下,如何实现拥抱技术进步和确保社会安全的平衡,越来越受到各界关注。
OpenAI表示,将与世界各地的政策制定者、教育工作者和艺术家合作,了解他们的担忧,确定Sora的积极使用案例。其认为,从现实世界的使用中学习,是创建和发布越来越安全的人工智能系统的关键组成部分。
业内人士指出,在当下治理框架、管控措施都未跟上的情况下,仅靠企业恐无法提供社会所需的人工智能安全性和信任度。
(选自2024年2月21日《新华每日电讯》,有校改)
阅读点击:请概括应如何规避Sora带来的风险。