2月16日,曾以大模型ChatGPT震惊全球的人工智能科技公司OpenAI时隔约一年再次祭出新“王炸”——文生视频大模型Sora。只需向其輸入一段文本指令,即可生成一段60秒的视频,画面效果精致细腻,几可乱真。
从生成文本、图片,到如今的视频领域,业内不禁惊呼:“AI成长速度比想象中更快!”有人对此振奋,认为Sora的出现或意味着通用人工智能的实现时间大幅缩短。也有人表达担忧:“我们是否真的准备好了?”但无论如何,一场由AI领衔的“新工业革命”浪潮的气息似乎已扑面而至。
Sora何以惊艳全球?事实上,它并非首个文生视频大模型。此前,科技巨头谷歌,创业公司Runway、Pika Labs等都已布局这一赛道,也有相关应用问世。但相比此前发布的应用,Sora将生成视频的时间大幅延长至60秒,其画面在细致逼真、流畅程度、三维空间多角度呈现等方面也有明显提升。
Sora的横空出世让AI浪潮更直接地席卷至视频领域。“太震撼,感觉要丢饭碗了。”北京某文化传播有限公司创始人胡娟坦言,自己的公司专注拍摄企业宣传片、广告片、短视频等,Sora让她危机感陡增,“这些可能变成AI学习的样板,一些复杂的特效制作,以前工期至少得好几天,但AI将其缩短到了几分钟。”开设了个人工作室的摄影师李浩楠也认为,Sora对影视相关的产业影响比较大,能大幅拉低制作成本,特别是涉及多角度多机位的视频,如果AI能够部分替代人工拍摄和剪辑,“成本可能只要原有的十分之一”。
Sora的技术突破也让大大小小生成式AI创业公司和投资机构的前景变得充满挑战。某专注全球早中期企业的风投公司运营合伙人罗超表示,Sora表现出的领先性让Runway、Pika Labs等视频生成大模型明星公司面临强烈冲击,而相比这些自研大模型的公司,纯做应用的创业公司则更加前途未卜。在AI生成视频应用和技术服务商新壹科技CEO雷涛看来,Sora的诞生,无疑会改变AI视频生成市场格局。“就国内而言,要看哪些企业能结合、利用新技术,完善符合国情的产品,比如提供定制化的视频生成服务、跨业态合作等。”
而跳出视频领域,更为深广的变革也已大步向前。
小狗在雪地玩耍溅起纷飞的雪粒,毛茸茸的毛发根根分明、随风浮动;咖啡杯里,一只帆船掀起翻涌的波浪水纹;不同角度的街景通过运镜流畅地呈现……在Sora此次展现的一批生成视频样本中,360集团创始人周鸿祎谈到了几个让他印象深刻的镜头,“我们知道动物的毛发、水波纹等,在传统的3D建模中是非常复杂的,需要耗费大量的人力和时间去制作,但Sora为什么能够如此快速地生成?”
对此,周鸿祎提出了自己的猜想。他认为,Sora或已经具备了“观察并模拟世界的能力”。“就好像一位人类画师,他脑海中有着对世界的认知,就可以画出来,而不需要通过每根毛发、每个点去建模。”
基于这种猜测,周鸿祎认为Sora的颠覆性绝不仅仅限于一个文字生成视频的工具,而是通用人工智能对世界的理解又一次得到了突破。一年前,ChatGPT标志着人工智能对人类语言和知识的理解达到了一个突破点。而除此之外,这个世界还有很多规律,例如小狗拱雪雪会留在鼻子上、无人机在空中飞时视角如何变换等,而Sora目前生成的视频,显示它对这个世界的规律有了更为完整的了解。而这意味着,通用人工智能时代或将加速到来。
Sora的出现也引发了国内许多业界人士的担忧,“中美AI领域差距进一步拉大”成为Sora问世后的伴生话题。周鸿祎认为,“OpenAI训练的Sora应该会阅读大量视频。一幅图胜过千言万语,而视频传递的信息量又远远超过一幅图”,因此Sora的出现可能意味着通用人工智能“真的就不远了”,“不是10年、20年的问题,可能一两年很快就可以实现”。他表示,尽管国内大模型发展水平表面看已经接近GPT3.5,但实际上跟4.0比还有一年半的差距。从现在来看,OpenAI手上除了GPT5之外,可能还有一些“秘密武器”没有亮出来。“中国和美国的AI差距可能不但没有缩小,反而在加大。”
新智元创始人杨静认为,Sora的震撼给我们三个提醒。第一是在算法方面,OpenAI在攻破语言和视觉两个堡垒后,即将向通用人工智能发起最后挑战;一旦实现超级人工智能,加上生成式的AI世界,人类整体的权重都将降维。第二是在算力方面,OpenAI公布筹资7万亿美元建立芯片帝国的计划,这笔巨款相当于美国GDP的1/4,或许将确立垄断全球算法与算力的AI霸主地位。第三是在数据方面,微软此前为OpenAI提供了5000亿视频用于Sora训练,未来还将有更多海量数据涌入,又有更多视频生成。
中国人工智能专家吴甘沙表示,目前AI领域的竞争格局是OpenAI公司“一骑绝尘”。无论是谷歌的Gemini、创业公司Runway和Pika,还是中国的顶尖公司,都要奋起急追,不然差距会越来越大。他认为,中国要在AI领域追赶,首先是依靠人才,确保与世界顶尖水平的交流,鼓励人才高密度聚集。“美国大模型相关的大公司加创业公司可能就一二十家,而中国有几百家,人才太分散”。其次是不能太短视,要允许失败,给予足够的发展时间。再次是不要过度监管,宽进严出,让不完全成熟的技术通过不断反馈得以提升。同时算力也是AI发展的稀缺资源,更不应该太分散了。
雖然惊艳,但Sora目前生成的展示视频仍有不少“穿帮”镜头。比如,在展示一名老奶奶吹蜡烛的视频中,老奶奶吹气后蜡烛却没有熄灭;在另一段玻璃杯从空中坠落的视频中,玻璃杯被抬到半空时,桌上就已经有水流出来了。
北京邮电大学人机交互与认知工程实验室主任刘伟曾多次参加中美之间的人工智能技术官方和学界层面对话,他告诉记者,在这些对话活动中有一个深刻感触就是“中美学者对于两国人工智能技术发展的认识趋同”。大家普遍认为,美国在AI技术的软件和硬件上更具领先优势,而且这个优势还有进一步扩大的趋势;但在技术应用和数据收集方面,美国学者坦言中国更具优势,而在AI领域,“大数据正好是辅助决策模型的重要组成部分”。
此外,在人机协同和人机融合领域,中美技术能力旗鼓相当。“这也是美国三番五次与中国开展人工智能技术对话的原因之一,双方实力相当,才有对话的意愿,美国方面也很担心我们在人机协同上实现重大突破,从而占据领先地位。”
虽然惊艳,但Sora目前生成的展示视频仍有不少“穿帮”镜头。比如,在展示一名老奶奶吹蜡烛的视频中,老奶奶吹气后蜡烛却没有熄灭;在另一段玻璃杯从空中坠落的视频中,玻璃杯被抬到半空时,桌上就已经有水流出来了。
这也是目前这一大模型所展现出的明显短板——不懂物理世界。对于这一弱点,OpenAI也不避讳,坦言Sora可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。“我们正在教AI理解和模拟运动中的物理世界。”OpenAI称,他们的目标是训练模型,从而帮助人们解决需要现实世界交互的问题。
从GPT到Sora,AI的成长速度让人惊叹。而面对可能袭来的“新工业革命”,我们真的准备好了吗?在中国政法大学传播法研究中心副主任朱巍看来,大模型所生成的视频代表着AI对这个世界规律的理解,但这不一定都是正确的,因此也让“眼见不一定为实”。根据此前国家网信办等部门发布的《生成式人工智能服务管理暂行办法》,AI生成视频应进行相关标识,以免形成误导。此外,创作者仅用一段文字就能生成视频,极大地降低了视频制作门槛,这一视频的版权归属等问题也需要重新梳理界定。