Sora横空出世引业内争议不断

2024-03-15 03:40聂蕊

中关村 2024年2期

聂蕊

2月16日，美国人工智能研究公司OpenAI发布了人工智能文生视频大模型Sora，这引起了业界的轰动。一些人在讨论Sora对相关领域可能造成的冲击，也有更多的理性声音坚持走中国自己的AI之路。

“快刷朋友圈，爆了！”2月16日，软件工程师刘先生还在老家享受着春节假期，他的几个AI相关的微信群滴滴滴滴响个不停，大家都在讨论，刚刚发布的Sora样片达到了60秒！刘先生感慨，确实被震撼到了！

2月16日凌晨2点14分，趁着我们过春节，美国人工智能研究公司OpenAI发布了人工智能文生视频大模型Sora，这引起了业界的轰动。因为，这次AI不是生成图片和文本，而是生成长达60秒的视频，逼真程度和现实世界非常接近，可以一镜到底。更令人震惊的是，AI可以对现实的因果关系有理解，生成自己的世界模型，他可以创建自己的世界。Sora的出现，为我们揭示了人工智能的无限可能，也让很多才被ChatGPT惊掉下巴的打工人们再次感到震惊。一些人在讨论Sora对相关领域可能造成的冲击，也有人关心的是，为什么这样的科技创新产品还是出现在美国，中国的人工智能发展更被动了吗？

美国AI更迭之快

梳理过去3年的历史我们发现，3年前的1月，文生图模型Dall-E发布。Dall-E可以根据简单的描述创建逼真和清晰的图像，精通各种艺术风格，还可以生成文字制作建筑物上的标志，并制作同一场景的草图和全彩图像。2年前的2月，Dall-E 2发布。Dall-E 2不仅可以生成更真实和更准确的画像，而且能够将文本描述中的概念、属性和风格等元素综合起来，生成现实主义的图像和艺术作品。

2022年年底，大语言模型ChatGPT发布。ChatGPT不仅能与人对话，还能编写代码、创作内容等，这一款革命性产品的上线引发全球关注，上线仅5天用户数量就已突破100万。2023年3月15日，GPT-4正式面世，GPT-4可以更准确地解决用户的难题，多模态的GPT-4还可以生成、编辑具有创意性或技术性的文章，在高级推理方面的表现超过其前代产品。2023年9月Dall-E 3正式发布。Dall-E 3能够更准确、更优秀地生成效果，可以更准确地呈现用户的想法，用户可以要求ChatGPT提供合适的提示词。

今年2月16日，Sora问世。Sora继承了Dall-E 3的画质和遵循指令能力，可以根据用户的文本提示创建逼真的视频，可以深度模拟真实物理世界，能生成具有多个角色、包含特定运动的复杂场景。

Sora发布引业界热议

Sora发布后，业内人士纷纷发表自己的观点和看法，马斯克、贾扬清、周鸿祎、李志飞等科技人物纷纷下场评论，一些视频、影视、营销从业者也关注起这个新工具，开始关心起自己新的机会和挑战。

360创始人周鸿祎连发6段视频和1篇长文，周鸿祎表示，ChatGPT解决了机器和人之间对话的问题，Sora则是实现了机器对世界的感知、观察和交互的能力，即为人工智能补上了“眼睛”。他认为，OpenAI的文生视频大模型Sora横空出世，使得AGI（通用人工智能）的实现将从十年缩短到两三年。周鸿祎认为，从Sora的发展来看，人工智能发展将经历五大阶段，第一阶段是人工智障阶段，传统AI难理解、难沟通；第二阶段是人工智能入门阶段，这一阶段实现了人与机器的交互，核心是理解语言、思维和逻辑；第三阶段则是通用人工智能阶段，实现了机器与世界的交互，了解世界的运行规律；第四阶段是强人工智能阶段，这一阶段，“附体”汽车和机器人感知物理世界，和人对世界的认知一样；第五阶段是超级人工智能阶段，可以发现总结世界的规律和公式，达到爱因斯坦的水平。他指出Sora可能“颠覆广告业、电影预告片、短视频行业，把电影工业的效率提升100倍”。“Sora最让人惊叹的是，其对物理世界的很多描述符合常识，符合我们对世界的认识。”

争议一直都在。马斯克在社交平台上留下“人类愿赌服输（gg humans）”“人类借助AI之力将创造出卓越作品”等话语。出门问问创始人李志飞在朋友圈感叹：“LLM ChatGPT是虚拟思维世界的模拟器，以LLM为基础的视频生成模型Sora是物理世界的模拟器，物理和虚拟世界都被建模和模拟了，到底什么是現实？”美国旧金山早期投资人Zak Kukoff预测：一个不到5人的团队将在5年内用文生视频模型和非工会的劳动力，制作一部票房收入超过5000万美元的电影。

AI浪潮下，中国企业如何参与？周鸿祎认为，大型互联网公司要继续在通用大模型方面发力，其他公司则应落地应用场景，向企业化、产业化、垂直化发展，toC领域将大模型做小，运行在更多终端，成为私人助理。

实际上，中国的互联网巨头也在AI视频领域发力。百度在AI视频领域推出了AI视频剪辑工具“智剪”，可以帮助用户高效地进行视频剪辑和后期处理；腾讯推出的AI视频增强技术可以对低质量的视频进行智能修复和增强，提高视频的观看体验；阿里巴巴在AI视频领域的研究主要集中在视频推荐和内容理解上。其推出的AI视频推荐系统可以根据用户的观看历史和喜好，为用户推荐个性化的视频内容；字节跳动AI视频领域的进展主要体现在其短视频平台“抖音”上，抖音通过深度学习和自然语言处理技术，实现了视频内容的智能推荐和个性化展示，大大提高了用户体验。

作为全球AI大国之一，虽然目前还不能成为Sora的首发国，但中国AI依然在自己的道路上。去年，人们还在担心中国没有ChatGPT，今年每位国人都能用上文心一言、通义千问等国产大模型。国内在大模型产业落地上频繁发力，大模型已经在解决交通拥堵和生产生活中的实际问题、预测天气、医疗咨询等等。国产大模型应用正在努力让科技进入寻常百姓家。

打造AI大模型创新生态体系

杭州新春第一会上，浙江省委副书记、杭州市委书记刘捷连续两次谈到Sora：“Sora大模型的横空出世，不仅带来很大启发，更大地带来了产业的冲击。”三天后，国务院国资委召开人工智能推进会，明确“央企要把发展AI放在全局工作中统筹谋划”，“加快建设一批智能算力中心”。

中关村科学城管委会专职副主任何建吾表示，作为全国创新策源地，海淀要从算力、数据、算法、框架、场景应用、伦理等多方面出发，打造人工智能产业发展的示范区，并辐射全国。

在2月19日召开的2024海淀区经济社会高质量发展大会上，海淀区政府、京能集团和智源研究院共同签订关于推动人工智能大模型发展的《战略合作协议》。海淀将加快建设、汇聚万P级高性能算力资源（1P约等于每秒1000万亿次的计算速度），在京内及环京地区建设大规模算力中心，并通过人工智能数据开放共享监管沙箱试点、开放应用场景等方式，建设中国人工智能产业高地与示范区。

此外，海淀不断探索数据汇聚共享。积极探索人工智能数据开放共享监管沙箱试点，加快互联网数据、版权数据、公共数据的汇集共享，营造包容审慎创新环境。强化共性技术支撑能力。围绕大模型发展需求，提供多种开源、共性工具，支撑智算集群稳定运行及模型高效训练。