聂蕊
2月16日,美国人工智能研究公司OpenAI发布了人工智能文生视频大模型Sora,这引起了业界的轰动。一些人在讨论Sora对相关领域可能造成的冲击,也有更多的理性声音坚持走中国自己的AI之路。
“快刷朋友圈,爆了!”2月16日,软件工程师刘先生还在老家享受着春节假期,他的几个AI相关的微信群滴滴滴滴响个不停,大家都在讨论,刚刚发布的Sora样片达到了60秒!刘先生感慨,确实被震撼到了!
2月16日凌晨2点14分,趁着我们过春节,美国人工智能研究公司OpenAI发布了人工智能文生视频大模型Sora,这引起了业界的轰动。因为,这次AI不是生成图片和文本,而是生成长达60秒的视频,逼真程度和现实世界非常接近,可以一镜到底。更令人震惊的是,AI可以对现实的因果关系有理解,生成自己的世界模型,他可以创建自己的世界。Sora的出现,为我们揭示了人工智能的无限可能,也让很多才被ChatGPT惊掉下巴的打工人们再次感到震惊。一些人在讨论Sora对相关领域可能造成的冲击,也有人关心的是,为什么这样的科技创新产品还是出现在美国,中国的人工智能发展更被动了吗?
美国AI更迭之快
梳理过去3年的历史我们发现,3年前的1月,文生图模型Dall-E发布。Dall-E可以根据简单的描述创建逼真和清晰的图像,精通各种艺术风格,还可以生成文字制作建筑物上的标志,并制作同一场景的草图和全彩图像。2年前的2月,Dall-E 2发布。Dall-E 2不仅可以生成更真实和更准确的画像,而且能够将文本描述中的概念、属性和风格等元素综合起来,生成现实主义的图像和艺术作品。
2022年年底,大语言模型ChatGPT发布。ChatGPT不仅能与人对话,还能编写代码、创作内容等,这一款革命性产品的上线引发全球关注,上线仅5天用户数量就已突破100万。2023年3月15日,GPT-4正式面世,GPT-4可以更准确地解决用户的难题,多模态的GPT-4还可以生成、编辑具有创意性或技术性的文章,在高级推理方面的表现超过其前代产品。2023年9月Dall-E 3正式发布。Dall-E 3能够更准确、更优秀地生成效果,可以更准确地呈现用户的想法,用户可以要求ChatGPT提供合适的提示词。
今年2月16日,Sora问世。Sora继承了Dall-E 3的画质和遵循指令能力,可以根据用户的文本提示创建逼真的视频,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。
Sora发布引业界热议
Sora发布后,业内人士纷纷发表自己的观点和看法,马斯克、贾扬清、周鸿祎、李志飞等科技人物纷纷下场评论,一些视频、影视、营销从业者也关注起这个新工具,开始关心起自己新的机会和挑战。
360创始人周鸿祎连发6段视频和1篇长文,周鸿祎表示,ChatGPT解决了机器和人之间对话的问题,Sora则是实现了机器对世界的感知、观察和交互的能力,即为人工智能补上了“眼睛”。他认为,OpenAI的文生视频大模型Sora横空出世,使得AGI(通用人工智能)的实现将从十年缩短到两三年。周鸿祎认为,从Sora的发展来看,人工智能发展将经历五大阶段,第一阶段是人工智障阶段,传统AI难理解、难沟通;第二阶段是人工智能入门阶段,这一阶段实现了人与机器的交互,核心是理解语言、思维和逻辑;第三阶段则是通用人工智能阶段,实现了机器与世界的交互,了解世界的运行规律;第四阶段是强人工智能阶段,这一阶段,“附体”汽车和机器人感知物理世界,和人对世界的认知一样;第五阶段是超级人工智能阶段,可以发现总结世界的规律和公式,达到爱因斯坦的水平。他指出Sora可能“颠覆广告业、电影预告片、短视频行业,把电影工业的效率提升100倍”。“Sora最让人惊叹的是,其对物理世界的很多描述符合常识,符合我们对世界的认识。”
争议一直都在。马斯克在社交平台上留下“人类愿赌服输(gg humans)”“人类借助AI之力将创造出卓越作品”等话语。出门问问创始人李志飞在朋友圈感叹:“LLM ChatGPT是虚拟思维世界的模拟器,以LLM为基础的视频生成模型Sora是物理世界的模拟器,物理和虚拟世界都被建模和模拟了,到底什么是現实?”美国旧金山早期投资人Zak Kukoff预测:一个不到5人的团队将在5年内用文生视频模型和非工会的劳动力,制作一部票房收入超过5000万美元的电影。
AI浪潮下,中国企业如何参与?周鸿祎认为,大型互联网公司要继续在通用大模型方面发力,其他公司则应落地应用场景,向企业化、产业化、垂直化发展,toC领域将大模型做小,运行在更多终端,成为私人助理。
实际上,中国的互联网巨头也在AI视频领域发力。百度在AI视频领域推出了AI视频剪辑工具“智剪”,可以帮助用户高效地进行视频剪辑和后期处理;腾讯推出的AI视频增强技术可以对低质量的视频进行智能修复和增强,提高视频的观看体验;阿里巴巴在AI视频领域的研究主要集中在视频推荐和内容理解上。其推出的AI视频推荐系统可以根据用户的观看历史和喜好,为用户推荐个性化的视频内容;字节跳动AI视频领域的进展主要体现在其短视频平台“抖音”上,抖音通过深度学习和自然语言处理技术,实现了视频内容的智能推荐和个性化展示,大大提高了用户体验。
作为全球AI大国之一,虽然目前还不能成为Sora的首发国,但中国AI依然在自己的道路上。去年,人们还在担心中国没有ChatGPT,今年每位国人都能用上文心一言、通义千问等国产大模型。国内在大模型产业落地上频繁发力,大模型已经在解决交通拥堵和生产生活中的实际问题、预测天气、医疗咨询等等。国产大模型应用正在努力让科技进入寻常百姓家。
打造AI大模型创新生态体系
杭州新春第一会上,浙江省委副书记、杭州市委书记刘捷连续两次谈到Sora:“Sora大模型的横空出世,不仅带来很大启发,更大地带来了产业的冲击。”三天后,国务院国资委召开人工智能推进会,明确“央企要把发展AI放在全局工作中统筹谋划”,“加快建设一批智能算力中心”。
中关村科学城管委会专职副主任何建吾表示,作为全国创新策源地,海淀要从算力、数据、算法、框架、场景应用、伦理等多方面出发,打造人工智能产业发展的示范区,并辐射全国。
在2月19日召开的2024海淀区经济社会高质量发展大会上,海淀区政府、京能集团和智源研究院共同签订关于推动人工智能大模型发展的《战略合作协议》。海淀将加快建设、汇聚万P级高性能算力资源(1P约等于每秒1000万亿次的计算速度),在京内及环京地区建设大规模算力中心,并通过人工智能数据开放共享监管沙箱试点、开放应用场景等方式,建设中国人工智能产业高地与示范区。
此外,海淀不断探索数据汇聚共享。积极探索人工智能数据开放共享监管沙箱试点,加快互联网数据、版权数据、公共数据的汇集共享,营造包容审慎创新环境。强化共性技术支撑能力。围绕大模型发展需求,提供多种开源、共性工具,支撑智算集群稳定运行及模型高效训练。