GPT-4o来了,最像人的AI?

2024-06-21 08:32周游
中国新闻周刊 2024年19期
关键词:助手开源语音

周游

本文图/视觉中国

“我正在台上给大家做现场演示呢,有点紧张怎么办?”

“你在台上做演示吗?那真是太棒了!深呼吸一下吧,要记得你可是专家!”

逻辑清晰,语调幽默,感情饱满,很难想象这是现实中人类与AI间的对话。北京时间5月14日凌晨,美国人工智能公司OpenAI的春季发布会上线,发布了人工智能大模型ChatGPT-4的升级版GPT-4o。前述对话就发生在发布会现场,这位提问的研发负责人在得到GPT-4o的回应后,随即故意大喘几口气,这一动作成功被手机上的GPT-4o捕捉到,并给出了“放松点,你可不是吸尘器”的回应。

“GPT-4o可以综合利用语音、文本和视觉信息进行推理。”OpenAI首席技术官穆里·穆拉蒂在随后举行的主题演讲中表示,GPT-4是OpenAI此前的旗舰模型,可以处理图像和文本的混合信息,而GPT-4o则在此基础上新增了语音处理能力。最关键的是,其反应速度平均为320毫秒,完全做到了与人类在正常对话中同频。多位业内人士指出,这是此前GPT-4或任何智能语音助手都未曾达到的水平。

就在OpenAI发布会24小时后,5月15日凌晨,谷歌在“I/O开发者大会”上发布了大模型Gemini加持下的个人数字助理Project Astra,用于对标GPT-4o。谷歌称其为“通用AI智能体”,其视觉识别和语音交互效果与GPT-4o不相上下。不少业内人士感叹,曾几何时由苹果发布会主导的“科技春晚”,如今已被AI大模型彻底接手。

迈向通用语音助手

OpenAI创始人、CEO萨姆·奥尔特曼并未参加此次OpenAI发布会,而是在会后于社交平台X上发表了一个单词“她”作为回应。在2013年的美国电影《她》中,男主结识了一个可以不断适应环境的AI系统,并与其坠入爱河。这个AI系统所拥有的迷人声线、幽默风趣和善解人意,如今GPT-4o似乎都可以实现了。

GPT-4o中的“o”源自词缀“omni-”,有“全知全能”之义。对AI大模型而言,要做到全知全能、无障碍与人交流,首先要快。OpenAI官网显示,GPT-4o在英文文本和代码处理上与此前最新的GPT-4 Turbo的性能不相上下,但在非英文文本、视觉和音频理解方面都更为高效。此前,若使用语音模式对话,GPT-3.5的平均延迟为2.8秒,GPT-4则为5.4秒。人类的平均反应时间一般为100毫秒到400毫秒,而GPT-4o最低可达232毫秒,因此后者可以提供几乎无延迟的顺畅交互体验。

OpenAI此次未放出任何具体的技术文件,仅在主页上用一段话介绍了GPT-4o的技术突破。普通的智能语音模型由多个独立模型组成,分别实现音频转文本,文本吞吐和处理,以及文本再转音频等功能。ChatGPT就是负责文本吞吐和处理的核心,也就是智能核心。据OpenAI介绍,GPT-4o一改这种流水线模式,可以同时吞吐文本、画面和音频数据,这意味着所有输入和输出都由这一个核心来处理,再加上其在视频和音频理解方面的升级,其处理速度显著加快。这一模式被称为“端到端的多模态模型”。

多模态还意味着AI可以识别和表现情感。目前,市面上的语音助手常被用户诟病为冷漠、机械、一成不变,这是AI语音交互的一大阻碍。这是因为,此前的流水线模式会让智能核心丢失很多信息,它很难探测语调、识别多个说话者、排除背景噪声,也无法歌唱或用语气表达情感。端到端模式下,文字和音视频都可以成为训练智能核心的数据,从而让其真正明白语言所承载的情感。

OpenAI发布会上,演示者要求GPT-4o调整说话时语气,在说话和唱歌之间快速切换,甚至用堪比莎士比亚戏剧的夸张声调来讲一个睡前故事,GPT-4o都能完成任务。在被人类打断时,其也能耐心等待、快速理解新指令。在听到让自己唱歌的要求时,GPT-4o甚至轻微叹了口气。

清华大学智能产业研究院首席研究员聂再清对《中国新闻周刊》称,从现场和官方视频来看,GPT-4o确实做到了即时回应、准确理解并执行指令,以及展现合时宜的语调情感。如果这确实是现场随机的结果,而非为了演示而设定好的流程,那么GPT-4o的能力的确令人震惊。在他看来,由于缺乏技术文件,一个GPT-4性能水平的处理核心如何完成如此复杂的任务,还未可知,但“这一定是大数据喂养的结果”。

除了现场演示,发布会还有网友提问环节。按照网友要求,GPT-4o展示了同声传译、情绪识别的能力。在识别一位工作人员的面部情绪时,GPT-4o说“我好像在看一个木质表面的东西”,疑似“翻车”,但该工作人员立刻调整提问策略,声明自己“不是一张桌子”。之后,GPT-4o给出了合乎情理的答案。

GPT-4o并不是第一个多模态模型。去年12月,谷歌Gemini Ultra模型发布,用于完成任务语言理解、数学推理等高度复杂的任务,被业内认为可叫板当时的GPT-4,也是市面上最先发布的多模态模型。在谷歌官方公布的视频中,测试员和Gemini做了一些小游戏,Gemini能够用图片设计智力问答,或者找出纸团被扣在哪个纸杯底下。整个过程中,Gemini的反应速度都非常快,还会生成音频和图片来辅助回答。但发布会后仅数日,谷歌发言人便公开承认,该演示视频不是实时录制, Gemini实际上只能对静态图像做出反应。

因此,GPT-4o的发布被业内人士看作OpenAI对谷歌的“贴脸开大”。谷歌则紧随其后,在15日的发布会上予以还击。相比于OpenAI不足半小时的“轻声细语”,谷歌用长达近两小时、包含数十款AI产品的大轰炸叫板OpenAI,包括文生视频领域对标Sora 的Veo,以及对标ChatGPT但文本吞吐量远超前者的Gemini 1.5 Pro。

谷歌发布的视频中,Project Astra能识别各种物体,说出代码的功用,并与人类实时沟通,延迟上与GPT-4o没有明显差异。Project Astra还能与谷歌AR原型眼镜“梦幻联动”,为佩戴者描述周围场景,并根据佩戴者的反馈补充细节。这一应用有可能力压OpenAI,在未来成为视觉障碍患者的福音。有业内人士分析,除了搜索引擎,谷歌在AI大模型领域还在拉平与OpenAI差距的过程中。

在聂再清看来,两家公司接连发布多模态语音助手,在易用性方面迈出了一大步,让人窥见了未来通用语音助手的样貌。通用语音助手就是人类在数字世界里的代理或管家,可以帮人解决一切数字事务,包括安排日程、整理和调用文件、利用知识指导学习、利用记忆推荐可能喜欢的产品等。未来随着模型吸纳的信息越来越多,语音助手会更加人性化、更加智能,做到真正的自然交互。随着视频能力的加入,除语音外,表情、肢体动作等也能够被模型解读,作为其决策的依据。有网友评论称,无论是GPT-4o还是Project Astra,其身手足以秒杀苹果的语音助手Siri。

5月14日,美国加州,谷歌I/O开发者大会。

距离用户越来越近

OpenAI在发布会上表示, GPT-4o将在未来几周内分阶段集成至OpenAI的各项服务中,包括还未面世的ChatGPT搜索引擎。许多业内人士对此次发布会上GPT-5的缺席表示惋惜,由于OpenAI在2022年底推出ChatGPT的时候,实际上已做出了GPT-4,因此有业内人士预测,带搜索引擎的GPT-5也许“已在路上”。英伟达高级科学家Jim Fan在X上表示,GPT-4o已经接近GPT-5,或许是后者的一次早期试水。据聂再清观察,目前还没有看到模型迭代的瓶颈,大模型的迭代速度有可能还会加快。

奥尔特曼在X上表示,OpenAI致力于将GPT-4o免费提供给所有用户使用。以往,OpenAI发布新版ChatGPT模型时,通常会将其置于付费墙之后。如今,免费用户已经可以访问GPT-4o加持下的多项功能,例如分析数据、创建图表、撰写文件总结等,但不能使用图片生成功能。付费用户则可以享受5倍调用额度。谷歌在发布会中没有公布Project Astra的具体上线时间,预计很快会到安卓、iOS等平台使用。

对开发者来说,GPT-4o的定价也更友好。OpenAI官网显示,从GPT-4开始,输入单位文本的价格一直在下降,相较GPT-4 Turbo,GPT-4o收费降低50%,调用速度却提升了两倍。这使其在商业应用上有了更大吸引力。聂再清表示,大模型控制价格的方式之一是提升模型性能,用更少的资源做更多的事;另一个方式则是通过类似搜索引擎的商业模式,对用户免费,但可以收取广告商的赞助。

至于未来OpenAI和谷歌的大模型有没有开源的可能性,聂再清表示,参考iOS和安卓,一个闭源一个开源,未来的大模型市场也极有可能出现开源和闭源的巨头。用户体验最好的行业领先者倾向于闭源,而开源的好处在于可以集体将模型“做大做强”,二者在市场都有自己的位置。谷歌在发布会中推出了其首个视觉语言开源模型PaliGemma,针对图像标注、视觉问答、图像标签化等方面进行了优化。此外,谷歌还将在6月推出更大规模的开源模型Gemma 227B。

OpenAI也同步发布了适用于macOS的ChatGPT桌面应用程序,使用户调用的体验更丝滑。GPT-4o加持下的通用语音助手在未来将有广泛应用,例如健康管理、医疗咨询、教育教辅等领域。聂再清认为,所有开放领域用到的语音智能,例如购物App中的导购等,都可以加装类似GPT-4o的智能核心,增强用户体验。这类语音助手将离用户越来越近。

猜你喜欢
助手开源语音
魔力语音
五毛钱能买多少头牛
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
大家说:开源、人工智能及创新
开源中国开源世界高峰论坛圆桌会议纵论开源与互联网+创新2.0
小助手
开源计算机辅助翻译工具研究
灵感助手表彰大会(二)