“数字人”狂飙

2023-11-11 16:04王小豪
南风窗 2023年23期
关键词:扎克真人主播

王小豪

最近在科创界,先后出现了两件令人惊奇的新闻,都与“数字人”有关。

第一件是ChatGPT推出了真人语音功能,它能够扮演5个不同的角色来回答用户的问题。和Siri等语音助手不同的地方在于,它的回答更加自然,甚至还会出现停顿、语气词,口水音,和正常人类说话没什么两样。如果不事先知道这个声音来自AI,很难分辨得出来。

另一件事情,是扎克伯格接受了一場特殊的采访,他和视频博主Lex Fridman戴上了最新版的Quest Pro头显,进入Meta的元宇宙中,用各自的虚拟形象进行交谈。令人啧啧称奇的是,他们在元宇宙里的脸孔形象,已经与他们的真实模样相差无几,微笑、咧嘴、皱眉等细微表情都能得到细致还原。

这不得不让人惊叹,毕竟一年前扎克伯格在元宇宙展示出来的虚拟分身,还是个像“小丸子爷爷”那般简陋的卡通形象,当时还受到了舆论群嘲。仅一年的时间,他就拥有了一个超越“恐怖谷”效应的元宇宙版本的“自己”。

这两则新闻,一则指向了AI的拟人化,一则指向了人类的虚拟化,看起来是截然不同的方向,但这两条路径的目标显然是一致的—在虚拟世界复刻真实的人类生活,而不论这个“人”该如何定义。

生成式AI+数字人

扎克伯格的这场元宇宙访谈,谈到了两个细节,可以作为我们讨论“数字人”的引子。

首先是他逼真的虚拟形象。他解释道,自己的虚拟形象采用的是目前最先进的脸谱扫描技术,需要通过几百个相机进行长达数小时、360度无死角的扫描才能实现。但他的团队正在努力缩短这个流程,未来让用户只需要拿起手机在脸上晃几分钟,说几句话,做几个表情,就可以扫描一个高精度的人像模型。

其次,在扎克伯格的设想中,这项技术与AI的联系非常紧密,他希望将两者结合起来,打造具有自主思维和逼真形象的“数字人”,为人们提供社交、游戏等服务。

他谈到的这两点,基本上涵盖了当前“数字人”在技术上的研发要点:“拟真度”和“互动能力”。我们先从“拟真度”谈起,这个领域可以分为两种技术方向,以Meta为代表的走的是“还原”路线,旨在尽可能地复刻真人相貌,令其充当替身。另一种方向则是创造全新的脸孔,在这条路径里,三星旗下的STAR Lab在2020年发布的“neon数字人”便提供了很好的示范。

Neon数字人最令人惊叹的地方是,它的样貌、行为乃至思维习惯和真人别无二致,它有着真人比例的大小,形态各异的造型,活动起来就像是在看一段真人录制的视频。但区别在于,这些脸孔都是“原创”的。更新奇的地方是,每个“neon数字人”还有着自己的脾性,它可以从事瑜伽教练、接待员、客服助手等工作,但也会因为长时间“打工”而感到厌倦。

简言之,它不是语音助手,而是“虚拟人类”,如果对他不好,他可是会闹脾气的。

在“互动能力”方面,应该说,以ChatGPT为代表的生成式AI的飞跃式发展,让业界真正看到了创造智能化“数字人”的希望。在此之前,并没有多少企业或机构把可交互性当作“数字人”的研发重点。

对“数字人”的研发最早可以追溯到上世纪80年代,从日本的动漫、宅文化中衍生出来的二次元“虚拟偶像”。1982年,日本动画《超时空要塞》的女主角林明美被制作成首个虚拟偶像歌手。2007年,初音未来诞生,并采用全息投影技术举办了全球首个“虚拟偶像”演唱会。

此后,随着数字建模技术的进步,业界才逐渐走向真人化“数字人”的研发。追求形体的拟真,是“数字人”由来已久的研究方向,而且在电影、游戏、音乐等行业有着真切的商用需求。但这一方向走到底,最多也只能做到外表上的百分百相同,但它的交互要么依赖真人,要么非常程式化。尽管三星开发的“neon数字人”形象极为逼真,但官方展示出来的“数字人”都经过预渲染处理,实际上临场交互能力达不到宣传的高度。

直到生成式AI技术的崛起,开发“数字人”的独立交互能力,才真正有了技术基础。

斯坦福大学的研究者们创建了一个名为Smallville的虚拟小镇,在里面植入了25个AI像素人,他们在里面工作、社交、甚至举办情人节派对,看起来像极了AI版的《星露谷物语》。

英伟达在把自己开发的游戏AI智能体“voyager”接入GPT-4后,他们甚至可以自行在游戏里挖矿、建造房屋,进行远程探险。

AI的拟人化、人类的虚拟化,看起来是截然不同的方向,但这两条路径的目标显然是一致的—在虚拟世界复刻真实的人类生活。

设想一下,如果把Smallville里的像素小人替换成真人形象数字人,那么就是扎克伯格所畅想的元宇宙图景了。不妨大胆想象,如果未来两个“i人”在元宇宙里见面,尴尬得不知道聊点什么时,可以召唤一个“e人”性格的AI数字人出来活络气氛,充当社交润滑剂。

而生成式AI与游戏NPC的合体,无疑将使游戏玩家们的体验上升一大截,与具有独立思考能力的NPC进行互动,在游戏体验上肯定比现在程式化的设计要好得多。

也难怪已经“All in 元宇宙”的扎克伯格,在不久前的2023财年第三季度财报电话会议上表示,AI技术将成为Meta在2024年最大的投资领域。

就像“互联网+”改变了各行各业一样,生成式AI也可以“+”任何事情,包括赋予“数字人”以灵魂。

赶早集的直播行业

如果说先进的科研机构、科技巨头还在琢磨怎么“创造人类”,那么讲究实用的业界,已经把一些更为粗糙、简陋的“数字人”应用到了商业领域。

应用最广泛的便是直播行业。如今,“数字人”主播已经十分普及,在抖音、快手等短视频直播平台,很多在镜头前滔滔不绝、兜售商品的主播,其实是“数字人”。

这些直播间里的“数字人”的外观五花八门,有2D、3D的二次元人物,也有仿真人、真人建模等走现实主义的“数字人”。其内里的“灵魂”,可能来自后台的真人,也可能是根据文字生成的语音,再高级点的则用上拟真的声线。

这些“数字人”的制作过程也不复杂。如果是“拷贝”一个真人形象,通过动作捕捉技术,只需要主播在绿幕前穿上几件出镜用的衣服,记录下一些常用动作、手势,就可以在不到5分钟的时间里制作出一个足以“以假乱真”的分身。

有up主曾在自己的视频栏目里做过测试,在视频播出了近5分钟后,他才以真人面目出现,告诉观众们前面出镜的其实是“数字人”版的自己,而几乎没有观众发现异样。

更高级一些的技术,还能在仿真的基础上任意地改变自己的外貌特征,让自己看起来更年轻或者更成熟,如果愿意的话,可以一直保持在“冻龄”状态。

如果要求低一些,还可以用一些“公模”,笔者在进行研究时,选择了腾讯智影这款数字人播报产品进行体验,它默认提供了几个人物形象,只需要在右侧的文字框输入想要生成的语音文字,随后点击“合成视频”,稍等片刻,就可以得到一段带有“真人播报”的视频。

细看还是能看出异样,例如脸部与身体的衔接有点不自然,肢体动作也比较简单,看上去有点像掉帧的画面。在声音方面则是和我们在地图导航中听到的差不多,虽然为了逼真一些,可以在文本中插入“停顿时间”,但无法与ChatGPT极为逼真的口语表达相比拟。

虽然说这些“数字人”的形态比较粗糙,无法还原真实人类的相貌体态,口型也经常对不上,但在手机这样的狭小屏幕内,对精度的要求并没有那么高,这点瑕疵无伤大雅。

和真人主播相比,这些“数字人”主播最大的优点在于不用休息,可以24小时不间断地直播,还不需要场地、摄影器材和人力投入。

此外,制作这些“数字人”主播的成本差异很大,上至几十万,下至几百元,从便宜的2D形象到精细的真人“拷贝”,完全丰俭由人。平均下来,“数字人”主播的成本不及真人主播的几十分之一。

从最终的效果来看,观众也为这些“数字人”主播买单,例如,在拼多多的特步直播间里,数字人主播日均GMV约为4.1万元。甚至有的“数字人”主播的日均成交额比真人主播还高。

商业上的前景,极大地推动了这一行业的发展。据数据统计,仅2022年,数字人相关企业注册数量就高达948家,增速68%,已然成为一个新的风口。

AI发展需要“数字人”

站在当下这个时间点,我们还很难定义“数字人”究竟是什么,因为它们的形态各异,外在形式与内在逻辑也各不相同。

从已经实现的程度来看,它更像人的“虚拟外壳”,这个外壳形态各异,但仍依赖人的思维进行驱动。但从研究重点与发展潮流来看,它必然会在生成式AI的加持下,走向发展出独立行为逻辑的智能体的路径,實现自我驱动。

对人的形象,特别是脸孔的确认,既是亲密感产生的重要方式,也是信任关系得以建立的前提,而无论这个形象是否真实存在。

那么我们该如何看待生成式AI与“数字人”之间的关系?

从功能上看,毫无疑问是生成式AI促进了“数字人”的发展,推动其从低级迈向高级。如果它现在是有效率的生产机器—制造永不停歇的人类形象,用来带货、讲课、表演,带来商业、文化、娱乐等方面的价值,那么未来,它将成为人们投射情感,满足陪伴需求的对象,甚至参与到人与人的交往中,成为关系网络的有机组成部分。

但是,生成式AI与“数字人”之间的关系可能并不是简单的单向关系。

站在用户角度,“数字人”的内在是否具有“灵魂”,可能并不是最重要的事情,毕竟当前流行于直播间里的粗糙版本,也有不少受众,甚至已经培育出了一个日益成熟的行业。

另一方面,生成式AI的核心能力—输出“原创文本”,并不因套上一个人类的外壳而变得更加先进。

因此,反过来思考这个问题,可能有助于我们厘清两者的关系:把AI智能体加载在“人类形象”上的必要性在哪里?

答案或许就在“人类形象”本身。在现实生活中,很多关键的互动,都是在人与人的直接接触时完成的。

设想一下,如果一个直播间没有主播在场,而只有声音在飘荡,其实很难建立起主播与观众之间的情感联系,也会给人一种很不踏实的感觉。

对人的形象,特别是脸孔的确认,既是亲密感产生的重要方式,也是信任关系得以建立的前提,而无论这个形象是否真实存在,毕竟人们可以把自己的情感投射到电影、游戏、动漫等虚构角色里去,从这个角度来说,具象比真实更为重要。

这种“面对面”效应,在人与AI的互动里同样存在。对于AI这样一个“多智而近妖”的智能体来说,无论它能够实现什么样的功能,赋予它一个“脸孔”,使它在最自然、熟悉的情景下与人互动,才能让它的本领最大化地发挥。

就好比在元宇宙的世界里,我们不会希望由一个伫立着的黑色石碑来担任指导,它的神秘气息只会让我们觉得自己是《2001太空漫游》里的猿人。

从这个意义来讲,成为“数字人”,或许是AI更进一步发展的必然之路。

猜你喜欢
扎克真人主播
James Legge’s Translating Chinese Classics into English:An Examination of Translational Eco-environment and his Multidimensional Adaptive Selection
第一次做小主播
冬天的画稿
Imaginations and Reimaginations of National Origin—A Case Study of the Two Times that the Gaxian Cave was Discovered
我是小主播
小刺猬的水果梦
传播真相 追求真理 涵育真人——我的高中历史教育之梦
我是小主播
我是小主播
扎克伯格写给初生女儿的信