朱奕帆,许 鑫,张昫频
虚拟数字人深度产业报告显示,到2030年我国虚拟数字人市场规模预计将达到2700亿元,其中数字人被认为是元宇宙的入口和目前最确定的赛道之一。数字人不同于医学意义上的碳基人,一般指存在于元宇宙的硅基人,它由0和1构成,没有生老病死的困扰;与机器人相比,它暂不具有实体;它与自然人不同,在法律上尚未明确定义。
数字人的兴起伴随着诸多质疑:数字人的真实表现如何?用户能否接受数字人?用户能否感知数字人的作用?针对目前市场缺乏数字人评价体系的困境,本研究尝试基于用户感知理论,构建一种能够多维度对比数字人的测评模型,并从用户视角解读数字人的发展现状,发现其优势与不足,以期对数字人发展提供参考。
“元宇宙”(Metaverse)一词本身源于尼尔·斯蒂芬森小说《雪崩》(Snow Crash)。元宇宙概念的发展历史悠久,最早可追溯至远古壁画。在中国古代,庄周梦蝶、世外桃源,古人从梦境和想象空间中汲取智慧和力量,表达人们对“平行世界”的美好想象。近年来,阿凡达、漫威等通过CG和动作捕捉技术构建电影世界,《黑客帝国》讲述了人类文明与机器文明共存、现实与虚拟交织的世界。堡垒之夜、我的世界、Roblox在游戏领域展现了对元宇宙概念的理解。
从狭义上看,元宇宙概念与现实世界相对应,过去我们通过“数字孪生”将现实世界投射到网络空间中,数字孪生(digital twin)是以数字化方式创建物理实体的虚拟模型,借助数据模拟物理实体在现实环境中的行为,并扩展新的能力[1]。在此阶段更多关注的是物体的孪生,比如在疫情期间举办的线上博览会、景区的全景导览、博物馆的网上展厅等。随着算力爆发式增长,以及人工智能、云计算、动作捕捉、面部捕捉、AR/VR等技术发展,使得在虚拟世界中创设虚拟数字人成为可能。构建一个庞大的、《雪崩》中的元宇宙已未来可期。
新冠疫情让本该在未来到来的很多事情加速发现,人类虚拟世界在线时间大幅增长,这为元宇宙大爆炸奠定了时代背景[2]。从专业内容生产的互联网1.0,到用户生产内容的互联网2.0,生产力发生了巨大变化,用户与内容的生产关系从单一获取转变成双向互动。电影中的英雄角色、动画中的人物形象已无法满足用户日渐增长的精神需求。
虚拟分身(Avatar)是《雪崩》中创造的另一个概念,发展至今拥有了更为广泛的称呼——虚拟数字人(Metahuman),通过动作捕捉、面部捕捉、三维建模、语音合成等技术,借助AR/VR/MR等终端,呈现出虚拟立体的人。它有三大特征:具有“人”的形象、“人”的性格和行为特征、类“人”的互动能力,被视为未来人们进入元宇宙的入口。数字人与“前世”的电影动画人物相比,跳出了“剧本”限制,被赋予智能化、情感性、思想性特征,更加接近真实人的表现。
对于数字人而言,经历了以“二次元”为代表的1.0阶段,通过专业工具建模或人工绘画构建人物形象,配合人工配音,成本高、生产力低下;以虚拟主播为代表的2.0时代,由真人动作和表情捕捉并实时渲染;目前正向3.0阶段进化,具备模型高精、人工智能驱动等特点,并具备一定的交互能力。随着数字人多维度接近真实人,数字人载体应用不断丰富,纵横双向发展深入,对数字人的伦理、权利、有用性争议频发。据此,本文基于用户感知理论,提出一种测评数字人的模型,从用户视角感受数字人发展现状,厘清和发现潜在问题。
2021年10月,国家广播电视总局发布《广播电视和网络视听“十四五”科技发展规划》,首次明确鼓励和支持虚拟数字人技术发展,推动虚拟主播、动画手语广泛应用于新闻播报、天气预报、综艺科教等节目生产,创新节目形态,提高制播效率和智能化水平。时至今日,数字人作为数字经济之一已进行多轮发展迭代,从角色来分,有基于情感的虚拟宠物、虚拟伴侣;基于功能的虚拟导游、虚拟客服;基于娱乐的虚拟偶像、虚拟主播等。从诞生视角来看,数字人包含虚拟原生和虚实共生双重定义,虚拟原生是利用人工智能内容生成(AI Generated Content)等技术手段生成具有独立性的数字人,而虚拟共生可认为是真实人在元宇宙中“孪生”投影。
数字人相关应用最早始于动漫、游戏,集中在影视娱乐产业,随着产业升级,数字人凭借高效、高质的特征,应用场景有了巨大突破,逐渐向传媒、政务、医疗、教育、金融、养老等多个领域渗透。
在娱乐领域,虚拟偶像通过情感的三个层次来建立强化与受众的养成关系,继而实现更高层次的陪伴与信任[3]。通过以关系为逻辑的新型算法,帮助传播者更快速地找到目标受众,同时目标受众也因为关系加成而更愿意接受与喜爱的虚拟偶像相关的内容[4]。有学者认为虚拟偶像颠覆了粉丝与偶像之间单项崇拜关系,进入了融合发展阶段[5]。
在教育领域,受到线上线下混合式教学模式和疫情反复的背景因素影响,线上教学已成为新常态,数字人正成为未来教育技术研究的新热点。也有学者认为基于虚拟与现实、线上与线下等二元对立关系的混合式教学模式暴露出局限性和改革的必要性,并提出混沌型教学模式,旨在打破虚实边界[6],元宇宙和数字人的发展给教育带来了更大的想象空间。
在金融领域,元宇宙新金融场景会成为下一步商业银行竞争的新战场、新赛道[7]。百信银行、浦发银行、江南农商银行等纷纷推出虚拟员工,探索高效高质服务新方法。
在概念爆发元年,热点下的多重声音不乏刻意炒作的丛生乱象,存在不自知的空泛噱头、不健康的竞争格局、不辩证的科技排斥、不均衡的供需结构、不持续的激进扩张、不节制的盲目崇拜、不理性的享乐主义等“七宗罪”风险[8]。数字人的存在与传播实践消除了真实与虚拟的边界。在媒介技术发展条件下,真实与虚拟之间的界限趋于模糊,这一趋势深度影响着人们的日常生活与观念意识,也改变了人们的审美范式,有学者担心一旦抽离其中的经济逻辑,将只剩下技术的皮囊[9]。当这些数字人足够成熟时,有可能实现在无人类干预的情况下,像人一样进行主观思考的程度。那么,该如何对虚拟人自发进行的内容生产进行规范监管?又该如何制定相关的内容安全标准并找到适配的操作方法?这些问题如何在法律和道德伦理的范畴内去规范,也需要相关监管部门和行业主导者共同去探索[10]。
可以看出,现有研究从领域专家和学者视角探索数字人供需关系和应用场景,少数学者也对舆论乱象、数字人的伦理和法律风险提出担忧。近期,中国信息通信研究院(以下简称“中信院”)云计算与大数据研究所已牵头在国际电信联盟和中国通信标准化协会完成多项全球范围内首创的数字人国际标准及行业标准,从基础技术能力、基础工程化能力、基础安全保障能力三个方面共计48个测试项对数字人系统基础能力评测。中信院从技术和理论视角定义和测评数字人对规范数字人发展、厂商良性竞争意义重大,但仍欠缺一线实际用户对数字人的感知反馈。
随着企业在激烈的商业竞争中继续寻求营销优势,“顾客导向”的理念逐渐建立起来。企业必须学会探测顾客的价值需求,保证自身产品和服务超越竞争对手,促进企业软实力以在竞争中占据上风。顾客感知价值理论是营销学者“以顾客为导向”的呼唤下逐步形成的。
1988年,Zaithanml通过对顾客的调查,认为顾客感知价值是“顾客基于感知所得和所失后进行的产品效用的整体性评估”[11]。Choi等人研究发现顾客感知价值对其满意度和行为意向有显著的影响作用[12]。国内学者广泛运用三分法将顾客感知价值以3个维度为标准进行划分,如范秀成团队认为可以将顾客感知价值分为功能价值、情感价值和社会价值[13]。孟庆良团队提出了顾客感知价值的主要构成维度还包括了知识价值,丰富了顾客感知价值理论[14]。李武进一步将感知价值划分为社会价值、价格价值、内容价值、互动价值和界面设计价值,研究分析了感知价值对用户满意度的影响[15]。
数字人作为新兴技术和概念,其价值颇有争议,在发展和应用中关注用户端的反馈显得尤为重要。用户对数字人有用性和易用性[16]进行感知时具有主观性,然而当感知样本足够多时,就会形成口碑和舆论,能够较为真实地反应用户对对数字人的态度。市场上数字人众多,其技术路线和参数为厂商内部资料,获取较为困难,无法进行类似白盒测试的技术指标定量测评。在用户感知理论下,用户从感知价值视角评价事务,类似计算机软件领域中的黑盒测试。李萍等通过对携程旅游网上关于北京景点进行用户评论文本挖掘,研究游客对景点的形象感知[17]。邵小彧等基于新冠肺炎疫情阶段微博数据,发现公众情绪与农产品价格之间具有强关联性[18]。董庆兴等利用用户调查问卷测评在线健康社区,研究用户持续使用意愿[19]。在对数字人测评时,用户并不了解特定数字人的详细参数,但能从其行为中感知其态度来体现数字人的优劣。结合前述相关研究,本文借鉴用户感知理论三分法中的功能价值、情感价值、社会价值,另扩增新事物发展受到关注的技术价值和互动价值作为测评数字人的基础维度。用户的行为感知方法有传统的问卷调查法、访谈法等,在互联网进入UGC(User Generated Content)时代以来,越来越多的学者利用海量用户生成内容进行文本挖掘获取用户真实想法。
综合上述理论基础和研究现状,本文尝试从感知技术性、感知功能性、感知交互性、感知情感性、感知社会性五维视角建立数字人测评模型(如图1),利用大量用户评论数据感知用户对数字人在各维度上的态度,反馈其发展现状。
图1 用户感知视角下数字人测评模型
(1)感知技术性。当数字人作为一个新型事物进入大众视野时,技术上如何实现必然会成为用户关心的话题,当用户谈论此维度时,可能会产生正面或负面的情绪。比如“建模精度很高”等,可以让我们感知到用户对特定数字人技术赋能的认知程度。
(2)感知功能性。新技术的发展必然解决了某一需求。感知功能价值就是考察数字人能不能用,能不能解决某一需求。着眼于数字人领域,其功能可以是它的职业、它的角色,即该数字人拥有什么样的技能,在社会上承担了什么样的角色,提供了什么服务,得到了怎么样的应用。
(3)感知交互性。数字人与传统CG动画、影视作品人物最大的区别就在于具备人“人”的交互性,交互性可以从用户互动、虚实融合、人机设备支持等进行感知。
(4)感知情感性。情感价值指用户对数字人的体验感知,追求的是产品体验更好更有温度。在数字人领域可以解读为该数字人外貌好不好看,性格讨不讨喜。若数字人的外貌、性格等更讨用户喜欢,意味着该数字人的易用性更好,即认为情感价值较高。
(5)感知社会性。社会价值体现着数字人在社会中带来的影响,包括商业潜力和治理难度等。若用户认为数字人商业前景更佳,更有发展空间,则认为社会价值更高。
根据上述用户感知视角下数字人测评模型,本文首先采集大量用户评论数据代替传统调查问卷作为模型输入,然后对用户评论进行维度分类,进而发现用户在各维度上的态度并对典型数字人的指标打分,实践验证数字人测评模型可行性,并尝试发现各个数字人之间的差别以及数字人在用户视角下的不足和局限,最后为数字人积极发展提供建议。
国内把数字人分为虚拟偶像、虚拟主播和虚拟员工3类[3],本研究选取受众群体为年轻人居多、评论氛围良好的哔哩哔哩(bilibili)视频网站作为数据来源。根据覆盖多个分类和具有足够评论样本的原则,排除样本过少的虚拟员工类数字人,最终选取美妆主播柳夜熙、二次元歌手洛天依、湖南卫视主播小漾、清华超现实虚拟学生华智冰和AI手语主播作为研究对象。
运用八爪鱼采集工具抓取研究对象视频的用户评论。经去重后采集到99个视频的113,545条评论,时间范围为2016年12月13日至2022年4月15日,有效字段包括评论内容、点赞数、发布时间、评论人等,数据分布如表1所示。
表1 各数字人采集数据量
采用jieba工具包对文本进行分词,使用百度停用词表、哈工大停用词表等作为词典剔除常见停用词,使用搜狗词库中的人工智能、虚拟主播、虚拟现实技术词库作为新词改善分词准确率。数据字段中点赞数作为重要的评论质量指标,本文把一次点赞也记为一次评论,以得到更准确的文本特征。通过python脚本统计词频,进一步基于TextRank[20]算法抽取关键词,利用词云可视化等辅助手段,经过人工判断得到关键特征词,如表2所示。
表2 测评视角特征词及举例
在打分阶段,本文根据上表5个维度对每个数字人评分,具体步骤为根据关键词抽取用户评论,使用snow NLP:Simplified Chinese Text Processing工具包对评论进行情感分析,得到各维度上评论的情感倾向,最终得到模型维度的打分。
对5位数字人从3个维度进行打分,得到评分如表3所示,并进一步通过雷达图进行可视化呈现,如图2所示。评分区间为0到1,0为最差,1为最好,一般认为中值0.5表示用户对此无情感倾向。据观测,在单个数字人的3个维度抽取评论样本时,重复率远低于5%,因此4个维度得分由不同样本得出,可认为无相关性,信度符合要求。
图2 数字人评分雷达图
表3 数字人评分表
4.3.1 感知技术性得分结果
从雷达图的技术维度观察,柳夜熙与洛天依用户感知技术性最佳。柳夜熙出道最晚,在拟人化方便做得较好,与真人十分相似,用户认为其技术性最好的结果符合预期。洛天依作为二次元数字人,技术得分较高出人意料,经分析原因可能是技术逐年持续提升,用户信心很强,比如评论“这次模型好看!宝贝们加油!”“总之建模很不错,比预期好很多,实在是好好康”。在此维度得分最低的是小漾,由于其属于功能型数字人,用户对其模型等方面要求不高,可能是造成得分较低的原因。
4.3.2 感知功能性得分结果
从雷达图的功能维度观察,5位数字人在此项评分上均有差异,这与数字人角色定位的不同有关。从官方定义来看,评分较高的华智冰、柳夜熙与洛天依为偶像型数字人,技能为读书学习、美妆、剧情演绎,而评分较低的小漾和AI手语主播为功能型数字人,技能为主持、手语等。其中小漾评分为0.64,AI手语主播评分为0.69,即使高于0.5的限值,属于乐观倾向,但整体评分偏低反映出用户对功能型数字人的功能期待更高。进一步抽取数字人相应评论后,猜测一方面是用户认为功能型数字人理应功能价值更高,因此期待相应变高,期望与实际表现的落差造成了该项评分较低;另一方面,有用户评论AI手语主播“太快了跟不上”,也体现出相关数字人还处于发展阶段,在专业技能上还有提升空间。
4.3.3 感知交互性得分结果
在交互性维度,5位数字人分成3个团体,小漾一枝独秀(0.99),AI手语主播居于其后,剩下3位抱团取暖。值得注意的是在此维度表现好的均为功能型主播,更关注与用户的交互能力,发挥自身功能价值。而偶像型主播在交互性上处于弱势地位。
4.3.4 感知情感性得分结果
在情感价值维度,5位数字人略有差异。以卡通形象展现的洛天依评分最高,说明在用户视角下,形象真实并不是用户情感倾向的唯一标准,二次元元素的性格因素以及z时代(1990年代末至2010年代前期出生的人)用户群体居多使得二次元仍是一个值得发展的数字人细分领域。超写实选手华智冰的情感评分排在倒数第二,与日常经验有所区别。从早期数字人1.0时代的二次元洛天依,到数字人3.0时代的超写实华智冰,体现出了云计算、人工智能、动作捕捉等软硬件技术的飞速发展,但经过实践发现,二次元外貌数字人给用户带来的情感价值不一定弱于超写实外貌。
4.3.5 感知社会性得分结果
在社会价值维度,湖南卫视主播小漾一马当先,而二次元歌手洛天依得到了全场最低评分(0.57),接近负面评价。社会价值亦称“市场价值”,在测评模型设立阶段特征词大多也与商业有关,因此此项得分反映出现阶段用户更看好超写实数字人的商业发展。资本逐利,新技术的发展必然需要盈利才能良性循环,二次元歌手洛天依虽仍受到用户喜爱,但经过多年发展在社会价值上评分位列倒数已呈现疲态。虚拟偶像数字人颜值接近真人,凭借人设稳定、时间无限、黑科技话题等特点在商业价值上优势明显。同时值得高兴的是,用户非常看好小漾、AI手语主播等功能型数字人的社会价值,表明该领域正协同健康发展,为未来生活方式带来了更多可能。
4.3.6 整体评价
从整体来看,柳夜熙凭借发展均衡没有短板成为得分最高的数字人,与《2021年度中国虚拟数字人影响力指数报告》中柳夜熙被评为最具影响力的数字人结论相符。偏科严重的小漾可以看出用户更看好其发展潜力,但对目前的技术表现不满意,希望之后小漾这样的功能型数字人能够为社会做出更大贡献。值得关注的是,本研究的初心是构建数字人的横向测评模型,使对比数字人的优劣势成为可能,以促进数字人全面发展,因此并没有最终排名。
用户对数字人态度有质疑有肯定,在对数字人打分测评过程中,发现了一些值得思考的现象,笔者选取其中具有代表性的数据,从交互能力、进化趋势、智能知识服务和权利风险四个方面展开。
根据数字人相关定义,具备“人”的交互能力是其重要特征,上述实证研究也发现近年随着信息技术迭代升级,数字人着重发展交互能力,用户对此项能力持期待态度。研究中发现许多数字人声称可以写诗、唱歌、手语翻译、自我学习等,但厂商并没有开放交互通道,数字人服务用户形式大多为定制,在用户视角下没有一个“元宇宙空间”或其他形式与用户产生互动,仍处于生产力发展早期阶段,这与早期智能音箱的语音交互形式相比反而是一种退步。笔者以“互动、交互、性格”作为特征词抽取用户评论,发现样本稀少且用户对此均持中性态度,因此在实际测评中适当扩展了定义,把人机交互、观众感受也纳入感知交互性中。这也表明数字人暂不能走出荧幕与用户产生虚实结合的互动,进而无法建立起更加立体的人物性格印象,距离具备独立“人格”的数字人尚有差距。未来,当无限趋近于真人的“有血有肉”的虚拟朋友,与你私密地交谈,分担忧愁共享快乐,做你想做却不敢做的事,那么元宇宙虚实共生的样态,可能才能慢慢到来。
进一步选择出道时间最长的数字人洛天依,对其用户评论数据做以年为单位的时间窗口划分,利用上述模型建立评分表,试图探索该数字人在各维度上的进化表现。
从图3可以观察到,2018-2022年洛天依的各年度评分折线形态较为相似,证明上述测评模型较为稳定。同时,在各维度评分总体呈上升趋势,表明用户对该数字人的整体评价越来越好,其中感知技术性、感知功能性和感知情感性3个维度评分年度差距较小。感知技术性评分提升较小,猜测由于洛天依作为二次元数字人,在目前以“拟人”为主流的技术发展中并未取得红利。感知交互性评分年度之间差异巨大且年份之间评分交错,从2018年评分低位到2022年5个维度中评分第一,总体呈向上趋势,表明近几年用户认为该数字人的交互性提升较大。在2020年呈现明显下降趋势,并非表明该数字人在交互能力的绝对值上有所下降,而是数字人提升与用户期望的相对值下降,侧面体现出近年来数字人领域着力发展交互能力,数字人之间竞争加剧。
图3 洛天依各年度评分折线图
伴随数字人多类型,多维度发展,带来了更多的应用场景和可能。洛天依的出现,成为国内首屈一指的二次元虚拟偶像IP(知识产权,Intellectual Property);柳夜熙借短视频风口,一举成为超写实数字人代表人物,并成功开拓美妆、剧情领域;华智冰褒贬不一,但凭借清华大学背书,最有希望成为拥有自主学习能力的“元宇宙原住民”;小漾、AI手语主播的出现,打破了数字人在知识服务领域的应用空白,从最为博人眼球和赚钱的娱乐领域往功能领域沉淀。今后,可能会出现医疗数字人、家居数字人、教育数字人等等,图书馆作为知识服务重要机构,探索从传统纸质阅览、数字图书馆转向元宇宙图书馆的发展路径,必然离不开知识服务型数字人。在未来可以想象,任何时间任何地方带上VR眼睛,在图书馆的数字人引导员带领下畅游图书馆、红色景点,不受地域和疫情阻拦与朋友畅谈所知所悟。
虚拟学生华智冰不同于传统的偶像型和功能型,并声称其具备“人”的学习能力,因此笔者对其进一步探究,使用ROSTCM6工具对华智冰的用户评论分词、提取高频词、过滤无意义词、提取行特征,使用NetDraw软件绘制网络,如图4所示。
图4 华智冰用户评论特征词共现网络图
词语共现网络图中节点为特征词,连接表示两个词在同一评论中具有共现关系,共现网络图可以展现高频词之间的关系,比单一分析更能发现真实语意。从图中可以看到(真人-合成)以及(宣传-误导)词语组的共现频率较高,查看分析原始评价,发现有用户提出华智冰是由真人建模所得,因此外貌十分像真实存在的人,与宣传的人工智能不符,进而有用户提出了肖像权的问题。
数字人产生权利风险的原因主要来源于两点。一是由于现有技术不够成熟,数字人建设过程不能完全通过人工智能生成(AIGC,AI Generated Content),因此必然有真人建模、动作捕捉、声音合成步骤,导致产生肖像权问题。二是当数字人发展到一定阶段,必然会自主生成内容,包括文章、图画、人脸甚至是性格,那么在这过程中的图画、文章的所有权归属于数字人还是数字人的建设者?若该数字人的行为触犯了法律,那应由数字人承担还是数字人的建设者承担?进一步讲,目前的知名数字人大多为女性,这是否会带来一些女性权利风险?
目前在业界有人尝试通过区块链技术解决所有权问题,比如非同质化代币(Non-Fungible Token,NTF)等,但对数字人本身的权利和法律风险还没有深入研究和明确定义。
在笔者看来,数字人测评犹如一场虚拟选秀节目,用户作为评委对各个参赛数字人提出了评价和建议。出发点是探究数字人的发展现状和不足,最终目的是为数字人发展和进步提供参考。针对市场缺失测评手段和方法,本研究创新性基于用户感知理论构建了数字人用户视角测评模型,使评估和对比数字人成为可能。进一步使用更加客观的海量用户评论数据代替调查问卷作为模型输入,验证了数字人测评模型的可行性。通过实践发现:数字人的表现与官方定位基本一致,但各数字人之间差异显著。用户对功能型数字人的期待更高,超写实技术和卡通技术都受到用户喜爱,用户更看好功能型数字人的社会价值。在未来发展上,应着重增强数字人交互能力,关注超写实数字人的权利和法律风险。
本研究也存在一些局限和不足。一是在模型构建方面受制于信息获取单向的特征,对数字人的交互能力考察不够周到;二是模型实践方面哔哩哔哩网站虽然评论质量较高,但用户群体大多为刚工作的青年,评论样本可能偏向某一群体,并且各个数字人的用户评论量不均衡。在进一步的研究中,将尝试扩展优化测评模型的维度,使模型更加全面科学。同时将改善采样方法,从多个平台采集数据,减少数据倾斜和人工误差,加强结论的“鲁棒性”。