李昊 丁龙 宋佳
摘要:随着类脑科学、深度学习、人工智能和计算机图形学的快速发展,下一代互联网的完整形态元宇宙整体架构正趋于完善。作为元宇宙重要媒介的“虚拟数字人”的实际应用价值和落地场景也在被逐步挖掘,越来越多的虚拟数字人被设计、制作和应用在各种场景,小范围验证了元宇宙生态实现的可能。文章在分析现有研究报告和相关案例的基础上,明确虚拟数字人的内涵,厘清与其他概念的混淆点,从真人驱动和计算机驱动两个方向论述虚拟数字人的构建过程,简要介绍当前虚拟数字人的产业链条,并以虚拟主播、虚拟主持人、虚拟偶像为典型案例阐述虚拟数字人在传媒领域应用的现状,简要分析现有不足和未来应用前景,以期为虚拟数字人未来发展提供思路和参考。
关键词:虚拟数字人;构建过程;传媒领域;应用案例;发展前景
中图分类号:TP18 文献标志码:A 文章编号:1674-8883(2022)16-0001-03
课题项目:本论文为黑龙江省省属高等学校基本科研业务费科研项目“教育新基建时代数字化学习资源整合模式创新与实现路径研究”成果,项目编号:145109222;教育部产学合作协同育人项目“人工智能视域下的创客工作坊建设”研究成果,项目编号:202002030027
2021年10月,国家广播电视总局印发的《广播电视和网络视听“十四五”科技发展规划》提到,要积极推动虚拟主播、虚拟主持人在天气预报、文艺科教、新闻报道等场景中的应用,借助新技术创新节目形态,积极提升节目制作效率和智能化水平,提升观众和用户的满意度[1]。因此,虚拟数字人在政策和社会需求的双重推动下正加速向传媒领域渗透。
传播学专家麦克卢汉曾经指出,“媒介本身即是内容,所以媒介所产生的影响远远大于用这个媒介具体做的事情”。当前虚拟数字人正广泛应用在元宇宙生态中,在其中承担着制造、传播信息的重任,是元宇宙中“人—物”和“人—人”之间信息传递的新型媒介和重要载体[2]。显而易见,以虚拟数字人为代表的新型技术必将成为传媒行业新一轮变革的起点和希望。因为这类技术具有更广阔的应用场景、更能降本提效,同时虚拟数字人的形象朝着智能写实化的方向发展,交互性、功能性都大大增强,而内容质量和生产效率又有指数级的上升,可以说,传媒行业即将迎来颠覆性的技术浪潮。
对于虚拟数字人目前官方尚无统一的概念,市面上也将其称为数字人、虚拟人、虚拟形象,但笔者并不认可这样的描述。如果按现有案例对这几种概念进行解释说明,则数字人偏向存在于数字世界,能够完成基础的对话交互[3],如外卖平台上的机器人客服;虚拟人则强调人物身份的虚拟,现实世界并不存在,如社交平台上的虚拟网红;虚拟形象一般指游戏中的人物,可以由现实中的人设计其造型、性格,如RPG(角色扮演类)游戏中的角色形象。而虚拟数字人具有前述几者的特征,具体指的是存在于非现实世界中,由深度学习、类脑科学等技术叠加生产的一类智能体,目前主要以“拟人化+互动性+智能化”三重标准来衡量虚拟数字人的智能程度,完整形态的虚拟数字人不仅能够解决人类日常生活、学习、工作上的问题,还能给予人类完美的“情感陪伴”体验。
目前虚拟数字人还处于基础建设阶段,主要有两种构建方式,分别是真人驱动和计算驱动[4]。
(一)真人驱动的虚拟数字人
真人驱动的构建方式起步较早,最早应用在影视特效制作中,指的是通过摄像机来捕捉现实人类的一举一动,再映射到虚拟形象上,这种方式实际上是“动作捕捉+计算机3D建模”的结合应用,由于图形识别和人工智能技术的进一步发展,现阶段已经不再需要通过复杂的传感器来捕捉人物动作和神情,只需要普通相机就可以获取到精度非常高的信息,再通过计算机强大的算力构建虚拟人物。真人驱动的虚拟数字人构建主要有以下几个步骤。
第一,依据需求和使用场景设计虚拟数字人的理想形象,对动作关键点进行3D建模。
第二,对真人和虚拟数字人形象进行关键点的一一绑定,关键点数量越多,虚拟数字人形象越逼真,最终效果也越真实。
第三,真人在特定环境下根据要求做出不同的肢体动作、神态表情等,通过“图像识别+摄像头”进行实时捕捉,完成形象数据采集。
第四,对虚拟数字人语音进行数据训练,通过语音合成形成想要的语音。
第五,合成虚拟数字人的动作、表情与语音,与现实人类互动。
(二)计算驱动的虚拟数字人
计算驱动的虚拟数字人构建过程相比于真人驱动更为复杂,其原理是通过深度学习算法对真人的动作、表情、声音进行建模,主要有以下几个步骤。
第一,形象设计,这一步主要是通过多角度的摄像头对真人形态、表演进行打点扫描,可以按需求选择全局扫描和局部扫描,重点是针对眼神、嘴唇、肢体动作进行数据采集。
第二,虚拟数字人的形象建模,可选择基于真人的高还原度建模或者是特定虚拟形象建模,基于真人的高还原度建模可以将真人的不同角度照片迁移到虚拟模型上,生成最终的虚拟形象;还可以设计动漫类、游戏类虚拟形象,将真人视频数据和虚拟形象匹配,完成虚拟形象的建模。
第三,通过深度学习算法训练各类驱动模型,让虚拟形象不断吸收真实人物的唇形、语音、动作、表情等数据,能够高度复原人类骨骼、肌肉的细微变化,形成虚拟形象自身的驱动模型,进而能够顺畅自然地展现动作和神情。
第四,以語音合成为底层技术,将事先准备好的文本通过语音模型生成为对话语音,通过面部和唇部的驱动模型与生成好的语音进行匹配输出,将语音和虚拟数字人的表现完美结合。
第五,通过计算机进行在线或离线渲染,如果使用场景涉及系统专业知识且需要对话互动,还要配合知识图谱和语义理解进行深度训练。
可以看出,两种方式主要区别在于驱动逻辑上,真人驱动较为灵活,操作和流程稍微简单一些,但普适性和传播性不强。而计算驱动的虚拟数字人,涉及的环节和技术较多,前期准备更复杂,但是一旦训练的模型达到要求,那么渲染合成后将快速高效适用于不同场景。
(一)产业链上游
虚拟数字人产业链上游主要是具有核心技术的研发公司,它们是虚拟数字人整个产业链条的基础,核心技术包括动画渲染技术、建模技术、采样技术及与人工智能技术相关的算力升级、算法开发等。可以这么说,核心技术能否取得突破性进展,不仅影响产业下游的具体应用场景能否落地,还对整体的研发成本和虚拟数字人的实际效果起到决定性作用,哪个领域找到了“虚拟数字人+传统产业”有机结合的钥匙,哪个领域就能率先完成场景创新。
(二)产业链中游
虚拟数字人的产业链中游主要是提供行业方案的平台方,他们既是虚拟数字人在不同场景应用落地的探索者和设计者,又是连接上游虚拟数字人技术研发企业和下游内容生态构建者的关键主体,主要负责人物形象的设计、基本运营、品牌形象的维护等。各平台将根据行业特色和业务方需要,完成虚拟数字人与具体场景或产业的融合方案,支持定制化的虚拟数字人形象和功能设计,目前在传媒领域落地的虚拟主播、虚拟KOL取得的效果都非常不错。
(三)产业链下游
虚拟数字人的产业链下游主要是虚拟人实际的运营方,是不同类别虚拟数字人内容生态的创作者和构建者。虚拟环境的内容生态质量、数字虚拟形象的IP运营、现实环境的多重支持都将影响产业链下游的健康发展,因为这一环节不仅是呈现最终效果的一环,还是传统行业与元宇宙技术紧密结合创新应用的一环,能直观感受到虚拟数字人与行业融合后的效果。
(一)虚拟主播
由联通沃音乐文化有限公司推出的虚拟数字人主播“COCO”能够根据不同场景完成不同的任务。在新闻报道方面,“COCO”能灵活切换中英粤三种语言报道新闻;在担任视频客服时,不仅能24小时在线,还能依据语义理解和知识問答库实现实时有温度的语音交互;在2022年全国两会和北京冬奥会期间,“COCO”还及时播报和解读了重要新闻和赛事[5]。类似“COCO”这类的虚拟主播还有央视网小C、人民日报果果、湖南卫视小漾等。
需要特别提到的是,央视推出了全球首个能够完成手语互动的虚拟主播“小聪”,它是虚拟数字人在传媒领域的一项重要突破,尤其是在视听媒体中拥有广泛的应用价值。它的主要底层技术是深度学习和机器翻译,小聪能够基于《国家通用手语词典》完成健全人与听障者手语语言的翻译,能够比较准确流畅地实现手控信息和非手控信息的表达,通过机器翻译和内部模型生成手语表征信息,包括面部表情、唇形变化、手部动作等多个维度。
(二)虚拟主持人
虚拟主持人的代表之一是浙江卫视推出的宋韵文化推广人——“谷小雨”。作为浙江卫视近期重点支持建设的虚拟主持人,谷小雨身上最明显的特征就是完美结合了传统文化和现代科技的优势,是两个领域探索合作的优秀案例[5]。在技术方面,谷小雨开创了国内首个使用虚拟引擎在电视媒体AR舞台应用的先河,依托实时渲染技术和AI智能驱动系统,谷小雨在具备交互、表达、感知能力的同时,还是一个拥有超过200万面数的高精度写实虚拟人。文化方面,谷小雨的形象不仅具有古典美,还融合当下流行的潮流元素进行了创新设计,如水墨长裙的印花服饰灵感源于南宋西湖图,最终的舞台效果一方面呈现了传统文化底蕴,另一方面向观众呈现了科技在传媒领域的应用潜力。
浙江卫视还计划推出不同类型的数字藏品,招募人才组建数字虚拟技术实验室,探索虚拟数字人在传媒领域更多可以落地的应用场景。目前,浙江卫视已经正式宣布成立数字虚拟工作室。
(三)虚拟偶像
由AI未来影像创作中心和中国联通5G共同推出的虚拟数字人安未希是虚拟偶像的代表之一。安未希是通过自研的影像数字人系统,融合“实时动捕技术+AI数字人生成技术”打造的,它的名字寓意为“未来充满希望”,整体形象积极向上。安未希的人设定位为能歌善舞、多才多艺、热爱自由的达人。安未希的核心能力是能够进行一定程度的音乐创作,以柔美空灵的嗓音征服了数以万计的网民,在“深度学习+语义理解”技术的加持下,能够完成作词、作曲、演唱、跳舞等一系列活动。事实证明,安未希这样的虚拟偶像具有极高的商业价值,未来希望以更多元的方式触达客户[6]。
总体来看,在传媒领域应用的虚拟数字人可以归为服务型虚拟人,相比之前的聊天机器人、数字助理,可以提供更好的拟人化服务,其优势在于通过人工智能和计算机建模等技术能够更大范围地承接垂直领域的社会工作,其服务型角色广受线下客户和网络用户的喜爱。
传媒领域是重信息传递和感官体验的行业,虚拟数字人的出现正好强化了这两个方面。传统的新闻播报都是通过文字、语音、视频形式来完成,缺乏沉浸式的交互体验,而虚拟数字人基于AI情感算法、多模态人机交互、类脑科学等技术,大大增强了信息传递和互动过程的沉浸感。凭借智能化的虚拟数字人来传递信息,甚至是与人交流,将极具创新性和艺术性。同时,虚拟数字人的应用将改变以往传媒行业的采编发流程,其智能化、规模化的生产方式将促进新的产业生态形成[7]。未来虚拟数字人的交互方式还会有多种衍变,使虚拟数字人可以拥有一次唤醒、多次交互的能力,其功能也逐渐完善,由简单对话朝智能纠错、智能响应、多轮对话的方向发展。随着计算机视觉、人工智能和渲染技术的不断发展,完全智能化的虚拟数字人将拥有全面的听、说、读、写能力,将会在传媒领域有更广泛、更高效的应用。
未来,虚拟数字人将会在更多行业应用,通过“虚拟数字人+应用场景”的深度融合,使虚拟数字人也能走进寻常百姓家,每个人都会有专属的智能助手,信息的生产、传递方式将彻底改变,由之前的UGC(用户生产内容)向AIGC(人工智能生产内容)转变。所以,即便现在虚拟数字人的落地应用还有法律、技术和模式方面的不足与缺陷,但仍要坚信虚拟数字人发展前景一片光明。
参考文献:
[1] 广播电视和网络视听“十四五”科技发展规划[EB/OL].国家广播电视总局,http://www.nrta.gov.cn/art/2021/10/8/art_113_58120. html,2022-07-16.
[2] 谢新水.虚拟数字人的进化历程及成长困境:以“双重宇宙”为场域的分析[J].南京社会科学,2022(6):77-87,95.
[3] 陆正兰,赵勇.数字时代的身体意义:科幻电影中的三种虚拟人身体范式探析[J].福建师范大学学报(哲学社会科学版),2020(5):116-124,171.
[4] 陈龙强,张丽锦.虚拟数字人3.0:人“人”共生的元宇宙大时代[M].北京:中译出版社,2022:136-142.
[5] 2022年中国虚拟人产业商业化研究报告[R].艾媒咨询,2022-04-01.
[6] 黄慎泽,王俊贤.人机交互技术在虚拟偶像中的应用研究[J].传媒,2021(16):51-53.
[7] 王建华,苏日古嘎.智媒时代深度合成技术的实践与思考[J].中国记者,2020(10):87-92.
作者简介 李昊,硕士,助教,齐齐哈尔大学教师,研究方向:智慧教育、数字化资源开发。丁龙,本科,教授,齐齐哈尔大学教师,研究方向:智慧教育、STEAM教育。宋佳,博士,讲师,齐齐哈尔大学教师,研究方向:智慧教育。