吴 昊
浙江传媒学院动画与数字艺术学院,浙江杭州 310018
数字人的概念可以追溯到20 世纪60 年代,当时计算机科学家伊凡·苏泽兰(Ivan Sutherland)提出了“虚拟现实”的概念,并在此基础上提出了“数字人”概念。他认为,数字人是一种可以在计算机中创建、操纵和显示的虚拟人类。这个概念在后来的几十年中得到了不断发展和完善,如今已经成为了虚拟现实(VR)和计算机图形学(CG)领域中一个非常重要的概念。1964 年由波音公司研究员威廉·费特(William Fetter)首次使用电脑图形技术制作的第一个数字人物形象“波音人”(图1),用于驾驶员座舱设计及功效学研究。之所以将该“波音人”界定为数字人,“数字”是与计算机技术相关,“波音人”是第一个利用计算机创建的人物形象,标志着数字人技术在工业设计中的首次应用。
图1 威廉·费特制作的“波音人”
最近,产业界、教育界等多个群体正在关注元宇宙市场,元宇宙概念正以迅雷不及掩耳之势席卷各个行业,其已逐渐被广大机构视为数字世界未来发展的形态。元宇宙发展趋势下,虚拟数字人将是不可或缺的因素[1]。元宇宙中的虚拟数字人不仅是虚拟的商业或艺术形象,也不是对人单纯静态的生理模拟,而是综合利用各种新技术对人的生理属性和社会属性的全方位模拟和系统性仿真,是具备社交功能的社会人[2]。在数字技术的早期阶段,数字人主要应用于计算机图形学、动画和游戏等领域,用于创建数字人的二维、三维图像或动画。到了虚拟人阶段,数字技术的应用更加广泛,虚拟人可以通过数字技术模拟人的外貌、动作和行为等多个方面,并应用于虚拟现实、视频游戏、影视制作和教育等领域。虚拟人一般具有比数字人更为真实的外观和行为表现。而到了虚拟数字人阶段,数字技术的应用进一步提高,虚拟数字人不仅能够模拟人的外貌和行为,还能够生成具有感情和智能化的虚拟人。虚拟数字人的应用范围更加广泛,不仅可以用于虚拟现实、游戏、影视制作和教育等领域,还可以用于虚拟购物、虚拟医疗、人机交互、社交媒体和数字营销等领域。有学者认为,虚拟数字人是数字科技与二次元文化结合的产物,其本身并不以实体形式存在,是建立在后现代消费主义下的文化产物[3]。虚拟数字人的出现标志着数字技术已经进入到一个全新的发展阶段。虚拟数字人对于元宇宙的发展和应用具有重要的推动作用。
数字人技术可以制作具有与真人相同的人物形象,这在各种媒体平台中的使用由来已久。例如,2001 年,维塔工作室的团队利用动作捕捉技术打造了《指环王》中的经典角色咕噜姆。但是,直到2012年,科切拉音乐节上,数字王国(Digital Domain Media Group,DDMG)利用全息技术将已故说唱歌手图帕克·夏库尔(Tupac Shakur)“复活”,在舞台上呈现出他的形象并表演了几首歌曲(图2)。这项技术引起了广泛的关注和讨论,也表明了虚拟数字人技术在娱乐产业中的潜力和前景。在“虚拟”与“现实”并行的元宇宙中,每个人在不同的平台上都会出现对应的“虚拟化身”,即“虚拟数字人(MetaHuman)”,这是运用先进技术所构建真人的“数字孪生”。作为人的虚拟化身,这是综合利用数字技术对人的生理属性和社会属性的全方位模拟[2]。最近,以深度学习为基础的人工智能(AI)技术的发展极大地改进了基于真人动作的数字人生成技术。十多年前,写实数字人形象创作还需要专业设计师使用3D 动画软件完成,因此,除了以3D 动画片为特色的电影产业外,在现实中很难为公众提供人体虚拟形象的服务。例如,虚拟数字人罗茜(Rozy)(图3)是由韩国Sidus Studio X 公司制作的虚拟人,早在2020 年8 月便在社交媒体SNS 上展开活动[4]。近些年,技术环境的改善为虚拟数字人的发展提供了更多机遇。随着技术的不断进步,虚拟数字人的形象更加逼真,交互体验也更加流畅,为各个领域带来更多创新和应用机会。
图2 数字虚拟歌手图帕克·夏库尔
图3 虚拟网红罗茜
虚拟数字人的目标主要是积极利用社交媒体(SNS)来迎合“Z 世代”受众群体,即在1995~2010 年出生的青年群体,他们伴随着数字技术的一路成长,对新鲜事物的个性选择以及对数字化与自身生活的结合表现出超越以往人群的强烈意愿[5]。当前,流通业之所以关注虚拟数字人,是因为通过社交媒体可以与主要消费层“Z 世代”群体进行近距离沟通。根据量子位智库发布的《虚拟数字人深度产业报告》,2030 年我国虚拟数字人市场规模将达到2700 亿元,目前市场仍处于前期培育阶段,有着广阔的发展前景[6]。因此,预计数字人的市场规模也将会逐步扩大。
数字人技术起源于影视领域。随着游戏行业的发展,数字人领域中已经开始获得越来越多的技术赋能,包括建模、绑定、动态抓取、渲染、AI 语音识别以及图像识别等,而这些技术也大大提高了数字人的生成效率[7]。近些年,人工智能技术的发展,虚拟数字人制作技术取得新突破,角色建模方式不再是依赖于专业人员在三维建模软件里创建出人体的三维模型,而是可以通过几张人体的扫描照片就能自动生成高精度数字人模型,并且这些模型还可以呈现出不同的艺术风格[8]。例如,可以制作真实虚拟人的MetaHuman、Daz 3D,或可以制作动画片的Mixamo、可以制作卡通风格2D 角色的VRoid、可以制作各种3D 角色的Character Creator 4 等。下面将具体对数字人创作流程中的各项技术进行研究。
MetaHuman 应用程序是一种基于人工智能技术的创作软件,可以生成高度逼真的虚拟人物,并为其赋予各种行为和情感表现能力。这项技术将大量的数据和算法应用于计算机视觉(CV)、自然语言处理(NLP)和运动学等领域,使得虚拟人物能够以与真实人类相似的方式交互和表现。MetaHuman 可以在游戏、电影、虚拟现实等多个领域应用,成为数字娱乐产业的一个重要组成部分。
MetaHuman 主要特点是可以将动画实时应用到逼真的角色上,实现不同年龄、体型和种族的多样性。MetaHuman 为所有创作者提供非常逼真的人类角色制作功能的框架,且具有直观的界面,即使是新手也可以轻松应用。更改角色细节的方式有三种,第一种是混合模式(Blend Mode)。混合模式用户可以通过调整数字人物的面部表情和身体动作等关键点,实现对角色表情和姿态的微调和改变。这种模式适用于需要对数字人物进行微调的情况。第二种是雕刻模式(Sculpt Mode)。雕刻模式下用户可以在MetaHuman 编辑器中直接对数字人物的头部、身体、四肢等部位进行手动编辑和更改,实现角色的重塑和调整。这种模式适用于需要对数字人物进行大范围改动的情况,同时相对于其他两种方法,需要更多的时间,但可以进行更精细的调整。第三种是移动模式(Move Mode)。通过调整标记组来调整脸部较大的部分,相对于精细的调整,这种方式可以在较短时间内修改整体外观,特别适用于修改整体外观而非精细调整的情况。
MetaHuman 软件可以实现数字人的自然面部表情动画的工具。利用这些工具,无需专业知识,可以轻松制作高质量逼真的数字人物,只需掌握应用简单的照明、姿势和表情预设即可制作生动的数字人。然而,MetaHuman 提供的身材种类(苗条、普通、丰满)、性别和身高选择范围较窄,只能根据模型库所提供的角色骨架、发型等类型内部使用,因此其使用范围较为有限。因此,对于实现所需人物或预设角色的设定方面通用性较低。为了弥补这一点,新引入的技术是“Mesh to MetaHuman”。
Mesh to MetaHuman 技术是一种使用外部应用程序生成的3D 角色网格(Mesh)来创建MetaHuman 的新方法。该功能允许创作人员将自己或其他艺术家创造的现有模型(如角色、生物、机械等)转换为MetaHuman 数字人物,从而在更短的时间内创建更多的数字人物。利用该技术,可以克服MetaHuman 创作者的缺点,突破变形限制,更自由地生成网格。Mesh to MetaHuman 通过在虚幻引擎5 中启用Meta-Human 插件并通过Quixel Bridge 导入MetaHuman 来实现连接。最重要的部分是Mesh Morpher 算法,可以将多边形信息应用于现有的面部特征网格数据,从而通过该算法给予变化,以便轻松快速地获得效率更高的面部制作,脱离原有的框架。利用这项技术对面部细节进行微调,以达到更高的逼真度。Morpher 算法在MetaHuman Creator 中被广泛使用,可以帮助数字人物表现出丰富的情感和表情,使其更加生动。
在MetaHuman 中,将3D 角色模型网格导入到项目中。模型网格可以是已有的模型素材,也可以是扫描现实中的对象,生成glTF、FBX 或OBJ 等几种格式为基本模型。笔者在项目实验应用中结合手机App 宝丽来软件工具进行现实人的扫描,按照螺旋运动轨迹扫描录制完整的人物面部,并进行解算。然后生成glTF 格式文件导入到三维软件中,将扫描过程中错误和不需要的多边形面进行删除。新建并打开UE5 中的插件MetaHuman 本体,将模型导入,选择中立姿势(Neutral Pose),进行提升帧数操作。下一步进行追踪活动帧,此时将完成对角色模型眼睛、法令纹和嘴部的跟踪。之后,进行MetaHuman 的本体解算,生成MetaHuman 的网格模型。最后,选择创建身体部分,并选择网格体转为MetaHuman 命令,完成MetaHuman 网格模型的创建,该结果上传到Bridge中的账号中(图4)。
图4 将扫描完成的模型进行修改调整后进行脸部的模型追踪活动帧的操作
下面通过Bridge 中的MetaHuman,对模型进行导入,在自定义网格体中对面部各结构的区域形体(包括皮肤、牙齿、眼睛、毛发以及身体等部位)进行调节(图5)。
图5 自定义网格体和角色模型各部分调节
对角色头部的局部调节,可以在混合模式下通过添加3~6 个角色模型区进行面部特征细微调整。根据角色面部特征进行调节,即将这几个添加的预制角色特征去做插值。此外,可以对角色的身体动作和面部表情动画进行设置,MetaHuman 提供了各种姿势和动作,包括行走、跑步、跳跃等。在面部表情方面,可以通过选择设置实现不同的表情动画(图6)。
图6 混合模式下对模型面部的局部调整并添加表情动画
动作捕捉技术已经发展了很长时间,自20 世纪70 年代,动作捕捉技术开始应用于医疗和军事领域;到了80 年代,其应用逐渐蔓延至CGI 产业,开始被人们所熟知,一直活跃至今,目前主要应用于电影,并广泛用于动画和游戏中[9]。随着科技的发展,动作捕捉技术不断更新,从最初的磁感应式方法发展到基于惯性传感器和光学式方法等更加先进的技术,实现了更加精确和逼真的动作捕捉。如今,人工智能技术的应用让动作捕捉技术更加智能化和高效化。比如,基于深度学习和计算机视觉技术的人体姿态估计算法可以通过对摄影场景中的人体姿态和动作进行分析和识别,从而实时估计和预测出未被捕捉到的部分,如手臂、腿部等遮蔽或未被捕捉到的部位,从而实现更加完整和准确的动作捕捉。
主要应用于电影或游戏等领域的光学式动作捕捉技术可以实时拍摄目标的动作,无需受到限制,并且可以应用于非人类生物,具有强大的优势,但需要额外的空间安装相机,并且只能在相应空间内进行捕捉。该技术最大的缺点是成本,根据制造商的不同,引进成本不同,对于中小型工作室来说,使用该类设备的成本是很大的负担。此外,由于相机必须照射标记,因此根据演员的动作,相机阴影区域的产生可能会导致数据丢失。
为了弥补这些缺点,可以使用传感器式的动作捕捉工具Rokoko。Rokoko 是将传感器添加到套装面料之内,内置共19个传感器,每个传感器内都有陀螺仪、罗盘仪和加速计。通过套装将运动数据记录在本地或者通过Wi-Fi 将数据传输到本地网络。Rokoko 与实时3D 角色动画软件Rokoko Studio 相结合使用,最具特色的部分是虽然能够进行面部捕捉、动作捕捉和手部捕捉,但其价格相对便宜,而且可以实时进行互动和录制。通常进行动作捕捉时需要宽敞的空间和没有反射的物体,但Rokoko 通过安装在套装上的传感器进行捕捉,拥有比传统动画工作流更直观的界面,并可以在成本方面大大节省,是一种有效的动作捕捉工具。利用Rokoko 拍摄的动作捕捉数据可以使用虚幻引擎的动画重定向技术。动画重定向允许不同比例的角色共享相同的骨架资产,以便重用动画。加载从动作捕捉中获得的动画数据,然后轻松地使用它们而无需进行精细的修改。在重定位之前,不同形状的角色具有不同的骨骼,因此在应用相同动作时形状会崩溃。但是通过动画重定位,动画以角色的骨盆和关节为中心重新设置以适应骨骼(图7)。
图7 通过虚幻引擎5对动画重新定位
面部表情技术的发展让数字虚拟角色的神情更加生动且充满活力。传统的面部表情捕捉设备一般需要佩戴专用头盔和捕捉套件,便捷性较差[10]。本次测试中面部捕捉思路则是以手机摄像头拍摄采集为基础,实现面部数据捕捉。以Live Link Face 应用为例,Live Link Face 软件可以将用摄像头捕捉到的人脸动作和表情实时传输到三维虚拟角色上,从而实现人脸捕捉和动画制作。它广泛用于电影、电视、游戏和虚拟现实等领域。Live Link Face 软件可以与虚幻引擎和iOS 设备一起使用,用户可以使用手机的前置摄像头捕捉面部表情和动作,并将这些数据传输到虚幻引擎中,然后应用到虚拟角色上,实现高度逼真的面部动画效果。此外,Live Link Face 还支持实时流媒体,用户可以将捕捉到的面部动画实时传输到其他设备或平台上,以便远程协作和实时表演。这种技术在电影、电视、游戏和虚拟现实等领域有着广泛的应用。
随着虚幻引擎5.0 的发布,Live Link Face 变得更加先进,可以精细和准确地实现面部表情。由于面部跟踪数据包括头部和颈部旋转数据,因此即使没有运动作捕捉套装或头戴式设备,也可以自由地创建数字化角色的动作。由于不需要额外的工具,无论是个人艺术家还是专业公司,都可以在所有拍摄现场捕捉高质量的面部动画。
在测试应用中,Live Link Face 软件需要配备具有TrueDepth 原深感前置摄像头的iPhone 手机和ARKit 技术,可以对表演者的面部进行Z 轴深度检测和交互追踪,并通过虚幻引擎内置的Live Link 接收功能直接将该数据从手机发送到电脑端的虚幻引擎中。此外,通过Live Link Face 中打开流送头像旋转命令可对头部转动进行跟踪。通过这种方式,用户可以更加方便地实现高度逼真的面部表情动画效果,从而提高制作效率和质量(图8)。
图8 使用MetaHuman 和Live Link Face 的面部捕捉设置
通过以上简易动作捕捉的其中一种方法的制作流程示例,使用一部手机和相对廉价的传感器动作捕捉工具Rokoko,能够实现让肢体动作捕捉和面部表情跟踪捕捉同时进行,完成高效率、便捷化的数字虚拟形象整体交互动作驱动(图9)。
图9 MetaHuman 虚拟数字人应用整体驱动实现流程示意图
人工智能(AI)时代,媒体行业被彻底重构和颠覆。大数据和人工智能技术已经进入媒体行业的每一个环节,并对新闻内容的制作、分发以及观众的互动交流等进行了全面重建。随着ChatGPT 等大语言模型的进步通过未来将强大的自然语言处理(NLP)能力应用于虚拟数字人领域,将为虚拟数字人赋予一定程度具备思维能力的大脑。使其能更加智能地与人类进行交流和互动,并进一步提升了虚拟数字人的逼真性和人性化。ChatGPT 对虚拟人技术发展的潜力在媒体、娱乐和其他领域的应用都有着广阔的前景。
(1)虚拟数字人与ChatGPT 类大语言模型技术的结合,可以更准确地理解用户的情感状态,并以适当方式进行情感和情绪的表达,这将增强用户与数字虚拟人之间的感情连接,从而提升用户体验。此外,ChatGPT 类大语言模型技术可以通过深度学习和大量数据训练,获得更丰富的语言知识和理解能力。这也使它能够生成具有逻辑性和连贯性的回答,从而提供更加真实和流畅的体验,进一步推动虚拟数字人在其应用领域的拓展。
(2)ChatGPT 类大语言模型技术可用于多种平台和设备,包括智能手机、智能音响和虚拟现实设备等。虚拟数字人可以脱离物理的躯壳,通过与Chat-GPT 类大语言模型技术的结合,实现虚拟数字人在不同平台上的统一性和连续性。用户可以在不同设备上与虚拟数字人进行交互,感受智能化的服务和体验。例如,总部位于新西兰的Soul Machines 公司专注于虚拟数字人技术和人工智能交互解决方案。他们的目标是通过创造高度逼真、情感丰富和可交互的虚拟数字人来提供更具人性化和智能化的用户体验。他们开发了一种名为“Digital DNA”的技术,该技术结合了虚拟数字人和GPT 的能力,是一种基于人工智能和生物学原理的技术,旨在模拟和复制人的情感和互动方式。通过深度学习和神经网络算法,将人类的语音、面部表情、身体动作等特征进行模拟仿真,从而创造出逼真的虚拟数字人。该技术的发展有望为各个行业带来革命性的变革。
通过对用户的语言交互和行为数据进行分析,虚拟数字人可以深入了解用户的喜好和需求。基于这些信息,虚拟数字人可以向用户提供个性化的推荐内容,如新闻、音乐、电影等,以满足用户的个性化兴趣和需求。首先,通过对用户的语言交互进行分析,虚拟数字人可以了解用户的喜好和习惯。通过分析用户的提问、回答和表达,从中提取关键词和意图,进而推断用户对不同话题的喜好和偏好,从而为用户提供个性化的服务。其次,通过对用户的行为数据分析,虚拟数字人可以了解用户的使用习惯和消费偏好,根据用户的行为数据向其推荐类似的内容,以满足个性化需求。通过与用户建立长期互动,从而建立起对用户的个性化认识,并为其量身定制服务,这种个性化定制和精准推荐的能力将进一步提高用户对虚拟数字人的依赖和信任。同时,也能够增强用户与虚拟数字人之间的情感联结,从而推动虚拟数字人技术在各个领域的应用。
虚拟数字人交互体验是否满意主要涉及到人物形象设计、肢体动作以及语音交互等方面。首先,人物形象设置至关重要,通过使用先进技术如MetaHuman 可以快速而准确地创建出高度逼真和个性化的角色。其次,动作捕捉技术和面部识别技术可以实现虚拟数字人自然、流畅和逼真的肢体动作和情感表达;通过高度准确的驱动技术可以使虚拟数字人的动作和用户指令实时同步,并展现出丰富的情感和肢体语言。最后,语音交互也是影响虚拟数字人交互体验的重要因素。具有个性化人类思想的语音交互技术可以增强虚拟数字人与用户之间的亲切感和沟通效果。预先录制的传统语音交互技术往往具有机械和生硬感,难以满足用户个性化的需求。随着人工智能技术发展,个性化语音技术为虚拟数字人的交互体验带来许多优势,为用户提供更温暖、个性化的交互体验。这种情感化的交互使得虚拟数字人在各个领域的应用更具吸引力和实用性。
综上所述,人工智能技术的发展必将对虚拟数字人技术产生深远影响。虚拟数字人通过与Chat-GPT 类大语言模型技术等智能技术的结合,实现了思维的赋能、情感识别和表达的增强。这些进步将推动虚拟数字人技术在教育、娱乐、客户服务领域的广泛应用,并为用户提供更加智能、个性化和沉浸式的交互体验。随着元宇宙概念的兴起和发展,虚拟数字人将在虚拟现实、增强现实和在线社交等场景中发挥重要作用。虚拟数字人的应用潜力是巨大的,它可以是模拟当下现实世界中存在的人物形象,也可以创建历史上公众记忆中已故的人物形象,通过结合模拟语音和人工智能思维,将为用户提供丰富多样的体验和服务。然而,我们也应该发现虚拟数字人的应用也面临着一些挑战和问题,例如,如何保护虚拟数字人的知识产权和个人隐私,如何处理虚拟数字人与现实人的交互界限等都是需要考虑的问题。总而言之,虚拟数字人在未来有着巨大的发展潜力,我们可以通过逐步建立伦理、法律和社会规范,推动虚拟数字人的可持续发展,使其能在数字艺术、娱乐和其他领域中发挥积极的作用。