数字世界的居民

2024-08-03 00:00:00李雅高迎明
知识就是力量 2024年7期

清华大学计算机系“学生”华智冰

陪伴在虚拟空间的“朋友”

虚拟数字人存在于电脑和网络世界中,你可以和它们交流,它会慢慢“了解”你的习惯,变得越来越“懂”你。

为了让这些虚拟朋友更真实,科学家开发了一系列技术。

听懂你在说什么

听懂的背后是自然语言处理技术在起作用,它包括语音识别、语言理解、语言生成等技术,这让虚拟数字人可以理解并生成自然语言。

此外,为了让虚拟数字人的表情和动作更生动,科学家利用面部表情和身体动作捕捉技术,对人类运动数据进行采集和分析,从而控制虚拟数字人的运动和行为。这样,它们就能以更自然和有趣的方式与人交流了。

情绪“补给站”

当涉及情感交流时,情感识别技术就派上了用场。这项技术不仅可以通过收集用户的说话内容、语音语调、面部表情等信息分析其情感状态,还会给予适当的情感反馈。

理解你的意图

为了让虚拟数字人能够记住用户喜好并提供更好的服务,深度学习技术对大量数据进行学习和分析,使虚拟数字人可以自主改进行为。

在自然人与虚拟数字人交流的过程中,自然语言理解技术可以使虚拟数字人理解用户输入的自然语言,并作出回应。近年来,大语言模型的横空出世也为人机交互的智能性带来新的突破。

活灵活现的“人”

熟悉的声音

在自然语言理解并生成回复文本基础上,语音合成技术可以将文字内容生成为音频,让虚拟数字人说出的话更自然。

早期的语音合成技术使用的是单元拼接合成,即先构建语音片段数据库,然后选择合适的语音片段拼接成想要的语音。

从输入信息到虚拟数字人输出内容所需的处理技术(供图/李雅)

随着深度学习技术的不断成熟,深度神经网络被用来学习文本与语音之间的“复杂关系”,利用大量的训练数据学习如何从文本生成更自然的语音。并且,随着深度学习模型的更新迭代,现在最新的模型已经可以做到使用某个同学的几条语音片段,就能“克隆”出这个同学的声音,实现从文本到声音的转换。

人工智能技术幻化成“人”

3D建模技术是创建虚拟数字人的外观和形态的基础。建模软件可以创造出栩栩如生的虚拟形象;运动学引擎可以模拟虚拟人的运动和动作,让行为更加真实和流畅;关节驱动技术和程序驱动技术,则为虚拟数字人提供了直观的交互体验和高度自定义的行为控制。

虚拟数字人能做什么?

作为客服代表,虚拟数字人展现出了巨大潜力,它们不仅能提供全天不间断服务,还可以根据用户的情感状态提供个性化服务,在提高服务效率的同时,增强用户体验。

在教育领域,虚拟数字人则可“化身”教师或助教,根据学生的学习情况,智能推荐学习内容,甚至在虚拟环境中模拟实验操作,为学生带来更生动直观的学习体验。

例如,北京邮电大学的智慧教室借助“5G+全息投影”技术,将授课老师的三维全息投影人像清晰呈现在教室讲台上,实现了跨校区远程互动教学。同时,教室里配备了人工智能助学机器人,可辅助同学们更好地完成学习任务。

在医疗健康领域,虚拟数字人可以辅助医生进行病情诊断,提供治疗建议,甚至在远程医疗中扮演重要角色,例如,通过模拟手术和解剖,帮助医学生进行实践学习。

虚拟数字人,就像是来自未来的使者,与它的每一次交互都是一次奇妙的“冒险”。在未来,它们将变得更加智能化、个性化,或许会成为我们生活中不可缺少的一部分。

知识链接

什么是大语言模型?

大语言模型是基于深度学习技术构建的拥有数十亿甚至数千亿个参数的巨大神经网络模型,通过在大规模文本数据上进行训练,具备语言理解和生成能力,能提取关键信息、分析语义,准确识别用户意图,进而生成用户满意的回应。

(责任编辑 / 王佳璇 美术编辑 / 周游)