数字人教育应用的演进、趋势与挑战

2023-12-25 18:17:22翟雪松吴庭辉李翠欣仇婷婷李艳

现代远程教育研究 2023年6期

翟雪松吴庭辉李翠欣仇婷婷李艳

摘要：教育领域中的数字人是指存在于数字虚拟空间中，通过知识传递、社会交互等教育手段增强学习效果或學习感知觉的具象化虚拟人物的统称。数字人无论是在技术迭代还是应用创新上都与互联网发展息息相关。随着三次互联网形态的演进，教育领域中的数字人从支持知识单向传递、无情感关注、多媒体表征、弱交互行为向知识多向传递、重视情感关注、3D或全息表征、多向交互转变。技术支撑层面，教育领域中的数字人技术载体依然呈现欠智能、弱交互的特点，计算机视觉和拓展现实技术在教育中的应用明显增加。实践赋能层面，数字人在增强教师智能教学和学生自主学习方面有积极作用，但目前应用主要集中在高等教育和K12教育阶段。人本关注层面，数字人通过声音和形象两大设计要素影响学习者认知发展，通过识别、测量、干预来提升学习者的情感交互体验。随着技术的不断更新迭代，数字人体现出类人化水平不断提高、身份可塑性逐渐增强、共情力持续提升的发展趋势，但其也面临算力保障不足、数字版权不清、导致教育弱化或学习惰性、引发伦理风险等挑战。未来，数字人教育应用应重视开发人机协同模式，完善底层技术保障，立足育人根本目标，推动教育公平、高质量发展。

关键词：数字人；教育应用；互联网形态；教育数字化；生成式人工智能

中图分类号：G434 文献标识码：A 文章编号：1009-5195（2023）06-0041-10 doi10.3969/j.issn.1009-5195.2023.06.005

基金项目：国家自然科学基金面上项目“融合视觉健康的在线学习资源自适应表征及关键技术研究 ”（62177042）；浙江省之江教育信息化研究院联合课题“教育元宇宙促进城乡教共体协同发展研究”（ZJY202201LH）。

作者简介：翟雪松，博士，研究员，博士生导师，浙江大学教育学院，杭州国际城市学研究中心浙江省城市治理研究中心（浙江杭州 310058）；吴庭辉、李翠欣，硕士研究生，浙江大学教育学院（浙江杭州 310058）；仇婷婷，博士研究生，浙江大学教育学院（浙江杭州 310058）；李艳（通讯作者），博士，教授，博士生导师，浙江大学教育学院（浙江杭州 310058）。

一、数字人及其在教育应用中的优势

数字人（Digital Human，DH）的概念最早出现于信息科学领域，被定义为“计算机系统中能采取灵活、自主行动的数字代理”（Jennings，2000）。当这一概念被迁移到教育领域后，主要是指存在于数字虚拟空间中，通过知识传递、社会交互等教育手段增强学习效果或学习感知觉的具象化虚拟人物的统称，包括数字教师和数字学生。数字人可以在以下三个方面赋能教学。

第一，拓展学生学习能力。传统课堂学习下，学习者的学习受时间、空间局限，但在数字学习环境下，学习者的学习可以实现多空间的跨越。特别是在以GPT为代表的人工智能时代，生成式人工智能拓展了学习者的多维知识迁移能力。未来教育不仅需要满足学习者突破时空限制的需求，更需要重视他们在交互中激发出认知提示（Cognitive Prompt）的重要灵感瞬间。

第二，增强具身交互性。数字人的人机交互方式经历了从键盘控制到动捕交互，是具身交互从单一器官拓展到全身的表现。先前研究发现，动捕技术通过捕捉师生行为形成动作参数和模型，并以数字人形式给出及时、个性化反馈，有助于提高学生的学习体验和效果（Alonso et al.，2021）；此外，脑机接口技术作为数字学习新入口，可以将情感、认知与学习行为相匹配，为学习者提供更具冲击性和体验感的交互方式（翟雪松等，2022a；Jamil et al.，2021）。

第三，提升知识共创力度。知识生产是教育的主要目的，知识共创是知识生产的主要形式。基于信息化的双师课堂或同步课堂虽然强化了知识传递的效能，但依然是观影模式（Watching Model）。数字人能有效将物理空间的隔阂打破，在统一平台形成协作模式。学习者利用数字人进入学习空间可以在形式和心理上有意识地将“本我”拓展到“社区中的一员”，从而自发地为团队创造知识（Han，2020）。

二、互联网形态演进与数字人发展

教育数字化历程与互联网技术的发展息息相关。三次互联网的形态演进过程中，数字人在知识传递、情感关注、表征方式、交互模式和交互程度上都存在差异，其与师生之间的关系也在不断演变（见图1）。

图1 教育领域数字人的发展演变

1.Web1.0时代的数字人：可读与弱交互

20世纪90年代末，门户网站开始在我国广泛流行，教育等领域也借互联网之风实现了海量资源共享，迎来了Web1.0时代（刘畅，2008）。Web1.0的特征主要表现在“可读”和“弱交互”两个方面：首先，“可读”方面，教育资源以单向传输为主。通信技术和数字基础设施的完善支撑了大规模、可复制和易传播的学习资源的网络化，拓宽了不同地区学生获取教学资源的通道。然而，此时数字人的数字身份仅是互联网上简单阅读信息或搜索资源的凭证，大规模学习群体仍需系统化、专业性的交互行为才能最大限度发挥资源的作用。这个时期，部分教育工作者开发了基于给定算法程序和海量题库资源的智能教学系统。其次，“弱交互”方面，充当数字教师的数字人，虽然能自动、高效地完成简单概念解答和用户反馈，但是由于非具象、弱交互、单向传递以及无情感交流的局限性，难以满足学习者主动学习的需求和最近发展区学习原则，因此学习者群体对可承载强交互功能的数字人的呼声越来越高。

2.Web2.0时代的数字人：具象化与双向交互

Web2.0的本质特征是参与、展示和信息互动，它的出现填补了Web1.0在参与、沟通、交流上的匮乏与不足（刘畅，2008）。在教育领域，Web2.0时代的数字人多由非具象化转型为具象化，以2D或3D可视化的表征形式呈现，通过双向交互拉近师生之间的心理距离（Hong et al.，2014）。同时，依托计算机视觉（Computer Vision）的数字人还可以通过人像特征识别，捕捉学习者的情绪、动作变化，并及时给予手势等教学反馈，满足学习者对过程的监控需求（Yung et al.，2015；Bringula et al.，2018）。

然而，Web2.0时代的数字人仍有较大局限性。其一，囿于独立的课堂空间导致数据闭塞。数字人与学习者之间有海量的交互数据，数据背后潜在的学习轨迹是勾勒学习者画像、预测未来学习成就的重要参照。受制于学习空间的相对独立性和数字人接口的封闭性，数据包之间难以交流与传输，从而使学习者产生或接收的消息局限于一定范围，容易使其陷入信息茧房危机。其二，弱智能化影响了学习体验。学习化社会要求教育要能满足学习者多维度、深感情和全覆盖的学习趋向。然而Web2.0的技术架构尚难以支撑个性化、多样化的学习认知和学习情感需求。例如，不同性别的学生对拥有不同性别特征的数字人会呈现不同程度的情感态度（Makransky et al.，2019），而这一点在Web2.0时代仍无法大规模满足。通过厘清数字人在不同学科、学段中的应用方案和规律，能为解决规模化和个性化之间的矛盾提供数据支撑。

3.Web3.0时代的数字人：类人化与多向交互

Web3.0支持跨媒体异构知识检索，以语义技术为核心提供教育资源推荐。区块链、数字藏品和去中心化自治组织等构成了新一代互联网Web3.0的整个基础设施体系（杜雨等，2022），为重塑教育生态提供了新方向。首先，Web3.0突破了Web2.0时代交互浅层的局限，支持师生之间或数字人之间多向交互。Web3.0还是元宇宙持续发展的根基，以更逼真的表征形式允许师生以数字人身份进行互动，且重视学习情感的表达——以游戏化的方式打开教育，以悦趣化的互动取代灌输（翟雪松等，2022b）。其次，以ChatGPT为代表的生成式人工智能极大地促进了数字人的智能发展。例如，斯坦福大学联合谷歌公司构筑了一个虚拟的AI小镇，拥有25名基于ChatGPT-3.5 Turbo构建的数字居民。这些数字人以类人方式生活、交互、学习和反思，只需要少量的初始设定就能自主构筑有序的关系网，并在交互过程中留下大量数字指纹，为后期的智能分析提供多维度的数据支撑（Park et al.，2023）。此模式能加速或延迟模拟非真人玩家（Non-Player Character）的学习历程，从而为真实世界的学生制定试错成本最低的交互模式提供智能决策方案。

三、三次互联网浪潮下数字人教育应用的研究回顾

由前述可知，数字人无论是在技术迭代还是应用创新上都与互联网的革新息息相关。已有研究发现，数字人对于教育的作用会受到知识类型、学段和设计要素等调节变量的影响（王雪等，2022；Dai et al.，2022），但不同调节变量之间的交互作用仍不清晰。基于此，本研究拟以三次互联网发展为切入点进行系统性文献综述，通过对国内外主要学术文献的搜索、编码、分析，探讨在三次互联网浪潮下数字人是如何赋能教育实践的。

1.研究设计

本研究根据PRISMA（Preferred Reporting Items for Systematic Reviews and Meta-Analyses）要求（Moher et al.，2009），按照“文献检索—文献筛选—文献编码—结果分析”四个步骤展开综述。

（1）文献检索

首先，在搜索时间跨度上，研究按照三次互联网发展的关键时间节点，将检索时段划分为：1999年—2003年（Web1.0时代）；2004年—2020年（Web2.0时代）和2021年—2022年（Web3.0时代）三个时间段。其次，鉴于学者们对“数字人”的理解较为多元，本研究先以“数字人”（Digital Human）为主题词在中国知网、Web of Science（WOS）和EBSCO Host核心数据库中检索。通过初步阅读和文献溯源，发现“虚拟人”“虚拟数字人”“虚拟教师”“虚拟导师”“虚拟化身”“智能导师”“教学代理”“动画代理”等检索主题词均与本研究主题相关。因此，本研究在中国知网以上述中文检索词重新检索，共得到文献367篇（Web1.0时代20篇，Web2.0时代252篇，Web3.0时代95篇）；在WOS和EBSCO Host以“Digital Human”“Virtual Human”“Virtual Digital Human”“Virtual Teacher”“Virtual Tutor”“Virtual Avatar”“Intelligent Tutor”“Pedagogical Agent”“Animated Agent”等英文检索词检索，共得到文献744篇（Web1.0时代55篇，Web2.0時代578篇，Web3.0时代111篇）。

（2）文献筛选

根据PRISMA要求，本研究制定如下筛选标准：第一，研究主题须为本研究定义范畴下的数字人教育应用，剔除只讨论机器人、仿真人或真人教师的研究；第二，研究论文中须具体阐述数字人解决的教育问题、应用学科以及设计特征等要素，剔除只介绍数字人技术本身的研究；第三，研究论文须为全文可获得的学术文献；第四，研究论文须提供实证支持或深入的论证分析，剔除单纯的描述性分析文献。每篇文献均经过三位拥有教育技术学科背景的专家审读。最终经过四轮筛选以及手工剔除获得编码文献100篇，其中Web1.0时代有8篇，Web2.0时代有73篇，Web3.0时代有19篇。具体筛选流程见图2。

（3）文献编码和分析

为了探究数字人的技术发展、形象表征、测量方法及其对不同学科、不同学段教师教学与学生学习的影响，研究将数字人编码维度确定为：研究问题、技术支撑、学科、学段、声音、形象和测量方法7个方面。首先，研究从教育主体的角度将研究问题划分为智能教学和自主学习两大类。智能教学是指数字人作用于教师，赋能教师教学力的研究，如辅助教学互动、课后表现评价以及及时教学反馈等（Veletsianos，2012；Hong et al.，2014；Harley et al.，2017）。自主学习是指数字人作用于学生，辅助学生自主、积极地学习的研究，如自动问答、资源推荐、内容指导和学情反馈等（Tegos et al.，2015；Li et al.，2023）。其次，在技术支撑维度上，为了使数字人更契合时代发展需求，研究在文献阅读和分析的基础上，将充当数字人“眼睛”的计算机视觉技术、充当数字人“耳朵和大脑”的自然语言处理技术以及优化数字人表征的拓展现实技术三者作为子维度，将基础技术如多媒体、语音、建模等技术归为“其他技术”（Ciolacu et al.，2020；Zhai et al.，2021；Hwang et al.，2022）。最后，研究把应用学科分为文科和理科，把学段分为K12教育、高等教育、成人教育和特殊教育，把声音分为电脑合成和真人录制，把形象分为2D表征和3D表征，把测量方法分为访谈法、话语分析法、调查法和实验法。表1呈现了文献在不同编码维度上的分布情况。

2.研究发现和讨论

对文献进行编码后，研究从数字人的技术支撑、实践赋能和人本关注三方面展开分析，探讨数字人的技术发展、形象表征、测量方法及其对不同学科、不同学段教师教学与学生学习的影响。

（1）技术支撑

由表1可知，共有12篇文献运用了计算机视觉技术，25篇运用了自然语言处理技术，17篇运用了拓展现实技术，其余文献主要使用了传统的多媒体、建模、语音等基础技术。

首先，从技术运用整体趋势上看，教育领域中的数字人技术载体依然呈现欠智能、弱交互的特点，智能技术的应用远落后于新媒体、文娱等其他领域。这一局限致使数字人的可拓展性和增值性功能较弱，对教学的支持力度不足。究其原因，基础技术支撑下的数字人受特定算法限制，往往不能匹配学习者的最近发展区和兴趣发展，易造成学习倦怠。这也解释了为何多数研究仅能揭示数字人的短期教育影响，而缺少长期实验观察效果（Dai et al.，2022）。

其次，计算机视觉技术和拓展现实技术的应用频率随时间明显增加。Web2.0后期，图像处理、物联网以及虚拟仿真等技术的发展，以及学习者对学习体验要求的提高，刺激着教育场域新技术的应用步伐。一方面，在Web2.0交互观念的不断强化之下，学习者提高了对数字人识别能力的要求，希望其能像真实教师和真实学伴一样理解自己，对自身的认知错误和情绪变化能给予及时反馈（Lee et al.，2015；Loveys et al.，2020）。另一方面，在虚实不断融合的总体趋势下，学习者也提高了对学习的沉浸式体验要求。拓展现实技术包括混合现实技术、虚拟现实技术和增强现实技术，能以多种形式满足沉浸式体验。有研究发现，通过虚拟设备接入三维空间，数字人能在学习者的探索行为和感知体验之间起到中介作用（Alblehai，2022）。

最后，虽然技术支撑下的数字人总体上促进了学习者的学习绩效和学习体验，但是技术在不同学科或学段中应用的机理或效果仍不清晰。提取学科/课程、学段与技術支撑单独分析（如图3所示）可见：从学科/课程视角看，计算机视觉技术在生物课程中应用最多，自然语言处理和拓展现实技术分别在思政和教育学中应用最多。从学段视角看，数字人技术主要应用于高等教育领域（53篇），这可能是因为高等教育中技术研究和应用较为前沿；而其在特殊人群和弱势群体的应用相对缺乏，仅有7篇。从技术整合效果来看，大部分数字人整合课程都有积极的教学提升效果，但目前还尚未有研究对技术可能带来的负面影响进行实证检验，这是未来可继续深入探索的方向之一。

总的来看，首先，计算机视觉技术在数字人教育应用与研究中的分量不断增加，12篇涉及计算机视觉技术的研究都在2013年以后发表，其中8篇是在近两年发表。这一态势说明：借助计算机视觉技术对图像、视频等跨媒体数据的自动分析和解释，学习者能够对知识体系产生多维、立体化的理解。尤其是在生物等学科教学中，数字人不仅可以成为生物课程中的实验载体，而且能够在计算机视觉技术的加持下，进行复杂干预实验的仿真模拟。其次，基于自然语言处理技术的数字人在三个互联网时代上的文献分布较为均衡，这说明文本分析是数字人教学应用中较为受欢迎的支撑技术。通过图3可以看出，自然语言处理技术不仅适合于语言、思政等文科课程，也可以辅助教师在计算机、物理、数学等领域的教学。这说明自然语言处理技术在教育中的应用已经突破了传统的语言向量分析，朝向多模态的生成式预训练转换器的轨迹发展。再次，拓展现实技术因其能提供真实、交互的体验，在学科应用中也拥有较大潜力。如在教育学科中生成哲学家苏格拉底的数字人，可以允许学习者与之实现跨时空对话，增强学习体验。未来数字人技术的教育应用应更多考虑特殊人群和弱势群体的需求，确保数字人产品的易用性和可访问性，促进教育的包容性，建设真实的、泛在的学习化社会。

图3 不同学科/课程、学段中数字人技术的应用

（2）实践赋能

技术进入学校后，教育工作者需要深入思考两大实践问题：“教师应该怎样去教”和“学生应该怎样去学”（焦建利，2023）。从教育主体的角度出发，数字人赋能教学实践主要体现在教师教学和学生学习两方面。文献编码显示，教师智能教学中应用数字人的文献占总编码文献数量的23%，学生自主学习中应用数字人的文献占总编码文献的77%。

一方面，数字人在赋能教师智能教学上有积极作用，但局限性也较大。文献分析显示，数字人在教学实践上一般充当数字助理教师角色。如在课前、课中和课后分别辅助教师完成学生的先验知识测验、学习行为分析和学习反馈调节等教学工作。然而，此功能本质上仍是大众化、规模化和程序化的“教”，在教学场景中增添具象化数字人优化教师教学的做法与传统意义上的教学平台或教学系统相差不大，因此始终难以高质量实现因材施教、千人千面的教育愿景。

另一方面，数字人在赋能学生自主学习上有较多研究探索，也越来越受师生青睐。作用于自主学习的数字人通过满足学习者主动检索的需求，以高效、便捷的问答体系充当可视化数字教师或数字学伴的角色，给予及时有效的认知反馈和情感反馈。特别是在生成式人工智能的支持下，ChatGPT等大语言模型产品的应用，使数字人如虎添翼，能以更海量的数据、更优质的反应和更智能的语义检索促进学生自主学习。这或将成为未来数字教师的基本配置。然而，需要注意的是数字人主导课堂的实际效果仍受诸多变量调节，其在具体学科或学段中的应用效果仍待探索。

为了进一步探索数字人在不同学科/课程、学段赋能教与学的效果，本研究作交互图4进行分析。由图4可知，总体上数字人在文、理科上的应用数量相对均衡。深入分析文献发现：在具体学科/课程场景中，数字人主要应用于导入性或通识性课程（65篇），包括科学概念讲解、数字素养培养和实验现象呈现等。究其原因：一是由于算力有限，难以支撑数字人大规模地进行高精度、强仿真的实验操作，大多停留于知识呈现阶段；二是导入性课程大多为陈述性知识，其知识体系较为清晰、规整，数字人容易实现。然而，一旦涉及复杂的推理性课程，数字人的算法依赖性不利于学生发散性思维的养成，易使其陷入信息茧房危机，还有可能因算法偏见带来学术、道德和伦理风险问题。人在回路理论（Human-in-the-Loop Theory）认为：人的参与可以促进机器的正确运转，是回路中的重要一环（祝智庭等，2021）。自然人与数字人的相互协同是人工智能可持续健康发展的基础。真人教师应当充当数字人在赋能学生自主学习时的监督者和促进者，以有效提高教育效率、保证教育质量。但这一协作路径或许也会带来新的问题和挑战：真人教师和数字人协作的绩效和成果该如何界定？或许，现阶段技术背景下这一问题还不明显，然而随着ChatGPT接入以及自然人的镜像数字人的应用，这一数字版权问题将会更加突出。

图4 不同学科/课程、学段中关注的研究问题

从学段视角来看，高等教育和K12教育仍是数字人主要应用的教育类型，其原因前文已述，未来仍需加强数字人在成人教育和特殊教育中的探索和应用。这将有利于推动普通教育外的非正式教育和继续教育进步，进而推进学习型社会、学习型大国的建设。

（3）人本关注

技术虽能丰富教育手段，但其应用实践应体现“以人为本”的价值观（安涛等，2022）。Web1.0时代，数字人强调学生认知的提升而忽略了情感需求。Web2.0的交互理念部分弥补了这一空白，但沉浸感差、交互面窄以及中心化数字身份带来的问题仍阻碍着人本教育的发展。如今，以语义算法、情感计算和数据“可拥有”为主要特征的Web3.0或将推动数字人迎来全面、大规模的人本驱动的高质量教育发展。以人为本的教育应注重对学生自我认知发展和情感交互体验的促进（文冬等，2002）。

第一，自我认知发展。结合前人研究和编码文献内容可知，数字人声音和形象是影响学习者认知发展的两大要素。前者通过表意功能激活听觉通道优化认知信息的完整性，使感知主体产生事件参与感（吴瑶等，2020）；后者通过形意功能激活视觉通道，如必要的辅助手势、动画或面部表情，强化大脑认知图式的形成。以学段为数字人教育应用的调节变量，作交互图5分析数字人的声音、形象在不同学段的应用情况。

图5 不同学段数字人的声音、形象应用

由表1可知，Web1.0和Web2.0前期数字人声音的应用较为零散。这说明前期数字人较多的应用场景是无声的，仅以文字表征的形式呈现对话或答案。这种以知识传达为重心的数字人无暇顾及学生的深层次需求，其“在场”更像一种摆设，远谈不上人本理念的落实。此外，文献分析还发现，数字人还容易出现声唇异步，这会让学生产生不安和不自然感（Liew et al.，2016）。以往研究认为：真人语音数字人相较于合成音数字人更容易在学生群体中获得信任感，故学生体验更佳，但在学习产出上却没有显著差异（Son，2014；Chiou et al.，2020）。在图5中，两类数字人声音在同一学段内的应用频次差异较小。针对这一现象，研究认为原因有二：一是相较于视觉和触觉，学习者对声音不敏感。因为听觉既不像视觉可在大脑形成具象记忆，也没有触觉延伸出的肌肉记忆，故其变化对学习者认知或情感影响较弱。二是合成声音已足以媲美真人。现阶段，基于大规模数据训练的AI语音几乎可以完美复刻真人声音，且具有类型丰富、层次分明的特点（Craig et al.，2019），已模糊了其与真人声音之间的差异。

在数字人形象方面，3D数字人应用频次远高于2D，这符合大多数研究结论：越具象化的数字人越有利于学习效能和学习感知觉的提高（Lin et al.，2020；Oliveira et al.，2021），然而图5表明2D数字人仍有一定的应用空间。对2D或3D图像的可接受度，受年龄或性别等因素的影响。在年龄上，3D数字人主要应用于高等教育人群。除去高等教育研究前沿、技术先进等因素，还可能是因为高等教育人群腦神经发育较为成熟，对立体的视觉图像处理能力较强；而年龄较低的K12学生，其脑神经或其他感官发展不够成熟，如内耳中的前庭感受器接收视觉信号容易产生偏差、定位不准确而造成眩晕症，故2D等平面化表征更适合低龄段学生。在性别上，有研究发现：相较男性，女性会对写实的3D数字人产生更多的忧虑和恐惧，这或是源于女性较强的同理心，会对科技带来的潜在伦理做出感性预判（Zibrek et al.，2019），但这种差异是抽样误差抑或是真实误差仍有待进一步检验。

第二，情感交互体验。识别、测量、干预学生的情感是数字人凸显人本关怀的重要表现。首先是识别。Web1.0以及Web2.0前期偏重于技术的应用，教育工作者对识别学生情感的意识较弱，而后随着交互理念的强化对情感的关注逐步增强。其次是测量。由表1可知，已有研究在测量方法上多采用实验法（67篇）和调查法（23篇），其他研究方法使用较少，如话语分析法（11篇）、访谈法（2篇），其中有3篇文献综合使用了多种研究方法。这可能是因为实验法和调查法操作步骤清晰、分析结果明朗，可以满足大多数研究者的研究需求：即测量数字人对学习绩效或学习产出的影响。然而，此两类研究方法难以深入剖析学习者的情感变化。可以通过两种方式进行优化：一是借助轻量级生理反馈在实验中加强生理参数的捕捉，利用多模态数据进行情感计算（朱珂等，2020）；二是加强话语分析、自我报告等研究方法与实验法和调查法的混合使用，多维度、深层次揭示数字人对学生的情感交互影响。最后是干预。基于识别和测量，数字人应针对具体交互内容、交互方式和交互反馈等，做出适当的干预，提升学习者的情感交互体验。

四、数字人在教育中的应用趋势与挑战

数字人在多个学科和学段上均有广泛应用前景，对赋能教师智能教学和学生自主学习有明显积极意义，且有助于人本理念的具体落实。随着技术的不断更新迭代，尤其是ChatGPT等新工具的产生进一步释放了数字人的潜能，其未来应用趋势以及面临的挑战值得思考。

1.数字人教育应用的趋势

（1）类人化水平不断提高

在数字人发展过程中，从音容特征、算法规则到语义检索，其类人化水平不断提高。其一，音容特征。数字人的声音和形象不再是低质量、大众化地呈现，而是朝着适应个体特点、关注个体情绪的方向优化。其二，算法规则。数字人的算法规则趋于公开透明，并借力自然人参与的可靠标注数据和知识贡献，融合人在回路的思想，完善数字人的教育服务功能。其三，语义检索。由于Web3.0的编程接口更加开放，数字人调用ChatGPT变得更加便捷。基于海量Prompts库，学习者仅以模糊、片面的自然语言即可达到检索目的。

（2）身份可塑性逐渐增强

当下，数字人身份仍呈中心化，即归属原始开发者所拥有和控制。Web3.0强调“数据可拥有”，即在去中心化的环境中开放地让用户编辑和迭代网络数据。数字人的身份也可由自然人编辑和重塑。一方面，具有较强可塑性的数字人未来将作为开放教科书的一种形式，通过不断汇集社会上的多维数据源，特别是来自非正式学习场所的数据，逐步形成一个能自适应强化学习的智能体。另一方面，当数字人在虚拟社会群体中不断学习和仿真后，将可预测出群体发展趋势，这对判断学习者个人成长具有较大的参考意义。未来，人机共存的虚拟社区将走向成熟。凭借自然语言处理、拓展现实等技术，教育中数字人与自然人、数字人与数字人之间将以可塑的身份，通过交互激活虚拟社区的活跃度，以社交属性增强学习者的学习黏性，满足其归属感需求。

（3）共情力持续提升

教育的终极指向是人的可持续发展，数字人教育应用要紧密关注人的情感需求，优化数字人与自然人之间的交互质量。数字人“在场”不能仅作为摆设而存在，而应有实际情感计算力，能及时识别和干预学生的情感变化。已有研究发现：数字人的共情力能有效转变学生对校园欺凌的冷漠态度（Young Oh et al.，2020），从而减少校园暴力等问题的产生。同时，还有研究发现，数字人的声音和形象对情绪有重要影响。未来，基于AI绘图Midjourney、Unity插件Oculus Lipsync和ChatGPT等智能工具，教育中將能呈现更适切个体学习、更理解个体情绪的优质数字人。

2.数字人教育应用面临的挑战

第一，在技术上，数字人面临着算力保障不足以及数字版权不清等问题。由前文分析可知，数字人多应用于导入性和基础性课程，主要原因就是算力保障的不足。首先，要构设高沉浸、低延迟、强交互的数字人需要庞大的算力支撑，而这意味着高昂的教育成本支出。一方面，局限于技术壁垒，现有底层技术框架还难以支撑大规模的3D或全息场景的数字人教育应用，仅在游戏、新媒体等领域有小规模研究，教育中大多数数字人还停留在Web1.0和Web2.0时代的平面化教学阶段。另一方面，从教育效能产出角度，在尚未充分证实数字人相较于自然人的教育优势之前，盲目投入资金创设算力保障体系亦非明智之举。其次，即使区块链、数字藏品技术得到了一定程度的发展，但自然人与数字人、数字人与数字人之间共创的知识产权归属问题仍不清晰。2023年2月，中共中央、国务院印发的《数字中国建设整体布局规划》指出：要“释放商业数据价值潜能，加快建立数据产权制度，开展数据资产计价研究，建立数据要素按价值贡献参与分配机制”（新华网，2023）。这体现了国家层面对数字知识产权的系统化要求。受制于虚拟生态、数字经济底层框架的不完善，相应的产权制度、计价条例和要素分配不成熟，涉及虚拟态数字人的知识权限亦不明确。

第二，在实践上，数字人有可能导致教育功能的弱化以及个体学习的惰性。一方面，由已有研究可知，数字人应用仍难以满足复杂推理性教学任务，数字人仍存在明显的AI痕迹：机械化和形式化。学习者可能仅将数字人视为一种新鲜事物，在热度过后容易丧失学习动机，教育效率或大打折扣。此外，相较于真实教育场景的自然人，数字人难以适应学习者随时、灵活和频繁的交互特点。在数字人反应的“短暂间隙”，学习者容易产生割裂感。最后，数字人的反馈内容多为鼓励性语言而缺乏消极、挫折性反馈，这样的“温室教育”亦不利于学习者素质的全面发展。这样的数字人应用，极易导致教育功能的弱化和教育系统的混乱，也是大规模实践应用上面临的一大严峻挑战。另一方面，虽然在生成式人工智能加持下数字人的理解能力逐步增强，然而对数字人的依赖或恶意使用可能会产生学习异化。依赖数字人会弱化学习者创新思维能力培养，养成惰性学习思维（李芒等，2023）。更有甚者，恶意使用数字人亦可能导致学生走向学术不端、道德不正乃至违法犯罪道路。因此培育正确的数字人使用意识，强化人工智能应用的底线思维和风险意识尤为重要。

第三，在以人为本方面，数字人应用本身存在一定程度的伦理风险，如技术伦理风险和社会伦理风险。其一，在技术伦理风险上，数字人的教育价值取向囿于既定算法和未经筛选的网络数据，其信息传递和价值观传达存在隐患。在信息传递方面，即使是在生成式人工智能赋能下，数字人仍有可能在没有充分理解信息内在逻辑的情况下，一本正经地给出事实性错误答案，这可能误导缺乏专业知识储备的学习者，从而引起错误认知和学习迷茫。在价值观传达方面，篡改、否认历史事实等可能会导致学习者民族情感上的缺失和异化，这需要加强监督（王佑镁等，2023）。其二，在社会伦理风险上，未来，数字人作为师生在Web3.0的数字身份，其数据包会在跨平台中展示和分享。这意味着自然人映射到虚拟世界的数字身份信息可能会暴露，且因Web3.0的公开和透明，暴露程度或许远高于Web2.0时代。此外，有研究表示，ChatGPT-3.5或具有人类心智，其同理心能力相当于九岁儿童（Kosinski，2023）。未来拥有更智能技术支撑的数字人心智则会更成熟，这或将出现数字人反噬自然人的伦理问题。国内已有学者开始研究数字生命（Digital Life）计划，这是否会引发社会伦理道德问题，也值得深入思考。

参考文献：

[1]安涛，梁志远（2022）.信息技术教育应用为何低效？——基于“结构—过程”视角的教师教学行动分析[J].现代远程教育研究，34（6）：34-42，53.

[2]杜雨，张孜铭（2022）.Web3.0：赋能数字经济新时代[M].北京：中译出版社：227-247.

[3]焦建利（2023）.ChatGPT助推学校教育数字化转型——人工智能时代学什么与怎么教[J].中国远程教育，43（4）：16-23.

[4]李芒，杨宇轩（2023）.人非机器：对计算思维本质的认识[J].开放教育研究，29（2）：55-60.

[5]刘畅（2008）.网人合一·类像世界·体验经济——从Web1.0到Web3.0的启示[J].云南社会科学，（2）：81-86.

[6]王雪，乔玉飞，王崟羽等（2022）.教育智能体如何影响学习者情绪与学习效果？——基于国内外39篇实验或准实验研究文献的元分析[J].现代教育技术，32（8）：59-66.

[7]王佑镁，王旦，梁炜怡（2023）.“阿拉丁神灯”还是“潘多拉魔盒”：ChatGPT教育应用的潜能与风险[J].现代远程教育研究，35（2）：48-56.

[8]文冬，杨九民（2002）.基于人本主义学习理论的教学设计原则[J].电化教育研究，（12）：58-60.

[9]吳瑶，廖声武（2020）.数字时代有声阅读的听觉性“小生境”构建[J].出版广角，（23）：6-10.

[10]新华网（2023）.中共中央国务院印发《数字中国建设整体布局规划》[EB/OL].[2023-04-10].http：//www.xinhuanet.com/2023-02/27/c_1129401407.htm.

[11]翟雪松，楚肖燕，胡美如等（2022a）.从脑机接口到脑脑接口：认知传输与群体协同的教育变革[J].远程教育杂志，40（3）：24-34.

[12]翟雪松，楚肖燕，王敏娟等（2022b）.教育元宇宙：新一代互联网教育形态的创新与挑战[J].开放教育研究，28（1）：34-42.

[13]朱珂，张思妍，刘濛雨（2020）.基于情感计算的虚拟教师模型设计与应用优势[J].现代教育技术，30（6）：78-85.

[14]祝智庭，韩中美，黄昌勤（2021）.教育人工智能（eAI）：人本人工智能的新范式[J].电化教育研究，42（1）：5-15.

[15]Alblehai， F. （2022）. Can Avatar Homophily Influence Flow and Exploratory Behaviour of Online Users？[J]. Education and Information Technologies， 27（9）：12363-12379.

[16]Alonso， S.， López， D.， & Puente， A. et al. （2021）. Evaluation of a Motion Capture and Virtual Reality Classroom for Secondary School Teacher Training[EB/OL]. [2023-03-10]. https：//icce2021.apsce.net/wp-content/uploads/2021/12/ICCE2021-

Vol.I-PP.-327-332.pdf.

[17]Bringula， R. P.， Fosgate Jr， I. C. O.， & Garcia， N. P. R. et al. （2018）. Effects of Pedagogical Agents on Students’ Mathematics Performance： A Comparison Between Two Versions[J]. Journal of Educational Computing Research， 56（5）：701-722.

[18]Chiou， E. K.， Schroeder， N. L.， & Craig， S. D. （2020）. How We Trust， Perceive， and Learn from Virtual Humans： The Influence of Voice Quality[J]. Computers & Education， 146：103756.

[19]Ciolacu， M. I.， Svasta， P.， & Hartl， D. et al. （2020）. Education 4.0： Smart Blended Learning Assisted by Artificial Intelligence， Biofeedback and Sensors[C]// 2020 International Symposium on Electronics and Telecommunications （ISETC）. IEEE：1-4.

[20]Craig， S. D.， & Schroeder， N. L. （2019）. Text-to-Speech Software and Learning： Investigating the Relevancy of the Voice Effect[J]. Journal of Educational Computing Research， 57（6）：1534-1548.

[21]Dai， L.， Jung， M. M.， & Postma， M. et al. （2022）. A Systematic Review of Pedagogical Agent Research： Similarities， Differences and Unexplored Aspects[J]. Computers & Education， 190：104607.

[22]Han， Y. （2020）. A Study on the Effects of Collaborative Creation of Theatre on Community Competency of Middle School Students： Focusing on Case of Cooperative Integrated Arts Activities[J]. Korean Journal of Arts Education， 18（4）：325-351.

[23]Harley， J. M.， Taub， M.， & Azevedo， R. et al. （2017）. Let’s Set Up Some Subgoals： Understanding Human-Pedagogical Agent Collaborations and Their Implications for Learning and Prompt and Feedback Compliance[J]. IEEE Transactions on Learning Technologies， 11（1）：54-66.

[24]Hong， Z. W.， Chen， Y. L.， & Lan， C. H. （2014）. A Courseware to Script Animated Pedagogical Agents in Instructional Material for Elementary Students in English Education[J]. Computer Assisted Language Learning， 27（5）：379-394.

[25]Hwang， G. J.， Tang， K. Y.， & Tu， Y. F. （2022）. How Artificial Intelligence （AI） Supports Nursing Education： Profiling the Roles， Applications， and Trends of AI in Nursing Education Research （1993-2020）[J]. Interactive Learning Environments， DOI：10.1080/10494820.2022.2086579.

[26]Jamil， N.， Belkacem， A. N.， & Ouhbi， S. et al. （2021）. Cognitive and Affective Brain-Computer Interfaces for Improving Learning Strategies and Enhancing Student Capabilities： A Systematic Literature Review[J]. Ieee Access， 9：134122-134147.

[27]Jennings， N. R. （2000）. On Agent-Based Software Engineering[J]. Artificial Intelligence， 117（2）：277-296.

[28]Kosinski， M. （2023）. Theory of Mind May Have Spontaneously Emerged in Large Language Models[EB/OL]. [2023-03-10]. https：//arxiv.org/vc/arxiv/papers/2302/2302.02083v2.pdf.

[29]Lee， H.， Kanakogi， Y.， & Hiraki， K. （2015）. Building a Responsive Teacher： How Temporal Contingency of Gaze Interaction Influences Word Learning with Virtual Tutors[J]. Royal Society Open Science， 2（1）：140361.

[30]Li， W.， Wang， F.， & Mayer， R. E. （2023）. How to Guide Learners’ Processing of Multimedia Lessons with Pedagogical Agents[J]. Learning and Instruction， 84：101729.

[31]Liew， T. W.， Zin， N. A. M.， & Sahari， N. et al. （2016）. The Effects of a Pedagogical Agent’s Smiling Expression on the Learner’s Emotions and Motivation in a Virtual Learning Environment[J]. The International Review of Research in Open and Distributed Learning， 17（5）：248-266.

[32]Lin， L.， Ginns， P.， & Wang， T. et al. （2020）. Using a Pedagogical Agent to Deliver Conversational Style Instruction： What Benefits Can You Obtain？[J]. Computers & Education， 143：103658.

[33]Loveys， K.， Sagar， M.， & Broadbent， E. （2020）. The Effect of Multimodal Emotional Expression on Responses to a Digital Human During a Self-Disclosure Conversation： A Computational Analysis of User Language[J]. Journal of Medical Systems， 44（9）：143.

[34]Makransky， G.， Wismer， P.， & Mayer， R. E. （2019）. A Gender Matching Effect in Learning with Pedagogical Agents in an Immersive Virtual Reality Science Simulation[J]. Journal of Computer Assisted Learning， 35（3）：349-358.

[35]Moher， D.， Liberati， A.， & Tetzlaff， J. et al. （2009）. Preferred Reporting Items for Systematic Reviews and Meta-Analyses： The Prisma Statement[J]. Annals of Internal Medicine， 151（4）：264-269.

[36]Oliveira， R.， Arriaga， P.， & Santos， F. P. et al. （2021）. Towards Prosocial Design： A Scoping Review of the Use of Robots and Virtual Agents to Trigger Prosocial Behaviour[J]. Computers in Human Behavior， 114：106547.

[37]Park， J. S.， O’Brien， J. C.， & Cai， C. J. et al. （2023）. Generative Agents： Interactive Simulacra of Human Behavior[J]. arXiv：2304.03442.

[38]Son， C. （2014）. Design Principles of Animated Pedagogical Agent and Instructional Message for Affective Learning[J]. Educational Technology International， 15（1）：1-26.

[39]Tegos， S.， Demetriadis， S.， & Karakostas， A. （2015）. Promoting Academically Productive Talk with Conversational Agent Interventions in Collaborative Learning Settings[J]. Computers & Education， 87：309-325.

[40]Veletsianos， G. （2012）. How Do Learners Respond to Pedagogical Agents that Deliver Social-Oriented Non-Task Messages？ Impact on Student Learning， Perceptions， and Experiences[J]. Computers in Human Behavior， 28（1）：275-283.

[41]Young Oh， E.， Song， D.， & Hong， H. （2020）. Interactive Computing Technology in Anti-Bullying Education： The Effects of Conversation-Bot’s Role on K-12 Students’ Attitude Change Toward Bullying Problems[J]. Journal of Educational Computing Research， 58（1）：200-219.

[42]Yung， H. I.， & Pass F. （2015）. Effects of Cueing by a Pedagogical Agent in an Instructional Animation： A Cognitive Load Approach[J]. Educational Technology & Society， 18（3）：153-160.

[43]Zhai， X.， Chu， X.， & Chai， C. S. et al. （2021）. A Review of Artificial Intelligence （AI） in Education from 2010 to 2020[J]. Complexity， Complexity，（6）：1-18.

[44]Zibrek， K.， Martin， S.， & McDonnell， R. （2019）. Is Photorealism Important for Perception of Expressive Virtual Humans in Virtual Reality？[J]. ACM Transactions on Applied Perception （TAP）， 16（3）：1-19.

收稿日期 2023-04-06 責任编辑汪燕

Digital Human in Educational Research： Evolution， Trends and Challenges

ZHAI Xuesong， WU Tinghui， LI Cuixin， QIU Tingting， LI Yan

Abstract： Digital humans in education refer to virtual beings present in digital spaces， designed to enhance learning effectiveness and perceptual experience through knowledge transmission and social interaction. The development of digital humans is closely intertwined with the evolution of the Internet， marked by technological advancement and application innovation. Initially， digital humans in education supported one-way knowledge transmission， lacked emotional engagement， utilized multimedia representation， and had limited behavioral interaction. However， with the progress of the Internet through its three phases， digital humans have transitioned towards facilitating multi-directional knowledge transmission， emphasizing emotional engagement， and employing 3D or holographic representation with enhanced interactive capabilities. Despite these advancements， the technological support for digital humans in education still exhibits characteristics of limited intelligence and weak interactivity. Nevertheless， there has been a noticeable increase in the application of computer vision and augmented reality technologies， which offer promising avenues for further development. At the practical level， digital humans have played a positive role in enhancing intelligent teaching for educators and fostering autonomous learning for students. However， their current application primarily focuses on higher education and K-12 education stages. Concerning human-centered aspects， digital humans significantly influence learners’ cognitive development through two major design elements： sound and visual representation. Additionally， they enhance learners’ emotional interactive experience by enabling identification， measurement and intervention. As technology continues to evolve， digital humans demonstrate a development trend of constantly increased human-like characteristics， gradually enhanced identity adaptability and continuously improved empathy. However， digital humans also face a range of challenges， including insufficient guarantees of computing power， unclear digital copyrights， potential risks of educational dilution or learning inertia， and ethical concerns. Looking towards the future， the education application of digital humans should prioritize the development of human-machine collaboration models and improve underlying technologies， with a focus on the fundamental goal of nurturing individuals to promote equitable and high-quality development of education.

Keywords： Digital Human; Education Application; Internet Phases; Digitalization of Education; Generative Artificial Intelligence