基于智能技术的多模态学习分析：内涵、模型、挑战

2024-01-29 09:40李嘉瑶

中国教育技术装备 2024年1期

李嘉瑶

山西师范大学太原 030000

0 引言

在教育领域，技术的更新和发展改变了学生学习过程中处理和获取知识的方式，如眼动技术、心电图技术、传感技术等。这些技术助力研究人员对教育大数据进行测量、收集、分析，以优化教学质量。在此过程中，研究者利用多模态传感器对学习者的数据进行收集和分析，包括人脸和语音识别系统、眼睛追踪、姿势和互动日志数据等，并同步和编码数据，在现实、社交、混合媒体学习环境中检查学习效果[1]，为学生提供个性化的用户体验。多模态学习分析已经成为大数据分析、智能教育、人工智能等现代教育中的重要一环，并且成为了各个领域专家学者研究的热点话题。基于此，文章聚焦于多模态学习分析，从内涵、多模态学习分析模型与发展面临的挑战三个方面，探讨多模态学习分析的发展与趋势，为学习分析的相关研究与实践提供参考与借鉴。

1 多模态学习分析

1.1 多模态学习分析

多模态学习分析（MMLA，Multimodal Learning Analytics）是学习分析的一个新兴领域，在扩展学习分析的目标方面发挥着重要作用，即理解和改善所有不同环境中的学习。学习分析是一种教育背景下的社会技术数据挖掘和分析实践，为了解释学习的发生和改善现有的学习环境，测量、收集、分析和报告来自学习者、学习过程和学习环境的数据[2]。随着越来越多的教育数据可用或变得可以通过创新方式收集，学习分析已被证明有助于通过使用相关数据来推进教育。正如Wong等人所述，近年来，学习分析已经在世界各地区的众多教育机构中得到应用[3]。

多模态学习分析领域是多学科领域交叉的结果，它借鉴学习科学、认知心理学、神经科学和行为科学等理论，借助眼睛追踪器、传感器、脑电、心电、人机交互等设备采集学习者的学习痕迹数据，建立多模态数据与学习指标之间的对应关系，以提高教师的教学质量，优化学习者的学习环境，分析学习者在复杂环境下的学习表现。这一领域的研究和实践面临的挑战是如何发展关于不同学习过程中人类行为分析的理论，并创造有用的工具，以符合道德和可持续的方式增强学习者和教师的能力[4]。

与基于日志的学习分析不同，多模态学习分析（MMLA）旨在通过收集、处理和分析关于学习的多种学习痕迹来呈现更全面的学习过程[5]，以优化教学质量。在此过程中产生的数据来自学习场景的数字和物理空间，叫做多模态学习数据。其中的“多”指“不止一个”；“模态”是指用来传递和获取定义数据交换信息的通信信道类型。多种模态是研究者用来收集学习场景信息的不同沟通渠道，例如网络学习中，学生的鼠标点击痕迹；传统课堂中，学生的声音和动作等。多个数据源反过来反映了学习过程发生的多种模式，例如视觉、听觉、触觉、具体化等。

1.2 多模态学习数据

多模态数据是指包含两种及以上不同形式或不同来源的学习数据[6]。在智能化的教学课堂上，以图像、文本、声音、纹理等多种模态形式[7]存在的大量细粒度数据由传感器、眼动仪、学习日志等多种数据源产生。不同模态的数据存在互补作用，能提供更多的解释信息[8]，研究者通过多种模态数据的融合能剖析真实学习场景下学生的生理状态和心理状态。多模态数据包括数字数据、物理数据、生理数据、心理测量数据、环境数据[9]。数字数据是指学习过程中在系统平台上产生的各种数字痕迹，例如在线学习平台、虚拟实验平台或STEAM教育软件[10]。物理数据是由各种传感器获得的数据，如姿势和身体运动。生理数据是指与人体内部生理反射相关的数据，包括脑电和心电，客观反映学生的学习状态。心理测量数据指的是学习者的正向情绪、负向情绪和抗压能力等。环境数据是指学习者所处的学习场所的相关数据。

多模态学习数据具有三个特点。1）复杂性。不同类型的学习数据具有不同的特征，多模态学习数据包括客观的、可观察的生理数据（包括脑电、心电）和主观的、不可直接观察的心理数据（自我问卷）和行为数据（包括肢体动作、学习日志）等。采集多种模态学习数据的学习情境是复杂的，例如学生的知识储备不同、课堂的纪律性、教学设备故障、意外干扰等。2）动态化。由于教学的过程性和人是发展的，决定了在学习过程中产生的教育数据是动态的，不断变化的，学习者的心理、生理数据的测量都会随着学习者的认知能力以及学习环境、学习态度等发生实时变化。3）学习数据的收集、处理和分析由教师、研究人员和开发人员共同完成。对于很多一线教师或者学校管理者来说，多模态的学习分析过程需要技术的支持；对于技术开发人员来说，具有良好的教育知识背景是教育大数据分析的前提；对于研究人员来说，多模态学习分析需要通过收集、处理和分析关于学生的多种学习痕迹来呈现更全面的学习过程[11]，并产生异构数据集。

1.3 多模态数据收集工具

由于多模态数据的复杂性和动态化，想要得到全面的学习数据，呈现学习者更全面的学习过程，需要用到不同的数据收集工具。而在多模态学习分析的过程中，学习者和教师是否在同一时空，即不同的学习模式决定了数据的来源和收集数据的工具会有所不同。根据学习者和教师是否在同一时空，可以将学习模式划分为远程学习、面对面学习、混合学习三种类型，如表1[12]。

表1 不同学习模式下的多模态学习数据收集工具

其中，以网络为基础的远程学习使学习空间不再局限于教室、实验室等课堂，而是可以发生在任何场所。因此，多模态学习分析平台的使用可以根据学习模式的不同划分为三类，即远程学习模式下以虚拟学习空间为主的数据收集工具，面对面学习模式下以物理空间为主的数据收集工具和混合学习模式下以物理空间和虚拟空间为主的数据收集工具。

1.3.1 远程学习模式下的多模态数据收集

在以计算机为辅助的远程学习环境中，研究者可以结合第三方数据平台进行数据收集，如 Worsley,M等人[13]在学生协作素养的学习分析中使用的由无线音频/视频数据收集设备的分布式系统、集中式服务器和用于实时或事后访问数据的安全、基于网络的接口组成的BLINC平台，他提出BLINC工具创新技术架构与多模式学习分析（MMLA）相结合的方式，可用于支持提高协作素养的目标。此外，GISMO是一个图形交互式监控工具，为教师提供在线课程中学生活动的有用可视化。MOOC平台开放了数据集MOOC-Ed Dataset[14]，可以供研究者进行数据采集和分析。除了MOOC平台，LOCO-Analyst工具旨在向教师提供在基于网络的学习环境中进行的学习过程的相关方面的反馈；而SNAPP工具允许用户可视化论坛帖子。DataShop提供了一个保护和存储研究数据的中央存储库，以及一套分析和报告工具。

1.3.2 面对面学习模式

在传统的面对面课堂学习中，课堂观察应用程序Observata[15]用于设计和系统地观察使用数字资源的课程。除了支持非结构化观察之外，该工具还支持通过基于学习交互的系统观察来收集数据（学习事件是分析的单位）。该工具还允许从课程实施中推断学习活动（新出现的计划/观察到的课程结构）并收集现场笔记（非结构化观察）和照片。Emerson A等人[16]整合物理硬件传感器和展览专用软件捕获多通道数据流，计算博物馆游客参与度的停留时间。他采用微软视窗版Kinectv2运动感应相机捕捉游客的姿势和手势，外部安装的罗技c920 VSB网络摄像头可以捕捉游客的面部表情。他通过分析游客的面部表情、身体运动、眼睛凝视以及游戏交互提取特征，预测游客在展览品处停留的时间。这些设备同样可以运用到课堂学习中，预测学习者在学习过程中的表现。开源工具包OpenFace可以分析视频数据，检测学习者的面部标志、估计头部姿态、识别面部动作单元（Aus）等等。OpenFace会自动检测并分析摄像机视野内实时捕捉到的每个参与者面部的17个不同AUs。因此，这个开源工具包适用于面对面的课堂教学情境。

1.3.3 混合学习模式

在混合学习的学习环境中，研究者可以使用眼动跟踪和脑电图测量等多模式数据提取器功能工具对数据进行收集，如Tamura[17]发现了一种测试大学生混合学习环境的方法。他发现的框架能使学习者和教师基于网络的界面进行互动，他更新并提出了MMLA架构和原型开发，其中包括多模式传感器，包括脑电图和眼睛跟踪器，双平板电脑。该系统旨在减少操作层面，并为许多人提供便捷的视觉效果，特别是针对年龄较大或难以学习在线平台的学习者。

2 多模态学习分析的模型建构

由于多模态数据的复杂性和动态化，研究者为了能够全面准确地处理复杂的、有意义的异构数据集，需要设计一系列数据处理活动。在近三年相关实证研究的案例中，研究者根据特定的学习场景制定不同的数据处理活动。本文以“多模态数据”“多模态学习分析”“Multimodal learning analytics”为搜索词在中国知网和Web of Science、Elsevier Science Direct、Springer Link、ACM Digital Librar等数据库进行检索，筛选出相关中文文献39篇和英文文献59篇，通过通读论文摘要，最终得到讨论数据处理活动的文章共10篇，其中提及的数据处理活动如表2所示。

其中Pankaj Chejara等人提出的多模态数据的数据处理流程比较全面，主要包括数据收集与注释、数据准备、数据组织、数据融合、数据分析、可视化、决策等。因此，文章以该数据处理流程为基础，构建了多模态学习分析的模型，如图1。其中数据处理活动是非线性的，数据处理顺序可根据实际学习情境灵活调整。

图1 多模态学习分析模型的建构

数据收集阶段：数据收集与注释、数据准备和数据的组织过程。数据收集与注释来自不同的数据来源：生理数据（如心率、步数、身体姿势或凝视位置）；数字数据（如来自学习平台的日志、学生记录）等。数据准备活动在10篇论文中有7篇都提到了数据的准备活动，常见的策略有数据清洗、预变换、多模态特征提取和预处理。数据组织是指学习设计和学习活动的规范在这一活动中起着主要作用，它指导相关数据源的选择，其中包括模态选择。

数据融合阶段：将收集的学习数据本着互证性、连贯性、对齐性的原则[9]，根据数据的关键特征集成两个及以上的数据集，存储在MySQL数据库、学习记录存储库或更通用的数据仓库。数据融合是多模态数据分析最重要的一个阶段。

数据分析阶段：包括数据分析、可视化和决策。数据分析包括了利用统计分析的方法、机器学习算法和分析方法对信息集合所进行的研究，如对多模态信息的统计分析、相关性分析、聚类和预测研究、模式识别等[9]。可视化是指通过把教学资料的结果可视化，用图示的方式展示给教学参与者，并在此基础上指导教师进行下一步的教学决定。而决策分析则是指教学参与者可以根据可视化的成果中的问题、特征等作出判断，并依据其对自己的教法、学习者评价等情况提出可借鉴的意见与对策从而改善课堂教学，提升教学效果。

3 多模态学习分析的未来发展和挑战

3.1 未来发展

3.1.1 神经科学领域智能技术的发展助力MMLA

采集和分析大脑数据是真正理解学生如何学习的关键因素。人类神经科学和神经技术（braincomputer interfaces,BCIs）的飞速发展为研究者获取、收集、共享和分析人脑中的信息提供了更多机会[18]。在不久的将来，即将推出的小型高质量脑电图设备，可以实时分析关于学生心理状态和神经活动的私密数据。研究人员可以整合大脑数据和其他多模态数据一起融合分析，以实现对学生学习过程的全面理解。

3.1.2 心理学领域智能化情绪感知的发展助力MMLA

心理学的研究表明，学习者个体情绪的产生和变化受到生理、心理以及外部刺激的共同作用。因此，学习者的情绪表征不能由单一模态的数据来表达，而是多种模态数据共同反映的结果。为了数据的精准化，数据采集阶段利用多种智能传感设备对学习者的语音、表情、文本、生理信息等多模态数据进行采集、测评；数据建模阶段对学习者的情绪状态进行全方位、多层次的深度诠释，基于外部刺激、生理、心理内部需要以及个体特征构建情绪的外在表征模式和内在发生机理。

3.1.3 计算机领域智能技术的发展助力MMLA

随着大数据技术、云存储技术、学习分析技术、人工智能技术等智能化技术在教育学领域的普及和发展，使学习过程可以数字化的被记录，学习状态可以被图像化的分析，学习历史有迹可循[19]。技术的发展使研究者从多模态层对学习过程进行全面洞察。研究者通过了解技术之间的表征符号、功能和属性，将技术的固有属性与人类行为和思维模式相结合，帮助理解技术使用与符号制作活动的关系，从而了解学习者的学习状态和学习过程。MMLA在教学中的应用主要包括：

1）学习过程的实时视觉反馈[20]；

2）学习过程的实时监控，例如课堂注意力的实时评估，以及课堂师生互动的实时分析；

3）多模态数据支持的教学设计，促进学生认知发展；

4）建立多模态数据集，设计多模态融合的深度学习分析模型等。

3.2 面临的挑战

3.2.1 数据收集涉及学习者隐私

多模态学习分析（MMLA）研究领域的进展通常是通过积极探索与数据收集和分析相关的新技术和技巧来实现的，多模态学习分析（MMLA）研究中数据的收集容易侵犯个人隐私，学习者对此应具有一定的知情权，知情同意是一个过程，使个人能够根据对研究目的、程序、风险和益处的理解，自愿决定是否参与研究。生物伦理等相关领域的研究表明[21]，许多学习者在看到知情同意书并不理解研究者的做法。因此，需要更多的研究来找到一种平衡的方法，将人类价值观和需求纳入学习分析的设计需要多学科方法、新方法、技能和知识，以确保技术以最符合道德和实际的方式服务于用户的需求。为此，研究者需要引发关于多模态数据的价值的更深入、更有成效的思考和对话。

3.2.2 数据集的可移植性差，缺少公共的数据集

数据集的可移植性指的是，教育机构、教师、研究人员不应将自己的数据存储在彼此不兼容的“孤岛”或“围墙花园”中。数据收集和分析平台或工具种类繁多，它们之间的数据不具备可移植性，这就导致教育工作者和研究者只使用特定的工具得到特定的数据，造成了数据无法共享。而收集数据和数据的处理工程量巨大且耗费时间，造成人力和物力资源的浪费，因此应使用应用程序编程接口（xAPI）或IMS Caliper等统一标准[22]，提高数据集的可兼容性。

3.2.3 研究结果的适用性和通用性差

研究者在不同的真实情境下设计的学习方案、学习者群体特征、学习环境等因素的影响下，会得出不同的学习者模型。这个研究成果不能通用，适用性较差，这也是教育研究中普遍存在的问题。研究者可在挖掘多模态学习分析的技术服务模式、开发基于多模态的教学模式、多模态学习分析方法等方面有更多的探讨，为学习者找到提升学习效果的最佳路径。

4 结束语

多模态学习分析是学习分析研究中的一个重要内容，它可以推动认知诊断、情感计算、交互分析、场景感知、学习者建模等方面的发展，从而为智能技术在教学中的应用提供理论和技术支撑。随着智能技术的飞速发展，加强神经科学、智能感知情感理论、智能技术与多模式学习分析等技术的深度结合，推动多模式学习分析在教学实践中的应用，不断完善理论和技术模式，从而使学习分析领域得到更大的扩展，推动智能教育生态的转变。

后期将进一步加强对情感计算、情景感知、交互分析等特定应用的研究，深入挖掘其深层价值和技术服务模式，深入了解其分析机理，促进其快速发展。