多模态学习分析:学习分析研究新生长点

2020-05-21 02:49牟智佳
电化教育研究 2020年5期

[摘   要] 多模态学习分析是多模态交互、学习科学、机器学习等领域交叉形成的一个新方向,它利用多模态数据对复杂环境下的学习行为进行分析以优化学习体验。在空间结构上,多模态学习分析以学习机理为核心,以多模态交互、多模态感知、多模态语义理解为技术支撑,形成跨模态、跨空间、跨数据、跨分析的独特体系。在数据分类上,多模态学习分析涵盖学习体征数据、人机交互数据、学习资源数据和学习情境数据,形成以学习者为中心的内外数据链相融合的数据生态。在分析模型上,以传感器捕获、语义解析、机器学习、反馈解释为分析过程,以模式识别、学习分类、预测、行为变化为分析结果。未来多模态学习分析在自动化数据采集、跨空间分析建模、可扩展分析工具、学习计算、数据隐私保护等方面还有进一步的研究空间。

[关键词] 多模态学习分析; 多模态交互; 学习科学; 复杂学习环境; 学习行为数据

[中图分类号] G434            [文献标志码] A

[作者简介] 牟智佳(1987—),男,山东栖霞人。副教授,博士,主要从事学习分析、個性化学习、信息技术与课程整合等方面的研究。E-mail:ambitionyt@163.com。

一、学习分析组织研究的新路向

学习分析概念自提出以来,得到全球范围内研究者的广泛关注和持续探索。从学习分析研究主题来看,学习分析研究已由初期关注学习者的行为、活动、互动、结果等外在表现,逐渐转变到关注学习者的情感、认知、自我调控、复杂问题解决等内在学习机理问题。从数据采集来源来看,由初期的基于网络平台和视频录制技术采集的学习日志、互动文本、学习表现等单一模态数据,拓展为基于可穿戴设备采集的脑电波、心跳、皮电、移动位置等多模态数据。各类感知设备和学习生理数据的可获取性作为外部因素推动了学习分析数据集的发展,而对学习发生的机理及学习心理变化的教育追问则作为内部因素推动学术群体的持续探索,此外数字化学习时代下学习数据的分布式特征决定了单一模态数据难以准确揭示学习规律,以上三方面的内外动力促使学习分析研究催生了新的研究方向:多模态学习分析。该方向通过采集和整合与学习者相关的多维数据,解释和发现内在学习过程、特征与变化,有助于进一步改善学习体验,这与学习分析的宗旨一脉相承。同时,基于高维数据集进行多模态学习分析,为发掘新的学习理论提供了可能性路径,是学习科学和机器学习领域新的研究路向。

二、多模态学习分析的兴起与发展

(一)多模态学习研究的兴起及成因

多模态是多种感官的融合,近二十年来功能语言学、会话分析、社会符号学等学科领域都对其进行了研究探索,经过发展已演变为一种统筹化的理论[1]。人工智能和机器人技术的发展进一步催生了多模态交互,它是机器人与人之间通过文字、语音、动作等进行的一种交互方式。多模态交互研究主要探讨不同的模态之间如何相互作用以及如何通过互补来传递和强化内容与意义。在学习情境中,使用多模态数据进行教育实验的探索可以追溯到20世纪90年代初,Ambady和Rosenthal发现,通过观察大学生交互的“薄片”可以预测学生的期末表现,即通过短的视频片段分析他们的身体和非语言行为[2]。这些早期发现为一种新的研究假设铺平了道路,即利用多种数据源和社交信号处理推断认知和社交过程的可能性。

近年来,各类可穿戴传感器技术、物联网技术的发展和大数据计算能力的提升为多模态研究提供了必要的技术支撑。多模态学习研究的兴起除了技术推动的作用之外,还起源于对教育发展规律的持续探索,多模态与教育分析有着天然的契合度:(1)多模态方法更符合人类交流的本性。人类交流过程中对多种形态的使用较为丰富,且这些形态形成互补[3]。在人类交流过程中,通常会使用多种形态来表达他们的意图和情绪,例如面部表情、声调、肢体动作等。而在教育传播过程中,教师的授课以及师生之间的互动也是通过多种形态进行表达。(2)跨物理和数字世界的建模正成为一种日益增长的需求。将物理空间和数字化空间中的学习交互联系起来,对于分析学习机理和意义创造具有重要价值。可穿戴追踪器可以收集物理学习空间中学习者的言语、肢体行为和手势等交互操作,这些数据可以与网络学习中的日志数据、档案信息数据相整合。学习活动与流程是分布式的,学习管理系统中发生的内容交互及数据只占学习活动中的一小部分,并不是整个学习过程。通过整合多模态数据可以使学习过程的追踪和学习分析更完整。通过以上分析可以看出,时代的变迁、技术的深入发展以及研究者对教育求真的探索,促使多模态学习分析逐步形成独特的学术共同体,推动教育研究从单模态走向多模态。

(二)多模态学习分析组织及其研究

1. 多模态学习分析概念与目标取向

多模态学习分析(Multimodal Learning Analytics)概念最早是由美国南加州大学创新技术学院的Stefan Scherer和Louis-Philippe Morency、西北大学的Marcelo Worsley等于2012年在第十四届《多模态交互国际会议》上正式提出并发表[4]。它是三个概念的交叉点:多模态教学与学习、多模态数据、计算机支持的分析,本质上它利用非传统和传统数据形式在三个概念之间所形成的三角关系来描述或模拟复杂学习环境中的学生学习[5]。因此,多模态学习分析是一个横跨学习科学和机器学习的研究领域,能够为复杂学习行为和学习理论之间搭建桥梁。它利用多模数据捕获和信号处理技术研究复杂学习环境中的学习[6]。多模态学习分析的目标是通过收集多种形式的数据,将复杂的学习行为与学习理论和学习策略联系起来,以跟踪学习体验[7]。在研究取向上,多模态学习分析侧重对情境学习活动中自然、丰富的交互进行分析,包括演讲、写作、对象操作、工具使用、制品搭建、非语言交互(手势、面部表情、注视)等。

2. 历届多模态学习分析工作坊议题进展

Stefan Scherer等在2012年发起了第一届多模态学习分析工作坊,并在“多模态交互国际会议”上连续举办四届,之后依托其他国际会议继续举办。首届工作坊主要探讨多模态学习分析的发展前景与应用价值。该研究领域将多模态分析技术与学习科学结合起来,并促使研究者能够更好地理解学生的学习,以创造更自然、丰富的学习界面。第二届工作坊目标,一是聚集既有丰富教学经验又有严格技术要求的人员,开发和传播分析多模态学习数据的新技术;二是开发新的学习分析技术以更好地适应智能手机、平板电脑等现代化计算设备的多模态接口。第三届工作坊集结了计算机科学、学习科学、学习技术和数据科学等领域专家,包含一次研讨会和两项分会(数据驱动的巨大挑战),其中研讨会要求演讲者集中讨论学习信号的多模态分析过程中不同研究和技术方法的优点和缺点,包含四项议题:不同形式多模数据融合的理论和概念思考、通过语音分析确定学习练习过程中的融洽程度、真实课堂中的视频分析、复杂学习环境下的多模态分析作用。分会研究问题包括通过计算机自动预测哪些数学问题能够被正确解决、如何利用多模态技术评估演讲质量以及演讲者行为等[8]。第四届工作坊聚焦于通过新技术捕捉多模态学习数据,以及开发丰富的多模态学习应用。包含两项议题:(1)学习环境的多维捕获。该挑战强调需要开发用于从非结构化环境中有效收集数据的多模态工具,虽然在实验室环境中可以合理地对少数实验学生完成多模态数据的采集,但在真实、日常学习环境中进行课堂范围内的多模态数据采集和分析非常具有挑战性。(2)整合人体运动的多模态学习应用。该挑战包含寻求软件和硬件的解决方案、应用类似Microsoft Kinect、Leap Motion等低成本运动传感器进行分析、利用现有软件应用程序进行改编以简化软件开发流程[9]。

通过对四届工作坊议题内容分析可以看出,多模态学习分析为物理空间和数字世界中的人、设备、资源之间所产生的学习测量与评价分析提供了新的视角,应用多模态学习分析改善学习过程、优化学习体验已成为研究共识。在研究挑战上,数据源类型、采集技术与工具、分析方法是需要持续解决的技术问题,如何从教育实验环境下的个案分析走向真实教育场景下的全样本分析是研究实践所面临的挑战。

3. 学习分析研究协会下的多模态学习分析探讨

Paulo Blikstein在第三届“学习分析与知识国际会议”中提出多模态学习分析,拉開了该组织开始探讨多模态学习分析的序幕。之后,Xavier Ochoa等在该组织下发起了首届“多模态学习分析数据挑战”工作坊,讨论主题包括:易获取的多模态数据、分享先进的分析方法和技术、描绘多模态学习分析研究现状、确定新的数据集[10]。第二届工作坊旨在创造共同的研究基础,以便更好地了解当前的研究与实践状况。通过让参与者提交个人数据集,进一步讨论哪些是利用多模态数据进行设计和分析的优秀实践[11]。通过上述两个组织的议题讨论可以看出,围绕同一主题,不同学科背景的研究者在不同学术组织中都进行了一定程度的探讨,有共性也有差异,后面需要进一步破除学科壁垒,实现共同对话与磋商。

三、多模态学习分析的空间结构与数据分类

(一)多模态学习分析所形成的多维空间探索

学习分析领域早期关注的重点是分析学生使用某些数字化学习工具所产生的行为,这种基于计算机的学习环境来理解和优化学习过程的方法存在一定的片面性,现实世界中还包括其他非计算机下的学习环境,包括课堂学习、校园学习、家庭学习等,在这些情境下可以通过物联设备来尽可能追踪学习痕迹以进行多模态分析。Sharon Oviatt提出多模态学习分析所能创造的多维探索空间[12],如图1所示。其中左边表示模态的分类,包括讲话、写作、手势、表达、注视、身体活动;上边表示分析的层级,包括信号、活动、表征、元认知、交互;横向和纵向双箭头交叉表示可以支持开展更加全面、系统、复杂的学习过程分析,而这有助于进一步生成新的学习理论。

(二)多模态学习分析的空间结构

多模态学习分析是在学习分析研究中为探索复杂的学习行为和过程,基于多维数据进行分析以进一步探索学习机理所形成的一个方向。以往学习分析研究侧重搜集学生的学习行为数据,通过外在行为推测学习表现,以此得出的研究结论存在一定局限性,也很难揭示学习的内在原理及其变化。从对象结构要素来看,信息化时代下的学习是以学习者、各类学习终端、多样化的学习资源为基础要素所构成的一种学习方式,而多模态学习分析则是对这三类基础要素之间的相互联结所形成的一系列行为进行立体分析,由此形成一个空间结构,如图2所示。其中,学习者与计算机之间形成多模态交互,包括文本交互、语音交互、界面交互等;学习者与学习资源之间通过视频、图片、动画等形成多模态感知;计算机与学习资源之间通过数据语义、知识语义、自然语言等形成多模态语义理解。在学习空间上,由学习者、计算机和学习资源之间相互联结形成物理空间、网络空间和虚拟空间,这三种空间是信息化时代下支撑学习的主要空间形式。因此,多模态学习分析是以学习机理为核心,以多模态交互、多模态感知、多模态语义理解为技术支撑的结构关系,以跨学习空间为环境基础,对围绕学生所产生的学习体征数据和学习行为数据进行立体分析,以揭示学习变化机理及其规律。

(三)多模态学习分析的数据分类

可穿戴技术的发展与成熟使得对学习体征类数据的捕获成为可能,也促使学习分析由关注学习显性行为数据分析转向整合学习心理数据和表现数据的分析与建模。学习数据的采集与分析是多模态学习分析的基础与关键,对于揭示复杂环境下的学习行为和学习规律有直接影响作用。基于多模态学习分析的空间结构,从模块分类视角对数据源进行分类,包括学习体征数据、人机交互数据、学习资源数据和学习情境数据,如图3所示。中间层表示每一部分的数据分类,最外层表示数据采集的具体对象,从中间到外层表示数据逐步分类、学习行为表征的过程。其中,学习体征数据主要包括肢体行为、头部行为、生理行为等;人机交互数据包括移动界面交互和多通道交互;学习情境数据包括物理空间、网络空间、虚拟现实等环境类数据;学习资源数据包括结构化资源与非结构化资源在应用过程中所产生的多感知和交互性数据。需要说明的是,该分类框架只是学习数据的基本分类,除此之外,还包括由学习结构要素之间相互整合所衍生形成的其他数据,如学习活动、学习评价等,这些数据最终将从学习内容、行为轨迹、学习表现等方面通过各类终端进行采集和规整。该基础数据分类为开展多模态数据源搜集提供了参考,需要说明的是,多模态学习分析研究并非以所有数据为采集标准,而是以学习者及其所在情境为中心,对所关联及其影响的数据进行搜集分析。

四、多模态学习分析模型与管道化的分析流程

(一)多模态学习分析模型

当前关于多模态学习分析研究较多集中在课堂学习分析、人机交互与协作分析、学习注意力、可视化等方面,关于多模态学习分析模型的探讨较少,特别是在学习过程中如何应用多模态数据支持学习者,为其提供可操作的反馈和学习干预等方面缺乏相关研究。为进一步厘清学习行为、多模态数据、学习反馈等主要环节之间的关系,Daniele Mitri等提出了多模态学习分析模型[13]。

该模型包括四个环节转换:(1)从传感器捕获到多模态数据:利用传感器对学习者行为及其环境数据进行采集,并转换为多种形式的数据流;(2)从注释到学习标签:该过程由专家或学习者主导对数据进行判断和注释,以丰富低语义多模态数据;(3)从机器学习到预测:该过程利用监视机器学习,从观察到的多模态数据学习统计模型,并基于未观察的数据构建生成预测;(4)从反馈解释到行为改变:该过程是将分析结果进行反馈解释以引导学习者做出一些新的学习行为。该理论模型对多模态学习分析的主要环节、教育价值转化、注意问题等进行了描绘,形成了一个系统分析框架,这对于后面开展相关研究与设计具有一定的理论指导意义。

(二)面向多通道的多模态学习分析流程

通过多模态学习分析基础数据的分类可以看出,虽然学习分析界在数据收集、分析、解释、互操作等方面作了大量的探索,但这些努力并没有达到多模态数据的要求。应用多模态交互方法的研究者面临着多种挑战,这些挑战源于多模态数据的复杂性。有研究者从工作流视角提出数据分析流程,并称之为多模态学习分析管道[14],如图4所示。从区域模块来看,该管道包括学习任务模型建立、数据生产、研究等部分,其中数据生产是主要工作流程,通过仪表盘和智能导师进行输出。从分析流程来看,包括数据收集、存储、标注、处理、开采等五个步骤。管道中有多条路线,研究人员可以在不必每次都创建数据分析流程的情况下快速建立多模态学习分析实验。该研究中提出四种开采策略,包括矫正反馈、预测、模式识别、历史报告,针对不同类型的研究对象和目的并结合其他分析工具可以选择不同的路线,例如對学习者言语和姿态分析可以选择A路线;对学习结果进行预测分析可以选择B路线。

五、多模态学习分析的未来研究趋向

多模态学习分析作为一个跨学科、跨模态、跨技术的新兴研究方向,具有宏大的学术气象。它具有自身独特的研究体系和方法,是探索学习机理和发掘新兴学习理论的可能性路径,也是探索教育规律、优化学习体验的新的学术领域。在此,我们结合已有研究贡献,从技术、理论、应用、隐私等方面对多模态学习分析的未来研究趋向进行阐述,勾勒其发展前景,以进一步繁荣该研究领域。

(一)开发面向多模态数据的自动化采集装备与技术

在数据科学项目中,数据采集与规整占用了大量时间,既费时又耗力。而多模态学习分析所依仗的高维、多样化数据使得数据采集工程变得更加复杂。以学习者为中心的多模数据不仅包括学习过程中同时捕获的各类生理、运动类状态等学习横向数据,还包括整个学习过程所积累的轨迹化、序列化等流程类的学习纵向数据。当前,研究者可以通过体感交互设备、脑电设备等在实验室环境下采集学习状态数据并进行分析,这种非自然、试验性、独立个体的研究分析对于学习状态的规律探索存在一定的研究局限。后面如何开发面向常态化学习环境、低成本、多感知的自动化采集设备,以及对数据进行分类、校验评估、提取有效信号的处理技术,是数据采集与处理方向上所要解决的问题。

(二)跨物理空间和数字空间的多模态学习分析建模

模型是表征系统的典型表达形式,科学建模的方法只有在形成、评价、支持研究的情境中起作用。对建模来说,重要的是开发、修改、操作表征来解决问题、解释事物,需要整合多种数学方法,而非简单应用单一的解决方法。在复杂学习环境下,探索多维数据与学习之间更高阶的关系映射,并进行类推以形成系统分析模型是开展多模态学习分析研究的理论基础。当前学习空间、学习数据呈现分布式状态,这使得学习方式和学习行为变得多样化,需要整合物理和数字空间的学习表现进行分析,对跨空间学习过程中的认知、情绪、行为等关系进行立体建模,揭示产生有效学习的生理信号与行为变化。

(三)多模态学习分析工具的系统设计与教学应用

当前学习分析领域中所开发的学习分析工具和仪表盘主要集中在对学习活动行为、学习文本、学习社群、学习表现等单一模态数据的分析与可视化,这使得学习分析结果停留在对学习时间、资源使用、社交互动、学习测评等外显行为的分析上,较少触及学习认知、学习心理、学习规律等内部心理机制的分析。近年来,多模态交互、自然语言理解技术逐步成熟,机器学习和深度学习被广泛应用在图像、视音频、文本等非结构化数据处理中,众多应用程序被高度简化,人工智能开放平台技术能力日渐丰富。可以依托现有商业中的人工智能技术和成熟算法开发自动化和可扩展的多模态学习分析工具,并与当下课堂教学以及网络同步课堂等教学场景相衔接,提升个性化学习感知与学习反馈,实现多模态学习分析到个性化教学的转化。

(四)统一学习科学与机器学习领域探索学习机理

多模态学习分析是多模态交互、信号处理、学习科学、机器学习等学科交叉形成的方向,而学习科学与机器学习又是其主要学科基础,这两个学科领域都对多模态学习分析开展独立的研究探索。但两者之间对于“学习”的讨论并不一致,一个是研究学习认知过程和社会化过程以产生最有效的学习,一个是研究计算机如何模拟和实现人的学习行为,从数据中学习规律并利用规律对未知数据进行预测。而对学习过程的分析既需要来自认知神经科学的测量,也需要基于多模态数据的机器学习分析,两大学科领域需要建立统一的学术话语体系与共同体,共享学习分析成果,共同磋商与探索学习内在的机理与变化,为催生新型学习理论提供研究基础。

(五)融合视觉、语音、情感、语义的多模态学习計算与学习状态评估

学习计算是从数据分析的视角对学习过程和学习结果进行评估和测量的一种方式。而多模态学习计算则通过融合视觉、语音、情感、语义等与学习过程相关的感官信息进行机器学习与语义理解,提升计算机对学习过程及其行为的感知与认知,是教育人工智能发展的一个重要趋势。当前多感知状态分析主要包括头部运动状态和生理信号状态,其中头部状态主要包括面部表情分析、眼动分析和言语分析;生理状态主要包括大脑、心脏和皮肤等信号数据。在具体模态分析上,已有研究主要集中使用某一区域模态对学习者进行分析,后面需要依托多模态学习计算对学习状态进行评估和预测,以提高学习评估精准度。

(六)整合多传感系统分析提升个性化学习体验

随着交互界面及交互空间越来越多地应用于教室和其他教学环境中,学习活动方式和学习体验也发生了很大变化。来自神经科学强有力的证据表明,学习的任何一个阶段在很大程度上都是同步发生的,因此,需要对学习过程中的各种感官进行分析。例如,通过位置定位信息评估正式和非正式学习环境中的学习进度以及探究一种环境中的学习是否能够类推应用到另一种情境中。在社群互动上,通过多传感数据可以分析哪种类型的交互及其内部关系能够产生最有效的学习。面向多模态的多传感器能够整合学生健康状态、用户位置、人机交互、社群互动等个人信息,帮助我们更好地理解学习发生的过程及其学习感受,进而改善交互空间与界面设计,对学习体验进行重构,更加注重每个学习者的学习习惯与交互方式,最终提升个性化学习体验。

(七)多模态学习分析数据的隐私保护

多模态学习分析,其中一个主要目标是通过搜集用户信息来更好地理解学习和改善学习质量。在数据信息搜集过程中会涉及一些隐私和道德问题。多模态学习分析由于能够搜集到用户的生理、身体、认知等方面的隐私数据,隐私保护问题变得更加突出。哪些数据适宜采集、哪些人和机构是数据所有者与管理者、健康数据保护、原始隐私保护等问题是多模态学习分析研究群体所要解决的问题。

六、结   语

在教育研究范式转型的大背景下,多模态学习分析所特有的跨模态、跨空间、跨数据、跨分析等独特属性,促使学习分析研究由单模态数据的学习行为分析走向多模态数据的学习机理分析,形成以学习者为中心的内外数据链相融合的数据生态。多模态学习分析在对复杂环境下学习特征的推理与揭示、对学习体验的优化以及促进学习者产生最有效学习等方面能够产生新的研究潜力。多模态学习分析研究能够促使人类对“学习是什么”这一永恒课题形成新的认识与理解,推动学习分析和学习科学向学习真理方向迈进一步。

[参考文献]

[1] JEWITT C, BEZEMER J, HALLORAN K. Introducing multimodality[M]. London: Routledge, 2016.

[2] AMBADY N, ROSENTHAL R. Half a minute: predicting teacher evaluations from thin slices of nonverbal behavior and physical attractiveness[J]. Journal of personality and social psychology, 1993, 64(3):431-441.

[3] CALVO R A, DMELLO S, GRATCH J, et al. The Oxford handbook of affective computing[M]. Oxford: Oxford University Press, 2015: 37-38.

[4] SCHERER S, WORSLEY M, MORENCY L P. 1st international workshop on multimodal learning analytics: extended abstract[C]// Proceedings of the 14th ACM international conference on multimodal interaction. New York: ACM, 2012:353-356.

[5] WORSLEY M, ABRAHAMSON D, BLIKSTEIN P, et al. Multimodal learning analytics[C]//The 12th international conference of the learning sciences. New York: ACM, 2016: 1346-1349.

[6] OCHOA X, WORSLEY M. Augmenting learning analytics with multimodal sensory data[J]. Journal of learning analytics, 2016, 3(2): 213-219.

[7] WORSLEY M. Multimodal learning analytics as a tool for bridging learning theory and complex learning behaviors[C]// In proceedings of the 2014 ACM workshop on multimodal learning analytics workshop and grand challenge. ACM: New York, 2014:1-4.

[8] OCHOA X, WORSLEY M, CHILUIZA K, et al. MLA14: third multimodal learning analytics workshop and grand challenges[C]//Proceedings of the 16th international conference on multimodal interaction. New York: ACM, 2014:531-532.

[9] WORSLEY M, CHILUIZA K, GRAFSGAARD J F, et al. Multimodal learning and analytics grand challenge[C]//The fourth international conference on multimodal interaction. New York: ACM, 2015:525-529.

[10] OCHOA X, WORSLEY M, WEIBEL N, et al. Multimodal learning analytics data challenges[C]//The sixth international conference on learning analytics and knowledge. New York: ACM, 2016:498-499.

[11] SPIKOL D, PRIETO L P, RODRIGUE T, et al. Current and future multimodal learning analytics data challenges[C]// Proceedings of the seventh international learning analytics & knowledge conference. New York: ACM, 2017:518-519.

[12] OVIATT S. Ten opportunities and challenges for advancing student-centered multimodal learning analytics[C]//proceeding of the international conference on multimodal interaction (ICMI18). New York: ACM, 2018:87-94.

[13] DANIELE D M, JAN S, MARCUS S, et al. From signals to knowledge: a conceptual model for multimodal learning analytics[J]. Journal of computer assisted learning, 2018, 34(4):338-349.

[14] MITRI D, SCHNEIDER J, KLEMAK R, etc. Read between the lines: an annotation tool for multimodal data for learning[C]// The ninth international conference on learning analytics and knowledge. New York: ACM, 2019:51-60.