徐振国 张冠文 孟祥增 党同桐
[摘 要] 情感能够影响和调节学习者的注意、记忆、思维等认知活动,学习者情感的准确识别是构建智慧学习环境中和谐情感交互的基础,更是判断学习者学习状态的重要手段。传统学习者情感识别方法存在识别率低、算法复杂、鲁棒性差等问题,并且容易丢失面部表情特征的关键信息。文章提出一种基于卷积神经网络的学习者情感识别方法,该网络包括3个卷积层、3个池化层和1个全连接层。然后在自主搭建的大规模学习者情感数据库中进行了训练和实验,实验结果表明该方法能够快速、准确的识别学习者情感。未来,该方法可应用到智慧学习环境建设中,为完善学习者模型、实现情感交互、挖掘学习行为等提供技术支撑。
[关键词] 深度学习; 学习者情感; 情感识别; 智慧学习环境; 情感交互; 卷积神经网络
[中图分类号] G434 [文献标志码] A
一、引 言
智慧学习环境注重培养学习者的创新能力、问题求解能力、决策力和批判性思维能力等高阶能力,认知活动在培养过程中起着至关重要的协调与控制作用[1]。情感是由外界刺激引起的心理反应,能够影响和调节注意、知觉、表象、记忆、思维和语言等认知活动。研究表明,学习过程中的积极情感有助于激发学习动机、培养学习兴趣,促进认知过程;而消极情感则会影响耐心度、注意力,阻碍认知过程[2]。另外,智慧学习环境以学习者为中心,打破了传统的教学模式,强调以MOOCs、微课、博物馆等为学习资源的泛在学习和无缝学习。学习者多借助电子书包等移动设备进行自主学习和协作学习,师生在时空上多处于准分离状态,难以感受对方的情感,普遍存在“情感缺失”问题。学习者情感能够影响学习兴趣和效率,其准确识别是构建智慧学习环境中和谐情感交互的基础,更是判断学习者学习状态的重要手段,对促进学习者的智慧学习具有重要意义。
2016年《地平线报告(高等教育版)》指出,情感计算(Affective Computing)将在未来四到五年内得到普遍应用[3]。学习者情感识别作为情感计算的重要内容,研究者主要围绕生理信号、心理测量、外显行为对其开展研究[4]。美国学者梅拉比安(Albert Mehrabian)指出,感情表达=7%的言辞+38%的声音+55%的面部表情[5]。心理学家艾克曼(Paul Ekman)的研究表明,从面部表情到单一具体情感状态映射的准确率为88%[6]。可见,学习者情感表达方式中,面部表情起到了非常关键的作用。并且实践应用中,通过学习设备自带摄像头捕捉学习者的面部表情,进而识别学习者情感状态,要比其他方法更加自然可行。
传统学习者面部表情识别算法主要包括图像预处理、特征提取、特征选择、分类器构建等过程,面部表情的视觉情感特征需要显式的表达和提取,并依赖经验或运气对其进行挑选。这无疑增加了识别难度,并且可能会丢失原图像的关键特征信息。随着技术的快速发展,深度学习(Deep Learning,DL)成为人工智能领域重要的机器学习算法。深度学习将图像特征提取与神经网络的模糊分类相结合,省略前期复杂的图像预处理和特征提取过程,使之不再依赖人工精心设计的显式特征提取方法,在提高性能、泛化能力的同时,也提高了识别算法的鲁棒性[7]。深度学习已在医学图像处理、自然语言处理等领域获得应用,但在教育领域的应用尚需进一步研究。本研究自建大规模学习者情感数据库,并提出基于深度学习的学习者情感识别方法,以期提高学习者情感的识别效率和准确率,为智慧学习环境中和谐情感交互提供技术支撑,促进学习者轻松、投入和有效的学习。
二、相关研究
自2006年以来,深度学习在算法、理论和应用等方面取得了巨大成功,已然成为人工智能和大数据领域的发展引擎。情感能力是人类智能的重要标志,赋予计算机识别、理解和表达情感的能力,是人工智能未来前进的方向。通过梳理深度学习、学习者情感识别的发展历程及相关研究,既可为本研究的开展提供有价值的借鉴,也可为弥补现有研究的不足提供切入点。
(一)深度学习
迄今人工神经网络(Artificial Neural Networks,ANN)大致经历了三个阶段,第一个阶段始于20世纪40年代至60年代的控制论。但其无法处理“异或”问题,并且此时的计算机缺乏足够的计算能力,无法满足神经网络长时间的运行需求。第二个阶段始于20世纪80年代末期,鲁姆哈特(David Rumelhart)等学者提出反向传播(Back Propagation,BP)算法[8],雖然克服了“异或”问题,并使两层神经网络所需的复杂计算量降低,但受限于数据获取的瓶颈,普遍存在过拟合等问题。随着计算机性能的显著提升以及大数据时代的到来,2006年,加拿大的辛顿(Geoffery Hinton)等研究者在Science上发表了一篇文章,提出一种被称为“深度置信网络”(Deep Belief Network,DBN)的神经网络模型以实现数据降维[9]。文章的核心观点为:(1)有着较多隐层的神经网络结构具有独特的特征学习能力,能够较好地获取图像更本质的特征;(2)可通过“逐层初始化”来克服深层神经网络的训练难度。自此,开启了人工智能领域的深度学习时代。2016年3月,阿尔法围棋(Alphago)以4:1的比分战胜韩国围棋名将李世石,引起全世界关注的同时,深度学习、神经科学等概念也进入普通公众的视野。
深度学习属于机器学习(Machine Learning,ML),本质上是对拥有深层结构的模型进行训练的一类方法的统称。目前主流的深度学习模型有深度置信网络(Deep Belief Networks,DBN)、循环神经网络(Recurrent Neural Networks,RNN)、卷积神经网络(Convolutional Neural Networks,CNN)等。1998年,美国学者勒存(Yann Lecun)等提出基于梯度学习的CNN算法,并将其运用于手写数字字符识别[10]。2012年,在ImageNet大规模视觉挑战赛中,辛顿等学者凭借CNN获得图像分类和目标定位任务的冠军。自此,CNN得到学界的关注和持续研究。CNN最初受脑神经科学研究的启发,模仿视觉神经中简单细胞和复杂细胞的视觉信息处理过程,用卷积操作模拟简单细胞对不同方向边缘信息的处理过程,用池化操作模拟复杂细胞累积相近的简单细胞的处理结果[11]。CNN支持将图像的像素值直接作为输入值,隐式地获得图像抽象的特征信息,而不必事先对图像进行预处理以及显式地提取图像特征,避免了复杂的特征提取和人工选择过程,并且CNN对图像的平移、缩放、旋转等变换以及光照、遮挡物等敏感问题具有较高鲁棒性。因此,CNN在手写字符识别、人脸识别、车牌字符识别等领域得到了广泛应用,目前已成为人工智能领域的重要方法。深度学习和CNN的关系如图1所示。
(二)学习者情感识别
情感是人们在社会活动中对客观事物所持的态度体验,是人们对客观事物的一种特殊的心理反映形式,它在人的思想認识及行为表现中发挥着重要作用[12]。学习者情感多指学习者在学习过程中由学习内容、学习画面等刺激产生的内心体验及相应的外部表现。近年来,随着情感计算的发展,研究者基于不同的情感理论已提出许多种学习者情感识别方法。目前,学习者情感识别主要围绕生理信号分析、心理测量分析、外显行为分析等三类方法展开研究。其中,基于外显行为的方法又分为基于面部表情的方法、基于语音表情的方法和基于姿势表情的方法等。
1. 基于面部表情的学习者情感识别研究
孙波等研究者依据艾克曼提出的面部表情编码系统(Facial Action Coding System,FACS)构建基于面部表情识别的情感分析框架SLE-FER,包括感知层、传输层、数据层、分析层和应用层,并利用张量分解算法进行表情识别[1]。詹泽慧结合眼动追踪与面部表情识别,提出基于智能Agent的远程学习者情感与认知识别模型,将眼动追踪与表情监控迭代识别、情感与认知过程相耦合,以提高识别准确率[13]。荷兰开放大学的巴雷尼(KiavashBahreini)等学者提出通过网络摄像头和麦克风改善学习者学习的框架FILTWAM,FILTWAM根据学习者的面部表情及语言表达识别学习者情感并及时提供反馈[14]。印度的雷(Arindam Ray)等学者采用面部表情及生理信息相结合的方法识别学习者情感,其中生理信息包括心率、皮肤电传导、血容量压力,基于此,他们探讨了学习过程中情感的变化,以及如何使用情感反馈来改善学习体验[15]。
2. 基于其他方法的学习者情感识别研究
乔向杰等研究者根据OCC模型理论,提出基于认知评价的学生情感识别模型,采用模糊推理方法实现对学习事件的期望度推理,并通过构建动态贝叶斯网络对所构建的模型进行了计算机仿真测试和评估[16]。黄焕认为,学习者发布的微博内容带有情感特征,对其分析能够获得学习者当时的情感状态,因此,提出一种基于学习者微博分析的情感建模方法[17]。台湾的陈志铭(Chih-Ming Chen)等学者采用基于生理信息检测的情感估计系统emWave来估计学习者的情感状态[18]。巴西雅克(Patricia Jaques)等学者借助信念、愿望、意图模型在教育环境中实施情感判断过程,他们采用基于情感认知理论并可通过计算实现的心理学OCC模型,从而根据学习者的行为推断出学习者的情感[19]。
综上所述,国内外学者对学习者情感的识别进行了广泛研究,其中基于面部表情的学习者情感识别研究最多。学习者相对于普通人群具有其特殊性,生理信号分析等通过附加设备判断学习者情感的方法在学习环境中较难实现,基于心理测量、认知评价的方法则较难保证结果的客观性,相对而言,学习者面部表情是学习者在学习过程中的自然表达,能够较好地客观反映学习者真实的情感状态。徐晓青等学者指出,教育领域基于面部表情的识别方法相比于其他情感识别方法,可用性较高[20]。但目前研究多采用人脸识别、特征提取、特征选择、训练分类的传统机器学习方法,效率低且难以保证人工选择的特征是否能够有效反映面部表情。因此,本研究采用具有自主学习能力的CNN实现对学习者情感的有效识别。
三、卷积神经网络的结构设计
作为深度学习的重要方法,CNN具有权值共享和局部连接的特点,降低了网络复杂度的同时,也利于并行处理。CNN的前馈运算阶段通过卷积(Convolution)操作、池化(Pooling)操作和激活函数映射等一系列操作的层层堆叠,将图像、音频等原始数据的高层语义信息逐层提取出来。其中,不同类型的操作一般称作层,卷积操作即卷积层,池化操作即池化层。CNN通常包括输入层、卷积层、池化层、全连接层和输出层。
(一)卷积层
卷积层为特征提取层,是CNN的基础。每个卷积层包括多个神经元,每个神经元利用多个可训练的卷积核分别与前一层所有的特征图进行卷积求和,加上偏值,以此作为激活函数的参数求解,输出值将构成新的特征图像[11]。卷积核大小和卷积步长是重要的调整参数。卷积层的计算公式为:
公式(1)中,l表示当前层;l-1表示前一层;f()为激活函数;?茚表示卷积;ylj为当前层的第j个输出图像(特征图像);yil-1为前一层的第i个输出图像,即当前层的输入图像;wlij表示当前层第j个特征图像与前一层第i个特征图像的卷积核;blj表示当前层第j个神经元的输入偏置;Nl-1表示前一层神经元的数量。CNN中常用的激活函数有线性修正函数(ReLU)、双曲正切S形函数(Tanh)、对数S形函数(Sigmoid)等,本研究采用的激活函数为Sigmoid函数。
(二)池化层
池化层又被称为下采样层,特征图的数量会因卷积层数量的递增而增加,导致学习到的特征维数将快速增长,给分类器造成困难。池化层的关键作用就是特征降维,减少计算量和参数数量,并在一定程度上防止过拟合,更方便优化。池化层并不改变特征图的数量,而是使特征图的尺寸变小。池化的类型主要有平均值池化和最大值池化两种,池化操作的类型、核大小、步长是重要的调整参数,本研究采用平均值池化的方式。池化层的计算公式为:
公式(2)中,down()表示池化函数;ylj和yil-1表示当前层和前一层的第j个特征图像;?茁lj和blj表示当前层第j个特征图像的权重系数和偏值。
(三)全连接层
全连接层在整个CNN中起到“分类器”的作用,全连接层的输出将作为输出层的输入或最终的分类结果,CNN通常有一个或多个全连接层。全连接层的每个神经元都将与前一层的所有神经元相连,把卷积层和池化层提取到的特征综合起来[21]。实际使用中,全连接层可由卷积操作实现,对前层是全连接的全连接层可以转化为卷积核为1×1的卷积;而前层是卷积层的全连接层可以转化为卷积核为h×w的全局卷积,h和w分别是前层卷积输出结果的高和宽。
(四)卷积神经网络的结构
CNN结构设计需要考虑准确率、训练速度和内存消耗等三个因素。研究表明,小卷積核通过多层叠加可取得与大卷积核同等规模的感受野,此外采用小卷积核可增加网络深度,并减少参数个数。通常卷积核大小设置为3×3或5×5,本研究设置卷积核大小为5×5,步长为1。网络层数过低会导致信息表达能力不足,增加网络的层数会使特征信息表达能力逐步增强,但层数过多也会导致网络结构过于复杂,训练时间增加,易出现过拟合现象[22]。输入图像尺寸、卷积核大小、卷积步长、池化窗口大小、池化步长共同决定网络层数,本研究根据学习者面部表情图像的特点,设计了一种7层的CNN,其中包括3个卷积层、3个池化层、1个全连接层,结构如图2所示。(1)输入层为60×60像素的学习者面部表情图像。(2)在C1层用6个5×5的卷积核对输入图像进行卷积操作,步长为1,激活函数为Sigmoid函数。此时C1层包含6个特征图,特征图的尺寸为56×56。(3)在S1层用2×2的池化窗口对C1层的特征图进行池化操作,池化方式为平均值池化,步长为1。此时C1层仍包含6个特征图,特征图的尺寸为28×28。(4)在C2层用12个5×5的卷积核对S1层的特征图进行卷积操作,步长为1。此时C2层包含12个特征图,特征图的尺寸为24×24。(5)在S2层用2×2的池化窗口对C2层的特征图进行池化操作,池化方式为平均值池化,步长为1。此时S2层仍包含12个特征图,特征图尺寸为12×12。 (6)在C3层用24个5×5的卷积核对S2层的特征图进行卷积操作,步长为1。此时C3层包含24个特征图,特征图的尺寸为8×8。(7)在S3层用2×2的池化窗口对C3层的特征图进行池化操作,池化方式为平均值池化,步长为1。此时S2层仍包含24个特征图,特征图尺寸为4×4。(8)全连接层的每个神经元与S3层的特征图进行全连接,输出层将输出最终的分类结果及强度。
四、卷积神经网络的参数训练
CNN的训练就是利用已标注情感类型及强度的面部表情样本集调整CNN的内部参数。大数据训练样本是进行深度学习的前提和基础,样本的数量和质量将直接决定深度学习的性能和泛化能力。本研究首先明确学习者情感的类型,然后自主构建大规模学习者情感数据库,并将其作为训练样本集对CNN进行训练,从而实现对学习者情感的准确识别。
(一)学习者情感数据库
基于面部表情的情感识别离不开表情数据库的支撑。目前,情感识别研究开始面向各专业领域发展,特别是学习者情感识别受到研究者的广泛关注,但基于面部表情构建的学习者情感数据库并不多见[4]。因此,建设基于面部表情的学习者情感数据库,对学习者情感识别算法的深入研究具有一定的推动作用。
1. 学习者情感的类型
情感是人类对客观事物的态度体验与相应的行为反应,对于情感的描述,我国古代有“七情六欲”之说,西方思想家笛卡尔(Rene Descartes)则认为有六种原始情感。目前,心理学领域主要围绕基本情感和维度情感两种理论对情感分类展开研究。艾克曼在对面部表情和行为反应研究的基础上,将基本情感分为高兴、惊讶、悲伤、愤怒、恐惧、厌恶[23]。伊扎德(Carroll Izard)提出差别情感理论,认为基本情感除艾克曼所说的六类外,还包括害羞、轻蔑、兴趣和自罪感[24]。普拉奇克(Robert Plutchik)认为,情绪具有强度、相似度和两极性三个维度,他采用倒立圆锥的形象来描述三个维度间的关系,八个截面分别表示狂喜、接受、惊奇、恐惧、悲痛、憎恨、狂怒和警惕等八种基本情感,最强烈的情感位于顶部,越往下情感强度越弱;对角位置的情感具有两极性,相邻的情感表现出相似性[25]。
学习者情感虽具有人类情感的普遍特性,但又具有其独特性。孙波将学习者的情感类型概括为高兴、惊讶、厌烦、困惑、疲劳、专注及自信[1]。魏刃佳则采用艾克曼的基本情感理论,将学习者情感分为六种类型[26]。刘永娜依据文献调研及课堂视频分析,提出学习者情感包括高兴、惊奇、自信、厌烦、困惑、挫败、疲惫、专注、走神等九种[4]。詹泽慧从唤醒维度、兴趣维度、愉快维度将学习者情感类别分为紧张、睡眠、感兴趣、不感兴趣、愉快、不愉快[13]。虽然研究者对学习者情感的划分并不一致,但都是在艾克曼六种基本情感理论的基础上进行研究的。本研究在借鉴既有研究的基础上,认为常见的学习者情感主要包括常态、高兴、愤怒、悲伤、惊恐、专注、厌倦等七种类型。
2. 构建学习者情感数据库
目前,人脸面部表情数据库主要有日本女性人脸表情数据库(JAFFE)、卡内基梅隆大学的CK(Cohn-Kanade)人脸表情数据库及其扩展数据库CK+人脸表情数据库、马里兰大学人脸表情数据库、清华大学人脸表情数据库、五邑大学CED-WYU人脸表情数据库、BNU学习情感数据库等[27]。首先,由于外国人的人脸及表情特征与中国人的人脸及表情特征具有显著差异,用外国人的人脸表情数据库进行训练,训练结果很难推广到中国。其次,目前已知的人脸表情数据库样本数量较少且多为成人,很难满足深度学习和实际应用的需求。最后,由于隐私保护等原因,也较难获得其他机构或单位的人脸表情数据库。因此,本研究选择自主建设基于面部表情的学习者情感数据库。
被试为70名研究生,其中18名男生,52名女生,年龄范围在20到29岁之间。在正式采集表情前,分组对他们进行培训,使他们能够尽量在自然状态下呈现标准的各类情感及强度。采集平台用C++语言编写,采集设备为高清摄像头。正式采集表情时,每名研究生表现常态、高兴、愤怒、悲伤、惊恐、专注、厌倦等7种情感,每种情感由弱到强表现5种强度,每种强度捕捉30幅图像,形成拥有73500幅学习者面部表情图像的原始数据库。捕捉的同时,由平台自动标注每幅图像的情感类型及强度,例如:0001_02_03_0004中,0001表示被试编号、02表示情感类型、03表示情感强度、0004表示图像编号。
随后采用基于Haar矩形特征的Adaboost方法,对原始数据库内的73500幅图像进行人脸检测,共提取出70090幅人脸图像。人脸检测算法相对成熟、完善,本文不再赘述。因为前期采集环境为宿舍、自习室等,背景较为复杂,给人脸检测造成困扰。后期采用纯色背景进行采集,人脸检测准确率较高。最终,本研究选用其中的60000幅面部表情图像作为深度学习的训练样本,9000幅面部表情图像作为深度学习的测试样本。7种情感的面部表情样例如图3所示。
(二)实验结果分析
在训练开始前,需要将训练样本集中的图像进行预处理,将图像归一化为60×60像素的RGB图像。同时,为了提高训练结果的鲁棒性和准确率,并且避免出现过拟合问题。本研究在原训练样本集的基础上进行数据扩充,扩增训练样本集的数量为原来的5倍,即训练样本集图像总数增加到30万。具体做法为取原图像的左上、右上、左下、右下以及原图像作为新的训练样本。本研究采用WIN10下的Matlab 2016软件作为实验环境,计算机CPU为Core i7-6700,内存为24G。
CNN的训练主要包括信号正向传播和误差反向传播两个过程。其中正向传播阶段,输入图像经过多次卷积操作、池化操作,将高层语义信息逐层由输入图像中提取出来,逐层抽象。最终,CNN的最后一层将其目标任务形式化为目标函数。通过计算预测值与标注值间的误差,凭借反向传播算法将误差由最后一层逐层向前反馈,更新每层参数,并在更新参数后再次前馈。正向传播、反向传播反复循环,直到模型收敛,达到训练的目的。测试结果见表1。
由表1可知,惊恐、常态、高兴、愤怒、悲伤的识别率较高,均超过85%,专注、厌倦的识别率较低,但也超过80%。惊恐、愤怒、悲伤等表情面部特征明显,因此,准确率较高。而专注与常态、厌倦与悲伤面部特征相似,给识别带来难度,因此,准确率相对较低。但七种面部表情的准确率均高于80%,说明本研究基于深度学习提出的学习者情感识别方法能够较为准确地识别学习者情感,具有实际应用价值。与已有研究相比,平均识别率比传统机器识别算法略高,但CNN省略前期复杂的特征提取过程,耗时明显比传统机器识别算法缩短。经实验测试,能无延迟地实时识别学习者情感,现已实际应用到智慧学习环境中学习画面情感自适应调整系统。
五、学习者情感的识别应用
现有的智慧学习环境研究重“知”轻“情”,注重学习者认知层面的适应性和个性化,而较少考虑性格、兴趣、情感等非智力因素在学习活动中的作用,对学习者情感状态的适应性考虑较少,以致智慧學习环境缺乏情感的自适应和个性化,使学习者在学习过程中缺少情感支持。本研究提出的CNN结构和方法能够快速、准确地识别学习者情感,并且支持将摄像头捕捉的图像作为原始图像直接输入,避免传统识别方法中的特征提取过程,可实时、快速识别学习者的情感,将来可在以下领域取得实际应用:
(一)完善智慧学习环境中的学习者模型
学习者模型是学习者特征在虚拟学习环境中的抽象表示,代表着学习环境所能认识和理解的学习者,并实时更新学习者的特征信息,是智慧学习环境实施智慧化、个性化的重要依据。因此,构建完善的学习者模型是为学习者提供智慧学习服务的前提和基础。目前,学习者模型领域已建立IEEE PAPI、IMSLIP等标准,研究者也从不角度对其进行了研究。但已有研究多关注学习者基本信息和认知层面的属性特征,如性别、年龄、知识水平、认知能力等,忽视或轻视学习者的情境、偏好、情感等因素。学习者模型既要涵盖学习者的基本信息、学业信息、关系信息、知识状态,还要涉及情境特征、情感状态等。本研究将有助于构建融合情感特征的智慧学习环境学习者模型。该模型主要包括基本信息、学习者偏好、知识状态、情境特征、情感状态等。其中,基本信息主要包括姓名、性别、年龄、年级、联系方式等;学习者偏好包括学习风格、内容偏好、交互偏好、媒体偏好等;知识状态包括知识基础、领域知识、掌握程度等;情境特征包括社会情境、认知情境、技术情境等[28];情感状态则包括情感类型及强度等,情感类型及强度将由本研究提出的学习者情感识别方法实时识别后获得,以便及时更新完善学习者模型。
(二)实现智慧学习环境中的情感交互
目前,智慧学习环境研究多关注根据学习者的知识水平提供适应性的学习内容,即强调智慧学习环境中认知层面的自适应交互,较少考虑学习者情感的自适应交互。智慧学习环境需要提供比信息化、数字化更加个性化、智慧化的学习服务,要提供更智慧化的学习服务,学习环境与学习者间的情感自适应交互必不可少,而学习者情感快速、准确的实时识别是实现智慧学习环境情感自适应交互的基础。智慧学习环境中,学习者主要通过观看学习内容的信息呈现画面即学习画面进行学习,学习画面是学习者学习的主要环境,并且是学习者与学习内容间信息交互的主通道,对学习效果有着至关重要的影响。学习画面所隐含的情感对学习者的学习兴趣、认知负荷、情感状态都有潜在影响,智慧学习环境中的学习画面情感是其情感特征的重要表现。本研究将有助于实现智慧学习环境中的和谐情感交互,根据学习者观看学习画面的面部表情,识别、判断学习者的情感状态,结合学习者对学习画面的视觉情感偏好,自动调整学习画面的关键视觉情感特征,包括调整界面背景颜色与纹理、增强显示学习兴趣点区域或重点学习内容、增添隐现趣味动画等,而且快速、实时,不影响学习者正常在线学习,使学习者始终保持积极、良好的情感状态。
(三)挖掘智慧学习环境中的学习行为
学习行为泛指学习者在某种动机引导下,为实现一定学习目标而与周围环境进行的双向交互活动的总和[29]。挖掘智慧学习环境中的学习行为,能够发现和理解数据背后隐藏的信息,既能够准确把握学习者的学习状态,以做出客观、有效的评价和建议,又能够自适应推送符合学习者需求的资源和内容,并为教师或管理者的决策提供支持。目前,研究者主要通过学习者的论坛交流、键鼠交互、文本输入、测验提交、观看记录等挖掘学习者的学习行为,而学习者情感状态的识别为智慧学习环境中的学习行为分析开辟了新的途径。智慧学习环境可根据学习者的情感状态为其推送交互程度、资源类型、难易程度恰当的学习资源。学习者学习过程中,实时识别学习者情感,连续时间内,若学习者多为消极情感时,可自适应推送较低难度的学习内容或任务,也可推送交互性或趣味性较强的资源类型;若学习者多为积极情感,则可自适应推送难度较高的学习内容或任务。对于学习过程中的情感状态,在课后将以仪表盘或分析报告的形式呈现给学习者或教师,便于学习者调整学习状态,也有利于教师掌握学习者的学习状态和对学习内容的理解程度,以便及时调整学习内容的难易程度以及呈现类型。通过一段时间内学习者情感数据的收集和分析,可挖掘学习者的学习风格、内容偏好、交互偏好、资源类型偏好等关键信息。
六、结 语
学习者情感的准确识别是实现智慧学习环境中和谐情感交互的关键,只有高效识别出学习者的情感,智慧学习环境中的学习画面或智能教学Agent才能进行相应调整,实现自适应和个性化。已有学习者情感识别多采用人工特征提取后机器学习的传统方法,复杂且效率较低。深度学习作为人工智能领域的重要技术,以原始图像作为输入,通过训练样本集进行自主学习,避免了显式的特征提取过程,具有较高性能和泛化能力。此外,池化层的下采样操作增强了识别算法的鲁棒性。本研究在借鉴既有研究的基础上,将常见学习者情感分为常态、高兴、愤怒、悲伤、惊恐、专注、厌倦,并以此自建大规模学习者情感数据库,提出基于深度学习的学习者情感识别方法。该方法相比于传统的学习者情感识别方法,具有较高准确率和鲁棒性,并可应用于智慧学习环境,将有助于完善学习者模型、实现情感交互、挖掘学习行为。但仍存在较多不足,在后续研究中将增加学习者情感类型、扩充学习者情感数据库,优化基于深度学习的学习者情感识别方法,进一步提高识别准确率和效率。目前,本研究已将通过Matlab软件编写的学习者情感识别程序封装成函数,可供C、C++、C#、Java等语言调用,以期为智慧学习环境理论研究者、平台建设者提供参考和帮助,为智慧学习环境的情感自适应交互作出应有贡献。
[参考文献]
[1] 孙波,刘永娜,陈玖冰,等. 智慧学习环境中基于面部表情的情感分析[J]. 现代远程教育研究,2015(2):96-103.
[2] 孟昭兰. 情绪心理学[M]. 北京:北京大学出版社,2005.
[3] 金慧,刘迪,高玲慧,等. 新媒体联盟《地平线报告》(2016高等教育版)解读与启示[J]. 远程教育杂志,2016,35(2):3-10.
[4] 刘永娜. 学习环境中基于面部表情的情感识别[D]. 北京:北京师范大学,2015.
[5] MEHRABIAN A. Communication without words[J]. Psychology today,1968,2(4):53-56.
[6] EKMAN P,FRIESEN W V. Facial action coding system: a technique for the measurement of facial movement[M]. Palo Alto: Consulting Psychologists Press,1978.
[7] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. Lack Tahoe,Nevada:Currant Associates Inc,2012:1097-1105.
[8] RUMELHART D E,HINTON G E,WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature,1986,323(6088): 533.
[9] HINTON G E,SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science,2006,313(5786): 504-507.
[10] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11):2278-2324.
[11] 劉瑞梅,孟祥增. 基于深度学习的多媒体画面情感分析[J]. 电化教育研究,2018,39(1):68-74.
[12] 许远理,熊承清. 情绪心理学的理论与应用[M]. 北京:中国科学技术出版社,2011.
[13] 詹泽慧. 基于智能Agent的远程学习者情感与认知识别模型——眼动追踪与表情识别技术支持下的耦合[J].现代远程教育研究,2013(5):100-105.
[14] BAHREINI K,NADOLSKI R,WESTERA W. Towards multimodal emotion recognition in e-learning environments[J]. Interactive learning environments,2016,24(3):590-605.
[15] RAY A,CHAKRABARTI A. Design and implementation of technology enabled affective learning using fusion of bio-physical and facial expression[J]. Educational technology & society,2016,19(4):112-125.
[16] 乔向杰,王志良,王万森. 基于OCC模型的E-learning系统情感建模[J]. 计算机科学,2010,37(5):214-218.
[17] 黄焕. 面向e-Learning的学习者情感建模及应用研究[D]. 武汉:华中师范大学,2014.
[18] CHEN C M,WANG H P. Using emotion recognition technology to assess the effects of different multimedia materials on learning emotion and performance[J]. Library & information science research,2011,33(3):244-255.
[19] JAQUES P A,VICARI R M. A BDI approach to infer student's emotions in an intelligent learning environment[J]. Computers & education,2007,49(2):360-384.
[20] 徐晓青,赵蔚,刘红霞. 混合式学习环境下情绪分析应用与模型研究——基于元分析的视角[J].电化教育研究,2018,39(8):70-77.
[21] 盧官明,何嘉利,闫静杰,等. 一种用于人脸表情识别的卷积神经网络[J]. 南京邮电大学学报(自然科学版),2016,36(1):16-22.
[22] 彭清,季桂树,谢林江,等. 卷积神经网络在车辆识别中的应用[J]. 计算机科学与探索,2018,12(2):282-291.
[23] EKMAN P,FRIESEN W V. Constants across cultures in the face and emotion.[J]. Journal of personality & social psychology,1971, 17(2):124-129.
[24] IZARD C E. Human emotions[M]. New York:Plenum Press,1977.
[25] PLUTCHIK R. The nature of emotions[J]. American scientist,2001,89(4):344-350.
[26] 魏刃佳,丁亦喆,张莉,等. 在线学习系统中情感识别模块的设计与实现[J]. 现代教育技术,2014,24(3):115-122.
[27] 刘永娜,孙波,陈玖冰,等. BNU学习情感数据库的设计与实现[J]. 现代教育技术,2015,25(10):99-105.
[28] 丁继红,刘华中. 影响教育资源选择的学习者模型构建[J]. 远程教育杂志,2017,35(4):97-103.
[29] 杨金来,洪伟林,张翼翔. 网络学习行为的实时监控研究与实践[J]. 开放教育研究,2008,14(4):87-92.