陶小梅,陈心怡
(1.桂林理工大学 信息科学与工程学院,广西 桂林 541004;2.桂林理工大学 广西嵌入式技术与智能系统重点实验室,广西 桂林 541004)
随着计算机技术、人工智能技术的快速发展,情感识别作为模式识别的一部分逐渐受到广泛关注。情感识别利用计算机分析输入的情感信息,选取与情感相关的特征值,建立输入特征与情感的模型,实现对情感的分类,从而使计算机能感知、识别和理解人的情感并做出相应的回应。慕课(massive open online course,MOOC),即大规模开放在线课程,是一种新兴的借助现代信息技术与学科教育融合而成的在线课程模式。MOOC学习中,在线观看教学视频是基本的学习方式,但该方式存在明显的“情感缺失”问题。观看教学视频过程中学习者产生负向情感状态时,感受不到及时的情感关怀和认知支持,学习者的兴趣就会受到挫折,教学效果会大大减弱。在学习者在线观看教学视频的过程中及时识别其情感状态是解决“情感缺失”的首要问题,而情感计算技术为解决该问题提供了有效的技术支持。
该文探讨了e-Learning中情感识别主要方法以及目前研究中存在的问题,及e-Learning环境中使用眼动指标进行情感识别的可行性。对常用的眼动指标进行分类,列出了每项眼动指标表达的含义以及反映的情感状态;回顾了当前在e-Learning环境中使用眼动特征对学习过程的相关研究;对应用在疲劳检测、医疗健康、人机交互等更广泛的相关领域中的眼动特征进行分析,对可借鉴至MOOC学习环境下情感识别的眼动特征进行汇总。最后为下一步如何采用眼动特征进行情感识别研究提出相关思考和建议。
针对e-Learning环境中存在的“情感缺失”问题,本节对以心理学为依据的,情感识别技术为核心的,利用计算机技术、网络通信技术和眼动追踪技术来实施在线学习情感识别的相关研究进行介绍并分析。关于情感识别的研究目前主要是通过语音[1-2]、生理信号[3-4]、文本[5]、人脸表情[6-7]、姿态[8]等特征进行情感分类。但是在视频学习的场景中,采集生理信号会影响学习者的学习。由于在观看视频的过程中没有交互,因此也不会产生语音和文本数据。而且学生观看视频时产生的显著表情较少,仅根据脸部表情识别将拒识很多无显著表情的情感状态。目前基于眼动信息的情感分类相关研究较少,实现的情感分类有限。
目前在线学习环境中的情感识别研究主要面临以下问题和挑战:(1)由于在线视频学习环境中能获取到的数据模态有限,显著表情出现的频率低,很多在宏观表情识别中取得良好效果的经典方法不能完全适应,需有针对性地研究新的方法以满足识别准确率和执行效率的要求。(2)由于实验室采集的数据单一,缺乏数据多样性,与真实场景存在较大差异,样本提供者年龄、文化背景分布不均匀,而且数据库中的情感分类标准不统一。(3)已有在线视频学习情感状态识别的研究结果多是在固定实验条件下,对有限数量的特定人群分析获得,当环境改变或对象随机时,难以泛化,识别效果明显变差。
在视频学习中学习者的眼动信息较丰富,且可以通过非入侵方式的眼动追踪技术获取眼动数据,不会干扰学习过程。随着眼动追踪技术的普及,眼动数据可视化在理论和应用方面得到快速发展。眼动数据可视化4种主要可视化方法:扫描路径法、热区图法、感兴趣区法和三维空间法[9]。Steven[10]提出通过眼部图像特征分类快乐,愤怒,惊讶,中性,眼睛闭合五种情感,平均准确率70%,可见眼动信号蕴藏丰富的情感信息,实验表明眼动的时空特征是视觉信息提取过程中的生理和行为表现,能真实反映学习者的心理状态。因此该文将对在e-Learning环境中使用眼动指标进行情感识别作进一步的探讨。
眼动有三种基本方式:注视,眼跳和追随运动。注视是人获取信息的主要方式。眼跳是注视点或注视方位的突然改变,该过程中无法获取清晰的成像。眼跳几乎不获取任何信息[11]。追随运动是眼睛跟随物体移动,眼睛始终注视着物体。Jakob等[12]认为单一的眼动指标不足以判断人的情绪,但是多种眼动指标结合可以达到准确率80%的情绪识别。同时眼动指标可能会受到实验中的光照、情绪等因素影响而产生变化。眼动追踪技术可以记录人眼球运动在时间和空间上的数据,这些数据包括:注视时间、注视次数、注视位置、注视点轨迹图,眼跳潜伏期、回视次数、瞳孔大小、眼跳方向及距离等指标[13]。郑玉玮等[14]将眼动指标分为三种维度:时间、空间和数。时间维度是指在时间维度测量眼球运动,空间维度是指在空间维度(如:位置、距离、方向、序列等)测量眼球运动,数维度是把眼动测量建立在数或频率的基础上。上述眼动指标中注视时间、眼跳潜伏期属于时间维度,注视点轨迹图、注视位置、眼跳方向和眼跳距离属于空间维度,注视次数和回视次数属于数维度。
常用的眼动特征主要有瞳孔类、眨眼类、注视类和扫视类四类指标,具体定义、常用指标以及反映的情感状态具体整理如表1所示。
由于学习中产生的情感状态与学生参与度、认知负荷程度等相关联,因此对在e-Learning环境中使用眼动特征对学习过程的研究进行综述,主要有以下五类:(1)参与度;(2)认知负荷程度;(3)情感状态分类;(4)认知风格;(5)学习行为和意图。
参与度是判断学习成果的显著标志。Elatlassi等[20]提出使用脑电信号和眼动指标对在线学习环境中学生的参与度进行建模,选取了瞳孔扩张、注视持续时间、扫视路径、瞳孔直径等眼动指标,结果表明高参与度和低参与度状态下学生的眼动指标和脑电都存在显著差异。Yue Zhao等[21]采集注视时间、扫视时间、扫视次数等指标用有监督的机器学习算法基于注视特征分析走神行为,走神识别精确率最高可达到80%。该研究验证了注视数据和学习者的思想走神之间存在强关联,使用眼动追踪设备检测走神是可行的。
表1 常用的眼动指标
认知负荷是指一个人在工作记忆中所使用的脑力劳动量。研究者认为眼动数据能反映学生在学习过程中对信息的加工程度和认知负荷程度。Jie Xu[22]研究了在执行算术任务时,瞳孔反应在不同认知过程阶段的特征,并提出用瞳孔大小和皮肤电进行认知工作量测量的细粒度方法。使用决策树算法把认知负荷程度分成4种程度,得到的最高分类准确率达72.4%。
情感状态分类是指将学习过程中产生的情感状态进行分类,如感兴趣、无聊、困惑等。分析学习者的情感有助于提升学习体验。李小伟等[23]通过对眼跳幅度和次数、瞳孔大小等眼动特征进行提取,使用最近邻算法识别学习负面情绪,最高准确率达到81%。Charoenpit等[24]认为眼动和学习情感有着密切的联系,选取注视次数,注视持续时间,注视点,注视长度,瞳孔大小作为眼动特征。使用PPT作为刺激材料并划分出学习区域和非学习区域,通过计算两个区域的注视次数比率,注视时间比率和瞳孔直径比率判别学生在学习过程中的情感状态(感兴趣和无聊)。C.Calvi[25]开发了一个应用在e-Learning环境的原型系统e5Learning,利用瞳孔信息,注视持续时间和眨眼速率识别学生处在何种情感状态下,是否理解还是高工作负荷或疲劳。
认知风格是指用户浏览时更关注图片和视频还是更关注文字。Nikos Tsianos等[26]通过分析学习者浏览网页时的眼动轨迹图等探究学生在e-Learning系统中的认知风格,研究发现部分用户更关注图片和视频,部分更偏向关注文字。Haolin Wei等[27]使用IView X Red眼动追踪系统记录学生在浏览网页时的注视次数等指标。通过眼动轨迹图发现某些区域学生的注视频率高。研究基于这些眼动数据找到学生的兴趣区域实现个性化推送教学材料。Ismail EL Haddioui等[28]使用眼动追踪仪记录扫视次数、扫视路径长度等特征,统计学生在一个算法课程网页中每个区域的注视持续时间,分析得学生的认知风格,兴趣区域和注意力焦点。Ismail认为还可以对眼动数据进一步分析疲劳和困惑程度。虽然该实验没有实际的评估精确率,但一定程度上表明了用眼动特征判断认知风格的有效性。
眼动指标还可用于探索学生的学习行为和意图。Jiayue Yi等[29]把讲座视频作为刺激材料,要求被试完成阅读文本图表,寻找物体和听一段音频材料这三个任务。采用注视持续时间,前一次注视的位移,当前注视的位移三个眼动特征分析学生的学习行为和意图,使用隐马尔可夫模型分类器把学生眼部移动分为扫视,搜索,闲置三类,并分别达到了81%,80%,95%的准确率。Maja Pivec等[30]提出了一个适用于在线学习环境的利用眼动追踪实现内容追踪的框架,使用Tobii眼动仪采集学生处理文本时的扫视速率、眨眼速度和比率三类眼动指标结合眼睑的开放程度,来识别学生的学习行为是浏览,搜索,学习还是跳过。
上述研究的分类、眼动特征和识别算法如表2所示。
对表2进行分析可以看出注视和扫视类指标常用于检测学习者的参与度、学习行为和意图。眼动追踪图常用于探究学习认知风格,结合注视扫视类指标可以得到兴趣区域等。瞳孔大小和注视率都可判断认知负荷程度。由于认知负荷、参与度、疲劳程度与情感状态均有关联,可以考虑采取多种眼动指标结合实现对具体学习情感状态进行准确分类。上述研究中采用的机器学习方法包括神经网络、隐马尔可夫模型、支持向量机和朴素贝叶斯分类器等。线性支持向量机和朴素贝叶斯分类器在小数据集上的方差较小,适用于训练规模小的分类。神经网络算法通常能获得比较好的分类性能,但是需要大量的输入数据并进行一定量的学习才能达到效果。
表2 相关研究文献眼动特征列表
眼动特征除了应用在e-Learning中,在疲劳检测、医疗健康、人机交互等领域也被广泛使用。疲劳驾驶检测中如严荣慧等[32]利用瞳孔直径均值、平均眨眼时间和注视比率三种特征值构成的眼动特征向量,使用BP网络检测疲劳准确率达80%以上。于兴玲等[33]在检测驾驶员疲劳状态时,考察了眼睛闭合面积的减小程度、持续闭合的时间、闭合频率来判断眼睛疲劳状态。眼动信号可以作为脑电信号进行情感识别的有效的补充信息,用在监测、诊断和预防精神疾病等电子医疗领域。常使用认知测试来评估中枢神经系统出现损伤时的缺陷。因此有研究利用眼动特征分类认知负荷程度。Siyuan Chena等人使用FaceLAB 4眼动仪记录受试者的瞳孔大小,眨眼次数,眨眼持续时间,注视和扫视次数及扫视时间,利用高斯混合模型进行认知负荷分类,达到70%的精确率[34]。人机交互中人类产生的意图影响视觉过程,并表现在眼球运动中。李森等[35]利用眼动指标测量人机交互状态下人的情感,最终选定注视点分散均值、扫视率、扫视平均幅度、扫视平均速度、瞳孔最值等八个眼动指标进行情感预测。实验结果表明使用眼动指标预测用户进行网页交互时情感的有效性。
参考上述研究,疲劳驾驶检测方法中眼睛闭合类的指标可以用于学习疲劳检测,除此之外,瞳孔直径均值和标准偏差,平均眨眼时间,眼睛持续闭合的时间、闭合频率、注视点分散均值、扫视时间最值、扫视平均幅度等眼动指标可以借鉴到e-Learning环境中用于识别更多的学习情感以及提高识别准确率,促进e-Learning系统的发展。
眼动的时空特征是视觉信息提取过程中的生理和行为表现,与人的心理活动有着直接或间接的关系,因此眼动特征能真实地反映学习者当时的情感等心理状态,计算机能基于视觉技术通过眼动信息识别学习者的情感。但是以上研究工作中采用的特征选择方法较简单,其完备性和相关性都需要进一步研究,分类器的选择也未见系统的比较研究;并且研究的场景均不是针对视频学习环境下学习者的情感状态研究设计的实验任务。视频学习环境中的学习任务类型较复杂,包括视觉任务和听觉任务,并且认知状态也会对眼动造成影响。目前研究所构建的眼动特征与情感状态之间的模型在视频学习环境下是否适用,是否有更适合视频学习环境情感分类的眼动特征集,是否有更好的分类器选择策略,如何构建更完备层次更合理的特征指标体系,以及眼动与情感状态的关联关系等问题仍需要进一步研究。