基于学生情绪动态识别的课堂教学研究

2019-09-09 07:39陈盛戴建邦高翔严以哲王强

中国教育信息化·高教职教 2019年7期

陈盛　戴建邦　高翔　严以哲　王强

摘要：现代高校课堂教学大多仍是一对多的教学模式。受教师资源的限制，有些基础课程的班级人数可达数百人。对于这种授课情境，教师难以实时获取全体学生的学习反馈，因此提出采用基于阵列摄像头获取全体学生课堂面部表情、判断知识点教学效果的实时反馈系统，可以辅助教师动态了解学生的学习状态，以便及时调整教学方式或进度。通过课堂实验及课后问卷调查结果，表明此反馈系统可有效提高教学质量，从而达到更理想的教学效果。

关键词：情绪识别;面部表情;课堂教学;反馈

中图分类号：G642 文献标志码：A 文章编号：1673-8454（2019）13-0033-04

认知心理学告诉我们：认知加工和情绪加工在大脑的多个层面上是整合在一起的。[1]例如，有些皮质结构（如眶额皮质）通过与负责情绪加工的神经结构（如杏仁核）相互作用，将学习过程中的认知与情绪信息整合到一起。[2]部分药物能够降低或者增加焦虑对学习的破壞作用。[3]动物实验表明，如果原本中性的感觉信号被杏仁核加工为具有明显情绪意义的厌恶信息，老鼠的学习就会受到影响。[4]情绪体验对学习效率的重要作用启示我们：营造引导学生诱发积极情绪的课堂学习氛围，可以更好地帮助学习者理解课程和进行更有效的学习。

为了更好地诱发学生积极情绪，需要教师能够实时准确把握学生的学习状态。然而目前的高校课堂，特别是基础课程通常人满为患，教师难以全面地监测学生的学习情绪。随着近几年计算机图像技术的发展，基于人脸的情绪识别准确率不断提高，这为我们构建学生课堂学习情绪的实时反馈系统提供了有力的保障。本文在基于学习状态的情绪分类基础上，利用摄像头阵列，构建图像采集系统;实时动态识别人脸信息;通过特征提取以及情绪分类器完成情绪识别;通过计算机汇总识别信息给出统计结果并实时呈现给授课教师。这有效提高了教师的授课效果。

一、情绪及分类

情绪作为心理学的一个复杂概念，在科学文献中有很多不同的定义。比较通用的一种说法是：情绪是一种可以带来心里和身体变化的复杂感觉状态，这些变化又能够作用于思想和行为。情绪的分类有很多种，Ekman Paul最早建议将情绪分为厌烦、恐惧、惊吓、生气、开心和失望这六个主要类别。[5]2005年他拓展了诸如害羞、满足、骄傲、愉悦等其他情绪。[6]Robert[7]通过轮式结构总结了8种不同的情绪以及他们之间的相互关联情况。何祎[8]建立了基于三维情绪模型的学习者情感模型，针对6种外显表情进行量化表示，然而其对情绪的特征囊括仍不够全面。目前主流的表情识别方法仍是基于“6+1”的主要分类模式给出对比结果。然而针对学生的课堂学习情况，还需要研究这6种情绪是否有利于学生学习。我们依据是否有利于学习设置了三类，包括对学习起积极作用、起消极作用，以及作用不明显的情绪状态。

二、摄像头安装

为了动态实时识别出每个学生的情绪状态，首先需要能够实时检测出每个学生的头像信息。基于所选用的摄像头观测范围及分辨率，并考虑到不同的班级学生容量以及教室大小，规划出摄像头的安装位置。如果教室过大，可采用阵列式的摄像头布局方式。图1所示为两个摄像头的安装布局。

三、面部情绪识别

面部情绪识别通常需要完成三个基本步骤。第一，进行人脸预处理;第二，进行人脸情绪特征提取;第三，通过分类器完成情绪类别筛选。其流程如图2所示。

为了实现面部情绪识别，首先需要进行人脸检测。人脸检测是针对图像中不同尺寸的人脸，给出人脸的位置和大小信息。然而由于一幅图像中的人脸因前后位置不同，导致头像大小尺寸不一，难以用统一的识别算法进行情绪分类。因此需要将人脸进行规范化处理。通过面部特征点定位，对人脸中的关键区域位置（如眉毛、眼睛、鼻子、嘴等）进行精确定位，再根据特征点的位置信息将人脸进行对齐到预先定义的模版，使规范化后的人脸具有统一的大小，并且人脸各个部位具有相应的对应关系。情绪特征提取根据规范化后的人脸图像，提取人脸鲁棒性的描述信息;分类器则根据提取特征信息与已知情绪特征进行相似度比较，判断是否为所定义的情绪。

1.人脸预处理

根据上述摄像头的安装布局，每个摄像头视野内包含的学生人数都不少于1人。所以，为了准确识别每个学生的情绪状态，首先需要对单幅图像内的人脸信息进行识别。这里用到人脸检测部分的相关方法——基于特征的方法、基于模版匹配的方法、基于子空间的方法、基于统计模型的方法、基于神经网络的方法等。[9]由于背景差异、光线明暗、不同的头部姿势等实际检测情况，在预处理中，我们还需要对识别出的人脸部分进行对齐、数据增强和归一化等处理。

目前，V&J和dlib是最广泛使用的两种人脸检测器，计算相对简明。然而这仅针对前脸十分有效，对于多视角的人脸检测还存在一定问题。近期的一些工作，通过引入可变形零件模型（DPM）来实现人脸检测，可以有效提高鲁棒性和局部准确性。[10]进一步采用级联策略，可以提升计算速度。图3是本文采用人脸检测算法得出的人脸定位检测过程。

2.特征学习

对于面部表情识别系统来说，特征提取可以算是最为关键的一步。针对人脸的表情特征， Ekman P[11]提出的FACS人脸分类系统给出了32个面部肌肉动作和14个附加动作描述，如头部姿势、注视方向以及其他动作。Wang Y和Guan L[12]采用了1856个纹理特征库，进行模式匹配。为了有效获取这些面部特征，可采用Gabor滤波器和离散小波变换来描述。

Gabor小波变换是一种强大的图像处理算法。它类似于人类视觉系统中的感知，可有效促进图像边缘检测，表情分类严重依赖于面部特征的形状，例如嘴巴、眼睛和眉毛。通过Gabor过滤器进行卷积，以获得突出显示这些感兴趣区域的图像表示。Gabor滤波器的核函数一般定义为：[13]

ψu，v（z）=e-||ku，v||2||z||2/2σ2eiku，vz-e-σ2/2

其中，u和v定义了Gabor滤波器的方向和比例，而ku，v=kveiφu、φu=πμ/8、kv=kmax/fv表示核函数的频率（尺度），f是频域中的内核之间的间隔因子，σ为高斯核函数的标准差。通常σ=2π，kmax=π/2，而f=。

通过Gabor小波得到关于脸部表情的特征向量后，可采用目前较大的人脸表情识别公开数据库fer2013数据集进行特征训练，共包含35887张人脸图片，其中训练集28709张、验证集3589张、测试集3589张。数据库中各个样本在年龄、面部方向等有比较大的差异性，具有一定的实际意义。同时，数据库中的图片均为灰度图片，大小为48×48像素，样本被分为生气、厌恶、恐惧、开心、中性、伤心、惊讶7类，各种类型分布基本均匀。采用卷积核提取特征逐层由简单变复杂，多层卷积核从低级特征，如眉毛的边缘、眼角的形状，提取出诸如眼睛、鼻子等高级特征。随后，这些识别出的高级特征，被送入全联通层，划分为不同情绪。（见图4）

3.MLP情绪分类器

一旦特征向量通过特征提取获得，就需要利用所提取的特征向量对表情进行归类。现流行的做法是分为7类，包括伤心、生气、厌恶、开心、惊讶、恐惧和失望等。这里我们采用成熟的多层感知器网络（MLP）进行分类处理。考查了一系列不同的网络拓扑结构参数后，输入层设计了8400个神经元，隐藏层设计了93个神经元，输出层为7个神经元，分別对应这7种情绪状态。MLP采用sigmoid函数，并采用反向BP网络进行训练，从而减少了陷入局部最优的可能。

为了进一步对各种情绪状态做出教学改善措施，基于学习状态空间将情绪分为三类：对学习起积极作用，起消极作用，影响不明确。通过简单的情绪状态映射，实现了课堂学生学习状态的分类，即伤心、生气、厌恶情绪对应消极状态，开心和惊讶对应积极状态，而正常和恐惧对应不明显的状态。同时利用人脸检测算法特性，检查高等级人面部特征（包括双眼、鼻子、两侧嘴角）。其中认为检测到不足两个特征的人脸为低头，即完全不专注级别;识别出两个或三个特征为有意识、抬头，但未直视黑板/教师;识别出四个以上特征的认为注意力集中，直视黑板/教师。同时，情绪识别仅针对能够识别出四个以上特征的面部进行情绪分类。分类模型如图5所示。

四、系统搭建与实验结果

根据上述理论搭建了系统测试平台。测试采用两个加拿大灰点（Point Grey）公司生产的GS3-U3-51S5M型号摄像头采集学生头像信息，其最大分辨率为2448×2048，帧频可达75fps。处理的主机采用HP笔记本电脑，CPU为intel i7-8550U，内存8G，显卡为英伟达MX150。利用自主开发的软件系统进行学生情绪的实时监测，根据摄像头的焦距和分辨率设定好拍摄范围，一副图像内可同时进行辨识情绪的学生人数7人。

针对45分钟一堂的《现代测试理论》课程，在教学过程中对学生的状态进行跟踪监测，得到在一堂课程时间范围内的情绪变化曲线图，如图6所示，其中图6（a）为正式上课前一段时间，学生并没有处于听课状态，注意力和敏感层次在最低点;图6（b）为授课到关键内容时刻，学生注意力高度集中，情绪以困惑和平静/不明朗为主，注意力集中度到达最高峰;图6（c）为知识难点过后的一段时期，学生注意力出现一定程度的下降。

可以看出，在课程前半阶段，学生逐渐由课间的注意力低下状态转为注意力高度集中状态，此时困惑状态占主导部分。在学生注意力高度集中状态持续一段时间后出现了注意力下降的情况，情绪逐步恢复平静。当到课堂中后期时，学生的注意力再次提高到相当的高度，此时困惑和平静占据主导地位，随后注意力降低到中等程度。根据记录的数据进行统计发现，在此课程识别出的所有学生情绪中，积极情绪出现了231次，消极情绪出现了133次，平静/不明朗的情绪出现了305次，统计结果如图7所示。针对学生情绪状态的实时变化，教师可以通过改进教学过程中知识点的分布来提高学生注意力。在容易出现注意力不集中或负面情绪时，引入一些改善学生学习情绪的积极措施，例如播放动画、提问、分组讨论等。从而提高学生在一堂课程中的积极情绪占比。

需要说明的是，对于Fer2013数据集，人眼的识别准确率也仅有65%左右。通过改进提取特征以及学习网络的方法，可以进一步提高机器对表情的识别率。这将是本研究的进一步改进方向。

通过引入该套情绪观测系统，动态改进课程的教学方案，这样一堂课程的教案形式不再单一以知识点系统为主线，考虑到学生的动态情绪变化规律，进行针对性的改进。例如，《现代测试理论》中的参数估计内容，我们可以根据上述课程中学生的情绪波动曲线，如图6（d）所示，有针对性地改进课程教案，如图8所示。

在课程之初，通过设置提问环节，吸引学生注意力，使学生能够快速进入学习状态，在情绪波动曲线的低谷处（即較为困难的知识点三和知识点四之间），设计交互例题，帮助学生消化知识难点，或者通过引入科学典故来缓解学生的持续紧张情绪，增强学习的乐趣。最后在课程结尾时（此时情绪波动曲线显示学生注意力较弱），可以设置案例视频进行播放，通过视频图像、声音等综合感官信息，吸引学生注意力并缓解一整节课的紧张情绪。为了验证教学方案改进的效果，我们设计了调查问卷，统计结果显示改进的教学方案收到的好评比率比原教案高近15%，说明学生对改进的教学方案更加认可。通过上述情绪识别系统，动态改进教学方案，使本学时内容的教学效果得到了大幅改善。

参考文献：

[1]官群，姚茹.认知神经科学：为教育打开大脑“黑匣子”[J].中国特殊教育，2017（2）： 59-64.

[2]Csibra G，Gergely G.Social learning and social cog-nition：The case for pedagogy[M].Attention & Perform-ance，2006（21）：249-274.

[3]Cools R，Roberts A C，Robbins T W.Serotoninergicregulation of emotional and behavioural control proces-ses[M].Trends in Cognitive Sciences，2008，12（1）：31-40.

[4]Stutzmann G E，Ledoux J E.GABAergic antagonistsblock the inhibitory effects of serotonin in the lateralamygdala： A mechanism for modulation of sensoryinputs related to fear conditioning[J].Journal of Neuro-science，1999，19（11）：RC8.

[5]Ekman P.Universals and cultural differences in facial expressions of emotion[J].Journal of Personality & Social Psychology， 1987，53（4）：712.

[6]Ekman P.Basic Emotions[M].Handbook of Cognition and Emotion.John Wiley & Sons，Ltd，2005：45-60.

[7]Thamm R A.The classification of emotions[M].Handbook of the sociology of emotions. Springer，Boston，MA，2006：11-37.

[8]何祎.基于情感的课堂教学评价方法研究[D].锦州：渤海大学，2015.

[9]丁春辉.基于深度学习的暴力检测及人脸识别方法研究[D].合肥：中国科学技术大学，2017.

[10]Orozco J，Martínez B，Pantic M.Empirical analysis of cascade deformable models for multi-view face detection[J].Image & Vision Computing，2015，42（C）：47-61.

[11]Ekman P，& Rosenberg E L.What the face reveals：Basic and applied studies of spontaneous expression using the Facial Action Coding System （FACS）[M].Oxford University Press，USA，1997：425-434.

[12]Wang Y，Guan L.Recognizing Human Emotional State From Audiovisual Signals[J]. IEEE Transactions on Multimedia，2008，10（5）：936-946.

[13]Chelali F Z，Djeradi A.Face Recognition Using MLP and RBF Neural Network with Gabor and Discrete Wavelet Transform Characterization： A Comparative Study[J]. Mathematical Problems in Engineering，2015：1-16.

（编辑：王天鹏）