尚明 郭小燕
关键词:深度学习;面部表情识别;行为特征识别;模糊综合评价算法;课堂专注度
0 引言
目前,在课堂教学中,缺乏对学生学习专注度的量化评估技术方法,这使得教师很难客观全面地了解学生的学习状态。这对于评估课堂学习效率和教学质量产生了重要的影响。因此,研究学生课堂专注度检测方法变得至关重要。
该系统将面部表情识别模型和行为特征识别模型进行融合[1],构建了一个基于面部表情识别和行为特征识别的课堂专注度模型。提升学生课堂专注度以及自主思考与学习能力,教师通过课堂专注度评价数据掌握学生对于课程的感兴趣程度,从而及时了解学情,为改善教学方法与手段,提升教学效果提供客观依据。
1 表情识别
表情识别主要包括人脸数据采集、图像预处理、表情特征提取、表情分类和表情识别等五个处理步骤,如图1所示。
通过摄像头获取的学生面部图像,送入表情识别模型识别表情,获取开心、惊讶、悲伤、害怕、生气、厌恶和中性等以下7种表情,如图2所示。
1.1 数据集
KDEF表情数据集是一个开源数据集,最初用于有关记忆、注意力、感知和情绪表达的心理学和医学研究。数据集有4 900张图像,包含7种表情,分别是开心、惊讶、悲伤、害怕、生气、厌恶和中性[2]。
1.2 模型介绍
本文采用了迁移学习技术,基于预训练的VGG16 模型[3],针对面部表情识别任务进行了研究。利用VGG16模型在KDEF数据集上学习到的丰富面部表情特征,构建了一个CNN表情分类模型。通过微调VGG16模型的卷积部分,并结合自定义全连接层,实现了对不同面部表情的准确分类。
2 行为识别
在真实的课堂环境中,学生会不断地移动视角,摄像头无法识别学生的面部表情。这时学生的头部姿势和各种行为可能会透露出一些关于他们专注程度的信息。例如,观察学生面部和上半身的姿势偏转,可以获取一些关于他们专注程度的信息。如果学生端正地保持面部和身体的姿势,可能表明他们的注意力较为集中。然而,如果学生的面部和身体不端正,例如低头看书、表现出心事重重或与他人交谈,或者转头和转身等,很可能表示他们的注意力没有集中。因此,在面部表情识别的基础上,将行为特征作为评价学生专注度的另一标准,从而提高课堂专注度检测的准确性。
行为特征识别是结合面部和身体特征为判断基准,将行为特征分为:头部严重偏转,身体严重偏转,低头睡觉,头部身体无明显偏转,趴着等5种类别[4]。
行为特征识别主要包括视频模块、目标检测模块、行为估计模块、动作分类模块和标注可视化模块等5个模块,如图3所示。
2.1 模型介绍
AlphaPose[5]是一个精确的多人姿态估计器。在图像或视频中,人体重要位置的坐标信息以及关键点的结构是人体姿态估计算法的首要目标,这些关键点的预测可以确定人体姿态。人体姿态估计算法根据不同的预测技术可分为自上而下和自下而上两大类。
自上而下方法通过目标检测识别图像中的每个人,然后在获得目标边界框后估计每个目标的单人姿态。然而,在多人场景中,自上而下的方法需要正确地将关键点分配给每个检测到的人体,这会导致检测速度降低。自下而上的方法首先将检测环境中所有关节节点进行组合,拼接得到骨架。自下而上的方法直接关注关键点的检测,因此在处理遮挡、复杂背景和多人场景时通常更具鲁棒性。然而,如果两个人距离很近容易混淆,对全局信息的获取也有一定欠缺,容易出现误检。
在多人姿态场景问题中,首先通过空间变换网络接收人体边界框,SDTN 产生人体推荐区域。并行的SPPE在训练阶段有助于模型更准确地捕捉关键点。其次,参数化姿态非最大抑制用于剔除冗余检测框或关键点。最后,姿态引导的区域框生成器用来增强训练样本。本文使用的Alp?haPose 代码实际上是yolov3-spp 行人检测、姿态关键点检测和ReID进行行人重识别算法的组合。AlphaPose的结构如图4所示。
2.2 数据集
Halpe136关键点数据集[6]是一个用于人体姿态估计的数据集。该数据集包含136个关键点,用于描述人体的姿态和动作。每个关键点表示人体的特定部位,如脸部、全身、手部等。数据集中的图像是从真实场景中采集的,包括各种不同的动作和姿势。其中面部关键点如图5所示。
2.3 模型参数
Alphapose模型在训练时需要设置多个超参数,这些参数的设定会影响模型的收敛和精度。具体设置如表1所示。
3 课堂专注度模型建立
3.1 面部表情与行为类别及权重划分
根据学生在课堂中的表现,将专注度评价划分为三个等级,分别为专注、较专注和不专注,分别用符号Ⅰ、Ⅱ、Ⅲ表示,如表2所示。
在真实的课堂环境中,积极的表情通常与高专注度相关。当学生专注时,他们可能会展现出兴奋、兴致勃勃的表情,表明他们对教学内容感兴趣并主动参与。例如,他们可能展现出微笑、眉毛上扬、眼睛睁大等积极的表情。相反,消极的表情往往与低专注度相关。当学生注意力不集中时,他们可能表现出厌烦、倦怠或无聊的表情。例如,他们可能皱起眉头、嘴角下沉、眼睛眯起等消极的表情。
在表情识别的基础上,行为特征一定程度上反映了学生的上课专注度程度。当学生的头部和身体偏转程度较高时,可能意味着他们的专注度较低。这种偏转可能是因为学生转向他人交谈、分心看周围环境或其他不相关的事物,失去了对课堂内容的关注。相反,当学生的头部和身体偏转程度较低时,通常意味着他们的专注度较高。这种情况下,学生保持身体端正、面向教师或课桌,并且没有明显的分心行为。这表明他们将注意力集中在课堂内容上,与教师和其他学生保持有效的目光接触,展现出务实和专注的学习姿态。
将上述7种表情和五种行为类别以注意力集中程度为标准进行划分[7],如表3所示。
课堂专注度评价中一级指标分别是面部表情和行为特征,权重分别用 W1 和 W2 表示。二级指标权重分别一一对应 W11、W12、W13 和 W21、W22、W23,如表4 所示。
3.2 课堂专注度模型建立
基于面部表情和行为特征分析,引用了模糊综合评价算法[8]来计算学生的专注度分数。该算法能够根据不同因素的权重,综合考虑学生在表情和行为方面的表现,定量评估他们的专注程度。
3.2.1 构建单因素评价矩阵
1) 确定面部表情评价矩阵:
2) 确定行为特征评价矩阵:
3.2.2 确定因素权向量
1) 确定面部表情的权向量:
2) 确定行为特征的权向量:
3.2.3 建立综合评价模型
1) 建立面部表情评价模型:
2) 建立行为特征评价模型:
3) 融合面部表情和行为特征的评价模型,得到课堂专注度评价模型[9]。
4) 计算课堂专注度得分:
本文使用VGG16迁移生成的表情识别模型用于学生课堂表情识别和AlphaPose姿态模型用于检测学生行为并引入模糊综合评价算法进行学生专注度评估。专注度检测模型结构如图6所示。
3.3 课堂专注度评价
首先,输入视频经过采样、检测获取学生的位置信息,分别进行识别表情和行为特征,并应用模糊综合评价算法得到全体学生和整体课堂的专注度得分。专注度评价流程如图7所示[10]。
本文利用专注度分数来衡量学生在课堂上的专注程度。其中,专注度分数越高表示学生个体越专注,而专注度分数越低则表示学生个体的专注程度较低。这种分数的计算通常基于对学生在课堂中行为和表现的观察、记录和评估。较高的专注度分数暗示着学生在课堂上展现出积极地参与和专注态度,他们可能会积极参与讨论、提出问题,并表现出对学习内容的兴趣和理解。而较低的专注度分数则意味着学生可能表现出分心、不专注和缺乏参与度的行为。
通过联合表情识别模型和人体姿态模型,并结合模糊综合评价算法,能够更全面地评估学生的专注度。表情识别模型可以捕捉学生的面部表情变化,而人体姿态模型则可以监测学生的身体姿势和动作,使我们能够更准确地计算课堂专注度分数。
3.4 开发环境
实验使用Linux操作系统作为实验环境。详细情况如表5所示。
4 实验结果
4.1 表情检测结果
通过摄像头采集到的人脸数据,经过预处理和特征提取等步骤,对人脸图像进行分析。然后,将提取到的特征输入表情识别模型,输出表情类别的结果,具体如图8和图9所示。
4.2 行为检测结果
获取到上半身的图像,检测面部和身体的关键点,将其输入行为识别模型进行分析和识别,然后得出行为类别,具体如图10和图11所示。
4.3 专注度评价结果
基于面部表情和行为特征两种因素,通过模糊综合评价算法得到专注度评价结果,具体如图12所示。
5 结束语
本文设计了一种基于实时课堂教学的专注度评价模型,通过分析学生的课堂表情和行为特征来计算他们的专注度得分。在面部表情识别方面,采用了VGG16卷积神经网络模型;在行为特征识别方面,结合了面部和身体特征为判断基准。通过引入模糊综合评价算法计算课堂专注度得分。教师可以借助这些得分来了解学生的学习状态和需求,从而调整教学策略和方法,提高学生的学习效果。此外,基于学生群体的整体专注度得分,教师还可以评估和改进课堂教学的质量和效果。