基于表情识别的课堂专注度实时反馈系统设计与实现

2023-12-18 08:58:24周新一应文豪龚声蓉

现代电子技术 2023年24期

周新一，应文豪，龚声蓉

（1.东北石油大学计算机与信息技术学院，黑龙江大庆 163318；2.苏州大学计算机科学与技术学院，江苏苏州 215000；3.常熟理工学院计算机科学与工程学院，江苏常熟 215500）

0 引言

随着“互联网+”时代的到来，在线教育、人工智能、智慧课堂等成为了教育教学的热点话题，传统教学方式受到严重冲击[1]。2020 年受疫情影响，为确保疫情防控的同时也能顺利完成教学任务，全国各地的教学任务都开始由线下改到线上进行，在线教学迎来了高光时刻，成为疫情期间课堂教学的主要方式。安东尼奥·里卡拉多等人更是称在线教育为“两百年来最重要的教育技术”。然而随着在线教学的展开，这种方式的弊端也逐渐展露，在线教育是利是弊引发教育研究者深思。线上教学使教师处于课堂视觉盲区，尽管教师可以通过设置随堂考核[2]或者课堂提问[3]等方式了解学生课堂专注状态，但是教师并不能实时跟踪学生在整个课堂教学过程中的注意力状态[4]。例如：部分学生自控力差，不能一直在屏幕前听课[5]，或者虽然在计算机前听课，但注意力不集中，时常走神[6]，这就使得教师讲课时不能确保课堂上大部分学生掌握知识点。

在线上教学模式下，学生完全脱离了教师的实景视线[7]，教师因无法掌握课程动态而严重影响教学质量。计算机视觉的发展给在线课堂提供了解决问题的方向。目前，表情识别技术已经日趋成熟，具有广泛的应用前景。殷乐章等人将学生表情与环境监测结合，设计了适合在线课堂的学生课堂专注度检测系统[8]。钟马驰等人通过头部偏转角、疲劳度和面部表情识别进行模糊综合评价，从而实现专注度识别[9]。陶溢等人将表情与头部姿态结合进行专注度评价[10]。袁霞提出将学生表情、人体姿态、头部姿态多维度相结合，识别专注度[11]。张璟提出一个轻量级卷积神经网络的表情识别算法，将学生面部完整度、是否低头扭头、学生群体表现和学生表情相结合，可以更准确地评估学生的学习状态[12]；G.Tonguc 等人借助微软情感识别API，对在整个讲座过程中学生的情绪进行自动监测，统计分析表情变化是否有意义[13]。P.Sharma 等人将眼睛和头部运动信息与面部情绪相结合，用非常投入、名义投入和完全不投入3 个指标进行判别，实验不仅正确识别3 个指标的时间段，还得出得分最高的学生也具有较高的专注度指标[14]。何秀玲等人提出一种结合眉毛、眼睛、嘴巴的局部特征与CLBP 浅层纹理、CNN 深度网络的全局特征的学习表情特征提取方法，实验证明该方法适用于自发的学习表情数据库识别[15]。唐康将抬头听课率和学生表情相结合来评价课堂效果，实验结果与人的注意力保持规律相一致，具有一定理论意义[16]。徐振国通过实验探讨学习画面自适应调整对学习者情感的影响，设计情感自动评估系统，从而有助于教学设计，促进学习者轻松专注于课堂[17]。先前工作中所做的课堂表情研究都是基于常见的六七种传统表情，见表1，这在真实的课堂场景中效果并不理想。因此，本文考虑将学业表情外显情绪作为表情分类，对课堂专注度进行实时计算并呈现给教师和学生。

表1 课堂学生表情研究分类表

学业情绪的概念最早是由Pekrun 提出的，是指学生在学习环境中会体验到各种各样的自我参照情绪、任务相关情绪和社会情绪，是一个心理学的概念，它的外显表情一定程度上能反映学生的课堂状态。本文将深度学习算法应用于表情识别，通过模糊综合评价将表情与专注度关联来设计系统，利用表情数据分析师生行为，辅助教师教学，满足学生个性化需求，提高教学效果。本文利用表情识别技术让教师掌握学生课堂表情变化情况，跟踪其上课专注度，从而分析课堂动态，实时调整教学方法。

1 系统的设计

首先对课堂专注度实时反馈的业务过程进行详细分析，根据教师和学生的上课需求，设计与实现了表情专注度识别模块，实现对课堂主体专注度分析的数据支持；然后，在此基础上进行数据可视化，以图表方式为教师和学生提供数据依据。

1.1 系统组成模块

为了辅助教师线上教学，本文提出一种课堂专注度实时反馈系统，其主要分为表情识别、数据库存储、统计分析三大模块，如图1 所示。

图1 课堂专注度实时反馈系统的结构

1.2 表情识别模块

表情识别模块主要负责通过分析一个人的面部表情来检测他的情绪。

1.2.1 数据集和预处理

本系统根据学业情绪和相关课堂表情研究，将表情分类细化为困惑、沮丧、难过、生气、害怕、厌恶、无聊、昏昏欲睡、惊讶、开心、无表情、看其他地方等12 种。这里采用公开的JAFFE、NIR KMU-FED、kaggle 竞赛中Student-engagement 的表情数据集，表情图片以“.jpg”格式保存，通过人工标注成“.xmls”格式，共3 084 张作为深度学习模型训练模型，提高表情识别率。

1.2.2 表情识别模型

YOLOv4 是当前最先进的目标检测算法之一，不仅识别速度快，精确度还高。为了取得最好的学生面部表情识别性能，本模块将通过YOLOv4 算法完成人脸检测和表情分类。

图2 是YOLOv4 的网络架构，相比于之前的YOLO系列，YOLOv4 性能表现更加优异。在主干网络部分，它将之前研究者已经写好的方法技巧应用于DarkNet-53 网络中构成新的CSPDarkNet-53 的主干网络来对目标进行特征提取，同时使用允许负值不截断还有较小负梯度流入的激活函数Mish 替换原来的负值过于绝对的激活函数ReLU，以确保训练时的稳定和准确率的提高等；在中间层部分，结合路径聚合网络PANet 和特征金字塔进行参数特征拼接聚合，以提高检测效果，同时通过空间金字塔池化SPP 网络将规范不同尺寸的输入图像最大池化，以增大感受野。

图2 YOLOv4 网络架构

1.2.3 训练与结果

训练随机抽取测试集的20%作为验证集，剩余部分为训练样本，且训练集与验证集数据无交叉。参数具体设置见表2。

表2 训练参数设置

mAP 指的是多个类别平均精确率AP 的算术平均值，是目标识别任务中常用的指标，可以用来衡量模型识别效果的好坏[18]。通过训练模型识别的mAP 达到了80.42%，如图3 所示，结果已经达到人眼判别的性能。由于学生课堂表情大多以中性为主，为了深度分析学生心理，数据集采用中性表情数量相对较少，对应识别精度并不高；另一方面，厌恶表情与生气表情有点相似，精确度也相对较低。这说明了表情识别是一种复杂且模糊的任务。

图3 训练结果图

1.3 数据库存储模块

本系统数据库包括学生、教师、专注度信息三个实体。教师主体属性有教工号、姓名、登录密码，学生主体属性有学工号、姓名、登录密码，专注度信息主体属性有专注度信息号、时间、表情、专注度分、表情标签。图4为系统主要内容的E-R 图。图中表述了实体之间的联系：一位教师可以给多名学生授课，一名学生只能听一位教师的课，因此教师和学生之间是一对多的联系；一个专注度信息可以存放多名学生的信息，一名学生只能存放在一个信息库中。因此，信息库与学生之间是一对多的联系。

图4 E-R 图

数据库主要是用于存储学生的课堂表情专注度信息，如表3 所示。

表3 专注度信息表

1.4 统计分析模块

统计分析模块是本文的核心模块，主要负责学生课堂表情专注度计算。

1.4.1 专注度评估方法

模糊综合评价法是一种基于模糊数学理论的评价方法，用于评估多个因素对某一目标的影响程度。通常这种方法是在没有数据情况下生成数据的典型方法。本文研究的专注度是一个持续性过程，单张图片、单个表情都并不能说明学生学习的专注情况，因此通过邀请100 名高校老师填写自制的高校教师针对课堂表情专注度模糊综合评价问卷，来进行专注度评估研究，具体步骤流程如下：

1）确定评价指标。本研究因素集V为12 种表情，评语集U为5 个评判等级。

2）确定权重。指标层权重A为阶段时间内对应表情数量与总表情数量的占比。

3）构建评价矩阵。通过问卷结果计算出评价矩阵R为：

4）模糊合算。按照一定的模糊运算规则进行模综合评价，求得模糊综合评价集合B，具体为：

5）决策。先将上述模糊综合评价集B进行归一化，再采用加权平均原则进行数据转化，得出阶段时间内该学生的决策专注度评分。

本文将学生表情按照阶段时间专注度评分，作为分析该学生上课情况的数据依据，将每分钟所有学生专注度评分平均分作为分析课堂评分的数据依据。专注度评分的数据以图表的可视化形式展现，使得数据更为直观、更容易理解。通过系统实时获得专注度评分，给学生提供了自我监督和自我审查功能。当检测出不想听课的学生时，本系统会向该同学发出警报，提醒学生学习状态。

1.4.2 实验对象与分析

以本校5 名学生作为实验对象，选取研究对象自己感兴趣的课程视频作为课程内容，进行时长45 min 的线上教学并对实验对象进行录屏。研究将视频默认设置1 s 一张表情截取，5 min 之后计算专注度分。将5 min 内对应表情的占比默认为该表情的权重。根据模糊综合评价相关计算，获得45 min 内该学生的专注度得分。为了验证研究结果的合理性，针对这5 名学生上课过程的录像视频，请5 名高校教师通过观察对这5 名学生课堂表情专注度进行打分，打分标准参照学生课堂专注度量表，该量表是陶溢的专注度评价量表的表情包部分内容，量表的信度和效度符合评判标准[10]。表4 是教师评价与本文专注度评价的分数。

表4 教师和本文研究专注度评分表分

皮尔逊相关系数（Pearson Correlation Coefficient）是一种衡量两个变量之间线性关系强度的统计量，通常用于描述两个连续型变量之间的关系。它可以帮助大家了解两个变量之间的线性关系，从而进行更深入的数据分析和预测。它的取值范围在-1～1 之间，其值越接近于1 或-1，则说明两个变量之间的关系越强；如果其值越接近于0，则说明两个变量之间的关系越弱或者不存在线性关系。皮尔逊相关系数的计算公式为：

式中：x和y分别表示两个变量的值；n表示数据点的个数。如果两个变量的皮尔逊相关系数为正，说明两个变量之间存在正相关关系；如果皮尔逊相关系数为负，则说明两个变量之间存在负相关关系；如果皮尔逊相关系数为0，则说明两个变量之间不存在线性关系。为测定教师评价结果与本研究专注度评价结果的相关性，选用皮尔逊相关系数进行测量，计算结果为0.989，其绝对值接近1，由此可知本研究的评价方式是合理可行的。

2 系统实现

本系统涉及两种用户界面，分别对应学生和教师。

2.1 学生界面

学生专注度反馈的界面将学生自身的课堂状态及时记录评分，并通过专注度折线图方式知晓，以促进该生的学习动机。当学生长期处于消极状态时，界面开始弹窗警报以规范该生上课行为；当学生重新回到正常状态时，界面重新记录课堂状态。警报功能图如图5 所示。

图5 学生界面警报功能图

2.2 教师界面

教师专注度反馈的界面将课堂主体的学习经历以数据的形式提供反馈，教师通过学生专注度评分排名了解学生个体的学习状况，据此教师可以及时调整课堂进度、教学风格，满足了教师的课上需求，也给学生提供了高质量的学习体验。在课程后，通过系统辅助教师分析学生的学习态度以及时调整学生学习心理，从而整体了解学生对知识点的掌握情况，分析课程的教学效果，有利于其对下一节课的课前回顾的重点突出。教师主界面图如图6 所示。

图6 教师主界面图

3 系统实验结果

为了验证系统的可行性，继续将之前的5 名同学作为研究对象进行线上授课实验，图7、图8 分别为个体、全体学生专注度反馈结果。结果表明，系统能够对学生专注度状态进行检测并实时反馈给教师和学生，通过反馈内容，学生可以及时调整课堂状态，教师也能及时调整课程。

图7 个体学生专注度反馈

图8 全体学生专注度反馈

4 结语

课堂教学是一项需要情感赋能的工作，本质是师生互动，师生关系融洽的课堂环境有助于学生的深度学习。针对传统表情不适用于现实课堂，本文设计一种基于表情识别的课堂专注度实时反馈系统，将可识别的学业表情作为课堂表情识别类别更具有可靠性，教师可以更加细致地观察和分析学生在课堂中的情绪变化，从而更好地促进学生的学习和发展。

注：本文通讯作者为龚声蓉。