基于多模态情感识别的学情分析系统的实现

2023-11-16 14:04:37张凌熙蔡子硕李林燕

客联 2023年7期

张凌熙　蔡子硕　李林燕

摘要：人工智能在教育领域的应用，尤其是学习分析技术和情感计算在评估教学质量和学习效果方面显现出巨大的优势。OpenCV是一个免费开源的计算机视觉库，提供多种編程语言的接口，可用于图像处理和计算机视觉处理。TensorFlow是谷歌公司开发的免费开源深度学习框架，提供丰富的API和工具，可以快速构建各种类型的机器学习模型。Keras是一个高级神经网络API，可以与多个深度学习框架集成，提供简单、快速构建深度学习模型的方式。

关键词：人脸识别；多模态情感识别；学情分析

一、引言

当今世界人工智能行业发展迅速，各行各业都在尝试将人工智能融入进行行业创新，进行行业迭代抢占市场先机。在教育行业这种现象也十分常见，其中新兴的学习分析技术对师生数据的深度刨析和应用为教育领域向智慧化转型提供了新的发展视角。在教育行业中，学生的认知能力一度被认定为影响学生学习能力和学习热情的最根本原因，根据现有的研究资料表明学生的认知能力通常会通过面部表情和肢体动作、神情变化、语言等方式显现出来。而情感计算是指开发者通过人工智能识别并分析计算采集到的人体面部的情感信息和肢体动作，从而解读人类情感，就此来看情感数据计算分析在评估教学质量和学习效果方面可以发挥出不小的作用。

OpenCV是一个免费开源的计算机视觉库，可以在多种操作系统上使用，并提供多种编程语言的接口。它已经持续更新和升级了近20年，拥有近500个C函数的API，使得开发者可以通过简单的函数调用来编写较为复杂的模型框架，而不需要过多了解底层的逻辑架构。除了提供丰富的图像处理和计算机视觉处理算法库之外，OpenCV还可以与流行的深度学习框架如TensorFlow、Caffe2进行集成，使得开发者可以将训练好的模型应用于实际的项目或产品中。

TensorFlow是由谷歌公司设计和实现的一款基于数据流图的免费开源深度学习框架，它提供了丰富的API和工具，可以帮助开发者快速构建各种类型的机器学习模型。Keras是一个高级神经网络API，基于Python语言和多个深度学习框架（如TensorFlow、CNTK和Theano等），它提供了一种简单、快速构建深度学习模型的方式。Keras的设计理念是模块化、可组合和易扩展，使得开发者可以轻松构建各种类型的神经网络模型。Tensorflow基本架构如下图1所示。

二、基于监控视频流的情感识别的实现

（一）基于监控视频流的情感识别方法的实现

本系统旨在建立一种基于高清监控摄像头的人脸识别情感分析方法，并实时反馈分析结果到后端。具体实现中，我们利用OpenCV提供的视频流采集模块cv2.VideoCapture，对监控摄像头采集到的视频进行输入。同时，我们可以设置视频的分辨率和帧速率等参数。接着，我们使用cap.read（）函数逐帧读取视频流中的图像，并将其转换为静态图像。使用cv2.imwrite（）函数将所获得的图像保存为静态图像，并使用cv2.imshow（）函数显示图像帧。然后使用TensorFlow人脸识别模块对视频流中的静态图像进行分析，以识别人脸位置、大小、姿势和表情等特征，并与预存储在数据库中的人脸图像进行比较和分析。通过调用TensorFlow模型的predict（）方法，我们可以对所选图像进行预测，得到一个表示该图像属于每个类别概率的向量。通过使用np.argmax（）函数获取概率最大的类别的索引，并将其映射到标签名称，我们可以输出预测结果。该系统将分析结果上传至数据库，包括学生在课堂上实时的表情数据以及该表情所反映的学生的学习能力和学习情况。同时，服务器还将同步更新Web端数据，实现课堂学情情况的实时更新和共享。如下图2所示。

（二）基于监控视频流的多模态人脸检测模块的实现

系统使用了OpenCV中的cap.read（）函数读取视频流，并对视频流进行了预处理，包括图像缩放、灰度化和直方图均衡化等操作，以方便后续的人脸检测。接着，使用人脸检测算法对预处理后的视频流进行处理，以检测视频流中人脸的位置信息。对于检测到的人脸，系统使用表情识别算法对其进行行为分析和表情识别，并将分析结果存储在数据库中。同时，系统将这些数据上传至Web页面，以便实时更新和共享学生的学情数据。

（三）基于监控视频流的多模态人脸识别模块实现

1．收集多种类型的人脸识别数据

为了构建高效准确的学情分析系统，需要使用多种类型的人脸识别数据集，其中包括来自Labeled Faces in the Wild （LFW）、CelebA、CASIA-WebFace等公开的数据集。除此之外，为了更好地识别学生的情感状态，还需要收集每位同学40张面部图片，涵盖各种表情，以便进行更精确的情感分析。

2．建立多模态卷积神经网络训练模型

为了训练高效准确的人脸识别模型，需要对多模态数据集进行预处理和标准化。多模态数据集采用串行的方式输入到不同的卷积层中进行特征提取，然后设计多个卷积层，分别对不同的模态数据进行特征提取。使用加权平均和拼接等方法将多种模态的特征融合，以提高模型的性能和容错能力。同时，采用交叉熵损失函数（Cross-entropy Loss）同步提高模型的训练效果。

3．评估人脸识别效果

在完成人脸识别模型的设计和训练后，需要计算该算法的准确率和召回率，并绘制混淆矩阵以直观地展示算法的效果。当人脸识别算法的性能达到一定的水平时，可以将其部署到学情分析系统中进行检测。该系统通过调用教室中的监控摄像头，获取摄像头传输的视频流信息。每秒选取一帧图像进行预处理，然后使用人脸识别模块获得图像中具体的人脸特征信息。再与数据库中的数据集进行对比，将分析结果返回。在完成一次识别后，系统会自动开始下一轮识别，直到将班级中所有同学的情况都获取完成。

三、系统功能实现

基于多模态情感识别的学情分析系统的实现依赖于多种技术和框架，包括OpenCV、基于多模态的卷积神经网络（CNN）深度学习框架、HTML超文本标记语言、Vue前端框架、Python开发语言、Node.js框架和MySQL数据库。系统的工作流程包括获取图像、进行CNN模型训练和优化、将模型返回的数据保存到MySQL数据库中，最后通过Web端可视化展示数据。在苏州经贸技术学院信息技术学院18个班级课堂的试用中，该系统已经满足了学生课堂上实时的学情分析、学生家长端的学生课堂基本情况、授课教师和年级主任端的学情分析和总结、学校领导端的課堂巡查和系统管理员等各方的应用需求。该系统的实现流程如图3所示。

四、结论

本学情分析系统不仅能够收集和分析情感数据，还能通过与后台数据库连接，为学校领导提供了查看班级学生学情分析、实时巡查和年级学情汇总分析等功能。此外，它还能为授课教师提供依据，以控制教学进度和评估教学效果，为实现个性化教学提供了有效的手段。此外，它还为学生家长提供了学生在课堂上的具体情况，以实现智能、灵活和高效地分析和使用学情状态的功能。综合来看，本基于多模态情感识别的学情分析系统充分考虑了用户需求，并且根据需求规格说明书不断完善各个模块和系统整体逻辑与性能。在系统测试中，我们发现了一些潜在的问题并进行了修复，满足了中小学和高校日常学情分析的基本需求。现在，该系统已经成功部署在苏州经贸职业技术学院信息技术学院的18间教室中，使用简便，数据分析准确快速，得到了使用师生们的好评。

参考文献：

[1]李斌建. 基于深度学习的语音和文本融合多模态情感识别方案研究与设计[D].南京邮电大学，2022.

[2]陈晓欢. 基于多模态融合的情感识别研究[D].延安大学，2022.

[3]陈光辉. 语音图像多模态信息融合的情感识别方法研究[D].重庆大学，2021.

[4]凌云昊. 基于多模态情感识别的自适应教学系统研究与实现[D].上海交通大学，2018.

[5]董建功. 多模态情感识别及其虚拟环境人机交互研究[D].重庆邮电大学，2021.

[6]张海峰. 基于多特征融合的人脸表情识别研究[D].中国科学技术大学，2020.

[7]裴浩.基于Python+OpenCV的课堂人脸签到微型系统[J].信息技术与信息化，2023（01）：181-184.

[8]展宽，朱佳雨，王一元，陈祥培，陈天晓.基于openCV人脸追踪云台与大数据应用系统设计[J].信息与电脑（理论版），2023，35（01）：140-142.

[9]李玉臣.基于OpenCV的计算机图像识别技术研究与实现[J].电脑编程技巧与维护，2022（11）：147-149+169.