基于时空图卷积神经网络的教师教学行为识别方法

2023-10-16 12:33庞世燕郝京京胡瀚淳杨玉芹
关键词:骨架类别卷积

庞世燕, 郝京京, 胡瀚淳, 杨玉芹

(华中师范大学人工智能教育学部, 武汉 430079)

课堂教学是学校教育教学的主阵地,对教师课堂教学行为进行过程性评价可以帮助教师改善教学行为,对于提高教学质量具有重要意义.在传统的课堂教学中,通过观看课堂录像的方式来进行教师教学行为评价工作量大、时效性差,难以大范围推广应用.教育部印发的《教育信息化2.0行动计划》提出,要以人工智能、大数据、物联网等新兴技术为基础,积极开展智慧教育创新研究和示范,推动新技术支持下的教育模式变革和生态重构[1].随着我国教育信息化建设已经步入2.0时代,传统课堂正在逐步转型为智慧课堂.相比于传统课堂,智慧课堂对教学设备软硬件进行了升级.在教师教学行为评价领域,可以借助课堂录播设备获取实时的教师教学行为视频,采用智能化的算法及时评估教师教学行为,方便教师及时了解上课状态,促进教学方法的改进和教学策略的调整.

1 研究现状

随着教育技术的发展,课堂教学行为分析的数据样态、技术环境、评价理念等都在不断变化[2],这些变化促进了技术与教育的深度融合.回顾教学行为分析领域的技术环境发展历史,能够看出技术的发展进步在不断降低对人的依赖程度,以人工智能技术的出现和应用为划分依据,教学行为分析技术的发展逐渐分化出传统与智能两种形态.

传统的教学行为识别与分析方法一般采用人工观察与教学行为分析软件相结合方式,围绕该类型软件的设计与开发的相关研究较多.孙吉鹏等[3]设计并实现了一种以学习行为分析为核心的段落粒度在线教程系统,它能够实时记录保存学习者在文章每个段落的学习情况,并以可视化的方式展示学习者的最终学习行为数据.李白桦等[4]基于ITIAS编码模板开发了一种课堂教学视频分析软件,可用于分析教师的教学状态与教学风格.张乃龙[5]开发了基于达成度分析的实践课程教学过程管理系统,在记录学习者教学任务完成情况的同时阶段性分析其学习能力达成度,整个课程学习完成后计算学习者的最终能力达成度各个指标.

人工智能技术能够大大简化过于依赖人工的重复劳动工作,现如今已有诸多相关研究将人工智能与教育理论相结合,由人工智能技术来完成课堂教学视频中教学行为的智能识别以及智能分析.人体行为识别旨在对视频监控中的人体行为进行检索并识别,是人工智能领域的研究热点.基于传统方法的人体行为识别算法存在对样本数据依赖大、易受环境噪声影响等不足[6].陈江涛[7]使用滤波算子与形态学处理方法来提取课堂教学图片中师生的MHI-HOG组合特征,并送入到“BP神经网络-SVM”组合分类器来识别弯腰、蹦跳、散步、挥手以及其它等六类动作.谭斌等[8]使用迁移学习方式增强目标检测算法Faster-RCNN的检测性能,并使用该网络完成课堂教学活动中学生的“玩”“学习”和“睡觉”三种行为的准确检测.郑誉煌[9]使用HR-Net来提取出教师的人体骨架信息图,基于该信息来智能识别教师的板书行为.于海港等[10]提出一种双流时空残差卷积网络能够显著增强二维CNN的行为视频时空信息捕获能力.

目前,教师教学行为存在课堂场景复杂、教师间行为表达差异大、教师行为数据集匮乏等问题.为此,本文基于时空图卷积网络框架,提出了一种新的教师教学行为识别方法.该方法首先基于OpenPose[11]提取教师骨架点,一方面因为OpenPose的姿态估计技术比较成熟,开源的预训练模型可以直接应用于教室场景,另一方面和原始影像相比,教师骨架点数据量更小,且更利于描述动作信息;然后基于时空图卷积网络框架聚合多帧影像的骨架点信息,通过时空信息的联动来显著提升教师教学行为识别的准确性;最后基于实拍的视频数据制作了两组教师行为识别数据集,验证了本文算法的有效性.

2 教师教学行为识别方法

基于时空图卷积神经网络[12](Spatial Temporal Graph Convolutional Networks,STGCN)的教师教学行为识别方法如图1所示.一是梳理并确定教师教学行为类别,人工方式构建可供后续图卷积神经网络模型训练使用的数据集;二是使用人体姿态估计算法OpenPose,从教师视频中提取出教师骨架的关节点信息序列;三是采用时空图卷积神经网络构建教师教学行为识别模型,对教师教学行为进行预测.

图1 基于ST-GCN的教师教学行为识别方法Fig.1 Teacher’s teaching action recognition method based on ST-GCN

2.1 教师教学行为数据集构建

在教师教学行为分类方面,何灿辉[13]从功能角度出发将手势语分为会意性手势、象形性手势、指示性手势、评价性手势、情意性手势和强调性手势.周鹏生[14]根据教师课堂非言语行为特点并结合第三人称观察视角将教师的非言语课堂教学行为归纳为七类,包括说明性动作、象征性动作、工具性动作、表露性动作、调节性动作、适应性动作和距离性动作.本文从教师的非言语行为角度出发,将教师教学行为分为六类,具体描述见表1.

表1 教师教学行为分类及描述

在此基础上,使用视频剪辑工具Premier来控制视频仅有教师出镜并完成教学行为片段的剪辑,根据行为类别将视频文件保存至对应类别文件夹,以此方式构建教师教学行为识别数据集.

2.2 OpenPose人体骨架点信息提取

OpenPose是Cao等基于部位仿射场与部位置信度图提出的一种人体骨架点检测器,可以及时、准确地获取图像中人物的骨骼关键点信息,其处理步骤如图2所示.

图2 OpenPose人体骨架点提取流程Fig.2 Flowchart of human skeleton point extraction based on OpenPose

首先,利用VGG16主干网络进行特征提取生成高阶特征;其次,使用两个多阶段卷积网络分支用来分别预测教师的关节点部位置信度图和部位仿射场;最后,使用非极大值抑制处理过滤掉重叠部位置信度图,完成关节点匹配生成最终的教师骨架关节点预测图.

2.3 基于时空图卷积神经网络的教学行为识别模型

以上述人体骨架点提取结果为输入,对骨架点信息进行归一化预处理后输入时空图卷积网络模型.基于时空图卷积神经网络的教学行为识别模型结构如图3所示,整个网络包含了10层ST-GCN模块和一个全连接层作为“分类器”,并使用Softmax对类别向量进行尺度归一化获得类别信息,其中每个ST-GCN模块不仅包括图卷积与时间卷积模块,还包括了残差网络和注意力机制用于改善行为识别的分类性能.

图3 时空图卷积神经网络模型结构图Fig.3 ST-GCN Model architecture diagram

本文中时空图卷积神经网络[11]的图结构数据为包含18个节点和T帧的骨架点序列,可表示为公式:

G=(V,E),

(1)

其中,节点集合V={vti|t=1,…,18,i=1,…,T}包含了骨架点序列中的所有骨架点信息,每个节点均包含横、纵坐标与置信度三个特征值,可表示为v=(x,y,score).骨架点序列的连接边E包括空域边子集ES和时域边子集EF,其中ES表示在同一视频帧中所有骨架点之间的空间连接信息,记为ES={vtivtj|(i,j)∈H},H是一组自然连接的人体关节,EF表示相邻两帧中相同骨架点之间的连接信息,写作EF={vtiv(t+1)i}.

针对于骨架点序列数据存在两种边关系,本文使用一种时空图卷积方式来充分学习其时空特征,时空图卷积可拆解为图卷积和时间卷积两部分,如图4所示.

图4 时空图卷积方式示意图Fig.4 Schematic diagram of spatial temporal graph convolution

此外,为了使模型更好地适用于复杂教室场景,文中的时空图卷积网络在传统时空图卷积框架的基础上,添加了注意力模块和残差卷积模块,以进一步提升模型的表达和适应能力.因此每一层的时空图卷积包括图卷积模块、注意力模块、时间卷积模块和残差卷积模块四部分,详细介绍如下.

1) 图卷积模块

首先利用图卷积来充分学习单帧骨架点的空间信息,图卷积的公式如下:

(2)

2)注意力模块

当教师的教学行为发生时通常是部分骨架点的运动变化更加显著,因此本文使用一种注意力模块来关注显著变化的骨架点,它能够更好地表征教师的教学行为.(A+I)表示骨架点空间连接关系,在注意力模块中对其通过矩阵元素内积方式来添加一层可学习掩码M,写作(A+I)⊙M,M初始化为18×18的全一矩阵,在训练中通过动态学习注意力掩码的权重,从而调整各个骨架点在行为运动中的不同贡献.

3)时间卷积模块

(3)

4)残差卷积模块

残差卷积的数学描述如下面公式(4)所示,以l层的骨架点集合特征Xl作为输入进入到残差模块的两个分支,直接映射对应图卷积加时间卷积的时空特征融合分支,即FTCN(FGCN(xl)),其中FGCN为式(2)的简写,FTCN指代公式(3),残差映射则是1×1卷积的残差分支,记作h(Xl).

Xl+1=h(Xl)+FTCN(FGCN(Xl)).

(4)

3 实验准备与实施

3.1 实验数据集介绍

为了充分验证基于时空图卷积神经网络的教师教学行为识别方法的有效性,根据搜集方式的不同制作了两组数据集.一组为模拟课堂视频数据集,该数据集采用被试成员模拟课堂教学活动,按照六种教学行为的标准录制,主要用于算法研究.另一组为网络课堂视频数据集,用于验证本文提出的方法在真实教学情境中的有效性.以下是两组数据集的介绍.

1) 模拟课堂视频数据集

针对教学视频资源平台中教师教学行为存在拍摄角度过高、教学行为类别较少的问题,本研究邀请21名课题组成员参与了模拟环境下的教师课堂教学行为数据集的拍摄工作.为了尽可能模拟真实教学场景,在数据集的拍摄过程中使用了三台摄像机架设在左侧、正面及右侧三个角度,分别呈现-45°、0°及45°,从而能够多角度地捕捉教师的课堂教学行为.另一方面要求受试者使用不同幅度、不同体态来完成正常上课时的各类教学行为,最终完成教师课堂教学行为数据集的采集与制作,将其命名为模拟课堂视频数据集.该数据集的概况如表2所示,其中类别数量统计的是三个角度的有效视频数量,对拍摄过程中有问题的部分视频进行了剔除.部分示例如图5所示.

表2 模拟课堂视频数据集概况

2) 网络课堂视频数据集

线上数据集的收集来源主要是各大视频网站与中小学课程资源平台,包括国家教育资源公共服务平台“一师一优课,一课一名师”、国家中小学网络服务云平台、优酷以及bilibili等网站.在中小学课程资源平台中教学视频资源通常按照学段科目进行排列展示,因而数据集的获取较为容易.同时为保证数据集内各数据都能够拥有较大的差异性,笔者在视频网站中也进行了相关视频的搜集,通过使用“课程实录”“中小学教学”等关键词进行搜索来查找目标数据.笔者与课题组内成员使用在线观看方式来筛选符合要求的数据,最终得到原始线上教学视频数据812个,并将该数据集命名为网络课堂视频数据集.该数据集中的概况如表3所示,示例如图6所示.

表3 网络课堂视频数据集概况

图6 网络课堂视频数据集示例Fig.6 Examples of online classroom video dataset

3.2 实验环境

本文所采用的实验环境如表4所示.

表4 实验环境相关配置参数

3.3 训练细节

按照6∶2∶2的比例来划分整个数据集,对模型训练文件的超参数进行设置与修改.训练时骨架点的邻接矩阵采用空间分区策略,整个训练迭代次数为200次.实验中采用的优化器为SGD,动量设置为0.9和0.999,学习率设为0.001,衰减参数设置为1e-4,batch size为32,模型权重文件设置每隔10个epoch保存一次,模型的输入包括骨架点序列数据与骨架点的连接矩阵两部分,其中骨架点序列数据共包含5个特征维度,即(N,C,T,V,M)对应视频个数、单个骨架点特征维数、视频帧数、骨架点数以及人数;骨架点的邻接矩阵则是固定骨架点序号的18×18矩阵,用于表示各个骨架点之间的连接关系,1代表有连接,0代表无连接.

4 实验结果分析

为了验证本文方法的有效性,通过实验探究了不同数据集分布、是否使用迁移学习方式、不同类别等因素对教师课堂教学行为识别性能的影响,并与其他方法进行了比较,证明了本文方法的有效性.

4.1 类别数量调整前后对比

在模拟课堂视频数据集上直接使用未加载预训练模型的时空图卷积神经网络进行模型验证,如表5所示,教师教学行为的预测准确度为58.41%.通过分析该数据集的数量分布发现“会意性行为”这一类别的数量要远超过其他类别,使得类别分布不均匀,导致模型预测偏向于数量更多的类别.因而采用将其他5类动作的训练集全部复制两次的方式使得各类别数量更加均匀地分布在300上下,并基于已经训练好的模型再次训练100个epoch后,在验证集上的准确度提升到了73.40%,通过实验说明数量分布对于模型性能具有重要影响.

表5 基于时空图卷积神经网络的实验结果

4.2 不同类别识别精度探究

为了更加深入分析模拟课堂视频数据集中不同类别对整个模型的识别性能影响,将该数据集的测试集教师教学行为片段按照类别分别打包和格式转换,使用基于本数据集迁移学习方式获得的最佳模型来验证时空图卷积神经网络对单一类别的预测性能,并分析其原因.详细实验数据分布如表6所示,“适应性行为”“会意性行为”“工具性行为”以及“说明性行为”这四类行为识别准确度均达到85%以上.“指示性行为”的行为识别准确度为77%,有23%的数据错误识别为会意性行为,主要是因为忽略背景因素后指向动作与示意学生起立动作存在一定相似性.而“评价性行为”的识别准确率仅为41%,由表6最后一行可见该类别容易错误识别为会意性行为.

表6 模拟课堂视频数据集行为识别混淆矩阵

由表7可见该数据集仅包含四类教学行为,“适应性行为”“指示性行为”和“工具性行为”这三类的行为识别准确度均超过95%,而“会意性行为”识别为78%.一方面网络课堂视频数据集类别相对较少,但各类别的数量分布均衡,能够获得较高的行为识别准确度;另一方面,和其他三类行为相比,“会意性行为”的子类别更丰富,包括教师的示意学生起立和坐下,还包括示意学生保持安静,并且动作幅度不明显,容易与指示性行为相混淆,因而在四类行为预测中识别结果相对较低.

表7 网络课堂视频数据集行为识别混淆矩阵

4.3 迁移学习对比实验

本研究使用Kinetics-400数据集上的预训练模型文件完成基于网络课堂视频数据集全监督训练实验的迁移学习训练实验,并且和不进行迁移学习的方式进行对比,详细结果如图7所示.可以看出在未进行迁移学习时,最高准确度为85.02%,这是因为网络课堂视频数据集中教师的教学行为类别为四类,而且各类别数量分布十分均衡,使得识别性能较为理想.同样在基于Kinetics-400数据集的预训练模型上进行迁移学习时,模型的性能得到增强,最高能够达到93.50%的分类准确度.

图7 不同方式下网络课堂视频数据集的性能比较Fig.7 Performance comparison of online classroom video dataset under different methods

4.4 不同方法对比实验

为了验证本文方法的有效性,采用C3D[15]、R(2+1)D[16]和本文方法在模拟课堂视频数据集上进行比较,此外,考虑到是否加载预训练模型对结果影响较大,本研究对是否加载预训练模型也进行了对比,数据结果如表8所示.未加载预训练模型情况下,本文的方法超过了C3D和R(2+1)D方法的结果,能够达到73.40%.在加载预训练模型的实验中,需要指出的是,对照组中R(2+1)D无预先训练模型,无法加载,C3D模型加载的是在UCF101数据集上训练得到的公开预训练模型,而ST-GCN加载的是基于Kinetics-400数据集上的公开预训练模型.本文方法的准确度为89.04%,优于C3D方法的结果.

表8 基于模拟课堂视频数据集的不同方法性能比较

5 讨论

1) 方法对比

与R(2+1)D、C3D等卷积神经网络方法相比,在数据集的数量充足且类别均衡的情况下,基于教师骨架点信息序列的时空图卷积神经网络方法在教师教学行为检测上的表现要优于基于RGB视频帧序列的R(2+1)D、C3D等方法.这主要是因为教师的教学行为通过骨架点信息进行表征,更不容易受到背景因素的影响,且不过于依赖教学视频的画质清晰度,适当的清晰度即可准确提取出教师的骨骼骨架点信息.

ST-GCN的模型权重文件更加轻量化,这意味着整个网络的权重参数在任意规模的数据集都能够进行充分地学习,不会过度依赖大规模数据集,而基于卷积网络的R(2+1)D、C3D网络模型参数更多,且更加依赖大型数据集,因此本研究所使用的ST-GCN方法训练难度更低.此外,本文方法不需要进行视频帧的尺寸缩放和关键帧的抽取,更加方便快捷.

2) 类别精度分析

从第四节的实验结果分析中可知,说明性行为识别准确度过高意味着该类别训练集与测试集的行为动作存在高度相似性,因而产生了一定程度的过拟合现象.识别准确率最为稳定并且准确度较高的是工具性行为,主要是因为教师在进行板书书写时的相似程度最高,且与其他类别行为显著不同.指示性行为与会意性行为中的示意学生起立或坐下存在一定相似性,因而存在一定程度的混淆.评价性行为一般表现为教师的鼓掌动作,受限于样本数量和动作角度问题因而识别准确度较低.适应性行为通常表现为教师在上课或者巡视时的小幅度身体晃动与肢体动作,并且该类别的样本数量较多,识别效果较为理想.

3) 本文方法的局限性

本文方法包括教师骨架点信息提取、数据格式转换与数量划分和行为识别三个步骤,行为识别效果容易受到拍摄角度和肢体动作幅度以及持续时间的影响,存在一定的识别错误情况,如图8所示,虽然能够准确聚焦到教师的骨架点,但是身体角度致使评价性行为错误识别为会意性行为.

图8 教学行为识别错误情况Fig.8 Errors in teaching action recognition

6 结论

本文提出了一种基于骨架点信息的时空图卷积神经网络教师课堂教学行为识别方法,并进行了相关实验探究其有效性.在该方法中,首先利用OpenPose算法对视频中的教师骨架点信息进行逐帧提取,通过格式转换后送入到ST-GCN网络进行训练,从而生成专用于教师的课堂教学行为智能识别模型,并人工构建了两组数据集验证了本文方法的可行性和有效性.通过具体实验探究类别分布调整、不同类别、是否使用迁移学习方式等因素对ST-GCN网络的分类性能影响,在不同方法的性能对比实验后证明基于骨骼骨架点信息进行教学行为识别的ST-GCN方法拥有良好性能.

但是,当前数据集的行为编码表并不能涵盖教师在真实课堂教学活动中的所有行为,如教师的手势动作,因而扩充教师行为编码系统中的类别将是后续研究的重要内容.另一方面本研究制作的数据集为小样本量类型,数据量越大则越能带给模型更强的鲁棒性,因而后续研究将在此数据集基础上对数量和类别进行更大规模的扩充.

猜你喜欢
骨架类别卷积
浅谈管状骨架喷涂方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
骨架密度对炭/炭多孔骨架压力浸渗铜的影响
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
服务类别
内支撑骨架封抽技术在突出煤层瓦斯抽采中的应用
论类别股东会
一种基于卷积神经网络的性别识别方法
中医类别全科医师培养模式的探讨