基于头部姿态的学习注意力判别研究

2020-06-23 10:26张剑妹
科学技术与工程 2020年14期
关键词:头部黑板姿态

郭 赟, 张剑妹, 连 玮

(1.山西师范大学数学与计算机科学学院,临汾 041004;2.长治学院计算机系,长治 046011)

英国教育家洛克在《教育漫话》一书中指出:“教育的技巧就在于能够很好集中学生的注意力,并且可以持续保持他们的注意力”[1]。任何教学活动都是从注意力开始并伴随学生记忆内化为认知力的。对于学生来说,注意力在学生的整个心理活动占有很大比重,只有注意力集中才可以进一步思考和记忆,更好地完成学业活动。

在互联网+教育环境下,各种在线教学资源得到了迅速发展,在线学习方式也达到了广泛的应用,但传统课堂教学仍然是向学生传授知识的主要形式。学习注意力是学生学习效率的一个重要因素,直接影响学生课堂学习效率的提高。当前,对注意力的分析主要有两种方式:第一种方式是运用可穿戴式设备[2-3]对学生的注意力进行分析,但是可穿戴式设备价格较为昂贵并不能大面积的对学生课堂注意力进行分析研究;第二种方式是运用计算机视觉[4-5]对学习者的面部表情、眼睛和嘴巴的闭合程度进行注意力分析研究,但是在实际运用过程中,由于学生课堂人数众多且眼睛、嘴巴等区域面积较小存在遮挡等问题,对人体视线方向检测存在诸多困难,无法精确地对学习者进行注意力分析。

近年来越来越多的研究者开始运用头部姿态对学习者注意力进行分析研究。通常人体的思维方式是可以根据头部旋转方向和运动状态来表现[6]。例如,当人们在谈话时通过利用朝谁点头来确定和谁说话,对于注视某个目标用户通常会正视该目标而不会斜视某个目标。人的头部转向已经作为一种非语言的标志来传递信息,所以可以看出人的注意力与头部姿态和人眼注视方向是有一定关联性的,在大多数情况下是可以通过对头部姿态的研究来分析人的注意力方向的。Stephen等[7]研究发现,在多数情况下用户的注意目标行为是可以通过分析头部姿态角度获得的;陈平等[8]通过随机级联回归树对人脸特征点进行检测,并运用N点透视(pespective-n-point,PNP)算法进行头部姿态估计实现了学生注意力的可视化;董力赓等[9]提出一种推理用户注意力目标的动态贝叶斯网络模,并将其应用于智能厨房用户注意力目标分析中;Smith等[10]、Zhang等[11]等研究通过分析固定位置的多个关注目标和多用户位置的单个关注目标来监控用户在户外环境中的注意目标行为;卢希[12]通过传感器收集学生的学习行为数据来分析学习者的学习状态;Masset等[13]运用注意力检测模型建立了一个人机交互系统,可以有效判断在多人环境中确定目标人物的位置及头部姿态等相关信息;余绕东[14]通过收集学习者的面部及眼部信息,开发了一种智能注意力检测系统来检测学习者状态。通过对上述相关文献的研究发现,大多数的研究方法都对设备有一定的要求。文献[9]中所提到的需要多个摄像头和显示屏,还有的方法则需要Kinect传感器和眼动仪等,这些设备价格都比较昂贵不适合大规模使用;而文献[8]提出的低成本学生注意力分析法,则需要对学生的课堂学习情况进行实时监测来及时了解学生的注意力情况,但在实际应用中老师不可能时刻关注学生注意力检测系统。

基于以上方法的弊端,提出学生课堂注意力检测方法。通过高清摄像头对学生课堂学习情况进行采集,并运用卷积神经网络和比例正交投影迭代变换(pose from orthography and scaling with iteratons, POSIT)算法对学生头部姿态进行估计,从而对学生课堂注意力进行判别。实验通过模拟单个学生日常课堂学习行为习惯进行检测。实验表明,本文模型可以有效检测学生的注意力分散情况并对学生整堂课的学习情况进行评价,可以给教师提供学生的学习情况信息,为学生下一阶段的学习情况作出预警提示。初步证明了该方法的有效性。下一步将拓展到对多人的学生课堂注意力进行检测,进一步增加模型的实用性。

1 研究背景

1.1 学生注意力研究场所

为对学生课堂学习注意力进行分析,运用高清摄像头对学生课堂学习情况进行采集。如图1所示,教室长和宽分别为9 m和7 m,黑板长和宽分别为4 m和1.5 m,黑板离地高度为1 m。在研究中利用安置在教室正前方的摄像头(A)对学生课堂学习情况进行采集,通过卷积神经网络和POSIT算法对学生的头部姿态进行估计,获取头部旋转信息的俯仰角(θpitch)、偏航角(θyaw)、旋转角(θRoll) 3个维度的数据,如图2所示,以实现对学生课堂学习注意力的分析。

图1 教室布局Fig.1 Classroom layout

图2 头部旋转方向Fig.2 Head rotation direction

1.2 学生学习注意力分析

研究的主要目的是判别学生的注意力,根据头部姿态估计学生的视线是否集中在黑板区域来确定学生的注意力方向。如图3所示,当学生的视线集中在黑板内的某一点时,如P1,则认为学生注意力集中;与之相反的是,当学生的视线长时间偏离在黑板区域之外时,如P2,则认为学生注意力分散。一般情况下,人们并不习惯于斜着眼睛注视其关注的目标,因此,可以将头部姿态的旋转方向近似地看成学生的视线方向来分析学生的注意力情况。如图1所示,假设学生坐在教室第1排,当学生在C点注视黑板区域时,头部几乎不需要旋转就可以观察到黑板区域,此时学生的头部旋转范围最小;当学生在B点注视黑板区域时,头部向右旋转即为学生向右观察黑板区域的最大范围;当学生在D点注视黑板区域时,头部向左旋转即为学生向左观察黑板区域的最大范围;当学生依次坐在第2排或者更靠后的位置时,头部旋转范围会逐级减小。选择黑板边缘作为学生注意力分散的边界域。当学生坐在B或者D点时,向黑板左右边界注视时即为偏航角(θYaw)的旋转范围;当学生坐在C点时,向黑板上下边界注视时即为俯仰角(θPitch)的旋转范围;旋转角(θRoll)为头部向左或向右偏离,正如学生在学习过程中经常会拿胳膊扶着头部注视黑板的行为,此时并不影响学生向黑板区域注视的视线范围。因此本文只关注学生在俯仰角(θPitch)和偏航角(θYaw)方向上的头部旋转范围。

图3 学生注意力情况Fig.3 Attention of students

依据教室环境建立坐标系,以黑板上沿中心点为坐标原点,以原点水平向右的方向为X轴正方向,以垂直原点方向为Y轴正方向,以垂直XY平面指向学生的方向为Z轴的正方向。根据学生头部视线到达黑板边缘作为学生行为异常的判别标准,如图4所示,α1、α2、β1、β2作为学生头部偏转异常的阈值,α1、α2即为学生θYaw方向旋转范围;β1、β2为学生θPitch方向旋转范围。当头部旋转范围超出阈值时,即可认为学生的视线在黑板区域之外,则判定为注意力分散。假设黑板的长度为h,宽度为d,头部中心点坐标为F(x,y,z)。当学生坐在教室第1排,学生坐在图1所示的B和D点向黑板左右边缘注视时,即为学生在θYaw方向的头部最大旋转范围,记为式(1);当学生坐在C点向黑板上下边缘注视时,即为学生在θPitch方向的头部最大旋转范围,记为式(2)。依据实际教学环境,假设头部中心点和眼睛重合,且成年学生的眼睛离地面的高度为1.2 m,则确定学生的头部旋转范围为θPitch方向[-6°,29°],θYaw方向[-47°,47°]。

(1)

(2)

图4 头部偏转范围Fig.4 Head deflection range

2 基于头部姿态分析的注意力判别过程

2.1 基于头部姿态的学生注意力判别方法

提出一种基于学生头部姿态的注意力判别方法,采用学生头部姿态角度作为学生注意力的判别指标,建立相应的学生注意力判别系统。提出了4个步骤的学生注意力判别流程,即数据的提取、人脸面部特征点的定位、头部姿态角度估计和注意力判别检测。本文方法需要事先利用安装在黑板正上方中心的高清摄像头(A)对学生的课堂学习情况进行录像采集,再采用图5所示的流程对学生头部姿态进行检测,并利用学生注意力检测系统对学生课堂的学习情况进行检测。

图5 学生注意力判别方法基本流程Fig.5 Basic flow chart of student attention discrimination method

通过以下4步操作,对学生注意力进行检测分析。

(1)视频帧获取。通过高清摄像头采集学生日常课堂学习情况,包括认真学习、左顾右盼和低头看手机等日常学习习惯,并获取学生学习视频帧。

(2)人脸特征点检测。通过级联卷积神经网络对学生面部图像68个特征点进行检测定位,为运用POSIT算法进行头部姿态检测提供二维信息。

(3)头部姿态检测。通过求解POSIT获得 2D/3D 之间的映射关系,得到头部姿态的旋转与平移矩阵。

(4)学生注意力检测。根据学生的头部姿态信息运用注意力检测系统对学生整堂课的学习情况进行检测。

由于在数据获取阶段采用专业处理软件获取视频帧,所以接下来将重点对人脸面部特征点检测、学生头部姿态角度计算、学生注意力判别方法等3个方面进行论述。

2.2 基于卷积神经网络的人脸特征点定位

卷积神经网络因其对视觉检测有较好的鲁棒性已成为图像研究领域的热点。故采用深度卷积神经网络进行学生头部姿态研究,参考Zhou等[15]运用的深度卷积神经网络(deeping convolutional neural network,DCNN)采取4个层级的“由粗到精”特征点检测,由于第4层级的检验误差较第3层级提升较小,为了提升运行效率采用3个层级的网络对内部关键点和外部关键点进行特征点检测。其中,第1层主要获取面部器官的内部边界域,第2层将粗定位出51个关键点预测位置;第3层将依据不同器官进行从粗到精的定位,并输出51个关键点位置。同时针对外部轮廓使用一个简单的网络级联,采用两个层级进行检测,首先获得面部外部轮廓边界,其次在对外部轮廓进行特征点定位,最终面部68个关键点由内、外轮廓关键点进行相加得到,如图6所示。

图6 级联网络结构Fig.6 Cascading network structure

图7 卷积神经网络结构Fig.7 Convolutional neural network structure

在对内部轮廓和外部轮廓的特征点进行检测时要把损失函数进行分离,由于背景和局部纹理信息的不同,会导致在定位各关键点时存在不平衡。在外部轮廓检测时,由于背景信息不同可能会提供一些干扰信息;而在内部轮廓的检测时,每个关键点的位置信息和难易程度也各不相同。这将导致内、外轮廓在训练中存在不平衡,因此需要分别计算损失函数对两个子系统进行单独训练以防止过度拟合。

在输入网络模型之前要对图像进行预处理,把图像数据归一为均值和方差分别为0和1,其次把数据映射到[-1,1]区间。为了防止在剪裁时可能漏剪了一部分人脸图像,所以把剪裁区域扩大了15%,以此来保证全部的信息都可以检测得到。在训练网络中,以DCNN作为基本组成部分,模型把原始图像作为输入,并对所需点的坐标进行回归。图7所地为基本的深度网络结构。网络在卷积层后面连接的是最大池化层,并在高层采用非共享卷积层,不同位置采用不同的参数以确保对五官的特征检测。

网络有3个卷积层和3个池化层相连接,输入的图像对与每一个卷积层都对应的有多个卷积核,并输出卷积结果。设输入的第t个卷积层为It,则根据式(1)计算:其中I为输入的卷积层,F和B是可调参数,同时运用双曲正切函数和绝对值函数以保证网络的非线性。

(3)

同时在每个卷积层后面加一个无重叠区域的最大池化层,用公式表示为

(4)

在卷积层和最大池化层后加一个非共享权值得卷积层,并将输出结果作为特征,用一到两个全连接层进行特征点回归。

(5)

系统运用3种不同的网络结构,如表1所示,其中网络1是对内部轮廓关键点进行预测,网络2是对外部轮廓关键点预测,网络3是其余结构点预测。

表1 级联卷积网络结构Table 1 Concatenated convolution network structure

2.3 基于POSIT算法求解头部姿态

采用POSIT算法求解三维空间内的头部姿态角度。该算法以三维头部模型,二维面部特征点以及摄像机参数作为输入来确定三维空间内的头部姿态角度[16]。POSIT算法有两部分组成:第1部分先用弱透视投影模型代替透视投影模型,通过对物体旋转矩阵和平移向量的计算得出头部姿态的估计值;第2部分用前面的估计值再进行第1部分的计算。这样不断重复以上两步,直到达到要求为止。因此算法选用左右眼角、鼻尖、左右嘴角作为输入进行头部姿态估计。首先建立3个坐标系。即图像坐标系、摄像机坐标系和目标坐标系,设目标坐标系为a=(x,y,z)且以目标为坐标中心;摄像机坐标系为b=(X1,Y1,Z1)且以摄像头为坐标中心;图像坐标系为c=(x0,y0),且图像中心为(c0,d0),摄像机焦距为f,摄像机参数矩阵为[fx,fy,c0,d0],摄像机坐标系可以通过投影M变换表示,其中ΠM表示为三维坐标与二维坐标的转换关系函数。

(6)

首先建立旋转矩阵R和平移向量T:

(7)

透视投影变换为

(8)

根据摄像头内参数矩阵和f与x0、y0的比例关系,设一个像素的位置为(c,d),则对应得x0、y0为x0=(c-c0)f/fx,y0=(d-d0)f/fy,因为目标坐标系为a=(x,y,z),则得出:

(9)

式(9)中:w=Z1/TZ,s=f/TZ,假设物体的所有点在同一个深度上,且w=Z1/TZ1≈1,由此可以得出:

(10)

由于(x0,y0)和(X1,Y1,Z1)认为是已知的,因此该方程可以看作是8个独立方程求解旋转矩阵R和平移向量T,并通过矩阵R和向量T计算相应三维空间角度为

θYaw=atan2(R32,R33)

(11)

(12)

θRool=atan2(R21,R11)

(13)

2.4 学生注意力判别标准

注意力分散判别是指学生的视线因为某种原因偏离前方黑板区域而进行的注意力判别研究,由于学生的注意力主要集中在前方黑板的视线区域,并且头部运动集中在俯仰角(θPitch)和偏航角(θYaw)方向上,所以本文只关注在特定区域内的头部姿态。依据2.2节确定了学生的头部旋转范围为θPitch方向[-6°,29°],θYaw方向[-47°,47°]。当学生的头部旋转范围超出这个角度时,认为学生的视线偏离黑板区域,即为注意力分散。依据学生实际学习情况,学生偶尔视线偏离黑板区域一两次,并不能说明学生注意力不集中,只有学生视线偏离黑板区域一定时间时才可以确定为注意力分散。因此设计了分两步的判别标准。第1步检测单次视线偏离时长,当单次头部旋转角中有一个角超出阈值持续时间>2 s时,则计数并判断为注意力分散;第2步检测视线偏离所占总时间比值,当头部旋转角中有一个角超出阈值的时间比例大于或等于65%时,则判断为课堂注意力不集中;当超出阈值的时间比例大于或等于45%且小于65%时,则判断为课堂注意力一般;否则判断为课堂注意力集中。根据上述判别规则设计了注意力判别系统,如图8所示。

图8 注意力判别系统Fig.8 Attention discrimination system

3 实验结果与分析

3.1 头部姿态的实验分析

为了验证姿态估计的有效性,采用公开的Biwi Kinect数据集对头部姿态估计方法进行精度测试。此数据集是通过微软的Kinect统计得到的,数据集共有1 500张图像,有20个不同姿态的图像和24段视频帧,并且对数据集中每个图像的位置和角度都做了标定,如图9所示。实验在8 GB RAM的Inter(R) Core(TM) i5-7500 3.40GHz处理器和64位Windows10操作系统中实现。开发环境OpenCV库。

图9 Biwi Kinect数据样本库Fig.9 Biwi Kinect data sample database

提出基于卷积神经网络和POSIT算法相结合的行头部姿态分析方法,并运用Biwi Kinect数据集[17]进行头部姿态旋转角计算,以获取俯仰角、偏航角、旋转角的估计值,把其估计值与数据集中标定值之间的差值绝对值作为估计值的误差。实验过程选用1 300张图像进行模型训练,200张图像进行测试。首先进行数据扩增,通过对训练图片进行顺、逆时针和镜像的变换,得到了6 500张图像;在训练过程中输入60×60的人脸图像对人脸轮廓进行剪裁,剪裁后的人脸图像在对人脸内部关键点进行粗定位。粗定位预测到的关键点,再通过剪裁出40×40人脸局部图像,包括双眼、鼻尖、嘴角和眉毛的4个区域,以关键点为中心对剪出的4个局部区域图进行人脸关键点精定位,随后根据其检测到的人脸特征点通过POSIT算法对其头部姿态角度进行计算。如表2[8,18-21]所示,运用本方法所得到的θPitch、θYaw和θRoll的平均角度误差分别为 3.0°、4.0°、3.9°,准确率为92.7%。实验表明本文提出的方法对头部姿态估计有效。为了更好地验证本文方法的效率,选用BiWi姿态数据库中连续的一百帧头部姿态信息和文献[20]进行对比,图10所示为连续的一百帧姿态信息表示结果。可以看出,本文的方法曲线更加的圆滑,更加符合真实的姿态信息,验证了本文方法的鲁棒性较好。

表2 本文算法与当前头部姿态估计方法的比较Table 2 The algorithm is compared with the current head pose estimation method

图10 两种不同算法的比较结果Fig.10 Comparison results of two different algorithms

3.2 学生注意力判别分析

基于以上分析,由学生注意力判别标准来对学生课堂学习注意力进行分析研究。为验证本方法的检测效果,设计了由学习者模仿学生传统课堂学习过程,测试学生无规律的认真听讲、低头看手机和左顾右盼等学生日常学习课堂行为。选用高清摄像头,像素1 200万,作为采集工具,把摄像机固定在学习者正前方的2 m处,通过对采样视频的分析来检测学生学习注意力情况,记录学习者在普通光照条件下60 s内的学习过程。

算法实现过程:学生坐在摄像机前,摄像头会记录学生的学习情况,后通过注意力检测系统对学生学习过程的每一帧图像进行检测,记录学生的头部旋转信息,将其中有一角超出范围的记为1,没有超出的记为0。首先记录2 s内连续为1时,则判定为注意力分散并计数,其次计算单位时间内记录为1的和占总时间的比值并输出学生课堂注意力情况。由此可以统计出注意力分散次数和学生单位时间内注意力情况。部分典型行为截图如图11所示。

图11 学习者行为截图Fig.11 Screenshot of learner behavior

依据上述实验数据结果,构造了注意力分散曲线图,如图12所示。其中纵坐标分散比值为注意力分散检测时间段内头部偏离阈值帧数占该时段总帧数的比值。同时与其他算法进行比较,如表3[22]所示。由表3可知,本文方法的学生注意力检测准确率为88.7%,相较于传统算法有所提高,但本文方法对于头部朝下时还存在误检的情况,原因在于训练模型的数据量较少,以后研究有待进一步完善。

图12 注意力分散检测比Fig.12 Attention distraction detection ratio

算法注意分散次数检测错误次数准确率/%头部偏转检测[22]16287.5本文结果17288.7

4 结论

提出了一种基于头部姿态分析的学生注意力判别方法。首先,运用卷积神经网络对人脸面部特征点进行提取,并基于POSIT算法计算人体头部姿态角度,最后运用注意力判别标准对学生注意力进行分析研究。通过实验分析本文提出的方法可以有效监测学生的课堂注意力情况,对学校课堂教学研究有一定的理论意义。下一步将继续优化本文算法模型,尝试与其他研究方法相结合对学生注意力进行研究,同时将研究成果推广到多人课堂学习注意力的分析判别,最大程度提高注意力分析的鲁棒性和实用性。

猜你喜欢
头部黑板姿态
自动驾驶走向L4 企业头部效应显现
长在黑板上的诗
火箭的头部为什么是圆钝形?
晓黑板
攀爬的姿态
黑板
全新一代宋的新姿态
另一种姿态
蚝壳巧制作
阅读是最美的姿态