孙帅成 徐春融 刘瑞明
摘 要:近年来,对于专注度的判断重视程度越来越高,针对人工觀察、问卷调查等方法效率低下、实时性差等问题,该文结合机器视觉技术设计了一种专注度识别方法,在VGG-16的基础上进行改进并结合抬头平视率,同时在GT数据库的基础上进行专注判别分类,构建了用于专注度识别的数据库,提高了专注度识别的准确性和实时性,育有广阔的应用前景和市场需求。
关键词:专注度 机器视觉 VGG 抬头率
中图分类号:TP391 文献标识码:A文章编号:1672-3791(2021)05(b)-0030-03
Abstract: In recent years, more and more attention has been paid to the judgment of concentration. Aiming at the problems of low efficiency and poor real-time performance of manual observation and questionnaire surveys, this paper combines machine vision technology to design a concentration recognition method. Improved on the basis and combined with the head-up head-up rate, and at the same time, the focus discrimination classification is performed on the basis of the GT database, and a database for concentration recognition is constructed, which improves the accuracy and real-time performance of concentration recognition, and has broad application prospects and market demand.
Key Words: Attentiveness; Machine vision; VGG; Head-up rate
1 专注度
专注度指的是被测人员在完成目标任务时的注意力集中程度[1],高专注度一般有4个特点:第一个是具有指向性,高专注状态时被测人员对于目标事物的注意力大大增加,从而主动忽略其他事件的干扰;第二个是具有集中性,人的精力和体力随着高专注状态的时间增加而减少,集中注意力更有利于专注度的提高;第三个是具有持续性,当被测人员处于高专注度状态时,不容易被外在事物所干扰,具有一定的持续性;第四个是具有交替性,当长时间处于高专注度状态时,人的体能和状态会下降,在高专注度中间穿插一定的放松时间,有助于延长整体的高专注时间[2]。
对于专注度状态的检测,主要体现在人脸上,主要特征如下:第一,当人处于高专注度状态时,面部表情变化减少,集中性增强;第二,人脸面对目标事物,肢体动作减少,眼神跟随目标事物移动。
2 专注度检测
该研究的专注度检测包含两个部分:第一部分为抬头平视率的检测,以大部分人的行为作为高专注度意向,当抬头属于高专注度意向时,判定低头为低专注度状态;第二部分为基于改进VGG的专注度检测,对第一部分中抬头为高专注度状态时的抬头人员进行进一步的专注度状态检测。具体流程图如图1所示。
2.1 抬头平视率
在同一环境中,某一时刻抬头平视前方的比例超过50%则认为抬头状态为高专注度状态[3]。对输入的图像进行人脸五官矩形定位,以矩形中心点作为基准点,建立眼-鼻三角模型,如图2所示。
由坐标可得角C的余弦值,当被测人员低头时,角C角度减小,cosC增大,进过实验分析,当角C处于60°~66°时,处于抬头平视的状态,选取cosC=0.4和cosC=0.5作为阈值,进行抬头平视率的计算。
2.2 基于VGG网络模型的改进
VGG网络最早由Oxford Visual Geometry Group于2014年提出[4],增加了网络模型的深度,它的特征提取器由卷积层和池化层反复叠加组成,利用现代计算机的高算力实现了对网络性能的提升,但是极大地增加了计算机的计算量,仅全连接层权重数量就超过了1.3亿个[5]。
该文在VGG-16的基础上,结合实际采集的图像的大小,在保证准确率的情况下,特征提取网络进行了改进,减少了卷积层的层数,并使用全局平均池化层代替了原有的全连接层,减少了参数的数量,降低了计算量,具体情况见图3。
该文中使用的图片为预处理后尺寸归一为512×512×3的图片,改进后的特征提取网络由10个卷积层和4个池化层组成,分为4层:前两层为都为两个卷积核的卷积层和一个最大池化层叠加而成,第一层的卷积层卷积核数量为64个,第二层为128个;后二层为3个3×3卷积核的卷积层接一个最大池化层组合而成,卷积核数量分别为256个和512个;该方法中使用了全局平均池化层代替全链接层,全局平均池化层就是将上层输入的每个像素值都进行累加求平均的计算,以最终的计算值作为输出,大大减少了神经网络的参数权重,降低了计算量的同时也解决了过拟合情况,提高了训练效率。
3 训练
目前国内外还没有专门对于人脸专注度检测的数据库,该文在原有的GT数据库[6]的基础上,对图像进行了数据归一化处理,并选取了10名志愿者(包括教师和学生)对每张图片的专注度进行0~10分的打分,高于5分则认为该图片为高专注度状态,最后对总体的评分进行计算,取大多数人的专注度意见为该图片的最终专注度评分,建立了专注度标签,构建了人脸专注度图像数据库,用于专注度检测。数据库由50名志愿者每人15张共750张图片,包含了杂乱背景下每名志愿者低头、抬头、闭眼、哈欠等不同状态,其中高专注度人脸图片570张,低专注度人脸图片180张。将两类图片分别输入神经网络进行训练与测试,测试结果准确率为91%,验证了该方法的可行性。
4 结语
随着时代的发展,对于专注度的研究会越来越深入,在计算机计算能力的飞速提升之下,对于专注度状态的自动判别的准确度也会越来越高,未来对于专注度的应用也会越来越广。该方法还有许多值得改进的地方:第一,对于人脸专注度检测图像的数据库的图片数量和种类的扩大,该方法使用的为国外人脸,可以添加亚洲人脸增加识别范围,提高识别准确率;第二,增加语音识别技术,在课堂讨论等学生非直面摄像头时,人脸识别检测专注度效果下降,增加语音识别技术能更好地反映学生专注度状态。
参考文献
[1] 吴任.专注力管理:论专注力的培养和提升[J].科学咨询(科技·管理),2020(10):40-41.
[2] 鲁月园,张军,白钰,等.大学生专注力与时间管理倾向的关系研究[J].承德医学院学报,2021,38(1):88-90.
[3] 段巨力.基于机器视觉的学生上课专注度的分析评测系统[D].浙江工商大学,2018.
[4] 陈津徽,张元良,尹泽睿.基于改进的VGG19网络的面部表情识别[J].电脑知识与技术,2020,16(29):187-188.
[5] 张睆.基于模型视觉假体中图像识别算法的硬件实现[D].西安理工大学,2020.
[6] FENG Q,YUAN C,PAN J S,et al.Superimposed Sparse Parameter Classifiers for Face Recognition[J].IEEE transactions on cybernetics,2016,47(2):378-390.