许智敏 施玲玲 肖珊 郭雁瑶 邹嘉书
摘 要:针对大量阅读者的阅读能力制约着其阅读效果的难题提出了一种基于机器学习的馆内行为模式分析方法。首先,研究了一种“宏-微”复合视觉成像方法及工作原理;其次,研究了基于图像特征的阅读行为模式识别算法;最后,将基于馆内目标图像获取的阅读行为模式与实际的阅读行为模式进行对比分析。并由实验验证该文提出的方法能够精准、稳定地识别馆内阅读者的阅读行为模式。
关键词:阅读行为模式;机器视觉;眼动跟踪;SVM
中图分类号:TP18 文献标识码:A文章编号:2096-4706(2021)19-0067-05
Analysis of Reading Behavior Patterns in the Library Based on Machine Learning
XU Zhimin, SHI Lingling, XIAO Shan, GUO Yanyao, ZOU Jiashu
(Guangzhou Maritime University, Guangzhou 510725, China)
Abstract: Aiming at the difficult problem that a large number of readers reading ability restricts their reading effect, a library behavior pattern analysis method based on machine learning is proposed. Firstly, a “macro-micro” composite vision imaging method and its working principle are studied; secondly, the reading behavior pattern recognition algorithm based on image features is studied; finally, the reading behavior patterns obtained based on the target images in the library are compared with the actual reading behavior patterns. Experiments show that the proposed method in this paper can accurately and stably identify the reading behavior patterns of readers in the library.
Keywords: reading behavior pattern; machine vision; eye tracking; SVM
0 引 言
閱读是人类互相交流、分享经验、合作创新的重要方式,是学习知识、传承文明、提高人口素质的基本途径[1]。习近平总书记在读者出版集团考察调研时,提倡多读书,建设书香社会,不断提升人民思想境界、增强人民精神力量[2]。在新时代人民物质生活得到保障情况下,精神文化层面的丰富迅速提上日程,因此阅读成为一个时代趋势。在大数据时代背景下,阅读者在阅读过程中普遍存在注意力不集中、阅读效率低下、理解能力不足等等阅读障碍,造成阅读效果不佳等同于无效阅读,目前人们对阅读能力制约着新时代人们精神文化发展水平的快速提升,因此,深入的分析阅读者阅读过程中障碍,成为有效提高阅读效率及质量的关键技术之一。
眼动追踪装备是现有研究阅读障碍的关键设备之一。一方面,荷兰的SKALAR公司研发了基于电磁感应的眼动成像装置[3],法国的Metrovision基于电流记录法研制了Model Mon EOG 眼动成像装置[4],加拿大SR、日本ISCAN、美国Fourward Optical Technology基于光学记录法研制了眼动成像装置[5],光学记录法具有信息丰富,操作简单等优势,成为主流的眼动追踪方式,但现有眼球追踪设备在进行眼球信息的获取对眼球拍摄时,通常将设备装置设备近距离对准眼球,这种方法条件局限性非常大,必须保持所拍摄的眼球保持不动并且可以实现近距离拍摄的情况,存在不实时性、条件局限大、使用范围小的缺点;如果没有实现近距离对眼拍摄而是选择广角拍摄时,根本无法获取清晰的眼球信息,只能获取广角下像素低的眼球图像信息,存在获取的图像信息不全面、像素模糊等缺点;另外一方面,使用专业眼动仪去分析眼动模式是无法适用于人员较密集的场所,许多学者针对这种情况通过相应的算法对拍摄的图像进行处理,王先梅[6]等利用眼睛的灰度信息结合多分辨率ASM算法对瞳孔进行定位分析,但除去光线因素以外,人体的本身特征也会造成分析错误。
眼动信息模式识别是研究阅读障碍的重要信息处理技术。随着图像物体检测与识别在人工智能方面的应用范围不断扩大,使得物体区域的获取、行为分析等一些高层视觉任务有了新的解决方法。在行为模式识别过程中,与传统的手工设计特征,基于深度学习的行为模式识别算法通过提取卷积特征使目标的特征更具有表达力。近年来,许多学者也结合卷积神经网络等深度学习去针对人物姿态识别提出了自己的方案,李晓龙[7]结合候选区域生成算法和深度卷积神经网络提出行人检测改良方案,吴迪[8]提出的结合单发多箱检测与锁紧-松弛奇异值分解和重排序的卷积神经网络方案,基于深度学习的行为模式识别为眼动信息的分类奠定了良好的理论基础。
本文以信息时代背景下阅读者阅读效率及质量分析为目的,研究了一种基于机器学习的馆内行为模式分析方法。针对大视场环境下眼球微特征的成像难题,研究了一种“宏-微”复合视觉成像方法及工作原理;其次,针对现有阅读过程中的注视、眼跳、回视、阅读等眼动模式智能识别,研究了二叉树MSVM智能分类算法;最后,以图书馆内具体的阅读者阅读行为模式识别结果与阅读者实际的阅读行为模式进行对比分析。
1 阅读者微特征获取视觉系统及工作原理
以馆内阅读者的阅读行为模式为研究对象,为了不对阅读者造成干扰,需要在远距离获取阅读者的眼动信息,造成眼球图等获取存在大视场、微特征等特点。传统的广焦相机在成像过程中难以实现眼球微特征的成像,变焦相机在获取眼球微特征成像时,在待分析目标轻微的移动时,容易出现眼球在成像中出现脱靶现象,造成目标特征信息丢失。本文研究一种大视场微特征成像系统,如图1所示,该系统装置包含长焦成像子系统、广角成像子系统、广角成像子系统固定架微控平台、横滚角驱动子系统、俯仰角驱动子系统、对焦驱动子系统支架、保护罩、控制子系统、图像处理子系统等。首先,通过广角成像子系统获得阅读者的面部图像的横滚角、俯仰角信息,依据广角成像子系统与变焦成像子系统的实时空间位姿关系,人眼球在面部中所占据的大概位置等信息,基于图像处理子系统粗略的计算出广角成像子系统在获得眼球图像时待调整的横滚角及俯仰角、对焦信息。其次,控制子系统依据变焦子系统待调整的横滚角、俯仰角及对焦信息驱动变焦子系统沿着横滚角、俯仰角方向运动并调整对焦参数,初步的获得眼球成像;接着,通过图像处理子系统对变焦子系统获得的眼球图形进行分析计算,精准地获得眼球中心与变焦子系统光轴的在横滚角、俯仰角方向的夹角,对焦信息。再者,控制子系统依据眼球中心与变焦子系统光轴的在横滚角、俯仰角方向的夹角,对焦信息驱动变焦子系统沿着横滚角、俯仰角方向进行修正并精准的调整对焦参数,获得完整、清晰的眼球成像;最后,采用二叉树的多分类支持向量机方法对获得的眼球图像进出分析,得出当前的眼动信息归属于注视、眼跳、回视、阅读其中的具体类型,进而为阅读者的阅读能力的培养提供依据。
2 建立阅读行为中眼动跟踪方法及模型
目前绝大多数室外行为模式识别算法有“DN-2DPN-3DPN”的框架、基于多层级语义融合和多级预测器的数学模型,室内类行为模式识别的较少,鉴于卷积神经网络(Convolutional Neural Networks, CNN)具有识别准确度高的优势及支持向量机(support vector machine, SVM)具有高效分类说的特征,本文提出一种适用于眼动信息多类识别算法,其主要由面部目标区域识别与眼动行为模式分类两大部分组成。首先,采用CNN优化模型的注意层,在降低噪音的基础上保留边缘信息,进而获取目标区域;其次,通过金字塔池化(Spatial Pyramid Pooling, SPP)将输出的目标区域尺寸统一化为下步分类识别做准备;最后,利用二叉树MSVM实现多类识别。该算法的主要流程图如图2所示。首先对输入图像进行预处理,在本文CNN优化模型中输入层后的注意层上采用LBP纹理特征与梯度进行运算,得到图像相应的LBP纹理特征图与梯度图,并利用卷积层进一步提取图像特征;其次,在卷积层与全连接层之间采用金字塔池化,将得到的特征图中的目标面部区域提取固定长度的特征向量,实现面部区域尺寸统一化;最后,在面部区域对眼睛的形态的差异利用二叉树MSVM的分两类后再二分子类的方法实现对注视、眼跳、回视、阅读四种模式分类。
2.1 基于广角成像系统的目标面部特征识别
传统的卷积神经网络(CNN)针对目标特征识别问题,需提前对输入图像的尺寸进行统一化处理,再进一步对输入后的整张图像无特征的提取,导致面部图像获取时间周期长、无效计算量大、模型的泛化性低的结果。本文的目标面部特征识别模型是基于CNN模型结合局部二值模式(LBP)和梯度作为预处理运算的注意层[9]与金字塔池化形成的一种新的优化模型,过滤图像中的大部分噪音和减少复杂背景环境等对面部特征识别的影响,实现突出目标面部边缘轮廓与精准识别,同时具有任意尺寸输入、输出固定维数图像的优势有利于后期分类。
其中,LBP是一种对图像的局部纹理进行有效描述的算子,可实现纹理信息的度量和提取,产生多尺度特征,形成旋转不变性与灰度不变性等特点。其中一个LBP操作可定义为:
(1)
其中,(Xc,Yc)代表3×3邻域的中心元素的像素值为ic,其他像素的值为ip。A(x)是符号函数:
(2)
首先,金字塔池化将所输入的图像的目标不同特征进行划分,再通过Pooling操作提取相关特征的过程。同时输入图像尺寸的灵活性,能通过从不同的尺寸中提取并汇集特征实现特征共享且产生固定尺寸的图像,有效避免目标面部区域的产生形变扭曲,保证特征信息的真实性,识别的准确度高,为后续的分类和回归操作做准备。SPP可行性分析如下:
设获得的特征图像尺寸为W×H,每个特征图的特征数为f,n=1,2,3,…,池化滤波器大小为(p1,p2),采用向上取整方法:
(3)
步长为(t1,t2),采用向下取整方法。
(4)
设水平移动时的特征数为f1,k是通过向下取整得出整数。
(5)
2.2 基于变焦系统的眼球跟踪模型
眼球的运动和注视人眼在阅读过程中两种基本的模式[10],不同的学者对于眼动模式的分类有不同方式,本文依据文献[11]将眼动模式分为注视、眼跳、回视、阅读四种模式进行研究。支持向量机是基于统计学习理论、具有监督分类和回归特性的方法,是结构风险最小化方法的近似实现,适用于二分类的有效方法。为使其实现本文中眼动模式多分类,提出基于二叉树的多分类支持向量机方法,实现分类决策时间消耗短,识别分类,具有准确高效性。
二叉树的多分类支持向量机方法,如图3所示,將多分类的问题转化为多级的二分类子问题,首先把所有的图像的注视、眼跳、回视、阅读四种模式进行实现注视、眼跳和回视、阅读二分类;其次,将得到的子类再划分成注视、眼跳、回视、阅读四种独立的分类,且二叉树MSVM所需的BSVM仅(N-1)个,降低了训练和测试所需要的时间,具有较高的效率。
对于4类分类问题,构造二叉树的主要算法是得到类与类之间的相对距离矩阵D:
假设X为包含4个类别的样本集,Xi为第i类的训练集:
(6)
其中,ci,ni分别是第i类的样本中心和数量;则类a与类b中心的欧式距离为:
(7)
类a与类b之间的相对距离为:
(8)
其中,Ri=max{||ci-xi||}是最小超半球半径,xi是第i类样本。
3 阅读行为中眼球跟踪实验
在学校图书馆采集学生阅读状态下的实时视频并通过软件离散成照片,共收集了12 389张图片,并将图片裁剪到512 pixel×512 pixel,其中部分图片如图4所示。
将该数据集随机分成训练集、测试集两部分,其中训练集19 818张图片,测试集3 425张图片。训练集包含4 088张基于广角成像人脸图像、1 026张基于变焦目标成像的眼动信号图像以及25 047张非目标图像,广角目标成像图片中包括人脸图像。变焦目标成像图像包括注视图像、眼跳图像、回视图像、阅读图像。测试中包含1 026张广角目标成像图片、1 502张变焦目标成像图像以及897张非目标图像,测试集图像的类别和训练集一致,具体数量如表1所示。对训练集中样本进行训练,分别得到人脸、注视、眼跳、回视、阅读的分类器参数。
在上述基础上,在测试样本中,首先,随机选择300张人脸测试样本并给定标签,选择200张非人脸测试样本并给定标签;其次,将上述500测试样本随机编号;最后,用上述的人脸的分类器对第i个测试样本进行识别,得到不同样本的置信度参数。同理分别对注视、眼跳、回视、阅读的测试集进行上述处理,得到不同样本的置信度参数。为对不同算法在人脸、眼动信号识别结果进行客观评价,采用平均精度(Average-Precision, AP值)、平均精度均值(Mean Average Precision, mAP值)、帧/每秒(FPS值)三个评价指标。
4 结果及分析
4.1 与其他检测方法的检测精度、效率比较
将该文中检测方法与其他检测方法进行比较,例如HOG-SVM[12],Faster R-CNN[13]。在HOG-SVM算法中,将样本缩放为32×32进行训练,提取所有正、负样本的Hog特征并分别标记为1、0,将正负样本采用线性SVM[14]进行训练,得到support vector数组、alpha数组、rho浮点数,将alpha矩阵同support vector矩阵相乘得到一个列向量,在该列向量的最后添加一个元素rho,得到检测模型;在Faster R-CNN算法中,在ImageNet上经过预训练的卷积神经网络作为预训练模型,然后使用ZF网络[15](5个卷积层和3个完全连接层)和VGG16网络[16](13个卷积层和3个完全连接的层)以重新训练检测模型。所有检测模型识别实验均在图像工作站(2-GPU Tesla V100-32G,2-CPU Xeon(R) E5-2678W)上运行,采用Python3.5软件平台,记录了每个模型的评价指标的结果,如表2、表3所示。
HOG-SVM采用滑动窗口,且设置不同的大小,不同的长宽比对图像进行遍历,其时间复杂度O为m×n,相对其他算法较高(n为样本个数,m特征个数),在人脸、眼动信号的检测效率仅为13帧/秒、16帧/秒,低于本文的算法;其次,由于目标形态多样性、光照变化多樣性、背景多样性使得目标特征获取鲁棒性差,导致该分类模型在人脸、眼动信号识别中的AP值均较低。因此,HOG-SVM识别算法相对其他算法在人脸、眼动信号识别精度及速度上均无优势。Faster R-CNN算法对整张图片输进CNN,得到卷积特征并输入到RPN(Region Proposal Networks),获取候选框的特征信息,使用softmax判别是否属于一个特定类,对于属于某一类别的候选框,用回归器进一步调整其位置,导致其在人脸、眼球信号识别效率仅为为5帧/秒、7帧/秒,由于其采用端到端的检测,其在船及号灯号型检测准确度评价指标mAP为0.860,0.925,比其他算法好。我们提出的模型在提升人脸、眼球信号的平均识别速度的同时保证了其识别精度。
4.2 与其他算法计算性能比较
在目标分类算法中,计算性能直接影响着算法能否在线检测以及对硬件的依赖程度。为了评估上述的三种分类算法的计算性能,对其训练耗时进行统计,如表4、表5所示。依据表4、5的结果可知,Faster R-CNN检测结果精度较高,但是训练、检测时间较长增加了约200%,对硬件的要求较高且难以在线检测。传统的HOG-SVM等算法训练、检测时间相对于基于候选区域的目标检测器有优势,但是检测过程中抗干扰能力及迁移能力较弱。文中的算法在改进检测精度的基础上,其训练速率得到提升。
5 结 论
本文提出的眼动信号“宏-微”复合式视觉传感方法较好地解决了眼动信号识别过程中难以实现大视场成像与高分辨率成像的矛盾;待识别目标的动态性导致眼动信号“宏-微”复合式视觉系统在位置调整时成像过程存在短暂的时间差,导致眼动等特征的成像难以位于长焦子系统成像中心,为了保证眼动信息不出现脱靶或者位于图像边缘造成特征不完整现象,长焦子系统成像须将舰船等大目标成像视场在理论的基础上增大50%。采用一种二叉树的多分类支持向量机方法,实现眼动信号分类决策时间消耗短,识别分类准确高效性。
参考文献:
[1] 董一凡.论当代读者的阅读方式与图书馆的对策 [J].农业图书情报学刊,2010,22(1):125-128.
[2] 张晓松、朱基钗.习近平:要提倡多读书,建设书香社会 [EB/OL].(2019-08-22).https://baijiahao.baidu.com/s?id=1642530668980671789&wfr=spider&for=pc.
[3] JOACHIMS T,GRANKA L,PAN B,et al. Accurately interpreting clickthrough data as implicit feedback [C]//SIGIR05:The 28th ACM/SIGIR International Symposium on Information Retrieval 2005.Salvador:Association for Computing Machinery,2005:154-161.
[4] JOACHIMS T,GRANKA L,PAN B,et al. Evaluating the accuracy of implicit feedback from clicks and query reformulations in Web search [J/OL].Acm Transactions on Information Systems,2007,25(2):[2021-09-10].https://doi.org/10.1145/1229179.1229181.
[5] 闫国利,熊建萍,臧传丽,等.阅读研究中的主要眼动指标评述 [J].心理科学进展,2013,21(4):589-605.
[6] 王先梅,杨萍,王志良.多姿态眼球中的瞳孔定位算法 [J].计算机辅助设计与图形学学报,2011,23(8):1427-1432.
[7] 刘晓龙.基于图像的行人检测算法研究 [D].长沙:国防科学技术大学,2017.
[8] 吴迪.基于改进卷积神经网络的行人检测及再识别方法研究 [D].秦皇岛:燕山大学,2019.
[9] 谢林江,季桂树,彭清,等.改进的卷积神经网络在行人检测中的应用 [J].计算机科学与探索,2018,12(5):708-718.
[10] RAYNER K.Eye movements and attention in reading,scene perception,and visual search [J].The Quarterly Journal of Experimental Psychology,2009,62(8):1457-1506.
[11] 许洁,王豪龙.阅读行为眼动跟踪研究综述 [J].出版科学,2020,28(2):52-66.
[12] BILAL M,HANIF M S. Benchmark Revision for HOG-SVM Pedestrian Detector Through Reinvigorated Training and Evaluation Methodologies [J].IEEE Transactions on Intelligent Transportation Systems,2020,21(3):1277-1278.
[13] FANG F,LI L Y,ZHU H Y,et al. Combining Faster R-CNN and Model-Driven Clustering for Elongated Object Detection [J].IEEE Transactions on Image Processing,2019,29:2052-2065.
[14] DALAL N,TRIGGS B. Histograms of oriented gradients for human detection [C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR05).San Diego:IEEE,2005:886-893.
[15] ZEILER M D,FERGUS R. Visualizing and Understanding Convolutional Networks [J]//Computer Vision–ECCV 2014.Zurich:Springer,2014,8689:818-833.
[16] SIMONYAN K,ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition [J/OL].arXiv:1409.1556 [cs.CV].[2021-09-11].https://arxiv.org/abs/1409.1556.
作者簡介:许智敏(1988—),女,汉族,广东广州人,图书馆馆员,硕士研究生,主要研究方向:阅读素养分析、数据挖掘;施玲玲(2000—),女,汉族,广东陆丰人,本科在读,主要研究方向:机器视觉;肖珊(1999—),女,汉族,福建龙岩人,本科在读,主要研究方向:机器人技术、机器视觉技术;郭雁瑶(2001—),女,汉族,广东陆丰人,本科在读,主要研究方向:机器视觉、深度学习;邹嘉书(2001—),男,汉族,广东梅州人,本科在读,主要研究方向:机械设计。