龚思宏
摘 要 人眼扫视路径预测旨在利用计算模型模拟人眼在自由无约束的观测条件下注意力移动的方式。在以前的研究工作中,人们利用了低层次特征、手工设计的高层次特征、扫视幅度和记忆因素,但这些并不能完美地诠释人眼视觉系统的机制。在这篇论文中,我们提出了一个在预测人眼扫视路径时考虑更多影响因素的综合性方法,该方法包括四个特征:低层次特征,扫视幅度,通过深度卷积神经网络学习得到的语义特征,以及包括短时记忆和长时记忆两个方面的记忆因素。通过计算一张图像中所有候选区域的概率,下一个关注点的位置就可以由拥有最大概率值的区域所选定。并进行了实验验证我们提出的方法的优越性。值得一提的是,在预测扫视路径时,注视时长作为一个关键因素是首次被用来对记忆建模。
【关键词】扫视路径预测 高层次特征 记忆因素 注视时长
1 背景
视觉注意是我们视觉系统中的一个基本处理过程,它能帮助我们将有限的处理资源分配到视觉场景中最重要的部分。目前预测人眼扫视路径的研究存在许多的缺陷。首先,各种各样低层次特征的影响都有所讨论,但高层次特征却没有提及。其次,记忆(包括短时记忆和长时记忆)因素也被忽略。[2]中张豹提到工作记忆会在视觉搜索过程中引导注意偏向到与之具有相同特征的项目。[3]中李姣婧由实验得到由短时记忆输入到工作记忆的内容会自动捕获注意,长时工作记忆内容对注意的引导更加灵活。如何建模并将其融入却并未解决。
另外,注视时长是人们在观看一幅图像时专注于一个关注点所持续的时长,它和人们的记忆以及行为都有着密切的联系。[4]中邓丹提到注视时间对视觉选择性注意有影响。而[5]中杨乐通过实验得出工作记忆和注视时间交互作用显著。因此通过注视时间对记忆效应建模是个较好的选择。所以,我们提出一个结合低层次特征、语义特征、扫视幅度、长时记忆和短时记忆的综合性办法。
2 方法
给定第n-1个关注点,我们的目标是预测第nth个关注点最可能的位置。首先,我们用图像的超像素取代像素作为最基本的处理单元,并用[6]的方法对超像素进行分割。然后我们计算出低层次特征、高层次特征、扫视幅度和记忆因素这四个特征对每个超像素候选区域的影响程度(用概率表示),最后,把所有的概率相乘,将得出最大结果的候选区域作为第nth个关注点。
给定一个图像I,首先我们将它分割成M个超像素,然后选择出第nth个关注点的目标函数就可以用以下公式表示:
R(n)=arg maxR({pln (R)×phn (R)×psn (R)×pmn (R,d1,…,dn) }RI), (1)
其中,pln (R),phn (R),psn (R)和pmn (R,d1,…,dn)分别是低层次特征、高层次特征、扫视幅度和记忆因素的概率,而dn是第nth个关注点的注视时长。R可以表示任一个超像素,记忆项pmn包括了返回抑制的影响。
得到每一种特征的概率很关键。我們将YUV颜色值和Gabor特征联系起来作为一个特征向量,然后计算pln (R)。我们通过Wang等人[7]的方法获得psn (R)。在本文中,我们专注于高层次特征的phn (R)和记忆因素的pmn (R,d1,…,dn)的计算。而注视时长dn是估计的,并用来为记忆因素建模。
2.1 高层次特征的概率phn(R)
我们用一个多层卷积神经网络(CNN)提取每个超像素中的高层次特征。每个超像素先被打包进一个范围框,然后送去CNN进行高层次特征提取,就像[8]中做的一样。从图1中可以看到这个网络结构的细节。
得到学习好的特征和两个全连接层,就得到了一个线性系统,我们可以用它来表示高层次特征吸引人眼注意的概率,这种概率可近似地表示为:
其中(.)是R的提取的特征,l是特征的维度。M是超像素的总数,线性系统的参数wi和bi通过特征学习同时获得。
2.2 注视时长dn的估计
为了获得一个可以估计任何一个数据集的注视时长的模型,我们用OSIE数据集建立了一个回归模型,这个数据集包含了20种影响注视时长的特征,同时还提供了真实数据。
我们用支持向量回归(SVR)来描述注视时长和这20种特征之间的关系。在SVR中,首先我们把所有的特征联系起来作为一个向量x∈R20,然后用径向基核函数(RBF)把这些特征映射到一个m维的特征空间。那么一个线性回归模型f(x,w)表示如下:
其中gi(x),(i=1,…,m)表示RBF的一系列函数,wi是在第ith个维度的特征相应的权重。y表示一个注视时长的真值,而d=f(x,w)表示注视时长的估计值。在训练阶段,SVR尝试通过最小化||w||2来降低模型的复杂性。因此SVR用公式表示为以下函数的最小值:
其中ξi>=0和ξi*>=0是两个松弛变量,用来测量训练样本在∈的不敏感空间以外的偏差。在训练以后,只要提取了相应的特征x,学习好的回归模型就可以用来估计任一个关注点的注视时长d。接下来,我们用注视时长为记忆建模。
2.3 记忆因素的概率pmn (R,d1,…,dn)
短时记忆和返回抑制密不可分。短时记忆阻止刚刚出现过的区域在短时间内或者说在下一个关注点中再一次被观看。所以,两个相继的关注点之间巨大的内容差别使得后一个关注点更容易被记住。而长时间关注的区域会在我们的大脑中留下深刻的印象,所以短时记忆可建模为:
其中R(n-1)和dn-1是第(n-1)th个关注点的超像素和注视时长,N是要进行预测的扫视路径的预定义长度。T是人类专注于一个点的最大时间值。Gσ(.)是标准化数据至0到1区间的高斯函数。
实验中,为了使分母不为0,我们设定T=3sec,σ=0.004,s1=0,N=5,∈=0.5。(本文中仅仅只有一个之前的关注点在为下一个关注点进行短时记忆影响的建模时被考虑进来)
在选择下一个关注点时,所有之前出现过的关注点所造成的影响称为长时记忆。所有之前出现过的关注点在选择下一个关注点时有着不同层次的影响,而这些影响可以以短时记忆所积累的影响计算出来。此外,每段短时记忆在长时记忆中所扮演的角色,通过标准化的注视时长
3 实验结果
3.1 数据集和评估指标
我们用NUSEF和JUDD数据集评估我们的方法。NUSEF数据集由758幅不同大小的人像图组成,每一幅都记录了15名受试者在自由的观测环境下观察的真实数据。为了保证公平性,我们把数据集分成了人像和人脸两个子集。JUDD数据集由1003幅图像组成,其中包括风景图和一些人像图。
我们用Smith-Waterman算法评估我们预测路径的准确性。预测结果和真实路径的相似性得分高意味着预测路径和真实路径很接近。
3.2 和其他方法的比较
我们用Smith-Waterman对比我们的方法和前面提到的[1]、[7]、[9]。从图2(a)中可以看到,在所有数据集中,我们的方法都表现得最好,并在JUDD上取得了非常出彩的结果,而JUDD比NUSEF更复杂。在NUSEF上,我们的方法和Liu[1]的方法得到的结果相当,是因为他们的方法是数据导向的,他们的参数是特地为这个数据集所训练的。
3.3 记忆因素的影响
为了验证预测扫视路径时记忆因素的影响,我们在考虑记忆效应(简写为N+M-D)和不考虑记忆效应(简写为N-M-D)两种情况下在这两个数据集上进行了实验。对比的结果如图2(b)所示。由图2可知,考虑了记忆因素的方法得到的结果更好。在NUSEF和JUDD上加入记忆效应的因素取得的结果分别得到8.6%和11.4%的提升。
3.4 注视时长的影响
我们在考虑和不考虑注视时长影响的两种情况下进行实验并对比结果,如图2(b)所示。从图中可以看出,在数据集MUSEF和JUDD中,我们的方法在同时考虑记忆效应和注视时长效应(简写为N+M+D)时所取得的结果最好,并且通过只考虑记忆效应(N+M-D)和同时考虑记忆效应和注视时长效应(N+M+D)的两种方法所取得的结果的对比,进一步的验证了注视时长在预测扫视路径中是有帮助的。
4 结论
这篇论文提出了一个预测人眼扫视路径的新方法。和其他方法相比,我们的方法结合了通过深度卷积神经网络学习到的语义特征和包括短时记忆、长时记忆的记忆因素。实验证明我们的方法比现在最先进的方法都要表现的更好。更重要的是,我们建立了一个回归模型并且探索了不同的特征和注视时长之间的关系。我们发现将注视时长融入到记忆建模中有利于预测人眼的扫视路径。
参考文献
[1]Liu,H.,Xu,D.,Huang,Q.,Li,W.,Xu,M.,Lin,S.:Semantically-basedhuman scanpathestimation with hmms,2013.
[2]张豹.工作記忆表征对早期视觉注意选择的引导[D].华南师范大学,2011.
[3]李姣婧.长时和短时两类工作记忆内容对选择性注意的影响[D].西南大学,2013.
[4]邓丹.基于视觉选择性注意的界面交互适老化设计研究[D].南京理工大学,2017.
[5]杨乐.工作记忆容量对图形识别影响的眼动研究[D].青海师范大学,2015.
[6]宋熙煜,周利莉,李中国,陈健,曾磊,闫镔.图像分割中的超像素方法研究综述[J].中国图象图形学报,2015(05).
[7]Wang,W.,Chen,C.,Wang,Y.,Jiang,T.,Fang,F.,Yao,Y.:Simulatinghuman saccadic scanpaths on natural images.Computer Vision and Pattern Recognition,2011.
[8]罗靖遥,黄征.基于CNN分类器和卷积的目标检测[J].信息技术,2017(09).
[9]Itti,L.,Koch,C.:A model of saliency-based visual attention for rapid scene analysis.IEEE Transactions on Pattern Analysis Machine Intelligence,1998.
作者单位
同济大学 上海市 201804