基于眼动视频的注视点轨迹描述方法及应用

2021-01-14 03:52梁梦颖

梁梦颖,吕 钊,2*

(1.安徽大学 计算机科学与技术学院,安徽 合肥 230601;2.安徽大学 物质科学与信息技术研究院,安徽 合肥 230601)

近年来,电子科学、计算机技术、工程与自动化等领域的快速发展促进了人机交互(human-computer interaction,简称HCI)技术的迅猛提升,这些技术主要包括虹膜识别、手势识别、人眼检测、眼动跟踪等.对于眼动跟踪技术,国内外很多高校、研究机构均有相关研究.目前,这些研究取得的进展推动了眼动跟踪技术的发展,已经在个性化广告推荐、网页布局规划、医疗领域、VR(virtual reality)及游戏领域等得到广泛应用.

注视点轨迹描述方法是人机交互技术的分支,该技术通过摄像头采集受试者的眼动视频数据,对视频的每一帧图像进行预处理,并通过瞳孔定位求出瞳孔中心坐标,结合注视点标定建立瞳孔中心与屏幕注视点的映射关系,根据映射关系实时地反算出看屏幕的注视点.传统的注视点轨迹描述方法主要分为侵入式与非侵入式两种.

瞳孔中心与注视点映射关系的建立是注视点轨迹描述方法的重要环节.常用的建立映射关系的方法分为线性映射与非线性映射两类.非线性映射可将问题映射到维度更高的特征空间,并保证问题的原有依赖关系近似不变,使其在新的特征空间上线性可分,便于问题的解决.论文所提的非线性映射是指非线性单应性映射.线性映射是指通过函数从一个向量空间映射到另一个向量空间(即线性变换)且兼容向量相加及标量相乘的运算操作.论文选用误差最小的二阶多项式映射方法来建立映射关系.

传统注视点轨迹描述方法存在固有缺陷,例如侵入式方法会伤害人眼,非侵入式方法又需要较为昂贵的实验设备来实现等.为了克服这些缺点和提高二阶映射精度,论文提出了一种基于视频分析的注视点轨迹描述方法,并在此基础上开发了基于眼动视频的注视点轨迹描述系统,将其应用到网页布局规划中,取得了良好的效果.

1 方法介绍

注视点轨迹描述方法主要分为瞳孔定位、注视点标定和注视点输出3个模块.首先通过红外视频手段采集受试者的眼动信息,进行滤波去噪等图像预处理操作,瞳孔定位模块主要通过行列定位法进行瞳孔粗定位;然后采用阈值质心法进行瞳孔精定位,用以获得瞳孔中心在视频图像中的像素坐标.注视点标定模块用于获得标定点坐标和瞳孔中心坐标的对应关系,注视点输出模块主要通过注视点标定模块求得的映射关系来实现注视点轨迹描述的功能.算法流程如图1所示.

图1 基于视频分析的注视点轨迹描述算法流程图

1.1 图像预处理

在采集视频的过程中会不可避免地引入噪声,例如红外摄像机中放大和处理电路所引起的电子噪声,以及光线变化所引起的光电子噪声等,这些噪声信号都会对图像产生干扰,滤波能够去除图像数据中的干扰信号,是图像预处理的关键步骤.瞳孔是一个眼睛图像中最暗的部分,为了求出瞳孔的大致轮廓,首先将图像转换为二值图像,黑色部分即为瞳孔.为了使瞳孔的二值图像更加结构化,使瞳孔的边缘曲线更加平滑,以便得到连通域的规则形状图形,论文采用形态学滤波对图像进行腐蚀和膨胀处理,选择strel函数中的disk参数来构造元素,通过多次实验分析,最终确定最优形态学开启操作的阈值为4,形态学闭合操作的阈值为2.结果表明:形态学滤波能够有效滤除不必要的图像噪声,同时能够保留大部分的图像信息,得到一个较为连通的瞳孔区域.瞳孔图像滤波前后效果如图2所示.

图2 瞳孔预处理对比图

1.2 瞳孔定位

瞳孔是动物或人眼睛内虹膜中心的小圆孔,为光线进入眼睛的通道.为了提高瞳孔定位的精度,论文提出了先进行瞳孔粗定位再进行瞳孔精定位的瞳孔定位方法.首先要粗略求出瞳孔中心点的位置和瞳孔半径,进行瞳孔粗定位,为下一步精确计算瞳孔中心坐标提供瞳孔大致轮廓.在粗定位瞳孔的基础上,检测瞳孔边缘,然后拟合瞳孔轮廓,最终确定瞳孔中心的精确位置.

在进行图像预处理时,将图像转化为二值图像,此时可求得瞳孔的大致轮廓,在此基础上可对瞳孔进行粗定位.采用行列定位法对瞳孔进行粗定位,数字图像数据可以用矩阵来表示,所以用二维矩阵来表示瞳孔的二值图像,矩阵由

M

行、

N

列组成,二值图像矩阵的值只有0和1,根据行列法求出矩阵的中心,即瞳孔粗定位中心.把矩阵中心作为该区域外接圆的圆心,也是瞳孔粗定位中心,其坐标记为(

X

,

Y

),与此同时,把外接圆的半径

r

作为瞳孔粗定位时的半径.行列法示意图如图3(a)所示,瞳孔粗定位结果图如图3(b)所示,图中白色圆形区域为粗定位的瞳孔区域,其圆心在图中显示为白色加号,该符号即是粗定位的瞳孔中心.通过瞳孔粗定位可求出一个近似圆形瞳孔区域,在此区域的基础上采用瞳孔精定位方法求得瞳孔中心位置.常用的求灰度图像质心的算法有:普通质心法、强加权质心法和阈值质心法.其中普通质心法适用于无背景噪声、背景噪声一致或信噪比较高的情况,论文中的瞳孔灰度图像噪声多且杂,显然不满足这一条件.强加权质心法虽然精度高于普通质心法,但受光斑的影响较大.因此论文选用误差最小、精度最高的阈值质心法来对瞳孔进行精定位.在已经得到的瞳孔粗定位区域的基础上,对该区域采用阈值质心法来确定瞳孔中心的精确位置.图像的质心,也称为图像的重心,图像中每一点的像素值可以理解成此点处的质量.由于图像是二维的,设

i

代表图像左右方向,

j

代表图像上下方向,在

i

方向和

j

方向上分别独立地找出质心.

m

i

方向的左右两边像素和,

n

j

方向的上下两边像素和.像素点(

i

,

j

)处的灰度值为

g

(

i

,

j

),

X

为瞳孔中心横坐标,

Y

为瞳孔中心纵坐标.则用阈值质心法求图像质心位置坐标表达式为

(1)

通过质心法可求出瞳孔中心精确位置如图3(c)所示,其中所显示的圆点即为瞳孔精定位后的中心位置.

图3 瞳孔定位图

1.3 注视点标定

注视点标定最关键的一步在于映射关系的求解,这里的映射关系是指当人在观看电脑屏幕时,人眼的瞳孔中心位置和所观看的屏幕注视点坐标之间存在的映射关系,根据注视点标定可以求出这种映射关系,再将瞳孔中心坐标代入该映射关系计算人的注视点坐标.人的注视点是瞳孔中心和眼球中心的延长线与注视平面相交的那一点,眼球中心的稳定性与人的头部保持一致,头部相对静止时,眼球中心也不会变,这时唯一有变化的就是瞳孔中心,所以瞳孔中心与注视点坐标之间存在着相互对应的关系.为了求出这种映射关系,需要受试者注视几个标定点,获取注视标定点时的瞳孔中心坐标.通过标定点求得瞳孔中心与注视点坐标之间的映射关系,这个过程就是注视点的标定.

论文所使用的标定方法是基于二阶多项式映射的方法.设计一个3×3分布的场景网点,这9个网点顺序呈现,其中每个网点在电脑屏幕上的位置都是确定的,用(

X

,

Y

)表示网点坐标,对应眼图中的瞳孔中心位置记为(

X

,

Y

),两者之间存在一个映射关系(

X

,

Y

)→(

X

,

Y

),其中

i

=1~

n

.文献[9]评估了一些常用的映射方法,映射结果中误差最小的是使用二次多项式的映射方法时得到的,考虑到映射的精度,所以采用二阶多项式的方法求解映射关系.

可以认为瞳孔中心坐标和注视点坐标之间满足的二阶多项式映射关系如下

(2)

用(

X

,

Y

)表示注视点坐标,(

X

,

Y

)表示相应时刻瞳孔中心在瞳孔图像上的坐标,其中

i

=1~

n

.在标定时,受试者需要保持头部静止,然后按照标定点出现的顺序依次观看这9个点,系统会通过算法计算并实时记录瞳孔图像中的瞳孔中心坐标和对应时刻所观看的屏幕注视点坐标,作为映射关系的已知条件来求解参数矩阵,.令参数矩阵=[

a

,

a

,

a

,

a

,

a

,

a

],=[

b

,

b

,

b

,

b

,

b

,

b

],给定

n

个样本对,用(

X

,

Y

),(

X

,

Y

)分别表示第

i

个样本点所对应的注视点坐标和瞳孔中心坐标,通过最小二乘法求解出的矩阵,即所要求的映射函数的参数矩阵,注视点标定完成.

2 实验结果与分析

2.1 实验范式设计

所有实验均在Windows 7、Intel Core ML(TM)i5-7500 CPU@3.40 GHz、16 GB运行内存、64位操作系统的计算机环境下进行,分析数据所用的软件是MATLAB R2015b,实验中使用的摄像头是微软(Microsoft)LifeCam Studio 红外摄像头,分辨率为1 920×1 080,视频帧率为30 fps.

在标定的电脑屏幕上人工标定9个点,设定这9个点的坐标,使之呈3×3网格状分布.这9个点顺序呈现,每个点呈现时间为6 s,注视9个点的时间为54 s,加上前期的准备工作,一个标定流程共60 s.选取8位健康的受试者(S1~S8),其中4男4女,间隔进行实验.受试者需要在实验过程中尽量保持头部与标定屏幕之间的相对静止,并与电脑屏幕相距60 cm左右,要求受试者认真注视呈现的网点,红外摄像头连续记录眼动视频,通过点击系统的标定视频按钮进行录制并保存.在受试者看完标定点后,紧接着给出一张广告类图片让受试者自由观察,注视符合个人偏好的广告内容,同时记录受试者的眼动观测视频,通过点击系统的映射视频按钮进行录制并保存.视频采集实验范式如图4所示,标定视频按钮与映射视频按钮均是系统界面上的控件.

图4 视频采集实验范式

2.2 眼动跟踪算法性能分析

为了评估眼动跟踪算法的性能以及验证标定点的定位精度,将通过实验对注视点标定方法进行测试.首先让受试者注视屏幕上的9个标定点,获取受试者的眼动数据,9个标定点的位置如标定视频采集实验范式所示,将受试者注视9个标定点时的瞳孔中心坐标(

X

,

Y

)保存.此时9个标定点位置坐标(

X

,

Y

)已知,将瞳孔中心坐标与标定点坐标作为已知参数代入公式(2),可求出待定系数矩阵,.此时再将9个标定点作为测试时观察的注视点,重新获取受试者的眼动数据,将所求得的受试者9个瞳孔中心坐标代入已知参数矩阵,的公式(2),可以求出对应的标定点映射位置坐标.

通过眼动视频可以求出注视点位置,将注视点位置作为已知的条件代入映射关系,这时可得出所对应的屏幕注视点的位置.根据已知映射关系,将标定点与所有注视点坐标在图像的坐标系中描绘出来,即为标定点映射位置图像,选取其中一位受试者的标定点映射位置图像进行展示,如图5所示.图5中,红色的“+”表示由映射关系反向求得的标定点的位置,蓝色的“.”表示根据映射关系求得的注视点的位置.从图中可以看出,9个红色的“+”都近似在蓝色注视点“.”的中心位置,且9个红色“+”的位置呈3×3网格状分布.生成位置图像的同时,将所有瞳孔中心坐标与所对应的注视点坐标数据都写入Excel表格中保存下来.

图5 标定点映射位置图像

可以对比标定点坐标与标定点映射位置坐标,进行误差分析,两者差值越小,说明误差越小,映射精度越高.8位受试者4次实验的个人平均误差如表1所示.

表1 标定方法误差分析

为了更加直观地对比这组数据,将8位受试者4次实验的个人平均误差弧度与二阶多项式映射的误差弧度绘制在同一个折线图中,红色折线代表传统二阶多项式映射的平均误差,8个蓝色“.”代表8位受试者4次实验的个人平均误差,如图6所示.

图6 平均误差分析图

由表1和图6可以看出,8位受试者除了受试者S5外,4次标定的平均误差均小于二阶映射的平均误差0.57 rad.由于个体差异性以及外界环境的影响,导致8位受试者的实验效果各不相同.对比8位受试者的标定效果,除了S5外,其余7位效果都较为理想,其中S8效果最好,误差最小.4次实验的结果也最为稳定,S5的误差最大,且其4次实验的平均误差超过了二阶映射的平均误差0.2 rad,相较其余受试者效果最差.经对比S5与其余受试者的实验过程,发现可能是因为S5在采集视频数据的过程中头部有明显的移动,导致S5在所有受试者中标定效果最差.为了验证这一猜想,固定S5的头部,按照同样的实验范式,再次采集S5的视频数据,对误差结果进行分析,发现标定效果较头部移动时要明显改善.此外,对效果最好的受试者S8进行了分析,发现她的瞳孔颜色较之其他受试者更加黑,且瞳孔形状更近似于一个规则的圆形,这使得在瞳孔定位阶段的瞳孔中心定位的更加准确,为下一步的注视点标定奠定了良好的基础.总的来说,8位受试者注视点轨迹描述的平均误差为0.414 rad,相比较传统二阶注视点轨迹描述方法其精度提高了0.156 rad,实验结果验证了所提方法具有精度高、普适性好等优点.

2.3 注视点区域分析

注视点散点图和热点图是一种能够有效、直观展示出视觉行为特点的数据可视化形式.在标定精度较高的前提下,通过生成热点图、散点图结合注视点轨迹图像,对受试者在广告类图片(实验时广告类图片统一用天猫商城网站首页)的注视点区域进行分析,观察出个人对广告内容的偏好.这里以受试者S1为例,给出S1的注视点热点图与注视点散点图,如图7,8所示.

图7 S1注视点热点图

图8 S1注视点散点图

眼动热点图主要用来反映受试者浏览和注视的情况,眼动热点图也被称为眼动热力图或眼动热区图,热点图可展示出被试者在刺激材料上的注意力分布情况.

在图7中,采用颜色的深浅来表示受关注程度的不同,最右边的颜色柱自下往上,数值为-6~8,表示受关注程度由低往高递增.颜色越偏向蓝色或黑色,热量越低,代表受关注程度越低,越偏向黄色和橙色,热量越高,代表受关注程度越高.从图7中可以看出,在中间靠上方的位置受试者关注度最高,中间左右两边的关注度略低,关注度最低的是中间靠下方的位置.

注视点散点图显示出受试者在刺激材料(论文的刺激材料是网页广告图片)上的视线位置.因此注视点散点图的主要特征是揭示受试者观察广告图片的哪些位置.注视点的密集程度可以有效地反映出受试者的感兴趣程度.注视点越密集,代表受试者对该区域兴趣越大.对照图8中注视点的分布情况,S1的注视点即为图中蓝色的点,发现能够与图7中对应起来,明显中间靠上方的位置注视点多且密,中间左右两边次之,最下方靠中间位置没有注视点,对应图7中相应位置的关注度最低.检测结果与被试者实验后反馈的结果基本一致.

为了验证注视点轨迹描述方法的鲁棒性,论文又增加了不同受试者观看不同网页的实验.做映射视频采集实验时,让S3观看旅游网站首页,让S6观看学校90周年校庆宣传网页,画出S3和S6的注视点散点图,分别如图9,10所示.

图9 S3注视点散点图

图10 S6注视点散点图

由图9可以看出,S3的注视点即为图中蓝色的点,集中分布在旅游网页中间呈现文字的区域.实验后询问受试者S3实际观看位置,确认该受试者确实被旅游文案吸引,视线停留在汉字及其附近的区域较久,同时也浏览了图片上的部分风景,对应着左边分散的注视点区域.由图10可以发现,S6注视点即为图中蓝色的点,在图片的正中间是校庆宣传logo,注视点主要集中在该区域,实验后询问受试者S6实际观看位置,确认该受试者对校庆宣传logo很感兴趣,因而对网页中的其他区域一扫而过,视线围绕在宣传logo周围.由不同被试者反馈可知,注视点轨迹描述方法所测出的注视点位置与实际观看位置基本一致,该方法鲁棒性较强.

3 结束语

论文对基于眼动视频的注视点轨迹描述方法进行了研究,具体通过瞳孔定位方法和注视点标定方法使得瞳孔中心位置与注视点在电脑屏幕上的位置建立映射关系,从而可以求出注视点位置坐标.在此基础上进行注视点轨迹描述方法的探索,通过注视点的热点图与散点图,有效地显示出受试者的感兴趣区域.根据对8位受试者实验数据的分析以及每位受试者的反馈结果,可以得出以下结论:论文提出的注视点描述方法可以准确地映射出受试者在所观看图片上的注视点位置,网页设计者可以通过注视点描述方法来优化广告类网页布局,强化观看者感兴趣区域,以此达到广告效果.

论文提出的注视点轨迹描述方法的缺点是要求受试者保持头部相对静止,当受试者头部晃动时方法精度会明显下降,接下来将会放宽实验条件,如让头部可以适当地移动,采用眼动追踪方法来对移动的眼部进行追踪,以提高论文方法的实用性.此外,还将进一步改进瞳孔定位方法与注视点标定方法,减小误差,增强注视点轨迹描述方法的鲁棒性,提高精度.