郭昕
摘 要: 针对近年来在建立图像质量主观评价过程中得到广泛应用的眼动信号,提出一套基于眼动仪采集的原始眼动数据的可视化分析方法。实现从凝视点到注视点的I?VT滤波过程,设计并绘制单人注视点界面,生成并初步分析注视点叠加热图,为将眼动信号更好地应用于图像质量主观评价,提供了创新性的分析与探究。
关键词: 图像质量主观评价; 眼动仪; I?VT滤波器; 热图
中图分类号: TN919?34 文献标识码: A 文章编号: 1004?373X(2015)12?0070?04
眼动跟踪是研究如何精确无干扰地追踪人眼视觉过程的技术。该技术是一种人类意识行为的特殊测量工具,也是一种未来人机接口的关键技术,因此受到了神经认知科学、心理学、工业工程、平面及立体视觉和计算机科学等众多领域和交叉学科的广泛关注。
图像质量评价是希望建立一种能够与人眼主观评价特性尽量符合的客观质量指标,现在成熟的全参考、部分参考和无参考模型都是模拟人类视觉机制对误差信号的感知能力[1]。本文从全新的眼动技术入手,直接从测试者的主观评价行为中获得其眼睛注视点序列,从而真实地反映视觉感知失真图像的判断过程,不仅具有很强的创新性,并且对视觉感知研究具有重要的研究意义。
1 主观图像质量评价中的原始眼动数据采集
1.1 测试环境
测试全部是在室内进行,室内光照正常,采集眼动信号的眼动仪为Tobii TX300[2],搭配23寸显示屏,长宽比为16∶9,屏幕分辨率为1 920×1 080,采用的跟踪技术为暗瞳孔法。
1.2 测试图片
为了避免数据库公布后出现版权问题,本文采用图片为从北京星联图客科技公司“微利图片库”购买的110张彩色摄影图片。这些原始图片分辨率均为300 dpi,格式为“.jpg”,尺寸由1 650×2 482到5 120×3 413不等。图片内容包括近景、远景、景物、动物、人等。
实验中选取30张原始图,图片序号次为:004,005,010,019,022,035,036,037,043,054,055,063,070,072,073,074,077,082,084,086,087,088,090,093,098,101,105,107,109,110。图片的命名方式为“ipc图片序号”。
退化图片是在原始图片的基础上进行退化处理得到的。实验选取6种退化方式,每种退化方式设有4个退化等级,共有900幅测试图。其中6种退化方式分别为:awgn(加性高斯白噪声),gb(高斯模糊),hfn(高频噪声),jp2k(JPEG2000压缩),jpeg(JPEG压缩),quantization(量化噪声)[3]。
退化图片按照“退化方式?退化等级?原始图片名”的方法命名[4]。例如,名字为“ipc004”的原始图片,进行高斯模糊处理,退化等级是2,则退化图片名为“gb?2?ipc004。这里把原始图片的退化等级设为0。
1.3 测试结果与初步眼动数据处理
本次测试参与人数共计49人,完成了90个test,实现了对900幅图的两次完整遍历。一个test内包含30幅图,各幅图的内容、退化等级均不同。实验中眼动数据的采样成功率见表1。
表1 眼动数据的采样成功率
实验得到的眼动数据通过Tobii Studio 2.0导出格式为“.xls” 的Microsoft Excel数据文件。每一个test对应一个Excel文件,一共导出75个Excel文件。
对这75个Excel文件中的数据以图片名为要素进行整合,即将同一幅图的数据放在一个新的Excel文件中,由此得到30个以图片名为命名的Excel数据文件。
具体操作方法是将所有test的数据均导出到一个Excel文件,再利用Excel软件自带的数据筛选功能以图片名为关键词进行筛选,30次筛选即可得到30个以图片名为命名的Excel数据文件。这30个Excel文件包含的内容有被测者姓名、图片名、注视点序列号、凝视行为类型、注视点x、y坐标,凝视点x、y坐标等。
2 I?VT滤波器的构建
2.1 I?VT滤波器的基本原理
Gaze Point[5]在本文中译为“凝视点”,它本身并没有包含任何的生理学意义,只是一些由Tobii TX300眼动仪的采样得到的采样点。所谓Tobii TX300眼动仪采样的得到的凝视点,即以[1300]采样时间间隔得到的一系列沿时间轴分布的像素坐标值。
Fixation Point本文中译为“注视点”,它包含着实际的生理学意义,是对凝视点的坐标值采用I?VT注视滤波器(或其他滤波器)进行滤波后得到的。
I?VT滤波器的目的,即从采集到的凝视点中正确滤出注视点。它是基于眼球的角速度计算并按眼球的运动进行数据处理,因此数据不受屏幕分辨率、屏幕尺寸和眼睛与刺激材料之间距离的影响,使得更多的数据能够被正确地划分为眼跳、注视点或未分类的数据[6]。
I?VT滤波器经过调节可更好地适应特定的研究,通过对使用不同眼动仪采集的记录与对不同级别数据噪声的补偿来改善注视点分类的能力。数据处理功能包括:
(1) 数据降噪功能:2种低通滤波器可选均衡的移动平均线滤波器和移动中位数滤波器。滤波后的结果数据会比原始数据更平滑地呈现出来,这样可确保对噪声等级较高的数据的注视点分类的精确性;
(2) 数据插补功能可在有效数据丢失处填补数据;
(3) 在I?VT滤波器带有移除短时注视点的功能,该功能允许将低于设置基准值持续时间的注视点移除。
2.2 I?VT滤波器的实现
在Matlab中编程仿真实现该滤波器功能。首先导出单人单图的原始采样数据即凝视点数据。然后对滤波器算法的分析进行程序编写,最后将编程计算得到的注视点与Tobii Studio中自带的I?VT滤波器计算得到的注视点进行比对,对编程结果进行评估。
图1选取本文前述的数据评价中的一幅典型的人物图片(ipc036.bmp)展示其经I?VT滤波器处理后的注视点分布结果。图中的圆点代表经滤波器滤波后产生的注视点分布,大小代表注视时长,圈内标号代表注视顺序。
3 基于单激励主观图像质量评价数据库的注视
点界面
3.1 注视点的原始数据处理
基于上文对凝视点的相关介绍,Tobii TX300眼动仪采集以及通过Tobii Studio 2.0软件导出的注视点的原始数据是一系列沿时间轴分布的像素坐标。经Excel初步数据处理后得到30个以图片名为文件名的“.xls”文件,这些Excel文件中均包含的注视点x、y坐标信息以及对应测试者信息。现以某一退化类型中某一退化等级的一张确定图片为例,从Excel表格中筛选得到某位参与该图片测试的测试者的注视点坐标数据,作为后续注视点界面设计的数据。
3.2 注视点界面的算法实现
图形用户界面(Graphical User Interfaces,Matlab GUI)是由窗口、菜单、按键、光标及按钮等对象构成的一个用户界面[7]。
注视点界面设计的最终目标是将已导出的单人单图注视点坐标数据可视化。本设计所要实现的具体功能是通过GUI界面直观地展示单人单图注视点x、y坐标沿时间轴分布状况。接下来综合设计要求实现的各项功能,绘制草图。然后制作静态界面,依据设计草图,在GUI中制作的静态界面。最后编写界面中滑动条、可编辑文本框、axes控件对应的动态功能函数。以实现从计算机中已有文件夹中读入图片,并通过鼠标拖动滑动条控制相应注视点数据的显示。
图2为编写的注视点界面,界面功能如下:
(1) “Add Picture”按钮可用于添加一幅图片;
(2) 鼠标拖动滑动条可以控制注视点在图上的显示顺序;
(3) 点的位置代表注视点的位置,点的大小代表注视时间长短。注视时间长,则对应显示点大,注视时间短,则对应显示点小。点内标号为点的序列号,即注视时间先后排序的顺序。
4 基于单激励主观图像质量评价数据库的热图
分析
4.1 热图的基本原理
热图是一种直观的展示主观图像质量评估数据的方式。它通过使用不同的颜色来显示参与测试者在图像某些区域的注视时长或注视数目。红色代表时注视长较长或注视数目较多,绿色代表时注视长较短或注视数目较少,在二者之间不同颜色对应不同的注视时长[8]。它实现了多人单图注视信号的叠加,具有较强的统计意义与直观性,为进一步眼动信号分析奠定基础。
热图可分为以下3类:统计热图(Count Heat Map)用于累计所有选定的记录中的选定时间域内的注视的个数,可判断测试者们是否在测试图片或网页上注视到了不同的元素;绝对持续时间热图(Absolute Duration Heat Map)用于累计在一幅测试图片不同位置的注视持续时间,可衡量对一幅图中出现的不同元素的关注量以及认知过程;相对持续时间热图(Relative Duration Heat Map)用于累计在一幅测试图片不同位置的注视持续时间[9]。
4.2 热图生成算法
热图生成方法可分为以下几步:
(1) 映射被测图中的注视点。具体实现方法是通过遍历所有选定记录中的所有注视点,然后将有共同像素坐标的注视点累加起来。选择统计热图,就将相同位置的注视个数相加;选择绝对持续时间热图,就将相同位置的注视持续时间相加;选择相对持续时间热图,先将注视持续时间除以总观察时间,然后再相加。
(2) 向所有的像素点赋予色彩值。色彩越偏暖色,所代表的值越大。
(3) 向注视点周围的一定范围内的点均赋予色彩值,且距离注视点越远,色彩值越小,用高斯曲线来模拟。需要注意的是,函数半径的默认值是50个像素点,内核共有100个像素点。50个像素点的选择是基于被测者在距眼动仪64 cm处观察1 820×1 024分辨率的眼动仪标准屏幕时优化得到的。图3为上述步骤的图示化过程。
4.3 热图的实现结果及初步分析
基于上文阐述的热图生成原理,为了直观展示一幅图片上的所有被测者的注视点分布情况并对其分布进行分析,对热图进行编程实现。
图4为本文前述的数据库中的一幅典型的动物图片的原始图片(ipc004.bmp)及其在不同退化方法下的相关热图,9幅图分别为:原始图片、标记origin的图片为ipc004.bmp在所有记录上累计生成的热图、标记All的图片为ipc004.bmp在6种退化方式4个退化等级下产生的全部24幅退化图片的所有记录累计生成的热图、标记awgn,hfn,gb,jp2k,jpeg,quan的图片为ipc004.bmp分别在6种退化方法的4个退化等级记录累计生成的热图。由图4中标记origin的热图可以看出,当原始图片中有明确目标时,观测者对原始图的注视点的区域集中;没有明确目标时,不同观测者的注视点相对分散。
图4 动物图片及其在不同退化方法下的统计热图
由图4中标记All的热图可以看出,当原始图片进行退化处理后,观测者的注视区域相对标记origin的热图总体范围缩小,这表明原始图片在退化处理的过程中图像结构遭到了破坏,从而某些区域没有引起观测者的注视;由图4中标记awgn与标记jpeg的热图,可以发现,观测者在前者的注视区域总面积比后者大。这表明awgn在退化处理时没有损失原始图像的结构信息,而jpeg在退化处理时丢失了部分原始图像的结构信息,从而导致某些区域不再引起观测者的关注。
由以上分析可得,在建立主观数据库的过程中采集测试者的同步眼动数据,通过统计测试者在图像质量主观感知中对测试图片的注视点,注视时间等,可用于研究图像质量评价中HVS对图片测试不同区域质量的敏感程度[10]。
5 结 语
本文对图像质量主观评价中的眼动信号进行了可视化的分析实践工作。对主观图像质量数据库中的眼动数据进行了逐步深入的综合处理,其中包括对I?VT滤波器的设计与编程实现、注视点界面的设计和编程实现以及热图的实现及初步分析。通过完成上述各项任务,筛选得到了具有生理意义的注视点坐标数据,并集中客观地展示了单人单图眼动信号的分布,以及多人单图眼动信号的叠加,使得实验采集到的眼动数据可视化程度增强,为进一步深入分析研究打下基础。
参考文献
[1] 高新波,路文.视觉信息质量评价方法[M].西安:西安电子科技大学出版社,2010.
[2] Tobii. User manual: Tobii studio version 3.2 [EB/OL]. [2012?09?11]. http://www.tobii.com.
[3] 习佳琳.图像质量感知主观数据库的开发[D].西安:西安交通大学,2011.
[4] PONOMARENKO N, EGIAZARIAN K, ASTOLA J, et al. Color image database for evaluation of image quality metrics[J/OL]. [2011?02?27]. http://WWW. wenku.baidu.com/link?u.
[5] LOPEZ Javier San Agustin. Off?the?shelf gaze interaction [D]. [S.l.]: [s.n.], 2009.
[6] DUCHOWSKI A T. Eye tracking methodology: theory and practice [M]. German: Springer?Verlag, 2007.
[7] 陈垚光,毛涛涛,王正林,等.精通Matlab GUI设计[M].北京:电子工业出版社,2008.
[8] D.马尔.视觉计算理论[M].姚正国,译.北京:科学出版社,1988.
[9] 张敏.基于边缘点位置的图像质量视觉感知模型[D].西安:西安交通大学,2010.
[10] DUCHOWSKI A T, VERTEGAAl R. Eye based interaction in graphical systems : theory &practice [J/OL]. [2011?08?03]. wenku.baidu.com/link?u.