基于眼动的语义和视觉图像关系研究

2021-08-06 02:22:06李普红王兴博

家具与室内装饰 2021年6期

■李普红，王兴博，丛璐，王畅

(齐鲁工业大学艺术设计学院，山东济南 250301）

Brian J.Zikmund-Fisher和Angea Fagerlin对用户信息获取格式研究发现图像的显著表达性更高[1]。对视觉图像在用户感知效率 (James T. Enns)和文字、图像信息传达效率的对比研究中（Jana Hosanov A、Nils Holmberg、Kenneth Holmqvist）同样认为图像是一种快捷高效的传输方式[2-3]。像作为日常基础语言表达形式的一种，表现在人机交互中图像语义的表达过程就是：设计师—图像—用户，在这个过程中设计师把颜色、纹理、形状等要素通过一定的组织方式进行物化，来传达特定的信息，以此可知视觉图像的重要地位。这些按照一定组织方式形成的图像就是设计师语义的形，作用于用户的视觉，经过用户心理、认知等多方面处理加工形成自身对图像的理解。

1 图像与语义关系研究现状

谷会敏和徐健对语义在图像设计中的构建方式用视觉隐喻论进行了解释[4]。在信息技术飞速发展的今天，面对大量图像[5]，如何做到对图像的准确表达，快速建立用户和图像之间的联系是设计师在设计应用中经常遇见的问题。Dengkai Chen等人根据图像色彩和消费者形象词的映射关系，构建色彩匹配模型来提高设计效率[6]。Maansi Bansal-Travers等人对香烟包装的图像信息导向进行分析，证明图像信息的构成对用户具有引导性[7]。朱蓉利用对不同图像基于全局、面向对象等方面进行分类，提出了三层图像语义模型的方式来表现图像的理解过程[8]。用户对图像语义的认知不仅仅停留在外部表现上，还有情绪或者思维层次[9]。Gerald Fritz and Lucas Paletta提出利用对多媒体屏幕中进行语义的方法，证明了眼动追踪技术可用于对视觉图像在认知上的验证[10]。王秋惠和杜锦波根据15位被试对产品进行图像化展示的眼动实验，为产品语义的情感偏好提供了依据[11]。抛去产品，仅在视觉图像和语义的科学认知上，Betina Piqueras-Fiszman等利用主观词汇现象和眼动追踪的方式对产品包装进行信息提取实验，证明包装属性会影响用户的尝试意愿[12]。Kazutaka Ueda、Tomohiro Takahashi等通过主观美学评论术语和客观脑电监测方式结合，提供了一种可用于审美评价的结构[13]。

综上所述，在现代图像设计讲究丰富内涵和情感共鸣的大背景之下[5],美学评价方式以及提高图像与设计语义的准确匹配性成为一个值得探讨的问题。

因此，本文以视觉图像为例，选用某款未量化产品的平面图像为实验材料，通过眼动追踪实验，分析眼动追踪实验有效数据和用户主观问卷，得到视觉图像和语义的关系，为设计师使用视觉图像进行更准确的语义传达提供参考。

2 实验设计

本次实验主要运用眼动追踪技术针对视觉图像和语义关系的实验，为确保数据统一，采用便于携带的Tobii glasses 2 眼镜式眼动仪，该产品适用于现实和屏幕的测试场景，且实验采用组内对比实验，通过提取相关眼动数据进行分析。

2.1 被试

经过随机抽样，我们在大学选择20名在校生（男生50%、女生50%），被试者年龄均在18-25之间，男性平均年龄为20.1岁，女性平均年龄20.8岁，受教育程度均为本科及以上水平，无色盲、色弱或其他眼部疾病，且事先对此类实验毫无了解。

2.2 实验资料

本研究以某款未量化的4款视觉图像为样本，组织形式包括不同形状、纹理、颜色元素之间的相似搭配和差异化搭配，无其余设计元素干扰，8张为一组（图1），呈现方式为A4纸。并提供一组意向词作为语义目标。意向词为设计师进行视觉图像设计之初的语义词汇原型，目的是探究在图像设计基础上是否引起用户同样思考[14]，分别为热情、活跃、激情，呈现方式同样为A4纸（图2）。

图1 8款视觉图像设计

图2 语义关键词

2.3 实验设备

Tobii公司生产的Tobii glasses 2 眼镜式眼动仪（图3），可在现实场景中高效采集眼动数据，与台式眼动仪不同的是：眼镜式眼动仪可使被试者处于完全自然状态的前提下，可随头部和视角的变化而变化，确保眼动数据的精确性。可采集被试者的眼动数据、声音、视频、AOA快照和IR Marker位置数据等，并保存到SD卡中。实验在眼动实验室进行，房间面积约10m2，温度20℃左右，光照稳定，环境噪音低于40分贝。实验过程实时显示分辨率为2560×1440的显示器上。

图3 Tobii glasses 2 眼镜式眼动仪

2.4 实验过程

此实验共分为三组，分别以“活跃”“热情”“激情”为语义关键词与三组不同排列顺序的视觉图像进行组合实验，被试者的任务是：根据所提供的语义关键词，找出与之契合度最高的视觉图像。实验过程中的组合形式保持不变，过程如下。

（1）正式试验开始之前，实验人员向被试者说明实验内容和注意事项，其次引导被试者完成校正。实验过程如图4所示。

图4 实验校正

（2）实验开始，向被试者进行词汇展示和视觉图像展示，分别计时为3秒和10秒，总共13秒。为确保实验效果的准确性，语义关键词和视觉图像展示时间结束时，由实验人员参与停止并进行下一步操作。

（3）进入第二组实验内容和第三组实验内容。

（4）被试者填写关于视觉图像和语义关系的主观问卷。

（5)为保证实验效果的准确性，每位被试人员都进行隔离式实验，确保实验内容被试者在正式实验之前未接触。

2.5 调查问卷

被试者在完成眼动仪实验部分之后，填写对3组视觉图像和语义关系的主观调查问卷。调查问卷共10题，按照不感兴趣、一般、感兴趣对本次实验的10个问题进行最佳量表反映项目数为5的量表（1～5）评分[15]，最后根据AOI区域划分提取眼动数据。

3 实验结果及讨论分析

实验眼动数据均来自Tobii Pro Lab系统分析和SPSS统计分析软件进行整理分析。分析前，为确保实验数据的准确性，剔除采样率低于85%的数据，最后人数为15人（男生7名、女生8名）。为便于分析，对每个视觉图像进行按照字母A-H的顺序进行编码。

3.1 测量指标分析

3.1.1 眼动热点图分析

热点图能用来表示注视的次数和注视持续时间，在实际实验过程中，两项指标的区别不大，本实验选用注视持续时间作为分析指标[16]。如图5所示，本次实验的热点图采用绿、黄、红，三种颜色来表示被试者在某个图像的视觉持续时长，其中红色代表注视时间最长，次数最多、黄色其次、绿色最短，次数最少。红色区域面积越大，说明被试者认为区域与语义关键词的匹配程度最高，视觉图像的热点图整体面积越大，则说明该图像与语义关键词相匹配地方越多。

图5 热点图

通过视觉图像的热点进行分析，可以看出被试者对“活跃”进行视觉图像的语义匹配时图像A、B的热点图面积整体最大，图像E、H的红色区域最明显。在“热情”和“激情”的热点表现上分别为图像A、B、D和图像B、C的热点图面积最大。

3.1.2 眼动轨迹图分析

眼睛的观察频率和运动轨迹可以推断被试者的偏好[17]。捕捉注视轨迹，对图像进行区域分析，更有效的满足用户对信息的获取[18]（图6）。通过词汇表达为“活跃”的组别样本分析，视觉注视点在图像A、F、B跳跃次数最多，停留时间最长。语义关键词为“热情”和“激情”的样本表现为图像A、D、B和图像B的注视停留次数最多。综合以上结果，图像A和图像B的注视停留次数最多，但注视跳跃点分布较散。

图6 轨迹图

仅通过热点图和轨迹图相比较，尚不能对视觉图像与语义的关系进行直接判断，因此需要结合多个眼动指标数据进行分析。

3.2 注视次数分析

注视点访问次数（gaze visits）：该值越高, 说明试验者需要花更多的努力去识别目标的功能[19]。本实验的目的是通过验证视觉图像与语义关键词之间的匹配程度，对语义和视觉图像的关系进行研究，所以对每一组图片的每个表现方式作为独立AOI（图7），并提取目标注视次数和目标注视率进行数据对比。

图7 AOI信息图

方差分析结果表明活跃、热情、激情三组样本在语义和视觉图像关系的研究中对注视次数影响显著，P<0.05，贯之，可通过“活跃”“热情”“激情”三组语义关键词与视觉图像匹配实验中的注视次数验证语义和图像的关系。数据显示（表1），在目标注视次数中，语义关键词为“活跃”组的图像A、B的注视次数最多，目标注视率最高，图像D的注视次数最少，注视率最低；“热情”组图像B的注视次数和注视率为最高，图像A、D的数据表现一致，比图像B略低；“激情”组图像B的注视次数和注视率为最大，图像A、C、J、的注视次数和注视率差距不大。

表1 AOI关注次数信息

3.3 注视时间分析

3.3.1 首次注视时间分析

首次注视时间可用于判定视觉图像中的信息提取优先级[20]。根据方差分析结果显示(表2) ，“活跃”组的图像J、“热情”组的图像E、H和“激情”组的图像A、E对本次实验中的首次注视时间不存在显著影响，P>0.05。语义关键词为“活跃”一组中图像D、F、H的首次注视时间表现为最小，语义关键词为“热情”一组中的图像A、D、F的，语义关键词为“激情”一组中D、J、H的首次注视时间最小。综上，图像D是被试者在本次实验中最先进行语义和视觉图像匹配的样本。

表2 AOI首次注视时间信息

3.3.2 平均注视时间分析

建议可区分ABC类设施，确定建设方向和投资比例。A类为重点投资设施（例如：机房、值班室、办公室、门厅配套及装饰），B类为必须投资设施（例如：基础、结构、综合管线，消防，防水，隔热），C类为可节省投资设施（例如：楼梯间、休息室、食堂、地下室装潢修缮）。

注视时间的长短可以判定：①提取信息困难度增加；②目标吸引被试者的关注程度[21]。如表2所示为15名被试的眼动时间数据，主要包括平均注视时间和总注视时间，由于本数据存在15位被试者的平均注视时间，样本量较大，为提高数据分析的便捷性，此处采用每个样本代码字母组内的平均值。

本次实验对3组样本，8个AOI平均注视时间的统计分析（表3），结果显示：各样本图像中B的平均注视时间明显高于B以外的其他样本，视觉图像A的平均注视时间为第二，视觉图像C、E、J、H的平均注视时间基本一致，图像D的平均注视时间是最短的，由此推断被试者在将指派语义进行视觉图像的判定中，图像B同时符合三个语义关键词的组织形式。

表3 AOI关注次数信息

本次实验使用的3组样本，8个AOI总注视时间的统计分析（表4），结果显示，15名被试者的总注视时间在图像B中表现为最长，图像A中其次，图像C、J、H差异不明显，图像D、E的最容易被忽视。

表4 AOI总注视时间信息

3.4 实验讨论

本次研究的主要目的是对被试者出现的认知反馈进行测量，从而获得非目标导向任务中的数据关系。

“活跃”，在热点图和轨迹图指标内，与图像A、B关联程度大；在注视次数指标中，与图像A、B明显相关；在首次注视时间指标下，与图像D、F、H的相关度更高。

“热情”，在热点图和轨迹图指标内，与图像A、B、D关联程度大；在注视次数指标中，与图像B明显相关；在首次注视时间指标下，与图像A、D、F的相关度更高。

“激情”，在热点图和轨迹图指标内，与图像B、C关联度大；在注视次数指标中，与图像B明显相关；在首次注视时间指标下，与图像D、J、H的相关度更高。

不同颜色传达给用户的心理感知是有区别的[24]，在热点图和轨迹图的数据角度分析，当实验开始，被试者看到第一个语义词为“活跃”的时候，视觉中心停留时间最长和视点跳跃次数最多的均为图像A-H中组织形式为暖的区域。在注视次数的数据中，同样图像B的注视绩效优于其它图像，图像B的组织形式多为暖色。得出结论，视觉图像的颜色表现直接影响语义的传达效果，设计者在对图像的赋色过程中可通过恰当的颜色进行语义的表达。

将以上两点的讨论结合，从注视热点图和轨迹图来看，文字信息的表达方式比图像更难引起被试的注视兴趣。因此，设计师在进行此类设计之时学会利用合理的图像构成方式进行语义的输出。

韦特墨在《格式塔心理学》中提到的，人的注视模式在特定的视线范围内是很容易受到某些图像诱导的[25]。在视觉图像的设计过程中采用什么样的传达方式能快速实现与用户的语义沟通？本研究提出上述观点。

作为一次视觉图像语义传播效果的实验，本次实验存在不够完善的地方。

（1）本次实验的被试者均为高校学生，与视觉图像实际受众的年龄、职业等存在差异。

（2）本次实验在视觉图像的具体构成方式上没能进行合理的分析，不能准确的对图像设计中的语义传达元素进行指向性定位分析。

（3）被试者受图像中字体信息理解过程的影响而对实验数据存在干扰，即对注视时间的指标数据存在一定干扰。

（4）本次实验样本数量偏少，对调查问卷的利用率不足。

（5）仅在实验状态下，增加了用户的注视时长，考虑实际购物情况下会受其他因素影响，在包装设计时还应考虑其他设计因素[26]。

4 结语

本文借助眼动追踪技术，针对语义和视觉图像的关系问题，对15名被试者的眼动数据进行分析。研究表明：（1）视觉图像的颜色基调可以直接影响用户对其所表语义的接收效率；（2）视觉图像的构成方式影响用户模型对设计模型的语义理解效率；（3）实验方式可用于研究与此类似的评估任务。

根据研究结果对视觉图像的设计方法提供建议：（1）合理通过人脑的启发性机制调动用户对图像的兴趣度；（2）借助不同的艺术表现方式对用户进行图像语义的引导。本文的研究结果有助于文化内涵语义在文创产品设计中的正确表达与传播。