图像视点预测模型及设计图的注意力影响因素研究

2022-06-10 06:07:14侯士江侯英冯希等

设计 2022年14期

关键词：产品设计深度学习

侯士江　侯英　冯希等

关键词：注意力管理眼动跟踪视点预测产品设计深度学习

中图分类号：TB472 文献标识码：A

文章编号：1003-0069（2022）07-0134-03

引言

当面对复杂场景、大量信息涌入时，人的注意力会过滤掉过冗余信息，只关注图像中的部分区域，人类的视觉系统能够快速从场景中定位到具有辨识性和吸引力的目标，这种能力被称为视觉注意机制。设计的关键目标是传达不同设计元素的相对重要性，以便观者知道将注意力集中在何处，以及如何解释设计，即设计应该提供有效的注意力管理[1]。

长期以来，设计师和研究人员一直在研究眼动跟踪，以此作为理解圖像感知的线索。但是眼动测量过程比较耗时，在实际应用中存在着诸多限制，对图像眼动感知的预测研究已经成为计算机视觉中的一个经典课题。早期的自然图像显著性方法依赖于手工编码特征，最近在大数据集上训练的深度学习方法的表现有了实质性提升。然而，这些方法大多专门为分析自然图像而开发，未针对设计图像进行有效的训练。本研究关注设计领域的图像重要性预测，并基于所开发的预测模型尝试了多种设计应用，对设计中注意力的影响因素进行了分析和阐释。

一、研究现状

（一）设计中的注意力指向

注意是指主体的心理活动对一定对象存在指向和集中，具体来说，就是有机体对周围环境刺激的选择性知觉。“注意”是设计中的重要概念，能够吸引消费者的注意实现促销功能[2]。

注意指向主要包括目的指向和刺激驱动捕获。在目的指向设计中，设计师必须明确提供给用户该产品最重要的信息，包括性能、结构、材质、使用方式等，提高设计说服力。如何给予用户一定的视觉引导，使之关注到预设信息是一项重要的工作。而在刺激驱动捕获中，外界输入的信息越强、越不稳定、越难控制则越容易吸引人的注意。需要注意的是，长时间的注意之后会引起信息超载现象，因此，在具体设计中要遵循适度原则。

（二）基于视觉焦点的设计研究

当前在设计领域单纯聚焦于用户视觉注意力机制的研究相对较少，更多是以捕捉用户眼动的形式来呈现，关注眼动跟踪在视觉传达、仿生设计、意象设计及设计评价领域的应用。

吴丹等人[3]指出用户视觉注意力与图像情感相结合是当前图像情感研究发展的重要趋势，构建了基于视觉注意力的图像情感研究框架;许永生等[4]通过模拟驾驶实验的形式，从视觉层、行为层、心理层三个维度分析驾驶员的注意力分配情况，总结界面布局设计原则，得到优化设计方案;吕健等[5]在眼动跟踪实验的基础上提出一种面向产品造型风格的用户认知模式及量化模型;孙元等[6]研究了眼动数据与FAHP相结合的产品感性认知测量方法。

设计师和相关研究人员一直在借助设备（如眼动仪）进行眼动和设计感知的研究，然而眼动设备价格昂贵，需要苛刻的实验室环境，并且会耗费大量的人力物力，所以在实际应用中受到了限制。而人工智能为设计感知提供了新的方向。

（三）显著性检测

显著图（Saliency Map）由Koch & Ullman提出，用一个概率分数来衡量每个像素点的显著程度，通过算法模仿人类的视觉注意来查找图像或视频中令人最感兴趣的部分。

显著性目标检测就是使用计算机去模拟视觉注意力分配机制，将注意力资源尽可能地分配到最重要的区域，从而实现对资源有效利用。其发展主要经历了三个阶段：① Itti & Koch等首次提出显著性计算方法开始，以Koch & Ullman算法为基础，基于图像的颜色、纹理、方向特征的对比差异计算中心环绕差，然后通过融合多显著性图得到最终的预测图;② Achanta、Cheng等认为此类任务可以转化为对图像求二进制分割的显著性图问题;③ 基于神经网络的显著性检测算法。这类算法减少了对先验知识的依赖，不需要复杂的人工特征标记，因此得到广泛使用。基于神经网络的图像显著性目标检测的相关研究很多，其模型大多基于完全卷积神经网络（FullyConvolutional Networks，FCN）[7]或其变形体，并逐渐关注网络浅层特征和高层特征之间的差异性。

二、图像视点预测模型（IVPM）

对自然图像的显著性预测已变得相当有效，而对设计元素的重要性预测却鲜见研究。本文提出一种图像视点预测模型（ImageViewpoint Prediction Model，IVPM），IVPM使用深度学习架构，并在通用的、反映人真实视觉认知规律的图形设计重要性（GraphicDesign Importance，GDI）标记数据集[8]上进行训练。该众包数据集使用“重要性”一词来描述设计元素的相对感知权重，图像显著性可看作是“重要性”的一种描述形式。IVPM模型吸纳了真实人工标记数据中的一些高级趋向，能正确加权不同设计元素的相对重要性（见图1）。热点图中暖色表示更高的重要性，关注程度更高。

（一）数据收集

IVPM使用GDI数据集[8]进行训练，该数据集包含Flickr的1 078个平面设计的真值（Ground Truth，GT）重要性标记图，并80%-20%分割将1 078张GDI图像分为训练集（862张图像）和测试集（216张图像）。

（二）IVPM的损失函数及模型架构

IVPM预测位图图像中每个像素位置上内容的重要性。每个像素i输出重要性预测Pi∈[0，1]，其值越大表示重要性越高。

与在自然图像上表现良好的显著性模型类似，IVPM基于FCN架构。给定每个像素i上的真值重要性Qi∈[0，1]，在所有像素i=1，2，…，N上，优化FCN模型参数Θ的sigmoid交叉熵损失：

式中，P_i=σ（f_i（Θ））是FCN输出f_i（Θ）传入sigmoid激活函数σ（x）=（1+exp（-x））^-1所得出的重要性预测值。需要注意的是，该损失函数常用于二元分类，即Qi∈{0，1}。这里将其扩展到实值Qi∈[0，1]。

在Caffe环境下，经过连续池化，模型预测变为输入图像分辨率的1/32。为了提高预测的分辨率并捕获更精细的细节，按照Long等人[7]中的步骤添加来自较前层的跳跃连接以形成FCN-16s模型，实验发现FCN-16s（具有来自pool4的跳跃连接）相较FCN-32s模型捕捉到了更多细节，改善了预测效果（由于样本数有限，实验采用了经过预训练的FCN-32s模型[9]初始化网络参数，并对其进行微调）。模型架构如图2所示。

（三）预测模型的评估

使用显著性评估指标Kullback-Leibler 散度（KL）和互相关（Cross Correlation，CC）来评估预测图与GT重要性标记图之间的相似性。KL对错误预测进行高度惩罚，因此未能预测到GT重要位置的稀疏图将获得较高的KL值（低分）。给定GT重要性图Q和所预测的重要性图P，KL值计算如下：

高CC得分、低KL得分说明预测效果良好。在测试图像数据集上的实验中，CC平均得分为0.69，KL平均得分为0.33，显示了不错的性能。

（四）IVPM的时间性能分析

模型训练完成后，在Intel Core i7-10510U CPU、16G RAM配置笔记本电脑上的测试显示，针对800×640像素的图像仅需≈12s就能够完成显著图和热点图的生成。神经网络的时间性能优势使得将IVPM集成到其他设计工具中成为可能，设计的每次更改迭代都能够得到即时反馈。

三、基于IVPM的设计应用

近年来的研究表明大脑利用眼球以1/10秒的速度获取重要信息，而这些信息将服务于正在进行的核心任务。如何让用户更容易发现我们的产品？如何让商家更有效的广告？如何让我们的网页和软件更容易触动用户？这些都需要我们关注注意力的设计管理。

如表1所示，实验结果表明IVPM在自然图像、海报设计、产品设计以及包装设计等多种应用中均有上佳预测表现，显示了出色的扩展性能。在一些特定的设计研究如意象仿生设计中，明显可以实现特征要素的辨识和交互式设计反馈。

四、设计图的注意力影响因素

注意力的影响因素较多，可将其分为低层级属性、高層级兴趣和学习关联。其中，低层级属性主要关注图像中特征的差异性，这也是本文的主要研究内容之一;而高层级兴趣和学习关联显然会影响注意力，并在IVPM智能预测中发挥作用，但其影响程度难以量化测量，故不做过多讨论。

（一）低层级属性

显著性主要基于区域中特征密度的差异，较大的差异会产生更高的显著性。因此，可以通过使用特征线索来引导注意：如果一个区域中存在独特的特征，显著性将很高，即使与其周围的特征差异不大，仍然会被较快关注。通常，此类属性包括：亮度（对比度）、颜色（色调）、长度、宽度、方向（2D）、曲率（二维）、凹凸（3D）、运动、闪烁等。

有趣的是，测试“小米”新旧LOGO发现，如图3所示，旧LOGO的视觉焦点更集中于中心的“mi”字样，“mi”与外围的方框呈分离状态，而在新LOGO中“mi”与周围圆润的框线更趋向为视同一个整体。

在产品设计中，造型设计拓展了现代设计形态，又相对符合当代社会人们的审美需求，同时为材料选择、结构造型提供了无限可能，材质、纹理和质感、尺度、功能特征、工程特征等通常是注意力影响因素。如表2所示，标识、按钮、形态转折、强对比区域（亮度、色彩、材质）、栅格/开孔、界面等经常是引起注意力集中的重点部位，IVPM模型均能实现准确预测，这为在设计过程中可实现交互式的视觉反馈提供了可行性。

（二）高层级兴趣

注意力受被试兴趣爱好的约束。如果被试对特定项的兴趣足够高，则这种高层级就会覆盖低层级考虑。兴趣必然涉及高级意识，尽管“兴趣”具有相当明确的主观含义，但很难对其进行客观表述，有时会被场景中出乎意料的特征所捕获。

（三）学习关联

学习关联可以被视为低层级和高层级机制的混合体，关联形成依赖于学习，也可能取决于观者的文化背景。

结论

本文提出了用于预测视觉焦点的IVPM模型，能够推广到各种设计应用，其快速时间性能使得用于交互式设计工具成为可能。该模型为设计师和观者了解需要将注意力集中在何处，以及如何解释设计提供了高效的解决方案。关于注意力影响因素的讨论对相关领域的研究者和设计人员有一定的参考价值，希望能带来更多的思考。

基于网络摄像头的眼动跟踪方法的出现，使得直接使用眼动数据训练模型变得可行。本文对注意力相关问题的讨论还不全面，未来有可能会进行更加深入的研究。