赵 恬 丁 妮
北京师范大学艺术与传媒学院,北京100875
眼动追踪的概念最早提出于20 世纪30 年代,视觉作为人类收集信息的第一渠道,眼动追踪(Eye Tracking)是测量人类处理视觉信息以及注意力、兴趣和兴奋区域的关键[1]。基于眼睛视频分析原理(Video Oculographic, VOG)开发的眼动追踪技术目前应用较为广泛,如该领域知名公司Tobii、Magic Leap、Varjo、SMI、FOVE 等都采用基于VOG 的眼动追踪技术[2]。VOG 的分析识别方法依赖于瞳孔或其他眼睛标识,并由安装在头戴式显示器上的摄像头对眼睛图像进行捕捉,通过对视频帧的分析得出眼睛方向等信息。
“VR+眼动”已逐渐成为新一代VR 系统,自2014年至今,三星、Meta、苹果、微软、索尼、Pico 等众多企业都已布局眼动追踪技术,收购或与专业眼动公司合作,致力于开发基于眼动追踪技术的VR 硬件设备或VR 应用。VR 眼动追踪技术不仅能大幅节省计算机运算资源,优化设备性能,而且在VR 社交、眼控交互设计等方面都有着独特的应用前景。尤其在VR影像艺术创作领域,艺术家可以利用VR 眼动追踪技术让用户与作品进行更加自然的交互,从而以一种独特的交互语言进行叙事。这一技术使用户在自由活动的情况下能同时获取客观数据,并基于眼动数据的实时反馈达到更自然的交互,进而提升用户体验。
用户体验是由用户内部状态(动机、情绪、期望等)、系统特征(可用性、功能等)和交互环境(组织或社会环境、使用自愿性等)共同作用的结果[3],衡量用户体验要从多角度展开。VR 为用户提供了身临其境的体验效果,现有研究表明,用户在VR 体验过程中产生的传感器数据与用户的行为状态密切相关,这意味着VR 中的用户体验可以被定量地分析与评估。为了更加客观准确地分析用户在VR 环境中的潜在想法和行为方式,利用各种传感器,基于数据驱动的客观分析方法在VR 用户体验的评估中发挥着越来越重要的作用。眼动追踪技术能够捕获不受意识影响的自然反应,为这一需求提供了良好的技术支持。例如,注视时长和注视顺序往往会反映出主体的兴趣程度,眨眼频次的变化可以反映出主体的注意力是否集中等。已有研究通过眼动追踪数据结合深度学习模型(Deep Learning Model)来评估并预测晕动症水平,进而根据预测结果进行调整适应以缓解用户晕动,突出了眼动追踪数据作为提高模型性能的潜在补充的重要相关性[4]。
本文将针对VR 用户体验中存在的核心问题,从优化VR 硬件设备、优化内容显示与渲染、提升VR 社交体验、VR 眼控交互等四个角度深入分析眼动追踪技术在VR 体验研究中的应用及特性,同时重点分析VR 眼动追踪技术在影像艺术创作领域的应用现状和前景。
VR 用户体验旨在反馈涉及诸多方面的综合感受,目前在VR 用户体验中存在的主要问题包括舒适度上的眩晕感、疲劳,交互过程中的体验感不佳以及临场感不足等。
首先,眩晕感是最常见并显著影响VR 用户体验的一个问题。晕动症通常由虚拟环境中的视觉刺激引起,目前对虚拟现实体验产生晕动症的原因尚不明确,其中最为突出的理论解释有感官冲突(Sensory Conflict)和姿势控制也叫“姿态不稳定”(Postural Instability)两种[5]。感官冲突理论认为虚拟现实晕动症是前庭神经和体感的冲突所导致,例如在船上,晕船是由于眼睛看到稳定的场景,但前庭系统检测到运动;反之,在VR 中,眼睛检测到虚拟场景中的运动,而现实世界中的人在大多数情况下是坐在椅子上的。由于在现实世界中实现虚拟世界的客观运动的可行性较低,因此,目前在VR 游戏中最常见的移动方式是瞬移(Teleportation),以尽量减少在VR 环境中的运动过程。然而,这并不是一种非常自然的移动方式,改善晕动症的同时也会在一定程度上削弱用户的临场感。另一种改善措施是通过用户坐在转椅上旋转来减少冲突,但行动依然会受到限制。除此之外,导致晕动症的因素还包括显示技术、闪烁、延迟和个体差异等[6]。与传统显示器相比,用户对仿真环境有更高的期望,因此在VR 环境中用户会对微小干扰更加敏感。除了延迟之外,不同的帧率也会导致生理不适,对于这些微小干扰的问题,需要不断调整3D 环境和实验设置的细节,这对硬件条件又提出了更苛刻的要求。目前,改善用户VR 体验眩晕感的研究探索还在持续进行。
其次,疲劳也是影响VR 用户体验的一个重要因素。长时间佩戴厚重的头戴式显示器和耳机容易让用户感到疲劳,不仅是眼疲劳、听觉疲劳,还有由于设备重量带来的颈部疼痛、鼻子压力等,在夏天使用厚重的设备也会令用户更加炎热,这些都会导致舒适度下降从而影响用户体验。
最后,沉浸式的VR 交互是一种以体验为目标的交互,与以任务为目标的传统交互不同,VR 环境中的交互体验本身即是其最大的特点和趣味所在。通过语音、身体动作、手势、文字、符号等共同作用,形成多层次、多感官交互体验,多模态交互(Multimodal Interactive)对于增强VR 临场感起着重要作用[7][8]。现有VR 交互体验设计在自然交互方面仍存在诸多不足,如众多交互界面仍为二维,容易在三维虚拟情境中带来割裂感,需要更符合用户认知特性、更具趣味性的VR 交互体验设计。
在VR 环境中,头戴显示器中的显示屏始终与人眼保持固定距离,因此用户眼睛与图像内容之间的距离是固定的,虽然3D 图像显示在不同的深度,但是眼睛总是集中在一个单一的深度,导致眼睛无法正确聚焦或适应,无法实现人眼动态聚焦的功能,进而丧失另一个关键的深度线索。这种不匹配被称为辐辏调节冲突(Vergence-Accommodation Conflict,VAC)(图1),是视觉不适的来源[9]。
图1 辐辏调节冲突原理
通过眼动追踪技术对显示器等硬件设备进行优化可以改善这种冲突。目前有多种可调节焦深的显示器被提出可用于解决VAC 问题,例如变焦显示器(Varifocal Lens)、单视显示器(Monovision Display)、多焦点显示器(Multifocal Display)、基于激光束扫描(Laser Beam Scanning, LBS)的视网膜投影注视点显示器、光场显示器(Light Field Display)和全息显示器(Holoscope)等。其中变焦显示器可通过获取用户在VR 环境中的眼动路径后,确定路径相交的点,再建立起适当的焦平面,通过不断更新焦平面,显示器以进行相应的调整,不断将焦点深度设置为匹配眼睛到对象的虚拟距离。新加坡VR 变焦头显技术开发商Lemnis Technologies 开发的Verifocal 原型正是这一技术应用的体现,它结合了两个可根据眼睛注视移动的可调节镜头,以提供广泛的焦平面[10]。
除了硬件设备的优化,眼动追踪技术还能优化VR 内容的呈现,通过优化画面渲染质量、调节显示亮度、调节界面透明度等方式对用户视觉体验做进一步改善。
3.2.1 注视点渲染(Eye Tracked Foveated Rendering)
由于人眼的生理限制,人类视觉系统(HVS)只会对全部所见范围中的一小部分进行精加工,其在视网膜的中央凹有很高的敏锐度,但由中央凹向外围的敏锐度会逐渐下降。在消费级VR 系统中,众多头戴式显示器(HMD)在中央凹区域其实只覆盖了大约4%的像素点,其余大约96%的显示渲染像素都落在了视觉敏锐度较低的区域[11]。注视点渲染技术通过高精度眼动追踪获取人眼的注视中心,只对每只眼睛的中央凹区域进行高分辨率渲染,之后大幅降低外围视觉的渲染复杂度。从而使计算机可以通过模拟人眼在现实场景所见的效果进行图像渲染,让用户在使用近眼显示设备时能体验到高清、逼真且有景深的虚拟画面,改善用户体验。
开发者使用注视点渲染来优化渲染性能,以期在同样的硬件配置下达到更加优秀的VR 画面渲染效果。在满足VR 对帧率和分辨率高要求的同时也可以大幅减少渲染每帧所需的时间、功率,减轻设备负担,如今已被证明可以节省高达50%~70% 的性能[12]。
3.2.2 注视点景深模糊(Foveated Depth of Field Blurred)
注视点渲染压缩场景的外围部分可能会导致各种可感知的伪影,如隧道视觉、混频和闪烁,这些伪影可能会分散用户的注意力,降低沉浸感,加重疲劳感和晕动症状。为了解决这些伪影,一项研究开发了一种基于眼动追踪的VR 空间模糊技术。该技术利用了注视点成像和景深的概念,将空间模糊结合到立体3D 刺激中,使用较小的平滑滤波器,使得高锐度和模糊区域之间的过渡更平滑,改善了先前注视点渲染的伪影问题,实证研究表明此种注视点景深效果在虚拟环境中可减少66%左右的眩晕感[13]。
3.2.3 动态视野限制(Dynamic Field of View Limitations)
视野限制是一种减少视觉引起的晕动症的解决方案。该技术通过阻挡用户的外围视野,以最大限度地减少对视网膜敏感外围部分的光流[14]。目前,大多数的光流限制可能会降低沉浸感和存在感,然而,基于注视点的限制则可以实现随用户眼睛注视移动的限制器,这将允许用户看到视觉场景的更大部分,同时仍然阻挡他们的周边视觉。与固定视角的限制器相比,这将给用户提供更大的视野范围,同时缓解晕动[15]。
借助眼动追踪技术还能对晕动症状进行预测并及时做出调整,研究利用从HMD、跟踪器和生理设备,例如头部、眼睛和脚踝运动,皮肤电活动(Electrodermal Activity)生成的各种传感器信号开发了两个深度学习模型,分别对晕动症水平和运动类型进行分类,利用这些生理数据确定不同生理反应和晕动症之间的相关性,进而预测和应对晕动症[4]。此外,瞳孔大小也是一个有效的预测指标,人的瞳孔大小会随着亮度变化而变化,因此可以通过眼动仪检测人的瞳孔大小,并调整内容显示的亮度以确保其始终维持在人眼舒适的亮度范围,尽量减少夜间对视网膜的刺激,有助于缓解眼疲劳。
眼动已拓展为一种计算机信号输入方式,在多通道交互成为趋势的背景下,越来越多的研究者也在探索将眼动控制作为交互手段[16]。将眼动追踪技术用于监测用户的眼球运动,可以更好地重建虚拟角色的眼睛和面部,如苹果公司与德国眼动公司SMI联合开发的SMI 眼控社交(Social Eye)技术,可精确追踪VR 头显用户的眼动注视方向,并实时映射至虚拟化身的眼睛。虚拟化身可以凝视、眨眼、使眼色以及通过瞳孔反应来认同他人,表达自己的感受或简单地表达自己的观点,通过富有表现力和精准的眼神接触让虚拟角色的交互更加可信(图2)[17]。
图2 数据投射到虚拟形象示意图[17]
同时,眼控交互技术可分为视线反馈技术和视线输入技术[18]。有实证研究表明,在任务执行时间和头部运动方面,眼睛注视的瞄准效果明显优于头部运动瞄准。在使用键盘的情况下,使用眼控可以将瞄准所需的时间平均减少31.8%。在菜单场景中,眼控具有11.7%的瞄准时间优势[18]。其中,视线反馈技术主要有附加信息反馈技术;视线输入技术主要有单一视线输入方式、多方式交互输入技术[19]。
目前较为常见的眼控选择操控方式主要有四种,包括凝视触发、眼势触发、平滑跟踪操控和眨眼触发。凝视触发有比较严重的误判问题,眼势触发则在凝视的基础上,用户需要在不同的凝视控件中有顺序地通过两次或三次凝视动作进行触发,但眼部动作本身存在较多方向不确定性,对用户的操作熟练度和注意力、耐心都有较大考验,违背自然交互原则。然而眨眼频率会随不同场景的任务负荷而发生改变,频繁眨眼也容易使用户产生眼疲劳,同时还需区分故意眨眼和自然眨眼,因此解决误触问题依然关键。VR 中基于凝视的文本输入也可看作是一种特殊形式的目标选择,用户通过凝视来选择虚拟环境中显示的虚拟键盘按键。研究者通过结合眼动追踪和基于稳态视觉诱发电位(SSVEP)的脑机接口(BCI),开发了一种基于注视的VR 混合文本输入系统[20]。该研究结果表明,眼脑混合方法的打字速度可达10WPM 左右,优于单纯的凝视输入系统。但与传统的输入界面(如传统键盘)相比,凝视文本输入依然非常慢。
虚拟环境中的运动导航操控也可以借助眼动追踪技术得到较好的效果。通过捕捉眼睛注视的方向作为转向方向,实现基于眼动的虚拟导航。在VR 影像中,有助于观众摆脱对手柄操作的依赖,在不脱离剧情的沉浸状态下实现移动,在第一人称视角的VR影像、游戏作品中,跟随视线的移动也有助于观众或玩家对剧情和细节的理解。有研究提出一种VR 中半自主式的定点导航,用户通过凝视选定目标,然后应用程序将引导用户通过最快路线到达选定的目标[21],VR 影像创作者可将这一技术应用于探索类交互影像或游戏中,例如作为提示提升玩家效率,提升用户体验。在其他应用领域,基于眼动的虚拟导航能够用于训练残疾人用户如何用眼睛注视控制远程机器人,这将对残疾人用户的VR 操作带来极大帮助。眼动追踪技术也被用于实现轨道导航技术,效果类似于电影和体育报道中的飞行镜头,即系统将根据用户眼动数据所反映出的兴趣点,使用户在感兴趣点周围的轨道路径上移动,使用户可以始终保持在兴趣点周围,特别适合于观测任务[22]。
在沉浸感和交互性较强的VR 艺术创作领域,眼动追踪技术也有着广泛的应用空间,如在VR 影像、VR 游戏和交互设计领域的应用。
在VR 影像创作领域应用的代表性作品如《历历在目》(Before Your Eyes),作为一部第一人称视角的叙事游戏,游戏作品中将眼控交互与叙事内容设计相结合,给用户带来了全新的情感体验和交互体验。该作品的独特之处在于基于眼动追踪技术的眨眼是切换场景和控制故事走向的方法,在眨眼交互内容的设计上也充分考虑了自然交互原则,例如取景框拍摄、信件内容显示、场景范围拓展等,本身与“看”和眼部动势相关的内容有利于使观众产生更强的沉浸感和具身感。由于眨眼的时机由用户自主选择,因此不同的玩家或同一个玩家的多次游戏过程都会体验到不尽相同的人生轨迹,通过眼控交互技术的应用实现了VR 体验个性化。眼动追踪技术的结合使玩家可以通过眨眼、注视等眼部行为完成主动输入操作,控制 VR 视角,使视觉效果、沉浸感与舒适度达到最好[23]。VR 游戏《防火墙Ultra》(Firewall Ultra)利用眼动追踪,使玩家能够通过注视和眨眼更直观快速地切换武器、调出抬头显示器(Head-up Display, HUD)等。Firepunchd Games UG 公司也在2023年推出的最新版本《触手巧匠》(Tentacular)VR 游戏中加入了眼动交互方式,在过往的版本中,玩家需要通过触手敲击村民头部来进行交互,巨大的触手会在一定程度上分散人们的注意力,但如今只需要看着一个村民,并点击一个按钮来避免误操作,选择是否接受镇上居民的任务就像查看“是”或“否”选项一样简单。最新版的《Moss: Book II》在物体选择上结合了眼动追踪技术,交互式对象在玩家看向它时会发出微弱的光芒,这使玩家能够在游戏过程中快速知道哪些物体可以与之交互,系统也可以根据玩家的注视方向来判断是否给出提示。在VR 游戏《地平线:山之呼唤》(Horizon: Call of the Mountain)中,玩家的目光被用作一种“自动瞄准”,帮助玩家在虚拟环境中获得更高的精确度。
为尽量提高准确性并丰富交互形式,VR 眼动交互也常常会和头显中的陀螺仪进行配合共同确定用户的具体头部方向和注视位置来实现交互。《历历在目》有众多交互操作依托于“转头+眨眼”的动作实现,例如“翻书”“拍照”“画画”动作等。VR 交互作品《小矮人与小精灵》(Gnomes & Goblins)将眼动追踪融入观众与场景中非玩家角色(NPC)小精灵的互动中,借助眼动追踪和头部定位,使小精灵始终处于观众的注视位置范围内,实现更好的交流。但遗憾的是,该作品的眼动交互并未应用于所有物品和游戏环境中,场景内绝大多数内容均无法进行交互,加之旁白和引导清晰度欠缺,使用户体验度大幅下降。
另外,基于眼动追踪的动态视野范围限制也被应用到移动动作较多的游戏中,有效改善了晕动不适。眼动追踪技术在游戏设计中的应用通过一种更加自然的方式对游戏体验进行提升和改进。眼动追踪技术在游戏领域的另一个应用是通过玩家间的眼神交流实现的,以此获得更加真实的效果。如在《黑相集:之字路VR》(The Dark Pictures: Switchback VR)这款VR 游戏中,玩家在一个充满令人毛骨悚然的僵尸房间里航行,每当玩家看向僵尸或眨眼时,僵尸就会靠近,直到它们最终包围玩家。
在设计创作领域,眼动追踪技术可以通过客观真实的生理数据反映用户的喜好与体验感。先前有研究通过结合眼动追踪使设计师以室内色彩因素与感性语义之间的权重关系为指导,帮助设计师更快地在VR 中设计出用户需要的色彩[24]。当前,面对人类社会数字化转型的新阶段,无论是在虚拟空间中划分空间、为虚拟活动张贴横幅,还是在虚拟世界中装饰场景,基于眼动追踪技术的用户研究都能为指导设计元素的选用与布置提供强有力的手段[25]。未来,更加契合现实环境的虚拟实验空间与更综合、更能模拟用户体验感受的VR 场景交互行为研究将成为艺术设计的一大研究发展方向。
VR 中的眼动追踪已经显示出巨大的潜力,可以提高VR 系统的渲染效率、改善内容呈现质量、缓解晕动、提供更为便捷的交互体验等,进而使用户获得更舒适和身临其境的VR 体验。但眼动追踪技术在VR 用户体验研究中的应用仍存在诸多挑战。
首先,设备和技术上的客观限制仍然是眼动追踪技术在VR 用户体验应用中的最大挑战。捕捉震颤(Nystagmus)、漂移(Drift)和微跳(Micro Saccade)等微小的眼球运动需要高精度眼动仪,而目前大多数应用于VR 环境且基于HMD 的眼动仪仅在较小的中心区域具有高准确度和高精度,在此区域之外,准确度和精密度大幅下降,这对眼控交互和实际应用中的数据评估带来局限。同时,大多数集成在VR 头戴式显示器中的眼动追踪设备存在高延迟。渲染管道中可察觉的延迟可能会对凝视渲染产生负面影响,进而导致VR 体验中的不适并降低沉浸感。
其次,眼动仪需要校准,且校准过程的耗时和重复性可能会阻碍眼动追踪的广泛采用,并可能阻碍一些强实时性的应用。儿童和有注意力缺陷的用户则更加难以完成校准程序。已有研究探索了替代眼动追踪程序来解决校准程序中的问题,其中最常见的是使用平滑追踪来动态校准眼动仪,而不明确要求用户查看点目标。虽然这些方法需要较少的时间,并且可以在用户不知晓校准过程的情况下执行,但它们通常无法保证眼动追踪数据的质量。在校准过程后,光线、眼睛几何形状以及眼动追踪相机对于用户眼睛相对位置的变化都可能导致校准误差。
最后,基于眼动追踪的VR 应用需要考虑用户隐私问题,这对用户体验也会产生较大影响。眼动追踪数据包含丰富的内容,可用于推断大量关于用户的个人信息。VR 硬件的快速进步和眼动追踪在HMD 集成上的日益发展导致了使用眼动追踪数据的VR 应用程序数量激增。因此,对于研究人员和从业人员来说,开发保护用户隐私和增强眼动追踪数据安全性的工具和标准非常重要。
未来,在硬件设备和技术方面,仍需开发更为简单、舒适且稳定的眼动校准程序,进一步提高VR 环境下使用眼动追踪进行输入的准确性和稳健性,提高眼控交互的精度;进一步优化注视点渲染和自动调节的显示器以提高用户舒适度,缓解疲劳和晕动等。在研究层面,可以更广泛地研究眼球跟踪数据每个特征的作用,通过测量每个特征的注意力权重,提取特征的注意权重,并具体检查每个特征的重要性。此外,我们可以测量眼动数据特征的变化。选择重要的特征在模型中使用,以减少模型训练的时间,并获得更快的模型结果,这在预测并改善晕动方面具有巨大潜力。在应用层面,探索借助眼动追踪,在医疗领域获得更高效的诊断结果与干预改善;在教育中提升知识和技能的迁移效果;在艺术创作领域对观赏者的审美体验作出更为准确的评估;在交互式VR 影像和VR 游戏上优化交互方式,提高用户沉浸感。随着越来越多的传感器被嵌入VR 头戴式显示器中,传感器融合或许将是未来研究的重要趋势。❖