多模态交互中的目标选择技术

2022-02-28 09:37周小舟宗承龙郭一冰贾乐松杜晓茜薛澄岐

包装工程 2022年4期

周小舟，宗承龙，郭一冰，贾乐松，杜晓茜，薛澄岐

（东南大学机械工程学院，南京 210000）

随着各类传感器、计算机识别算法和计算机网络的发展，除了键鼠操作等交互方式以外，语音、手势、体感、眼动追踪等多个交互模态逐渐应用到了人机交互系统中。人机交互系统是包含软件、硬件以及使用者，连接人和计算机的系统[1]。在人机交互系统的发展过程中，人们开始探索用更加符合人的本源性认知和行为习惯的交互方式与计算机进行沟通，而人的意图表达是多模态的，与此对应的多模态交互也应运而生。多模态交互的核心是使计算机具有类人的感知功能，人机交互在一定程度上靠近人人交互的自然水平[2]。多模态交互要求计算机能够识别多种类型传感器所捕获的人的多模态交互行为，将其解码并生成计算机下一步动作的指令。当交互行为更符合人的本源性自然表达时，用户花费较少的认知资源便可以获取和传达信息，以达到提升人机交互效率和交互体验的目的[3]。近年来，多模态交互在虚拟现实[4]、增强现实[5]、混合现实[6]、遥操作[7]、普适交互[8]等场景下都有着广泛的应用前景。

1 交互模态

多模态（Multi-modal）的概念最早出现在语言学领域，延伸到社会符号学、教育学等多个领域[9]。在人机交互领域中，多模态也有着多种不同的解释，包括不同的信息感知通道、不同的信息呈现方式等。本文中的多模态是从计算机信息输入通道的角度上来阐述的，人机交互的模态包含传统的输入工具，常用的鼠标、键盘，以及轨迹球、摇杆等，以及较为新颖的输入模态，包括语音、多点触控、手势、体感、眼动追踪等。每个模态都有其独有的交互特点，包括设备优势与限制、交互能达到的精确度、稳定性，以及对用户造成的肌肉疲劳与认知负荷等。考虑到人类的交互行为是多个感受和执行通道共同作用的，因而将符合人行为学的交互模态融合起来作为人机交互的输入和输出方式，多模态交互更有利于人对计算机环境的感知和计算机对人意图的理解[10]。本文将对能提高交互自然性的输入模态，包括自然交互中常用的触摸、语音、手势体感、眼动追踪等作简要介绍。

1.1 触摸交互

触摸交互是指通过和触控屏幕接触而产生的一种二自由度的交互手势，根据交互手势中触摸点的位置、触摸状态和触摸点相对位移等特征转化为控制信号[11]。触控输入除了与显示屏直接接触的输入方式外，还包括笔尖和“悬空”的输入方式，本段主要介绍手指直接触摸的交互方式。触摸手势的属性可以分为触摸点属性和移动特征属性。触摸点属性包括与屏幕产生接触的点的个数及接触类型，现有的触控技术可以利用接触面积、压感、电阻等信息分辨手指或骨节等接触信息，并支持多点触控，允许用户利用双手或多手指进行触摸交互[12]。移动特征属性主要有点击、拖动、滑动、横扫、双击、放大、缩小、长按、旋转等[13]。根据手势的自然运动属性，手势可以表达很多含义，多点触控手势在功能上可以分为点按与辅助查找、滚动与缩放控制、全局控制三种类型[14]。

触摸交互技术作为一种提升自然性的输入方式，可以利用振动、和触感等输出反馈方式来提升交互的触觉体验[15]，其主要限制是对空间要求高，交互对象必须在用户的身体可达域范围内，在虚拟现实环境中交互绩效受限[16]。

1.2 语音交互

语音交互通常是指利用声音来实现信息的输入、输出、反馈及响应，是一种可以直接反映人类内心意图的人机交互方式，能达到以交谈式为核心的智能人机交互体验[10]。语音交互可以解放用户的双手，或是可以在双手已经被占用的前提下实现较大词汇量的交互功能，因而语音控制常被用于作为选择任务的补充方案。用户输出的语音经由语音识别、自然语言理解、对话管理、响应生成后，系统将对人的输入信息做出对应的交互响应[17]。借助语音交互技术，用户的操作可以穿透多重视觉层次，无视中间应用、网页和复杂环境等，实现直达用户想要的操作的交互目的[10]。

作为用户日常生活中熟悉的交互通道之一，利用语音实现人机交互可以减轻用户对交互任务的学习量，适用于非图形的命令交互与控制交互[10]，能够实现较为复杂的指令功能，有效减轻用户的肌肉疲劳度，并提升交互的自由度。然而这种交互方式也存在其限制。由于人的语言天然的具有模糊的特点，语音控制系统往往需要根据背景推理用户所表达的含义，在不确定语义背景的情况下，具有很高的错误率[18]；多用户之间的语音会产生干扰，语音输入的私密性也无法保障[19]。这些特性使得语音控制不常作为首选的输入方式，在应用场景的广度上受限。

1.3 手势与体感交互

手势与体感交互是指通过用户手部或肢体的静态姿势或动态动作来进行计算机指令输入，从而实现相关功能的交互方式。常用的手势与体感包括手部姿势与动作、臂部姿势与动作、头部姿势等[10]。一般来说，手势与体感动作通过计算机视觉或者穿戴式传感器跟踪的方法被设备跟踪并捕捉，从而作为指令的发送方向计算机传递发出指令的信号[20]。

与传统的键鼠交互方式相比，手势与体感交互是更具自然性的交互方式。在空间上，手势与体感交互打破了键鼠等交互方式中设备对用户的桎梏，用户可以在较远的距离上脱离实体来进行交互操作。人的手部动作有着丰富的可能性，作为交互输入方式具有自然性、灵活性、便捷性等优势[21]。尤其在虚拟现实环境中，它是能提升用户沉浸感的重要自然交互方式之一。利用手和手臂姿势变化，用户可以完成诸如浏览网页、翻看书籍、放大缩小物体等交互动作。然而这种交互方式也仍存在一些亟待解决的交互缺陷。可用于指令的符合自然性的交互手势与体感有限，人们很难通过手势与体感动作完成大量且复杂的诸如文字输入这样的操作[22]。用户的指令动作和无意识的自然动作在识别过程中容易混淆，产生对指令起止判断等歧义，而造成弥达斯接触问题[23]。除此之外，手势与体感交互还具有响应时延和占用较多记忆资源等局限性[21]。

1.4 眼控交互

眼控交互是指通过对所获取的视线移动的位置、轨迹、速度、驻留时间等信息进行特征定义，将其作为计算机交互指令的交互方式[24]。按照交互主动性，眼控交互可分为基于视线的交互和视线辅助的交互两种[25]。将基于视线的交互作为独立的交互控制模态，容易造成视觉疲劳，因而多用在医疗、残疾人辅助设备等特殊场合。

按照眼动信息特征，主动的眼控方法可以分为凝视交互、眨眼交互、平滑追踪和眼势交互四种[26]。这四种眼控方式有着不同的交互逻辑。其中，凝视交互与传统鼠标交互逻辑相似，又因为其操作简单所以是目前应用最广的眼控交互方式[27]，然而其存在着不自然、费力等问题，还因为眼球的无意识抖动行为存在一定的精度问题[28]；眨眼交互对眼动追踪设备的时空分辨率要求最低，但可以使用的交互命令较少，且有意识眨眼与无意识眨眼在区分上有难度；平滑追踪的交互方式依赖于动态刺激[29]，其速度会影响平滑追踪的执行效果[30]；眼势交互可以在一定程度上规避弥达斯接触问题，但容易造成疲劳且学习成本较高。因此，目前通用型人机交互领域常以视线辅助的交互形式来有效地辅助其他交互模态实现人机交互行为。

2 目标选择任务中的行为模型

目标选择是人机交互的基础要素，本质是一种对用户交互意图的提取。在传统键鼠交互中，输入设备的输入信息是确定性的，物理设备的运动和光标之间存在明确的对应关系。而在强调交互自然性的多模态交互中，由于应用了人天然的输出模态，如空中手势、凝视、语言等均具有模糊性，输出信息与计算机指令的对应关系会变得模糊。为了达到自然交互的目的，就需要在多种模糊的模态中挖掘人的行为中确定的交互意图，而若要发现这种确定性，就必须建立明确的行为模型。构建指向选择任务的行为模型往往需要将任务划分成几个子阶段，多模态交互的优势之一就是可以给不同模态分配不同的子阶段任务，以此避免过度使用单模态造成的疲劳和单模态的技术缺陷[31]。

指向选择任务可以分为指向任务和选择任务两个子任务，对应着目标获取和验证确认的交互目的。为了简化模型，多模交互的发展初期通常在指向和选择（或操作）阶段各应用一个模态。常见的多模态技术多应用视线完成指向，应用手势进行选择或操作。例如，在虚拟现实中注视目标后用“捏”的动作移动目标[32]或用“抓握”的手势“握住”物体并移动[33]，在触摸屏交互中注视目标后点击屏幕任意位置对平面目标进行缩放旋转等操作[14]。由于人在目标操作尤其是高精度操作时具有注视目标的行为倾向[34]，因此这种多模交互方式具有提升交互绩效的实用价值。然而这种方法因为在指向阶段仅视线一种输入模式，对视线捕捉的精度要求较高，在目标较小或者完成精度要求高的应用场合容易产生交互失误而造成用户的挫折感和疲劳体验。为了更精确研究指向任务，Woodworth 等人率先提出了指向任务两阶段理论，将指向动作划分成快速弹射运动阶段和调整阶段[35]，该理论被后续研究者广泛应用，通过将指向过程分阶段分析和应用来获取更准确的指向数据和优化模型。目前，已有多个指向选择任务的行为理论可以用来指导多模态交互技术开发，包括菲兹定律、优化脉冲模型、层叠效应理论等。

2.1 菲兹定律

菲兹定律[36]是表达指向选择任务中用户完成任务所用时间的理论，是在人机交互领域少有的定量表达人机交互系统效果的理论模型。从信息论的观点来看，人输入到计算机的信息容量C（比特/秒）取决于通信信道的带宽B（s−1 Hz）、信号功率S和噪声功率N，其关系如公式(1)所示：

比照信息论的公式，MacKenzie[37]提出了目前被广泛采用的菲兹定律计算方式，他把完成选择任务所需要的时间T与目标的宽度W以及与目标的距离A建立了联系，并用其比例对数的线形回归模型来预测运动时间，如公式(2)所示：

其中a与b是该回归方程的回归系数，而对数项则被称为难度系数ID。系数a会受到确认动作等附加因素的影响，而1/b则可以反映交互系统的性能，该性能通常称为吞吐量。

菲兹定律在一维到三维中都有应用。Wingrave和Bowman 的研究[38]表明，菲兹定律在虚拟三维环境中依然有效。在三维环境下，物体的W需要以其出现在用户视野里的视觉大小来表示，而A则需要进一步考虑用户手部的旋转角度。Poupyrev[39]则进一步将物体的W以物体出现在用户视野里的竖直与水平的角度进行定义。菲兹模型在三维物体的选择中得到优化[40-42]。菲兹定律可以体现出人的指向选择任务的行为特征，研究表明除了各种以手为基础的交互之外，脚、头、眼睛的选择指向仍然满足菲兹定律[43]，因此菲兹定律可以作为多模态交互的一般性行为模型。

2.2 优化初始脉冲模型

基于指向任务两阶段理论，Meyer 等人提出的优化脉冲模型[44]常被用来解释用户执行选择任务时的手部运动。不同于菲兹定律的宏观预测和评估理念，该模型对任务过程做了更细致的描述，它将选择任务中的手部运动阶段区分成低精度快速移动的快速弹射运动阶段与高精度慢速移动的慢速调整阶段，用于描述在选择任务中不同阶段用户进行操作的速度与任务要求的变化。优化初始脉冲模型见图1，慢速调整阶段出现在快速弹射运动阶段之后，这两个阶段使得人在执行此类交互动作时可以兼顾速度与精度。

图1 优化初始脉冲模型Fig.1 Optimized initial impulse model

人的生理特性导致人的肢体行为无法同时兼顾快速和精确的运动要求。一般情况下，用户所需选择的目标是随机分布在某个区域内的，这导致人的肌肉群必须做更微小的调节才可以完成选择[45]，而参与大范围快速移动的肌肉群往往较大，无法在兼顾速度的同时完成精确的选择。对于需要进行精确操作的慢速调整阶段，小肌肉群无法实现大范围的移动，但它们更加细分的可变性使其更容易完成细小的调整。

目前优化脉冲模型仍在不断的优化过程中。Piumsimboon 等人分阶段研究了弹射阶段校准阶段的输入模态[46]，分别测试了头和眼完成弹射阶段并与调整阶段其他模态结合的绩效和主观评价，证实了眼在速度上的优势和对设备及准确性要求带来的用户体验问题以及头指向的交互准确性和脖子疲劳问题等。邓成龙等人在两阶段理论的基础上基于远距离移动物体过程中对目标移动速度的观察，又将弹射阶段分为了加速阶段和减速阶段，建立了移动物体的三阶段理论[47]，该三阶段理论对指向任务中的普适性有待进一步的研究。还有研究表明，用户在选择任务中会自行平衡快速弹射运动阶段与慢速调整阶段[48]，这两个阶段并不是固定的且不可改善的。MacKenzie 等人进一步发现[49]，速度在时间序列上的变化取决于目标的宽度W以及与目标的距离A，而不仅仅是难度系数ID。A会影响快速弹射运动阶段的最大速度，而W则影响慢速调整阶段所需要做的修正，这为借助该理论实现自适应交互提供了条件。

优化脉冲模型是对交互运动的细化，而人的多种行为模态都可以作为该模型中的运动指标来源，从而在菲兹定律的基础上进一步细化交互流程，对交互意图进行更详细地分析和定义，是实现无感的多模态交互的基础。

2.3 层叠效应理论

眼部运动的实时监测可以获取用户注意焦点、快速定位用户兴趣区，是多模态交互中意图捕获的基础。在眼睛的运动规律方面，Shimojo 等人提出了层叠效应理论[50]。在选择任务中，物体得到的注意越多，它被选择的概率就越大。该理论阐述了一个统计模型，在注意与决策之间搭建了桥梁，所包含的变量仅包含目标得到的注意。诸多神经行为学研究发现，当大脑在诸多刺激间进行选择时，人脑会首先对多个刺激赋值，随后再考虑应该选择哪个刺激[51]。表现在眼球运动上，在日常生活中需要进行决策、选择的任务里，人眼会不停地交替注视多个刺激，以完成刺激赋值进程[52]。视觉的层叠效应理论反映的就是这种赋值过程。

由于眼动的注视信息可以很好地反映人的注意力特征[53]，因此层叠效应常应用于借用眼动信息预测用户决策，进而在交互全过程完成前提前预测交互意图[54]。研究表明，人的注意力特征与人脑对刺激的赋值过程可以互为因果，不仅刺激本身的特性可以吸引人的注视，更长的被注视时间也可以导致该刺激的被选择概率提升[55]。随着决策过程的推进，这种双向促进的过程使得眼动特征与人的决策可以深度绑定，进而呈现出更加确定的结果。Smith 等人[56]也进一步研究了这两种效应的强弱，进一步发现其相对强弱在不同场景下有所不同。为了完成从眼动信息到决策信息与交互意图的预测，已经有很多研究者通过建立模型对层叠效应进行量化，在实验室环境下通过模型计算决策结果[57-58]。而在人机交互技术的应用领域，可以使用神经网络完成眼动交互意图的识别和预测[59-60]。层叠效应理论所展示的是人的注意选择规律，便捷的眼动注视目标的获取设备和技术使得该理论具有广泛的应用前景，可以作为交互意图捕捉方式和多种交互模态共同实现更为快速精确和确定性的交互目的。

3 目标选择中的多模态融合方式

多模态交互技术是一种以协调的方式处理两个或多个输入模式，借助多种非侵入式的传感器，识别天然形成的人类语言和行为，以获取人的交互意图并输入计算机的技术[61]。由于传感器输入信息的组合，输入信息容量更高，所以具有超越单模态的输入效率。同时多个传感器输入信息可以相互作用，降低信息中的不确定性，多模态交互识别系统的准确率远高于单模态的输入。多模态交互技术具有比单模态交互技术更好地理解人的交互意图的理论基础。

人在进行意图表达时会自然地同时调用多个输出模态。例如人在指向目标物时，会转向、注视目标并用手指向目标；阐述复杂概念时，人会在语言表达的同时辅助空中手势的表达。因此，多模态交互技术是以本源性自然表达为目标的自然交互技术发展的必然趋势。由于交互情境的多样性和交互模态的适用性，多模态交互的模态融合方式具有多样性。剖析交互模态在融合方式上的特征，归纳了以下四种类型：选择型、相继型、并发型、互补型，多模态交互的模态融合方式见图2。

图2 多模态交互的模态融合方式Fig.2 Modality fusion methods in multimodal interaction

选择型多模态交互，是指某一交互输入模态或组合均表示相同的语义信息，各模态输入信息在功能上都是等效的，用户自行选择或者根据场景自适应适配的交互融合方式。此类交互技术希望通过提供多种各具特点的输入模态，满足不同用户在不同场景下的偏好，提高用户输出意图的效率。在携带有语音助手的智能手机中，设置闹钟往往可以通过触摸或语音等不同的方式实现。一些研究也探索了模态的自动选择，以避免增加用户的认知负荷，例如Pfeuffer[62]等人研究了人的注意力机制，并将注意力机制用于在手眼之间切换输入模态，借助这种自然的切换，更好地匹配了选择任务中所适合的模态，提高了输入效率。

相继型多模态交互，是指两个或多个输入模态在时间线上的不同时间段先后发挥作用，最终共同完成一个任务操作指令的交互融合方式。在此类系统中，前一种模态可以用于防止后一种通道错误的触发，并适时地激活后一种模态，为任务的不同阶段使用合适的输入模态，避免计算机错误地识别到了用户并不存在的交互意图。例如在多模态交互的一键通话界面中，语音模态从一个手势动作获得信息，并将语音输入激活。已经有学者采用这种组合方式来解决选择任务的精确度与速度问题。例如，MAGIC 指向技术使用头部信息初始化屏幕上的光标位置，之后再由鼠标接管光标[63]。Yang 提出了一种使用眼动进行粗略选择，使用触摸板进行精确选择的操控技术[64]。Koskinen 在外科手术领域开发了一种技术，他们通过提取手术刀上的注视点信息来确定画面的缩放幅度，以此来配合手执行不同精细度的手术操作[65]。在Cordeiro 等人所开发的增强现实僵尸游戏中，面部识别所获取的头部朝向被用来完成游戏里射击动作的瞄准，触摸则被用于确认开火[66]。

并发型多模态交互，是指需要两个或两个以上的输入模态在同一时间段内触发才能完成一个任务的交互融合方式。其主要表现在时间段上的同步性，强调不同交互模态需要在同一时间段内被调用，两种模态同时触发才能构成完整的语义。此类交互技术可降低单模态下的偶发启动，将多模态设定为彼此的互锁机制，提升交互操作的确定性。Pfeuffer 等人[32]所开发的技术就旨在通过这种方法消除眼动的弥达斯接触问题，该技术以眼动为指向，以一个捏合姿势为确认动作，只有当眼动选中目标且发出捏合的确认动作时，目标才被选中。这种组合方式也适用于涉及多维度信息的任务中，在为虚拟环境下某一物体赋予颜色的任务中，用户需要同时输入色彩和目标两个信息，EyeSeeThrough[67]技术让用户用手拿起一个调色板，当眼、调色板的颜色、目标共线时完成色彩的赋予。

互补型多模态交互，是指提取两个或多个输入模态的优势动作配合发出命令，共同完成一个任务，以消除交互意图中歧义的交互融合方式。设计互补型多模态交互任务的时候，需要针对每种交互模态的优势动作和交互响应来细化整个交互动作，以实现功能上的最优分配，考虑交互任务的具体实现场景来选择可以同时实现协同操作的交互模态来完成一系列交互动作。例如，Argelaguet 等人[41]采用眼的位置发出射线，并使用手腕转动引导射线的方向移动信息，同时规避了眼动的不稳定性以及手势射线容易被遮挡的问题。Bai 等人[68]在车内的选择场景下，通过手势进行选择指向，凝视信息用来确认指向的正确性，在不产生额外运动的情况下提升了选择的准确率。Li等人[69]也在平板电脑上开发了相似的轻量化技术，以减少手势识别的误差。在Sidenmark 等人[34]所开发的交互技术中，眼动信息与控制器信息相互补充，当控制器确定一个目标点时，该交互技术会隐式地对眼动仪进行校准，进而避免了用户频繁地主动校准眼动仪。

4 结语

伴随着各类传感器、计算机识别算法与计算机网络的发展，计算机对人的交互意图感知能力不断加强，多模态交互已成为人机交互的必然发展方向。多模态交互可以在对人交互行为分析的基础上实现非侵入、无感的自适应交互。而目标选择任务作为人机交互中的基础任务，具有任务典型性和研究必要性。当前多模态交互中的目标选择任务的优化方向包含以下四个方面。（1）建立基于意图捕捉的人机交互。目前的多模交互技术大多将选择任务划分成“指向+选择”或“指向+校正+选择”的分步形式，每一步之间需要用户通过手势或语音等方法明确告诉计算机步骤的切换，该行为极大地简化了计算机的工作却增加了用户的交互任务量。在未来的研究中，将这种用户的主动交互意图表达转化为计算机的主动交互意图识别，在计算机对人行为的充分理解的基础上建立基于人的意图捕捉的人机交互形式是多模交互中优化目标选择模型的必要研究方向。（2）多模态无缝融合交互技术。为了达到更自然的交互效果，已有很多研究都尝试了多模态交互，但是目前较多的多模态交互还停留在单模的组合上，即利用拼接单模的方式，让不同模态交互实现不同阶段的功能后再组合到一起：例如利用眼控完成指向后再用手势进行确认等。这种方法虽增加了操作的词汇量，有助于用户完成更多交互内容，却保留了单模的缺点，且不符合用户的自然交互习惯。因此实现多个模态间的无缝融合可以达到显著的优化模型的效果。（3）虚拟空间中交互的自然贴合度。虚拟现实、混合显示等虚拟空间为多模态交互提供了广泛的研究依托和应用场景。在虚拟现实中，交互过程与真实物理世界相似度的提高有利于提升用户的交互兴趣，而且能提升没有经验的使用者的交互能力[3]。当前的指向任务多采用单一的空间射线投射技术，然而用户的指向动作模型随目标距离等因素改变会产生变化，比如在指向远距离目标时目标的位置更接近于眼与手指间的延长线方向，指向近距离物体时更接近于手指指向方向[70]，因此可以借助多模态的方法提升指向选择任务模型与用户行为习惯的贴合度，从而提升交互自然性和准确性。（4）基于现实复杂场景的设计优化。大多数设计停留在单一的实验层面，缺乏实践应用，实验场景与实践场景差别大，仅停留在规律单一的实验场景以绩效评价证明设计方法的可用性。且前期对于技术的特点研究不充分，对于单模的缺陷认识停留在射线投射精度低、眼动数据不准确等，无法最大化发挥不同技术的优势、合理利用以降低单模态的缺陷造成的交互体验降低等问题，缺乏利用多模态实现复杂场景的交互案例。因此未来的研究应注重复杂、拟真场景下多模态技术的应用。