多模态交互方式的用户接受度研究

2020-01-03 09:22郭梦瑶徐进波夏宇诚

艺术与设计·理论 2019年12期

郭梦瑶，徐进波，夏宇诚

（武汉理工大学艺术学院，武汉 430070）

一、多模态交互概览

“模态“俗称为“感官”，即人类凭借感知和经验获得信息的渠道，“多模态”即将多种感官融合。多模态交互场景涉及用户借助多种模态和通信渠道（如语音、姿势、表情等等）与计算机实现沟通交流的信息输入输出系统。

得益于传统单一模态技术（如计算机视觉、语音识别和音频处理/传感器等硬件技术）的发展，多模态交互技术的应用取得了重大进展。计算机计算与交互技术的有效匹配使越来越多的多模态交互设备问世。多模态交互设备有智能手机、笔记本电脑、屏幕墙、智能音箱等等，而且大数据、深度语义理解、AI感知模态的发展与变革不断催生着包括手势、眼动、表情在内的交互新途径，具有触觉反馈、视线跟踪和眨眼检测的点设备也逐渐投入商用，可感知用户界面，有形用户界面正在日趋成熟。而且随着物联网的发展，越来越多的智能家居、远程协作和艺术创作等新的多模态交互场景应用到实际生活中来，在此类交互场景中交互指令并非总是显性的，而且通常都包含多个用户。（图1）

图1

种种新的多模态交互形式的产生，用户参与多模态交互动态决策过程发生在不同的社会环境中，处于不同的交互阶段，并没有充分考虑到多模态接口要求用户在现实情境中执行新的、可能令人尴尬的行为的问题。

二、研究过程与方法

手势和语音被作为此次研究的重点，因为它在现下的交互场景中被广泛应用，且具有高度可见性。本研究主要分为三个阶段采集用户对多模态交互场景可接受度。

首先，采用视频和调查问卷的形式探究了影响交互技术接受度的因素。用视频采集记录研究员基于手势交互的初始反应，收集一些用户可能接受的互动技术的初始数据，将视频整理剪辑形成互联网调查问卷，在更广的范围内调查了这些交互技术能够被感知的可能情况。

其次，将交互方式分类，如接触设备和不接触设备即为不同交互方式。设备抖动和按压都涉及直接操作移动设备。眼动追踪、手势识别和语音控制是不接触设备的交互方式。在街头做随机采访，要求用户在公共场合做一组手势、身体动作，或者发出声音等交互方式，并询问用户为什么喜欢或不喜欢这些交互方式。

最后，调查了特定多模态交互场景中的不同用户对交互方式做出的反应。探讨了更复杂的社会环境中不同因素是如何影响用户可接受程度的。

三、研究发现

（一）用户接受意愿的过程性

社会可接受性是用户对于由接触交互场景开始到获得反馈为止连续收集信息并受过往经验所影响的对交互场景的由围观到接纳认同的过程或予以忽视、拒绝等行为反应。在整个过程中，社会可接受性不是一个简单的可接受或不可接受的问题，而是一个随着时间不断发展的连续决策过程。用户执行相关动作，对交互指令做出决策，收集来自当前或想象中的社会因素的反馈，并适当地调整决策。而过往经验与个人所处的环境和过往决策密切相关，同时受更高层次的社会经验影响。个人经验受个人决策产生，而个人决策反过来又作用于更高层的次整体社会经验变化。（图2）

图2

在多模态交互场景的交互执行过程中，单就用户与交互装置之间的性能交互来看，用户可接受度来源于认知有用、工作适配、相对优势以及成果期望，当用户认为该交互方式的使用能提高效率，明显感受到比其他工具更强烈的优越性时，他们对该交互方式接受程度较高。观察用户对交互设备的使用情况，通过屏幕上的交互指引，或者观察其他用户的操作过程而选择是否采用此种交互方式。初次使用过后，对操作的熟识程度提高，进而进入深度使用阶段，用户会独立完成操作，甚至会引导朋友学会使用该装置，在该过程中体现的已经不限于“性能交互”，而是更广泛的适用性。互动的完整过程的满意度是评价其对该多模态交互场景接受程度的关键指标。

（二）本能动作一致性

当用户接触新的交互装置或者接触新的交互方式的时候会陷入思维困境，每个人都会以自己的一套思维模式去尝试理解，而交互设计就是要用最简单的方式打破思维困境。因此用户接触新的多模态交互方式时，为用户提供熟悉的与之前习惯相符的交互模式可以满足用户的预期心理模型。

用户接受或拒绝多模态交互技术，很大程度上取决于这类交互行为是否与日常行为相似。在实地调研中，用户描述轻敲或者轻拍是高度可接受的，因为这是日常生活中已经发生的行为。例如摇动手机是可以被接受的，因为摇动手机就像摇动瓶子一样自然。因此在采用新的多模态交互技术时，应该考虑交互模仿日常生活中用户的生活习惯。

（三）交互动作的目的性

交互操作过程中交互动作目的性对接受意愿起着重要作用。交互动作应该具有明确的目的性，这需要交互装置的图形界面或者语音提示用户执行该操作的时候所触发的反应与操作意向一致。参与者描述不喜欢基于手势交互的原因之一是可能引起不必要的注意或引起用户的误解。单纯的满足实现交互装置的功能需求，还不足以促使用户接受该交互方式，用户还希望隐藏他们的交互行为。

在交互场景以外不具有明确意义的姿势比日常生活中常用的象征性姿势更加难以接受。因为不具有明确意义的姿势容易使用户产生误解，容易被用户遗忘，学习成本较高。在二次应用到新的交互场景中容易产生理解偏差，因此这些交互行为结合到其他交互装置乃至日常生活中时更为困难。

这项研究表明用户对不同手势模式准确性的感知极大地影响他们的体验，这些包括更大的控制感，隐藏交互的能力，或者仅仅是交互的新体验。这些结果为设计者提供了鼓励用户采取新的互动的方法，否则这些互动会被认为是不可接受的。相较于身体协同动作而言简单的上肢动作更容易被用户所接受。此外在公众场合和认知负荷的状态下用户的交互意愿显著降低。

（四）交互空间私密性

用户置身于交互场景中与设备进行交互的时候，受到围观群众的影响，而观众也会根据操作者对多模态交互技术做出的反应，而决定是否尝试使用设备。在有围观群众的情况下，操纵可见性则成为影响用户接受意愿的主要因素。在公共场合类似“自言自语”的互动对用户来说是不可以接受的。

随着空间私密程度的降低，用户操作意愿减弱。用户最乐意接受的是独自一人操作设备，最不愿意接受的是在陌生人面前操作设备。设计师在选用尤其是用于在陌生人面前的公共设备中使用的交互接口时必须考虑到这一点。本研究观察用户在同一交互场景下面对不同的观众是否会影响其交互方式的选择。这些结果表明，熟悉他人的存在显著地提高了进行手势或基于语音的交互的可接受性。在互动过程中，用户更倾向于多人互动。这表明在开发社交或协作界面，多个用户一起参与交互，可以利用熟悉受众的存在来鼓励更有表现力的交互。

表1

以手势交互接受程度为例，用户最能接受的地方是家，最不能接受的地方是开车，紧接着是人行道。由此可以看出除了考虑其私密性的因素以外，还要考虑用户同时进行多项任务时的认知负荷状态。（表1）

（五）文化背景导致交互初始偏好的差异性

在潜在动机相同的情况下，不同的文化背景驱动用户选择不同的初始偏好。例如，在两种文化中都存在交互而不引起不必要注意的动机，但是表达方式不同，导致不同的偏好。中国的受访者，更倾向于渴望执行微妙或隐藏的动作，如用眼睛凝视或轻敲。在日本，这种动机被表达为不想用基于语音的交互偏好来打扰别人。对基于语音的交互拒绝率显著较高，因为这些行为在文化交流中被认为对其他人有破坏性的。而中国地区参与者对象征性手势的拒绝率明显更高，因为这些手势因其高度标志性、可识别性而难以秘密执行。然而，即使参与者具有不同的初始偏好，虽然文化背景存在差异，在考虑交互应该如何相对于设备工作、使用功能有多普遍时，他们表现出更多的相似性而不是差异性。

四、结论

随着技术的变化和进步，创造新的互动方式，对用户可接受性的评价从一个执行的角度将有助于将这些新的互动成功地融入日常生活中。多模态交互技术目前主要应用于图像识别、信息检索和人机对话方面。越来越多的研究成果显示，多种模态相互配合的信息处理方法能够给用户带来更高效更优质的用户体验。例如，采用语义表达配合视觉呈现要优于纯文字的分布式语义表达，在愉悦度方面，文本模态的交互方式优于音频传递给用户的信息，激活度方面，音频模态的唤醒速度和操作限制度又优于文本模态。在设计早期完成社会可接受性评估对多模态交互方式的选择具有较强的指导意义，确定不同社会或文化群体中的用户的初始偏好，仅选择社会可接受的交互技术开发和部署以节省宝贵的设计和实现资源，并最终实现更可接受的接口，以提高这些交互技术的接受程度。