艾云璐,唐云
(华中师范大学心理学院,青少年网络心理与行为教育部重点实验室,武汉 430079)
等待体验无处不在地发生在人们的经济生活中,研究表明,等待过程中的体验将会直接影响到对服务质量的判断,从而影响到用户的忠诚度与满意度[1]。不同情境下人对等待时间的容忍度是不同的,比如对移动通信等待时长的容忍度就远低于实体服务行业。用户对网页浏览、网络游戏等互联网交互类业务的容忍度最低,如果网页文件加载超过2 s时便会对该程序产生负面的判断[2];对视频浏览等单向传输业务则容忍度相对较高一点,能够达到2 minute[3-4]。
语音交互作为一种新型的双向实时交互模式,用户对其反应时间有着更高的要求。智能语音对话模拟的是一种人与人交换发言的情境,人际互动最主要的形式是“对话”,而对话是在“向对方说出一句话”、“等待对方回复”、“对方给出回复”这三个阶段中循环进行的。研究表明,在人们对话过程中,能够忍受的最长沉默时间是0.5~2 s,具体的时长存在文化差异,一旦超过这个范围,人们就能觉察到明显的停顿,感知到对话的不流畅[5]。从人机交互的视角来看,语音交互的过程中同样包含“向机器发出指令”、“等待机器回复”、“机器给出回复”这三个流程,对应语音交互流程设计的基本模式分别是“输入—处理—输出”,而等待体验的时间范围指的是从用户指令结束到系统给出回馈的这段时间,即系统的处理阶段。在系统性能一定的情况下,进行数据处理需要反应时间,等待体验则指的是用户在等待系统响应的过程中产生的主观情绪体验,这个体验将影响到用户对系统的评价以及使用倾向[6]。如何设计好语音交互过程中的等待体验往往被忽略,但却是提升用户满意度的关键环节。
用户等待时间又可被细分为实际等待时间(actual waiting time,AWT)和感知等待时间 (perceived waiting time,PWT)。实际等待时间基本等同于系统反应时间,而感知等待时间则受到任务类型、情绪状态、系统反馈等方面的影响,导致用户感知到的等待时间比系统反应时间更长或更短[7-8]。系统反应速度通常只能从开发层面解决,在技术水平有限的情况下,可改善的空间很小,因此,控制用户的感知等待时间是提升等待体验的关键。
通常用系统响应度的概念反映系统对用户需求的响应程度。一个高响应度系统(Highly-responsive System)能够为用户提供足够的反馈,使得用户能够以他理想的状态进行工作,对于系统有较高的控制感,从而影响到感知到的等待时间,进而影响到用户满意度。高响应度的系统既使无法立即完成用户的请求,也能够让用户了解当前所处的状况,对操作和执行情况提供反馈,比如告知用户系统已经接受到输入,提示操作还需要多少时间[9]。在语音交互的情境中,对于没有屏幕的智能语音产品,通常通过闪烁的呼吸灯等视觉反馈以及提示音等听觉反馈来向用户反映系统的实时状态。而对于有屏幕的智能语音产品如手机语音助手,通常以动态悬浮球营造丰富的视觉效果,并配有恰当的提示音,比如在系统收到用户的指令之后以及准备回复之前,都会有一个短暂的提示音,并且在系统加载的过程中悬浮球会转变成加载样式来表明系统所处的状态。这些反馈方式都旨在提升系统的响应度。
已有的等待体验研究主要在图形用户界面展开,通常是针对网络拥挤造成的网页卡顿、音频文件下载缓慢等情境,其加载时间相对较长,至少是秒级的;加载形式也通常是进度条,研究发现不同类型的进度条对于感知到的时间存在不同程度的影响[4]。而语音交互中的等待体验,一方面等待时距相对较短,通常是毫秒级的,另一方面反馈形式更加多样,不局限于进度条反馈。这导致了语音交互与图形用户界面交互的等待体验研究存在一定差异,但系统响应度影响感知到的等待时间这一基本原理是相通的。此外,与图形用户界面交互不同,在语音交互的等待体验设计中,用户满意度与系统反应速度并非呈线性关系。过慢的语音反馈会给用户形成系统非常愚钝的印象,甚至产生不耐烦感。但是语音交互又并非反应越快越好,就像人与人对话,交流双方进行信息交换的过程中要有适时的停顿,否则会显得在抢话,同样,在人机语音交互的过程中系统回复得太快反倒会引起用户的不适[10]。有研究者结合时间心理学实验研究以及实验后的用户访谈获取用户对语音交互反馈时间的时间知觉,发现100~550 ms是被试认为系统反应偏快的区间,当语音反馈的时间在这个时间范围之间,用户会感到反馈时间太短了,有一种仓促感[11]。
研究表明,不良的等待体验不仅会影响到用户对系统的主观评价,还会影响到用户的行为[6,12-13]。因此,本研究将模拟学习者与教育人工智能进行语音问答的情境,分别从主观评价层面以及行为层面,探究语音交互等待体验中的等待时距以及系统响应度对用户满意度以及英语词汇学习效果的影响。
在线招募在校大学生30名,其中1名被试因错误理解指导语而予以剔除,最终被试人数29名,男性14名,女性15名,平均年龄20.8岁,近3个月无TOEFL考试或者TOEFL学习经历,能认真完成实验,有电脑设备且网络环境畅通。
采用2(等待时距:500 ms、2450 ms)×2(系统响应度:有提示音、无提示音)的被试内设计,因变量由用户体验主观评定量表(主观等待时距快慢、感知到的控制感、整体满意度)与英语词汇学习效果(测试阶段熟识度与学习阶段熟识度的差值)组成。
实验在E-Prime 2.0环境下运行,通过液晶显示器呈现,屏幕分辨率为1024×768,所有图片材料均由Adobe Illustrator CC 2017生成并导出。
等待时距材料:正式实验之前进行了预实验以选取合适的等待时距材料。预实验与正式实验在完全相同的情境下进行,在线招募8名在校大学生进行预实验,采用单因素被试内设计,以等待时距作为自变量,选取了9个等待时间作为自变量水平,涵盖了前人研究中所涉及到几个关键时间点[10],最终根据实验结果的频率分布,判定500ms是本实验情境下的最佳等待时距,并将此作为正式实验预设的最佳等待时距的参数。而2450ms的等待时距被超过80%的用户判定为偏慢,作为正式实验中等待时距的对照水平。
英语词汇材料:词汇由易到难分别从高考基础词汇、四级高级词汇、六级高级词汇、托福核心词汇、托福学科词汇中选取,将选取的单词顺序打乱,发放给10名在校大学生进行辨识评定,学生需在“认识”与“不认识”两个选项中进行迫选,最终将评定后的单词按照认识率分为五组,分别为“完全认识”、“熟悉”、“模糊”、“生疏”、“完全不认识”,每组各8个单词。将每组单词均匀分配到每个Block,保证每个难度等级的词汇数量在整个实验过程中平均分布。词汇释义界面主要由词汇拼写、词汇发音、单词释义、单词例句这四个要素构成,其中词汇音频从国内语言翻译产品“有道词典”的音频库中下载,词汇例句则从有道的例句库中选取一个经典例句。
提示音材料:语音交互过程中的系统提示音采用Apple iOS 13系统中的语音助手Siri接收到用户命令后给出的语音提示作为音频材料。就系统响应度而言,有提示音代表高响应系统,无提示音则代表低响应系统。
实验通过互联网远程完成,开始之前主试将实验运行插件安装包发送给被试并指导其安装及配置,配置完成后被试即可在自己的电脑上打开运行的实验程序。然后主试与被试连线进行语音交流,详细说明实验注意事项,随后被试自行完成实验。实验整体流程如图1所示。
练习阶段:目的主要是让被试了解词汇评定以及语音交互的流程,如果被试存在任何疑问可以向主试发起求助,练习结束后即进入学习阶段。
学习阶段:首先,被试需要针对屏幕出现的英文单词进行熟识度的评定(五级量表),如果被试对于词汇存在一定程度的不熟识度(即选择了“完全认识”以外的任一选项),则要求被试向系统发起语音提问,然后点击屏幕上的“指令结束”来表明语音指令已结束。该步骤在实际的情况下应该是由人工智能自行判断的,但由于实验器材的限制,将这一过程交由被试完成,以避免被试由于语速快慢的不同导致等待时距的起始点存在差异,保证所有被试的实际等待时距都严格界定为从指令结束到系统给出反馈的时间段。
语音提问结束后,对于无响应组,系统将会在一定延时后(500 ms或2450 ms)语音播报单词的发音,并给出词汇释义;对于有响应组,系统将出现语音提示,以表明系统已经收到指令,并经过一定延时后(500 ms或2450 ms)进行语音播报和呈现词汇释义。语音播报单词发音的同时,呈现单词解释的文字界面,并给被试一定的时间学习记忆,记忆时间结束后进行下一个单词的熟识度判断与学习。
每一个Block仅包含一种实验条件,不同的Block之间进行顺序平衡。被试每完成一个Block,需要对该Block的学习体验进行主观评定,包括主观感知到的等待时距快慢、感知到的控制感、整体满意度。三个量表在每个Block结束后顺次出现,均为五级量表。
测试阶段:被试对屏幕出现的英文单词再一次做出熟悉程度的判断。该阶段仅起到测试作用,即使被试仍然没有达到“完全认识”,也不需要再向系统发起提问,系统会直接反馈释义界面。
图1 实验流程图
采用SPSS 17.0对数据进行极端值探索,引用肖玮和苗丹民对于极端值的处理方法[14],将存在的两个极端值当作缺失值处理,并替换为该处理情况下时间感知快慢数值的平均数。此外,一名被试做实验时在语音交互界面处对指导语的理解有误,导致了较高的认知负荷,因此决定对该被试的数据予以剔除,最终将29名被试纳入数据分析。各条件下的描述统计信息见表1。
表1 不同条件学习效果及主观评定的描述统计信息(M±SD)
对主观等待时距、感知到的控制感、阶段性学习整体满意度分别进行2(等待时距:500ms、2450ms)× 2(系统响应度:有提示音、无提示音)重复测量方差分析,得到以下结果。
图2 各实验条件下感知到的控制感均值比较
本研究以等待时距和系统响应度为自变量,以英语词汇学习效果以及等待时距快慢评定、感知到的控制感评定、整体满意度评定作为因变量,探究了等待时距以及系统响应度对语音交互操作情境下用户主观体验和学习效果的影响。
首先,本实验的结果表明等待时距的处理效应显著,无论是对于认知水平上的学习效果还是对于主观上的体验感知,都表现为在较慢的等待时距条件下表现不佳,这与前人的研究高度吻合[7,11,15-16]。相较于视觉而言,听觉对于微小的差异更为敏感,耳蜗毛细胞对于声音的反应要比视网膜对于光的反应更快[17],其知觉差异通常处于毫秒级,这能够解释为什么在语音交互过程中用户对于等待时距的耐受性比较低。无论是图形用户界面或语音交互过程的等待体验,等待时间的延迟都会加剧用户的焦躁情绪[4],而情绪则可能进一步影响到行为和绩效[12-13]。本实验也发现,等待时距不仅影响了主观评定的结果,还影响了学习效果,这意味着需要更加重视等待体验设计在产品设计中的地位。
其次,结果表明系统响应度的提升能够降低感知到的等待时间。本研究的系统响应度通过提示音的有无来反映响应度的大小,在大量关于图形用户界面的进度条加载设计研究中,也发现进度提示信息能够降低用户感知到的等待时间[9,15,18-19]。用户向语音助手提问的时候,如果给用户一个积极反馈以表明系统已经收到语音指令,那么根据时间知觉领域的注意闸门理论,当响应信息出现的时候,用户将分配一部分注意在非时间信息(即响应信息)上,累积的时间信息脉冲更少,从而使得降低感知到的等待时间[3,20-22]。再者,感知控制感的结果说明在长时距等待的情况下,响应信息能够明显地提升用户的控制感,而在短时距的情况下,响应信息并不能够提升控制感。根据控制感理论,系统响应机制能够给用户带来更加确切的期待感,使得用户感知到对系统具有更强的控制感,进而提升用户的等待体验,这一理论假设与长时距的等待体验高度吻合[23-25],但与短时距条件的结果存在出入。可能的原因是,响应信息降低了用户感知到的等待时间,从而使得最佳的等待时距遭到破坏,有提示音的最佳等待时距条件下,用户感知到的等待时间也是低于“刚刚好”的水平,即存在一定的“偏快”倾向,让用户感到一种仓促感,从而降低了控制感水平。
作为实验室试验,本研究的生态效度还有待加强,一方面,为了保证精确操控时间条件,排除无关变量的影响,再加上实验环境的限制,在用户说完语音指令过后需要手动点击确认键以表明语音输入完毕,这与真实的情况存在出入。现实的情况下用户在语音输入完毕过后系统会智能地判断语音输入完毕并自动给出反馈信息,这意味着实验情境中被试点击确认键的行为在一定程度上提升了表明语音输入完毕的确定感,是否有响应信息来表示系统已经收到语音命令就显得相对不那么重要了;另一方面,实验模拟的是询问英语单词释义的情境,被试需要反复提问不熟识单词的释义,任务是重复且单一的,而在与教育人工智能进行语音问答的真实情况中,对话的内容更加丰富,情况更加复杂,对话也不那么频繁,同样是生态效度的欠缺。
未来的研究可以从以下几个方面做出改进或者进行深入探讨。首先,可以深入探究不同的系统响应形式对语音交互等待体验的影响。大量的图形用户界面等待体验研究表明进度条的形式对于等待时距估计存在显著差异[4,7,26],那么同理,语音交互等待过程中的系统响应形式对等待体验也存在潜在的影响,比如可以探究人声反馈与一般的提示音反馈对任务完成度以及主观感知的影响差异,或者听觉反馈与视觉反馈的差异,或者不同的反馈方式的组合之间的差异,以寻求最佳的反馈形式。除了设计元素对体验的影响,还可以探究任务本身对体验的影响差异[18,27]。本研究的主要任务是对英语单词的熟识度评定以及学习,任务难度低且重复度高,未来的研究可以采用可量化任务难度的任务作为研究对象,操纵任务的难度以探究任务难度的差异对于体验的影响,为产品设计提供更加充足的情境信息。再者,由于本实验在远程情境下进行,较难实现对无关变量控制。尽管在指导语中试图控制用户的动机水平等无关变量,但是在非实验室的环境下,存在更多潜在的环境因素,比如网络速度、环境嘈杂度等,这些都会对用户的等待体验产生潜在的影响,这也是将来的研究需要考量的因素。最后,可以尝试在更加逼真的情境下进行实验,即在尽量控制好无关变量的基础上,实现人机真正的智能语音交互,给被试营造更加真实的语音交互体验感,提升研究的生态效度。
本研究采用实验室实验,探讨了等待时距和系统响应度对学习英语单词的等待体验和学习效果产生的影响,得到以下结论:(1)等待时距对主观评价范畴的等待时间感知、控制感、主观满意度,以及对认知水平的学习效果均存在显著的积极影响;(2)系统响应度显著影响等待时间感知,有提示音比无提示音感知到的等待时间更快;(3)等待时距与系统响应度对控制感的影响可能存在交互作用,表现为在较慢等待时距条件下,有提示音比无提示音感知到的控制感显著更高,而在最佳等待时距条件下,没有发现有无提示音条件下感知控制感的差异。
本研究的发现对以语音作为主要交互方式的互联网产品设计具有启示意义。如果以语音作为主要的交互方式,在产品开发阶段,应当注重对目标用户群开展充足的等待体验研究。一方面,关于设置等待时间,因为系统反应太快会给用户造成不良的体验,不宜简单地以系统响应时间作为等待时间。而等待体验可能会随不同的使用情境或不同的任务而变化,需要找到特定情境和任务之下的最佳等待时间参数。另一方面,关于提供响应信息,当系统存在延迟的时候都能缓解在长时距等待情况下的失控感,例如在听觉上用提示音表明系统已经收到语音指令,或者在视觉上用动态的加载条表明正在处理信息。但并非所有情况都应该出现响应信息,如果系统处理速度已经满足较优的等待时距,此时加入响应信息反而会导致感知到的时距加快,还可能导致提示音和语音输出之间的心理间隔缩短,给用户造成一种仓促感。当前的一些智能语音产品中确实存在类似问题,结合本研究的结论,这类问题有可能会降低用户体验,可以加以改进。