智能语音产品的唤醒率体验研究

2021-09-22 02:18:18陈宪涛王任振邹黎明徐濛

人类工效学 2021年4期

陈宪涛，王任振，邹黎明，徐濛

(百度AI用户体验部，北京 100193)

1 引言

人工智能技术的发展催生了很多自然的交互方式，语音交互作为比较成熟的交互方式目前正在被广泛的使用。语音交互依托于语音识别、语义理解、语音合成等语音处理技术，实现了人与设备间通过自然语言进行信息的传递，极大提升了人机交互的效率和自然度[1]。近几年，针对智能家居[2-4]、智能车载[5-6]、可穿戴设备、智能机器人[7-8]等场景或相关产品的语音交互体验，已经得到企业界和学术界的广泛关注，并开展了很多研究实践。按照研究的关注点，可以将这些研究大致分为两类：基础的交互体验和进阶的交互体验，前者主要关注语音交互的可用性和效率等体验，后者侧重解决语音交互中较复杂的问题，如情感和对话等体验。然而，目前语音交互的基础体验并不完善[9-10]，国际知名用户体验咨询公司NNGroup对智能语音助理的体验进行研究，发现语音交互过程中仍存在较多的可用性问题[11]。

按照用户的交互行为，可以将语音交互分为语音唤醒和语音对话两个交互环节。唤醒是启动语音交互的第一步操作，用户需要首先对设备进行唤醒，然后才能开启语音对话的交互功能[12]。语音唤醒是目前用户与智能设备交互常见的唤醒方式，主要指用户通过特定的唤醒词，将激活信号传递给设备以便实现语音识别系统的智能开启[13]，例如唤醒词“小度小度”可以唤醒内置百度DuerOS对话式系统的智能设备。目前，关于语音唤醒的研究多从技术的角度，致力于提升语音唤醒技术的性能和适应性[14-15]，很少有研究从体验的角度，探讨语音唤醒的交互体验对用户态度、行为和心理的影响。百度AI用户体验部门在国内比较早的系统梳理了语音交互的研究地图[2]，并围绕智能音箱产品的语音唤醒和语音对话的响应时间进行了研究，研究发现语音唤醒的响应时间与反馈方式存在交互作用，当智能音箱的唤醒反馈方式为光效加“在呢”人声时，最佳的唤醒响应时间范围是300 ms-600 ms[3]。本研究是围绕语音唤醒体验的持续性研究，在唤醒响应时间研究的基础上，重点探索语音唤醒率对用户态度的影响。

基于对大量智能语音产品使用行为的研究，我们发现很多因素会影响语音唤醒的交互体验。按照语音唤醒输入输出方式区分，如表1所示，语音输入环节影响用户体验的因素主要包括唤醒词、语音唤醒方式，输出环节的体验影响因素较多，主要包括唤醒响应时间、唤醒反馈方式、唤醒率、误唤醒率，其中唤醒率是指智能语音产品成功且正确响应用户唤醒的比例，反映了产品能否准确响应用户唤醒指令的能力。由于在日常生活中与智能语音产品互动时，唤醒率易受唤醒识别系统性能、与产品交互距离、环境音量条件、用户自身属性特征等多种因素的影响，因此，很多智能语音产品在成功响应用户唤醒的表现上并不理想。

表1 语音唤醒体验的影响因素

在唤醒响应时间研究的基础上[3]，本研究聚焦语音唤醒率对体验的影响，重点探索不同环境音量、不同交互距离条件下理想的和可接受的唤醒率范围，尝试从体验视角定义智能语音产品的唤醒率，为语音交互唤醒率体验的优化提供参考，同时也探讨上述各语音唤醒体验影响因素的用户感知重要性。

2 方法

2.1 实验目的

以智能音箱产品为例，了解不同环境音量、不同交互距离条件下用户感知满意的和可接受的唤醒率范围，同时探讨不同语音唤醒体验影响因素的感知重要性。

2.2 被试

40名被试，年龄在20-39岁之间，男女各半。所有被试的视力或矫正视力正常，听力正常，实验后给予适量报酬。

2.3 实验设计

实验采用9(唤醒率：60%、65%、70%、75%、80%、85%、90%、95%、100%，组内)×3(交互距离：1 m、3 m、5 m，组内)×2(环境音量：40 dB、60 dB，组间)混合实验设计，实验分2组，每组20人，每组被试仅在一种环境音量条件下进行实验，其中交互距离涵盖了用户与智能音箱交互常见的近场、中场、远场三种情况。环境音量覆盖了日常家居环境下常见声源的低声压级和中声压级范围，低声压级40 dB是日常安静情况下的声音响度，中声压级60 dB是日常生活中聊天和播放电视剧或音乐时人们感受到的声音响度[16-17]。唤醒率的操作定义是智能设备成功且正确响应用户语音唤醒的比例，即唤醒率=成功唤醒次数/总用户唤醒次数。实验中，在每一种环境音量和交互距离条件下，被试需要完成语音唤醒智能音箱的总次数为20次，如60%唤醒率意味着20次用户唤醒中有12次成功唤醒了设备。

实验的因变量定义为被试对唤醒率的满意度评价，考虑到7点量表相比5点量表具有更高的鉴别力，并能够节省实验样本成本[18]，采用了7点满意度量表(1-非常不满意、2-不满意、3-有点不满意、4-一般、5-有点满意、6满意、7-非常满意)。

2.4 实验程序

为了在实验中模拟各种唤醒率水平，我们为实验专门开发了实验程序，主试可以通过设备后台手动控制智能音箱是否能够被成功唤醒。实验开始前，被试会分别在低声压级40 dB和中声压级60 dB环境下，以及三种距离条件下唤醒智能音箱，主要是为了熟悉唤醒词“小度小度”,并体验真实环境下唤醒智能音箱的难易程度。实验场地为普通的家居环境，安静时通过HCJYET(HT-8352)分贝仪测得环境声压级为40 dB左右，中声压级环境的模拟主要是通过Genelec真力8010A有源监听音箱随机播放音乐，并通过分贝仪将响度尽量控制在60 dB左右的范围。正式实验环节，每组用户在特定的环境音量条件下，完成三组实验任务，即分别在1 m、3 m、5 m距离唤醒智能音箱20次，我们为被试准备了记录材料，以便辅助被试记录每组任务中智能音箱的被唤醒情况，被试完成每组实验任务后，需要对当前环境音量和距离条件下的唤醒率体验进行主观打分。为了平衡顺序效应，实验中先对被试体验的环境音量进行随机处理，然后对三种交互距离和各种唤醒率也进行了完全随机处理。实验结束后，要求被试填写一份简单的调研量表，主要是对语音唤醒体验的6个影响因素进行重要性打分(1到10分，分数越高表示重要性越高)，最后主试对唤醒率的评分原因以及主观感知影响因素的重要性进行访谈。

3 结果

3.1 各变量对唤醒满意度的影响

以交互距离、唤醒率(组内变量)，环境音量(组间变量)为自变量，唤醒满意度为因变量进行重复测量方差分析，结果发现交互距离主效应显著，F(2,35)=15.50，P<0.01，η2= 0.47，唤醒率主效应显著，F(8,29)=95.26，P<0.01，η2=0.96，环境音量主效应边缘显著，F(1,36)=4.02，P=0.05，η2= 0.10。唤醒率和环境音量的交互作用显著，如图1所示，F(8,29)=2.76，P=0.02，η2=0.43，其他变量间交互作用均不显著，P>0.05。事后检验表明交互距离为1 m时的唤醒满意度显著低于5 m，P<0.05，其他差异均不显著，P>0.05。

图1 唤醒率和环境音量在唤醒满意度上的交互作用

简单效应分析发现，40 dB环境音量下，除60%和65%、70%和80%、75%和80%差异不显著(P>0.05)外，其他差异均显著(P<0.05)；60 dB环境音量下，除60%和65%、70%和80%、75%和80%、75%和85%差异不显著(P>0.05)外，其他差异均显著(P<0.05)。

3.2 用户可接受和满意的唤醒率区间

根据用户满意度得分和唤醒率的散点图分布，可看出两者呈现线性相关关系，我们进一步以被试的满意度为因变量，以唤醒率为自变量进行一元线性回归，得到不同环境音量、不同距离条件的一元线性回归方程，如图2所示。

图2 40 dB和60 dB环境音量下不同距离的唤醒率与满意度关系

对实验数据进行分析，我们将满意度”4-一般”看做被试可接受唤醒率的得分，将满意度”6-满意”看做被试满意唤醒率的得分。通过线性回归分析，我们可以计算得到不同条件下，被试可接受(4-一般)和满意(6-满意)的唤醒率下限值，即被试可接受和感到满意的唤醒率最低要求。如表2所示，从表中可以看出，当距离为1 m时，40 dB和60 dB环境音量条件下唤醒率要分别高于93.6%和91.3%，被试才会感觉满意；当距离为3 时，40 dB和60 dB环境音量条件下让用户满意的唤醒率应分别高于92.9%和89.2%；当距离为5 m时，40 dB和60 dB环境音量条件下让用户满意的唤醒率应分别高于90.4%和85.8%。在可接受度方面，被试对“5 m&60 dB”环境下的容忍度最高，唤醒率高于55.4%被试感觉可以接受。

表2 不同环境音量和距离条件下被试可接受和满意的唤醒率下限

我们对实验后的调研量表数据进行分析，在影响语音唤醒体验的6个因素中，被试认为唤醒率、唤醒响应时间的感知重要性较高，如图3所示，它们对输出环节的体验具有较大影响。与之相比，输入环节的影响因素重要性略低，但仍有少部分被试认为唤醒词的设计会影响唤醒时的使用体验，如唤醒词是否容易发音、说起来是否顺口等。

图3 语音唤醒体验影响因素重要性

4 讨论

本研究聚焦智能音箱产品的语音唤醒体验，梳理和讨论了智能音箱语音唤醒体验的主要影响因素，并重点对语音唤醒率的体验进行了实验研究，研究发现不同环境音量、不同交互距离条件下的被试满意和可接受唤醒率存在差异。在低声压级40 dB环境音量条件下，1 m、3 m、5 m距离时被试满意的唤醒率下限分别是93.6%、92.9%、90.4%，可接受的唤醒率下限分别是74.6%、72.0%、69.0%；在中声压级60 dB环境音量条件下，1 m、3 m、5 m距离时被试满意的唤醒率下限分别是91.3%、89.2%、85.8%，可接受的唤醒率下限分别是69.5%、67.1%、55.4%。结合实验后对被试唤醒率评分原因的访谈发现，被试认为不同的交互距离和环境声音条件会影响他们的预期，这种预期会受到日常生活经验的影响，例如部分用户提及生活中当环境嘈杂和距离较远时，与人交流也容易出现信息没有被注意到的情况。此外，访谈中有少数被试反馈，会尽量避免在较远距离且环境声音嘈杂的情况下与智能设备交互，真实情况下被试更希望走近智能音箱，从而避免自己过高的唤醒音量产生的不适感，同时也提高语音交互的效率预期。除了交互距离和环境音量以外，我们还发现是否连续唤醒失败也会影响被试的语音唤醒体验，当连续出现两次以上的唤醒失败时，会严重影响被试的交互意愿，智能语音产品应该尽量避免连续唤醒失败的情况出现。

智能音箱类产品与智能车载或可穿戴类智能语音产品相比，由于交互距离和环境音量的不确定性，导致被试在不同条件下对唤醒率体验产生了不同的预期和要求。然而，用户满意度是用户预期的函数[19]，后续需要持续关注用户预期的变化，以及不同的用户交互意图差异的影响。此外，需要说明的是完全依赖语音技术解决唤醒率体验问题并不容易，综合对用户的交互意图进行判断，可能需要结合其他技术手段，例如视觉技术和大数据技术等。

5 结论

在影响语音唤醒体验的诸多因素中，被试对唤醒率体验的感知重要性最高，其次为唤醒响应时间体验。关于唤醒率的体验，在低声压级40dB环境音量条件下，1 m、3 m、5 m距离时被试满意的唤醒率下限分别是93.6%、92.9%、90.4%，可接受的唤醒率下限分别是74.6%、72.0%、69.0%；在中声压级60dB环境音量条件下，1 m、3 m、5 m距离时被试满意的唤醒率下限分别是91.3%、89.2%、85.8%，可接受的唤醒率下限分别是69.5%、67.1%、55.4%。