孙大力 杨柳
关键词:语音用户界面 情境理论 视障者 智能语音交互产品 用户体验
引言
人机交互界面出现以来,该领域的许多研究都致力于通过提高计算机(系统)接口的功能性和可用性来改善人机交互体验,并在过去10年间取得了长足发展。交互方式更加基于多通道而非单通道,提供主动而非被动服务,并将新兴技术与传统交互方式进行结合,由此,人机交互界面变得更加自然和易于使用。
据统计,2025年全球语音交互市场规模将达到69亿美元。作为人机交互的重要领域。语音交互被广泛应用到智能家居、车载语音、智能客服等行业和场景中。随著亚马逊、苹果等各大公司都推出了智能语音产品,如何对这类以语音交互为核心的产品进行设计也成了一个值得探索的领域。目前,国内外针对语音用户界面的研究更偏向硬件技术,对软件层面的交互体验设计研究还处于空白阶段[1],业界也尚未形成相对规范的设计流程和方法。其次,设计研发阶段通常以场景为维度开展,缺乏对用户人群的细分研究。
目前我国约有1700万视力障碍者。语音交互的通道优势和自然性优势,理应成为视障者的福音。但纵观国内市场,面向视障者的语音产品还停留在阅读器、有声盲杖等传统设备上,交互性和智能化程度不足。而现有的智能语音产品在通用性上存在诸多问题,未能真正兼顾视障者使用需求。未来语音用户界面将会成为链接更多智能设备和更美好生活方式的中心,需要考虑规模庞大的视障用户的需求,通过技术突破和设计创新,帮助他们填补残疾造成的空白,生活得更加便利。
一、语音用户界面概述与研究现状
(一)语音用户界面概述
语音用户界面(voice user interface,简称VUI),主要是指为用户提供语音交流与互动的计算机平台,能够实现自动化的服务并提供完整的相关流程[2]。简单来说,VUI允许用户使用语音与系统进行交互。一次完整的语音交互,从用户输入指令开始,至少要经历语音识别(ASR)、自然语言处理(NLP)、文本语音合成转化(TTS)三个主要流程。语音识别对识别到用户输入的音频进行分析,并得到对应的语音文字信息。自然语言处理将用户指令转化为结构化的、机器可以理解的语言。在充分理解用户意思后调出相应的回复文本,通过语音合成将其转化为声音反馈。以小爱同学为例,一条语音请求的处理过程如图1所示。
(二)语音用户界面的特点
相比发展完善的图形用户界面,语音用户界面的出现有其必然性:
特别场景下的高效率。相比图形用户界面受操作路径的限制,VUI可以突破界面层级直达命令。在居家、出行、会议等场景下,充分解放用户双手,显示出更高的效率。
贴近本能。用语言表达交流是人类的本能,对于用户来说,对话比程序操作有着更低的学习成本和技术理解要求。
亲切人性化。图形用户界面通过视觉图像、文字去传达和接收用户需求,语音用户界面的输入输出则包含了更多感性信息,如语气、音调等,使交互更“有感情”。产品背后的人格化内核,也使用户对科技的想象有了明确的情感载体。
语音用户界面在提高交互效率、创造自然交互体验等方面具有优势,符合设计所追求的自然、亲切目标。但由于语音技术发展还不够完善,语音用户界面仍存在着许多缺点。例如在应对背景噪音、方言等问题时识别准确率不够高,输入不受控导致输出内容不确定,语音交互信息展示量有限等,除此之外,输入输出操作的私密性和公共性也是语音交互无法逾越的边界。总的来说在准确性、信息输出展示、适用场景等方面还有待提高,设计时需要通盘考虑。
(三)语音用户界面设计研究现状
随着互联网、物联网、人工智能和大数据的发展,智能家居产品被广泛应用于为用户提供智能便捷的服务中。关于智能产品的语音用户界面,国内学者开展了一系列的研究探讨。廖青林等[3]通过实证研究、问卷调查和数据分析,得出用户与智能家居产品的情感互动程度决定产品智能化程度的结论。周文祥等[4]通过分析和探讨人际交流与对话特征,提出适用于智能语音情感交互的设计方法,一感知用户的情绪状态,二是设备自动替换相应状态并给出恰当响应。窦金花等[5]基于情境分析对适老化智能家居产品的语音用户界面进行了研究与改进,改善了老年群体在智能家居产品操作中的使用感受与交互体验。汪海波等[6]同样针对老年人存在的问题,对电视机的语音用户界面设计进行了改良,从老年用户认知逐渐老化、听觉感知下降、不易读懂视觉界面等弱点出发,提出了4个层次的设计策略。吴宇等[7]通过对VUI与GUI在不同使用场景与交互体验中的优劣势进行对比,提出了以语音交互为中心的界面设计方法。综上所述,以语音为核心的用户界面设计是符合时代潮流、符合用户实际需求的,具有广阔的发展应用前景。
(四)语音用户界面设计流程
针对语音用户界面的设计过程,与图形用户界面完全不同,目前业内还没有建立统一的方法和流程。以谷歌提供的语音用户界面设计规范为例,流程如图2所示。
二、视力障碍者使用语音交互产品的情境分析
互联网和人工智能时代,设计更加注重用户体验,并尝试使用新技术感知用户需求。需求通常构建在一定的情境条件下,将情境作为设计的重要基础因素,能够使设计人员站在用户的角度,组织人-机-环境系统中的相关要素,模拟出合理的产品发展方向,创造出更好的用户体验。视障用户由于自身视觉通道的缺失和外部环境的复杂性,更需要设计人员充分理解使用情境与需求,实现以用户为中心的设计。
(一)情境理论
B.Schilit教授1994年提出的情境理论来源于普适计算的研究,并将其描述为关于人与周围环境的展示以及这些物理属性的变化[8]。《现代汉语词典》对情境的解释是:在一定时间内各种情况的相对的或结合的境况。在设计学中情境是人、机、环境相联系时所呈现的样貌和所处的状况,包括产品存在的大环境以及相互间的动态交互。根据研究涉及的不同系统,情境有不同的划分方法。Schmidt将情境划分为与人相关的情境和与物理环境相关的情境,Jack Gwizdka则将情境分为最基本的内部情境和外部情境,内部情境用来描述用户自身状态,如用户情境;外部情境用来描述外部环境状况。本文以居家环境下的智能语音产品为例,基于Jack Gwizdka的划分方法,将视障者使用产品时的相关情境划分为四种:用户情境、时间情境、环境情境、任务情境,并以此展开情境分析。
(二)视力障碍者使用智能语音产品的情境分析
1.用户情境:指与用户特征相关的信息,主要情境因素如表1。用户情境复杂且难以衡量,通常归纳为生理、认知心理和情感特征三个方面。(1)生理特征方面:人类大约87%的信息来自视觉[9]。视力受损的人倾向于调动所有可用的认知器官来弥补视觉缺陷,这种机制叫作感官代偿。其中听觉提供了大脑接受信息比例的11%,是仅次于眼睛的第二大感官,视障者通常会更加善于捕捉声音信息。(2)认知心理方面:结合认知心理学对视障者的信息处理过程进行分析。知觉的产生來自于视障者从外界获取信息,因此要保证语音输出的有效性和及时性。注意力的产生受个体信息承载能力和周围环境水平影响,设计时需综合考虑信息展示通道、视障者信息承载量等。记忆过程的机制显示,语言表达在感觉记忆向短时乃至长时记忆的转化中起到了重要作用[10],且视障者的记忆以声音和皮肤触觉为主,设计中可以充分利用语音提示和触觉设计,帮助提升记忆持久度。(3)情感需求方面:失明重新组合并严重改变了每个视障者的心理活动,影响着他们的情感状态[11]。视障者通常表现出更多的孤独感、依赖性、自卑情绪和不信任感,对于安全感、熟悉感、确定性和自我效能感有着强烈需求。在产品使用时希望对功能具有明确性和掌控感,语音交互更加亲切、有温度。
2.时间情境:指用户不同时间所发生的行为,通常包括日常事件时间和特殊事件时间。视障者日常事件时间往往相对固定,如每天起床和休息时间、烹饪就餐时间。在日常生活中,又存在着诸多由不同生活习性导致的个体差异或特殊活动安排(如购物、就医等),具有不确定性和不规则性。设计时应尽量满足视障者时间上的通用需求和个性化需求,尽可能针对用户时间规律进行感知、记录。
3.环境情境:指用户周围的物理和社会环境信息,包含时间、温度湿度、光线强度、社会风俗等。视障用户所处环境信息复杂多变,且难以凭借其他感官或经验判断,一定程度上影响了产品使用体验。设计时应对环境中必要接触因素和非必要接触因素进行划分,保留有益于经验养成的必要接触因素并鼓励尝试,对会形成感知偏差或危险的非必要接触因素的信息获取方式进行替换,使用传感器技术提高产品主动感知和反馈的能力,给予视障用户及时提醒。
4.任务情境:指对用户完成当前任务或相关事件、行为有影响的设备与服务的描述,包括用户为完成这项任务表现出的动机、行为、具体操作、遇到的阻碍、与系统的交互方式和交互质量、设备类型和状态等。视障者使用产品的动机,来自于用户对自身需求和产品功能的明确,智能语音产品的产品定位和功能大多建立在为视障者日常生活提供便捷有效的服务如智能控制、陪伴、娱乐等,在使用初期就需要使视障者足够了解,并产生使用需求。交互方式是否简单自然,语音输出是否符合对话惯例,反馈是否及时有效,是否预设了所有可能出现的需求和异常情况,都将影响到视障者本次的交互质量和任务体验。
三、面向视障用户情境的智能语音产品VUI设计策略
用户需求通常建立在一定的情境条件下,各情境下的语音用户界面设计策略也同样要满足用户需求。通过情境分析,梳理出视障用户使用智能语音产品时的各类需求如图3所示,并提出不同情境下的视障者语音产品设计策略,帮助指导相关设计研究实践。
(一)用户情境下的设计策略:在于充分理解视障者的特征及偏好,提供相关度高的智能化、人性化服务。
1.多用户体验。每个用户都有不同的使用习惯和偏好,用户也希望智能语音产品能够真正“认得”自己。面对视障者和家人差异化的需求,通过声纹识别等技术,既可以非常自然的实现用户身份切换,又能够记录不同用户生活习惯,从而提供有针对性的服务,如不同响应方式,“定制化”答案等,使每个成员都能通过同一终端设备获得截然不同的使用体验。例如,当视障用户提出查阅文本信息的请求时,产品通过识别用户特征,从而采取更恰当的“音频”播放而非“视觉”展示形式。
2.多模态交互。语音用户界面传达的信息是线性且不易记忆的,多模态交互融合了视觉、听觉、触觉等多种交互方式,使信息表达的效率和完整度更高。例如,手机语音助手通常采用可视化的GUI,如动态的圆圈气泡、声波线,使反馈更加直观;无屏音箱语音助手通常利外置按键和氛围灯的闪烁变化来提高感知准确度。视障者使用的智能语音产品应当以语音作为主要交互方式,结合视障用户群体特征和行为偏好,在唤醒、输入、理解、反馈等环节的交互过程中,融入物理按键、灯光、震动、短音效等多模态交互方式,为视障用户提供更容易感知的输入输出选项,并使通道间做到真正的协同,实现融合自然的交互体验。
例如智能音箱Google Home的语音交互方式,如图4所示,顶部触控面板上四种颜色的LED灯,根据任务不同阶段呈现不同的样式,扬声器格栅底部可以依据用户喜好更换不同的材质颜色。Google Home从用户行为习惯与偏好出发,高效率捕捉用户特征,提供个性化、便捷性、易感知的服务,为智能语音产品交互设计提供了重要参考。
3.人性化感知。声音的自然感是语音交互被用户感知的基础条件,音色通常为成熟或可爱的女声,并与产品定位相吻合。在视障者语音产品设计中,需要明确产品的工具和情感属性,表达科技的人文关怀,例如活泼语调更能迎合视障者的心理期望,积极且富有变化的语气词在帮助视障用户理解交互进度的同时还能传递情感。除了声音以外,人格化的 VUI 能够使用户感知和情感传递更具真实性[12]。通过设计产品人格化内核和视觉化形象,一定程度上能够弱化产品的科技感,提高视障用户对新技术新事物的接受程度。例如小度使用了机器人卡通形象作为AI的概念表达,小爱同学的形象则是一个极具科技感又像个邻家女孩的红色短发机甲少女,如图5,包含的4种音色也分别拥有自己独特的声音的人设性格。
(二)时间情境下的设计策略:在于针对用户时间特征,提高系统的适应性和灵活性。
1.适应性。适应性意味着语音用户界面设计必须适合一系列工作模式,包括用户日常事件时间。它面向一类用户,并负责满足80%的用户需求。在设计中要考虑多数视障用户的时间特征和一般条件。例如大部分视障用户具有相对规律的起床时间和闹钟唤醒需求。
2.灵活性。灵活性允许用户根据特定目的调整界面。当一些情况无法被考虑到时,大约20%的空间应当保留在语音用户界面设计中,允许单个用户自定义其语音用户界面以适应其个性化时间需求。
(三)环境情境下的设计策略:在于理解特定环境信息需求,构建舒适的物理环境和智能化体验。
1.主被动服务相结合。环境情境下,一些物理环境参数如室温、位置等影响产品使用体验,且较难凭借感官或经验直接判断。通过传感器对环境信息进行度量、监测,基于用户指令,弱化用户输入,强化信息主动输出,提升视障者与产品的互动频率和智能化体验,满足在环境下的生理需求和信息需求。例如当用户提出“帮我把热水器设定到45摄氏度”,产品在达到预设条件后主动发起对话提醒,免除用户再次询问,既降低视障者的记忆负荷,又能主动引导其进行交互。
2.自适应功能。听觉感知是视障用户获取信息的重要途径,也是理解和反馈从而产生交互行为的前提,被视障者捕捉到声音不总是那么容易,这受到周围噪声和人机距离的影响。在语音交互设计时需要赋予产品根据环境自适应调整的能力,以保持稳定的自身性能和使用体验。例如烹饪时一般伴随较大噪音(如火焰声、沸腾声、抽油烟机声),导致视障者对产品提示的听觉感知受到影响。如果语音输出音量能够自动升高,以保证声音始终被听到,将大大降低厨房危险。
(四)任务情境下的设计策略:在于根据任务情境信息构建连续自然的服务体验。如图6所示。
1.有效的交互引导。语音交互输入的不确定性会导致输出结果的不确定性。有效的交互引導可以帮助视障用户快速了解产品使用方式,愉悦地完成任务目标,从而满足其尊重需求和自我实现需求。常规设计中会根据场景不同使用红点引导、气泡引导、蒙层引导、互动式引导等多种方式,在视障者语音产品中更适合使用教学式引导,进行新手教学和对应业务教学。新手教学重视产品的易学性、引导的有效性,同时还需考虑愉悦性,多给予正向反馈,使视障用户获得成就感。业务教学则需要结合使用场景,具体问题具体设计,通过将教学融入自然对话的沉浸式引导方案,启发用户快速学习。例如指令教学时给出示例而非简单说明,使用“可以告诉我你的生日吗?比如1980年10月10日”,而非“可以告诉我你的生日吗”。
2.明确边界感。语音用户界面不受层级和预设路径限制的特点,意味着交互过程中用户需要探索其功能边界,这种模糊性给视障用户造成极大的不安感。基于视障用户使用时的安全需求,控制上,通过交互引导使视障用户清楚可控制的范围及方式,强化输入规范性。反馈上设计视障者易于感知理解的反馈方式,使其充分捕捉任务状况,如设计不同语调的系统提示音指代不同任务结果。语音或音效反馈尽可能及时,避免产生紧张心理。输入确认策略要基于视障群体特征进行设计,帮助其明确产品如何理解自己。尽可能使用时间线(如“首先”)、接收回执(如“知道了”)和积极反馈(如“做得好”)等对话式标识,使其了解交谈进程和任务情况[13]。恢复:支持设定的同时也支持暂停、取消,最好设置对应物理按键,提高视障者使用产品时的可控感和容错性。
结语
人类最早的交互方式之一就是语言,随着人工智能时代的到来,在追求自然交互方式的驱使下,我们又再次回到了语音交互。未来人们生活中的语音用户界面将更加具备去中心化、多模态融合、服务场景化的特点,极大地改善了视障用户和其他残障群体的生活质量。基于情境分析的语音用户界面设计更加以用户为中心,使设计要素与使用情境、用户需求相对照,保证了产品的使用体验。面向视障群体的语音用户界面设计充满复杂性和挑战性,借助人工智能技术和交互设计的发展,一定会更高程度地满足视障者在不同情境中的需求,提供更加便捷的人机交互和令人愉悦的用户体验,成为视障者的生活伙伴。