吴彦希,杨随先,刘行
汽车语音交互模型及设计策略
吴彦希,杨随先,刘行
(四川大学 机械工程学院,成都 610065)
在智能技术飞速发展、用户需求不断增长的背景下,以用户体验为中心,探索汽车工业“新四化”趋势下的汽车语音交互新形态,重构汽车语音交互模型,针对性地提出交互设计策略。分析车载语音系统与用户之间的信息交流过程,构建汽车语音界面架构和交互模型。通过“新四化”趋势下汽车语音交互在信息主体、信息范围和信息内容等方面的变化综述,运用信息处理流程理论开展汽车语音交互模型和设计策略研究。根据车载语音系统的信息处理流程,提出了以功能层、内容层、形式层、情感层为信息架构的汽车语音界面,构建了基于信息交流的汽车语音交互模型。基于语音界面的信息架构理论,提出了未来的汽车语音交互在功能拓展、内容丰富、形式优化和情感满足等方面的设计策略。从信息交流角度开展的汽车语音交互设计研究,对车载语音系统交互设计和体验优化具有参考意义。
汽车语音交互;语音界面;交互模型;设计策略
语音交互是以自然语言为载体进行信息传递的交互方式,其具有自然、便捷等特性,近年来被逐渐应用于汽车人机交互领域中。在汽车语音交互之前,人们通过操作物理按键实现了对车辆的控制,驾驶员能够由触觉通道直接感受到操作完成的反馈,使交互过程更加准确、可靠,但缺乏一定的灵活性。随后,中控屏的出现逐渐取代了传统的物理按键,并演变为主要的车内交互方式,特别是触摸屏的应用进一步丰富了汽车中控的功能,体现出信息可拓展的优势。信息量的增加给驾驶员造成了一定的干扰与负担,影响了驾驶的效率与安全[1],语音交互对听觉通道的利用,在很大程度上缓解了这一问题。若驾驶员在动态驾驶环境中需要发起交互,如修改导航地点、查询当前位置等,语音输入能够尽量避免对驾驶员双手或双眼的占用,减少对驾驶过程的打断,从而保障汽车人机交互的安全性与高效性。语言作为人们日常生活中最为普遍的交流方式,减少了语音交互的学习成本,提高了信息交流的自然感,因此,语音交互在车载场景中具有非常大的应用潜力。
当前,大数据、云计算、人工智能等技术在交通领域的应用,促发了汽车工业的第4次变革,即汽车工业的“新四化”(智能化、网联化、共享化和电动化)。在“新四化”趋势中,智能网联是核心内容,也是汽车交互形态更新的主要动力。“共享化”和“电动化”分别改变了汽车的出行模式和动力系统。在汽车行业转型升级的同时,用户日益增长的安全、效率及情感等需求提高了用户体验的满意度阈值。目前的汽车语音交互研究,较少涉及理论层面的汽车语音交互体验及设计研究。笔者以“智能化”和“网联化”为研究重点,通过对车载语音系统与用户的信息交流过程进行分析,构建并升级汽车语音交互模型,从而优化语音交互体验。
人机交互是信息交流的过程,在汽车语音交互设计之前,有必要对人机之间的信息交流过程进行研究,获取用户认知、用户体验与汽车语音交互设计的关联,以此找到更优的信息组织与表达路径。
1.1.1 信息的接收
汽车语音界面是车载语音系统与用户间进行信息传递的重要渠道,用户通过语音界面对汽车进行控制与交流。在信息接收阶段,用户将需求以语音指令的形式输出,被汽车语音界面接收,并进行简单的前端处理,包括语音唤醒、声源定位、声纹识别、端点检测等。例如北汽新推出的汽车ARCFOX αT,其各个车座都搭载了四麦克风PIC声场定位装置,在多人交流的情况下也能够识别用户的身份和方位,提升了信息获取的准确性。语音指令接收完毕后,汽车语音界面会将语音信息传递到后台处理器。
1.1.2 信息的处理
信息处理阶段包含语意识别、功能匹配、内容确定、语音反馈等重要环节。后台处理器的语音识别模块先将前端过滤出的语音信息编码为向量矩阵,通过声学、词汇和语言模型将单个向量解码为对应的音素、词汇、语句,并输出为文本信号。由自然语言理解模块对文本信息进行领域(Domain)、语意(Intent)、位置(Slot)的3级拆分,帮助计算机理解用户意图并与系统功能相匹配,从而确定反馈信息的类型与内容。通过对话管理和语义生成模块生成语法通顺的反馈文本,最后语音合成为可以听懂的、类似人类声音的信息后再进行输出[2]。
1.1.3 信息的反馈
在汽车语音交互中,语音是主要的但不是唯一的反馈方式,除了语音反馈外,中控屏界面是最主要的反馈形式。视觉界面在信息表达上具有丰富性、完整性、可重复性,能够很好地弥补语音信息在认知特性上的不足。针对不断增加的交互信息量,汽车语音交互可以通过提示音、表情、动效、灯光等方式,实现更加高效可靠的信息反馈,见图1。
图1 汽车中“语音+界面/表情/动效/灯光”的反馈示例
认知神经科学把人们对周围环境的认知过程看作是一种信息加工过程。参考王熙元[3]提出的信息传达结构模型,可将用户的信息处理过程理解为用户通过听觉、视觉、触觉等通道感知信息,并经过大脑的记忆、理解、思考等认知行为形成反应(行为反应和心理反应)。行为上的反应指输出决策,包括停止或继续对话、执行动作等。心理上的反应指用户在多次认知后形成一种面向汽车语音交互的主观感受,即用户体验,包括感官体验、行为体验和情感体验。感官体验来自汽车语音交互的不同反馈形式,包括听觉体验、视觉体验、触觉体验等。听觉体验与反馈语音的声音质量、声学特征、语音内容等因素相关,视觉体验主要受中控屏反馈界面中文字、色彩、图像等因素的影响。行为体验取决于用户是否能轻松、自然地进行语音控制,以及车载语音系统是否能准确、高效、可靠地完成交互任务。情感体验来自用户在行驶过程中的思考、联想、回忆等意识活动,是在感官体验和行为体验的基础上产生的心理感受的总和,包括安全感、信任感、愉悦感、掌控感等。
在用户认知中,汽车语音界面是语音交互信息组织和功能实现的主要平台,代表的是整个车载语音系统。汽车语音界面的信息架构与车载语音系统中的信息传递过程相关,可分为功能层、内容层和形式层。
1)功能层体现的是用户语音指令涉及的交互功能。根据对现有车载语音场景的分析,可将汽车语音交互功能归纳为车载导航、车辆控制、车况监控、多媒体娱乐、日常资讯等。车载语音系统通过对指令文本的理解与分类,来定位相关功能、调取应用界面、确定信息类型。车载系统中搭载的应用软件,也可以通过云服务平台来提供网络信息。
2)在功能层的基础上,内容层根据用户意图来确定内容范围、细化反馈信息。语音交互中的信息类型包括车辆信息、路况信息、环境信息、娱乐信息、社交信息、网络信息等。例如,当用户询问“还有多久到目的地”时,匹配的是车载导航功能,对应车辆信息中的车速、行驶路线和环境信息中的GPS定位等内容,系统通过计算后可以告知用户剩余的行程时间。除此之外,汽车语音界面的内容层还包括任务状态信息的反馈,如任务进行状态、任务错误环节等。
3)形式层指汽车语音交互中不同的反馈形式。车载语音系统会根据反馈的信息类型与内容,对不同的感官通道中的信息量进行分配,将交互信息以纯语音或“语音+”的形式反馈给用户。
目前汽车语音交互系统中信息交流的主体分别为用户(驾驶员和乘客)和车辆,用户输入的语音指令是信息交流的起点,汽车语音界面接收到指令后,将调取对应的功能进行显示,同时向用户反馈信息的处理状态,并根据信息内容以多种形式输出反馈结果。基于以上分析,构建汽车语音交互模型,以图像化表达汽车语音交互系统中的信息交流过程。目前的汽车语音交互模型见图2。
图2 目前的汽车语音交互模型
2020年2月,国家发改委提出智能网联汽车已成为全球汽车产业发展的战略方向。在以智能网联为主的“新四化”发展趋势下,汽车语音交互中的信息交流发生了变化。
1)信息交流主体数量增加。同一辆车会向不同的驾驶员和乘客提供出行服务,道路中的行人、车辆、信号灯等主体也会参与到信息交流中。
2)信息交流主体角色转换。用户不再是唯一的交互发起者,汽车可以基于用户信息主动响应用户需求。
3)信息交流范围扩大。驾驶场景中的用户能够通过汽车语音界面与家居、办公等场景进行跨设备、跨空间的信息交流。
4)信息内容多样化。随着信息主体的增加、信息范围的扩大以及情感交流的加入,车载语音系统可获得的信息内容更加丰富。
基于以上变化,对目前的汽车语音交互模型进行升级重构,提出未来的汽车语音交互模型,并以此讨论汽车语音交互的设计策略,见图3。不管汽车语音交互的信息交流网如何变化,语音界面作为汽车与用户的信息交流平台,始终是语音交互的核心,因此,汽车语音交互设计策略必须面向语音界面的各个信息层。
面部识别、机器学习、无线通信等新技术的应用,增加了车载语音系统获取信息的渠道,丰富了信息内容,为主动响应、自动驾驶、驾驶行为监控、个性化服务、智能互联等交互场景的拓展提供了实现基础。在汽车“新四化”趋势下,汽车语音交互涉及的交互信息类型见表1。
图3 未来的汽车语音交互模型
表1 汽车语音交互中涉及的交互信息类型
Tab.1 Types of interactive information involved in in-vehicle voice interaction
3.1.1 主动响应用户需求
主动响应的内涵在于车载系统能够主动感知用户、环境等信息的变化,预测用户的行为与意图,从而主动响应用户需求[5]。汽车语音交互的主动性体现在功能引导、主动交流、安全提醒等方面。对于“新手用户”,车载语音交互系统能够主动介绍其语音功能及流程,从而引导用户正确使用,还能持续记录用户的交互过程,在易错的环节主动给予语音帮助[6]。主动交流指在某些特定的场景(如长途驾驶或道路拥堵等)中,结合用户信息、场景变化和上下文语境,汽车主动发起关于旅途景点、当日新闻等符合用户偏好的话题交流,从而增加行驶过程的趣味性。安全提醒指车载语音交互系统及时将车辆、路况中的不安全因素报告给用户,如油量偏低、前方陡坡等,从而提升驾驶安全性。此外,主动响应还可以与驾驶行为监控、自动驾驶、个性化服务、情感交互等功能相融合,帮助用户完成信息收集、分析等工作,有利于减轻用户的认知负荷[7],并提升其驾驶体验[8]。
3.1.2 提供人机协作交流平台
自动驾驶意味着驾驶员会将部分或全部的汽车控制权让渡给车辆。针对自动驾驶的控制权转换流程,语音交互可以发挥建议与确认的作用,使用户将控制权的转换当作人机协作的一种形式,从而减少控制权缺失带来的不安全感等负面情绪。如在控制权移交前,语音告知用户在当前情境下进行自动驾驶的可行性与安全性,并给出相关建议,使用户在充分认知的情况下自主掌握开启自动驾驶模式的时机。控制权移交后,以“语音+”的形式给予用户接管成功的肯定答复,并随时汇报自动驾驶的运行情况。汽车语音交互提供的人机协作交流平台,能够有效提高以掌控感为代表的用户行为体验。
3.1.3 调整用户驾驶状态及驾驶行为
由于技术和制度的限制,目前自动驾驶汽车还未达到推广应用的标准,驾驶任务依然是未来较长时间内驾驶员的主要任务。车载语音交互系统通过对用户的声音情绪、面部表情、视觉注意、生理信号等信息进行监测,来实现状态测量及行为监控[9],其可以将结果转换为语音提醒,使用户集中驾驶注意力,也可以通过播放欢快的音乐,帮助用户保持清醒。同时,车载语音交互系统会对用户驾驶行为(换道、转向、控制车速等)进行持续关注,能够在问题发生前通过语音提醒用户,并给出修正建议。
3.1.4 提供个性化语音服务
当前,绿色出行、低碳生活等理念催生出了共享出行的产业形态,包括汽车租赁、共享服务等。当同一辆车被不同的驾驶员使用时,控制权转换与个性化服务将成为车内交互的重点。在语音交互技术的支持下,车辆可以通过声纹信息识别用户的身份,自动切换到对应的个人账号,与共享系统核对后打开控制权限,并根据账号中记录的行为偏好和历史操作等信息,设置、调整车内软硬件,从而营造出用户熟悉的驾驶氛围。车载系统可以对用户画像、行为偏好、行驶轨迹等信息进行全方位的分析和个性化的推荐,并适当调整语音顺序,优先表达用户更关注的信息,保证用户对关键信息的准确感知。此外,语音系统还应支持汽车语音形象的个性化定制,以满足用户自我塑造、追求独特的交互需求。在提供个性化语音服务的同时,车载系统还需要保护用户的个人隐私。
3.1.5 连接多设备多空间的信息交流
在单车智能升级的同时,无线通信技术搭建了车与车、车与人、车与环境之间的信息传输网络,使汽车从一个交通工具转变为智能的移动空间和应用终端。汽车语音交互不仅包括车内人机交互,还包括汽车与行人、车辆、道路设施甚至家居、办公等空间的交互。在驾驶场景中,用户通过语音界面获知周围车辆与行人的位置信息,以车外显示或协议通信的形式传递自身的行驶意图,通过多向交流提高交通的有序性。以道路设施中的信号灯为例,汽车通过接收行驶路段中每一处信号灯的信息,提前语音提示或辅助用户控制车速,从而减少拥堵情况的发生[10]。除了驾驶场景之外,用户还可以通过语音控制家居、办公等空间中的设备,或通过汽车语音界面与医疗、政务、旅游等场景产生互动。
3.2.1 复杂信息的有效组织与表达
随着汽车的智能化转型,汽车语音交互涉及的信息量和复杂度都大大提升,但正如诺曼所说,优秀的设计并不是减少复杂,而是管理复杂[11]。汽车语音交互设计应该以提供复杂但易用的交互为目标。为了降低用户的认知负荷,汽车语音交互内容层可以将用户的行为逻辑作为信息组织架构[12],整合有可能与语音指令产生关联的各类信息内容,通过分析、计算、筛选等步骤,先对用户疑问进行回应,再将相关信息作为补充进行表达。例如,当用户询问“现在几点”时,匹配的是日常资讯功能中的时间信息,但车载系统通过相同时间点的历史操作信息,可判断出用户正处于下班准备回家的状态,从而预测出用户的下一步行为可能是询问拥堵情况及返程时间,因此,可回应用户“现在是晚上6点,前方路况畅通,大约30 min后可到家哦”。
3.2.2 错误操作的人性化反馈
语音交互在车载场景中的应用仍处于发展阶段,因此,交互错误是不可避免的,需建立错误操作的应对机制来优化汽车语音交互设计,以提高产品的容错性[13]。车载语音系统可以先告知用户具体的错误环节,然后给出解决方法,使用户感知到系统处理交互错误的积极态度。若语音识别环节错误,可建议用户按照规定语序重新输入指令;若功能匹配环节错误,可建议用户尝试使用系统的其他功能;若动作执行环节错误,可引导用户以手动等形式完成操作。另外,为了避免重复的错误反馈导致用户负面情绪的增加,需要设计多个人性化的语音脚本,以提高汽车语言表达的灵活性,或通过增加表情等内容来提高语音的情绪效价[14]。
3.3.1 优化汽车语音形象
汽车语音形象是用户根据声音、语调、对话内容等要素形成的对汽车语音的拟人化印象,能够帮助汽车在人格层面上与用户建立关联,提升用户的情感体验。汽车语音形象包括性别、年龄、人机关系和性格特征等拟人化特质,其设计需遵循匹配性、相似性和一致性原则。性别、年龄、人机关系的设定需要与用户的个人喜好相匹配,如女性音色匹配男性用户、管家型角色匹配驾驶新手。用户对与自身性格近似的语音形象拥有更高的喜好度与信任度[15]。系统可通过分析用户人格特征为其选择性格相似的汽车语音形象,并保持拟人化特质之间的一致性,尤其是避免人机关系与性格特征的不适配。
3.3.2 促进多通道反馈融合
随着信息量的增加,汽车语音交互难以适应各种信息的反馈要求,多通道反馈不仅能弥补语音信息认知的不足,而且有利于减轻用户在单一通道中的认知负荷,使用户对驾驶空间形成全面的认知[16]。针对不同的交互场景,系统可根据汽车语音界面的功能层和内容层确定反馈信息的范围,筛选出语音信息不能表达或难以表达的内容,以界面、氛围灯、振动、香氛等形式进行辅助呈现,如通过中控台灯光来持续传达自动驾驶的运行状态。
智能技术的应用与发展,使汽车越来越像人们的出行伙伴。汽车语音交互将从信息交互转向情感交互,在语音界面中,可以从情绪感知和情感表达2个方面来增加情感设计,从而提升用户的情感体验。情绪感知即“察言观色”,车载语音系统通过语音指令的韵律特征、音质特征和频谱特征来分析语音情感,结合用户的面部表情、生理信号等信息来判断用户实时的情绪状态,以此调整汽车语音的语调、语速等,使其表现出与用户相似的情绪,从而拉近人机关系。人性化的语音形象是汽车情感表达的一大助力。此外,车载语音系统还可以通过上下车问候、节日祝福等形式,让用户获得被陪伴、被关爱的感觉,使用户对汽车产生依赖感。
目前,车载语音已成为智能汽车的基本配置,人工智能等技术的发展,使用户对未来的汽车语音交互场景抱有更高的期待,推动着汽车语音交互设计不断向前发展。笔者从信息交流的角度,概述了汽车语音交互的形成,以及其在智能化、网联化等趋势下的变化,通过对未来汽车语音交互模型的构建,提出了从功能、内容、形式、情感4个方面来完善汽车语音交互体验的设计策略,为车载语音系统交互设计和体验优化提供了参考。
[1] 李云辉. 智能网联汽车人机交互研究及多通道交互设计[D]. 北京: 北京理工大学, 2016.
LI Yun-hui. Research on Human-machine Interaction of Intelligent Connected Vehicle and Multimodal Interaction Design[D]. Beijing: Beijing Institute of Technology, 2016.
[2] 陈艳华. 基于智能交互的车载语音系统的设计与实现[D]. 北京: 北京交通大学, 2020.
CHEN Yan-hua. Design and Implementation of Car VoiceBased on Intelligent Interaction[D]. Beijing: Beijing Jiaotong University, 2020.
[3] 王熙元. 交互设计中的信息传达研究[J]. 包装工程, 2010, 31(12): 12-14.
WANG Xi-yuan. Research on Information Transmission in Interaction Design[J]. Packaging Engineering, 2010, 31(12): 12-14.
[4] 文晗. 基于情境感知的汽车人机交互界面设计研究[D]. 长沙: 湖南大学, 2016.
WEN Han. Study on Automotive Human Machine Interface Design Based on Context Awareness[D]. Changsha: Hunan University, 2015.
[5] 李璟璐, 孙效华, 郭炜炜. 基于智能交互的汽车主动响应式交互设计[J]. 图学学报, 2018, 39(4): 668-674.
LI Jing-lu, SUN Xiao-hua, GUO Wei-wei. Proactive HMIDesign Based on Smart Interaction[J]. Journal of Graphics, 2018, 39(4): 668-674.
[6] 窦金花, 齐若璇. 基于情境分析的适老化智能家居产品语音用户界面设计策略研究[J]. 包装工程, 2021, 42(16): 202-210.
DOU Jin-hua, QI Ruo-xuan. Research on Elderly-Adaptability Voice User Interface Design Strategy of Smart Home Products Based on Context Analysis[J]. Packaging Engineering, 2021, 42(16): 202-210.
[7] SCHMIDT M, HELBIG D, BHANDARE O, et al. Assessing Objective Indicators of Users' Cognitive Load During Proactive In-Car Dialogs[C]. New York: Association for Computing Machinery, 2019.
[8] IMAI R, WATANABE K, TSUBOUCHI K, et al. Proactive Car Navigation: How Can Destination Prediction Give us New Navigation Experience?[C]. New York: Association for Computing Machinery, 2019.
[9] COUGHLIN J F, REIMER B, MEHLER B. Monitoring, Managing, and Motivating Driver Safety and Well-Being [J]. IEEE Pervasive Computing, 2011, 10(3): 14-21.
[10] 张茫茫. 基于汽车的多主体多通道交互模型研究[J]. 包装工程, 2017, 38(20): 7-12.
ZHANG Mang-mang. Multi-Agent & Multi-channel Interaction Design Based on Vehicle[J]. Packaging Engineering, 2017, 38(20): 7-12.
[11] NORMAN D A. Living with Complexity[M]. Boston: The MIT Press, 2010.
[12] 贺孝梅, 李剑钰. 人机交互中认知负荷的成因分析与设计策略研究[J]. 包装工程, 2020, 41(10): 24-30.
HE Xiao-mei, LI Jian-yu. Cause Analysis and Design Strategies of Cognitive Load in Human-computer Interaction[J]. Packaging Engineering, 2020, 41(10): 24-30.
[13] 杨随先, 刘行, 康慧, 等. 互联网+智能设计背景下的交互设计与体验[J]. 包装工程, 2019, 40(16): 1-13.
YANG Sui-xian, LIU Xing, KANG Hui, et al. Interactive Design and Experience under the Background of Internet and Intelligent Design[J]. Packaging Engineering, 2019, 40(16): 1-13.
[14] 陈苍, 程鲲, 王文军. 表情符号在语音交互错误反馈中的作用研究[J].包装工程, 2021, 42(18): 159-164.
CHEN Cang, CHENG Kun, WANG Wen-jun. The Role of Emojis in Voice Interaction Error Feedback[J]. Packaging Engineering, 2021, 42(18): 159-164.
[15] BRAUN M, MAINZ A, CHADOWITZ R, et al. At Your Service: Designing Voice Assistant Personalities to Improve Automotive User Interfaces[C]. New York: The 2019 CHI Conference, 2019.
[16] 谭浩, 孙家豪, 关岱松, 等. 智能汽车人机交互发展趋势研究[J]. 包装工程, 2019, 40(20): 43-53.
TAN Hao, SUN Jia-hao, GUAN Dai-song, et al. Development Trend of Human-Computer Interaction in Intelligent Vehicles[J]. Packaging Engineering, 2019, 40(20): 43-53.
In-Vehicle Voice Interaction Model and Design Strategies
WU Yan-xi, YANG Sui-xian, LIU Xing
(School of Mechanical Engineering, Sichuan University, Chengdu 610065, China)
Under the background of rapid development of intelligent technology and the continuous growth of user requirement, this paper targets to focus on user experience and explore the new form of in-vehicle voice interaction with the "new four modernizations" trend of automotive industry. Also, it aims to reconstruct the in-vehicle voice interaction model and put forward the targeted design strategies. At the first, it discussed the process of information communication between the in-vehicle voice system and user, and proposed the in-vehicle voice interface structure and interaction model. After that, the changes of in-vehicle voice interaction in information subject, range and content under "new four modernizations" trend are summarized, and the in-vehicle voice interaction model as well as design strategies are studied with information processing theory. According to the procedure of information processing in the in-vehicle voice system, the in-vehicle voice interface composed of function layer, content layer, form layer and emotion layer is suggested. And then, models of in-vehicle voice interaction based on information exchanging are constructed. Finally, basing on the theory of voice interface information structure, the strategies of in-vehicle voice interaction design in the future are presented in terms of function expansion, content enrichment, form optimization, and emotion satisfaction. The research of in-vehicle voice interaction design from the perspective of information exchanging is of reference significance to the interaction design and user experience optimization of in-vehicle voice system.
in-vehicle voice interaction; voice interface; interaction model; design strategy
TB472
A
1001-3563(2022)10-0073-07
10.19554/j.cnki.1001-3563.2022.10.008
2021-12-11
四川省高校哲学社会科学重点研究基地工业设计产业研究中心课题(GYSJ2021-006)
吴彦希(1997—),女,硕士生,主攻交互设计。
杨随先(1965—),男,博士,教授,主要研究方向为产品设计理论、工业设计。
责任编辑:马梦遥