汽车座舱内语音交互的设计方法研究

2024-05-15 22:27裘亮
上海工艺美术 2024年1期
关键词:语音汽车用户

裘亮

With the popularity of intelligent automobiles, voice interaction in the cockpit has gradually become the mainstream interaction mode in the process of driving. This articleis intended to describe the principles and components of human natural language communication and analyze the essence of natural language communication.

随着智能汽车的普及,座舱内语音交互逐渐成为驾驶中的 主流交互方式。本文旨在探讨人的自然语言沟通原理和构成要 素,研究自然语言沟通的本质,分析汽车座舱内语音交互系统的 技术组成部分及其发展现状、存在的问题以及可能的解決方案。 通过综合分析当前技术趋势和用户需求,提出座舱内语音交互的 设计研究方法,以提高汽车座舱内语音交互的用户体验和功能 性、安全性、便捷性等。

一、汽车座舱人机交互中语音交互的崛起

汽车企业正在人工智能、软件服务、生态平台等方向积极 布局,让汽车在驾驶安全性、便捷性、智能化等方面得到全面提 升。其中语音交互作为一种自然而直观的交互方式,逐渐崭露头 角。通过快速集成免唤醒、语音增强、声源定位、声纹识别、自 然语音交互、主动式交互、智能语音提示等新的技术,使得驾驶 员在座舱不同区域可以通过语音指令实现车辆控制、导航等功 能,从而降低了驾驶过程中的注意力分散。

二、自然语言中语音对话的沟通原理

从本质上来说,语言是一种时序现象 ( t e m p o r a l phenomenon)。当我们理解和生成口说的语言时,我们是在处 理无限长度的连续的语言输入流。在处理书面文本的时候,虽然原则上我们可以随便在任何时刻访问文本中的任何成分,但是在 一般情况下,我们也是按照时间序列的顺序来处理它的。

三、语音交互机制中的技术组成部分

车内语音交互技术方案主要由语音增强、语音唤醒、语音 识别、语义理解、语音合成、音效增强这几大核心技术组成。

1.语音增强

语音增强是语音交互中的核心技术之一,旨在提高语音信 号的质量和清晰度。这一技术涵盖了多个方面,首先是降噪技 术,通过消除背景噪声,使语音信号更为清晰。降噪算法可以识 别并过滤掉来自环境的不必要声音,提升语音识别的准确性。其 次是回声消除,处理语音信号中的回声,避免在通信中出现回音 问题。这对于实时通话和语音助手应用尤为关键,确保用户的声 音不会被回音影响;再者是语音增益控制,调整语音信号的音 量,使其在不同录制条件下保持一致。这有助于用户在各种环境 中都能清晰地与语音系统进行交互。还有频谱平衡,平衡语音信 号的频谱,确保在传输和处理过程中不丢失重要声音信息。最后 是自适应性技术,使系统能够根据环境变化和语音输入的动态性 进行实时的调整,提供更稳定和适应性强的语音增强效果。这些 语音增强技术共同促使语音交互系统更加可靠、清晰,提升用户 体验并确保有效的语音指令识别。

2.语音唤醒

语音唤醒其主要目标是在设备处于待机状态时,通过语音 命令唤醒系统。唤醒词检测是语音唤醒技术中的关键技术,通过 专门设计的唤醒词检测算法,系统能够在休眠状态下持续监听环 境声音,只在监测到特定唤醒词时才激活语音助手或系统。为了 在设备待机时实现语音唤醒,关键是采用低功耗的处理技术。这 包括使用专门的低功耗处理器或采用深度学习模型的轻量级版本,以在待机状态下执行唤醒过程。环境噪声过滤,有效处理来 自周围环境的噪声,以确保唤醒词能够在各种声音背景下被准确 地检测到。系统还需要智能判断最佳的唤醒时机,以平衡灵敏度 和功耗。这通常涉及优化算法,确保在降低误唤醒率的同时,保 持高效的唤醒性能。通过用户反馈和数据学习,以提高系统唤醒 性能并适应不同语音环境和用户发音特点。这些技术共同确保语 音唤醒功能在实际使用中既能够高效工作,又能够最小化对设备 电池的消耗。

3.语音识别

语音识别是指系统通过分析驾驶者的口头指令,将其转化 为可理解的文本或命令的过程。这项技术使得驾驶者能够通过语 音与车辆进行交互。语音识别系统首先接收驾驶者的语音输入, 然后利用先进的语音处理算法和模型,将语音信号转换成文本形 式,转化的文本结果可以被车辆系统理解和执行相应的操作。关 键的技术包括深度学习、神经网络和声学模型,以便系统能够更 准确地捕捉语音信号中的特征,适应不同的语音环境和口音。

4.语义理解

车内语音交互的语义理解是推动智能驾驶体验的重要组成 部分。这一研究涵盖了多个关键方面,对提高交互的智能性、个 性化和适应性具有重要意义。

首先,语义理解涉及对用户语音指令的深层次理解,而 不仅仅是简单的语音识别。通过引入自然语言处理(NLP)技 术,系统能够更好地理解用户的意图、情感和上下文,从而更 精准地执行相应操作。在研究方面,深度学习和自然语言处理 的相互结合成为关键趋势。采用预训练的语言模型,如BERT (Bidirectional Encoder Representations from Transformers) 等,有助于捕捉更复杂的语义关系,提高对话系统的智能水平。

5.语音合成

语音合成技术旨在生成自然流畅的语音输出,使得车辆系 统能够以语音的方式与驾驶者进行沟通。近年来,深度学习方 法,尤其是生成对抗网络(GANs)和循环神经网络(RNN)的 应用,使得语音合成系统能够更好地模拟人类语音的韵律和语 调,提高合成语音的自然度。

6.音效增强

音效增强技术的一个关键目标是改善语音提示和反馈的清晰 度。通过采用先进的信号处理技术,如降噪和增强算法,系统可以 有效地抑制车内环境中的噪音,提高语音提示的可辨识度,使得驾 驶者能够更轻松地理解系统的信息。空间音效也成为了一个备受关 注的领域。通过利用多声道音频系统或头部定位音频技术,系统可 以实现更具空间感的语音效果,使得语音提示和警告能够更直观地 传达方向和距离信息,提高用户对车辆状态的感知。

四、目前国内外在车内语音交互上的应用现状

蔚来NOMI是蔚来汽车推出的车载智能语音助手,于2017年 首次搭载在蔚来ES8上。NOMI以“懂我”为设计理念,通过智 能语音识别、自然语言处理、情感识别等技术,为用户提供智能 化、人性化的座舱交互体验。

小鹏汽车的语音产品小P是小鹏汽车在智能驾驶领域的重要 组成部分,在实际使用中表现出良好的效果。在导航方面,小P 能够根据用户的指示快速规划路线,并提供语音导航。在音乐方 面,小P能够播放各种音乐,并支持语音选择。在电话方面,小 P能够拨打和接听电话,并支持语音控制。在天气方面,小P能 够提供实时天气信息,并支持语音查询。

理想汽车其首款车型理想ONE2020年上市,配备了业内领 先的语音交互系统“理想同学”,为用户提供了更加便捷和智能 的用车体验。

2023年,奔驰汽车宣布与OpenAI合作,将人工智能语音产 品ChatGPT应用在其汽车产品中。

五、车载语音交互的生成框架

一款优秀的车内语音产品,需基于应用层、技术层和硬件 层的分析来对体验层进行设计(图1)。在应用层包括导航功 能、音乐播放、电话通话、语音搜索等,需要考虑功能的实用性 和易用性,确保用户能够方便地使用这些功能。同时,还需考虑 与第三方应用的集成,以提供更多的功能选择。在技术层,需要 考虑语音识别、语音合成和语音处理等技术的选择和应用。语音 识别技术需要准确识别用户的指令和问题,而语音合成技术需要 提供清晰、自然的语音回答。此外,还需要考虑语音处理技术, 例如降噪和语音增强,以提高语音交互的质量。在硬件层,需要 考虑包括麦克风和扬声器的选择和布局,以确保良好的语音采集 和播放效果。同时,还需要考虑与车辆的硬件接口,例如与车载 娱乐系统和车辆控制系统的连接,以实现与其他系统的集成。

在体验层,需考虑用户的需求和使用场景,以提供良好的 用户体验。Norman认为设计应该以用户的需求和利益为基础, 以产品的易用性和可理解性为侧重点。为了帮助设计师能够全面 地从多个体验维度出发,设计出符合在行车环境下使用的车载语音交互产品,本文提出语音交互双圈体验模型框架(图2)。

模型内的体验分析维度包括如下几个方面:

1.基于技术层的语音形象交互状态

人们会更加渴望与我们交谈的对象是一个有性格有特点的 机器人而不是只会做冰冷反应的机器,为语音产品赋予人格特质 会让人们感知到产品更像一个人,从而带给用户更加真实的交互 体验。整个语音交互过程可分为,语音输入、语音处理、语音输 出这三个阶段,基于此语音形象在设计中需考虑到对应其交互过 程的展示状态。

2.基于语音响应速度制定语音交互策略

语音的响应速度对于语音交互的使用体验起到至关重要的 作用,除了在硬件和算法方面的优化外,还需要考虑数据传输的 方式,从而制定不同的语音交互方式,让用户在语音响应方面的 感知得到保障。数据传输方式主要包括本地语音处理和云端服务 两方面。

3.用户个性化自定义

实现个性化的语音助手,可以适应用户的口音、语速和个 性化偏好。例如,本地化方言识别和录制用户声纹并生成具有用 户特征的音色等功能,都能加强语音在个性化自定义方面的能 力。考虑不同驾驶员的需求和喜好,使驾驶员能够根据自己的习 惯进行个性化设置。

4.安全和认知负荷

传统的汽车控制方式,如触摸屏或物理按钮,需要驾驶者 将视线从道路上转移开,而语音交互通过简单的口头指令,减少 了对显示屏或控制按钮的操作需求,从而减少视线离开道路的频 率,降低潜在的交通事故风险。

5.多模态交互

考虑语音与其他交互方式的结合,例如,屏幕显示、手势 或图像、方向盘物理按键、DMS生物识别,这样可以提供便捷 的交互体验,简化原本的交互路径。

六、语音交互设计应用实例

1.语音形象交互状态

语音交互状态的设计需要在视觉层和听觉层考虑用户唤醒 语音时的系统反馈状态;在信息输入时,用户正在说话或发出语 音指令时,系统处于实时识别和处理语音输入的聆听状态,在视 觉层也需要考虑语音识别的过程;在语音输入后,系统应提供语 音或声音反馈,确认用户指令已被接受。在图形视觉上提供反 馈,例如按钮变化颜色或显示具有引导性的结果卡片,确认用户 操作已被记录,从视觉层和体验层构建语音形象在各个交互阶段 的交互展示状态(图3)。

2.语音交互设计-以导航功能为例

考虑用户可能同时使用语音、图形、车内物理按键交互, 确保在设计多模态交互方式時,相较于体验优化前,用户的交互路径更短;原有的导航交互路径由用户唤醒语音到开始导航,共 经历了五步交互操作(图4)。通过语音和方控按键结合的多模 态交互方式,可由原有的5步交互操作,简化为四步操作,并且 在驾车过程中,用户通过方控按键直接操作的方式,相较于点按 屏幕或者纯语音交互,效率更高也更加安全。

七、结语

未来的车载语音交互系统将更加注重多模态交互,结合视 觉、触觉和语音等多种交互方式。例如,通过手势识别和眼动追 踪技术,驾驶员可以通过手势或注视来控制车载系统,提供更加 便捷和直观的交互体验。同时车载语音交互系统将更加注重人机 融合,实现真正的智能化交互。通过深度学习和自然语言处理技 术,系统将能够更好地理解驾驶员的意图和需求,并提供个性化 的服务和建议。车载语音交互技术在不断发展和创新中,为驾驶 员和乘客提供了更加智能和便捷的交互体验。未来,随着技术的 不断进步,车载语音交互系统将更加智能化、个性化和多模态 化,为驾驶员带来更高的安全性、舒适度和便利性。

参考文献:

[1] 林小新. 汽车人机交互的前世今生[J]. 计算机与网络, 2018, 44(19):42.

[2] 王兴宝, 雷琴辉, 梅林海. 汽车语音交互技术发展趋势综述[J]. 汽车文摘, 2021(2): 9-15.

[3 冯志伟 , 丁晓梅 . 自然语言处理中的神经网络模型 [J]. 当代外语研 究,2022,(4):98-161.

[4] 彭志康 . 基于用户体验的语音交互产品设计研究 [J]. 大众文 艺,2019,(19):139-140.

[5] Norman,D.The design of everyday things: Revised and expanded edition. 2013: Basic books.

猜你喜欢
语音汽车用户
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
汽车的“出卖”
关注用户
关注用户
关注用户
汽车们的喜怒哀乐
如何获取一亿海外用户