汽车座舱内语音交互的设计方法研究

2024-05-15 22:27裘亮

上海工艺美术 2024年1期

裘亮

With the popularity of intelligent automobiles， voice interaction in the cockpit has gradually become the mainstream interaction mode in the process of driving. This articleis intended to describe the principles and components of human natural language communication and analyze the essence of natural language communication.

随着智能汽车的普及，座舱内语音交互逐渐成为驾驶中的主流交互方式。本文旨在探讨人的自然语言沟通原理和构成要素，研究自然语言沟通的本质，分析汽车座舱内语音交互系统的技术组成部分及其发展现状、存在的问题以及可能的解決方案。通过综合分析当前技术趋势和用户需求，提出座舱内语音交互的设计研究方法，以提高汽车座舱内语音交互的用户体验和功能性、安全性、便捷性等。

一、汽车座舱人机交互中语音交互的崛起

汽车企业正在人工智能、软件服务、生态平台等方向积极布局，让汽车在驾驶安全性、便捷性、智能化等方面得到全面提升。其中语音交互作为一种自然而直观的交互方式，逐渐崭露头角。通过快速集成免唤醒、语音增强、声源定位、声纹识别、自然语音交互、主动式交互、智能语音提示等新的技术，使得驾驶员在座舱不同区域可以通过语音指令实现车辆控制、导航等功能，从而降低了驾驶过程中的注意力分散。

二、自然语言中语音对话的沟通原理

从本质上来说，语言是一种时序现象（ t e m p o r a l phenomenon）。当我们理解和生成口说的语言时，我们是在处理无限长度的连续的语言输入流。在处理书面文本的时候，虽然原则上我们可以随便在任何时刻访问文本中的任何成分，但是在一般情况下，我们也是按照时间序列的顺序来处理它的。

三、语音交互机制中的技术组成部分

车内语音交互技术方案主要由语音增强、语音唤醒、语音识别、语义理解、语音合成、音效增强这几大核心技术组成。

1.语音增强

语音增强是语音交互中的核心技术之一，旨在提高语音信号的质量和清晰度。这一技术涵盖了多个方面，首先是降噪技术，通过消除背景噪声，使语音信号更为清晰。降噪算法可以识别并过滤掉来自环境的不必要声音，提升语音识别的准确性。其次是回声消除，处理语音信号中的回声，避免在通信中出现回音问题。这对于实时通话和语音助手应用尤为关键，确保用户的声音不会被回音影响；再者是语音增益控制，调整语音信号的音量，使其在不同录制条件下保持一致。这有助于用户在各种环境中都能清晰地与语音系统进行交互。还有频谱平衡，平衡语音信号的频谱，确保在传输和处理过程中不丢失重要声音信息。最后是自适应性技术，使系统能够根据环境变化和语音输入的动态性进行实时的调整，提供更稳定和适应性强的语音增强效果。这些语音增强技术共同促使语音交互系统更加可靠、清晰，提升用户体验并确保有效的语音指令识别。

2.语音唤醒

语音唤醒其主要目标是在设备处于待机状态时，通过语音命令唤醒系统。唤醒词检测是语音唤醒技术中的关键技术，通过专门设计的唤醒词检测算法，系统能够在休眠状态下持续监听环境声音，只在监测到特定唤醒词时才激活语音助手或系统。为了在设备待机时实现语音唤醒，关键是采用低功耗的处理技术。这包括使用专门的低功耗处理器或采用深度学习模型的轻量级版本，以在待机状态下执行唤醒过程。环境噪声过滤，有效处理来自周围环境的噪声，以确保唤醒词能够在各种声音背景下被准确地检测到。系统还需要智能判断最佳的唤醒时机，以平衡灵敏度和功耗。这通常涉及优化算法，确保在降低误唤醒率的同时，保持高效的唤醒性能。通过用户反馈和数据学习，以提高系统唤醒性能并适应不同语音环境和用户发音特点。这些技术共同确保语音唤醒功能在实际使用中既能够高效工作，又能够最小化对设备电池的消耗。

3.语音识别

语音识别是指系统通过分析驾驶者的口头指令，将其转化为可理解的文本或命令的过程。这项技术使得驾驶者能够通过语音与车辆进行交互。语音识别系统首先接收驾驶者的语音输入，然后利用先进的语音处理算法和模型，将语音信号转换成文本形式，转化的文本结果可以被车辆系统理解和执行相应的操作。关键的技术包括深度学习、神经网络和声学模型，以便系统能够更准确地捕捉语音信号中的特征，适应不同的语音环境和口音。

4.语义理解

车内语音交互的语义理解是推动智能驾驶体验的重要组成部分。这一研究涵盖了多个关键方面，对提高交互的智能性、个性化和适应性具有重要意义。

首先，语义理解涉及对用户语音指令的深层次理解，而不仅仅是简单的语音识别。通过引入自然语言处理（NLP）技术，系统能够更好地理解用户的意图、情感和上下文，从而更精准地执行相应操作。在研究方面，深度学习和自然语言处理的相互结合成为关键趋势。采用预训练的语言模型，如BERT （Bidirectional Encoder Representations from Transformers）等，有助于捕捉更复杂的语义关系，提高对话系统的智能水平。

5.语音合成

语音合成技术旨在生成自然流畅的语音输出，使得车辆系统能够以语音的方式与驾驶者进行沟通。近年来，深度学习方法，尤其是生成对抗网络（GANs）和循环神经网络（RNN）的应用，使得语音合成系统能够更好地模拟人类语音的韵律和语调，提高合成语音的自然度。

6.音效增强

音效增强技术的一个关键目标是改善语音提示和反馈的清晰度。通过采用先进的信号处理技术，如降噪和增强算法，系统可以有效地抑制车内环境中的噪音，提高语音提示的可辨识度，使得驾驶者能够更轻松地理解系统的信息。空间音效也成为了一个备受关注的领域。通过利用多声道音频系统或头部定位音频技术，系统可以实现更具空间感的语音效果，使得语音提示和警告能够更直观地传达方向和距离信息，提高用户对车辆状态的感知。

四、目前国内外在车内语音交互上的应用现状

蔚来NOMI是蔚来汽车推出的车载智能语音助手，于2017年首次搭载在蔚来ES8上。NOMI以“懂我”为设计理念，通过智能语音识别、自然语言处理、情感识别等技术，为用户提供智能化、人性化的座舱交互体验。

小鹏汽车的语音产品小P是小鹏汽车在智能驾驶领域的重要组成部分，在实际使用中表现出良好的效果。在导航方面，小P 能够根据用户的指示快速规划路线，并提供语音导航。在音乐方面，小P能够播放各种音乐，并支持语音选择。在电话方面，小 P能够拨打和接听电话，并支持语音控制。在天气方面，小P能够提供实时天气信息，并支持语音查询。

理想汽车其首款车型理想ONE2020年上市，配备了业内领先的语音交互系统“理想同学”，为用户提供了更加便捷和智能的用车体验。

2023年，奔驰汽车宣布与OpenAI合作，将人工智能语音产品ChatGPT应用在其汽车产品中。

五、车载语音交互的生成框架

一款优秀的车内语音产品，需基于应用层、技术层和硬件层的分析来对体验层进行设计（图1）。在应用层包括导航功能、音乐播放、电话通话、语音搜索等，需要考虑功能的实用性和易用性，确保用户能够方便地使用这些功能。同时，还需考虑与第三方应用的集成，以提供更多的功能选择。在技术层，需要考虑语音识别、语音合成和语音处理等技术的选择和应用。语音识别技术需要准确识别用户的指令和问题，而语音合成技术需要提供清晰、自然的语音回答。此外，还需要考虑语音处理技术，例如降噪和语音增强，以提高语音交互的质量。在硬件层，需要考虑包括麦克风和扬声器的选择和布局，以确保良好的语音采集和播放效果。同时，还需要考虑与车辆的硬件接口，例如与车载娱乐系统和车辆控制系统的连接，以实现与其他系统的集成。

在体验层，需考虑用户的需求和使用场景，以提供良好的用户体验。Norman认为设计应该以用户的需求和利益为基础，以产品的易用性和可理解性为侧重点。为了帮助设计师能够全面地从多个体验维度出发，设计出符合在行车环境下使用的车载语音交互产品，本文提出语音交互双圈体验模型框架（图2）。

模型内的体验分析维度包括如下几个方面：

1.基于技术层的语音形象交互状态

人们会更加渴望与我们交谈的对象是一个有性格有特点的机器人而不是只会做冰冷反应的机器，为语音产品赋予人格特质会让人们感知到产品更像一个人，从而带给用户更加真实的交互体验。整个语音交互过程可分为，语音输入、语音处理、语音输出这三个阶段，基于此语音形象在设计中需考虑到对应其交互过程的展示状态。

2.基于语音响应速度制定语音交互策略

语音的响应速度对于语音交互的使用体验起到至关重要的作用，除了在硬件和算法方面的优化外，还需要考虑数据传输的方式，从而制定不同的语音交互方式，让用户在语音响应方面的感知得到保障。数据传输方式主要包括本地语音处理和云端服务两方面。

3.用户个性化自定义

实现个性化的语音助手，可以适应用户的口音、语速和个性化偏好。例如，本地化方言识别和录制用户声纹并生成具有用户特征的音色等功能，都能加强语音在个性化自定义方面的能力。考虑不同驾驶员的需求和喜好，使驾驶员能够根据自己的习惯进行个性化设置。

4.安全和认知负荷

传统的汽车控制方式，如触摸屏或物理按钮，需要驾驶者将视线从道路上转移开，而语音交互通过简单的口头指令，减少了对显示屏或控制按钮的操作需求，从而减少视线离开道路的频率，降低潜在的交通事故风险。

5.多模态交互

考虑语音与其他交互方式的结合，例如，屏幕显示、手势或图像、方向盘物理按键、DMS生物识别，这样可以提供便捷的交互体验，简化原本的交互路径。

六、语音交互设计应用实例

1.语音形象交互状态

语音交互状态的设计需要在视觉层和听觉层考虑用户唤醒语音时的系统反馈状态；在信息输入时，用户正在说话或发出语音指令时，系统处于实时识别和处理语音输入的聆听状态，在视觉层也需要考虑语音识别的过程；在语音输入后，系统应提供语音或声音反馈，确认用户指令已被接受。在图形视觉上提供反馈，例如按钮变化颜色或显示具有引导性的结果卡片，确认用户操作已被记录，从视觉层和体验层构建语音形象在各个交互阶段的交互展示状态（图3）。

2.语音交互设计-以导航功能为例

考虑用户可能同时使用语音、图形、车内物理按键交互，确保在设计多模态交互方式時，相较于体验优化前，用户的交互路径更短；原有的导航交互路径由用户唤醒语音到开始导航，共经历了五步交互操作（图4）。通过语音和方控按键结合的多模态交互方式，可由原有的5步交互操作，简化为四步操作，并且在驾车过程中，用户通过方控按键直接操作的方式，相较于点按屏幕或者纯语音交互，效率更高也更加安全。

七、结语

未来的车载语音交互系统将更加注重多模态交互，结合视觉、触觉和语音等多种交互方式。例如，通过手势识别和眼动追踪技术，驾驶员可以通过手势或注视来控制车载系统，提供更加便捷和直观的交互体验。同时车载语音交互系统将更加注重人机融合，实现真正的智能化交互。通过深度学习和自然语言处理技术，系统将能够更好地理解驾驶员的意图和需求，并提供个性化的服务和建议。车载语音交互技术在不断发展和创新中，为驾驶员和乘客提供了更加智能和便捷的交互体验。未来，随着技术的不断进步，车载语音交互系统将更加智能化、个性化和多模态化，为驾驶员带来更高的安全性、舒适度和便利性。

参考文献：

[1] 林小新. 汽车人机交互的前世今生[J]. 计算机与网络， 2018， 44（19）：42.

[2] 王兴宝，雷琴辉，梅林海. 汽车语音交互技术发展趋势综述[J]. 汽车文摘， 2021（2）： 9-15.

[3 冯志伟，丁晓梅 . 自然语言处理中的神经网络模型 [J]. 当代外语研究，2022，（4）：98-161.

[4] 彭志康 . 基于用户体验的语音交互产品设计研究 [J]. 大众文艺，2019，（19）：139-140.

[5] Norman，D.The design of everyday things： Revised and expanded edition. 2013： Basic books.