智能座舱多模态交互技术发展现状及趋势

2023-01-31 02:12李亚楠
汽车实用技术 2023年1期
关键词:交互技术座舱语音

刘 尧,李亚楠

(中国汽车技术研究中心有限公司,天津 300380)

随着通信技术、传感技术、人工智能、互联网大数据分析等新科技的进步与发展,汽车市场的定义也开始产生了变化。智能化、网联化、电动化、共享化是如今电动汽车产业发展的主流方向。电动汽车也正在逐步地由单纯的机械交通工具,过渡为个性化的智慧终端。在汽车新四化趋势下,用户体验成为现在汽车产业转型的重要发力点。而汽车智能座舱内智能性、情感性、高效性等方面的用户体验必将成为用户选择汽车品牌的重要依据。调查研究表明,在我国消费者购车的关键因素中,座舱智能技术是仅次于汽车安全配置的第二大指标,重要程度甚至高于汽车动力性、经济性等因素[1]。

智能座舱,是指搭载了高度智慧与网联化科技的车辆产品,是基于使用要求和使用环境,能自主洞察和感知,从而形成的一个智能的移动交互环境和体验空间。智能座舱可以实现人、车、路之间的互动交流,是人车关系从工具使用向情感沟通的重要纽带和关键场所。智能座舱以其在带给用户最直观的愉悦、舒适、方便体验方面的优势,已逐步成为汽车发展重点探索的领域之一。作为智能座舱的核心技术,多模态交互技术实现了声音、手势、眼神捕捉等多种模态的融合,未来必将取代单一的语音交互模式[2]。

1 汽车座舱与智能座舱

在世界汽车工业 100多年的发展历史中,汽车座舱经过了机械化时期和电子化时代,正在走向智能信息化时代。机械化时代的汽车座舱,主要使用机械式和简易物理装置进行单一功能和基本信息地获取;电子化时代,音响、小型液晶显示屏等开始广泛使用,以及具有高度娱乐性的播放影片、音乐和离线导航等基本功能。目前,信息化与智能化的时代,互联网加人工智能、大数据一起进入汽车领域,进入了汽车座舱,带动汽车走进智能网联化时代,座舱开始成为驾乘人员可以发号施令的自主舒适智能移动空间。这个自主舒适移动空间,现在一般称作智能座舱。

1.1 汽车座舱

“座舱”不是汽车的正规用语,汽车行业有二个相关术语描述座舱这个空间:一个是“客舱”,“供乘员利用的地区,即司机区和乘务员区的统称”,出自《汽车车身用语》(GB/T 4780—2020);还有一种是“乘员舱”,“由顶罩、天花板、侧围、门窗、单玻窗和前围、后围或后座靠背支承板,和避免乘员触及带电部分的电气防护遮栏、外壳等围成的,承载着乘员的空间”,来自《电动汽车术语》(GB/T 19596—2017)。两项标准中规定的客舱或乘员舱就是汽车座舱,一个带沙发的金属房间,让驾驶员和乘客享受相对安全、舒适和便捷的驾乘体验,设备多倾向于机械式,满足的功能相对单一,驾乘人员手动操作发出指令,能做的提升也相对有限。

1.2 智能座舱

智能座舱就是汽车由机械化、电子化时代进入信息化、智能化大数据时代的必然产物。关于智能座舱方面的术语、定义还需在新时代标准化工作中不断补充完善。

智能座舱是在保持原有传统的驾驶舱所具备的安全、舒适和便捷性基础上,以液晶显示屏取代了普通物理按钮,人机交互手段便利多元,自动化、网联化水平大大提高。智能座舱的基础是人机交互技术,但人机交互目前主要是利用语言交互技术来实现,驾驶者可以专心于行车视觉上,而不需通过听觉即可实现要求、通过说话完成非驾驶动作的需求。不过,当前智能座舱的语言通讯系统,在情感性、多轮对话、唤醒或打断等方面仍有一定困难,特别是不能领会命令实质。而多模态交互技术能够使人机交互整个过程更加立体、高效和低误差,必将成为未来智能座舱发展最为核心的技术之一。

2 语音交互技术和多模态交互技术的发展

2.1 语音交互技术

近年来,智能、网联、大数据功能不断渗入汽车领域,且成本逐年降低,智能座舱逐步成为中高端品牌车型的必备选项。它给驾乘人员提供了立体化人机交互智能、舒适、情感体验的移动空间,这其中最早使用的技术是语音交互技术,也就是人机对话。

语音交互技术是相对简单的技术,主要包括语音识别技术(Automatic Speech Recognition,ASR)、自然语言处理技术(Natural Language Processing, NLP)、语音合成技术(Text To Speech,TTS)等,也就是通过声音识别、声音处理生成指令要求[3]。

汽车是一个各种噪音的组合体,包括轮胎噪声、风阻噪声等,极易干扰语音交互系统的工作,除去噪声干扰需要一些技术处理工作。语音识别技术(ASR)是将声音转化为文本信号,通过声音模型数据库和文本模型数据库进行相应的比对和识别。自然语言理解(Natural Language Understanding, NLU)通过文本分析、分类、检索、信息抽取、文字校对等流程将声音转化为信息化指令。对话管理(Dialogue Management, DM)通过分析对话产生系统决策。语音合成(TTS)是将自然语言生成(Natural Language Generation, NLG)所生成的文本通过文本处理和音色频率处理,最终通过语音库进行语音合成。具体语音交互技术流程如图1所示。

图1 语音交互技术流程

如图1所示,当乘员用语言发出需求指令时,车辆通过预处理找出乘员发出语音指令的声音,通过声音识别对声音进行信息转化,通过功能转化筛选出乘员需要的相关服务功能需求,在对话管理中将声音转换所生成的指令进行回应。最终通过声音生成和声音合成组合模式,以对话的形式回复乘员,最终形成语音交互行为。

近年来随着人工智能、芯片、大数据、传感等技术逐渐兴起,语音交互技术已在手机等很多领域广泛应用。汽车作为新的终端用户,使用这个技术可以给乘客更安全、高效、简单的驾驶体验,所以语音交互已是智能座舱的最重要的组成部分,是智能座舱生态系统的核心环节和首选。

2.2 声纹识别技术

根据文献[4],每个人的发音特色都不相同,声纹和指纹一样,都是每个人的独特标志。一个人成年之后,他的声纹基本是固定的,很难变化。声纹识别术就是基于这种特性可以利用每个人的说话声来确定不同人的身份。在现在的智能座舱领域,声纹识别技术在语音交互中正处于起步研究与测试标定阶段。它通过提取录入使用者的一定时间内的有效声音,辨识出有效声纹特色,录入声纹数据库。当车辆用户再发出语音指令时,可首先通过数据库进行比对。智能座舱人机交互系统可以听音辨人,为车上每个用户提供个性化服务。这个技术也利于车辆安全,用户也可更容易地控制车辆[5]。

2.3 多模态交互技术

车与驾驶人的交互在车辆行进过程中一直存在。车辆向驾驶人或乘员提供各种信息,同时驾驶人根据相关信息做出必要的合理反应,这就是信息交互。随着电子、传感器等技术的不断发展,汽车已经是一个比较智能的“机器人”,传统的交互方式已经不适合现在的技术背景下用户对于汽车智能座舱的智能性、舒适性、情感性的需求,多模态交互技术成为智能座舱设计的核心技术之一,融合了触摸交互、手势交互、凝视与头部姿态交互、语音交互等多个模态,其表达效率和表达的信息丰富和立体程度都远远优于单一的语音交互模式。

3 多模态交互技术应用现状及趋势

智能座舱多模态交互技术在不断的发展中,目前比较主流的技术有信息识别、车载多维人机界面系统和新兴汽车智能单元三个领域。

3.1 信息识别技术

汽车人机交互指令信息辨识技术,一般有触觉辨别、动作辨别、凝视辨别、头部姿势辨识和语音识别等。从目前汽车行业人机交互界面的发展状况分析,未来汽车行业人机交互方法将越来越多样化,更多的人机界面设计都将偏向于把视觉、听觉、触觉等多种感觉通道进行综合设计,达到信息识别的最优化。

3.1.1 触摸识别

智能座舱内的显示触摸屏,触摸识别类似过去的按钮,但功能远超按钮。其包含的关键技术涉及触觉传感器、电容式触觉传感、接近感应和触觉反馈。其中,技术核心是高性能的触觉传感器。这种依托于材料科学、柔性电子技术、纳米技术的高性能触觉传感器显著提升了智能座舱内触摸屏可触摸识别功能板块的分辨率和灵敏度,在未来有望实现进一步的功能和场景突破。

3.1.2 手势识别

手势识别这种最基本的人类肢体语言能够区分二维手势辨识和三维手势辨识。二维动作识别即静止手势,如点赞、用手去比划数字等。一些复杂手势需要通过 3D摄像头和先进的车载传感器结合进行检测。由于车舱内摄像头数量逐渐增加,再加上多模态混合技术和人工智能技术(Artificial Intelligence, AI)算法的提升,各种优秀的车载感应器的性价比将提高,手势识别装置也会在提升手势识别信息库的丰富程度、识别时间和高效可用性等方面有所突破。

3.1.3 视线识别

人眼状态是驾驶员发出的重要信息,驾驶员在驾驶过程中视线处于哪个位置、短暂凝视状态,都是有用信息。特别是车上有语言、行为障碍的用户,这是一种相对简单、直接的交互方式。它需要眼球追踪器和远红外光线模组进行视线捕捉、追踪。头部位置识别相对浅显易懂,如简单的点头、摇头动作。可与视线识别进行融合。

3.1.4 语音识别

在多模态交互技术中,语音交互也是第一核心技术。智能座舱中的大部分功能场景,如导航、打电话、调节车内温度、听音乐都可通过语音交互来完成,语音交互功能可依靠深度学习软件不断提高识别水平。

科大讯飞在目前智能语音助手行业占有重要份额。在智能座舱领域,科大讯飞与绝大多数国内自主品牌车企、合资品牌车企合作开发语音助手。科大讯飞率先推出的声源定位技术、窄波束定向识别技术、全双工立体声回声消除技术定义了如今智能座舱内语音交互的主流技术。

3.2 车载多维人机界面

汽车人机交互界面作为人和车辆之间交互频率很高的重要区域,以集成的多界面、多模态和多区域的新形态,向汽车多维人机界面方向发展。

3.2.1 智能多模态交互人机界面

智能多模态交互人机界面目前逐渐成为智能座舱行业研究和发展的热点。与之前交互人机界面相比,它更有直观性和高效性,适应了智能座舱日趋复杂的情景要求。智能多模态人机交互界面结合了语音交互、手势交互、视线交互、头部位置交互、触摸屏交互等交互方式,也融合了提取人体生理信号、声纹识别和脸部微表情变化等特征提取与特征融合技术。这些交互方式取长补短,避开了各自在单一交互模式上的局限性,能满足用户更大的需求,未来的想象空间也更大。各种感官交互可以自由组合,完成一次多模态交互,最常见的就是基于听觉的语音交互与基于触觉的触摸屏交互以及手势识别交互。如用户最基础的需求之一,控制座舱内温度,通过语音发出指令“我有点热”,座舱内空调会打开,通过手势识别调节温度,如果需要调节到具体温度,则需通过触摸屏交互完成。

1.无障碍信息交互

残障人士由于感官和认知能力上的不足,不能完成正常的交互。多模态交互将帮助残障人士以及广义上的应帮扶弱势群体完成信息无障碍交互。如基于计算机视觉的道路识别技术通过立体声或震动反馈为视力障碍用户指引方向。运动能力障碍用户可通过手势交互和视线交互完成想要的功能指令。目前的自动驾驶汽车,更是可以通过方向盘与触觉识别的结合,协助视力障碍用户控制车辆的转向。

2.人车协同控制

智能辅助驾驶系统可以在人车之间发生危险时发出警告甚至强制执行制动或转向来避免危险。人车协同控制技术则是从“互联互通、双向协同”的角度实现人车协同。如未来的自动驾驶汽车,人可以通过多模态人机交互界面向汽车提出驾驶请求,车也可以通过多模态人机交互界面向人提出接管驾驶的请求。人的驾驶观点也可以与车通过多模态交互进行交流互动,不仅利于人车协同控制情况下保证安全和合规,也利于车企更直接地收集用户意见和用户需求。目前已有相关学者研究开展多模态下人车控制权移交的完整流程[6]。

根据李明俊博士的研究[7],要实现人机协同控制,首先就是驾驶意图判断,驾驶意图判断需通过仿真实验平台采集驾驶意图数据,采集后的数据用于建立驾驶意图方向的数据库。再通过驾驶意图数据库所生成的关于驾驶环境危险评估、表现评估、路径跟随的参数,再结合模糊控制理论,建立出结合人机协同控制的模糊控制器和协同控制策略。通过驾驶员意图识别和驾驶环境信息采集形成的驾驶危险评估,再通过路径更新所生成的路径控制器共同生成人机控制权分配策略。具体人车协同控制流程如图2所示。

图2 人车协同控制流程

3.2.2 空间立体交互

空间立体交互即用户在三维空间内完成交互,它有一个核心理念,就是让数据、功能出现在它最该出现的位置,而不是集合在相近的位置。如理想L9实现的五屏交互,这是最直观的空间立体交互,如图 3所示。未来的三维空间更多依赖于AR虚拟现实技术、3D显示技术、虚拟投影技术。多模态交互空间不再局限于中控仪表这些传统界面。特别是AR虚拟现实技术,能够将现实和虚拟世界结合在一起。在导航上,将实际路面信息与导航信息相叠加呈现出来,增强时空信息呈现效果。AR导航提供给用户驾驶中应掌握的全部信息,如距离前车多少米、车道线信息、对驾驶安全造成隐患的信息等等,提供完整的车辆情景和非机动车、行人等弱势道路使用者的信息,增强了用户对整体的把握能力,实现安全、准确、愉悦的驾驶。

图3 空间立体交互

3.3 智能表面与个人智能助理

智能表面是多模态交互中的重要组成部分,在未来将成为智能座舱多模态交互最重要的载体,未来智能座舱内每一个表面都能成为智能表面。从观赏性的角度,未来它也会被注入更多的美观甚至艺术气息,但在用户使用的时候,它甚至可以在未来慢慢取代车内的几块大屏的作用,完成温度控制、座椅调节、音乐播放、光线调节等功能多模态交互。智能表面又名模内电子,它是将模内装饰和柔性印制电路结合到一起,它比传统人机接口(Human Machine Interface, HMI)设计更加轻巧,使用更加便利。未来在智能表面上完成的多模态交互,设计者不再受限于庞大的电路要求完成设计,智能座舱内的多模态交互真正做到无处不在和无孔不入。在技术上,智能表面很多技术都与智能手机相同,也可发展薄膜材料与纳米技术的结合、电镀技术,再融合电子功能。通过惯性传感器、红外传感器、雷达系统、眼动追踪、力感应等多个传感器,智能表面将了解你目前具体所处的情景。如智能表面感知到你因寒冷身体发抖,就会打开空调暖风和座椅加热;感知到你驾驶非常不熟练,就会强制关闭音乐等可能对你造成干扰的声音;感知到你在高速上车速过快,自动挂断电话来保证你的驾驶安全。智能座舱未来必定在美学上和交互立体感和全面性上有更高的要求,智能表面将会越来越重要。

个人智能助理主要与智能辅助系统结合,以智能机器人、智能专家等形式出现。用于提供出行各方面信息、提供娱乐需求和情感陪伴。如宝马所推出的“宝马(Bayerische Motoren Werke,BMW)个人助理”,用户对它提出的要求都能得到解答,会调动座舱内可调动的功能满足用户的需求,想用户所想。未来智能表面与智能助手相结合,全方位满足用户对多模态交互高效性、立体感、情感性方面的需求。

4 智能座舱未来发展建议

本文详细论述了智能座舱之于汽车的重要性和多模态交互技术之于智能座舱的重要性。虽然“智能座舱”这个概念虽已被广大用户所熟知,但是各大车企之间存在着孤岛效应,互联互通能力的缺失无法让车企之间的智能座舱实现优势互补。同时,多模态交互还没有发展成熟,更多的技术应被融入到多模态人机交互中。基于此,本文给出一些发展建议。

4.1 持续完善标准化工作

智能座舱的标准化评估机制有待进一步建立完善,行业内尚未完整、统一的评价方法。未来,行业主管部门应联合行业相关标准化组织,如汽车标准化技术委员会,进一步完善智能座舱新领域的标准化工作,统一术语定义,规范试验方法,在多模态交互技术方面更多的尽快形成统一的评判标准。

4.2 营造良好的应用环境

目前,智能座舱主要针对中高端车,成本问题不容忽视。为推动智能座舱的大规模应用,国家工信部已出面联合地方政府营造良好的应用环境,不断创造条件以鼓励研发、示范运营,直至市场化运行,引导消费者对此类产品的了解和选购,降低由此带来的研发成本,不断推动智能座舱等先进智能化、网联化技术的研发和应用。各大车企智能座舱产品的联系与相互借鉴也日渐增多。如目前中汽数据牵头成立的2022中汽数据智能联盟创新发展联盟,致力于解决各大车企互联互通方面的问题。

4.3 不断优化语音交互、多模态交互功能

在多模态人机交互技术真正大规模应用于智能座舱之前,语音人机交互功能依然是目前智能座舱人机交互的主导,但当前的语音人机交互功能,在情感化、多轮对话、提醒/打断方面,仍亟待改善。未来,语音研发科研企业或单位应进一步完善语音交互功能,实现智能座舱的语言交互系统能够比较精准地辨别用户的日常用语、方言甚至是一些专业术语。科大讯飞未来在技术领域的探索将给各大车企智能座舱提供更多技术支撑。

4.4 发展声纹识别技术

声纹技术可以为不同的驾乘人员提供差别化服务。相对于智能座舱中普遍采用的语言交互,声纹识别技术是一项科技门槛相对更高的领域,在汽车行业中的应用也还处在起步阶段。声纹识别可进行更精确的使用信息习惯收集,改善车内互动感受,从而提高汽车安全防护。

4.5 智能表面与智能助理相结合

智能表面是指座舱内任何一个部分都可以完成多模态交互,智能助理相当于用户一个智能化的车机助手,能主动根据用户学习思考用户的需求。两者结合将对提升汽车座舱智能化水平起到合力推动作用,相关供应商企业或科研单位应注重此类技术的研发,以提供多元化的驾乘体验。

猜你喜欢
交互技术座舱语音
开放式数字座舱软件平台IndiGO
体感交互技术在脑卒中康复中的应用
规律:座舱真漂亮
NDT推出面向下一代智能座舱应用的压感触控解决方案
虚拟交互技术系统的优势与应用分析
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
智能语音交互技术在媒体的应用和前景