冉光伟,蔡吉晨,李艳明
(广州汽车集团股份有限公司汽车工程研究院,广东广州 511434)
新一代智能座舱人机交互技术的发展趋势是逐渐融入人体生物特征识别及人工智能技术[1],当前,国内外各大汽车企业正在致力于语音识别控制[2]、交互界面个性化定制等技术的研发,同时与智能网联技术关联,开发基于云端信息的驾驶人身份识别技术、场景识别技术,进一步实现了人机交互的智能化与个性化。
车载机器人是一种运用于汽车智能座舱人机交互场景的服务机器人,属于社交类机器人范畴[3]。基于机器视觉、智能语音以及机器学习等技术,车载机器人协同影音娱乐系统(AVNT)、驾驶员监控系统(DMS)以及高级驾驶辅助系统(ADAS),能够响应语音交互、影音娱乐状态切换以及驾驶辅助提醒等功能,通过拟人化、情感化地表达,整体提升驾驶和乘车体验。以车载机器人作为主要人机交互接口,能够有效摆脱车内人机交互过程中给用户带来的设备感和生硬感,使交互过程更自然、友好,使得交互形式从人-机交互向人-人交互进化。
车载机器人系统中,通过影音娱乐系统完成语音交互及场景感知,由车载机器人控制器完成机器人行为决策、表情显示及动作执行。系统框图如图1所示,影音娱乐系统与机器人头部摄像头、麦克风及喇叭等外围设备连接,通过各个应用层软件分别完成人脸识别、声源定位、语义解析等功能;车载机器人与影音娱乐系统通过USB及CAN总线通信,以获取用户、车辆状态及车内外环境等感知数据[4],进而完成场景分析、机器人行为决策及行为输出(包括机器人语速、语调、表情、动作、幅度、频率、态度等)。机器人控制器集成增量学习算法,能够不断优化场景分析,对驾驶行为进行学习及预测[5]。影音娱乐系统的人机交互界面能够配合车载机器人进行扩展显示,即部分场景的图文显示由车载机器人控制器控制。
图1 车载机器人系统架构
1.2 车载机器人行为决策
车载机器人行为包括头部转动、表情显示及语音播报等3个维度。机器人头部能够完成水平旋转和前后转动两个自由度的转动,并通过电机协同控制来保证转动过程中动作的连贯性及拟人化;机器人表情通过图片渲染实现不同表情切换过程中的平滑过渡。语音播报能够变换语速、语调和语气,可以体现机器人的情绪和性格。车载机器人部分表情和姿态的交互定义见表1。
表1 车载机器人表情及动作关联表
车载机器人在不同的细分场景下能够做出不同的行为决策,通过同步用户账号信息达到用户级的个性化交互场景设计,再结合地域信息、车型信息以及用车里程、驾驶模式等驾驶行为偏好向用户推送符合用户喜好的媒体类及新闻类服务,从而实现千人千面的智能交互。比如当车内同时有孩子和妈妈的场景下,通过增量学习预测两人的共同爱好,并为他们推荐相对应的媒体内容。此外,机器人应用考虑了安全与隐私的设计原则,将用户隐私信息进行加密;同时用户可清除驾驶习惯记忆等相关历史记录。
车载机器人应用不局限于根据预先设定的行为决策进行条件执行,还能够主动学习到环境变化而做出主动适应、反应和行动。车载机器人控制器集成了适用于车载场景的增量学习框架,该框架是一种高性能的轻量级人工智能学习系统,特点是消耗资源少,运算速度快,无需借助网络云平台,借助汽车前端硬件就能支撑其计算能力实现离线训练,在越来越多的复杂车载场景任务中能够通过增量学习进行行为决策的高效重建。
增量学习框架核心是宽度学习算法[6-7]。宽度学习即将深度学习从串并联改为并联,减少模型训练时间,利于模型训练前段化,适合嵌入式系统。智能座舱的人机交互场景的样本量较小,宽度学习算法适用于基于小样本数据进行场景识别,将宽度学习算法应用于车载场景,能够实现车载场景中人机交互的连续性学习。宽度学习算法模型如图2所示。
图2 宽度学习算法模型
例如在实际的车载场景中,由于语音指令的定义不能全面地覆盖各地习惯用语,可以通过增量学习记录用户习惯用语。如通过语音指令“打开空调”来控制车内空调的开启,由于各地习惯用语的不同,某些地区用户的语音指令会变成“打开冷气”或“打开冷风机”等。当“打开冷气”指令没有被系统响应时,用户可以通过手动打开空调,在进行多次操作后,宽度学习算法能够记录用户的操作习惯,建立“打开冷气”语音指令和打开空调行为的对应关系,进而学习到新的技能。
自然语言处理(Natural Language Processing,NLP)是理解人类语言、说话方式的应用程序和服务,是人工智能的一个子领域[8]。NLP目标是让机器对语言理解像人类一样智能,减小交流(自然语言)和理解(机器语言)之间的差距。NLP 技术基于大数据、知识图谱、机器学习、语言学等技术和资源,形成机器翻译、深度问答、对话系统等应用系统,进而服务于各类实际业务和产品。
云端的NLP引擎为平台化方案,即由娱乐系统采集语音指令传送到云端进行语义解析,特点是通用性强,适合闲聊以及丰富的生态类服务。在无网络或信号弱情况下,语义需要在影音娱乐系统中进行解析,由于系统端词库有限,较难涵盖并准确理解用户的语音指令。为了在网络状况不佳情况下能够进行语义理解并适应用户的说话习惯,机器人系统集成了轻量化的离线NLP引擎,其特点是能够收窄认知范围并针对特定车载场景进行个性化语义订制,从而保证没有网络时或用户使用自定义语义时,机器人能够有效执行语音指令。云端NLP引擎与机器人系统端NLP引擎形成互补,构建了云+端的混合NLP引擎,具体协作流程如图3所示。
图3 云+端的混合NLP引擎协作流程
离线NLP引擎支持多轮对话和自动补充词槽功能,如图4所示,能够根据增量学习对用户习惯的预测结果自动补充词槽内容,避免用户进行繁复操作。比如用户发出开空调的指令,离线NLP引擎将根据空调参数历史数据、用户的空调温度及风速等调节习惯预测结果,自行补充词槽内容,不需要再通过多轮对话补充语音指令中缺少的“温度”及“风速”词槽。
图4 离线NLP引擎问答技术架构
车载机器人交互场景是将出行场景按照人、车、环境等3个维度进行划分及组合,完成数百个基础场景、经典场景、创新场景以及未来超前场景定义,其交互场景维度见表2。所有交互场景的功能需求按照安全、便捷及运营框架进行梳理,进而制定细分交互场景下对应的机器人初始行为决策,再通过增量学习实现不同用户的个性化交互策略,以协助完成千人千面的智能交互理念。
表2 车载机器人交互场景维度
车载机器人应用通过对接丰富的互联网生态类应用,如充电、停车、资讯、餐饮、维修等便利服务,为用户构建按需推荐、场景化智能分发的服务整合体系,以期为用户提供出行全程以及汽车全生命周期的完整生态链,提高出行服务体验。同时,借助车载机器人适时推送各类服务信息,能够加强生态类应用的推送深度及可接受度,从而进一步提高车载生态类应用的运营能力。
适用于车载机器人应用对接的互联网应用类型举例如下:
(1)充电:提供充电桩点位查询、充电桩导航等服务,如充电未来;
(2)停车:停车位查询、停车场导航、停车费支付,如ECTP、泊链等;
(3)代驾:呼叫代驾、代驾行为监管、费用支付,如E代驾等;
(4)娱乐:电台收听、音乐播放、短视频等娱乐服务,如喜马拉雅、唱吧等;
(5)闲聊:与用户闲聊,以及提供相关客服服务,如图灵机器人;
(6)信息服务:天气、新闻、航班、股票等信息的查询、播报;
(7)生活服务:餐饮、外卖、旅游、维修保养服务,如美团等。
通过对车载机器人系统的人脸识别、语音交互、车辆状态提醒及信息推送等各项功能进行测试,分别验证车载机器人的语音识别准确性、交互场景的判断能力和生态服务的智能分发能力。具体测试功能项及测试结果见表3,测试结果表明车载机器人的各项功能达到了预期效果与设计目标。
表3 车载机器人的功能测试验证结果
车载机器人以“车内智能化、情感化、个性化的交互体验”为概念,于座舱内布置机器人实体,通过语音识别、人脸识别、车内环境及车辆状态感知,对驾驶员及乘客、车辆状态及车内外环境等3个感知维度进行场景分析,从而完成机器人的行为管理,包括机器人的表情、姿态、声调、态度及行为节奏等。车载机器人能够进一步提升车内多模交互能力,同时扩展具有竞争力的生态类服务,从而提升用户体验,满足驾驶员及乘客的个性化和情感化交互需求。