冯世杰,刘鹏飞,靳 兵
(海马汽车有限公司,河南 郑州 450016)
从语音识别技术的智能化程度来讲,车载语音发展可粗略地划分为3个阶段[1]。第1个阶段为发展期 (2000~2010年),最早搭载语音交互功能的车是通用的OnStar系统,可以通过驾驶员在车内进行语音激活,根据需求提供实时交通与路况信息、天气、新闻等。这时的语音技术为条目式语音交互,网络状态为本地识别,产品识别率低,用户体验比较差;第2个阶段为普及期 (2010~2015年),这个阶段自然语言技术开始应用,车联网汽车加入了网联服务和云端识别,产品表现上识别率得到了较大的提升;第3个阶段为成熟期(2015~至今),自然语言技术和4G网络成为主流,产品的识别准确率超过90%,新车型的搭载也达到100%。
目前车载语音功能[2]大致可以分为这几类:语音导航、收音机及在线音乐等音频控制、蓝牙电话及短信控制、车辆状态信息查询、生活服务信息查询以及车辆智能语音控制。本文涉及的车载语音功能设计为车载智能语音控制,控制的车载功能主要有空调控制、全景天窗控制、灯光雨刮洗涤控制、座椅加热控制、外后视镜及氛围灯控制、车载智能场景控制等,具体场景功能见表1。
语音功能的实现路径见图1。
图1 车载语音功能实现过程
驾驶员唤醒车载语音系统之后,发出自然语言指令,车载麦克风接收语音进行前段信号处理,并将其传递给音响主机,音响主机对接收到的语音数据进行语音识别和语音理解,将其转换为CAN网络报文信号传递给执行控制器,控制器接收到相关的报文信号后驱动执行机构,实现语音控制功能,并把功能实现后的状态反馈给音响主机。
CAN总线[3]为本文项目的基础车载网络通信技术,负责各个CAN控制器节点功能信号传输,所以基于CAN总线进行车载语音功能的设计,具备传输性能可靠成熟、报文信号定义简便、开发周期短及开发成本低等优点,详细的语音功能总线信号设计见表2。
表1 语音车控功能列表
表2 语音功能网络通信设计
表2 (续)
表2 (续)
在整车网络通信系统中,以ASR(Automatic Speech Recognition)开头命名的信号为车载语音功能专有信号,信号名称中后缀的“X”U为该信号占用的字节位数。
本文中描述的车载语音功能设计与实现已经完成了设计与测试工作,并在海马汽车某车型上量产发布。在后续的车载语音控制功能中还可以扩展:主副驾座椅调整、记忆及迎宾功能,外后视镜打开与折叠功能,五门开启与关闭功能,360全景界面切换功能等车辆辅助驾驶设置与控制。
在未来车载语音[4]数据的收集与分析将会成为车载语音系统竞争的关键要素,一方面可以通过持续的数据积累提升语音识别准确率与语义理解能力,另一方面丰富的数据将会为整个产业带来巨大的变现潜力。
从车载语音技术上讲,被动式的语音交互将会朝向主动式语音发展,车载语音系统将会根据当前的时间、外部环境、车况及交通状况,结合用户的使用习惯和日常出行等数据,分析可能存在的需求,主动推送和询问。同时,在自动驾驶和汽车共享的推动下,车载语音系统的个性化服务也将迎来新的发展机遇。