基于多台摄像机的视听双模语音识别技术
视听双模语音识别(AVSR)为视觉唇读与传统声学语音识别的组合系统。影响驾驶安全的一个主要问题是持续增加的车载导航和其它操作系统复杂性。通过提供基于语音控制,以减少分心并替代手动控制,即利用语音识别技术可以为车载系统的运行提供解决方案。在嘈杂的环境中(如汽车驾驶室)应用语音识别技术需要进行方法改进。本文提出一个基于已有视听语音识别系统的拓展系统,即通过提供语音发出者的正脸或接近正脸获取多个视图,通过对4个摄像头AVICAR汽车影音语音库使用4数据流的视觉同步隐马尔可夫模型(SHMM)进行可视语音识别的一系列试验。重点研究了侧面和中央的摄像头改善视觉语音识别准确性的能力。结合4种视觉形式和1个5数据流SHMM的音频形式,证明了AVSR方法与单一语音识别方法相比,在AVICAR数据库的嘈杂环境声中单词识别精度提高了56%。
刊名:Computer Speech& Language(英)
刊期:2013年第27期
作者:Rajitha Navarathna
编译:李晓娜