近日,搜狗推出一种人机交互新技术——唇语识别,这也是业内首个公开演示的唇语识别系统。通过机器视觉识别,不用听声音,仅靠识别说话人唇部动作,就能解读说话者所说的内容。
唇语识别是一项基于机器视觉与自然语言处理于一体的技术,因此在研发难度上比语音识别大得多。搜狗首创了复杂端到端深度神经网络技术进行中文唇语序列建模,通过数千小时的真实唇语数据训练而成。在非特定人开放口语测试集上,搜狗唇语识别系统已经达到60%以上的准确率,超过Google发布的英文唇语系统50%以上的準确率。在垂直场景如车载、智能家居等场景下,搜狗唇语识别系统甚至已经达到90%的准确率。
当国内大部分企业都扎堆聚集在智能语音、图像识别等领域时,搜狗唇语识别技术的推出将引领整个行业进入一个全新的发展方向。作为人机交互的形式之一,未来唇语识别技术可以辅助语音交互及图像识别,在日常生活、安防、公益等各个领域实现广泛应用。(陈曲)endprint