自动语音识别技术(Auto Speech Recognize,ASR)所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。ASR技术在“能听会说”的智能计算机系统中扮演着重要角色,相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。
如今,语音识别技术已经发展成为涉及声学、语言学、数字信号处理、统计模式识别等多学科技术的一项综合性技术。基于语音识别技术研发的现代语音识别系统在很多场景下获得了成功的应用,不同任务条件下所采用的技术又会有所不同。语音识别系统构建过程整体上包括两大部分:训练和识别。训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”;而识别过程通常是在线完成的,对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块:“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的声学模型和语言模型对用户说话的特征向量进行统计模式识别(又称解码),得到其包含的文字信息,此外,后端模块还存在一个自适应的反馈模块,可以对用户的语音进行自学习,从而对声学模型和语音模型进行必要的校正,进一步提高识别的准确率。
语音识别技术所面临的问题是非常艰巨和困难的。尽管早在20世纪50年代,世界各国就开始了对这项技术的研究,但直到今天,距离该技术完美解决还存在着巨大差距,不过这并不妨碍不断进步的语音识别系统在许多相对受限的场合下获得成功应用。
市场上已经有不采用语音识别技术的产品,包括智能手机、智能电视、平板电脑、汽车导航、浏览器等。国内科大讯飞公司为联想最新的智能电视量身定制了业界领先的高识别率的语音识别引擎,基于此引擎实现了语音控制、语音搜索和语音输入等特色应用功能,彻底颠覆了传统依靠遥控器按键、触屏等手动操控方式,真正实现了用户与电视之间的自由、智能交互,即用户只需通过自然语言就能够完成电视上的全部应用操作,包括语音启动程序、搜索及直接播放影片和应用、打开网站、文字输入、查询百科、查询天气和新闻资讯等,甚至还能与电视聊天、做算术题、提供客服支持等。联想智能电视内置了首个电视微博应用,当用户在观看电视节目或在线视频时,可以随时登录微博查看其他用户的相关评论,自己也可以通过语音来进行微博的文字输入、发布微博、参与话题讨论,输入速度更快,从而给用户带来更好的应用体验。