文/刘荣 张娜
语音识别开启智能新时代
文/刘荣 张娜
对着手机说出短信内容,手机就能识别并译成文字;向微波炉发出“加热3分钟”的指令,微波炉就能开始执行任务;哼唱一段旋律就能查找到对应的歌曲;输入一个关键词就能从一堆音频资料里搜索出最匹配的内容……这些人们曾经幻想过,但只出现在科幻电影里的情景,随着语音识别时代的到来,都将一一变为现实。
近日,本刊记者走访了清华大学电子工程系副主任、博士生导师吴及副教授,他向我们详细介绍了我国语音识别技术的发展和应用方面的问题。
“与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高新技术。它是一门交叉学科,涉及到信号处理、统计模式识别、人工智能、计算机科学、语言学和认知科学等众多学科。”吴及解释说。近年来,我国语音识别技术发展突飞猛进,取得了许多显著进步,并开始逐渐从实验室走向市场。未来语音识别还将进入工业、家电、通信、汽车电子、医疗、家庭服务以及电子产品等各个领域,全面融入我们的生活。
目前,语音识别技术已经取得巨大进展,一些语音识别技术开始得到广泛应用,具有语音识别功能的产品也不断出现,这些都标志着语音识别技术距离人类的日常生活越来越近。然而从20世纪50年代起步的语音识别技术研究并不是一帆风顺,用吴及的话来说,语音识别的发展,一直在峰谷之间徘徊。“起初人们意识到语音识别技术蕴含巨大的潜在价值,对它给予很高的期望。但真正开始研究之后,才发现难度非常大,于是很多人都放弃了;当技术的进步让人们看到了希望,相关研究又热了起来,然而由于技术的发展仍然难以满足实际应用的需求,研究工作再次走入低谷。如此跌宕起伏好几次,像坐过山车一样。”即便如此,学术界一直坚持研究,正是因为许多和吴及一样的学者的矢志不渝,我国语音识别技术才在继上世纪70年代和90年代之后,在最近几年抓住了时代的机遇再次迎来了发展高峰。
吴及认为,国家“863”计划的长期支持、计算机性能的提高和基础数据长期积累,推动了我国语音识别技术的快速发展。80年代中期以来,在国家“863”计划的支持和国内各科研机构的艰苦努力下,语音识别经历了从特定人到非特定人、从小词表到大词汇量、从孤立字到连续语音的发展历程。语音识别的对象也从实验室环境下的朗读数据发展到现在的复杂环境下的真实口语数据。目前我国语音识别技术的研究水平已基本与国外同步,而汉语语音识别技术更是体现了我们自身的特点和优势,达到国际先进水平。
语音识别系统除了应用于人机交互(车载语音控制、人机对话系统等)之外,目前语音搜索和分析技术也得到很多关注。
“语音搜索有点类似Google、百度等搜索引擎,不一样的是现有的搜索引擎只能搜索文本形式的关键字,并不能搜索音频内容,但语音搜索技术能直接对音频内容进行搜索。”吴及说。对于音视频文件,现有的搜索引擎,包括Google和百度,并不能直接对内容进行搜索,只能依赖人工创建的文字信息,比如包括音、视频网页的环绕文字,或者相关的标签(作品名称或者作者名字)进行搜索。但这些信息极为粗略,并不能反映音视频文件中大部分内容,也不能保证准确性。
随着多媒体时代的到来,音视频资料越来越多,因此能够面向多媒体数据,更为智能的基于内容的搜索引擎技术显得非常必要,其产业前景也有望超过当前基于关键字的文本搜索技术。吴及表示,语音搜索技术是人机智能交互领域的重要方向,利用智能音频检索技术,用户就可以根据音频内容对多媒体数据进行搜索和定位,大大提高了处理效率。“语音搜索技术的出现使得我们管理和利用多媒体数据的能力得以提高,甚至它对国家的安全监控也有帮助,因此备受政府关注。”
在语音搜索研究领域,吴及课题组承担过国家“863”计划课题“基于内容的高性能语音搜索技术探索研究”。经过几年的努力,课题组研发了面向多媒体数据管理和利用的智能音频检索技术,实现了包括离线预处理和在线检索的两阶段音频检索系统。同时,以智能语音搜索技术研究为基础,课题组还开展了基于内容的海量多媒体数据的数据处理方法的研究,涉及到机器学习、数据挖掘、自然语言处理、统计分析、并行计算等前沿课题。
语音搜索技术究竟有什么好处呢?吴及举例说:“如果你想要在一年的新闻联播中搜索某段音频资料,一旦标题中没有你输入的关键字,一般的搜索引擎就检索不出来;但是语音搜索技术能够将语音转化为文字,即使新闻标题里不含你输入的关键词,只要播音员说到了这个关键词,系统同样也能找到你想要的音频。同时,我们还可以进一步利用语音分析和理解技术提取新闻节目的摘要并建立重要事件的发展脉络。语音搜索技术和语音分析技术使人们对音视频数据的理解上升到了一个全新层面,在计算机超强计算能力的辅助下,人们能够更加快速、有效地掌握和理解数据中包含的内容,大大节省了查找时间,提高了用户对音视频数据的管理和利用能力。”
吴及在东京参加InterSpeech2010国际学术会议
一套拥有诸多优点的语音识别系统具体包含哪些技术呢?吴及说:“首先是音频预处理技术,初始的音频数据中除了人说话的声音外,可能会录入其他干扰声音,因此我们需要对音频进行处理,将有用的声音和噪声区别开。这样的预处理也叫做语音端点检测或者场景分割,这对识别系统来说是很关键的一步;此外还有特征提取,建立语音模型并进行参数学习,以及在给定的网络空间中进行高效率的搜索识别等。目前在这些基础技术上,国内与国外的发展水平基本持平。”
当前语音识别技术面临的一个重要难题是多语言混合识别。据吴及介绍,现在的实际汉语里有很多外来语,它们的发音习惯和汉语普通话不一样,需要在识别系统中采取专门的策略,目前想要彻底解决这个问题还有很大难度。在实际生活中,语言中不断产生新词,比如“给力”、“雷人”等,如果语音识别模型里没有收集到这些新词,也会对识别产生一定影响。另外,复杂环境下的真实口语数据中会受到噪声的干扰,会包含各种口语现象,这些对于识别性能的提高都是很大的挑战。“这些存在的问题有些需要从技术上进行完善,而有些需要在知识积累上进行补充,比如新词的问题,需要我们不断更新词典和语言模型,跟上语言的发展步伐。”
至于语音识别技术未来的发展方向,吴及表示基本不会脱离人机交互和海量数据处理的轨道。他说:“接下来我们会用语音识别、语音搜索和语音分析等智能语音技术构建一些新的应用,这是现在比较前沿的方向。这个过程需要解决许多以前从没遇到过的问题,所以离不开自主创新。脱离创新,新领域的研究工作不可能顺利进行,这是科学研究最基本的特点。”
吴及,清华大学电子工程系副主任、副教授、博士生导师;主要从事数据结构与算法方面的教学工作,以及语音识别、信号处理、人机交互、模式识别和机器学习方面的研究工作;2001年~2003年负责“863“项目“智能化中文语音信息处理平台”,2006年~2008年负责“863”项目“基于内容的高性能语音搜索技术探索研究”;目前担任清华——讯飞语音技术联合实验室主任、全国人机语音通信学术会议常设机构委员;是多个国内外学术期刊和会议的审稿人,在国内外期刊、会议上发表论文50余篇。