辛妍
您是否曾经梦想有一天能用自己的声音控制你的房子、汽车,甚至机器人管家?自动语音识别曾经只是科幻小说中的概念,而现在它是信息和通信技术的一个重要组成部分,越来越成为我们日常生活的主料。当您让您的iPhone“呼叫Tom”的时候,你就在使用自动语音识别。
简单地说,自动语音识别(ASR)是一种让计算机识别语音,并将它转换为书面文本的技术,是语音科学与工程发展最快的领域之一。作为新一代的计算技术,它是人机交互领域继文本到语音转换(TTS)和支持交互式语音响应(IVR)系统之后的又一个重大创新。自动语音识别系统的目标是准确、有效地将语音信号转换成文本,并且不受说话者、环境或者是使用的设备(即麦克风)的限制。
语音识别技术最初是为残疾人设计的,它可以帮助那些肌肉骨骼残疾人士实现计算机上的最大生产力。虽然自动语音识别是一项几十年前就开始开发的技术,但直到Apple的虚拟个人助理SiriTM和IBM的WatsonTM的商业成功才真正展示了这一领域的重大突破。事实上,当2011年底Apple推出新一代的iPhone Siri语音识别软件时,在某种意义上意味着这个具有几十年历史的旧技术对普通消费者来说已经足够好了。
全球语音识别市场的主导者是总部设在美国的Nuance Communications,其软件被认为是Siri的动力, 而它的大多数技术依赖于将语音转换为计算机可以理解的文本。Nuance的语音解决方案支持多达50种不同的语言,并且维护着世界上最大的语音数据图书馆之一;有近三分之二的财富100强公司依靠Nuance的解决方案;Nuance的解决方案已经应用到超过50亿部手机和7千万辆汽车上。在医疗方面,仅在美国就有超过3千家医院使用Nuance的医疗保健解决方案,超过15万的医生和护理人员使用Nuance的Dragon Medical系统。
自动语音识别的发展
最早尝试设计机器自动语音识别系统是在20世纪50年代,但以失败告终。第一次成功的语音识别成果产生在20世纪70年代,当时一般的模式匹配技术被推出。由于应用扩展有限,基于统计方法的自动语音识别技术也在同一时期开始开发。如今,统计技术在自动语音识别应用中盛行,常见的语音识别系统可以识别数千字。
在20世纪90年代初,计算机语音识别技术出现了巨大的市场机会。但当时这些产品的早期版本笨重且很难使用,而且不得不做出妥协:它们或者被“调整”为要依赖于一个特定的说话者,或者是只有小词汇量,或者是用一种非常程式化、僵化的语法。然而,在计算机行业中没有什么可以长期保持不变。20世纪90年代末期,出现了全新的商业语音识别软件包,它们比上一代产品更容易使用,也更有效。
自动语音识别研究的“神圣目标”是让计算机实时地以100%的准确度识别任何一个人说的话,并且不受词汇量、噪音、说话者特征和口音、或者说话渠道的影响。尽管在这一领域的研究已经有几十年了,但大于90%的准确率只有在某种程度的制约下才能实现。例如对通过使用麦克风(小词汇量,无噪音)的连续数字的识别准确率可以达到99%以上;如果系统被训练学习某个说话者的声音,那么在可用的商用系统中较大的词汇也同样能被处理,只是准确率会下降到90%~95%;而不同说话者不同渠道的大词汇量语音识别的准确率不超过87%,并且处理时间是实时的数百倍。自动语音识别的性能可能受许多因素的影响,包括技术设计、语音输入的类型和质量、周边环境和用户特征等。当有更多的数据时,自动语音识别系统的性能可以更好,因为这样统计模型就可以建立在更大的基础上。Google的自动语音识别系统性能好的原因是它们存储了每个键入或说到Google中的搜索词,并基于搜索的共性来确定概率。
自动语音识别的应用
过去十年目睹了语音识别技术的显著改善,高性能算法与系统都已可用,使得自动语音识别的应用越来越广泛。IT主流使得采用自动语音识别在全球商业中变得更为关键,尤其是近年来互联网协议(VoIP)平台的扩散刺激了企业对语音识别技术的采用。以支持应用程序开始,语音识别解决方案已经演变成渗透包括航空公司、银行、仓储、库存管理和安全券商等多个行业的核心应用程序,并已经成为差异化服务和建立客户关系的工具。甚至医疗中心、医院、制药公司和其他医疗保健行业参与者也纷纷采用自助语音解决方案,因为这不仅能降低运营成本,同时也提高了客户的隐私度。
消费者对自动语音识别技术的应用程序范围从基本的依靠语音启动的报警系统和手机上的语音拨号,到智能手机应用中的语音股票报价和基于语音的电子邮件,以及更多的有针对性的解决方案,如互动娱乐和语音身份验证等。同时,自动语音识别也是汽车导航、远程信息处理系统和信息跟踪等的重要组成部分。随着对支持语言学习的创新应用的需求日益增加,使用自动语音识别技术的计算机辅助语言学习(CALL)系统也越来越受关注。
语音自动转化为文本 我们都听过像Apple的Siri一类的可以自动识别我们说什么的系统,并想知道我们能否使用这种“自动语音识别”技术来替代手工转录口述内容的繁琐过程。
自动语音识别的一个流行应用是语音自动转录为文本,比如将讲话转录成手机短信、自动数据输入、直接语音输入和制备结构化文档等。日本议会的转录系统就使用了自动语音识别。在这种应用下,声音用电子方式被转换成文本,并创建会议记录或者报告草稿等。然后会议记录或者报告草稿被格式化,编辑修正翻译、标点或语法中的错误,并且检查一致性和任何可能的错误。在有标准化术语的领域工作的转录员——比如放射学或病理学领域中——更有可能会遇到语音识别技术。在医疗界,医疗转录机可以听医生和其他专业医疗保健人员的录音,并把它们转录到医疗报告、信件和其他行政材料中。这一应用具有提高工作输出效率并改善访问和控制各种计算机应用的潜力。通过使用语音输入,自动语音识别应用程序绕过或尽量减少传统的手动输入方法(例如键盘、鼠标),因此也使它成为有严重的肢体或神经运动障碍人士的一种替代输入法。
同声传译 目前同声传译设备虽然尚未完善,但达到基本上可用的要求却是指日可待。2012年夏天,伦敦发明家Will Powell展示了一个进行英语和西班牙语即时互译的系统。对话双方都戴着与手机相连的耳机,而他们佩带的特制的眼镜可以像字幕一样把翻译的文字显示出来。这款即时互译系统在只要有手机信号的地方就能工作,但目前此系统需要耳机、云服务和笔记本电脑的支持,也就意味着它目前还只能是个设计原型。
2012年11月,日本最大的移动电话运营商NTT DoCoMo推出了一项可以将电话中的日语与英语、中文或韩语互译的服务。通话的每一方都连续说话,然后该公司的计算机在几秒钟内将听到的内容翻译到所要求的语言,并将结果视情况适当地用男声或女声输出。
在同声传译领域最诱人的成果可能来自Microsoft。2012年10月,当该公司的首席研究官Rick Rashid出席天津的一个会议时,他的英语演讲现场就被翻译成了普通话,先是以字幕的形式显示在大屏幕上,接着以电脑合成的声音读出。最引人注目的是,Rashid先生的中文版演讲与他的英文版演讲具有相同的语气和音调。Microsoft认为,如果以说话者自己的声音传递译文,听众对错误的容忍度会提高,比如Rashid先生演讲的即时中文翻译虽然偶有错误,但仍收到热烈的掌声。
自动语音翻译技术和智能手机中的应用目前可用的视频和音频数据量正在以指数级飞速增长,远远超过了人工翻译的承受力。当人工翻译不可行时,自动语音翻译可以发挥重要的作用,它不仅让通信成为可能,而且可以帮助从海量的数据中找出重要信息。自动语音识别和机器翻译能让会议跨越国界和语言地高效举行。
不仅是技术的进步支持自动语音识别的采用,商业趋势也如此。在各个行业中,对最新移动技术的需求与日俱增。为顺应这一趋势,许多语音翻译技术都可以装在智能手机应用或平板电脑上使用。
不可否认,基于互联网的解决方案有巨大的优势,因为当人们说话时他们的数据可以被收集和分析,而识别准确率的一个主要因素是训练声学模型的数据量。越多的人对Google Search和Siri说话,这些系统的性能就会越好。但是如果一个系统只能联网使用,那旅行者的使用就会受限。而英国的一家叫Nouvaris的公司于2012年开发的Nova Search不需要连接到互联网就能使用。因此,当没有3G或无线网信号时,你仍然能让智能手机或计算机通过数据库进行搜索或回答问题。而当如果有互联网连接时,该技术可以在几秒钟之内就从庞大的数据库中完成筛选,到目前为止,它已对高达2.45亿条的列表起作用。由于是在智能手机上而不是互联网上解码语音,Nova Search可以更快速地完成语音指令的数据库搜索。
Google和Siri基本上是将语音转换为单词流输入到网络搜索或人工智能口译员。而Nova Search不同是因为它直接用语音输入搜索自定义数据库,它会产生拼音符号流,并将其用在一个非常快的已获得专利的搜索技术中。通过使用以拼音为基础的方法,该软件可以一次搜索整个词组,而不是只搜索个别单词。虽然该软件仍然是在搜索互联网时最有用,但能在本地使用设备的语音识别功能仍具有一些关键的优势,因为需要发送的数据大大减少,而且很快,要知道语音是一种非常昂贵的信号发送。该软件的应用包括对智能手机或电脑说出目的地,然后它会帮你找到公共交通路线等。
语音识别验证 在兴起的所有类型的生物特征识别应用中,基于语音的身份验证是用户排斥较小的安全验证,它是一种非接触式、非侵入式且易于使用的方法。使用说话人的语音进行验证可以有许多应用。例如,当仓库中员工在工作中走来走去时,可以给他们配备可穿戴/便携式语音数据收集系统使其进入仓库;可以对因酒后驾车而定罪的罪犯方便地进行远程酒精测试。结合移动定位系统,语音验证还可以用于跟踪保安人员,以确保他们自己在正常巡逻,而不是让他们的朋友在帮他们巡逻。另外,语音验证也可作为多安全系统用来控制过境。比如在Montana州的Scobey,气温有时会降至零度以下,于是大多数其他形式的生物识别技术不再可行,而语音验证装置却可以照常工作。
在金融方面,语音验证也开始有了应用。Nuance公司2013年5月的调查数据显示,有85%的人对当前的身份验证方法不满,因为要登录到银行帐户、旅行网站或其他个人帐户时,必须要记住许多个人识别码、密码、安全问题及其答案;数据还显示,如果能有相同高的安全级别的话,90%的人希望能使用语音识别解决方案来代替传统的身份验证方法,因为语音识别技术可以通过每个人独特的声音来标识他,从而消除了要记住和键入密码、个人识别码的麻烦,让身份验证过程变得快速而简单。
2013年5月,Barclays财富投资管理部署了Nuance的Free Speech语音识别方案,成为第一家在呼叫中心将被动的语音识别技术部署为主要客户验证手段的金融服务公司。自推出以来,超过84%的Barclays客户已在Nuance语音生物识别技术解决方案中注册,其中有95%的人第一次使用时就成功验证了身份。更妙的是,客户与联系中心的经验反馈也有所改进,93%的客户对新的身份验证系统就速度、易用性和安全性的评分至少为90分。Nuance的语音生物识别技术让象Barclays银行这样的组织通过更直观、更透明的认证方式重新定义它们的客户服务经验,减轻了客户和服务代理的负担。
汽车上的应用 技术的发展一日千里,这极大影响了现代汽车中的驾驶员界面。先进的驾驶员辅助系统、自动泊车制动系统和无钥匙点火等创新从根本上改变了驾驶员界面的构成。这些新的舒适性、信息和娱乐系统要求驾驶员处置大量的按钮、旋钮和屏幕,并且这一需求还在不断增加。移动智能手机和平板电脑也被越来越多地纳入汽车中,以满足驾驶员在行车中对连接和新服务的需求。对驾驶员来说,这显然带来了驾驶干扰和信息超载的风险,尤其是这些主要车辆控制还只是冰山一角。而最有前景的解决方案似乎是语音控制,并且这早已是汽车行业的愿望。2013年现代的下一代汽车将有自然语言的语音启动电话拨号、消息听写、目的地输入等,并能在车内或在线音乐服务中搜索音乐。然而需要认识到的是,即使有语音控制,驾驶员分神的风险依然存在。
自动语音识别的其他应用 移动广告是数字广告中增长最快的领域之一。根据eMarketer的数据,2012年全球移动广告支出达84.1亿美元,是2011年的40亿美元的两倍以上,并且预计到2013年达到近370亿美元。作为创新性的新的移动广告格式,语音广告是游戏规则改变者,它可以让人们与他们喜欢的品牌有动人有趣的双向对话,品牌可以通过让消费者在广告中畅所欲言而令其对品牌产生持久的印象。在以前,从来没有一个品牌能够有超过10亿用户的个人对话,而这正是品牌一直渴求的与公众的亲密关系。目前Nuance VoiceAds已经完全可以做到这一点。
2013年,松下新的高清智能电视SMARTVIERA采用Nuance配备的Dragon TV系统,人们可以坐着通过语音来查找内容、搜索网页、控制音量等, 创造了更多的互动和智能电视体验。
另一个更为有趣的应用发生在俄罗斯,该国最大的零售银行联邦储蓄银行(Sber bank)开发了一种使用语音识别来测谎的自动提款机。该机器通过将客户对一些问题的反应与一个记录审讯中说谎人的数据库比较,从而确定客户是否说谎。
自动语音识别的未来
除了从事自动语音识别的研究和开发的科学家和技术人员,大多数人考虑自动语音识别时低估了它的复杂性。它不仅是自动的文本到语音,复杂的识别任务的一个必要条件是自动语音识别需要有大的数据容量和存储器的快速计算机,并且需要语音科学家、语言学家、计算机科学家、数学家和工程师的参与。这些参与者应用神经网络、心理声学、语言学、言语感知、人工智能、声学语音学等领域的知识,为实现人类和机器之间的自然会话这一最终目标共同努力。
过去三十多年来,语音识别研究的特点是小改进的稳步积累。由于语音识别性能的提高和更快计算机的可用,商业研究和其他学术研究继续把重点放在日益难以解决的问题上。其中一个关键领域是提高语音识别性能的强健耐用性,这不仅是指抗噪音方面,也包括在所有可能导致性能大幅下降的情况下的强健耐用性。另一个关键领域关注的是一个机会,而不是一个问题,因为这项研究尝试利用许多应用中的大量高达数百万小时的可用语音数据。如果靠人来把这些语音转录成文本,成本相当高昂,因此研究关注的是开发一种新的机器学习的方法,使之能有效地利用大量未标记的数据。还有一个研究领域是更好地理解人的能力,并使用这种理解来提高机器识别性能。
自动语音识别产品将会不断完善,并被更多地使用。虽然在键盘上打字相对容易,但很难有人可以像说话一样快速准确地键入文字。基于我们生活的现代世界里时间是最重要的这一事实,自动语音识别将帮助人类提高生产力,让我们能够更容易更迅速地运行搜索查询、撰写重要文档和管理我们的日常生活。此外,企业还将能在没有互联网连接时随时使用相应的应用程序,而目前在旅行时这些应用并不总是可用的。
下一代的移动语音翻译应用将会针对特定的行业量身定制,这种特定的环境或目的假定可以提高准确性。1993年,自动语音识别系统的准确率只有10%,到1995年大概为48%,而2001年系统的准确率可达80%以上。基于自动语音识别系统准确性的不断提高,加之人类自身听语音演讲时准确率可达96%这一事实,相信在不久的将来,语音识别设备就能以比我们自己还要高的准确度来抄写我们的语言。