机器如何学会听懂人说话
“在美国DARPA计划刚启动语音识别理解研究计划的时候,有人认为其困难程度无论怎样也不会比‘阿波罗登月’更高。事实却证明,其挑战性一点不亚于‘阿波罗登月’。”
一个刚学会走路的小孩摇摇晃晃穿过起居室,来到墙角的一个光滑的黑色圆柱体前停下来。他尖声说道:“Alexa,播放儿童音乐。”虽然发音含混不清,但是这个圆柱体明白了请求,房间里响起了音乐。
Alexa是亚马逊的云端语音识别软件,它是黑色圆柱体音箱Echo的大脑。Alexa的面世在全球造成了轰动。在人工智能的支持下,Alexa学会了回答越来越多的问题,有朝一日可能会进化到能与人自由交谈的地步。
但是语音识别软件发展到今天经历了漫长的道路。虽然Echo比啤酒杯更瘦,但是第一批语音识别机器几乎可以占满一整个房间。
人类很久以前就试图对机器讲话——或者至少让机器对我们说话。1773年,俄国科学家克里斯蒂安·克拉特齐斯坦开始思考语音技术。他制造了一个特别的设备,把共鸣管和风琴管连接起来,发出类似于人类语言中元音的声音。就在十多年后,维也纳的沃尔夫冈·肯佩伦制造了一台类似的机械声学语音机器。在十九世纪初,英国发明家查尔斯·惠斯通用皮革共鸣器改进了冯·肯佩伦的系统。该系统可以通过手动调整或控制发出像语言一样的声音。
到1881年,亚历山大·贝尔和他的兄弟查尔斯·天特一起制造了一个蜡涂层的旋转圆柱体,一根唱针对传入的声音压力作出反应,切出垂直的凹槽。这一发明为1907年获得专利的第一台留声机铺平了道路。他们是希望用机器来听写秘书念的笔记和书信,这样就不再需要速记员。随后,这些记录可以用打字机打出来。这一发明很快在全球流行起来,在越来越多的办公室里,秘书会带着笨拙的耳机,聆听录音并完成转录。
但所有这些雏形都是被动式机器——直到1952年自动数字识别机“Audrey”的问世。它由贝尔实验室制造,体型巨大,占满了一个六英尺高的继电器架子,耗电量很大,连接着大量缆线。它能够识别语音的基本单位“音素”。
那时,计算机系统非常昂贵、笨重,存储空间和运算速度有限。但是Audrey仍然能够识别数字的发音——零到九——准确率高达90%,至少它的开发者戴维斯发音时是这样。当面对其他几位指定的说话者时,它的准确率为70%到80%,但如果是不熟悉的声音,它的准确率就会大大降低。这在当时是一个惊人的成就。
亚马逊Alexa可以通过语音控制我们家里的恒温器、控制智能手机或笔记本电脑播放的音乐
由于Audrey只能识别指定说话者的声音,它的用途就比较有限:比如它可以为收费电话的接线员提供语音拨号的功能,但实际上没有这个必要,因为在大多数情况下,通过手动按钮拨号成本更低,且更简便。虽然它并没有用在生产系统中,但是它说明了语音识别是可以实现的。
二十世纪七十年代和八十年代,贝尔实验室语音研究投入了大量精力研究以下内容:识别数字零到十以及“是”与“否”。“电话系统在能够识别这12个单词后,就能够单纯依靠机器完成电话接线。”奥戈尔曼说。
Audrey并不是唯一。二十世纪六十年代,日本的几个团队也对语音识别进行研究,最著名的包括东京无线电研究实验室的元音识别器、京都大学的音素识别器和NEC实验室的数字语音识别器。
在1962年的世界博览会上,IBM展示了它的“鞋盒”机器,它能够理解16个口头表达的英语单词。美国、英国和苏联还有其他研究。苏联的研究人员发明了动态规整算法,并将其用来制造一个能够驾驭200个单词的识别器。但这些系统大都基于样本匹配,也就是把单词与存储在机器里的语音进行匹配。
最大的一次飞跃发生在1971年,当时美国国防部的研究机构Darpa出资开展一个为期五年的语音理解研究项目,目标是达到1000个单词的词汇量。于是,Harpy在卡内基梅隆大学诞生。
“在美国DARPA计划刚启动语音识别理解研究计划的时候,有人认为其困难程度无论怎样也不会比‘阿波罗登月’更高。事实却证明,其挑战性一点不亚于‘阿波罗登月’。”中国科学院自动化研究所研究员徐波研究员这样说。
和它的前辈不同,Harpy能够识别整句话。
从单词转到词组并不容易。“句子里的单词会交汇起来,你会弄不清楚,不知道单词从哪里开始,到哪里结束。于是,你会得到相似却错误的结果。”在Harpy项目工作过的韦贝尔说。
Harpy一共能识别1011个单词,这大概是一个普通的三岁小孩的词汇量。它的准确率也相当不错,所以实现了Darpa最初的目标。“它成了现代语音识别系统真正的祖先。”
在之后的一些年里,语音识别系统进一步发展。在二十世纪八十年代,IBM制造了语音激活的打字机Tangora,它能够处理20000个单词的词汇量。IBM的方法是基于隐马尔可夫模型,把统计学纳入数字信号处理技术。这一方法让我们有可能预测哪些音素最有可能出现在某一给定音素的后面。
IBM的竞争对手Dragon Systems提出了自己的方法。此时,技术取得了长足的进步,语音识别终于能够应用到实际生活中——比如可以让儿童训练讲话的玩偶。虽然取得了很多成就,但是当时的所有程序都采用了不连续听写,这意味着用户必须在每个单词后停顿一下。1990年,Dragon Systems发布了第一款消费语音识别产品Dragon Dictate,9000美元(约62000人民币)的售价令人咂舌。然后,在1997年,Dragon Naturally Speaking问世——这是第一款连续语音识别产品。
“在那以前,语音识别产品局限在不连续的话语,这就意味着它们一次只能识别一个单词。”Dragon总经理彼得·马奥尼说。Dragon是连续语音识别的先锋,它首次实现了实用的语音识别。Dragon Naturally Speaking每分钟能够识别100个单词的话语——时至今日,它仍在使用。比如美国和英国的很多医生用它来归档医疗记录。
在过去的十年间,大致基于人脑工作模式的机器学习技术让计算机能够接受大量语音的训练,从而成功识别不同人的不同口音。然而,直至谷歌发布了用于苹果手机的谷歌语音搜索应用“谷歌声音搜索”,技术才又继续向前发展。谷歌能够运行大规模的数据分析,匹配用户的单词和数十亿个搜索词条中积累的大量人类语音的例子。苹果也很快推出了它自己的版本,名为Siri。
所以,下一步会发生什么?“在语音处理领域,最成熟的技术就是语音合成。”奥戈尔曼说:“机器语音和人类语音现在已经基本上无法区分。但是在很多情况下,自动语音识别与人耳相比仍有较大差距。”虽然在一个几乎没有噪音的环境下,一个人只要讲话清晰就能被自动识别,但是当环境嘈杂时,最新技术仍束手无策。就连Alexa也是这样,如果房间里很吵闹,你就必须靠近黑色圆柱体,清楚大声地对它讲话。
亚马逊的目标是制造一个完全可由语音控制的云端计算机——这样你就可以自然地与它交谈。当然,好莱坞的魔法仍然领先于今日的科技。
(《海外星云》)