陈润生
语音识别以其智能的接入方式改变着人们的上网习惯,未来,或许会全面颠覆移动互联网的形态。科技界与工业界的共同进取,将促成科技成果不断涌现,让语音识别从“听到”变得“听懂”
想象一下,当你驾驶一辆奥迪A8L行驶在路上,只需说出几个简单的词语,便可获得旅途所需的一切,车载MMI 人机交互系统可智能识别语音指令,轻松控制导航,语音通话,娱乐系统等各项功能,汽车也仿佛不再是冰冷的交通工具,而变得更有智慧。电子设备从过去的智能工具,开始成为与人交互的“伙伴”。
语音识别正以磅礴之势占据着一个时代的智能高点。美国谷歌公司发布的一项调查报告显示,13岁到18岁之间的青少年中,每天使用语音搜索的人数比率约55%;而在成年人中,约有56%的人表示使用语音搜索会令他们感觉自己很懂技术。谷歌传统搜索副总裁斯科特·霍夫曼感言:对年轻人而言,使用语音搜索犹如应用社交媒体一样自然,并且会出现更多创新的使用方法。
随着大数据、机器学习、云计算、人工智能等技术的发展,语音识别在一步步解放用户的双手,语音输入框也大有取代鼠标、键盘之势。伴随着智能移动设备的普及,语音交互作为一种新型的人机交互方式,正越来越引起整个IT业界的重视。
业内机构预计,整个人工智能市场可在2018年达到1800亿美元的水平,其中的语音识别市场将占到整个大蛋糕中极有分量的一大块。
让智能语音如何从“听到”进化到“听懂”,实现语音服务的通用化,更多服务于现实生活场景,更好地普惠于移动互联网用户,尽管仍有障碍亟待逾越,但这必将是规模工业化的重点突破方向。
在智能语音专家贾磊看来,剥离了服务、平台与计算能力,仅集中于语音技术的时代已经过去了,未来的规模工业化发展趋势已然显现,下一阶段的变革之旅正在开启。
互联网的“语音”入口
2016年初,美国麻省理工学院(MIT)主办的知名科技期刊《麻省理工科技评论》,评选出了“2016年十大突破技术”,语音识别位列第三项,与其他技术一起“到达一个里程碑式的阶段或即将到达这一阶段”。
语音识别技术,也被称为自动语音识别,其目标是将人类语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
与计算机进行语音交流,并让其明白用户在说什么,这是人们长期以来梦寐以求的事情。深度学习、人工神经网络等技术的发展,让这一梦想照进现实。百度语音前首席架构师贾磊预测,语音识别技术将在语音搜索、O2O、传媒信息等领域发挥巨大作用。
作为人工智能界的技术大咖,贾磊的“技术路线”着实是一条“语音路”。
1993年,贾磊被保送进入西北工业大学教育改革班学习,大学期间他就对数学、计算机和声音信号处理技术产生了浓厚的兴趣。此后的20多年,贾磊一路与“语音”结缘。
2003年,在中科院拿到博士学位的贾磊加入松下中国研究开发有限公司,从事语音技术相关的研究工作,成功研发出了手机上的英语、日语和汉语的人名数字拨号系统;两年后,贾磊离开松下,加入IBM中国研究院。在IBM期间,贾磊和IBM美国研究部门的同事一起构建了汉语广播识别系统。
2006年初,贾磊回到松下中国研究开发有限公司,担任松下语音技术部的高级经理,承担整合松下内部语音技术的工作,并领导松下中国部门,研发了日语汽车导航系统产品原型;四年后,贾磊回到中科院自动化研究所,主导了中科院自动化所第一版本的云计算条件下的机器翻译系统构建工作。
2011年6月,贾磊加入百度,担任百度语音技术部负责人、首席研究员,负责百度语音技术的核心技术研发和互联网产业化。短短的六个月内,贾磊带领技术团队,实现了百度完全自主研发的语音搜索系统上线。此后,贾磊的技术团队相继完成了手机语音输入法系统、智能语音手机助手等系统的研发。
2015年底,伴随着“大众创业、万众创新”的热潮,贾磊离开百度,投身到与人工智能相关的创业领域中。“高技术人才创业是为国家作贡献的另一种方式,美国硅谷的很多公司都是从创业中诞生的,比如微软、谷歌,都是从最初的创业公司最终成长为行业巨头。”贾磊如此描述自己的创业,“在以后的智能时代,人类的很多活动或许会被机器替代,但置身这个行业的工作人员,一定要精准掌握制造机器、提升机器的方法。”
语音识别可规模工业化的未来
过去的20多年,语音识别技术与贾磊们的“技术脑”共同进行着自我进化,而这种进化,也在潜移默化地改变着互联网、尤其是移动互联网的形态。
微软研究院首席研究员俞栋认为,在很多应用场合,语音识别成为一个入口,如果没有这个入口,大家都会觉得智能机器不够智能,或者用户会觉得与智能机器交互有困难。
阿里云iDST技术总监初敏认为,语音交互将会成为数据智能的第一个爆发点,“下一轮的入口之争将再次出现”。
从互联网诞生之日起,搜索框便成为人们进入互联网的重要入口,但语音识别一经出现,搜索框的地位受到动摇,在未来或将逐步被取代。
如今,这种“取代”已经开始萌发。11月底,搜狗、百度和科大讯飞三家公司接连召开了三场发布会,向外界展示了自己在语音识别和机器翻译等方面的最新进展,三家公司均宣布旗下语音识别系统正确率已达到97%左右。
此前,百度研发出了基于多层单向LSTM(长短时记忆模型)的汉语声韵母整体建模技术,并成功把连接时序分类(CTC)训练技术嵌入到语音识别传统技术建模框架中。该技术能够使机器的语音识别相对错误率降低15%,使安静环境下的普通话语音识别的准确率接近97%。
贾磊表示,上述语音识别技术特别适合于语音识别大规模工业化,“因为这个技术应用点很多,它不但解码速度快,而且对口音、对远场都有一定的作用,有口音的人识别率会改善很多,距离较远的时候识别率也会改善很多”。
业内人士判断,智能语音技术将在人工智能、移动互联网、可穿戴设备等领域日益深入运用,并将向更多垂直行业深入发展。
语音识别技术在智能交通中的深入应用,真正解放了用户双眼、双手,提高了用户驾驶安全等级,使用户充分享受语音科技的无穷魅力。基于该技术,自主式导航可以通过语音进行诸多需要手动触摸才能完成的操作。
比如,奥迪A8L自带的MMI人机交互系统,可识别简单语音口令,驾驶员可用语音操作该系统,省去手动操作。
驾驶者可以语音呼叫电话簿与地址簿中的电话号码,只需发出“呼叫某某(姓名)”的指令即可;同样,使用“导航到某某(地址名称)”的指令即可导航前往一个已存储的导航目的地。
一甲子打磨“语音”利剑
如今的语音识别有多聪明?百度首席科学家吴恩达认为,目前的语音识别已经超过了正常人的语音识别能力。以情感合成为例,基于深度学习和大数据处理技术的语音识别,在数据采集、处理、建模等环节完成了一系列创新,可以实现更富有表现力的自然朗读效果。
在普通公众的眼里,语音识别似乎是一项横空出世的新技术。但在科学家与工业界人士看来,语音识别并不是一个新兴的行业。
早在1952年,美国贝尔实验室的Davis等研制出了世界上第一个能识别10个英文数字发音的实验系统。1960年,英国的Denes等人研制出了第一个计算机语音识别系统。发展至今,语音识别技术早已走过了一甲子的历程。
20世纪50年代,科学家们认为要让计算机实现语音识别只有人才能做的事情,必须先让其理解自然语言。这使得人类探索语音识别的路线,局限在用电脑模拟人脑上,即让计算机学习人类学习语言的方式。在这一思路的指引下,此后的20年,科学界在语音识别领域鲜有科研成果出现。
直到1970年后,统计语言学的出现让语音识别重获新生。推动这个技术路线转变的关键人物是现代语音识别和自然语言处理研究的先驱、美国工程院院士德里克·贾里尼克和他领导的IBM华生实验室。IBM采用统计的方法,将当时的语音识别率从70%提升到90%,同时语音识别的规模从几百个单词上升到几万个单词。这使得语音识别有了从实验室走向实际应用的可能。
此后,随着研究思路的变化,大规模的语音识别研究得以实现,科学家们在小词汇量、孤立词的识别研究方面取得了实质性的进展。20世纪80年代以后,语音识别研究的重点则逐渐转向大词汇量、非特定人连续语音识别。
20世纪90年代以后,科学界在语音识别的系统框架方面并没有什么重大突破,但在语音识别技术的应用及产品化方面出现了很大的进展。
在这个时期,英国剑桥大学的HTK系统对语音识别贡献巨大,为很多从事语音识别的研究单位提供了结构完整、全面的一套软件基线系统。从此,语音识别研究的门槛大大降低,推动了语音识别技术的快速发展和相互交流。
20世纪90年代以后直到现在,计算机界对于语音识别的研究逐渐地由朗读式语音转移到了现实生活中“真实对话语音”。进入21世纪,互联网得到普及,移动互联网技术也快速发展,手机上网速度越来越快,这给语音识别技术的发展和应用带来了新的平台;硬件设备越来越廉价以及云计算技术的出现,也大大推动了语音识别的研究和应用。
20世纪80年代以来,随着计算机应用技术在我国逐渐普及和应用,以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件,纷纷投入到这项研究中去。
2011年深度学习技术引入语音识别领域,推进整个工业界的人工智能技术应用进入深度学习时代。随后的几年里,CNN(卷积神经网络)、LSTM(长短时记忆模型)、CNN混合LSTM的建模技术在语音识别工业产品中不断涌现,并持续提升语音识别产品效果。
技术难关有待突破
2016年6月2日,被誉为“互联网女王”的玛丽·米克尔(Mary Meeker)发布了2016年《互联网趋势报告》。报告认为,语音是最有效的计算输入形式,将成为人机交互的新范式。相比打字,语音交互的优势明显,既简单又方便,一个麦克风即可解决,尤其适合物联网的场景。
然而,任何一项新技术的研发,都避免不了需要逾越和突破更多的障碍。早在2008年,比尔·盖茨就在多个场合预测“今后五年内,互联网搜索将更多地通过语音来完成”。到如今,语音搜索方兴未艾,但远没实现比尔·盖茨的猜想。玛丽·米克尔预测,未来的计算界面将从键盘进化成麦克风及键盘,“不过现在才刚刚上路”。
贾磊认为,目前语音识别技术遇到的主要难度,是对口音、噪音、远场的识别。其中基于深度学习的个性化识别,是未来语音识别技术全面普及与应用的重大挑战。
如今在多个大型科技会议现场,主办方都会安排尝试各家公司研发的语音速录系统,这大有取代传统的实时速录员之势。起初,这一高效、吸引眼球的技术着实让人们眼前一亮,但一旦会场中的演讲者带有口音,语音速录系统便频频犯错。
贾磊认为,人的口音千差万别,不可能有一个语音识别器识别所有的声音,一定要实现个性化。而这种基于深度学习的个性化识别,一定需要海量的存储空间和很大的数据吞吐传输能力。
语音识别历来是人工智能和机器学习中的十大经典难题之一,该技术面临着说话人、环境、设备三方面的不确定性难点。
说话人常常来自不同的方言区、有不同的口音,说话时又有不同的方式、运用不同的情感。此外,真实的语言环境是非常复杂的,会被各种各样的噪声环绕,包括汽车喇叭声、飞机的噪声、马路上人的声音等;而发言者使用的设备也是五花八门,除了自然发声,人们可以配戴各式各样的麦克风。
在真实的应用场景下,说话人、环境、设备三个因素叠加在一起,使语音识别的应用场景更加复杂。如何处理这些不确定性,成为摆在研发人员面前的一项重大挑战。
口语化的识别需要训练语料,口音的有利信息需要大量的口音的数据才能解决。“未来会出现更大规模的语料库,要训练更大规模的语音识别系统。”贾磊认为,多种数据源的混合训练仍然是解决口音、噪音和远场问题的必要手段。
目前的语音识别系统,显然还难堪完美。尽管各家科技公司根据实验数据得出的语音识别准确率达到95%甚至更高,但在实际使用时并没那么高。
阿里云智能语音技术总监鄢志杰认为,“夸张”的准确率只可能在非常受限的场景下获得,“如果在一个热烈讨论的会议室,掏出手机做会议记录,别说97%,断断续续勉强看懂就不错了”。
“语音识别的准确率远没有新闻标题上宣传的那么高,脱离现实场景去谈准确率统统都是耍流氓。”鄢志杰认为。
在工业界,语音识别的准确率在探索中稳步提升。其中,奥迪A8L自带的MMI人机交互系统拥有语音训练功能。如果车主有口音,该功能将训练系统、来识别车主的发音习惯,从而精准地听令行动。这体现了系统拥有自主学习、自主升级的特性,也是人工智能未来发展的大方向。
从“听到”到“听懂”的进化变革
语音识别、语音搜索,已然成为了移动互联网时代的“刚需”。如今,智能客服与智能助理等已经成为互联网上的典型应用场景。接电话的客服人员,可能要渐次被人工智能和机器人替代,不少科技公司已经使用了语音自动转接、情感识别与关键词识别、语音识别和关键信息提取,还有自动化的全量检验;而智能助理则可以采用对话的声控方式,帮助用户找餐馆、安排行程、点歌、导航、找菜谱等。
为了利用语音交互的新颖和便利模式迅速占领客户群,互联网公司纷纷投入人力、物力和财力展开语音识别的研究和应用。
贾磊认为,想解决口音、噪音的问题,语音识别系统的训练数据还会继续加大,在不久的未来训练数据一定能达到十几万小时。如果出现这么大的计算量,对计算能力的需求会更加强烈,“大数据和高性能计算,是语音识别发展到目前最明显和清晰的趋势”。
“语音识别正处于产业化爆发的边缘,但机器计算成本是一个很大的瓶颈。如果线上50%的搜索都由语音完成,而计算成本还和过去一样,那么没有公司能承担得起。”贾磊表示,语音服务要想大规模普及、服务大众,必须降低后台服务器开销。
在贾磊看来,作为明显的行业趋势,语音识别技术会和语意理解、交互技术等形成一整套语音的解决方案。
让人工智能系统根据自己被告知的内容回答问题或采取行动,真正的难度在于语义识别。目前的语音识别技术,只是把“听到”的语音高正确率转化成文字,这对于未来的需求还远远不够。从“听到”,到“听懂”,尽管一字之差,却考验重重。
如果让语音识别系统变得更加聪慧,其突破依赖于计算机硬件的进步。近几年计算机飞速发展,特别是通用计算的发展,使人类有了强大的计算能力,使得一些过去不可能实现的人工智能算法成为可能,但如果要实现语音服务的通用化,计算能力还有提升空间。
更重要的是,人使用语音识别的目的,不只是把语音转成文字,而是使用语音去进行交互,并获得其所需的服务结果。贾磊认为,“这是未来的工业发展趋势,单纯地脱离了服务、脱离了平台、脱离了计算能力去做语音技术的时代已经过去了。”
语音识别虽然为现代生活带来了各种便捷,但距离真正实现精确无误,自主思考,显然还有很长一段路要走,只有研究者们不断执着进取,突破藩篱,才能为语音识别技术的未来带来真正的颠覆与改变。