智能语音时代来临

2013-04-29 00:44牛禄青
新经济导刊 2013年7期
关键词:语音神经网络智能

牛禄青

苹果手机语音助手Siri的亮相,在全球掀起智能语音产业的发展热潮,这是人机交互革命,抑或又一轮投资泡沫?为了深入了解智能语音技术和产业的发展背景、市场潜力、未来趋势以及中国的机遇与挑战等相关问题,本刊记者专访了清华大学电子工程系副教授、多媒体信号与智能信息处理实验室主任吴及。

前所未有的高度

《新经济导刊》:语音技术自上世纪50年代就出现了,为何最近两年才开始火爆,是与苹果的语音助手Siri推出有关吗?

吴及:清华大学电子工程系多媒体信号与智能信息处理实验室的前身,是由王作英教授1987年创建的语音识别技术实验室。这个实验室是国内语音识别领域最有影响的研究团队之一,到现在快三十年了。我的博士生导师王作英教授是我国语音识别技术领域的开拓者之一,当时在第一批国家863计划中就对“语音翻译”进行了立项,王老师是这个项目的负责人。从那时候起,我们一直在研究语音识别技术,亲眼见证了语音技术的起起伏伏,犹如过山车一样。

如果把应用前景展示给企业和用户,他们会很兴奋,希望马上开发和应用语音识别技术,产业界也会以很大的热情投入进来,随后发现这种技术比想象的难很多,短期内应用的可能性不大,于是就冷却了。

这样的起伏历史上发生过好几次了,上世纪70年代到80年代是一个高峰期。这时语音识别技术有很大提高,许多企业涌入,例如IBM、苹果等,后来大部分企业都放弃了,包括苹果,只有科研院所和少数企业还在继续研究。上世纪90年代后期到2000年前后,又是一个高峰期,最典型的是IBM开发出听写机引擎Viavoice,汉王是这款产品的国内代理,并结合手写识别技术推出了汉王听写大师,虽然红火了一阵,但大家在电脑上还是习惯于用键盘而不是语音输入,接着又归于沉寂。

这次的兴起与过去不太一样,超过以往任何一次的高度,商业化应用的规模、普通民众的接受和认可程度,都远远超过了以往。不可否认,苹果的Siri对语音识别技术的推广起到了推波助澜作用,刮起了智能语音风。但我认为,这轮热潮是从Google开始的。2008年,Google在美国推出英文语音搜索服务Voice Search,刚开始用户通过免费411电话,就可以获取搜索结果。2009年,Google在全球范围正式发布了谷歌中文语音搜索。

2010年,中国的科大讯飞发布了语音云平台。科大讯飞之所以推出语音云,正是因为看到了互联网特别是移动互联网的发展,对智能语音产业的带动已经表现出来了。2011年,苹果在iPhone4S的发布会上推出了Siri语音助手。2012年,科大讯飞又发布了第二代语音云,名为“讯飞语点”的中文语音助手可以用中文进行应答。很快,苹果也推出中文版Siri。

从2012年开始,语音市场迅速升温,国内的互联网企业开始涉足,例如百度、腾讯、搜狗,还涌现了许多创业公司,智能360、云知声等。

我认为,智能语音已经进入到产业化层面,最近5年的产业发展速度超过了过去50年,并且跟以往主要靠技术推动有很大差异。

最近几年,智能语音产业之所以有突破性发展,有几个因素起到了关键作用:一是移动互联网的发展,使手机成为重要的客户端。现在手机数量已经远远超过PC和笔记本,导致越来越多的交互行为通过手机来完成。苹果ios、安卓等智能手机操作系统推出后,手机应用和手机交互逐渐增多,但在手机上靠传统的键盘输入很不方便,手写又太慢,而使用语音输入很方便,这样用户的需求就被激发了。

二是云计算的发展。以前语音识别讲两头,一方面看电信领域能否应用,另一方面尽量挖掘手机的资源潜力,但手机的计算资源和存储资源很有限。现在随着移动互联网和云计算的发展,语音识别不需要在本机做了,可以在云端做。这样资源条件大为放松,对语音识别引擎不需要非常严格的限制了。此外,用户的语音数据可以存放在云端,就能有大量的真实数据用于模型训练,语音识别性能得到了迅速地提高,识别率可以达到85%~90%以上,这就达到了用户使用的最低门槛。有了服务端以后,数据形成了循环,计算资源的要求放松,这是智能语音产业发展的重要条件。

三是语音识别技术一直在进步,最近十年也不断有新的突破,例如声学模型的鉴别力训练和近年来非常热的深度神经网络。

《新经济导刊》:语音技术包括语音合成、语音识别、语义理解、知识图谱等子技术,为何把语音识别称作智能语音行业的“皇冠”?

吴及:这是把交互的环节拆解了,好比甲乙两台设备对话,甲说话就是语音合成,把文字转化成声音,乙听到后转化成内容就是语音识别,真正理解了听到的内容就是语义理解,然后乙再进行应答,又是语音合成,这样循环往复。

语音合成技术相对容易,成熟最早,比如打电话查询考试分数;而语音识别技术难度大,虽然过去性能一直在提高,但距离推广应用总有一段距离。现在国内外企业的语音识别准确率,在某些应用领域超过了90%,比如语音搜索、语音输入、语音提醒等,但在有些领域还达不到。

知识图谱是把人的知识结构化、关联化。比如刘德华是歌手,有哪些特点、爱好等,把更多相关知识呈现给用户。

《新经济导刊》:最近听说一个很流行的IT概念“深度神经网络”(Deep Neural Network, DNN),这和语音识别有什么关系呢?

吴及:神经网络也是一个有几十年历史的技术了,包括一个输入层和一个输出层,当中有很多隐层(不是外部直接可见)。以往方法只能训练出比较少的层次,更深的层次,训练算法做不好,数学证明,层次越多,描述能力越强。最近三至五年,深度神经网络的训练方法有了突破,深度神经网络的理论和应用问题有了迅速的发展。于是大家纷纷研究深度神经网络,最重要的应用成果之一就是语音识别,这既提高了语音识别的性能,也证明了深度神经网络的价值。所以,这个技术现在很火,学者采用深度神经网络来研究包括语音识别在内的许多问题。

2006年,加拿大多伦多大学教授Hinton提出了深度神经网络的学习算法,使得多层神经网络的有效训练成为可能,这就是所谓的DNN。

微软雷德蒙德研究院的研究员邓力敏锐地捕捉到了神经网络技术的这一突破性的进展,就把Hinton请到微软,讨论如何把深度神经网络应用到语音识别技术上。2011年8月份,微软亚洲研究院发表了一篇学术论文,阐述在这方面取得的成果,通过引入DNN使得在特定语料库上的语音识别准确率得到了大幅提高,性能的相对改善约为30%。

从这以后,越来越多的企业和研究机构都对深度神经网络进行研究、开发和应用。深度学习是一个更宽泛的概念,主要指如何把深度神经网络学得更好、更快,并能在不同场合更好地应用。

市场应用前景巨大

《新经济导刊》:语音识别技术在移动互联网、智能电视、车载终端、教育、玩具等方面已经有所应用,您对该技术的发展趋势怎么看?哪些领域会最先成为爆发点?

吴及:智能语音技术的发展趋势包括两个层面,一是在线应用(B2C),与语音工具实时对话,例如普通用户拿手机语音命令控制、咨询问题、搜索、获取信息等;可以让语音玩具背诗、唱歌、翻跟头等;打客服电话获得某项服务,比如自动语音查询余额等。在线应用主要解决两个问题:方便性和有效性。

二是离线应用(B2B),离线应用是通过与数据挖掘技术的结合,能够从海量数据中发现知识、规律,为人们解决问题提供征兆、趋势和思路。语音数据也是大数据,比如呼叫中心,每天的电话数据非常惊人,中国移动的一个省级呼叫中心,一天的数据就有上万小时。还有电视、广播、互联网等媒体上的语音数据太多了。这些数据如果不能被有效处理,就无法被应用,只能被闲置,实际上可以利用语音识别技术将这些数据转化成文字等符号性表示,然后再被挖掘、检索和利用。

离线应用比在线应用确定性更强,语音交互的在线应用需要和其它的交互方式竞争,而离线应用由于面向海量数据,只能选择语音识别技术,使用人工转写,时间和人力成本都太高了。在线应用更贴近老百姓,离线应用服务于企业。

在线应用领域,最先被接受和爆发的是最有价值的、应用条件最好的、企业愿意投入更大精力去优化的、用户群更大的垂直领域,比如短信、搜索、查询(天气预报、航班、火车、音乐、电影)。离线应用由于没有可替代性,也一定会发展起来。

我们实验室已经在做离线应用了,与科大讯飞有合作,我们负责离线技术研发,科大讯飞负责应用系统开发和产业推广。很多运营商已经使用我们的技术,语音识别准确率达到了80%以上。今年会在中国移动的一些分公司进行推广。

离线应用有两方面价值,一是监控客服质量,提高企业服务水平。实际还可以推广到金融、保险等领域。二是语音分析,通过语音识别和数据挖掘技术,可以更全面地了解实际情况,比如哪些业务最受欢迎或最不受欢迎,哪些业务出现了问题等等。

信息技术是渗透性的,它可以改变所有产业的形态,语音技术也是如此。随着工作和生活节奏的加快,人们需要随时随地获取信息和知识,提高效率,语音交互提供一种最为方便快捷的手段。

目前语音市场规模还不大,但这个领域的想象空间非常大。如果所有手机、电视、汽车、教育、呼叫中心变成语音智能化,每一个细分领域都将是上千亿。五年之内,智能语音技术产业将会有一个很大的发展。

跻身主流交互方式

《新经济导刊》:现在的语音识别技术完全可以支持产业化应用吗?

吴及:人机交互的可选方式很多,除了语音输入,还可以选择手写输入、键盘输入等。现在市场上的语音产品只能支持普通话和带口音的普通话,逐步支持个别方言,大部分的方言还不行。从性能上来讲,语音识别技术的对手是人,老百姓容易对语音技术有过高的期望,要能像人一样听懂别人说的话,这是十分困难的。

目前,语音技术并没有成熟到像卖手机一样可以普及推广,需要根据不同场景和应用对语音识别引擎、数据、技术进行针对性优化,才能让用户接受。这也是语音识别技术大范围推广的瓶颈。如果想让语音识别技术非常成熟,需要一个长期的过程,语音识别和语义理解,实际上已经属于人工智能的范畴了。

当然,针对不同领域,可以开发相应的语音识别引擎和私有云,这里面就蕴藏着巨大商机,但要选择用户规模大的领域。

《新经济导刊》:我体验了一下已推向市场的语音助手产品,有些情况下还是听不懂我说的话?

吴及:语音识别只是解决了一个问题,把语音变成了文字,但通常还需要对识别内容进行理解,即语义理解,这就非常难了。所以语音工具有时候还不错,有时候很傻,有时候极其愚蠢。人的智能不是目前的机器所能达到的,说话的场合、语气、手势、表情等都会影响内容的表达效果。如果仅靠声音识别就丢失了很多信息,而且还会存在表达歧义、知识背景等问题,所以,通畅无阻的语音识别技术太难了。我虽然说它逐步成熟,但也是在有限场合和范围得到应用,至少在短期内不要期望它能适用于任何场景。

《新经济导刊》:对于智能语音技术的兴起,现在业内有两种声音,有人认为这是一次人机交互革命,还有人认为又是一轮投资泡沫。您怎么看?

吴及:每一种新技术的兴起,总会有不同声音,有人可能很兴奋,有人可能会质疑它。我们在语音领域时间较长,相对平静一些,但我们觉得,这次要超过以往的高度,而且确实在一些领域实现了比较成功的商业化应用。是否能成为特别重要的入口,还存在不确定因素。在若干种交互方式同时发展、都能起作用的情况下,成为惟一的交互方式,不太容易,因为有些场合不适合语音交互,而且技术上也会有一定限制。未来最可能的还是混合的交互方式,成为主流交互方式之一,不同的场景,不同的用户需要,不同的用户习惯,都会造成选择交互方式的多元化。

人类对未来的预测和展望实际上是被人类创造出来的,如果人们越来越觉得语音交互重要,那语音技术就会逐渐趋于成熟,并被广泛应用。现在几乎所有互联网厂商都把语音作为非常重要的入口之一,因为它具有方便快捷的优势,而且在车载、行走等移动环境下,优势更明显。通过技术上的不断优化和完善,我相信语音交互会成为人机交互的重要组成部分,快则一两年,慢则三五年。人和语音供应链是个相互适应的过程,技术不断在发展,用户也在逐步被熏陶和教育,到一个点就平衡了。

产业格局:一专多大?

《新经济导刊》:如何判断一家公司的语音识别技术水平?有人说,关键看是否推出了语音云平台。请谈一下您的看法?

吴及:实践是检验真理的惟一标准,衡量一家公司的语音识别技术水平,首先要看它的语音识别准确率。要想达到85%以上的语音识别准确率,必须掌握主流的语音识别技术。

实际上,语音识别技术是一个复杂的系统,包括信号处理的前端、特征提取、特征的后处理、模型训练、解码等许多环节,后来又加入高鉴别性模型训练和深度神经网络。

语音识别技术包括两个层面,一是研发语音识别系统的能力,语音信号输入后处理成文字的速度和准确率;二是云架构,是具备提供大规模语音识别服务能力的基础,要求识别服务是否能同时响应成千上万人的需求。云平台需要对大规模的服务器集群进行建设、维护和管理,这也是语音企业的核心竞争力之一。

《新经济导刊》:清华大学是智能语音研究比较早的机构之一,请介绍一下国内智能语音的学术格局和产业格局?

吴及:国内从事智能语音研究的高校和科研机构比较多,其中研究时间较早、具有自己的语音识别系统、综合实力较强的单位有清华大学、中国科学技术大学、中科院自动化所、中科院声学所,此外北京大学、北京邮电大学、北京理工大学等也具备一定实力。

从国际上看,智能语音产业表现为一专多大,即一个专业公司Nuance和几个大的IT公司,Google、微软、IBM、苹果等。目前,国内的产业格局也基本相似,一个专业公司科大讯飞,其他几个互联网公司,如百度、腾讯、搜狗等,阿里巴巴和360可能也会逐步加入进来。

除中国以外,国外的语音技术企业基本都被Nuance收购了,谁做得好,Nuance就把它收购。这与语音技术的特点有关系,语音技术投资大,应用面很宽,但单位价值不高,它不是一个暴利的行业,所以一定要形成规模优势,而小公司的生存和发展就相对困难,国际上语音专业公司已经是Nuance一家独大。

Google、微软、IBM、苹果虽然也做智能语音技术,但它们不指望语音业务本身带来收入,而是与它的生态系统建设息息相关。比如成为入口,吸引更多用户,主要靠其他业务获得收益。

如果不是中国语言和文化的特殊性,有可能全世界都是一专多大的格局。Nuance进入中国,需要解决的问题很多,比如文化融合、语言、技术工程师的支持等。即使Nuance中文识别做得很好,一旦涉及到具体应用就很吃力。

科大讯飞与Nuance虽然都是专业的语音技术公司,但有所差别。由于国外的互联网企业实力很强,Nuance的定位就是提供语音技术服务,它的主要收入渠道是医疗、律师、运营商,此外还为手机厂商如苹果、车载等提供语音技术服务。

国内的互联网企业进入语音技术领域要晚一些,但也在加大投入。科大讯飞的发展目标也不是单纯的技术提供商,希望通过推出语音云打造自己的语音技术应用平台,从而构建自己的生态系统。

百度专注于互联网模式下的语音技术,是国内互联网企业做得最早的,引进国内外人才,充分发挥自身优势,时机抓得很好,进步非常明显。

需要引起重视的是,智能语音行业人才缺乏,很多企业在专业人才招聘时都遇到了很大的困难。清华大学、中国科技大学、中科院自动化所、中科院声学所的学生一毕业,马上被抢走了。顶尖人才那就更稀缺了。

构建语音生态系统

《新经济导刊》:智能语音行业具有很高的技术壁垒,面对国际巨头的强势,国内一些公司也在加大语音识别产品的研发和推广,与国外企业相比,中国企业有哪些优势和劣势?如何缩小差距?

吴及:中国企业最大的优势就是语言,中文让中国的互联网、文化产业等具有很大发展潜力。中国企业经常谈国际化,如果是新加坡、以色列的企业就不会有国际化的问题,它一诞生就必须是国际化,因为靠本土市场不足以支撑其发展。中国的企业普遍存在国际化问题,因为国内外的市场差异比较大,同时中国的市场足够大,不需要走出去同样可以获得生存和发展。语言和文化的壁垒有时候无法逾越,这也是国内的互联网企业虽然技术和商业模式上并不比国外企业先进,但依然活得很好,能够与国外企业抗衡的一个基本因素。

中国市场环境的成熟化方面,比美国还是有差距的。国内企业在构建自己的生态系统、文化创新、商业化运作、发展模式创新等需要加强。国内的科研院所和企业在语音识别技术上与国际先进水平差距不大,在互联网环境下技术跟进很快,在汉语语音技术上还有自身的优势,是一个很有发展前景的产业。工信部副部长杨学山曾表示,智能语音是中国为数不多的具有自主知识产权又能达到国际先进水平的产业。

国际上移动互联网领域应用最成功的企业是Google和苹果,苹果用iPhone终端打造了一个生态系统,而Google用安卓操作系统打造了一个生态系统。这些顶级企业具有很强的创新能力,苹果重新构建了手机,Google重新定义了开放的手机操作系统。国内企业目前还是有差距的,这与国内企业的竞争实力、创新能力和市场环境有关系。当然,也有不少企业开始了这方面的努力,例如百度、腾讯、科大讯飞等。

《新经济导刊》:您认为中国推进智能语音产业化,需要解决哪些问题?

吴及:中国人口众多,市场容量大,有很好的机会。只有加快智能语音产业发展,才能避免受制于人。国家要支持企业建立语音生态系统,但要把握好力度和分寸。美国政府对语音技术和语音产业的支持力度很大,从简单的任务做起,航空、银行数据的识别,华尔街日报数据的采集和识别,逐步走向难度更大,更接近真实场景的任务。如电话语音识别、语音翻译等,刚开始是纯技术研究,逐步转向实际应用,比如不同语言的互译,可以应用于情报收集和军事安全需要。

所谓生态系统,是指所有事情非某个人或某个企业包办,既有企业提供基础平台服务,又有大量二次开发产生自己的价值。如果苹果和安卓上没有那么多应用,苹果和安卓平台也没有那么大价值。

同样,如果有越来越多的企业去做语音应用和进行二次开发,用户就会享有更多更好的语音产品和体验。这样平台企业也会做大做强,整个语音生态系统就形成了,国内语音产业抵御风险的能力就提高了。除了移动互联网的平台,还应该推动教育、电视等智能化平台的建设。

诺基亚手机的质量和用户体验一直得到用户赞许,很早推出基于Symbian的智能手机,但由于没有建立起良性的生态系统,没有开发商做应用,也丢掉了用户,因此在移动互联网时代很快落伍了。如果国内企业不能建立起自己有生命力的语音生态系统,国外企业迟早会喧宾夺主抢占地盘。

猜你喜欢
语音神经网络智能
神经网络抑制无线通信干扰探究
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
智能前沿
对方正在输入……
智能前沿
智能前沿
智能前沿
基于神经网络的拉矫机控制模型建立