牛禄青
从十九世纪末的打孔卡和纸带输入,到盛行了数十年的键盘鼠标,再到现在流行的触摸输入,人机交互正在变得更直观、自然和人性化。近几年,随着语音识别技术的快速发展,智能语音正成为新的人机交互方式。
“以前我们说鼠标加水泥等于新经济加传统经济,现在鼠标已经不是新经济,手机的输入方式已经是手势、语音甚至图像。”百度CEO李彦宏说,去年一年语音识别的准确率提升比此前15年提升的总和还要多。智能手机的普及也使得这方面的需求大大激发。
2011年10月4日,iPhone4S对外发布,让用户感到新奇的是,智能语音助手Siri被成功植入iPhone4S之中。Siri的横空出世,在全球引发了语音热潮,各类语音助手几乎成为智能手机的必备应用。
相比早期的语音控制系统,Siri将iPhone变成了一个智能机器人,用户对着手机说话,不仅可以让手机读短信和拨号,甚至能够查询天气、餐厅位置、航班等以往不可想象的功能。在Siri身上,人们看到了语音成为手机实用交互方式的可能,而不像以前只能通过键盘或手写输入文字来传递信息。
除了手机内自带的语音助手,不少第三方语音助手应用也如雨后春笋般涌现,譬如讯飞语点、百度语音助手、搜狗语音助手、虫洞语音助手、智能360语音助手等。这些语音助手的功能也越来越强,不仅可以通过语音搜索内容、查询信息,还可以聊天解闷、讲故事、唱歌。
最近中关村在线手机事业部针对手机语音功能现状进行了一项调查,结果显示,67.68%的受访者表示使用过语音助手软件,这足以证明手机语音助手类应用的市场热度。
不单单是手机,语音技术也逐步应用于PC、平板电脑、家电、车载、玩具、手表、眼镜等智能终端,以及教育、电信、金融、保险、客服等领域。在2013年英特尔信息技术峰会(IDF)上,英特尔“感知计算”概念的提出,意在建立起一个新的人机交互框架,掀起“重塑PC”的革命,而语音识别就是感知计算的一部分。
实际上,“听话”的浏览器离我们并不遥远。Google Chrome浏览器已经开始尝试支持声控命令,或许要不了多久,我们就能通过声控浏览器完成浏览网页、发送邮件等。比如,你可以通过“暗一点”“亮一点”“字体大一号”等语音命令来控制浏览器。
结合地图系统和智能语音识别的打车软件一经面世便得到消费者的广泛关注。曾在北上广风靡的打车叫车软件“嘀嘀打车”,前不久正式进入武汉运营。据了解,“嘀嘀打车”软件在武汉市场试运行的14天时间里,召车成功率达88%,远远超过武汉官方叫车平台“电召”的48.5%。
4月10日~12日,第一届中国电子信息博览会在深圳举行。由工业和信息化部指导,19家单位联合发起成立的中国语音产业联盟组团参展,将神奇的智能语音体验带到了现场,全面展示了智能语音技术在移动互联网、教育、智能电视、车载终端、玩具等方面的新产品、新应用。
清华大学吴及副教授表示,通过技术上的不断优化和完善,快则一两年,慢则三五年,语音识别技术会成为人机交互的重要组成部分。未来最可能还是混合的交互方式,语音成为主流交互方式之一,因为不同的场景、用户需要和用户习惯,都会造成选择交互方式的多元化。
智能语音爆发
世界银行去年发布报告称,全球手机数量已经从2000年不到10亿部,增长到现在的60亿部,其中近50亿部都在发展中国家。世界银行估计,到2015年,世界上将有人口75亿,而手机将达到近90亿部。
市场调查机构策略分析公司Strategy Analytics公布的调查结果显示,自智能手机1996年面世以来,截至2012年第三季度,全球智能手机用户数量突破10亿部。也就是说,现在全球七分之一的人拥有某种智能手机。Strategy Analytics预测,全球智能手机用户数量最迟将于2015年突破20亿大关,2013年,仅仅Android用户就将超过10亿人。这是因为智能手机市场还存在着巨大的增长潜力,尤其是在中国、印度和非洲国家市场。
艾媒咨询(iiMedia Research)分析认为,随着智能手机价格平民化以及运营商、渠道商、手机厂商对智能手机市场不遗余力地推广,使得使用智能手机开始成为一种大众潮流,大批非智能手机用户转化为智能手机用户。预计到2013年年底,中国市场智能手机用户规模将突破5亿。
在智能手机市场,以智能语音技术软件应用平均收入为5元/台计算,2013年中国智能语音市场应用规模可达25亿元,2015年全球智能语音市场应用规模可达100亿元。
中国互联网络信息中心CNNIC调查显示,截至 2012 年 12 月底,我国手机网民达到 4.2 亿户,占网民比例由上年的 69.3% 升至 74.5%。目前中国已经成为继美国之后全球第二大移动应用市场,拥有 50 多家应用商店,最大的应用平台中应用数量已经达到 70 多万,下载量超过 90 亿次。
借助开放平台和应用商店模式的助推,移动互联网分布在音乐、电商、游戏、搜索等领域的产业价值趋于明显。2012年,iOS 平台上共有超过73万款应用上线,中国移动MM平台上应用接近15万。
另外,2012年微信用户数突破2亿,对传统的话音、短信业务形成强烈冲击。据估计,到2015年我国移动互联网市场规模将达到4296亿元,活跃用户将超过8亿。
近几年,移动互联网的大规模爆发,作为主要载体的智能手机在键盘输入和手写输入方面非常不方便,这为语音识别技术的应用提供了巨大空间。
一款由云知声研发的微信语音输入插件,只需对着手机说话就可以快速发短信了,每分钟可以输入100字。自今年2月推出后,以精准的识别性能和全新的交互体验,受到广大用户的追捧,发布一周即登顶App Store首位,使用该应用软件的用户接近100万,开启三十次以上的每天有几万人。
云知声创始人兼CEO梁家恩表示,语言是人类交流中最重要、最自然的方式,所以语音技术的普及将引起人机交互方面最深刻的革命。这是一种更高效的人机交互方式,极大地提高了效率,同时降低了用户信息获取的难度和门槛。最直接的例子是,我想跟朋友说今晚约会地点。传统的手机交互方式是,需要点击手机菜单,选择新建信息,输入联系人,手指输入文字内容,发送……而通过语音助手,我们只需按下Home键或者线控上的按键,然后直接说“发短信给xx,今晚我们在xxx见面”即可。
在车载环境下,用户的注意力主要集中在于驾驶,人与车的交互必须在不影响驾驶的前提条件下进行,而语音识别技术提供了安全便捷的交互方式,用户只需动口,就可以满足在行车过程中的相关需求。说出“想回家”,汽车会根据你家的位置设定好最佳路线,并开始导航。说出“加油站”,几公里范围内的加油站将逐一由车载语音系统播报出来。
2013年配备语音交互的汽车出货量将达到300万辆,技术授权30~50元/辆,技术授权年度市场容量将超过1亿,预计到2016年配备语音交互的汽车出货量将达到1500万辆,存量接近3000万辆;车载增值服务渗透率逐步提高到30%~35%,年度市场容量将达到10亿。
无论是Google已推广上市的“Google Glass”,还是百度正在研制的“Baidu Eye”,都将语音操控作为人机沟通的重要手段,拍照、打电话、录像,你只需说出你的需求,它就在你眼前展现出想要的结果。智能眼镜、智能手环、智能手表、智能项链,这些物联网时代的智能化设备,最大限度地利用了语音控制技术,它将让未来的生活变得如梦如幻。
很多小朋友想拥有一个会说话的玩具,就像喜剧电影《泰迪熊》里面的TED一样。如今,市场上已经出现了智能语音玩具,按照预定程序执行人的语音指令,如背诗、唱歌、翻跟头、跳舞等。
发端于上世纪50年代的语音技术,经历了多次潮起潮落,这次是真正的变革,还是又一轮泡沫?吴及告诉记者,“这次的兴起与过去不太一样,超过以往任何一次的高度,商业化应用的规模,普通民众的接受和认可程度,都远远超过了以往。”
对于语音产业爆发的原因,吴及有着自己的思考:一是移动互联网的发展,使手机成为重要的客户端,现在手机数量已经远远超过PC和笔记本,导致越来越多的交互行为通过手机来完成。苹果ios、安卓等智能手机操作系统推出后,手机应用和手机交互逐渐增多,但在手机上靠传统的键盘输入很不方便,手写又太慢,而使用语音输入很方便,这样用户的需求就被激发了。
二是随着移动互联网和云计算的发展,语音识别不需要在本机做了,可以在云端做。这样资源条件大为放松,对语音识别引擎不需要非常严格地限制了。此外,用户的语音数据可以存放在云端,就能有大量的真实数据用于模型训练,语音识别性能得到了迅速地提高,识别率可以达到85%~90%以上,这就达到了用户使用的最低门槛。
三是语音识别技术一直在进步,最近十年也不断有新的突破,例如声学模型的鉴别力训练和近年来非常热的深度神经网络。
争抢语音电视
引入语音识别和语音合成技术的智能语音电视不仅能听懂用户说话并作出反应,而且还能说话。用户凭借语音指令可以轻松完成音量调节、换台操作、电视节目查询、网络浏览搜索、文字输入等服务,还可以提供天气、股票、航班、热点新闻等信息,让用户“所说即所得”。
5月7日,乐视超级电视在五棵松万事达中心全球首发,吸引了众多与会者参与。与之前其他的电视类产品不同,乐视超级电视集硬件、软件和内容完美结合,是一款真正意义上的互联网电视,同时具有超高的性价比。
在电视、上网功能完美结合的同时,乐视还集成了目前最先进的智能语音交互技术,用户通过带有麦克风的遥控器,就可以轻松自然地实现操控、输入、搜索等功能。而该项技术由云知声提供。从现场的演示效果来看,语音识别准确度和识别效率方面都具有很高的水准。
在乐视网董事长兼CEO贾跃亭看来,“‘超级电视是这个星球上有史以来最强大的硬件怪兽。”贾跃亭的底气来自于其合作伙伴,联合全球最顶尖面板供应商夏普、全球最顶尖的智能芯片商美国高通公司、全球最顶尖硬件制造商富士康和播控平台合作方CNTV;而更大的底气则是“超级电视”的高性价比,60英寸X60是超级电视的旗舰型产品,售价仅6999元,要比市场上的价格便宜一半多,同时推出的普及型产品S40售价1999元。
乐视推出的超级电视是否能如其所言“颠覆”传统电视呢?业内都在拭目以待。作为互联网企业敢于杀入目前似乎固若金汤的电视行业,这也说明智能电视已成为互联网企业觊觎的猎物。不只是乐视,阿里巴巴、PPTV、小米等也推出了机顶盒产品,而在此布局更早的谷歌、苹果早已“袭击”了电视。
为了适应智能交互方式的发展潮流,早在去年,国内六大电视厂商长虹、海信、康佳、海尔、TCL、创维等企业纷纷推出可以语音控制的智能电视。为了在智能电视市场先人一步,2012年2月16日,就在大家都还沉寂在新年余味的时候,长虹联合语音技术公司科大讯飞率先发布30多款Ciri语音智能电视新品,最高售价近7000元。随后,其他彩电企业也迅速跟进,推出具有语音识别功能的智能电视或云电视。
需要注意的是,国内彩电企业在半导体、智能语音等方面都缺乏技术储备,只能拉入第三方语音企业作为外援提供技术支持。业内人士认为,进行语音技术和人员储备是彩电企业的当务之急。
而科大讯飞的盈利模式也有许多尴尬。众彩电厂商和科大讯飞均是“一锤子买卖”,即一次性购买语音软件或芯片,前者推出的所有应用皆为免费,只是智能产品本身的售价有一定幅度提高。
据预测,2013年智能电视出货量将达到1500万台,2016年智能电视出货总量将超过4000万台,智能电视存量将超过1亿,年度市场规模将超过13亿。未来,在每个家庭网络上的电器设备,都可以被人们的语音控制。
语音数据金矿
智能语音技术应用非常广泛,不单单是前面提到的手机、电视、玩具、汽车等领域,也包括即将兴起的智能客服、智能订单、智能营销等智能语音服务。
随着互联网的发展,许多企业客服放到互联网上了,比如QQ、微信、旺旺,现在都是键盘交互,以后可以通过语音交互,减少人工客服成本。这些与语音工具进行实时对话的应用,属于在线应用(B2C)。
另一个非常重要的应用领域是离线应用(B2B)。离线应用是通过与大数据技术的结合,对海量语音数据进行处理、挖掘和分析,开发和利用其中的价值。
语音数据也是大数据,比如呼叫中心,每天的电话数据非常惊人,随着中国人口红利的消失,呼叫中心的智能化日益迫切。据 Ascent Group 2010年IVR研究报告,2016年电信、金融、电力等重点行业呼叫中心市场规模预计达到30万线以上。此外,中国移动的一个省级呼叫中心,一天的数据就有上万小时;还有电视、广播、互联网等媒体上大量的语音数据。
“这些数据如果不能被有效处理,就无法被应用,只能被闲置,实际上可以利用语音识别技术将这些数据转化成文字等符号性表示,然后再被挖掘、检索和利用。”吴及说。
他进一步指出,离线应用比在线应用确定性更强,由于面向海量数据,只能选择语音识别技术,使用人工转写,时间和人力成本太高了。
据了解,清华大学电子工程系多媒体信号与智能信息处理实验室已经在与科大讯飞合作,研究、开发、应用离线技术,语音识别准确率达到了80%以上。今年将在中国移动的一些分公司进行推广。
离线应用有两方面价值,一是监控客服质量,提高企业服务水平。二是语音分析,通过语音识别和数据挖掘技术,可以更全面地了解实际情况,从而帮助决策层和管理层进行科学研判和趋势预测。
此外,公共安全和政府等行业客户对信息资源的深入开发利用也有着迫切的需要,并对基于文本及语音分析处理、数据挖掘等技术的海量信息智能分析与处理软件平台的开发有着明确需求。具体应用是,从大量录音数据中自动快速找出指定关键字的语音,从而得到公安或其他政府部门需要的信息,用于做出及时正确判断和决策。据不完全统计,此项应用在政府部门的市场总量将在6亿元以上,但此项业务的门槛和公关成本很高。
谁主沉浮?
几年前,语音行业不景气,从事语音技术研究的多以学术界为主,这使得国内的语音核心技术一直掌握在清华大学、中科院声学所、中科院自动化所、中国科技大学等几家单位,同时也导致语音行业的人才很稀缺。
从2008年开始,伴随移动互联网的大发展,语音识别产业才真正兴起。谷歌于2008年在美国发布了英文语音搜索服务Voice Search,应用于Android、诺基亚S60、黑莓、iPhone等多个系列的手机。2009年,Google在全球范围正式发布了谷歌中文语音搜索。
2009年苹果收购Siri,并于2012年推出中文版Siri,大受用户欢迎,掀起智能语音热潮。
在中国,最早从事语音识别产业化应用的企业是科大讯飞(1999年成立)、捷通华声(2000年成立),这两家企业刚开始都专注于语音合成技术的研发(把文字转化成声音,比如机场、火车站听到的播报)。2008年科大讯飞成为上市公司后,开始研发语音识别技术。2010年发布了语音云平台,宣告移动互联网语音听写时代到来。
作为语音行业的龙头企业,短短几年时间,科大讯飞的市值从2008年刚上市的34亿,已经增长到超过200亿,让人瞠目结舌。目前,科大讯飞是中国最大的智能语音技术提供商,也是我国惟一以语音技术为产业化方向的“国家863计划成果产业化基地”。
依托于中科院声学所的捷通华声,成立时间基本和科大讯飞相当,在之前相当长一段时间内,也和科大讯飞旗鼓相当,但最终的结果是科大讯飞发展起来并成功上市,而它则相对平淡。
近年来,科大讯飞攻城略地,继牵手中移动、中联通后,5月27日发布公告称,已与中国电信签订三年期的战略协议,共同推进智能语音产业。科大讯飞官网显示,其智能语音技术占有中文语音技术市场70%以上份额。
有观点认为,尽管牵手三大运营商,但科大讯飞仍前景难料。在与中移动合作后,双方至今未推出“杀手级”业务。双方合作的“灵犀”语音助手将被融合到飞信中,但在微信的冲击下,飞信的前景渺茫。电信分析师付亮称,牵手科大讯飞,不会解决微信对运营商的冲击,因为科大讯飞的模式跟微信相似。
Google语音搜索和苹果Siri的成功,也让国内语音市场迅速升温,国内互联网企业纷纷涉足。例如百度、腾讯、搜狗、阿里,还涌现了许多创业公司:云知声、灵声科技、智能360、虫洞、苏州思必驰、普强信息等。
国内语音产业分为两类,一类是独立的语音公司,以科大讯飞、云知声、灵声科技为代表;一类是互联网巨头公司,以百度、腾讯、搜狗为代表。
“智能语音已经进入到产业化层面,最近5年的产业发展速度超过了过去50年,并且跟以往主要靠技术推动有很大差异。”吴及说。
众所周知,智能语音行业的技术门槛非常高,特别是语音识别技术,被成为“皇冠”。衡量一家语音公司的技术水平如何,首先要看它是否能提供高性能的语音识别产品,其次要看是否发布了语音云平台。
国内互联网公司里,百度做得最早也最好,2010年就成立了语音部门,并招兵买马引进国内外人才,专注于互联网模式下的语音识别技术,并号称是国内首个把深度神经网络技术(DNN)运用到语音识别产品的公司。李彦宏今年三月接受采访时说,现在语音识别的准确率能做到92%,两三年内可以做到98%。
腾讯和阿里的语音技术虽然还欠火候,但这两个公司有微信、QQ和淘宝旺旺,拥有相当大的用户群,这些用户群对语音技术需求旺盛,市场潜力很大。
独立的语音公司中,科大讯飞目前是“龙头老大”,但也面临几家新锐公司的围追堵截。特别是云知声,冲击力和竞争力极强,刚成立一年,语音技术已经可以和讯飞相媲美,语音识别准确率达到94%以上,仅用九个月就对外发布了语音云,并且向所有开发者提供完全开放、永久免费的语音识别服务,让业界直呼“黑马”来了,但发展平台与讯飞差距较大,商用上也不及讯飞多年的积累。
吴及表示,从国际上看,智能语音产业表现为一专多大,即一个专业公司Nuance和几个大的IT公司,Google、微软、IBM、苹果等。目前,国内的产业格局也基本相似,一个专业公司科大讯飞,其他几个互联网公司,如百度、腾讯、搜狗等。
占领制高点
随着国内手机和平板销量的爆炸式增长,国外企业开始觊觎这片市场,纷纷进驻国内。海通证券研报指出,尽管目前智能语音产业规模较小,但在未来5年内行业年复合增长率有望超过25%。
背后支撑苹果Siri语音识别技术、占据全球2/3市场份额的国际语音服务巨头Nuance,正在拓展中国语音市场。据媒体报道,日前,Nuance与开心网正在就未来的“战略级产品”进行深入探讨。作为全球语音识别技术的领军企业,Nuance触角由医疗、电信广泛延伸至汽车、手机以及互联网领域。此前,该公司在中国的合作对象为比亚迪和中兴通讯。
另一家语音识别技术公司Audience也看到了中国语音市场的机会,与国内十几家品牌手机厂商展开语音方面的合作,并且和中国移动公司建立相关的语音研究实验室。此外,谷歌、苹果、微软、IBM等巨头也开始积极布局,先后推出了各自的智能语音服务。
为了迎战国外巨头,推动民族智能语音产业发展,2012年8月1日,由科大讯飞、联想、华为、中国移动、中国联通、中国电信、清华大学等19家单位联合发起的中国语音产业联盟正式成立。
工信部副部长杨学山在会议上说,“语音产业再过若干年,一定是千亿元、万亿元的产业链。我们必须加快发展,否则很可能在五年以后,我们再一次被动追随。”
2000年之前,智能语音市场被国外厂商垄断。之后,国内厂商迎头赶上,经过10多年的发展,在技术上已经可以和国外厂商分庭抗礼。但国外厂商在产业链整合、市场推广等方面,均优于国内企业,在竞争中占有一定优势。
科大讯飞董事长刘庆峰表示,“苹果拥有结合紧密的软硬件和成熟的产业链,谷歌拥有开放的安卓系统,微软拥有几乎是垄断的操作系统。这些优势国内厂商都不具备,因此在与这些巨头竞争时,就需要国内企业联合起来,整合产业链上下游资源。”
微软把人机界面从跳动指令转变成图形界面,维持了20年的IT霸主地位。苹果和Google把键盘变成了触摸界面,称雄当今IT世界。如果有声控技术的话,我们还会用触控界面吗?
杨学山指出,再过五年,声控将可能是最主要的人机交互方式。未来产业的发展,从终端到生态环境、商业模式,都将发生重大的变化。从技术、产业和国家竞争力等各个方面来讲,语音产业的发展都是当务之急,只有努力发展,我们在下一代信息技术产业应用发展中才能拥有主导权。语音产业发展基于宽带网络,要和终端、应用和用户相结合。
“只有加快智能语音产业发展,才能避免受制于人。”吴及同样认为,国家要支持企业建立语音生态系统,但要把握好力度和分寸。如果国内企业不能建立起自己有生命力的语音生态系统,国外企业迟早会喧宾夺主抢占地盘。诺基亚的衰落就是典型案例。
吴及进一步指出,如果有越来越多的企业去做语音应用和进行二次开发,用户就会享有更多更好的语音产品和体验,这样平台企业也会做大做强,整个语音生态系统就形成了,国内语音产业抵御风险的能力就提高了。
在5月30日召开的第十届国际软件博览会上,工信部软件服务业司司长陈伟表示,将把智能语音技术和产业推进作为今年乃至未来三到五年的一个重点。据美国权威咨询机构Gartner发布的2012新兴技术成熟周期报告显示,语音识别技术可能在2~5年内成熟。