抢滩智能语音

2014-06-18 00:47霍娜

中国计算机报 2014年22期

霍娜

这是一个最好的时代，这是一个声控的时代，这是个光明的季节，也是个希望的春日。

从几年前苹果Siri将语音迅速升温推至消费者面前，到现在语音助手几乎已成为智能手机、汽车电子、智能家居的标配，从人们过去在路边招手打车到现在先用微信与出租车师傅说好再出门……似乎，智能语音产业已经迎来生机盎然的春天。语音一时间成为舆论的焦点：“语音将彻底替代鼠标、键盘”，“语音将成为移动互联网主流信息入口”，“谁掌控语音谁就将掌控一切”……看好、赞扬语音之声不绝于耳。

但一个技术从萌芽期开始不断发展，要酝酿多久才会到爆发期？智能语音产业是真的到爆发期了，还是被提前过度炒作了？智能语音产业现状和未来发展方向如何？中国智能语音企业又该如何选择适合自己的成长路径？带着这些疑问，本报记者先后采访多位智能语音专家，力求探知一二。

莫错失赶超良机

智能语音是新一代的人机交互技术手段之一。就像人与人之间对话交流一样，智能语音是要通过语音实现人与机器之间的交互，即机器能听懂，并能回答提问，实现对话互动。“智能语音技术主要包括语音识别、自然语言理解和语音合成三个环节，完成让机器听懂人说话，再让机器说人话的过程。这种交互需要基于海量的语料库，通过模型实现语音识别和语义理解，包括对语法、分词、情景，甚至是情绪等的理解，再通过知识库系统找到答案，然后通过语音合成技术说出答案，来回交互。”在接受记者采访时，中国语音产业联盟副秘书长李德升这样给出他对智能语音的理解。

百度语音首席研究员贾磊在第十八届中国国际软件博览会的演讲中介绍，百度语音就是通过语音识别、语义理解和后台资源来实现“你说我听”、“你说我想”和“你说我做”的过程，打造人机交互的闭环过程。

人机智能语音交互，说起来容易做起来难。20世纪50年代，AT&T开发出第一个语音识别系统Audry；20世纪80年代，智能语音技术研究由传统的基于标准模型匹配的技术思路开始转向基于统计模型的技术思路；21世纪初，智能语音从技术研究走向实用并进入产业化，进入呼叫中心、家电、汽车等领域；而近期，以苹果Siri发布为重要引爆点，智能语音应用才开始向移动互联网等新兴领域延伸，产业进而不断积累、发展。

智能语音技术是人工智能的研究领域之一，其原理涉及声学、语言学、数字信号处理和计算机科学等多个学科，研究周期长，投入成本大，技术壁垒高。全球和中国智能语音市场基本形成寡头垄断的格局。随着智能语音产业的快速发展，产业竞争进一步加剧，也吸引了IT巨头和中小创业团队争相进入，与传统语音技术提供商共同角逐智能语音市场。

在国际市场，既有像Nuance这样的占据全球62%语音市场的传统语音技术巨头，也有谷歌、苹果、微软、IBM等IT巨头的竞争参与。在国内市场，李德升告诉记者，目前我国语音技术厂商基本分为三类：一类是传统语音技术厂商，一般从科研院所基础研究脱胎，包括像科大讯飞（中国科技大学）、捷通华声（清华大学、中科院声学所、北京大学）、中科模识（中科院自动化所）、中科信利（中科院声学所）等；第二类是互联网厂商，包括百度、腾讯、搜狗等，它们为给其广大的互联网用户提供更好的增值服务，普遍采用战略合作或者收购等方式，掌握智能语音技术，推广语音服务；第三类是创业企业，像云知声、思必驰等，它们专注于某些行业领域，比如汽车、家电、教育、社交网络来推广自己的语音技术和产品。

近几年来，移动互联网蓬勃发展，基于互联网海量数据的深度神经网络技术有力推进，智能家电、汽车电子、可穿戴设备等领域加速应用，汽车、医疗、智能家居、教育等行业应用不断拓展，智能语音作为新的信息入口，开始引领产业重大变革。

这一两年来，我国智能语音市场也是风起云涌：2012年8月中国移动以13.6亿元战略投资科大讯飞，科大讯飞受二级市场机构投资者追捧市值超过200亿元；云知声创立仅一年就先后获得两轮投资，其中一次融资金额高达1亿元；2013年5月，捷通华声宣布来自百度、清华大学战略投资；2013年8月，百度正式宣布向开发者开放语音生态系统，包括底层的语音识别技术应用程序开发接口（API）、百度语音助手软件开发工具包（SDK）；同样在这个月腾讯在微信5.0中增加语音输入功能，一出来便风靡大众，微信APP已经成为消费者每天必刷的强大APP之一；直到最近，2014年4月12日，云知声组织创业公司牵头成立“全智能交互联盟”；2014年4月29日，科大讯飞的讯飞输入法继支持粤语、四川话、河南话等方言之后宣布支持东北话语音输入；5月20日晚，锤子科技首款智能手机Smartisan T1发布，借科大讯飞智能语音技术实现语音搜索、语音输入等特色功能……整个产业一片欣欣向荣。

“智能语音是人机智能交互的手段之一，而人机智能交互是目前中国技术企业有可能赶超国际的为数不多的产业机遇之一。产业变革是以技术为先导的。在PC/互联网时代，我国技术企业在计算机技术尤其是操作系统等方面，因为起步晚，赶超微软、谷歌等国际技术公司比较难，但在智能交互这个技术领域，相对而言，目前中西方起步差不多，如果我们能把握好现在的机会，好好练内功，发展我们自己的包括智能语音在内的交互技术，也许在这方面我们可以真正和国际公司一较高下，真正从中国制造走向中国创造。”北京捷通华声语音技术有点公司（简称捷通华声）董事长张连毅这样告诉记者。

与张连毅持相同观点的还有科大讯飞信息科技股份有限公司（简称科大讯飞）副总裁江涛和北京云知声信息技术有限公司（简称云知声）CEO黄伟。在他们看来，智能语音是难得的一次产业良机，错过语音，中国技术企业很难再有机会赶超国际了。

磨一根针破一片天

“做语音是需要慢慢熬的。”这句话记者不止听一个被采访人说过。

1989年从清华大学毕业任职紫光推进OCR（图像扫描识别），中间赴美，2000年与中国科学院声学所研究员吕士楠共同创办捷通华声的张连毅称自己是语音乃至整个智能交互行业的老兵。在他看来，从“入口说”、“门槛说”到“血统说”再到“技术说”，这两年来的语音热其实更多是一种炒作，而这种炒作对行业本身未必有多大好处。“我只认可‘技术说。因为语音只是交互的方式之一，智能语音就是一门技术，它与应用结合，这项技术就能创造出巨大价值。而这门技术的特点是厚积薄发，需要慢慢积累，所以这就决定智能语音产业是要用一根针刺破天的专业领域，而不是用一个铁锤砸出一片声势的产业，必须专注、专业，精耕细作，深耕久酿。”endprint

而所谓的积累，在云知声CEO黄伟看来，就是算法、数据和团队经验的积累。他告诉记者，作为创业型公司，“云知声的优势不在于数据积累，而在于算法。从云知声成立第一天起，我们就用了比对手少一个数量级的数据来训练算法模型，最终达到甚至超越对手产品性能，这个过程我们也积累了丰富而宝贵的团队经验。而现在开放的语音云平台已经让我们有了很多用户数据，我们的数据短板已经得到了弥补。”

黄伟毕业于中国科学技术大学，后加入摩托罗拉并带队研发出世界上首个手机声纹认证系统。国际金融危机期间，摩托罗拉将整个语音识别团队出售给Nuance。黄伟拒绝被Nuance收编，于2009年7月加入盛大网络旗下的创新院，2010年10月创建了语音分院，2013年年底正式出任公司CEO。黄伟告诉记者，在技术方面云知声先后四次升级语音识别内核，目前识别准确率达96.26%，技术领先，并且可提供中、英、粤多语言识别；在商业化方面，云知声单月签约额突破千万元，合作伙伴超过3200家，云知声智能语音已广泛应用在移动互联网、智能家电、车载、可穿戴设备、呼叫中心、教育、医疗等领域。

无独有偶，科大讯飞副总裁江涛也同样是语音界的老人。毕业于中国科技大学自动化与计算机专业的他是科大讯飞的元老，作为科大讯飞创业团队成员，一直在从事语音技术在通信和互联网方向的应用推广。在江涛看来，语音技术和其他技术一样，都在沿技术成熟曲线不断发展。几年前苹果Siri带动语音走进向上发展阶段，那时整个产业被看好，很多资本投入进来至一个高潮，而现在是高潮过后走入技术成熟曲线下行阶段，很多人开始悲观，资本撤离，只有坚持下来的公司能做成。他判断，带语音走入下一波上行曲线的动力很可能是可穿戴设备、智能家居、智能汽车等。

江涛向记者回忆，在上世纪90年代，当时公认语音做得最好是南北二“王”，南“王”就是中国科技大学的王仁华老师，他也是科大讯飞第一任董事长，也是他支持科大讯飞现任董事长刘庆峰创业的；北“王”指的就是清华大学的王作英老师，语音识别和语音合成做得都很不错。在江涛看来，语音成为人机交互的主要信息入口这是大势所趋，毋庸置疑，只是语音真正价值的实现还有赖于技术的成熟和应用的普及。应用的普及需要慢慢来，引导、教育市场，培养人们的使用习惯要一点点推进，但要全面推广、普及还是需要过程的。“几年前要是有人在电梯里对着自己手机喃喃自语大家都会觉得奇怪，不知道这人干嘛呢，但现在因为微信的普及，这种行为习惯已经被接受认可。”

而对于技术的成熟，江涛同样认为是需要专注投入、不断积累的。江涛向记者介绍目前的语音识别技术现状，他以环境从嘈杂到安静的程度为横轴，以人说话的清晰程度为纵轴，划分四个象限。在第一象限，也就是环境也安静、人说话也清楚的情况下，目前各家语音厂商技术实力差距不大，语音识别率都很高。在第二象限，也就是环境嘈杂、网络不好的情况下，目前科大讯飞做得很不错。噪音大、网络信号时断时续非常影响语音识别效果。“车载语音识别最大的对手就是噪音。2013年8月，奔驰在全球对云技术提供商进行选型发布的报告中分别按不同时速（每小时60、100、140公里）测噪，科大讯飞是唯一在100公里时速上识别率超过90%的厂商。”江涛自豪地介绍。在第三象限，也就是环境不错、人发音不太配合（最典型的各种口音）的情况下，看的就是对语言种类，尤其是方言的支持程度。云知声实现对粤语、英语的识别支持。科大讯飞除了实现对粤语、英语的识别支持，2014年以来陆续支持对河南话、四川话、东北话等方言的识别。江涛透露今年还会陆续支持湖南话、山东话、武汉话、合肥话、闽南话的方言识别。除了口音之外，语速、讲话模式等也会对语音识别带来不同挑战，比如演讲与开会的语音识别的识别算法和模型都不一样。“今年年底科大讯飞将推出一个产品实现普通话开会过程中，将语音转变为文字，识别率很高。”江涛透露。而在第四象限，即环境又不好、发音又不好的情况是世界性的难题，很难有谁能攻克。

各展所长开放竞合

随着谷歌、微软、IBM等IT巨头加快对智能语音领域的布局，以及Nuance在中国的本土化不断加强，国内语音企业将面临越来越大的竞争压力。相较于Nuance等国际巨头，国内语音企业在研发力量、创新能力、集成应用、行业应用拓展等方面还有不小差距。国内语音企业间的合作、并购、整合步伐也相对要缓慢一些。

对于国内语音企业的发展，作为行业专家的李德升给出了他的见解和建议。他认为，在传统语音技术厂商中，科大讯飞的实力有目共睹，而捷通华声的语音合成在铁路交通、金融电信等领域也有较高的市场占有率，很多高铁、公交站等的报站语音是捷通华声做的。对于这类厂商，李德升给出的建议是得专注于语音，引入互联网思维，真正做大做强。对于百度、腾讯、搜狗等互联网厂商做语音，李德升认为他们具有最丰富的互联网语音资源，更重要的是他们有技术实力、有用户、有互联网思维，这些厂商最有可能可以和国外竞争者一较高下。而对于第三类语音创业企业，李德升的建议是尽量采取合作方式，与互联网厂商合作，专注于特定行业领域积累实力，既不能小富即安，也不能贪高大上，只要积极进取，踏实经营，还是有非常大的成长空间的。

“其实，以苹果为代表的软硬件一体化厂商做语音是为了卖硬件产品，互联网厂商大多是从帮助用户搜索的角度做语音，相对于创业型的语音企业，科大讯飞的优势就在于语音的宽度和厚度积累，优势就在于多年来对语音识别、语音合成、语音评测与语义理解各方面立体的投入和研究，目前拥有全方位立体的语音技术产品。”江涛说，在语音推广方面，科大讯飞坚持两条腿走路：一是坚持移动互联网能力开发，一是通信、教育和安全等重点行业推进。逐步拓展移动互联网能力的三驾马车是手机、汽车和智能电视。目前科大讯飞手机语音已经有四亿的用户，每天活跃用户达四千多万。在教育领域，科大讯飞的语音合成、语音评测在广东高考英语口语考试，西部中小学的英语教具和日常教学中已经发挥很大作用；而在安全领域，公安部第一个跟企业合办的部级重点实验室——公安部声纹实验室就设在科大讯飞。

江涛也坦言，相较于百度等互联网巨头做语音，传统语音技术厂商确实存在一些劣势，“在整个大的开发平台、云存储、位置服务和构建整个生态系统方面，互联网公司确实值得我们学习。我们还是要专心做好自己所长，聚焦在语音和语义方面，真正做好开发者服务，基于语音和语义构建生态系统，尝试推广人机交互广告等。”

“互联网巨头要拥有语音这个技术，不被别人卡住喉咙，但他们有自己的主业，不会放太多精力在语音上。”张连毅如此判断，“语音技术厂商只要做好自己的技术和产品，保持开放合作就能获得良好的发展。”除了夯实智能语音市场，捷通华声更要做的是实现包括智能语音、图像识别（OCR）、生物特征识别在内的全方位的人机智能交互。

说到与其他厂商的竞争，云知声并不担心。干净环境下朗读语音的识别早已不是问题，特殊场景应用大幅提升，语音市场未来潜力巨大。黄伟认为，语音这个市场足够大，找准各自细分的目标市场，只要各自做得好，都能分到自己那杯羹，生存发展的机会很大。云知声除了做金融等行业应用推广，主要聚焦在视频和车载领域。而对于全智能交互，云知声的策略是连横——联合多家创业公司，包括语义理解技术公司哦啦、图像识别技术公司亮风台、人脸识别技术公司Face++成立了全智能交互联盟，将语音、图像、人脸交互方案打包，期待不同的交互技术发生化学反应，用做乘法代替做加法，为用户打造最佳的全智能交互体验。除此之外，云知声仍将专注于云（移动应用、呼叫中心、在线教育）、端（智能终端包括智能家电、可穿戴设别、智能车载等）、芯（智能芯片）领域的智能语音推广与应用。

的确，这是一个蓬勃向上的时代，也是一个不进则退的时代。中国语音技术企业只要抱定“以针破天”的信念，专注坚持，踏实积累，把握机遇，就能鲲鹏击浪，展翅怒飞，扶摇直上九万里。加油吧，中国智能语音。endprint