海川
如今,玩微信已成为一种时尚便捷的生活方式,大街小巷,公交地铁,满眼尽是“微信控”, 甚至上班开会也不忘微信一下,谁不开通微信就会有OUT之嫌。可当你不方便发送语音给对方,而键盘输入文字慢又麻烦时,怎么办呢?
一款由北京云知声信息技术有限公司(以下简称“云知声”)研发的微信语音输入插件,自今年2月推出后,以精准的识别性能和全新的交互体验,受到广大用户的追捧,发布一周即登顶App Store免费工具排行榜首位,日激活量接近4万,使用云知声提供的微信语音插件的用户接近100万,开启三十次以上的每天有几万人。用户对着微信说话就能自动转换为文字发给好友,每分钟可以输入100字,普通话不标准也不用担心。
这款“让沟通变得更加简单”的语音输入产品,在技术含量上一点都不简单,它凝聚了云知声创业团队自主开发的三大核心技术:语音识别技术、云计算平台技术和移动客户端技术。
云知声创始人兼CEO梁家恩表示,尽管语音识别看上去只是将语音转换成文字这么简单,但从前端的语音特征提取到后端的声学和语言建模,以及快速识别解码,其实需要庞大系统的支撑。专业领域将人们说话的不同发音在专业上称之为声学模型;不同的人说话的内容不一样,词序也不一样,这部分称为语言模型。语音识别就是要从发音信号中抽取稳定和可靠的声学特征,然后与声学模型和语言模型做快速有效的比对,找到最匹配的句子,来满足需求。
作为一家新兴技术公司,创新是云知声的惟一出路。面对智能语音行业的高门槛,云知声以迅雷不及掩耳之势,迅速占领中文语音识别技术制高点。截至目前,中文语音识别准确率达到94%以上,语音识别速度比同行快2~3倍,跻身国际一流水平。
其瞄准市场需求,不断推出的高质量语音产品和服务令业界震惊,譬如语音服务平台(公有云)、微语音输入插件、语音助手、语控精灵以及提供语音技术支持的搜狗语音助手、小i语音助手、乐视网的超级电视等。
一年跑出的“黑马”
顾名思义,云知声定位于智能语音和云计算。虽然只是刚成立一年的小公司,但云知声的技术实力和发展速度不可小觑,在语音识别技术上并不逊色于业界大佬科大讯飞,成为备受关注的语音“黑马”。
“现在就有大公司想收购我们,它的业务对语音识别需求很大。”梁家恩对记者说,“我们还是想有一个比较大的空间持续发展,做自己的平台。”
云知声之所以发展快,是因为他们的语音技术积累已经超过十年。作为云知声的创始人,梁家恩于2001年中国科技大学毕业后,在国内语音识别技术的摇篮——中科院自动化所进行了五年硕博深造,2006年博士毕业之后,又作为语音识别核心技术组负责人留所工作了五年,2011年加入盛大创新院,2012年6月创立云知声,期间一直从事智能语音技术的研发。
随着苹果语音助手Siri的亮相以及引发的智能语音热潮,去年初,梁家恩觉得创业时机已经成熟,于是毅然放弃盛大创新院高级研究员的优越条件,与志同道合的几名同学、朋友和师兄弟共同创立了云知声。
业内人士告诉记者,这样的一流语音团队国内很难有了,以前市场不景气,许多语音人才都转行了,能够持续深入研究、又有丰富产业经验的顶级语音人才,目前国内很稀缺。
只有三十名员工的云知声,硕士博士占了1/3,他们创业的决心和勇气令人钦佩,核心成员都是把别人羡慕的工作辞掉以后来创业的,甚至多次被猎头“挖墙角”而不动摇,最后猎头都泄气了。
尽管梁家恩十多年来一直潜心于语音技术的研发,但上学、工作与创业还是有天壤之别。“从科研院所的研究到企业参与应用开发,不会因为我们做得好与不好而受到很大影响,但自己创业就完全不同了。如果做得不好就会垮掉,我们是用职业生涯去拼这种创业成功的机会,回头想一想,当时冒了很大的风险。”梁家恩斩钉截铁地说。
经过半年的前期准备,梁家恩团队的创业热情和技术能力,打动了一家具有十多年风投管理经验的基金公司,并获得了一千万以上的重量级天使投资。资本、技术与市场需求的结合,必将爆发惊人的能量。
云知声团队仅用九个月就对外发布了语音云,老牌公司科大讯飞则用了十年时间。2012年11月,与搜狗合作,只用两周时间就助力搜狗语音助手首发,提供云端语音识别。今年3月27日,在“锤子ROM”发布会上,云知声与科大讯飞一起,同时入围了锤子科技的语音解决方案。5月7日,由云知声独家支持的乐视超级电视全球首发,成为展示会的一个亮点,这台超级电视集成了云知声的语音交互技术。外界评价称,“从现场演示效果看,识别准确度和识别效率方面都具有很高的水准。”
打破语音商业化壁垒
刚满周岁的云知声成为“后起之秀”不是偶然,它昭示了一个颠扑不破的市场真理:用实力说话。这群“老兵”不仅有敢于挑战行业巨头的胆魄,更有积淀数年的语音识别技术,正所谓“有了金刚钻,才揽瓷器活”。
无巧不成书。梁家恩与科大讯飞创始人刘庆峰师出同门,二者都毕业于中国科学技术大学。梁家恩记得很清楚,1999年科大讯飞成立的时候,他还在读本科,梁家恩没想到自己有一天会在语音市场与师兄竞争。
“过去在其他公司,从事的都是技术性的工作,现在我们需要整合成一个完整的语音识别系统,并推向市场,在用户使用过程中不断反馈、积累数据,进行完善和优化。” 梁家恩对创业的挑战性毫不隐晦。
成立不到一年,云知声不仅发布了公有云平台,而且对语音系统进行了两次重大升级和突破。刚开始是85%的语音识别准确率,去年年底上线了最先进的深度神经网络系统(DNN),识别性能提升30%以上。
许多人不相信云知声这个初创公司具有深度神经网络技术的实力,以为只有百度、谷歌、微软、IBM这些大公司才能做,按常规需要上百台服务器集群。但云知声在有限的资源下,用计算能力强大的显卡(GPU)来计算,以较低的成本(控制在10万以内),两个多月时间就自主攻克了这项关键技术。
今年4月,云知声语音进行了第二次升级,识别引擎进一步优化,追上了谷歌的语音处理速度,语音识别准确率超过94%,名列国内前三甲。搜狗是云知声语音云的重要客户,在云知声还未出名的时候,搜狗相关负责人就找到梁家恩,当时搜狗的团队在实际测试之后,发现云知声的技术服务能力与科大讯飞还真差距不大,因此就与云知声达成合作。
DoNews CEO王乐曾问:“你们公司的规模并不是很大,为什么你们敢做语音识别这么复杂的技术?”梁家恩表示,我们的专业技术积累很多,对国际上主流的算法和技术了然于胸,语音识别对云知声团队来说完全不存在任何技术壁垒,主要的壁垒是在商业化方面。
目前云知声在移动互联网的商业化方面已经迈出了坚实的步伐,在没有任何推广情况下,云知声的开放语音云平台上已经有超过400个注册开发者账号。
免费的语音“午餐”
一路快跑的云知声在语音行业已小有名气,除了赢得不少优质互联网公司的青睐,国内多家电视机厂商也在跟他们洽谈合作。正当云知声蒸蒸日上时,他们却做出了一个大胆的决定:自2013年5月15日起,云知声将向所有移动互联网开发者提供完全开放、永久免费的专业语音识别服务。
这个决定让广大开发者和用户既惊喜又疑惑,如果说大公司有资源和能力提供免费语音服务,那么刚突破技术门槛、在市场立足未稳的云知声,为何走这步险棋呢?
“我们的价值只有在智能语音产业蓬勃发展起来后才能体现,否则我们只能在少量的收费用户里挣点小钱,这样就会延缓整个语音产业的发展。”梁家恩对记者说,皮之不存,毛将焉附?仅靠我们一家小公司去推动语音产业的发展是不可能的,应该让更多用户参与进来,营造共赢的生态圈,这就是我们免费开放语音识别服务的初衷。
云知声之所以敢这么做,还有一点就是,云知声的语音服务速度非常快,同一台服务器,云知声支持的用户数量比别人多,这样就能大大降低处理成本,只相当于同行处理成本的30%。
互联网是一个低门槛、大用户量的行业,就像QQ、微博、游戏、杀毒软件等网络产品一样,只有少量的用户愿意付费或具有付费能力。梁家恩深知,既然选择了走开放共赢的互联网道路,就要按照互联网的规则去运作,而不是用传统封闭思维去做。仅靠几个行业巨头是养不大语音产业的,只有真正服务于广大中小企业和个人用户,才能形成大的语音产业格局。
对刚处于市场扩张中的云知声,免费的服务是否会影响其收益呢?梁家恩摇摇头,不以为然。“即使收费,收到的费用也是很少的,没有太大意义。如果一个个来谈,可能谈十个也谈不下一个,如果自然增长,10~20个里面就会有人主动付费。如果这个产业不能迅速发展,我们占有100%的份额都没有意义;如果这个产业能发展壮大,即使只占20%~30%的份额,我们也心满意足。”
而且大量普通开发者应用语音识别技术,刚开始都是尝试性的,不知道开发出的产品能否赚钱,如果先付钱就会形成一种障碍,不利于语音识别技术的推广。相反,开发者在免费使用中若发现语音交互确实能带来便利,并需要为差异化应用量身定制,这种增值服务才是可持续的。
梁家恩强调,“我们对所有开发者完全开放,即使客户觉得免费的资源足够用了,不需要购买增值服务,我们也不会对客户进行限制。”也不会故意把免费的语音服务做成低级别的,但通用的语音服务不可能满足所有用户的个性化需求,如果需要个性化服务,那就要付费。
除了增值服务,云知声还在拓展智能订单、智能营销、智能客服等领域的语音交互市场,目前已经有几家客户在洽谈。
尽管云知声正在为营造良好的语音生态环境而努力,希望放长线、钓大鱼,而不是竭泽而渔,但云知声不会对语音产业链进行通吃,成为用户登录的入口。他们的追求目标是做好语音平台,为用户提供精准、实时、专业的智能语音交互服务。作为技术型创业公司,如何弥补商业化短板,加快市场拓展步伐,眼下是梁家恩团队面临的挑战。