刘庆峰:创新都是痛苦的过程

2015-03-28 02:52姜姝姝
机器人产业 2015年2期
关键词:语音

□文/姜姝姝

姜姝姝本刊副总编辑

时光荏苒,距离科大讯飞董事长刘庆峰创建公司,已经有了16年的历程;距离科大讯飞上市,也有了7个年头。刘庆峰在这一年年初的内部年会上分享了他的最新体会:我们坚持自主创新,在人机智能交互源头技术上不断突破,核心技术全球领先;我们重建中文语音产业由国内企业控制的格局;我们推动讯飞技术成果服务亿万用户;我们推动中国语音产业整体发展。

这些,值得自豪和骄傲!但要知晓,任何创新都是一个痛苦的过程。真正的创新像花儿一样,只有经历了种子在黑暗期的孕育,小草一样的成长,才能开花结果。快餐式的急功近利,就像掐回来的花朵,很快就会枯萎。

刘庆峰有一个希望:所有讯飞人不要害怕过程中的痛苦,都能够进行幸福的创新、快乐的创新!面向未来,要不忘初心,以激情、快乐、舍我其谁的精气神做热爱的事业!

数字语音首次触动学霸

时间拉回到1990年,成绩优异的刘庆峰在高考前被推荐到清华大学汽车工程专业,但他却放弃了别人眼中求之不得的机会,最终以高出清华录取分数线40分之多的成绩进入了中国科技大学电子工程系。即便如此,他还认为自己属于发挥失常,没成为状元。当年,与刘庆峰一起进入中国科技大学的,有13个省市的高考状元。然而,即使高手如云,刘庆峰从进校第一次摸底考试开始,就拿到众多数理学科考试的第一,俨然学霸中的学霸,也由此赢得了同学和老师的赏识,这也为他后来聚拢一批学霸创立科大讯飞奠定了基础。

按照学霸们的惯例,他本应跟他的很多师兄们一样,凭借优异的成绩考取全奖赴美留学,然后或从事研究或进入外企。但是,凭借出色的数理计算能力,刘庆峰被中科大从事语音技术研究的王仁华教授相中,命运的轨迹也就此改变。

时至今日,他仍然忘不了第一次走进语音实验室所感受到的震惊——站成一排的计算机可以初步合成简单的人声。“以前我学数学是为了考第一,但不知道它到底怎么用。进入这个实验室后才发现,数学可以用于数字信号处理。这对我是一个很大的触动。”刘庆峰决定跟着王仁华教授留在语音实验室。

“王老师跟很多教授不同,完全放手让年轻人去做,还给予很多支持。”一次,王仁华认为实验室里一个产自日本的语音分析工具效率太低,问刘庆峰能否用两个月时间试着提高一倍。谁知刘庆峰竟然仅花了一个月时间,将效率提高了整整10倍。他甚至还向王仁华建议,可以将其用于优化语音合成系统。王老师还打破惯例,让刘庆峰牵头做一个语音合成系统。结果,在当年的国家863计划成果比赛中,刘庆峰开发的语音合成系统,不但保证了音质,还具备了优良的语音自然度,合成出来的语句近乎人声,是当年比赛中最为轰动的科研成果。

对于当时的刘庆峰来说,最大的成就感并非技术成果本身,而是将技术成果转化为实际应用。1996年暑假,刘庆峰帮助华为优化114电话咨询平台的语音,通过语音合成技术,他让计算机报电话号码的语音,近乎于真人语音,这让华为在原有4万元研发经费的基础上追加了1万元的奖励,还请他飞赴深圳参加研讨。

这次跟华为的合作打开了一扇广阔的门——刘庆峰不但获得了王仁华教授更大的支持,可以调配实验室的更多资源,还看到了语音产业的市场前景。更为重要的是,他开始意识到,只有产业化才能真正推动语音技术的自主创新。

创业,用产业化留住人才

跟很多从事基础研究的工作一样,语音技术也主要依靠国家划拨的科研经费维持。当时一名研究人员的月薪仅仅500元,而进入外企工作年薪则可以拿到十几万元。巨大的收入落差,造成了科研人才的大量流失。

刘庆峰 科大讯飞股份有限公司董事长

“只有产业化才有钱留住人才。”刘庆峰有个大胆的想法,一边攻读博士,一边办公司创业,其中最核心的诉求是,设立股权机制。这其实是一个打破常规的想法。在国内科研界,老师与学生的关系,不但类似于老板跟员工,还更具有权威。但王仁华教授则不一样,他立即爽快答应了刘庆峰:“你不但该拿股份,而且还应该拿的比我还多。”

从今天来看,这是一个改变了中国语音产业的决定。虽然早有科研机构从事语音技术研究,但都是单兵作战未见成果,语音技术产业化也遥不可及,但是IBM、微软和摩托罗拉等国际巨头也已在中国布局语音研究机构,觊觎着未来市场。这样的时局下,王仁华教授的支持和刘庆峰的坚持,就如同将一颗生机勃勃的种子,撒入了最适合它的土壤。

刘庆峰的这个想法得到了实验室师兄师弟们的点赞,并纷纷加盟,同时,他开始在校园内寻找合作伙伴。当年中科大BBS 8个电子计算机相关的版主中的6位先后被“收编”,最终组成了18人的学霸创业团队。1998年是长江遇洪流的一年,暴雨和暴晒交替,十八个年轻人蜗居在租来的民房中,夜以继日地工作。“那时几乎天天吃盒饭,有时候饿了就啃个黄瓜充饥,也舍不得买空调。”刘庆峰提起创业时的艰辛仍十分感慨。

刚刚创业总是要走弯路的,那时的刘庆峰本认为只有研发才算是创新,才是他应该考虑的工作,而诸如品牌、营销甚至公司注册等都是浪费时间。所以,他错误地将大量运营工作交给了一家外地企业。在这家外地企业的主导下,刘庆峰团队辛辛苦苦开发了不少产品,在一些展览会上也颇受好评,但在市场上却举步维艰。问题出在哪里?

从技术变成产品,再将产品推向市场,需要一个有计划的孵化过程,而这家外地企业却东一榔头西一棒子。“今天恨不得做个语音PDA,明天又做语音听写软件,后天又搞工商查询系统,没有一个做深做透的,搞得团队很累又看不到前景。”兄弟们找到刘庆峰说,“这样干不行,要不你出来当CEO,要不我们就解散!”

解散?!兄弟们的请愿,确实把刘庆峰吓了一大跳。组建团队之初,王仁华教授曾对他说:“庆峰啊,我认为这事儿能成,这么多优秀的年轻人能团结在一起,在科大还从来没有过。”好不容易聚集了这么多学霸,如果解散那就太可惜了。于是,刘庆峰对着兄弟们说:“行!我试一试。”其实,他心想:如果做不好,半年就走人!这是1999年,26岁的刘庆峰正式创立科大讯飞。

华为一役 找到商业模式突破口

科大讯飞成立当年,合肥市领导带着三家投资机构前来考察。听完刘庆峰介绍产业前景与团队实力后,市领导当场表态:“这些小伙子必须留在合肥。”随后,三家投资机构以“3060万元占股51%”的条件投资科大讯飞,而刘庆峰的团队仍然是最大的单个股东,这也是科大讯飞后来进行几轮融资的原则。

沉甸甸的3000多万元现金拿在手里,这是一种什么样的感受?

其实,当时国内语音技术的发展瓶颈在于机制。语音技术是一个典型的交叉学科,涉及数字信号处理、声学研究和实验语音学等诸多领域。而诸如中科大、清华、中科院和社科院等科研院校只是擅长于某一领域,互相之间不但从来没有合作,甚至为了一些国家项目和经费,争得头破血流。更为严峻的是,这些院校的大量人才被IBM和微软等国际巨头挖走,民族语音产业岌岌可危。

刘庆峰逐个拜访了这些科研院校,“这些老师们都有很强的民族情节,只是之前没有合适的机制把他们联合起来。”拔高了说,是民族危机感,实际一点,也有利益方面的考虑。在刘庆峰的轮番劝说下,中科院声学所、社科院语言所和清华大学等科研院校,最终跟科大讯飞结成了紧密的合作关系,科大讯飞也由此完成了对于产业核心源头技术的资源整合。

此时的刘庆峰以为,已能攀上语音技术的峭壁,科大讯飞的营收就能突破10亿元甚至百亿元。事实证明,Too young,too simple.

刘庆峰一开始认为,语音技术是面向普通用户的,所以应该开发消费级产品。于是一款名叫“畅言2000”的电脑软件随后问世。这是一款能把语音自动转换成文字的软件,甚至还可以让用户通过语音控制电脑。但当时软件的知识版权保护是一大问题,大量盗版出现,导致产品口碑很好,但卖不动。

一番试错之后,刘庆峰做了一个艰难的决定转攻企业级用户。科大讯飞找到中国电信168电话信息平台的新机会。这个平台原本是人工录音接听,很难应付海量和动态的信息,但科大讯飞的语音合成技术正好解决这一问题。但是,对方却拒绝和科大讯飞合作,原因很简单:中国电信这样的大企业,需要的并不是单点技术,而是系统集成能力和企业综合实力。这对于初创的科大讯飞来说,根本遥不可及。

为了科大讯飞能活下来,刘庆峰随即飞赴深圳,通过多次拜访,终于让华为答应在他们的系统平台上试用科大讯飞的语音技术。然而,刘庆峰很快拿到了华为反馈的差评报告:系统兼容性不强、语音合成不自然、连续性差……十几个年轻人集体沉默了,但都不能沉默太久,因为华为只留给科大讯飞一周的时间解决问题。

“在随后的一个星期里,整个团队没有一个人离开过办公室。所有人不分白天黑夜地加班加点,几乎不眠不休,终于赶在华为给定的时间节点前解决了全部问题。”经此一役,科大讯飞不但获得了华为的高度评价和长期订单,更重要的是找到了一种适合自己的商业模式,即把技术嵌入合作方的系统平台。至2000年底,刘庆峰拓展了包括华为、中兴和联想在内的50多个合作伙伴,这其中跟联想集团的合作,更为科大讯飞的第二轮融资甚至上市起到了关键作用。

船长必须指明方向

任何产业的发展壮大,都需要天时地利与人和。在2000年初,科大讯飞又遇见了发展性的难题,大量资金投入研发,但是没有预想的那样很快出创新成果。团队中有人开始迷茫,语音产业到底能不能做大?还有人提议,一样是做开发,语音业务赚不了钱,不如做网络游戏。“我们当时就像迷失在大海里,我作为船长,必须要指明一个方向。”刘庆峰坚定地表示。

面对种种杂音,刘庆峰专门将团队拉到合肥巢湖边上开会,他抛出了一句话:“如果不看好语音,请走人!”从这时起,刘庆峰跟团队也认识到:语音产业就是需要10年的时间,来进行技术积累。而枯燥的技术研究,如果不是发自内心的热爱,是很难坚持下去的。当语音产业开始爆发式增长时,竞争者们会发现,很难在短时间内达到科大讯飞的技术水平。

复星集团董事长郭广昌和联想控股董事长柳传志纷纷表示对语音技术和刘庆峰的认可。复星和联想在2001年前后相继入股科大讯飞。其中,联想柳传志的这笔投资,堪称是他的第一投。而在后来的多次交流中,刘庆峰从这位商界教父身上学到了诸多管理经验,比如著名的“建班子、定战略、带队伍”。

一个例子是,此前技术出身的刘庆峰觉得,花30%的精力跟团队沟通,已经很多了,更多的精力应该放在技术上。但柳传志告诉他,自己会花60%的精力跟团队沟通,这令他吃惊不小。“后来我照着这样做了,才知道前期沟通越充分,后期执行越有效,而不是执行不到位后再来沟通,反而花掉更多的精力。”

而刘庆峰的团队也没有辜负股东们的期望。在中国电信168和中国移动114呼叫中心的应用基础上,延伸进入旅游信息服务、工商税务查询等业务,以智能语音替代人工服务;开发智能语音芯片,植入家用电器、车载系统和儿童玩具等终端设备;以语音评测技术切入口语考试、语言教学等教育市场。

2004年,科大讯飞终于扭亏为盈;2005年至2007年,保持了净利润130%的复合增长率;2007年,科大讯飞营收达到2亿元,净利润达到5300多万元。2008年,科大讯飞成功登陆深交所,成为中国第一个由在校大学生创业的上市公司,也是中国语音产业唯一的上市公司。

站在人工智能的风口

风的确来了,还印证了刘庆峰当初在巢湖会议上的判断,科大讯飞站在了业界同行难以企及的高度上。

从上市那天起,科大讯飞就有一个共识,上市并不是最终目的,只是产业发展中一个自然而然的阶段。七年来,从“让机器能听会说”到“让机器能理解会思考”,科大讯飞的梦想不断升级。从智能语音到人工智能,核心技术不断突破,产业不断拓展,取得诸多值得所有讯飞人骄傲的成绩。

“如果不在艰难的创新上投资,不管现在多挣钱,将来都会以失败而告终”。这是刘庆峰始终坚持的观点。2008年至2012年,科大讯飞连续五年在国际说话人、语种识别评测大赛中名列前茅。

2014年8月20日,科大讯飞正式对外发布了“讯飞超脑计划”,核心就是让机器从“能听会说”到“能理解会思考”。目标就是要实现一个真正的中文的认知智能计算引擎,未来将真正引爆在教育、客服、人机交互、医疗等领域的智能应用。

目前,“讯飞超脑计划”已经取得了阶段性的成果。由于在深度神经网络上的突破,科大讯飞口语翻译获得了2014国际口语机器翻译评测比赛英汉口语双向翻译第一名。现在,机器翻译功能已经在灵犀语音助手中上线,一秒之内,就能实现中英和英中轻松互译,拿着它,不会外语的人照样出国自由行。

作为“讯飞超脑计划”的重要组成部分,科大讯飞正在牵头进行科技部863重大专项——类人答题机器人项目,未来要让机器人参加高考,并且可以考上一类本科,甚至是清华大学、北京大学、中国科技大学。

科大讯飞的口语评测机器打分已超过了人工打分,目前在广东、江苏、重庆等地的中高考英语口语考试中得到成功应用。甚至对于学生作文这种主观性很强的文本,机器的判断和评分也已经比人工更准确。

目前,科大讯飞的技术成果已经走进千家万户。2010年,科大讯飞发布了全球第一个面向移动互联网提供智能语音交互能力的“讯飞语音云”平台(现已更名为“讯飞开放平台”)。

现在,讯飞开放平台的终端用户数超过6.8亿,合作伙伴超过6万家。

在教育领域,科大讯飞已经构建了教、学、考、评、管完整的产品体系,去年8个省级教育资源平台项目科大讯飞100%中标。从考试到评价、到课堂教学进而牵引个性化学习,无论从核心技术,还是市场渠道和产品体系,科大讯飞在业界都远远走在竞争对手前面,非常有机会成为在线教育产业的领导者。

在汽车互联网服务入口,科大讯飞通过提供汽车语音助理,已经和宝马、奔驰、上汽、江淮、奇瑞等国内外众多汽车厂商进行了合作。未来从汽车语音助理向整机、汽车互联网服务延展,形成“硬件+软件+服务”组合,拓展可持续的赢利点。

在电视入口方面,科大讯飞已经和TCL、海尔、海信、长虹、康佳、创维六大电视厂商,以及主流的电视盒子商迈乐、小米盒子等,和广电系统的歌华有线、广东广电等进行了合作,迄今为止还是业界唯一能在家庭客厅噪声环境下达到实用的产品。

此外,在面向消费者的产品领域,目前,讯飞输入法的下载量超过2.2亿,口碑是全行业第一。灵犀语音助手,在16个主流应用商店的下载量也远超过排名前五的另外四家的总和。

2012年8月,科大讯飞在工业和信息化部的支持和指导下,联合中国移动、中国电信、中国联通等三大电信运营商,与华为、联想、上汽等行业龙头企业,牵头成立了中国语音产业联盟,并当选为理事长单位,共同构建健康产业生态体系和应用联盟,推进我国语音产业快速发展。

2014年6月,中国(合肥)国际智能语音产业园在合肥高新区开建,产业园将依托科大讯飞先进的语音技术研发基础,逐渐形成政府主导、市场运作、社会参与的多元化投融资格局,完成产业化项目向语音产业园的聚集,完善语音产业链,形成产业化集中效应。

很多业内人士都说:“如果没有科大讯飞,中国语音产业现在还继续被控制在国外公司手中,也不可能有今天的蓬勃发展!”这是对讯飞的表扬,更是对讯飞带领中国语音产业继续前行的鞭策和动力。

在今年的全国两会上,全国人大代表、科大讯飞董事长刘庆峰建议国家将人工智能列入“十三五”国家重大战略专项。谈到人工智能的发展,刘庆峰希望不要像前两次工业革命一样,中国技术再一次落后于国外,未来一定是以语音接入为主,以触摸、键盘、手势为辅助的时代。

此前百度CEO(首席执行官)李彦宏曾提出“中国大脑”计划,引爆人工智能热点。刘庆峰和李彦宏算是老朋友,谈到与BAT竞争时,刘庆峰透露,科大讯飞在2014年已提出“讯飞超脑计划”,计划开发人类第一个真正的认知智能计算引擎。

刘庆峰强调人工智能的核心主要有三:一是知识如何表达;二是知识的推理;三是知识的学习。现在国内外人工智能的发展,一般分为三个阶段:第一阶段是计算智能,就是机器的计算能力很强,比较著名的例子是当年IBM的深蓝电脑,下象棋超过了象棋大师;第二个阶段是感知智能,讯飞的语音合成、语音识别、触摸、手势等是感知智能的一部分;第三阶段是认知智能,著名的例子还是IBM沃森机器人。在美国脱口秀节目《危机边缘》里,它已经超过了人类冠军。它不再是简单的计算,而是后台的逻辑和知识的综合呈现。现在IBM把沃森往医疗方向延伸,在美国已经初步达到入门级医生的级别。

刘庆峰所坚持的创新,是大波浪的源头创新。也正是因为源头核心技术的创新,才在过去15年彻底改变了中文语音产业被国外巨头控制的格局,让语音技术产品为亿万人使用,实现了“让机器能听会说”的梦想。科大讯飞正在人工智能的学习上努力,现在主要精力在机器的“能听会说”上,未来则是“能理解会预测”。

猜你喜欢
语音
第二语言语音习得中的误读
基于OpenCV的智能语音识别分拣机器人
魔力语音
朱熹语音浊上变去字次考
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
一种基于生成对抗网络的语音去噪方法
数字滤波在语音信号降噪中的应用
语音控制机器人的设计
对方正在输入……