田亮
2015年12月21日下午,《环球人物》记者一走进北京国家会议中心,就听到林志玲的声音:“AI(人工智能)复始,万物更新,科大讯飞发布会马上就要开始,请将手机调至静音……”记者心想:“难道林志玲也来参加发布会了?不对呀,她来了也不会干这个活啊!”再仔细一听,声音原来是由科大讯飞公司合成的,几乎真假难辨。
好戏还在后头。此次发布会的重头产品——“讯飞DingDong音箱”当天的表现堪称惊艳。一位工作人员通过它预订了一张北京到合肥最便宜的机票,跟它进行了10余轮对话,“讯飞DingDong音箱”都从容应对,还能识别“刚才”等语境语词。订完机票,工作人员还通过直接与“讯飞DingDong音箱”说话,就打开了加湿器和空调。经过几分钟的交流,它记住了工作人员的声音,两个陌生人成了“朋友”。
在这次发布会上,科大讯飞董事长刘庆峰以人工智能60周年切入,兴奋地说:“中国人在人工智能上缺席了60年,从今往后,中国的人工智能水平将引领世界!”他告诉《环球人物》记者说:“2015年7月10日,我在向李克强总理做汇报时说,未来的创新创业,中国如果不能抓住人工智能的产业主导权,又将像原来一样给全世界打工,处于价值链的低端。掌握了人工智能产业的主导权,我们就有全球话语权。”刘庆峰接受《环球人物》记者采访时说。
机器的普通话水平可比一般人高
科大讯飞是亚太地区最大的语音与人工智能上市公司,在语音合成、语音识别和自然语言理解技术等方面居于全球领先位置,人脸识别技术更是超过美国联邦调查局。可这家企业从创办到成为上市公司,不过16年时间。
1990年,刘庆峰在中国科技大学(以下称科大)读书时,就一心想出国深造,但老师王仁华改变了他的想法。“王仁华是科大第一个让本科生在实验室搞研究的,我就是其中之一。”刘庆峰说,“我一看,实验室里太有意思了,机器居然能说话!我就在实验室里搞起科研。”
大四时,王老师拿来一款日本人设计的软件,运算能力很低。他想让刘庆峰把它的效率提高一倍。刘庆峰用一个月时间把它的运算速度提高了10倍。王老师说:“你干脆用它做一个语音合成器。”刘庆峰本来准备跟师兄们做一套语音合成系统,参加国家的比赛。王老师看到刘庆峰的实力后,又让他自己做了一套系统,这样科大以两套系统参赛。赛后,评委们对刘庆峰的作品感到很惊讶。
当时,语音合成有两种方法:一是把每个音节拼到一起,音质好,但计算机读出来显得很顿、很不自然;二是模拟人发音的生理过程,把气流、声带等设计成各种参数,听起来就很流畅,但音质不高,吐字不清。刘庆峰把这两种方法结合起来,引起很大的轰动。1998年,他在业界率先让计算机语音合成水平达到3分,在国际上拿了不少奖。“播音员水平是5分,普通人说话水平是4分。”目前,他已让机器的英语口语水平达到4.2分,“美国的MIT能拿3.6分,我们是全世界唯一超过4分、比普通人念得好的”。
1999年,刘庆峰读博士时创办了科大讯飞,“当时就有信心做到世界第一”。但他很快发现,在市场上取得突破要比技术上更难。最早,他率领团队开发了一套面向大众的桌面语音软件,但“当时盗版太严重,肯花几百块钱买软件的都是领导干部,他们又不会用电脑,甚至没开显示屏就打来电话说软件有问题”。再加上没有更好的销售渠道,又不敢做广告,这款产品“完全失败”了。
后来,刘庆峰转为做行业产品。那时,168电话查询平台全靠播放录音,解决不了海量和动态信息,刘庆峰就通过使用语音合成打动了对方,但要掏钱时对方就不买了。对方说:“你们几个小屁孩在一起搞了个小公司,我们怎么敢花几百万买你们的产品?我们情愿买华为、中兴的,即使他们的产品没有语音合成功能也无所谓。”
最后,刘庆峰通过把技术卖给华为这样的公司才总算开始赢利。“像‘intel inside那样,我们强调‘iFLYTEK inside(内置讯飞科技)理念,逐渐有一批行业内的伙伴认识到我们的价值。2000年年底,我们发展了50多个客户。”2008年,科大讯飞上市。就像在技术上的创新一样,刘庆峰在市场上的创新还有很多。近年来,科大讯飞的营业收入仍然保持着40%—60%的高增长率。
从能听会说到能理解会思考
《环球人物》:语音识别与人工智能是怎样的关系?
刘庆峰:语音是人工智能最重要的切入点,它是人机交互的入口,不是一个简单的录入、合成,而是远场识别、噪音识别、多轮交互、Always On(随时都在听候指令)。今天手机中的软件,必须点一下,它才能工作。而像“叮咚音箱”这样的设备,无需点击按钮,直接告诉它干什么即可。
比如,我说“给老爸打个电话”,设备会问“老爸电话是多少”,我告诉它老爸的电话,它就能记住,下次就不用再问了。再比如,你说“我想听刘德华的歌”,设备第一次可能会问你喜欢什么类型的,你告诉它,它就能自动帮你选出来,听过多次刘德华的歌之后,它就可以根据你说话的语气、语境自行判断出你想听哪首歌,会慢慢变得比你更懂你。
《环球人物》:以语音为入口,需要一个安静的环境,但这个环境并不容易获得。
刘庆峰:我们可以进行噪音识别,比如在汽车环境下,在高噪音环境下,让语音识别达到实用门槛,我们在业界已率先获得突破。2015年4月,宝马汽车做了车载语音识别水平测试,我们是86%的准确率,美国Nuance取得第二名,准确率只有74%,而实用门槛是85%。
位于安徽合肥的科大讯飞公司总部。
《环球人物》:移动互联网之后,人工智能是否将挑起下一个时代的大梁?
刘庆峰:人工智能的时代已经到来。IT产业发展过程中经历了5次浪潮,计算机面市是第一次,小型机是第二次,PC是第三次,互联网是第四次,移动互联网是第五次。下一个风口就是万物互联,以智能家居、穿戴式设备、车载电子等为代表。如果设备离你比较远,你没办法用手、键盘操控,或者在走路或开车等移动情况下使用设备,就必须要用语音来操控。所以,我觉得语音为主、触摸与键盘为辅的人机交互时代正在向我们走来。
我们现在正努力使人工智能设备从能听会说向能理解会思考转变。如果机器设备不能理解、思考是没法交互的。我们平时用百度搜索,结果可能有千百条,那是因为有屏幕。在万物互联时代,如果用语音交互的话,一条一条报给你听,你可能听到第八个就崩溃了,所以设备必须能准确理解,多轮交互。
人工智能的三个阶段
《环球人物》:很多人了解人工智能是从美国大片开始,像“钢铁侠”这样的能力,现在能否实现?
刘庆峰:现在我们把人工智能发展分为3个阶段,第一阶段是计算智能,就像IBM的“深蓝”电脑能赢国际象棋大师,那是因为它的计算能力强,把所有可能性都算一篇,所以计算智能阶段,机器已经超过人了。第二阶段是感知智能,像人有视觉系统,机器可以有红外、紫外系统;人有听觉系统,机器有超声和次声系统,人的正常听觉范围是50到3400赫兹,而这个范围以外的声音机器也能听见。现在的很多领域,机器的感知智能已经超过人了。第三阶段是认知智能,现在还面临巨大的挑战。像“钢铁侠”这样的机器人,现实中其躯体部分已经做得越来越接近人了,关键是大脑,还面临挑战。
《环球人物》:怎么判断、比较机器的智能化水平?
刘庆峰:现在有两种测试。一种是图灵测试:人和机器都躺在你后面,你们聊天,你的问题有的机器回答,有的人回答,你判断回答你问题的是机器还是人,如果机器的回答让你认为它是个人,它就通过图灵测试了。
随着人工智能的发展,现在人们提得更多的评价方法是机器能否通过高考。美国华盛顿大学图灵中心提出让机器人通过美国的生物学科入学考试。日本的目标是由国立情报研究所提出来的,准备让机器人在2021年考上亚洲排名第一的东京大学。在我们中国,2014年启动了人工智能的一个标志性项目——科技部首个人工智能重大切入项目,科大讯飞为总牵头单位,目标是三到五年内,机器人能考上一本。机器考及格很容易,因为它可能只凭借记忆就能实现;考上三本就很难了,需要比一般的学生强;要考上一本,意味着要超过80%的考生,这就要靠很强的逻辑推理。
《环球人物》:现实生活中,人工智能有哪些较为成熟的应用?
刘庆峰:2015年7月,我们在安徽的合肥和安庆做初三学生学业水平测试,英语和语文作文,先是老师打分,然后机器打分,把有差距的挑出来,由人工专家组来评,到底哪个打得准。结果80%以上的情况是机器比人准,引起业界非常大的轰动。日本高考机器人项目组长2015年7月20日到科大讯飞参观,感到很震惊,回去就写文章说,中国的人工智能水平已经超过了日本。
下一步在医疗领域,人工智能可以解决全科医生奇缺的问题,它可以像帮助学生学习一样,学习过各种病历,然后帮助医生进行分析。我们正在合肥做验证,国家卫计委也非常关心。人工智能可以在非常多的领域代替或辅助人工,将来会深刻改变整个社会。
人物简介:
刘庆峰,1973年生,安徽泾县人,毕业于中国科技大学。1999年创办科大讯飞公司,现任董事长,2013年当选CCTV中国经济年度人物。