科大讯飞的人工智能探索
技术创新将来不会颠覆人类,而是会让人类生活得更幸福
2 015年12月21日,科大讯飞董事长刘庆峰在公司年度发布会上,首次面向全球3000多人发表演讲,他一边演讲,机器人一边把他的语音转变为两边大屏幕上的文字,通过视频直播,所有观众也都可以看到机器“转写”的结果。一个多小时的演讲,机器“转写”的准确率超过95%,比速记员还高。
这让刘庆峰十分自豪,因为中国企业定义了万物互联时代人机语音交互的全新标准。
作为亚太地区最大的智能语音和人工智能上市公司,科大讯飞创立于1999年,具有语音合成、语音识别、语音翻译等多项领先技术,占有中文语音市场70%的份额。
科大讯飞以语言、语音为入口的认知智能“讯飞超脑”,与“百度大脑”提出的感知智能,被认为是中国人工智能的两大风向标。
今年距离世界上人工智能概念的首次提出已60年。而中国人工智能的发展历史只有30年——1986年国家863计划中首次提出做语音合成。
1999年,刘庆峰与中国科大的师兄弟们一起创办了科大讯飞,探索产学研结合的机制来发展智能语音产业。
智能语音是一门交叉学科,需要声音、语言和计算机多学科的融合。在新的机制下,科大讯飞承担了智能语音国家工程实验室的职能,加快整合国内外的源头技术资源,在清华大学、中国科学院声学所和中国社科院语言所等单位,都建立了联合实验室。
最初,科大讯飞开发的是一款面向普通消费者的智能语音软件,因为太超前遭到冷遇,公司生存岌岌可危。有人说,转行算了;有人说,不如改做房地产。但刘庆峰笃信语音交互将成主流。
后来,科大讯飞转做B2B市场,给华为、中兴、联想等大企业,提供智能语音应用的嵌入式软件,公司经营好转,逐步实现了盈利。
刘庆峰说,之所以坚持下来,核心是对语音发自内心的热爱。
“第一,我们热爱它。第二,我们对自己有信心。第三,商业逻辑也决定了必须要做源头创新,才有可能在市场上立足。高科技领域从来没有捷径可走,你如果不做原创技术创新,那市场上一定没有你的机会,很多技术产品只有第一、没有第二。”刘庆峰说。
微软、谷歌、百度、腾讯等国内外IT巨头,也纷纷抢食智能语音产业的巨大商机。在与巨头们的较量中,科大讯飞如何能突围而出、实现领先?
除了在智能语音领域的专注、坚持、努力,科大讯飞还把技术创新战略定为“顶天立地”。
“顶天”是指技术上一定要保持国际领先的水平,为此不惜大量地投入;“立地”是技术要落地,服务于亿万家庭和用户,“我们要比科学界更知道技术的发展趋势,比消费者更知道他需要什么。一流的企业满足市场,超一流的企业创造市场,讯飞要做创造市场的企业”。
过去掣肘中国科技创新的是机制问题。所以科大讯飞推动了产、学、研资源整合,把中国科大、中科院声学所、中国社科院语言所、清华大学、新疆大学、西藏大学等相关研发资源聚拢在一起。
凭借拥有自主知识产权的智能语音技术,科大讯飞推出从大型电信级应用到小型嵌入式应用,覆盖从电信、金融等行业到企业和消费者用户,从手机到车载,从家电到玩具等产品。
从电信、IT业起步,嵌入式智能语音软件的应用,下一步的重点是智能家居、智能车载及穿戴式设备方向。今年,科大讯飞与京东合作推出一款“DingDong智能音箱”。智能语音应用很多,科大讯飞正在有选择、有步骤地开拓不同细分市场。目前,康佳、长虹、TCL等国内主流彩电企业均与讯飞展开了合作。
科大讯飞已占有中文语音市场70%的份额,以讯飞为核心的中文语音产业已初具规模。随着移动互联网的到来,2010年,科大讯飞率先发布了全球首个提供移动互联网智能语音交互能力的“讯飞开放平台”,还推出了“讯飞输入法”“灵犀”等手机应用。
“讯飞开放平台”通过5年的发展,已经开放了语音合成、语音识别、语义理解、语音唤醒、语音评测、人脸识别、声纹识别等10项核心能力,旨在构建全新移动互联网语音及交互生态。目前,讯飞开放平台已吸引了包括QQ、高德地图、滴滴、携程、大众点评、新浪微博等在内的8万多合作伙伴,覆盖终端用户数超过8亿。
语音交互技术的下一步,是人工智能,科大讯飞对此深信不疑。
未来的物联网时代,由“云+端”构成。人与各种智能终端之间进行语音交互,形成的大数据反馈到后台的云,云计算中心利用人工智能技术做出预测、判断,再反馈到各种智能终端,让人享受更好的产品和服务。
“讯飞超脑”是科大讯飞目前推出的针对人工智能领域的重大攻关项目。目标就是要实现一个真正的中文的认知智能计算引擎,未来将真正引爆在教育、客服、人机交互、医疗等领域的智能应用。刘庆峰曾表示,只有掌握人工智能技术,才能抢占未来科技发展的制高点。科大讯飞不仅要抓住“小波浪”的创新,更关键的是抓住“大波浪”的创新,而下一轮“大波浪”正是物联网和人工智能时代。
“我们定义了万物互联时代人机语音交互的全新标准。”刘庆峰自豪地说,万物互联时代的人机交互,第一需要远场,人对机器说话,应该在3-5米之外也能听得清;第二可以随时随地打断了仍能继续进行交互;第三是上下文要相关,比如问上海明天天气,机器回答完,你说合肥呢,它马上就知道说合肥的天气。
“技术创新将来不会颠覆人类,而是会让人类生活得更幸福。”
作为“讯飞超脑”计划的一部分,类人答题机器人的研制如火如荼。科大讯飞计划让机器在未来三到五年,也就是2020年高考时可以考上一本。它有交互、知识管理、学习和推理三方面能力,可应用在教育、医疗等领域。
一些地方高考的英语口语测试,已经尝试用科大讯飞的机器打分,通过应用这套系统,还可以提升日常师生教课和学习的效率。
而在医疗领域,刘庆峰说,一线的全科医生将来很缺乏,这套系统也可以应用在医疗上。未来医生看病,可能会越来越多在网上进行,病人一说病症,系统就自动做出判断,给医生相应的提示和指导。
讯飞超脑计划的思路叫沿途下蛋,阶段性成果要能用起来。”刘庆峰透露,讯飞已推出一个智慧学习的网站叫“智学网”。
“沿途下蛋”的过程中,如何在技术创新与商业收益之间平衡?刘庆峰介绍了其中的秘诀:科大讯飞有四级体系,联合实验室面对5-10年甚至更长远的研究;科大讯飞研究院做3-5年的研发;语音云平台的开发部门把研究院的成果变成产品,外部的创业者也可以方便调用;在云平台上,有教育业务、客服业务等各种服务。“这四级体系就可以保证我们不断地进行源头技术创新,同时还不断地把阶段性成果输入到市场上。”
(本刊记者孙玉敏根据相关资料整理)