科大讯飞:语音HOLD一切

2014-09-17 15:47霍娜
中国计算机报 2014年33期
关键词:刘庆峰灵犀人脸识别

霍娜

“我想听一首激昂的歌” ——汪峰《飞得更高》歌声响起;“我想听成龙的《男儿当自强》”——原唱歌声响起;“请打开一盏灯,将灯光调成白色”——灯亮了,变成白色光;“请打开窗帘,并煮一杯咖啡”——窗帘打开,咖啡壶工作灯亮起……2014年8月20日,在京举行的“语音点亮生活——科大讯飞智能家庭语音产品发布会”上,科大讯飞董事长刘庆峰现场演示了用语音遥控各种家用电器的情景。智能家居已成现实。

科大讯飞在会上发布了面向智能家庭领域的语音产品,包括新版本语音助手灵犀3.0、以语音交互为特色的讯飞智能音箱、面向智能电视交互的“未来遥控”等,并为开发者构建了更可靠、更多交互模式和更具商业化的新一代自然语音交互平台——讯飞语音云3.0,同时启动 “讯飞超脑”计划,携手共赢人工智能时代。

智能家庭新“声”活

刘庆峰现场演示的是与中国移动联合推出的最新升级版语音助手灵犀3.0。他介绍,灵犀作为手机上的操控入口、信息搜索入口和移动特色服务三大语音入口,升级后的3.0版本更具实用、乐用、易用、通用四大特性。该产品在原有的语音拨号、发短信、本地查询、声纹锁屏等基础功能之上,又增加了秒呼、语音唤醒、音乐随心听、有声“悦”读、男女声识别等个性化功能,同时面向用户开放300万首正版歌曲、40万册正版图书访问。

让记者记忆深刻的是其哼唱搜索功能。现场观众对着手机哼唱了一段旋律“在我心中,曾经有一个梦,要用歌声让你忘了所有的痛”,灵犀立即搜索出“您要听的是《真心英雄》”,并开始播放原声歌唱版。

在有声“悦”读方面,灵犀整合了40万册正版图书的优势内容资源,图书种类多样,可以用多语种多音色、特色语言个性化音库、音色转换等语音合成技术,包括单田芳似的评书、《舌尖上的中国》配音员似的纪录片等多种语音风格满足用户兴趣喜好。据介绍,高德地图中林志玲的嗲嗲的声音就是科大讯飞语音合成提供给高德的。

除了音乐、有声“悦”读,刘庆峰介绍,灵犀还能做到“听声识人”,灵犀可以根据你的声音来辨别你的性别,进而提供有针对性的服务。比如,男生向灵犀咨询“我要给爱人买个礼物”,灵犀通过男女声识别后就建议“听你的声音一定是位事业有成的高富帅,快为她买一条钻石项链,她一定会很幸福的”;如果女生向灵犀咨询“我要给爱人买个礼物”,灵犀通过男女声识别后就提供另外的建议“听你的声音一定是位窈窕淑女,快为他买一只新款手表吧,让他显得品味十足”等。“灵犀会越来越懂你,通过声音识别性别,基于语音大数据提供更加个性化的服务。”刘庆峰说。

刘庆峰还展示了灵犀3.0与智能家庭硬件之间的互动,包括对电视、电灯、空调、热水器等家电的语音操控。比如,对灵犀说“中央一套”,电视频道就会自动切换到中央一套;对灵犀说“帮我煮杯咖啡”,咖啡机开始工作;对灵犀说“我五分钟之后到家”,灵犀会回复“好的,按照您的习惯,空调已经调到26度,热水器调到35度”……

目前,灵犀已经与创维、长虹、海信、TCL、康佳、海尔、迈乐机顶盒、海尔、美的、智能手表Z-Watch等垂直门户和终端厂商建立了广泛合作关系,OVS开放平台与200多个垂直领域最优质的信源展开合作。同时,语音助手也开始走向汽车领域,与奥迪、宝马、奔驰、福特、长安、上汽、广汽、江淮、奇瑞等汽车制造厂商都已展开深度合作。

让机器人考上大学

发布会上,科大讯飞还发布了新一代讯飞语音云3.0。讯飞语音云3.0由“云+端+后台大数据分析”组成,具备方言语音识别、高抗噪语音识别、个性化识别、人脸识别、手势识别、声纹识别等创新功能。自2010年推出全球首个智能语音交互的语音云平台开始,四年来科大讯飞不断突破智能语音技术极限,开放平台接口,语音云合作伙伴和用户规模一直飞速增长。目前,讯飞语音云平台合作伙伴已超过40000家,其中包括腾讯QQ、小米手机、新浪微博、58同城、携程旅行、高德地图等各类主流应用,支撑用户数达百万级以上应用超过1000多个,覆盖移动终端超5亿。

讯飞语音云通过智能语音基础功能、个性化语音功能、语音定制服务、数据分析、增值服务等吸引开发者共同创业。语音云已经有4万个项目,每天有150个新项目。发布会也对“讯飞语音云创新应用大赛”的获奖开发者进行了颁奖,其中盲人应用争渡读屏获得大赛金奖,高德地图、Glass x分别获得了用户体验奖和创业团队奖。值得一提的是,讯飞语音云3.0将以更开放的姿态面向开发者,将逐步上线语音唤醒、离线命令词识别、人脸识别等前沿技术。

在车载领域,科大讯飞通过技术攻坚突破高噪环境下语音识别率低的“魔咒”,2013年,科大讯飞分别在奔驰汽车和通用汽车全球语音识别抗噪评测中获得第一名。在车窗全开、时速100公里的情况下,只有科大讯飞的技术达到使用要求。未来,内置讯飞语音技术的汽车,可以让你一边开车一边用语音操控打电话、开导航、听音乐、查路线等。

同时,科大讯飞还宣布启动人工智能计划——“讯飞超脑”,让机器像人脑一样做到学习和思考,进而实现机器从“能听会说”到“能理解会思考”的跨越。“讯飞超脑”计划聚集了来自语音及语言国家工程实验室、清华大学、加拿大约克大学等的十多位人工智能领域顶级专家,致力于人工智能的探索和应用,让机器能听话,更能懂你,甚至考上大学,让人工智能深度应用于生活的方方面面。

链接:中国人能做顶级的原创技术

科大讯飞董事长刘庆峰邀请自己中科大的校友、现香港中文大学教授汤晓鸥来发布会做题为《生活中的计算视觉》的演讲。汤晓鸥及其团队在计算机视觉领域,包括人脸识别、图像检索、智能视频分析处理等方面有非常前瞻的研究创新。人脸识别技术的国际标准测试集上前三名的算法都是他们实验室做出来的,包括高斯脸技术和基于深度学习的脸部器官定位技术和深分证的技术等。手势识别领域,其对手掌的全自由度的跟踪识别技术在电视的遥控、手机遥控、汽车导航等各种交互领域都有很大应用价值。而他们的另一研究方向——大规模人群的视频监控与智能分析,可以做人数估计、拥堵分析、目标跟踪、异常检测等,也是世界领先。汤晓鸥说自己的每次演讲都会从儿子的照片开始。幸福的生活状态与卓越的工作成绩兼备在他身上表现得淋漓尽致。而汤晓鸥在演讲最后也感慨地说:“我想跟大家说,中国人也是可以做原创技术的,而且是可以做顶级的原创技术!”

链接:数说讯飞

讯飞语音云平台合作伙伴超过40000家,支撑用户数达百万级以上应用超过1000多个,终端用户数量超5亿。

灵犀3.0增加了秒呼、语音唤醒、音乐随心听、有声“悦”读、男女声识别等个性化功能,同时面向用户开放300万首正版歌曲、40万册正版图书访问。

科大讯飞与香港中文大学汤晓鸥教授及其团队合作,将国际顶尖人脸识别技术应用于讯飞语音云,识别率达99.15%。

科大讯飞联合CNTV旗下未来电视发布了面向智能电视的“未来遥控”,用语音实现遥控器的交互,比如换频道、调音量等,电视都可以理解并立即执行,交互过程仅需0.5秒,准确度高达95%。

猜你喜欢
刘庆峰灵犀人脸识别
人脸识别 等
揭开人脸识别的神秘面纱
树没有家
你照顾
“科大讯飞”刘庆峰:创造千亿市值的AI语音拓荒者
写诗拾趣
刘庆峰,心里放着一张科大的书桌
基于类独立核稀疏表示的鲁棒人脸识别
基于K-L变换和平均近邻法的人脸识别
海龟度假团