本报赴合肥特派记者 刘扬
在5G移动通信、人工智能(AI)、物联网车联网高速发展的今天,语音交互正在成为普通人应用这些高科技的常见场景:可以控制家中智能电器的智能音箱、一句语音就可以设置导航软件……第二届世界声博会暨2019科大讯飞全球1024开发者节10月24日在合肥开幕。《环球时报》记者在大会现场感受到一系列令人震撼的黑科技,它们已经从酷炫的应用走向满足人们的刚需。
大会上,讯飞展示的“变声领夹”让人想起日本动漫《名侦探柯南》中同款产品。科大讯飞AI研究院常务副院长刘聪通过“变声领夹”成功模仿了现场女主持人的声音,甚至用合肥话来了一段当地谚语,让现场观众惊呼这种实时变声实在太酷了。会上还展示了语音合成技术的最新成果——真实语音与合成语音的无缝衔接:一段罗振宇的真实语音与一段他的合成语音被播放出来之后,完全分不出哪句是原音,哪句是合成的。
光有语音还不够酷,《环球时报》记者在展会现场看到,一个视频正在播放虚拟女主播小晴用中文、日语、英语、韩语播报新闻。据工作人员介绍,首先需要进行人像采集和语音采集,然后通过建模就可以合成出这样的真人版虚拟主播。目前多家媒体都已采用了这种虚拟主播的技术。据介绍,未来只需要在网站上简单输入文稿、指定主播,就可以一键生成虚拟主播,可以用不同语音和方言播报新闻,还可以变换姿态、改变造型,让现场的媒体记者直呼“要失业了”!
很多人担心的是,目前社会上已经出现利用换脸和换声软件进行诈骗的案例,如何防止讯飞的这些黑科技被不法之徒利用?工作人员介绍说,目前高度还原的语音和虚拟形象的服务只面向机构用户,比如为央视制作虚拟主播“纪小萌”,声音和形象都要得到授权才能制造,个人用户语音合成服务的声音相似度被控制在60%左右,“主要就是从安全性角度来考虑”。
说到语音识别,最典型的应用场景就是家庭内部和汽车里。《环球时报》记者在展馆内看到,一款产品可以在很远的距离、嘈杂的环境内进行精准识别。据工作人员介绍,这采用了声源定位的技术,可以排除杂音、准确识别发出命令的用户在什么位置。在现场演示时,尽管会场周边非常嘈杂,它仍可以准确操控数米外的冰箱、电视、空调等电器。据讯飞专家在大会上宣布,超远距离识别已经达到20-50米,准确率达到90%以上。
除了语音识别方面,脑机接口技术的研究也是人工智能领域应用的重要方向之一。记者在华南理工大学的展台看到一台脑控轮椅。基于混合脑机接口,用户在无须动用四肢、也无须发出声音指令的情形下,可以用脑完成对轮椅前进后退的操控。一名研究人员坐在轮椅上向《环球时报》记者进行了演示(如图),他头戴一个能采集脑电波信号的设备,在手脚完全没动的情况下,熟练操作轮椅。据他介绍,操作的过程需要人的精神高度集中。这个技术和国外相关研究有哪些区别呢?他表示,该技术最大的优势是只需一个像帽子一样的头戴设备,不需要在脑中植入设备。
在中美经贸摩擦大背景下,讯飞等一些中国高科技企业上了美国第二批“实体清单”。科大讯飞轮值总裁胡郁在接受《环球时报》记者采访时承认,美国“实体清单”对讯飞的部分原材料供应有影响,但在这个消息出来之前,讯飞已经做了充足的准备,所以说近期内不会存在太大问题。“从远期看,我们会寻找替代方案的提供商,包括进一步增强自身能力,这也是一种解决方案。我认为对长期业绩的影响会控制在一定的范围之内,对最主要的国内业务,影响范围并不是特别大。”▲