DingDong！人类开始“狂虐”AI??

2016-01-21 11:57刘楠

时间线 2016年1期

刘楠

人工智能技术的突破是用来延伸人类能力的，而非替代人类。

以下是一个人和一台机器的对话：

我明天要回家，帮我订一张车票吧。

好的，您是要坐飞机还是坐火车呢？

飞机吧。

好的，已经为您查询到所有航班。

我要国航的。

好的，已经为您找到所有国航航班。

我要最便宜的。

好的，已经为您选中最便宜的车票。

嗯……还是不了，我想坐高铁回去。

好的，请问您选一等座还是二等座？

一等座。

您确定预定最早的车次吗？

确定。

好的，已经为您预定2015年12月22日早7：35返回合肥的高铁票。

什么什么？你以为时间线君在写未来人工智能的小说？No，No，No，我赌十块钱这不是小冰。你想调戏小冰唱歌，她只会打个岔说个话，小心给你讲个鬼故事。

以上是在科大讯飞2015“A.I.复始万物更新”新品发布会上发生的一段人机交互演示，这个会说话的家伙叫做DingDong，是个智能音响。

乍一看，这个DingDong的功能与Siri、Google Now和微软小娜十分类似，都是走人工智能助理的路线。其不同之处在于，DingDong在中文语音识别方面十分出色。这要归功于科大讯飞多年来一直专注于智能语音及其相关技术的研发，并且在国内行业里名列前茅。

能主动提问、对结果反问、被抢话打断还能立刻接话、持续聆听、前后反应不间断、拥有长时间记忆和强大的背景知识，这是理想状态下我们所能想到的关于人机智能交互的体验。没错，DingDong这个家伙的出现昭示着这个理想正在一步步实现。文章开篇就是ta跟美女倩倩在发布会上的对话。

机器能够对人类语言进行准确的语义识别，就意味着我们离想象中无所不能的人工智能更近了一步。科大讯飞董事长刘庆峰在发布会上表示，人工智能未来会像水和电一样无所不在。计算智能、感知智能和认知智能是人工智能的三个层次，以语音和语言为入口的认知智能革命是当前突破人工智能的重要切入点。

目前，认知智能的三大核心支撑能力是人机交互、知识管理与推理学习，这次发布的讯飞超脑2.0正是围绕这三方面来持续展开的。

在科大讯飞承担的科技部人工智能领域第一个示范性标准重大项目“类人答题机器人项目”中，讯飞超脑计划的目标就是，要让机器从“能听会说”到“能理解会思考”，而且在不久的将来可以参加高考并考上一本院校。

刘庆峰认为，在万物互联的浪潮下，以语音为主，键盘、触摸为辅的人际交互时代已经到来，对人机交互也有更高的要求。但是，目前大多数设备没有屏幕并且与用户之间有一定的距离，而且多方交互的即时需求越发明显。

为了满足多方需求，科大讯飞发布了人机交互新产品AIUI，试图定义“万物互联”时代的人机语音交互标准。在这个定义中，人机语音交互的基本能力应该包括三方面：远程识别、全双工、多轮交互。

其中，多轮交互实现了机器对上下文的连贯理解，使得人机交互不再是单调的一问一答，而是可以连续交流、间断交流。对话纠错机制使人可以随时纠正对话中双方的错误，不用多次重复输入指令。这些技术都极大降低了环境、说法、方言、习惯等对人机交互的干扰，实现了高度自然的人机交互体验。

DingDong音响就是这样一个应用。作为一个载体，它不仅可以用来听音乐、操控家居，还可以帮助完成各种助理的事务。目前，这款智能音箱已经开始在市面上销售。

时间线君邪恶的安利一下，如果你的老板难缠、女朋友难搞，来一盘烧脑什么都解决了，反正机器人不嫌烦。

除了DingDong之外，科大讯飞还有一个新产品令人眼前一亮。

发布会现场的两块大屏幕上，“嗒嗒嗒”出现的字让时间线君很是惊奇，难道怕后面的观众听不到所以实时更新速记？也太贴心了吧！

“这是‘讯飞听见全球首次会议字音同步直播。”什么什么？竟然是即时语音转写，然而当前演讲人的普通话并不标准。

在大屏幕上，第一句识别出来的字先是红色。等到演讲人说下一句话的时候，这句话自动断句并检测，如果没问题就变成白色，一条过。如果因为发音不标准或出现方言而使字音识别出现不确定的字词，那么红色字词会闪两下，通过上下文识别后自动修正。

太神奇了有没有！

果然。科大讯飞随即发布了“智能+硬件+服务”于一体的语音科技产品“讯飞听见”，包括手机App、PC端网站和智能硬件（录音笔）。据介绍，这款产品集成了单麦克解混响技术、阵列解混响技术、口语化识别等技术，总之速记员可以大面积失业了。

听到这里，时间线君只想贱贱的笑一笑，以后整理采访速记省出来的时间可以睡觉了。当然，这不是最重要的。

在万物互联时代，人机交互将成为人类生活的新常态。人工智能技术的突破是用来延伸人类能力的，而非替代人类。“如果你问我未来20年最重要的技术是什么，毫无疑问，我会告诉你就是人工智能。”凯文·凯利在新作《必然》中如是说。