李雨蒙
2017年美国消费性电子展(CES)落下帷幕,而此次展会的最大赢家非亚马逊(Amazon)莫属。其推出的智能语音系统Alexa几乎能够联通所有与物联网相关的一切产品,为我们展示了智能生活的全新生态景象。未来消费者只需开口发出指令,无论您在哪里,都可以通过语音交互系统轻松控制每一台关联的电子物件,开启万物互联的智能化生活。
2016年,科技界最为颠覆性的热门事件,一定是谷歌Alphago战胜韩国围棋九段棋手李世石。人工智能(AI)通过深度学习(DeepLearning)技术破解了最古老而神秘的围棋,人们在震惊于AI学习能力的同时,也开始担忧AI逐渐具备人类所独有的能力。据统计,在主流平台上,AI深度学习的能力使得语音交互正确率超过90%;而目前美国移动语音助手使用比例已达到,谷歌语音搜索量较2008年相比增长35倍。
Alexa生态系统
不同于苹果Siri有限的语音辅助作用,亚马逊Alexa是一个具备强大语音技术的机器人,对于语音识别、语义分析等方面的技术要求非常严格。Alexa中集成了增强机器学习等人工智能技术基于语音的应用。作为Alexa的载体,Echo智能音箱从最初播放Prime音乐、设置闹铃等基础任务,升级到开始对家中的灯、空调、摄像头等电器设备的控制。
自2015年下半年开始,第三方硬件厂商意识到Alexa在智能家居领域的重大发展潜力,陆续有家电厂商开始与亚马逊合作,试图在自家产品中内置Alexa。在2017年CES上,Alexa出现在各大厂商的产品发布会上,涵盖的产品类型包括冰箱、吸尘器、DVR、手势遥控器、灯泡、车载系统等,它们都内置了Alexa语音助手以及可与Alexa赖以交互的音频I/O模块。也就是说,Alexa开始成为多种智能家居产品的内置智能助手。
比如,LG公司推出最新智能冰箱,内置Alexa语音识别系统,在联网和设置之后,用户可以通过LG智能冰箱内置的Alexa来查看菜谱、查看冰箱内食物的过期时间,自动选择缺少的食物,并直接完成在线购物。
除此之外,福特在今年的CES展会上推出了一个以Alexa为技术支撑的车载信息娱乐系统SYNC 3 in fotainment;通过这个系统,Alexa把汽车和房子紧密地结合在一起。以具体的使用场景为例:通过这一系统,用户在家里可以用语音在指定的时间点发动汽车;而当用户在开车过程中,可以通过车载的音响系统继续用语音指令来唤醒Alexa,比如说查询路线和目的地、询问天气、购买东西、播放音乐
和有声书等;用户甚至可以在车里通过Alexa来控制家中的灯、车库门等等。这样一来,Alexa的语音交互方式就在驾驶过程中发挥出最大的优势;而且,汽车与家庭之间也实现了有效的联动。
深度学习加快语音识别
著名“互联网女皇”玛丽·米克尔在《2016年互联网趋势报告》中,特别提出语音交互科技的时代已经到来。她认为,语音正在被重塑,成为人机交互的新范式,不仅语音搜索正在成为搜索的重要分支,在各种垂直领域的应用也在日益增多。中外各大科技巨头早已纷纷布局语音互联,不惜重金挖掘各路人才,抢先占领最大市场优势。
百度2016年世界大会上,李彦宏推出“百度大脑”,他认为人工智能是移动互联网的下一幕,而百度大脑正是百度的核心人工智能。目前,百度大脑主要包含三个方面,即算法、计算能力以及大数据等,并从四个能力展开应用,包括:自然语言的处理、语音识别、图像识别处理以及用户画像等能力。2014年,百度公司宣布国际著名人工智能科学家吴恩达的加入,成为百度首席科学家,主要负责的正是百度大脑项目的领导工作,吴恩达加入百度引起了国际人工智能界的巨大震动。2016年《MIT科技评论》杂志,把百度的语音识别引擎第二代Deep Speech 2评为“2016改变世界十大突破技术”,这个引擎大概可以做到97%的准确率,这样的准确率有时甚至超过了人。
大会上,李彦宏演示了语音识别的其中一个应用场景:电话销售。销售人员需要长时间培训才能上岗。但是通过百度语音识别能力,一个新的销售上岗的第一天,就可能掌握他所获得的那些最优秀的销售的能力:新销售打电话给潜在客户的时候,百度大脑都实时地识别了客户的问题,并且显示在销售的电脑的屏幕上,同时实时地统计出最优秀的销售记录。
搜狗“知音”
不久前,搜狗语音发布了不仅“能听会说”,还具有“能理解会思考”的智能语音交互引擎技术“知音”。“知音”解决了用户在说话过程中因语速过快而导致的吞音问题,语音识别错误率相对下降30%以上。2016年8月搜狗知音引擎基于已有的深度学习平台和技术搭建了自身的语音实时翻译技术。整个技术框架包括了语音识别、机器翻译两个大的方向,整个系统并不是简单的技术堆砌,而需要做非常多的细节优化以及系统调优,主要包括了语音断句、语音识别、文本断句以及机器翻译。
对于和谷歌不久前发布的神经机器翻译技术,搜狗和谷歌使用的模型区别不大,但谷歌的神经网络比较深,做到了8层,而搜狗最多做到5层。谷歌神经机器翻译推出后,宣布将投入到非常困难的汉语-英语语言对的翻译生产中。微软也发布了万能翻译器,支持语音识别、拍照识别、直接输入翻译功能。
2015年11月,图灵机器人针对服务机器人市场,推出了全球首个人工智能级的操作系统——Turing OS。Turing OS是一款可模拟人类情感和思维模式的智能机器人操作系统,具备最接近人类的多模态人机交互能力,包括情感计算、思维强化和自学习三大引擎。TuringOS内置儿童对话功能,提供强力内容过滤机制,语言“纯净度”达99.87%。
在即将进入的物联网时代中,语音交互被视作为人机交互的入口。当各种恶意机器人消灭人类的理论出现时,人类不妨培养如AI一般的深度学习(DeepLearning)能力,考虑在职业被AI取代后,我们该如何学习寻找新型职业,而不是考虑如何拔掉AI的插头。正如百度首席科学家吴恩达说的那样:“技术的变革越来越快,更加需要重新训练人。我非常顾虑,没办法及时训练需要的人”。
编译自《商业内幕》《MIT科技评论》杂志