听风者

2016-10-18 17:39郑晶敏

第一财经 2016年38期

郑晶敏

在好莱坞电影《她》中，人工智能系统OS1不仅拥有迷人的声线，还具备理解人类情感的能力。这个时而温柔时而幽默的人工智能系统，让男主人公西奥多甚至无法分清“她”与人类的区别。

尽管现在的人工智能还达不到电影里以假乱真的程度，但至少让人工智能理解声音已经成为可能。

来自麻省理工学院（MIT）计算机科学与人工智能实验室的安德鲁·欧文斯（Andrew Owens）正在研究一款视频训练系统（Visually Indicated Sounds，简称VIS）。它通过学习，不仅理解人类世界中的声音，以达到和物理世界互动的效果，甚至，还可以自行模拟出声音。

在一次实验中，欧文斯播放了两个内容相同的视频。其中一个视频的声音由人工智能系统合成。受试者需要在观看后分辨出拥有真实声音的视频。结果显示，受试者选择伪造声音的次数是真实声音的两倍，尤其是声音与树叶、泥土等室外物体有关的时候。

欧文斯的实验分明是在模仿著名的图灵测试。

1950年，英国计算机科学家艾伦·图灵曾提出了一个关于判断计算机能否思考的实验。他对人工智能的定义是：如果一台机器能够与人类对话而不能被辨别出其机器身份，那么这台机器具有智能。这个假设证明了人工智能的可行性，艾伦·图灵也因此被称为“人工智能之父”。只不过当时的对话还是使用计算机语言，而现在，人工智能已经可以用人类语言甚至自然声音直接和人对话或者传递信息了。

人工智能可以通过多种感官和人类世界互动，比较容易习得的是文本和图像。而关于如何让人工智能学习声音的研究，最早是在20年前开始的。

神经网络（Neural Network）—一种模仿生物神经网络结构和功能的计算模型，曾被用于解决机器视觉和语音识别等问题，它们都是很难用基于传统规则的编程解决的问题。随着时间推移，人工智能需要应对更加庞杂的学习任务，人类对它的要求也发生了变化。这催生了“深度学习”算法。比较常见的人工智能在声音方面的应用或许是一些音乐软件的听音识曲功能，它们通过某一个音乐片段找到对应的单曲，这是人工智能对声音学习能力的初级表现。

同样基于“深度学习”算法的VIS智能系统则更进了一步。在实验中，欧文斯他们将4.6万种初始声音制作成1000条有内容的视频。这些声音由同一根木棍与不同物体以多种方式碰撞产生，从而保证所有的声音都是用同一个方式发出的。研究人员将这些视频输入视频训练系统，“深度学习”算法就会解构视频中的声音，并分析和记录不同撞击下各种音色、音强和频率的物理特征，比如木棍拂动树叶的声音或是木棍敲击地面的声音，并存入数据库中。

随后，当系统再接收到一个无声视频时，“深度学习”算法就能在观看视频后，从这个数据库中检索出和视频画面匹配的各种音色、音强的声音片段，并制作成一段连续的音频。

“如今，人工智能除了要拥有智商，还必须具备情商。”微软语音助手小冰项目总负责人李笛对《第一财经周刊》说。欧文斯的项目获得了微软研究院的资助。其中的关键是要让系统看懂视频，也就是说，VIS的深度学习技术融合了声音和视觉，它知道每一帧画面有哪些物体发生了什么样的事情，并懂得通过它们的物理特征匹配相应的声音。包括语音和视频在内的流媒体则是人工智能学习中最困难的部分。在以往的学习过程中，人工智能只能单独进入接受信息或发送信息的状态，但学习流媒体时，接收和发送两者需要并存。“就像在和另一个人打电话，人工智能真正发挥了沟通功能。”李笛说。

学会沟通是人工智能与人类建立联系的第一步，也是其一切商业应用的基础。人类可以用人工智能帮自己叫外卖或者播视频，这在技术上并不难实现。但只有当它能获得人的信任，如电影《她》中的OS1一样，成为与人类世界平行的第三极的存在，商业需求才是稳定的。因此“情商”成了人工智能学习的另一个内容。

人工智能学习声音的过程与婴儿类似，都是在频繁接触某一物体后找出规律，然后形成几种潜在的学习方案，最后保留效率最高的一种。不同于婴儿有意识地完成学习过程，人工智能完全凭借经验学习。比如赢了围棋大师李世石的Alpha Go，其实并不知道自己在下围棋。

但这并不妨碍人工智能完成学习声音的任务。事实上，在某些领域，人工智能对声音的理解程度已经超过了人类。“深度学习算法可以通过声音判断物体的形状和材质。”欧文斯说，“比如听到手指与红酒杯碰撞的声音，推测出酒杯里装了多少红酒。”智能系统还能准确把握声音的音色和波长，从而精确模拟出不同材质物体撞击时的细微差别。在分辨发声材料的软硬程度上，人工智能系统的准确率达到67%。不过，包括VIS在内的智能系统在声音识别方面仍有局限。目前的智能系统学习声音的方法仍基于视觉，这就会对其学习能力带来限制。比如，当视频中有物体不规律地摆动却未发出声音时，系统常常会做出错误的判断。而像风声这类几乎没有相应视觉呈现的声音，智能系统更是无法察觉。

“能够预测声音是人工智能与物理世界互动的重要一步。”欧文斯说，他们未来的研究重点就是让人工智能系统能模拟出与视觉联系更少的声音。

如此，这一技术在商业上的想象空间就更大了。比如电影中各种非常规环境下的声音，都可以交给机器来生成—电影制作者不再需要借助各种道具来完成音效，一个人工智能系统就足够了。另外，如果人工智能系统能够理解风声，那么在驾驶时，导航系统还能根据风声对周围环境做一些假设，以达到更加安全的驾驶目的。现在的智能系统基于视频学习，也是出于学习成本的考虑，比如VIS学习的那1000段视频中就包含了4.6万种声音的数据。

李笛认为，人工智能会学习是一回事，更重要的是能否在极少量数据输入的情况下学习。“按照现在的技术，拿过亿的数据去训练机器已经不是难事，难的是我教它两下教它三下它就会了。”这也是技术公司在不断尝试解决的问题。