人工智能正在消除“恐怖谷”

2018-03-01 09:04编译闻心

世界科学 2018年2期

编译闻心

未来将是一个充斥着人工智能生成内容的世界，一个典型的乌托邦，同时也是一个“敌托邦”。它混乱而美丽，而我们已经置身其中了。

2017年早些时候，伯克利大学的一个研究团队发布了两段视频。第一段视频中，一匹马在铁丝网栅栏后面奔跑。第二段视频中，这匹马身上突然出现了像斑马一样黑白相间的图案。过程并非完美无缺，但是这些黑白相间的条纹巧妙地和马融合在一起。

把马变成斑马是一种很好的噱头，这标志着机器学习算法在改写现实方面的能力越来越强大。比如，一些人就使用这种“斑马化工具”把黑熊的照片变成了真实可信的熊猫照片，苹果变成了桔子，猫变成了狗；Reddit网的一位用户利用了一种不同的机器学习算法来编辑色情视频，使其主角变成名人的面孔；在一家名为Lyrebird的新创业公司，机器学习专家们正在将某个人一分钟的声音样本中合成让人无法分辨的假音频；研发Adobe的人工智能平台“Sensei”的工程师正在将机器学习应用到各种新型视频、照片和音频编辑工具中。这些项目在起源及目的方面是截然不同的，但是有一个共同点：它们生成的人工场景和声音与现实世界的真实视频惊人地相似。与人工智能生成的媒体的早期实验不同，上述人工场景及声音看起来、听起来都非常真实。

这一转变背后的技术将很快推动我们进入新的创意领域，提升当代艺术家的能力，并将业余爱好者的能力提升到经验丰富的专业人士的水平。我们将对创造力进行重新定义——扩展到包含机器的输出产物。但这种繁荣也会有黑暗的一面。一些人工智能生成的内容将被用于使坏，从而引发人们的恐惧——机器学习算法可能被用来制造大量假新闻。过去关于图像是否被篡改过的争论将会让位于新的争论——关于各种照片、音频及视频内容的真实性。

未来将是一个充斥着人工智能生成内容的世界，一个典型的乌托邦，同时也是一个敌托邦。它混乱而美丽，而我们已经置身其中了。

目前有两种方法可以制作类似真实世界的音频或视频。第一种是用相机和麦克风即时记录下某个时刻，比如人类的首次登月。第二种是利用各种资源，通常以高昂的代价来制造一个摹本。因此，如果登月是一个骗局，那么一个有经验的电影制作团队就不得不小心翼翼地为尼尔·阿姆斯特朗（Neil Armstrong）的月球之旅进行筹划安排。如今机器学习算法则提供了第三种方法，使得任何只有少量技术的人都能够将现有内容重新组合，生成新的材料。

刚开始，深度学习生成的内容并不适合于超级现实主义。例如，谷歌于2015年发布的“深度梦想”（Deep Dreams）是利用深度学习来制作迷幻的风景和多眼的怪物。2016年，一款颇受欢迎的名为Prisma的照片编辑程序利用深度学习来加强艺术照片的滤镜效果，例如将快照转化为彼埃特·蒙德里安（Piet Mondrian）或爱德华·蒙克（Edvard Munch）的绘画风格。Prisma背后的技术被称为“风格转移”：采用一张图像的风格（如《呐喊》），将其应用到一张照片上。

如今，上述支持照片风格转化的算法正变得越来越精确，预示着“恐怖谷”（电脑生成的仿真人类通常会引起人们的不安）的终结。与之前不同的是，像“斑马化工具”这样的技术已经开始逐步消除恐怖谷现象。在康奈尔大学的卡维塔·巴拉（Kavita Bala）实验室，深度学习可以为一张照片注入不同的风格，例如将一张沉闷暗淡的某城市的照片注入灯光闪烁的夜间布景——让人们误以为合成的地方是真实存在的。人工智能具有辨别美学特征的潜在能力。受到这一启发，巴拉与他人共同创立了一家名为Grokstyle的公司。比如，你很喜欢一位朋友家沙发上的抱枕，或者一本摊开的杂志吸引了你的注意。你只需要给Grokstyle算法提供一张图像，它会给你提供类似的物品。

巴拉说：“我喜欢这些技术，是因为它们使设计和风格变得全民化。作为一名技术人员，我欣赏美丽和风格，但却无法创造出来。而这项工作就使之成为可能。让他人也能够创造艺术风格，这是一种乐趣。我们在艺术领域没有天赋，并不意味着我们就必须生活在一个沉闷的世界里。”

在Adobe，十几年来机器学习已经成为该公司的创意产品的一部分，但直到最近，人工智能才开始具有变革性。2017年10月，致力于该公司的人工智能平台——Sensei的工程师们，展示了一款名为“Adobe披风”的视频编辑工具，使用户可以从一个视频片段中无缝地移除一个灯柱——这个任务对于一个有经验的编辑来说通常也是非常困难的。另一项名为“投射皮影”的实验，在视频中实时应用了一种艺术风格。例如，它可以将一个人的实时录像呈现为一个健谈的青铜雕像或手绘的卡通。Sensei的实验并非总是转化为商业产品。资深首席科学家、Adobe研究主任乔恩·布兰德（Jon Brandt）说：“基本上，人们可以在网络摄像机或任何摄像机前进行表演然后将其实时转化为动画。”

机器学习使这些任务成为可能，因为与之前的计算机视觉方法相比，它能够更好地分辨表面各部分或前景和背景之间的差异。Sensei工具使艺术家们工作时将精力集中在创造上，而不是原材料。布兰德解释说：“Photoshop在处理像素上做得很好，但是现在人们想要做的是处理由像素代表的内容。”

这是好事情。布兰德认为，当艺术家们不再浪费时间纠结于屏幕上的像素时，他们的工作效率就会提高，或许创造力也会增强。

他说：“我觉得极有可能出现新的艺术形式，对此我很期待也很兴奋。”

但不难看出，这种创造性大爆发可能会带来非常严重的问题。最近，一段伪造的视频使芝加哥大学的一位研究生姚远顺（Yuanshun Yao）开始探究机器学习可能造成的一些危险。他点击播放了一段人工智能生成的、酷似巴拉克·奥巴马（Barack Obama）演讲的视频剪辑之后，不禁开始思考：自己是否可以用文本来做类似的伪造呢？

一篇文章需要近乎完美才能欺骗大多数读者，因此姚远顺首先尝试了容许有错误的文本类型——在Yelp或Amazon这样的开放平台上进行虚假的在线评论。一条评论可能只有几句话，读者并不期待有高水平的写作能力。因此，姚远顺和伙伴们设计了一种神经网络，可以生成类似Yelp网站的短评——每条大约包含5句话。其中有一组评论宣称“这绝对是我们最喜欢的地方！”“我和哥哥一起去的，我们吃了素食意大利面，味道很好。”姚远顺让人们去猜测这些评论是真的还是假的，果不其然，很多人都上当了。

来自市场的虚假评论，每条成本约为10～50美元，姚远顺认为，将来某一天会有一个工程师，故意试图将这个过程自动化，从而降低成本，产生铺天盖地的虚假评论，导致灾难性后果，而这一切只是时间问题。（他还研究了利用神经网络来保护平台不受虚假内容的攻击，并取得了一些成果。）姚远顺说：“据我们所知，目前还没有这样的系统。但是也许在5～10年内，我们会被人工智能生成的东西所包围。”他的下一个目标是生成令人信服的新闻报道。

视频方面的发展可能会更快。达特茅斯大学的教授阿尼·法里德（Hany Farid）是一名检测虚假照片及视频的专家，他担心病毒式内容（指伪造的照片视频）的传播速度过快，而其检测验证过程却相对漫长。法里德想象着，在不久的将来，一段令人信服的伪造视频——特朗普总统下令对朝鲜进行核毁灭的视频——在网络上疯传，引起恐慌，就像一场人工智能时代的世界大战。他说：“我尽量不去做很疯狂的预测，但我认为这并非牵强附会。这是将来可能发生的事情。”

伪造的特朗普演讲视频已经在互联网上流传，这是一家语音合成初创公司Lyrebird的产品——尽管在公司与大众分享的视频剪辑中，特朗普并未把手指放在按钮上为Lyrebird公司点赞。该公司的联合创始人兼首席执行官约瑟·索特洛（Jose Sotelo）认为，这项技术是不可避免的——有了这样的道德准则，他和同事们才会致力于这项技术的研发。同时他认为，目前最好的防御办法是提高人们对机器学习能力范围的认识。索特洛说：“如果你看到一张我在月球上的照片，你可能会认为这或许是某种图像编辑软件合成的。但是如果你听到一段令人信服的音频——你最好的朋友在讲你的坏话，你可能会真的感到担心。这的确是一项新技术，也是一个非常具有挑战性的问题。”

或许没有什么能阻止即将到来的人工智能生成的内容——即使我们想要阻止也是徒劳。最糟糕的情况就是，骗子和政客将利用机器学习算法来生成大量的误导信息。由于社交网络会有选择性地传播最吸引人的内容，这些系统将输出最受欢迎的、可点击的和可分享的内容。

但最好的情况是，由人工智能生成的内容很可能会以多种方式帮助改善人类生活。索特洛的梦想是，将来Lyrebird公司的技术能够让那些由于罹患肌萎缩性侧索硬化症或癌症等疾病已经失去声音的人恢复言语能力。本文伊始谈到的伯克利大学发布的马变成斑马的视频——是在改进自动驾驶汽车的工作中出现的一个意外情况。通常，驾驶软件首先在虚拟环境中进行训练。“斑马化工具”算法旨在缩小虚拟环境与现实世界之间的距离，最终使自动驾驶汽车更加安全。

人工智能是把双刃剑。随着它的不断发展，它会跟人类越来越接近。最终，它将跟人一样具有人性化的一面，既能行善，也能作恶。