曼弗雷德·德沃夏克 鄢俊
在识别图像时,遇到一种彩色的小斑点,人工智能就会出现识别错误。这种斑点很闪亮,内部杂乱无章,像一个至幻至美的棒棒糖。一个来自谷歌公司的研究团队发现,在它面前,计算机仿佛被催眠了一样,失去了自动识别图像的能力。此时,所有图像在计算机面前都被误认为是烤面包机,无论是一堆香蕉、一间浴室,还是德国总理默克尔。
实验表明,彩色小斑点正是靠着这种伎俩蒙混过关。只要它出现在相机捕捉到的图像里,无论在什么位置,都能让计算机不知不觉中邪。为什么会这样?研究人员解释道,对于人工智能识别,这个图案就像一个无法抗拒的诱饵。在这个斑点中,计算机能够非常轻易地识别出一台烤面包机。于是,斑点里的其他图案就变得无关紧要,直接被计算机忽视了。
计算机这么容易被欺骗,这确实让人意想不到。但其实这并非计算机上当受骗的第一例,研究人员早已发现了图像识别的这一奇怪弱点。他们将数码相片的像素做了肉眼几乎不可见的微小调整,计算机就突然把一辆校车识别成了一只鸵鸟。甚至三维打印的物体也出现过类似情况:一只三维打印出来的乌龟看起来惟妙惟肖,却被识别成了一把步枪。一只爱好和平的爬行动物,怎么会变成一把用于射击的武器?然而对此,计算机却丝毫不感到困扰,反而非常坚信自己的判断。
人工智能如何被欺骗?虽然到目前为止,这个问题主要是由相关专家来研究,但操作的方法和手段却越来越能够为普通人所轻易掌握。任何人都可以下载并打印这个具有催眠作用的彩色斑点,再加上一些专业知识,就可以绘制出除烤面包机外其他具有欺骗性的图案,如三轮车、手雷或者金色仓鼠。研究人员相信,互联网很快就能为人工智能计算机调制出种类繁多的致幻剂。对于黑客和恶作剧者来说这极具诱惑力,对于那些倡导反政府监督的人士来说,这也不失为一个良好的对抗手段。比如,将这种图案贴在额头上,就无法被监控摄像机辨认出身份,就像贴了一个隐身符咒一样。可以预见,在未来,监控摄像头会捕捉到许许多多台“烤面包机”在街上示威游行。匹兹堡卡內基·梅隆大学的研究人员已经开发出了一款带有这种图案的可打印眼镜框,人们可以用它掩盖自己的真实身份。也就是说,任何人戴上这个镜框,都能被识别为电影明星拉塞尔·克劳。
这对于人工智能未来的发展绝不是件好事。实际上,在过去这些年,自动图像识别在很多领域都已经发展得很好了。要不是这些奇怪的错误,人工智能几乎已经能与人脑相媲美。出现这种问题的原因与计算机的学习模式有关——它总是按照既定的模板来寻找图像。简单来说,就是每个图像都应该被归入一个相应的 “抽屉”里——所有的乌龟在一个,所有的步枪又在另一个。在识别过程中,人工智能所做的只是猜测。但在每次验证结果后,计算机都能进一步提升它的识别准确度。经过无数次努力,它显然学到了一些东西,最终把大部分乌龟都归入了正确的“抽屉”。
然而,人们很难弄清计算机是如何做出它的判断的。只有一点可以确定:人眼可识别的很重要的特征,人工智能却往往捕捉不到,如圆圆的龟壳以及仿佛长满鱼鳞的龟腿。否则,它也不会把一只爬行动物标注成一把步枪。很显然,它完全没理解自己所看到的事物。这是目前计算机自主学习方面的最大谜团:为什么计算机如此擅长学习,却又如此容易犯错误?研究人员不断寻找计算机的弱点,希望能对此找出一个合理的解释。目前,这已经成为了一个很兴旺的学科。不断有新的“攻击”得到测试,每隔几天都有新的问题被发现。
2013年底,谷歌公司的研究人员宣布,他们对人工智能计算机进行了第一次成功的“攻击”。自那以后,研究人员还相继进行过多次类似的“攻击”。只是这些“攻击”针对的都是数码相片的识别,危害相对较小。然而,研究工作循序渐进,而现实世界却飞速发展。虽然目前这个问题更多的还只是停留在理论层面上,但是很快这些“攻击”也会发生在现实世界中。比如交通标志的篡改,只要有人对停车指示牌稍微做一点手脚,就能让监控电脑误以为是限速标识牌。
此外,研究还表明,不只图像会被弄混和认错,自动语音识别也存在缺陷——有时计算机完全误解了人们所说的话。混杂在语音文本中的干扰信号极其微弱,人耳很难分辨,却能够轻易使计算机上当受骗。这种情况不仅出现在一般录音中,也出现在实时录音中。甚至在音乐里,也隐藏着这些秘密的干扰信号。因此,当一个毫无戒心的音乐爱好者在视频网站上录制一场音乐会时,他的话筒很可能已经悄悄地向室内所有可接收信息的电脑发送了一些不为人知的信息。
人工智能语音识别还有很大的发展空间。像亚马逊的Alexa那样聪明的语音助手已经走入了千家万户,时刻听从着主人的差遣。几乎可以确定,在不久的将来,语音指令将左右我们一半的生活。到那时,如果有人企图使坏,情况就糟糕了。因为他只需要将全智能房屋的灯突然关掉,或者在全家人面前用Alexa的聲音开一个下流的玩笑就能得逞。
人工智能越是深入到人们的日常生活,其容易失误这一缺点就体现得越为明显。为此,无人驾驶的发展引发了诸多争议。汽车供应商博世的一个研究团队发现,理论上讲,即使是主控计算机,也能被刻意干扰。实验中,被干扰的计算机就像昏了头一样,无法辨识在汽车前面经过的行人。
到目前为止,针对这样的“攻击”能采取的措施很少。用已知的迷惑性图案和干扰杂音来训练人工智能,使它不那么容易掉入陷阱,这有一定的作用。但是,这样的训练并不能担保它不受未知种类的“攻击”。在出现新的突破之前,凡是在安全至上的地方,自主学习的人工智能计算机都将会是一个难以估算的风险点。
对于人工智能的发展而言,这是一个发人深省的问题。很多研究人员都曾希望他们的人工智能计算机会随着时间的推移而变得越来越聪明。一台能够在无数张照片中正确识别出桌子的计算机,久而久之就该知道构成一张桌子的要素是什么——一个有底座的平面,常常被几把椅子所环绕,上面偶尔放着几把早餐餐具、几个家庭作业本或者一个棋盘。现在,这个希望几乎已经破灭。计算机无法理解所有桌子的共性是什么,也无法理解桌子的用途。把一个斑点图案打印出来放在桌子上,就足以让计算机把桌子认成一台烤面包机了。
实际上真正令人惊叹的是,即便人工智能无法理解事物,却仍然能够达到目前的认知水平。
那么,它究竟是如何识别出桌子的呢?针对这个问题,来自蒙特利尔大学的人工智能专家约书亚·本吉奥经研究得出一个结论。照片有一个诡异的特点,同一种类的图像,如车水马龙的街景,即使采取截然不同的方法拍摄,在算法上来说,也存在很多共同之处。也就是说,它们共享一个隐藏的编码。决定这个编码的因素包括:图像表面的颜色怎么分布,其对比度是怎样的,是以光滑的表面还是以内部结构为主。这只是纯粹的统计数据,对人类而言并没有多大意义,但对于人工智能而言,却能提供海量的信息。比如,汽车的图像与瀑布、摩天大楼、动物等其他物体的图像有着不同的编码,计算机仅凭这些像数学模型一样的编码,就能够知道一张图片所显示的内容,压根儿不需要“看”。本吉奥在最近的一次实验中证明,人工智能就是用这种数字游戏来完成图像识别的。对于图像所展示的真正内容,它只有一个最基本的概念。这至少在某种程度上解释了为什么人工智能在识别图像时那么容易弄混淆,以及为什么它无法通过自主学习取得真正的进步。
本吉奥认为,“简单的解决办法是不存在的”。只有创立一种新的学习模式,由人类刻意训练人工智能去理解图片的内容,人工智能才会也去学习图片中的物体到底是什么,以及它们在现实世界中是如何互相关联的。到目前为止,它识别图像的过程还只是按图索骥。要实现这个目标,人工智能必须能从抽象概念的层面去理解事物:桌子怎样才算桌子?乌龟怎样才算乌龟?对此,谷歌公司的人工智能研究员弗朗索瓦·乔莱特却持怀疑态度。他认为让人工智能学会理解抽象的事物太难。“这是人工智能最大的问题,”他在推特中这样简短地写道,“没有人知道该怎么办。”
可以预见,与此相关的研究在未来数年还会继续进行下去,并且会更加深入。但与此同时,人工智能也将遇到越来越多的“攻击”。
[译自德国《明镜周刊》]