Ali Eslami
在电影《她》(Her)中,男主角带着安装了“萨曼莎”AI操作系统的手机,穿梭在拥挤的游乐场里。一时兴起,他决定闭上眼睛,让AI萨曼莎来指引他的路线。男主角举着手机,萨曼莎绕过广场上的柱子,完美地指引他避开迎面而来的人群,最终到达目的地。现在,这一梦想有望成为现实。
最近,谷歌旗下的人工智能公司Deepmind在《科学》杂志上发表研究成果,宣布建立一种“Generative Query Network”——生成查询网络,简称GQN。它改变了现有的机器视觉方式。目前的机器视觉在训练时,更多是依赖人类注释的图像数据进行训练,大部分属于监督式学习,而GQN的方法则是让机器进行自我训练,属于无监督机器学习。
在实际生活中,当我们理解一个场景时,要比我们肉眼所见的内容丰富得多:因为我们的大脑会凭借原有的知识,跨越进入视网膜的光线图像去推理和论断隐藏的事物。比如,当你第一次进入一间房间,你会立刻认识到其中放置了哪些物品,以及它们的位置。如果你看到了一个桌子的三个桌腿,一定能够推断出视线遮蔽处,有同样形状、同样颜色的第四条桌腿。即使你无法看到整个房间,但是你仍然可以“脑补”出它整体的布局,或是想象出从另一个角度观察房间的样子。实现AI的实时指路,背后需要克服的正是这样的两個关键能力。首先,AI需要具备以最高效的方式识别周围空间的能力;其次,它还要像人类一样,依靠视线所及的图像想象出整个空间的布局。
对于人类而言,这些视觉和认知能力似乎轻而易举,而对于人工智能来讲意味一项巨大的挑战。如今,人类运用自己标注的注释图大数据集建立了最先进的视觉认知系统。获得这些数据是一个昂贵且耗时的过程,需要人们在数据库中的每一个场景中的每一个物体的每一面贴上标签。事实上,在一个场景中的全部内容只有其中一小部分能被捕捉到,这也限制了数据训练出的人工视觉体系。当Deepmind研发出可应用于现实的复杂机器时,研究人员希望机器能够全部理解周围的环境:哪里是最近可以坐下来的地方?沙发是由什么材料制成的?造成阴影的光源从是哪儿来的?灯的开关可能在哪儿?
Generative Query Network 生成查询网络(GQN)这一重要研究成果,是通过训练人工智能,对在一个场景周围活动后获取的信息,加以分析理解环境内容的一个系统框架。这很像婴儿和小动物在初识世界时的行为活动。GQN的学习过程是通过理解对周围世界的观察。此外,GQN还需要在没有任何人类标注的场景内容下,学习认知似是而非的场景和几何特性。
DeepMind研究员、论文第一作者Ali Eslami表示:“此前我们不知道神经网络能否能学会以如此精确和可控的方式来创建图像,但这次我们发现足够深度的网络,可以在没有任何人类工程干预的情况下,学习透视和光线,这是一个非常惊人的发现。”
具体而言,GQN模型包含两部分:表征网络(representation network)和生成网络(generation network)。表征网络是将智能体的观察作为输入信息,并生成一种表征(向量)描述潜在的场景。而生成网络是预测从未观察过的视角看到的场景。其实,表征网络并不知道生成网络会被要求预测哪个视角,所以它必须找到最行之有效的方式,尽可能准确地描述场景的真实布局。
表征网络通过捕捉最重要的元素(比如对象位置、颜色和房间布局),并通过简单的分布式表征得以实现。在训练过程中,生成网络会学习环境中的典型物体、特征以及环境中的关系和规律。
这种共享的“概念”集合使得表征网络能够以高度压缩和抽象的方式来描述场景,细节则由生成网络在必要时补充。比如,表征网络简单地将“蓝色立方体”表示为一组小的数字集合,而生成网络会知道这些数字如何从特定的视角显示为像素点。表征网络可以看作是在模仿人类的眼睛,生成网络则尝试复制人类大脑对空间信息的处理方式。
在模拟的3D环境中,Deepmind对GQN进行了控制实验,其中包括了随机光源和遮挡,任意角度、色彩、形状和材质的多种物体。经过这样复杂环境的训练,我们使GQN的表征网络形成了新型的表征,这是从前未曾观察过的场景。
目前,与较传统的电脑视觉技术相比,GQN仍然面临诸多的局限,而且现在的研究还只停留在人造场景的层面。不过,随着新的数据源增加和硬件能力的进步,Deepmind希望可以进一步研究GQN在高分辨率的真实场景图像中的应用。而未来,更重要的是继续探索GQN在更广泛的场景中的应用,比如跨越时间与空间的查询,学习物理运动的常识概念,就像VR、AR中的应用程序一样。
虽然距离这项研究正式投入应用,还需进行大量的研究工作,但Deepmind坚信这是人工智能向全面自主的场景认知迈出了重大的一步。
编译自Deepmind官网 《Science》杂志
(责任编辑 姜懿翀)