视觉能力是人工智能进化、拥有智能的核心 计算机视觉下一步关键问题或在具身人工智能、社会智能等领域

2022-09-22 09:45
海外星云 2022年17期
关键词:北极星对象机器

计算机视觉是人工智能研究的基础领域之一,也为深度学习等方面的巨大进步做出了贡献。

斯坦福大学计算机科学系教授李飞飞认为,这些进步几乎都依赖于对“北极星”(指代科学研究的关键问题)的追求。

近日,她发表了一篇题为《寻找计算机视觉“北极星”》的文章,阐述了计算机视觉中对象识别的最新发展观点、ImageNet 数据集的简要历史与相关工作进展。

李飞飞表示,关键问题的提出会推进计算机视觉,甚至整个人工智能领域的发展。

目前,人工智能领域正在快速发展,从垃圾邮件过滤器、个性化零售到自动驾驶等,人工智能的成功实施无处不在。就像阿尔伯特·爱因斯坦所说:“提出一个问题往往比解决一个问题更重要。”

李飞飞团队(前排右二)

但这些实践背后涉及的科学问题或者哪些问题最需要解决可能并不总是显而易见的。一旦制定了某领域的一个基本问题——确定一颗“北极星”,就可以推动该领域跨越式发展。

李飞飞提到,她在计算机视觉上的研究,一直由自己的系列“北极星”所驱动。

视觉能力是智能的核心,正如眼睛的进化是造就包括人类在内的许多不同物种的关键。人类可以使用视觉感知来理解世界,并与它互动。那么,怎么让人工智能去看呢?这里面需要解决许多问题,而对基本问题的选择是计算机视觉科学探索的重要组成部分。

“起初,怎么样让计算机正确识别给定图像中的内容是我们特别想要了解的问题。2000年代初,由于互联网和数码相机的快速发展,数字图像的数量呈爆炸式增长,从而产生了自动对照片集进行编目,并使用户能够搜索这些图像集等需求,而这就需要用到对象识别。”李飞飞在文章中说到。

识别物体需要理解数字图像在视觉世界中意味着什么,计算机无法理解这些概念。对于计算机来说,数字图像只不过是像素的集合,没有任何意义。

教计算机识别物体需要以某种方式让它将每个数字集合连接到一个有意义的概念。

计算机从接触的例子中学习,这是机器学习的本质。具体而言,这意味着只有通过访问大量、多样化、高质量的训练数据,才能在对象识别方面取得重大进展。

因此,李飞飞等人在2009年创建了一个名为Image Net的数据集来实现以下3个设计目标:规模(大量数据)、多样性(丰富多样的对象)和质量(高分辨率、准确标记的对象)。

“专注于这3个目标的过程中,我们已经从一般的‘北极星’(图像识别)转向了更具体的问题表述。”李飞飞说。

据了解,ImageNet包括上千万张标记图像,可供机器学习模型训练。如今,当我们在互联网上搜索图像、根据智能手机里的人脸自动对照片进行分组时,都会使用与ImageNet相关的算法。

此外,研究人员还将ImageNet开源,并免费供人使用。同时,他们还设立了Image Net大规模视觉识别挑战赛(简称ImageNet挑战赛)。

值得一提的是,在2012年ImageNet挑战赛上,一个团队首次将卷积神经网络(一种受人脑工作方式启发的算法)应用于对象识别,识别图像的准确率比当时第二名高出41%。在2015年,这些机器识别图像的准确率达到97.3%,超越了人类的识别能力(准确率约为95%)。

尽管神经网络作为机器学习的方法已经存在了几十年,但它直到当年的ImageNet挑战赛才被广泛使用,在某一年中,几乎每篇人工智能论文都是关于神经网络的。像谷歌和Meta(原Facebook)这样的大型科技公司都在部署基于神经网络的技术。

然后,对象识别与计算机视觉中的其他任务,如对象检测和活动识别等之间存在重要的相似之处。

这种相似性意味着计算机不需要从头开始处理新任务。从理论上讲,计算机应该能够利用这些相似性,应用它从一项任务中学到的知识来执行一项稍微不同的任务。对于计算机和人类来说,这种将知识从一个任务推广到类似任务的过程被称为迁移学习。例如,人学会了法语,再学习西班牙语就会相对容易一点。事实上,能够发现任务之间的相似之处,并利用这种共享的知识来帮助我们学习新任务,是人类智能的标志之一。

计算机进行迁移学习的一种方法是通过预训练。即在给机器学习模型一个新的挑战之前,首先使用已有的有效数据训练它做类似的事情。如今,几乎每种计算机视觉方法都使用在ImageNet上预先训练的模型。对象检测是将ImageNet数据应用于对象识别以外用途的第一次尝试。

计算机视觉(或视觉智能)还有着更为广泛的应用,例如,医生可以用计算机视觉来帮他们诊断和治疗患者;用机器学习通过分析大量卫星图像可评估作物产量、环境和气候变化等;科学家在机器的帮助下,可以发现新的物种、更好的材料和未知的边界。

最后,在计算机视觉领域,下一步的“北极星”还有哪些?

李飞飞表示,其中最大的一个是在具身人工智能领域(指具有身体的人工智能),包括用于导航、操作等任务的类人机器人和在太空中移动的有形和智能机器、机器人吸尘器、工厂里的机器人手臂、自动驾驶汽车等。

她还谈到,“还有一个是视觉推理。比如,在2D场景下对3D关系的理解。要人工智能执行将饭桌上的水杯移动到盘子右侧这样的简单任务也需要视觉推理。除此之外,理解人类的社会关系和意图更具复杂性,基本的社会智能是另一个关键问题。例如,如果一个女人抱着一个小女孩在她的腿上,人们很容易猜到这两个人可能是母女,但计算机还很难判断这类情况。”

猜你喜欢
北极星对象机器
机器狗
机器狗
晒晒全国优秀县委书记拟推荐对象
北极星的位置是固定不动的吗?
攻略对象的心思好难猜
图说车事
南极星和北极星
神奇的独眼机器
个性签名
北极星断想