狗的照片与人工智能

2021-03-03 05:08刘峰

北京纪事 2021年2期

关键词：水管机器出口

刘峰

上世纪90年代，当时互联网的发展状态是这样的：

1994年，我国正式接入了国际互联网。

1997年，网易成立。1998年，搜狐成立。同年11月，腾讯成立。12 月，新浪成立。1999年，阿里巴巴成立。QQ的第一个版本 OICQ发布。 2000年初，百度成立。

从以上的信息中我们可以发现，那些在今天我们耳熟能详的互联网企业，大都成立于1998年这个时间点。

这是因为1998年满足了两个条件：第一个条件，个人电脑在沿海发达城市的普及。第二个条件，拨号上网资费从 1998 年开始大幅下调。这两个条件使互联网这片土壤拥有了足够的肥沃度，具备了滋养企业的条件。如果我们把互联网在国内的发展类比为一部连续剧的话，那么 1998 年就是这部连续剧的第一集。它拉开了互联网之后连续20多年高速增长的序幕。

今天，和1998年的互联网相对应的，是以人工智能为代表的一系列新的技术。

我个人对当下人工智能技术的定义是这样的：人工智能技术是一种通过向机器学习系统输入海量数据的方式，使机器可以处理之前只有人才能够理解的抽象信息，进而使机器可以在更多的场景中代替人的一种工业化技术。

大体上，我们可以把这个定义展开为如下两个关键点：“使机器可以在更多的场景中代替人的一种工业化技术”和“通过向机器学习系统输入海量数据的方式，使机器可以处理之前只有人才能够理解的抽象信息”。

第一个关键点：使机器可以在更多的场景中代替人的一种工业化技术。

我对工业化的理解是“以尽可能让机器取代人为理念推行的标准化”。虽然人类进入工业化时代已经有足足200年的时间了，但机器代替人的水平却依然不高。这是因为在人工智能技术出现之前，机器只能应对规则有限的工作场景，它们无法胜任规则无限的工作场景。

“让机器可以准确地从照片中识别出哪些是狗的照片”，就是一个规则无限的工作场景。

这是因为狗是一种抽象的概念，它是我们人为地定义出来，用来描述带有某些共性特征的一系列生物的集合。在这个世界上，我们几乎不可能找出两只完全一样的狗，它们总会在一些细微的地方存在差异。并且，就算我们只考虑同一只狗的情况，它也可以在不同的姿势、动作、拍摄角度、光源、拍摄背景等条件的作用下，生产出无数张存在差异的照片。这些差异的逻辑是非常复杂的，我们无法通过有限的规则，让机器可以从这些照片中准确地识别出哪些才是狗的照片。

所以，在人工智能技术出现之前，机器大多以人类的辅助工具的身份出现，它们无法脱离人类独立的工作。这使它们始终无法在工业化生产的过程中进一步提高自己的占比。直到人工智能技术的出现。

第二个关键点：通过向机器学习系统输入海量数据的方式，使机器可以处理之前只有人才能够理解的抽象信息。

这个关键点向我们透露了三个重点，它们分别是：“向机器学习系统输入海量数据”，“理解”和“处理”。下面，让我们继续以“让机器可以筛选出狗的照片”为例，来解释一下这三个重点。

请想象存在着一个如上图所示的水管网络。在这个水管网络的左侧是入口，对应着计算机的输入;右侧是出口，对应着计算机的输出。这个水管网络的设计目的是可以从照片中筛选出带狗的照片，所以它的出口只有两个，分别对应着“是狗的照片”和“不是狗的照片” 这两种结果。

这个水管网络是由无数个节点组成的，这些节点通过很多管道彼此连接在一起。水管网络是分层的，每一层是一个竖排，每一个竖排上都分布着很多个节点，每一个节点在被上一层的若干个节点连接的同时，也都连接着下一层的若干个节点。每一个节点上都有很多个開关，这些开关可以控制流入节点的水流会继续流入哪些和该节点相连的下一层的节点。

这个水管网络有一个中央控制系统，它的职责是根据水流的实际情况来调整节点中的开关状态。当我们向这个水管网络输入一张照片时，中央控制系统会把这张照片转换成一股水流，并让它流过自己的无数个节点。最终，中央控制系统会基于节点通过水流之后上报的信息，来判断这张照片是否是一张带狗的照片。如果是，则让它从“是狗的照片”的那个出口流出;如果不是，则让它从“不是狗的照片”的那个出口流出。

一开始，水管网络的中央控制系统是没办法区分有狗的照片和没有狗的照片的。为此，我们需要先向它输入第一批有狗的照片，并明确地告诉中央控制系统：如果它不能让这批照片从“是狗的照片”的那个出口流出来，就需要调整自己每个节点的开关状态，直到所有的照片都会从“是狗的照片”的那个出口流出为止。接着，当中央控制系统可以让我们输入的第一批照片都从“是狗的照片”的那个出口流出来时，我们会再向它输入第二批没有狗的照片，并明确地告诉它：如果它不能在保持第一批照片从“是狗的照片”的那个出口流出来的同时，还能让第二批照片从“不是狗的照片”的那个出口流出来，就需要调整自己的每一个节点的开关状态，直到第一批和第二批的照片可以分别从对应的出口流出来为止。持续地这样做，当我们向中央控制系统输入了足够多张是狗的照片和不是狗的照片，且中央控制系统都可以准确地让这两种照片的数据流从对应的出口流出来时，一个针对“识别带狗的照片”的机器学习系统便训练完成了。

在以上的类比中，水管网络类比的是“神经网络”;第一批和第二批照片则是类比“训练数据集”;让水管网络从无法识别狗的照片到可以准确地让狗照片从“是狗的照片”的那个出口流出来，并让没有狗的照片从“不是狗的照片”的那个出口流出来的过程，类比的是机器学习系统的“训练过程”。机器学习系统便是通过这样的方法，让自己具备了处理之前只有人才能理解的抽象信息的能力。

通过这个例子，我们便可以理解“通过向机器学习系统输入海量数据的方式，使机器可以处理之前只有人才能够理解的抽象信息”这句话的三个重点了。

第一个重点：向机器学习系统输入海量数据。

大数据是人工智能技术得以发挥的基础。如果我们把人工智能技术比喻为发动机的话，那么大数据就是燃料。没有燃料的驱动，再好的发动机也不过是个摆设，没法发挥自己的价值。所以在人工智能时代，数据将变成一种非常重要的资产。它的丰富程度将直接决定人工智能技术的工作表现。

第二个重点：“处理”与“理解”。

水管网络的类比可以让我们明显地感受到机器和人类学习过程的差异。

人类是用抽象思维来理解事物的，这得益于我们拥有极其强大的感知器官。当这些感知器官把外界的信息转换成人脑所擅长的抽象概念时，一个远比机器更复杂的基于抽象概念的推理系统便构建完成了。以“筛选出狗的照片”为例。得益于人类强大的感知能力和抽象推理能力，我们知道什么是“光源”，也知道“光源”会对照片产生哪些影响。我们知道什么是“背景”，也知道如何从一张照片中区分出“主体”和“背景”。我们知道什么是“狗”，并且可以不受狗的姿势、拍摄角度、动作等差异的影响，将它们准确地识别出来。

而机器却完全做不到这一点。机器并不知道人类所能理解的那些概念。在它看来，一张图片就是一堆按顺序排列的不同颜色的点。它并不知道这些带颜色的点组合在一起的东西到底象征着什么。所以，和人类站在整体的角度去理解照片不同，机器只能用数学计算的方式去处理照片。当我们向机器输入训练数据的时候，其实就是在让机器通过暴力计算的方式，来穷举出“可以区分出带狗的照片和不带狗的照片的节点开关组合”。以使这个开关组合可以达到在输入一张带狗的照片时，让水流从“是狗的照片”的那个出口流出;在输入一张不带狗的照片时，让水流从“不是狗的照片”的那个出口流出的效果。也就是说，机器并不“理解”自己在做的到底是一件什么事，它只是在通過暴力计算的方式来模拟人类理解信息时的效果。

站在工业化的角度，我们可以把当下人工智能技术的适用范围表述为：在人工智能技术的支持下，机器将从“可以胜任有限规则的场景”，拓展到“可以胜任所有有明确数学规律”的场景。这一变化极大地拓展了机器可以处理信息的范围，使机器可以处理很多之前只有人才能理解的抽象信息，进而为机器可以在更多的场景中代替人提供了可能。

没有任何证据表明我们可以在可预计的时间内研发出类似电影《终结者》那样，有自我意识的机器。当下的人工智能技术和科幻片中有独立意识的机器人完全是两回事。

由此，不难发现，人工智能技术是一种工业化的技术，它将全面地提高机器在工业化生产中的比重，进而把人类从有明确数学规律的标准化工作中解放出来，进一步推高人类的生产力。因为实体行业会受到物质壁垒的局限，所以人工智能技术大概率会像互联网那样，先在虚拟世界发挥价值，然后再逐步地借助类似移动互联网那样的技术机会向实体行业渗透。

编辑刘颖