文/艾莉森·戈普尼克
人工智能:向4岁孩子学习
文/艾莉森·戈普尼克
四岁儿童都能轻易解决的问题,却会难住最强大的电脑。近年来,通过模仿儿童的学习方式,人工智能再度强势回归。
如果你花很多时间跟小孩子在一起,你一定想知道这些小人儿怎么能学得这么快、这么多。柏拉图以降的哲学家也想知道,但是他们从未找到令人满意的答案。我5岁大的孙子,奥吉(Augie),已经学习了植物、动物和钟表,更不用说恐龙和宇宙飞船了。他还能弄明白别人想要什么,以及他人的想法和感受。他能用这些知识对他看到的和听到的进行分类,并做出新的预测。他最近宣称,在美国自然历史博物馆展出的最新发现的雷龙是植食动物,这意味着雷龙并不是那么可怕。
然而,奥吉从周围环境中接触的一切,不过是撞击视网膜的光子流和耳朵鼓膜附近空气的振动。但是,他那蓝色眼睛后面的神经计算机,却能从这些有限的感官信息开始,最终做出关于植食性雷龙的预测。一个挥之不去的问题就是,电子计算机能做到同样的事情吗?
过去的15年里,计算机科学家和心理学家一直在试图寻找这个问题的答案。老师和家长只需教授些许,儿童就能学会很多知识。尽管机器智能取得了巨大进步,但顶级电脑的学习能力也无法比拟年仅四岁的儿童。
了解儿童大脑如何运作,进而创造出以相同效率运行的数字化版本,将在未来十年继续挑战着计算机科学家。不过,与此同时,他们已经着手将人类的学习方式融入到人工智能的开发当中。
20世纪的50年代和60年代,是人工智能的第一次兴起。但在那之后,科学家对人工智能的追寻沉寂了几十年。然而,在过去的几年里,尤其是机器学习的一些重大进展,让人工智能成了技术界最热门的研究对象。许多乌托邦主义者或末世论者纷纷对这些进展做出预言,要么人类获得永生,要么世界灭亡,不胜其数。
我怀疑,人工智能的发展会引起如此强烈的感受,源于我们内心深处对类人物的恐惧。从中世纪的傀儡,到怪物弗兰肯斯坦,再到电影《机器姬》中性感的机器女郎艾娃(Ava),人类创造的某些东西可能会弥合人与人造物之间的差别,这一想法始终深深地困扰着我们。
但是,计算机真的能像人类一样学习吗?在围绕人工智能的激烈言论当中,有多少真正指出了革命性的变化,又有多少只是夸夸其谈?很难讲清楚,计算机识别出一张猫的照片、一个口语单词或者一个日文字符的具体细节。但是,经过深入考察,机器学习背后的根本方法并非乍看之下那样令人困惑。就像奥吉和我们所有人接收光子流和空气振动一样,对计算机来说,它解决问题的一种方法是从电子图像中的像素和录音中的声音样本开始。然后,计算机会尝试从电子数据中提取一系列模式,用来检测和识别周围环境的其他对象。这就是所谓的“自下而上”策略,这一策略根植于哲学家戴维·休姆(David Hume)、约翰·斯图尔特·密尔(John Stuart Mill)和心理学家伊万·巴甫洛夫(Ivan Pavlov)和斯金纳(B.F.Skinner)等很多人的思想之中。
在20世纪80年代,科学家找到了一种巧妙而实用的方法,让计算机得以应用“自下而上”策略,在数据中寻找有意义的模式。“连接模型”(Connectionist Model),或者说“神经网络”,这些系统的诞生受到了大脑神经元的启发:把视网膜上的光信号,转化为对周围世界的认知。人工神经网络做着相似的事情,它利用类似于生物细胞的互联处理元件,将第一层网络上的初始光信号(像素)逐步在更高层网络上转换成更加抽象的表达,如鼻子或者脸。
得益于深度学习这一新技术,神经网络最近开始复兴。谷歌、脸书和其他科技巨头正在将深度学习技术商业化。计算机日益增长的计算能力(著名的摩尔定律预测计算机的计算能力将以指数增长)也是人工智能系统取得最新成功的部分原因。同样,超大数据集的发展也功不可没。有了更强大的处理能力和更多的可分析数据,神经网络系统就能以超乎想象的方式更加有效地学习。
长久以来,人工智能社区的偏好总是在自下而上和自上而下两种机器学习方法之间摇摆。自上而下的方法是让一个系统根据已知的知识来学习新的东西。柏拉图以及被称为“理性派”哲学家的勒内·笛卡尔,相信学习是自上而下的,这一思想在人工智能的早期发展中发挥了重要作用。在21世纪初期,这些方法以概率模型或贝叶斯模型的形式获得了重生。
像科学家一样,自上而下的系统首先对世界提出抽象而宽泛的假设。如果这些假设是正确的,系统就会预测数据结果。接着,还是跟科学家一样,系统根据这些预测的结果来修正它们的假设。
自下而上的方法可能是最容易理解的,我们先来看看它是怎么工作的。想象一下,你正在尝试让计算机区分电子邮箱中的重要邮件和垃圾邮件。你可能会注意到,垃圾邮件往往具有某些容易辨识的特征:长长的收件人列表、来自尼日利亚或保加利亚的发件地址,以及提到100万美元奖金或者伟哥。问题是,正常邮件也可能有这些特征,而你肯定不想错过升职或学术奖项的通知。
如果你把足够多的垃圾邮件跟正常邮件比较,你或许会发现,只有垃圾邮件具有某些明显的特征组合。比如说,邮件来自尼日利亚,再提到100万美元奖金就意味着邮件有问题。实际上,还可能存在一些更加细微的、更高层次的模式能够用于区分垃圾邮件和有用的邮件。例如那些根本不引人注意的拼写错误和IP地址。如果找出这些模式,你就能够精准地过滤垃圾邮件,又不必担心错过伟哥的发货通知。
自下而上的机器学习可以找出解决这类问题的线索。为了做到这一点,神经网络需要经过一个自我学习的过程。在学习的过程中,它对数据库内标记着“垃圾”或“有用”的上百万封邮件进行评估,并提取出一组辨识特征,用以区分垃圾邮件和其他邮件。
以相似的方式,神经网络还可以评估标注有“猫”“房子”或“剑龙”等互联网图片。通过提取每类图片的共同特征,比如说将所有猫与所有狗区分开来的特征,神经网络就可以识别出包含猫的新图片,即使它从未见过这张图片。
还有一种自下而上策略,叫作“无监督学习”。虽然目前还处于相对初期的发展阶段,但是它可以从没有任何标注的数据集中提取数据模式。它所做的,只是简单地找出物体的特征簇,例如鼻子和眼睛总是在一起构成一张人脸,有别于背景中的树和山。在这些先进的深度学习网络中,识别一个对象是通过将识别任务分解到网络不同的层中来实现的。
2015年,《自然》杂志上的一篇文章展示了自下而上这种方法目前的发展水平。谷歌旗下DeepMind公司的研究人员,组合了两种自下而上的技术:深度学习和增强学习,让计算机能够精通雅达利2600游戏机上的视频游戏。一开始,计算机对游戏一无所知。所以,在初始阶段,它采用随机动作来猜测最佳策略,同时不断接受游戏表现反馈。深度学习帮助系统识别屏幕上元素的特征,而强化学习则会奖励在游戏中获得高分的策略。经过多次游戏以后,计算机已经达到了非常熟练的程度。在一些情况下,计算机的表现甚至超过了人类顶级玩家。也就是说,在人类容易上手的游戏上,计算机已经所向披靡。
人工智能学习大数据集的能力,像数以百万计的Instagram图片、电子邮件或者语音,让一度令人生畏的问题,比如图像识别和语音识别,也有了解决办法。即便如此,我们仍要明白,我的孙子仅仅需要更为有限的数据和训练,就可以轻松识别动物,或者回答口头提问。对四岁儿童来说很容易的问题,交给计算机就变得非常棘手,比学会下棋要难多了。
计算机要学会识别一张带胡须又模糊的脸,往往需要学习数百万张图片,而人类只需要几个例子就能辨识。经过充分训练后,计算机或许能够识别出它从未见过的猫的照片,但它采用的方法跟人类概括的方式还很不一样。正因为计算机独特的推理方式,它难免会犯错,比如没有把一些猫的照片标记出来,或者错误地把一团污点标记为猫照片。人类就绝不会犯这类错误。
近年来,改变人工智能的另一种机器学习方法刚好相反,是自上而下。它假设,人类之所以能够从具体的数据中获得抽象的知识,是因为我们已经知道一些知识,特别是我们的大脑已经能够理解基本的抽象概念。像科学家一样,我们借助这些概念做出关于世界的假设。倘若这些假设是正确的,我们就能预测未来的数据或者事件。这正好与自下而上的人工智能方法相反,后者尝试从原始数据中总结出模式。
为了让大家理解自上而下的学习方法,我还是拿本人亲身经历的垃圾邮件来阐释。有一次,一家名字奇怪的期刊的编辑给我发了一封邮件,提到了我的一篇论文,还建议我写一篇文章来发表。没有尼日利亚,没有伟哥,没有一百万美元,这封邮件没有任何垃圾邮件通常具有的标识。但是,运用我已经知道的知识,并抽象地思考垃圾邮件产生的过程,我判断这封邮件是可疑的。
首先,我知道垃圾邮件发送者试图利用人性的贪婪来骗取钱财。学术界对发论文的贪婪,跟普通人对中百万美元大奖或者拥有更强性能力的贪婪并无二致。我还知道,合法的开放获取期刊开始通过向作者而不是订阅者收费,来承担成本。再有,我的工作跟这个期刊的名称毫不相关。综合这些事实,我得到了一个合理的假设,即这封邮件试图诱骗学者在虚构的刊物上付费“发表”文章。仅仅根据一个案例,我就能得出这样的结论。并且,我还能通过搜索引擎查验期刊编辑的真实身份,进一步验证我的假设。
计算机科学家把这一推理过程称为“生成模型”,它能够理解一些抽象概念,如贪婪和欺骗。它还能描述假设产生的过程,即得出这可能是一封垃圾邮件结论的推理过程。这一模型让我明白了这类垃圾邮件的诈骗方式,它还能让我联想到其他形式的垃圾邮件,即使我从未曾遇到或听说过它们。当我收到这个期刊的邮件时,正是这个模型让我一步步反推,进而确定它就是垃圾邮件。
20世纪50年代到60年代,生成模型在第一次人工智能和认知科学浪潮中扮演着至关重要的角色。但是它们也有局限性。首先,一些现象在原则上可以被多种不同的假设解释。在我的例子里,尽管不太可能,这封邮件有可能真的合法。因此,生成模型必须包含概率,这是该方法近来最重要的发展。其次,构成生成模型的基本概念从何而来往往是不清楚的。像笛卡尔和乔姆斯基(Chomsky)这样的思想家认为,这些基本概念是与生俱来的。但是,人们来到这个世界时,真的就知道贪婪和欺骗是如何产生诈骗的吗?
贝叶斯模型,自上而下方法的重要代表,试图同时解决上述两个问题。它以18世纪统计学家和哲学家托马斯·贝叶斯命名,将生成模型与运用贝叶斯推理技术的概率理论结合起来。一个概率生成模型可以告诉你,看到一种特定的数据模式或一个特定假设为真的可能性有多大。如果这是一封垃圾邮件,它就有可能会激起读者的贪欲,但一封能诱发贪欲的邮件并不一定就是垃圾邮件。贝叶斯模型将合理假设的知识同现有的数据结合起来,让你能够精确计算一封邮件是合法还是垃圾的可能性。
与自下而上相比,自上而下更符合儿童的学习方式。这就是为什么,在过去的15年里,我和同事在儿童发展研究工作中使用贝叶斯模型。我的实验室和其他研究人员已经使用这些技术,来模拟儿童如何学习因果关系,预测青少年如何以及何时改变对错误观点的看法,比如恶心可能会导致胃疼这一观点。
贝叶斯模型还是教机器像人一样学习的好方法。2015年,麻省理工学院的乔舒亚·特南鲍姆(Joshua Tenenbaum,我跟他时有合作)和纽约大学的布伦登·拉克(Brenden Lake)以及他们的同事在《科学》杂志上联合发表了一篇论文。他们设计的人工智能系统,能够识别陌生的手写字符。这一任务对人来说很简单,但对计算机而言却格外困难。
想想你自己的识字技巧:即使你从未见过卷轴上的某个日文字符,你也应该能够分辨出,它与其他卷轴上的另一个字符是否相同。你大概还能把它写出来,甚至设计一个假的日文字符,并且你知道日文看起来跟韩文或者俄罗斯文有很大不同。这些就是特南鲍姆团队用软件实现的功能。
在自下而上的方法中,计算机需要学习几千个字符样本,从中发现模式,并用来识别新的字符。与之相反,贝叶斯模型程序让计算机掌握如何书写字符,即一个笔画可以向左,也可以向右。当软件写完一个字符,它就继续写下一个。
当程序模型看到一个给定字符时,它会推断书写字符的笔画顺序,进而生成一组相似的笔画。这一做法,与我推断垃圾邮件的一系列步骤是相同的。跟判断邮件是否与营销欺骗有关不同,特南鲍姆的模型需要猜测某一笔画能否得到想要书写的字符。在相同的数据上运行,自上而下程序比深度学习更加有效,而且行为表现与人类非常相像。
作为两种领先的机器学习方法,自下而上和自上而下,其优势和劣势正好是互补的。使用自下而上方法,计算机一开始无需对猫有任何了解,但需要大量数据。而贝叶斯系统只需少量样本即可学习,它的泛化能力也更好。但是,自上而下方法需要大量的前期工作才能生成正确的假设集合。并且,这两类系统的设计者可能会遇到相同的难题,即两种方法都只能解决相对狭窄且定义明确的问题,例如识别手写字符、猫,或者玩雅达利游戏。
儿童就没有这些限制。发展心理学家发现,儿童以某种方式结合了两种方法的优点,并且走得更远。奥吉只需要一两个例子就能学会,这是自上而下系统的做法。但有的时候,他也能根据已有信息产生新的想法,像自下而上系统那样,而这些概念一开始并不存在。
实际上,奥吉能够做的还有更多。他可以立即认出猫,区分字母,而且他还能做出令人惊喜、富有创造力的论断,远远超出了他的经验和背景知识。最近,他宣称如果一个大人想要变回小孩,那么他就不能吃任何健康蔬菜,因为吃这些蔬菜让小孩子长大成人。我们根本不知道这种创造性推理是如何出现的。
当听到人工智能已经是现实威胁的言论时,我们应当回想人类心灵的神秘力量。人工智能和机器学习听起来可怕,并且在某些方面,它们也确实如此。军方正在研究用人工智能系统控制武器的方法。
但是,跟人工智能相比,人性的自然愚蠢(natural stupidity)会造成更大的浩劫。因此,人类需要更加聪明地规范新技术。摩尔定律的影响力是巨大的:即便计算的进步来自于数据和计算能力的增长,而不是源于我们对智慧的理解发生了革命性改变,它们仍将产生重大且实际的影响。但是,我们没理由相信一个新的技术怪物会进入这个世界。