人工智能时代，常识还重要吗？

2024-04-22 12:03:17格尔德·吉仁泽

中欧商业评论 2024年1期

格尔德·吉仁泽

人脑是一个奇迹，拥有近1 000亿个神经元和100万亿个连接，在数亿年的进化中不断微调。与当代计算机技术相比，人脑的能效也很高。超级计算机沃森在《危险边缘》节目中耗能巨大，而它的两个人类竞争对手的大脑各消耗了20瓦——相当于一个昏暗的灯泡。大脑的主要能量来源是葡萄糖。沃森还需要大量的空调设备，而在一年中最热的日子里，它的竞争对手只需要一个手持式风扇就可以了。

常识的齿轮

人类智慧的进化是为了应对不确定性。人类为了在不确定的世界中取得成功而进化出的心理技能中，有四种最为突出。

一是因果思维。思考的能力很早就形成了。孩子们不断地问“为什么”，他们想知道为什么天是蓝的，为什么有些人有钱，为什么要吃蔬菜。孩子们提出的问题很多，有些问题父母回答不了。通过提问和思考，孩子们建立了世界的因果模型。对原因而不是单纯的联想感到好奇是人类高智商的特征，也是科学的标志。因果思维既是一种力量，也是一种迷信的来源，就像相信交叉手指会给你带来好运一样。

二是心理直觉。儿童在生命的最初几年会发展出一种心理直觉。他们“知道”其他人有感情和意图，他们可以从另一个人的角度思考。特殊的大脑回路似乎专门用于监控其他人的知识、想法和信仰。缺乏心理直觉是孤独症的标志。

三是物理直觉。同样，孩子们会形成一种物理直觉来理解时间和空间的基础知识。例如，他们知道一个固体不能穿过另一个固体，物体会随着时间的推移而持续存在，而且时间不能逆转。

四是社交直觉。孩子超过三岁时，他们被鼓励遵循群体规范（合作和竞争）并学会遵循和捍卫道德标准。

笔者将这些技能的总和称为“常识”。“常识是在生物大脑中实现的关于人类世界和物理世界的共享知识。常识只需要一定的经验。它源于遗传倾向以及个人和社会学习（例如知道世界是三维的，或者一个人不应该伤害他人的感情）。”

常识可以通过直觉或深思熟虑的判断来实现。例如，大多数人可以准确分辨出真诚的微笑和仅仅出于礼貌的微笑，但无法解释是怎么做到的。这就是直觉。然而，当一个人了解到，在真诚的微笑中，嘴和眉毛周围的肌肉都会活动，而在礼貌的微笑中，只有嘴巴周围的肌肉会活动时，这种洞察力就可以使大脑作出有意识的判断。直觉和判断不是相反的两极，而是基于相同的过程，即相同的视觉线索。

对于从事人工智能开发的人来说，常识是一个巨大的挑战。即使是对于由文字和图片代表的社会和物理世界中的物体的基本理解也是如此。我们还没有通过规则或通过创建能够学习常识的深度神经网络将常识编入计算机程序中。感觉运动技能是另一大挑战。尽管人工智能可以在国际象棋上击败人类，但无法将棋盘从架子上拿下来，摆放好棋子。目前仍然很难制造出像小提琴手一样可以灵活移动手指的机器人，或者像人类一样可以完成所有家务的管家机器人。在缺乏这些技能的情况下，解决方案之一是重新设计我们的生活空间以适应人工智能。

计算机在以下方面有着出色表现：一是快速计算，快速计算是搜索引擎和国际象棋计算机的命脉；二是在大数据中寻找关联，计算速度的提高也使得搜索大型变量集之间的关联成为可能，三是检测图像或声学信息中的模式，算法可以检测图像中的模式，比如基因组和天文观测，这些都是人眼很难发现的。

然而，快速计算能力本身既不能产生因果思维，也不能产生心理直觉、物理直觉或社交直觉。我们看一些具体例子，人类智慧和机器智能之间的差异就变得更加清晰。

语言翻译

在将文本从一种语言转换为另一种语言时，译者需要在理解源语言的同时更好地掌握目标语言，以便表述习语和反讽。这就是为什么专业翻译人员通常会将母语作为译入语。制造翻译机器的最佳方法是什么？如果你遵循心理人工智能程序，那么你会将专业译者和语言学家聚集在一个房间里，试着把他们的直觉和判断转换成可以编入软件中的规则。但这本身并不十分有效。语言不是一个定义明确的规则系统：单词不仅有一个含义，而是有多个含义，正确的含义不能简单地在字典中查找，而必须从上下文和对说话者的了解中推断出来。同样，语法规则也不是绝对的，而是经常被打破的。另一种选择是忘掉人工翻译之美，聘请软件工程师，利用强大的计算能力来分析数十亿页译本中单词和句子之间的统计关联。规则和统计始终是关于如何制造翻译机器的两个主要思想。

前沿计算机翻译系统的最大优势在于数量和速度。好的系统可以在几分钟内翻译一百多种语言的文本，速度惊人，出色的多语言翻译超出了人类的能力。相比之下，理解文本和高质量翻译并不是其优势。常识也不是。计算机在翻译时会毫不犹豫地给出“我的金鱼对着狗吠”这样的话。职业译者会被吓一跳，因为他们懂得金鱼不会吠的因果关系。

然而，神经网络甚至不知道单词指代何物，只是将词与词联系起来，而不是将词与想法联系起来。因此，机器翻译既有非常准确的译文，也有令人惊讶的怪诞错误。

缺乏常识是所有翻译系统都存在的严重问题。例如，备受赞誉的翻译系统DeepL 将英语“Pope shot”翻译为德语“Papstschuss”，再将德语“Papstschuss”回译为英语时变成了“Papal shot”。这些系统试图识别需要一起翻译的整个单词序列或整个句子，而不是像过去那样在字典的帮助下逐字翻译。但译文质量也取决于来源：如果互联网上有许多针对特定句子或主题的糟糕翻译，那么DeepL的翻译质量也会很差。尽管现在的翻译软件已发展得相当不错，但这并不意味着它们具备常识。没有理解，再好的翻译系统也是一个白痴学者。

人工智能缺乏常识，这不仅限制了它在翻译方面的應用，也限制了它在自然语言理解方面的应用。人们在给出主张的理由时，其有效性不仅取决于理由，还取决于通常不言而喻的“依据”。例如：

主张：你应该带伞。

原因：正在下雨。

依据：弄湿了不好。

“依据”是人类直觉世界知识的一部分，而机器没有这些直觉。但是，如果像上面那样简化任务并明确提供依据，深度神经网络能否确定主张是否合理？为了测试这种能力，可以使用如上支持主张的依据，也可以使用不支持主张的依据（“弄湿是件好事”）。在一项研究中，谷歌广受好评的神经网络BERT（以《芝麻街》中的完美主义角色命名）对77%的类似问题判断出了是否有依据提出该主张。鉴于没有任何准备的普通人只有3%的准确率，BERT的工作确实出色。

然而，先别着急得出网络已经学会了像人一样理解自然语言的结论，我们应该三思而后行。要做到这一点需要常识和知识——比如雨水会把我们弄湿，雨伞可以保护我们不被淋湿。那么，BERT 究竟学到了什么，才会如此成功？在更深入研究后，该研究的发起者发现了这个神经网络的秘密：在训练和测试该网络的一组数据中，BERT发现当依据中包含“不”时，主张通常是正确的，如上例所示。按照这种方法，它在大多数情况下得到了正确的答案。然而，这种发现相关性的卓越能力与真正抓住论点无关。重新表述依据，删除其中的“不”后，该网络给出正确判断的概率并未高出随机判断。研究小组得出的结论是，神经网络理解语言的惊人表现可以归因于找到虚假线索的能力。

物体识别

当一个小女孩指着一只狗说“狗狗”，指着一只猫说“猫咪”时，她就认出了不同类别的动物。物体识别是人类的一项基本能力。抽象、思考和决策等更高层次的认知能力都离不开它。儿童学习认知一个类别所需的实例数比深度神经网络要少得多。后者需要在监督学习中看成千上万张狗和猫的图片。孩子可能只需要看一次或几次小猫，就能在不同的光照条件下认出猫。如果三岁的孩子在路上看到一辆自行车，并被告知这是一辆自行车，那么从那以后，孩子很可能会认出各式各样的自行车。笔者同事的儿子在两岁时就成了汽车爱好者，可以认出街上的各种宝马汽车，甚至是他以前从未见过的车型。孩子似乎并不是生来就有这种一次性的学习能力，而是在出生后的30个月内习得的。

人类的感知系统具有很强的适应性，可以在不断变化的光照、情景和背景下识别物体。为了应对这种不确定性，大脑使用的不是一条路线，而是多条路线。一条路线被阻塞，它会选择另一条路线。大脑的高度灵活性使其可以根据现有情况而依赖不断变化的线索作出决策，这被称为“替代功能”。大多数生物系统具有这种功能。例如，候鸟飞行数千英里，可以靠星星导航。如果是阴天，它们可能会依赖地标或磁感应。

场景识别

与识别人、物体或状态之间的关系相比，识别物体相对简单。这里的问题是：场景中发生了什么？人类通常借助直觉心理学和直觉物理学来推断答案。算法如何作比较？

让我们看看为生成图像说明而训练的深度神经网络在识别因果关系方面的表现。图 1展示了得克萨斯州好莱坞主题公园的牛仔特技表演。它演绎了一个典型的西部老电影中的暴力场景，一个歹徒被套索拖在马后面，背景是游客正在观看表演。神经网络“看到”了什么？深度神经网络生成的图片说明是“一个在土路上骑马的女人”。深度神经网络识别的对象大多是正确的——马和泥土（很难看到马上是男人，尽管这可以从西部片的标准情节中推断出来）。然而，从图片说明可以看出，深度神经网络并不知道场景中发生了什么。它没有心理直觉，所以无法推断出马背上的人是打算惩罚另一个人，以及该场景是表演的一部分。它也无法理解因果关系，不知道这种惩罚可能是致命的。

不同的想法

人类智慧在于表现世界，建立因果模型，并将意图赋予其他生物。为此，人们会将图片与实物区分开来，比如知道图片上的人不是真人，尽管两者有时会引发相似的情绪。相比之下，深度神经网络学习将图像与标签或标题相关联，但不知道图像指的是现实世界中的某个人或物体。AlphaGo及其接替产品比人类冠军下棋下得更好，却不知道它们在下围棋，而Siri和Alexa等数字助理也不知道什么是餐厅。它们不知道这些有关系吗？

如果你只问数字助理附近有没有最好的意大利餐厅或类似的问题，就没有关系。然而，当系统被允许自动作出关乎生死的决定时，意识是极其重要的，比如军用无人机、机器人士兵和其他致命的自主武器。机器可能知道如何杀人，却不知道它在做什么以及为什么要这样做。更重要的是，这些机器可能会以我们想象不到的方式出错。

提到深度神经网络的表现，笔者首先想到的人是所罗门·舍雷舍夫斯基，他是俄罗斯著名的记忆学家，笔者的《直觉思维》一书的读者都知道他。他的记忆力似乎是无限且持久的。

舍雷舍夫斯基阅读完一页文章后，可以逐字逐句地回忆，正着背和倒着背都可以。但当被要求总结他所读内容的要点时，他或多或少会有点不知所措。他无法判断歧义词，无法处理有多种含义的词和有相同含义的不同词，更不用说隐喻和诗歌了。舍雷舍夫斯基可以准确回忆起一个复杂的数学公式，即使他无法理解（当然，公式是编造的），并且在15年后还记得很清楚。他的思维与象棋大师截然不同，象棋大师也能完美地回忆起复杂的棋局，但前提是棋局有意义，而不是随意配置的。舍雷舍夫斯基努力从琐碎的信息中提取出重要的东西，并在抽象的层面进行推理。

进化本可以给我们所有人完美的记忆力，但代价高昂，舍雷舍夫斯基就是明證，他不会遗忘。尽管他强大的记忆力令人羡慕，但他被无关的细节分散了注意力，这与深度神经网络被添加到手写数字中的无关像素或被人们T恤衫上的色块分散注意力不同。他可能是最接近神经网络的人类，在存储和处理大数据方面非常出色，但很难理解这一切的真正含义。