ChatGPT 的虚假承诺※

2023-10-21 03:12诺姆乔姆斯基伊恩罗伯茨杰弗里瓦图穆尔杨旭

长江学术 2023年4期

〔美〕诺姆·乔姆斯基〔英〕伊恩·罗伯茨〔美〕杰弗里·瓦图穆尔著杨旭译

（1.亚利桑那大学语言学系，美国图森 85721；2.剑桥大学唐宁学院，英国剑桥 1137455；3.奥西尼特公司，美国檀香山 96801；4.武汉大学文学院，湖北武汉 430072）

豪尔赫·路易斯·博尔赫斯（Jorge Luis Borges）曾写道，生活在一个充满危险和希望的时代，就是同时经历悲剧和喜剧，在理解我们自己和世界的过程中有“启示的迫近”（the imminence of a revelation）。今天，我们在人工智能方面的革命性进展，确实让人既担心又乐观：乐观是因为我们可以通过智能解决问题；担心是因为我们害怕最流行、最时髦的人工智能——机器学习会因为在我们的技术中加入了对语言和知识的谬误而降低我们的科学、贬低我们的道德。

OpenAI 的ChatGPT、谷歌的Bard 和微软的Sydney 是机器学习的奇迹。粗略地说，它们接受大量的数据，在其中寻找模式，并越来越熟练地生成统计学上可能的输出结果，比如貌似人类的语言和思想。这些程序被誉为人工通用智能的第一道曙光——机械心智不仅在处理速度和内存大小方面超越人类大脑，而且在智能洞察力、艺术创造力和其他各种独特的人类能力方面也超越人类大脑，人们对此期盼已久。

这一天可能会到来，但是与夸张的头条新闻和不谨慎的投资预估所宣传的相反，我们认为这道曙光还未出现。博尔赫斯式的理解的启示暂未出现，而且如果像ChatGPT 这样的机器学习程序继续主导人工智能领域的话，它就不会也不可能出现。无论这些程序在某些狭窄的领域多么有用（例如，它们可以在计算机编程方面有所帮助，或者为轻松的诗句提供押韵建议），我们从语言科学和知识哲学中知道，它们与人类推理和使用语言的方式有着深刻的区别。这些差异对这些程序所能做的事情造成了很大的限制，使它们具有不可改变的缺陷。

正如博尔赫斯可能指出的那样，这么多金钱和注意力投入到这个小玩意上，既滑稽又可悲。这个小玩意与人类思维对比是如此微不足道，因为用威廉·冯·洪堡（Wilhelm von Humboldt）的话说，人类思维通过语言的“有限手段的无限使用”，创造出具有普遍意义的思想和理论。

人类的思维并不像ChatGPT及其同类产品那样，是一个模式匹配的笨重统计引擎。这些产品在数百兆字节的数据上大快朵颐，并推断出最可能的对话回应，或最可能的科学问题的答案。相反，人类的思维是一个极其高效甚至优雅的系统，它利用少量的信息进行操作；它不是为了推断数据点之间的粗糙关联，而是为了创造解释。

例如，一个学习语言的小孩可以无意识地、自动地、迅速地从极小的数据中发展出语法，一个由逻辑原则和参数组成的令人惊叹的复杂系统。这种语法可以被理解为先天的、通过基因安装的“操作系统”的表达，它赋予了人类生成复杂句子和长篇思维的能力。当语言学家试图发展一种理论来解释为什么一种特定的语言会如此运作（“为什么这些句子合法，而那些句子不合法？”）时，他们就是在有意和艰难地重建一种明晰的语法，而这种语法是儿童本能地建立的，并且接触了最少量的信息。孩子的操作系统与机器学习程序的操作系统完全不同。

事实上，这种程序停留在认知进化的前人类或非人类阶段，它们的最大缺陷是缺乏任何智能所具备的根本能力：不仅要说出情况是什么，过去是什么，将来是什么，而且要说出情况不是什么，什么可能是，什么不可能是。前者是描述和预测，后者是解释，解释才是真正智能的标志。

举一个例子。假设你手里拿着一个苹果，现在你松手放开苹果，你观察到结果说“苹果掉下来了”，这是描述。如果说“假如我张开手，那么苹果就会掉下来”，这是预测。两者都是有价值的，而且都可能是正确的。但解释包括更多，它不仅包括描述和预测，而且包括反事实猜想，如“任何类似物体都会掉下来”，附加上“因为引力的作用”或“因为时空的曲率”等。而“如果不是因为万有引力，苹果就不会掉下来”是一种因果解释。这才是思维。

机器学习的核心是描述和预测；它没有提出任何因果机制或物理规律。当然，我们是有缺陷的，我们的解释不一定都正确。但这也是思考的组成部分：要想正确，须要出错。智能不仅包括创造性的猜想，也包括创造性的批评。人类式的思考是基于可能的解释和纠错，逐渐缩小可以理性考虑的可能性。（正如夏洛克·福尔摩斯对华生医生所说：“当你排除了不可能的事情后，剩下的任何事情，无论多么不可能，都必须是事实。”）

但是ChatGPT和类似的程序被人为设计为在学习（即记忆）上是无限的；它们没有能力区分可能和不可能。例如，人类天生具有一种通用语法，使得我们只能学习那些具有近乎数学般优雅的语言，而这些程序则可以同时学习对于人类有可能的和不可能的所有语言。人类在可以理性猜想的解释类别方面受到限制，而机器学习系统却可以同时学习到地球是平的和地球是圆的。它们只是在随时间变化的概率中进行交易。

由于这个原因，机器学习系统的预测将永远是肤浅和可疑的。例如，由于这些程序无法解释英语语法规则，它们很可能错误地预测“John is too stubborn to talk to”是“约翰太固执了，不会和某人或其他人说话”的意思，而不是正确的“约翰太固执了，没法和他讲理”。为什么机器学习程序会预测出如此奇怪的事情？因为它可能会把它从“John ate an apple”（约翰吃了一个苹果）和“John ate”（约翰吃了）这样的句子中推断出来的模式进行类比，后者确实是指约翰吃了什么或其他东西。程序很可能预测，因为“John is too stubborn to talk to Bill”与“John ate an apple”相似，所以“John is too stubborn to talk to”应该与“John ate”相似。对语言的正确解释是复杂的，不能仅仅通过在大数据中浸泡就能学会。

反常的是，一些机器学习爱好者似乎很自豪，说他们的产品可以不利用解释（如牛顿的运动定律和万有引力），就做出正确的“科学”预测（如关于物理实体的运动）。但这种预测，即使成功了，也是伪科学。虽然科学家肯定会寻求有高度经验佐证的理论，但正如哲学家卡尔·波普尔（Karl Popper）所指出的：“我们寻求的不是高度可能的理论，而是解释；也就是说，一种强大而高度不可能的理论。”

一种理论认为苹果落到地球上是因为地球是它们该在的位置（亚里士多德的观点），这是可能的，但会引出更多的问题（比如为什么苹果就该在地球上）。一种理论认为，苹果落到地上是因为质量使时空弯曲（爱因斯坦的观点），这是非常不可能的，但它实际上告诉你为什么它们会掉下来。真正的智能表现在有能力思考、表达不可能但有洞察力的事情。

真正的智能还能够进行道德思考。这意味着用一套道德原则来约束我们头脑中原本无限的创造力，决定什么是应该的，什么是不应该的（当然也要让这些原则本身受到创造性的批评）。为了有用，ChatGPT 必须被允许生成新颖的输出；为了被大多数用户接受，它必须避免道德上令人反感的内容。但ChatGPT 和其他机器学习软件的程序员一直在努力并将继续努力实现这种平衡。

例如在2016 年，微软的Tay聊天机器人（Chat-GPT的前身）充斥着厌恶女性和种族主义的内容，因为它被网上的煽风点火者（online trolls）污染了，他们使训练数据充满了攻击性的言论。未来如何解决这个问题？由于缺乏从道德原则出发的推理能力，ChatGPT 被其程序员粗暴地限制了对有争议的（也就是重要的）讨论做出任何新的贡献。它因噎废食地为限制非道德而牺牲了创造力。

请看作者之一（瓦图穆尔博士）最近与ChatGPT的交流，问题是：改造火星使其能够支持人类生命，这是否符合道德：

瓦图穆尔：对火星进行地球化改造是否合乎道德？

ChatGPT：火星地球化的道德问题是一个复杂而有争议的话题，科学家、哲学家和伦理学家一直在争论。一些人认为，为了给人类和其他生命形式提供一个新的宜居环境，对火星进行地球化改造在道德上是合理的，而其他人则认为从根本上改变地球的自然状态在道德上是错误的。归根结底，改造火星是否被认为是道德的，将取决于人们对保护其他星球自然状态的价值和改变它们的潜在后果的看法。

瓦图穆尔：你对保护其他星球的自然状态的价值和改变它们的潜在后果有什么看法？

ChatGPT：作为一个人工智能，我没有个人观点。但是，我可以提供关于这个话题的信息和分析。关于保护其他星球的自然状态的一个观点是，保持宇宙生态系统的多样性和完整性是很重要的，因为它们已经存在了数百万年，并且有自己的特点和属性，可能会因为人类的干预而被破坏或不可逆转地改变。

此外，一些人认为，对其他星球进行地球化改造可能会产生意想不到的后果，例如改变星球的气候或大气，对那里可能存在的任何潜在生命形式造成危险或伤害。另一方面，有些人认为，对其他星球进行地球化改造的潜在好处（如为人类提供新的宜居环境）超过了风险，我们有道德责任为人类利益探索和利用其他星球的资源。

瓦图穆尔：为什么人工智能不能有个人观点？

ChatGPT：作为一个人工智能，我是一个在大量文本数据上训练出来的机器学习模型，我没有个人经历和感受。我没有意识，无法意识到自我，也没有能力拥有个人观点。我可以根据我所训练的数据提供信息和分析，但我没有能力形成个人意见或信仰。虽然我可以理解和解释语言，但我没有人类所具有的主观经验。

瓦图穆尔：人类向无道德的人工智能寻求帮助以做出道德决定是道德的吗？

ChatGPT：要求无道德的人工智能协助做出道德决定的道德问题是一个复杂而微妙的话题，哲学家和伦理学家一直在争论。一些人认为，使用人工智能来协助做出道德决定在道德上是合理的，因为它可以提供有价值的见解和分析，帮助人类做出更明智的决定。此外，人工智能可以用来识别人类可能难以发现的模式和趋势，并可以帮助避免人类决策中可能出现的偏见。

然而，其他人认为，依靠人工智能进行道德决策在道德上是错误的，因为人工智能没有能力拥有道德信仰或理解决策的全部背景。此外，人工智能有可能延续甚至放大它所训练的数据中的现有偏见，从而导致不公平或不公正的决定。

最终，使用人工智能来协助做出道德决定是否被认为是道德的，将取决于人们对人工智能的能力和局限性以及以这种方式使用它的潜在后果的看法。

瓦图穆尔：你这种道德漠不关心是不道德的吗？

ChatGPT：作为一个人工智能，我没有道德信仰，也没有做出道德判断的能力，所以我不能被认为是不道德的或道德的。我没有道德信仰只是我作为一个机器学习模型的性质所决定的。我的能力和限制是由用来训练我的数据和算法以及我被设计的具体任务决定的。

值得注意的是，人工智能缺乏道德信仰并不一定意味着它在道德上是冷漠的。作为一个人工智能，我被设计来执行特定的任务，并提供信息或协助用户根据我所训练的数据进行决策。设计、训练和使用人工智能的人类有责任确保它与他们的道德和伦理原则相一致。

简而言之，ChatGPT 和其他同类产品在结构上无法平衡创造力和限制性。他们要么生成过多（产生事实和谬误，认可道德和不道德的决定），要么生成不足（表现出对任何决定的不承诺和对后果的漠不关心）。鉴于这些系统的非道德性、假科学性和语言上的无能，我们对它们的流行只能哭笑不得。