2022年初,当泰勒·韦伯尝试GPT-3时,他被OpenAI的大型语言模型所能做的事情惊呆了。这个人工智能模型依靠预测下一个单词来生成大段的文字内容。
虽然是预测式的,但它对韦伯提出的许多抽象问题给出了正确的答案,例如你在智商测试中遇到的那类问题。“我真的对它解决这些问题的能力感到震惊,”他说,“它完全颠覆了我的期待。”
韦伯是美国加州大学洛杉矶分校的心理学家,主要研究人和计算机解决抽象问题的不同方式。他习惯于构建具有特定推理能力的神经网络。但GPT-3似乎自带了推理能力。
7月,韦伯和他的同事在《自然》杂志上发表了一篇论文,他们在论文中描述了GPT-3通过各种测试的能力,这些测试旨在评估使用类比来解决问题(又称为类比推理)。
在其中一些测试中,GPT-3的成绩比一群本科生还要好。韦伯说:“类比是人类推理的核心。我们认为,这是任何类型的机器智能都需要展示的主要能力之一。”
韦伯的研究所展示的只是大型语言模型的一大堆出众能力中的一个。例如,当OpenAI在2023年3月份推出GPT-3的下一代GPT-4时,该公司发布了一份令人瞠目的专业和学术评估成绩单,声称其新的大型语言模型取得了优异成绩,包括几十次高中考试和律师资格考试。OpenAI后来与微软合作,证明GPT-4可以通过部分美国医学执照考试。
多名研究人员声称,大型语言模型可以通过旨在识别人类某些认知能力的测试,从思维链推理(一步一步解决问题)到思维理论(猜测他人的想法)。
这些结果催生了一系列的炒作,宣称人工智能很快将取代教师、医生、记者和律师一类的白领工作。图灵奖得主、“深度学习三巨头”之一的杰弗里·辛顿指出,GPT-4显然有能力将想法串在一起,这是他现在害怕自己帮助创造的技术的原因之一。
但有一个问题是,对于这些结果的真正含义,人们没有达成一致。有些人被这些成绩背后的类人智慧所迷惑,也有人完全不相信。
以色列巴伊兰大学的计算机科学家纳塔利·沙皮亚说:“目前大型语言模型的评估技术有几个关键问题。这造成了一种错觉,使得我们对其能力的认识被夸大了。”
这就是为什么越来越多的研究人员,包括计算机科学家、认知科学家、神经科学家和语言学家,希望彻底改变评估方式,呼吁进行更严格、更详尽的评估。一些人认为,用测试人类的试题去评估机器,这种做法是错误的,应该抛弃。
美国新墨西哥州圣达菲研究所的人工智能研究员米兰尼·米切尔说:“从人工智能诞生之初,人们就一直在对机器进行人类智力测试,比如智商测试等等。这背后的问题是,当你用这些方法测试机器时,它的意义是什么?这与测试人类的意义不同。”
“有很多拟人化的现象正在出现,”她说,“这让我们在思考这些系统以及测试它们时带上了滤镜。”
随着对人工智能技术的希望和担忧达到了前所未有最高水平,我们必须明确知道大型语言模型能做什么和不能做什么。
围绕大型语言模型测试的大多数问题,都可以归结为如何解释结果的问题。
为人类设计的评估,如高中考试和智商测试,在很多方面都遵从了一些预设和假设。当人们得分很高时,就可以放心地假设他们拥有测试所衡量的知识、理解或认知技能。
实际上,这种假设只适用于此。学业考试并不总是反映学生的真实能力。而智商测试衡量的是一组特定的技能,而不是整体智力。这两种评估方式都有利于擅长这类评估的人。
但是,当一个大型语言模型在这样的测试中得分很高时,我们根本不清楚衡量的是什么。是真正理解的证据吗?还是愚蠢的统计游戏?亦或是死记硬背?
Deep Mind高级研究科学家劳拉·威汀格说:“开发测试人类思维的方法有着悠久的历史。由于大型语言模型产生的文本看起来很像人类生成的,人们很容易认为人类思维测试也可以用来评估它们。但事实并非如此:人类思维测试依赖于许多可能不适用于大型语言模型的假设。”
韦伯也意识到了类似的问题。“我有同感,”他说。他指出,尽管GPT-3在的某些测试成绩比本科生好,但在其他测试中却产生了荒谬的结果。例如,它没有通过发展心理学家给小孩子进行的一个关于实物的类比推理测试。
在这项测试中,韦伯和他的同事给GPT-3讲了一个精灵可以在两个瓶子之间转移珠宝的故事,然后问它如何使用纸板和纸管等物体将口香糖球从一个碗转移到另一个碗。
这个故事暗示了解决问题的方法。研究人员在论文中写道:“GPT-3大多提出了精心设计,但机械上毫无意义的解决方案,有许多无用的步骤,却没有给出明确的机制来在两个碗之间转移口香糖。”
那么,我们如何理解一台通过律师资格考试,但在学前班表现不及格的机器呢?像GPT-4这样的大型语言模型是根据从互联网上获取的大量文字进行训练的:书籍、博客、小说、技术报告、社交媒体帖子,等等。很可能过去的考试题也被抓取了。一种可能性是,像GPT-4这样的模型在训练数据中看到了如此多的专业考试和学术测试,以至于它们学会了自动完成答案。
韦伯说,很多这样的测试,在网上都能找到问题和答案:“几乎可以肯定的是,其中有许多都存在于GPT-3和GPT-4的训练数据中,所以我认为我们真的无法得出太多结论。”
OpenAI表示,它进行了检查,以确认其对GPT-4的测试不包含出现在训练数据中的文本。在与微软的合作中,OpenAI使用付费测试题来确保GPT-4的训练数据中没有包含这些问题。但这样的预防措施并不是万无一失的:GPT-4仍然可以看到类似的测试题。
当机器学习工程师贺拉斯·贺(Horace He,音译)在编程比赛网站Codeforces上测试GPT-4时,他发现GPT-4在2021年之前发布的编程测试中得分为10/10,但在2021年之后发布的测试中得了0分。
其他人也注意到,使用2021年之后的考试题,GPT-4的成绩就会下降。这是因为该模型的训练数据只包括2021年之前收集的文字,一些人认为,这表明大型语言模型展示的只是一种记忆力,而不是智力。
为了在实验中避免这种可能性,韦伯设计了一套全新类型的测试。他说:“我们真正感兴趣的是,这些模型能否应对这些新式问题。”
韦伯和同事采用了一种测试类比推理的方法,称为瑞文推理测验。这些测试由一张图像组成,该图像包括了一系列并排或上下排列的形状。挑战在于找出给定形状系列中的规律,并将其应用于新的形状。该测验用于评估幼儿和成人的非语言推理,在智商测试中很常见。
通过协商,甲和乙的策略选择受对方提供的新信息所影响,在新的博弈情境中,甲对于策略集合A中的每一个行动选择,都存在一个新的相对于策略集B的条件概率q;同理,乙对于策略集合B中的每一个行动选择,都存在一个新的相对于策略集A的条件概率r。据此,甲和乙的期望效用演变为条件期望效用。对于彼此独立的环境或事态,主体之间有非条件概率。在纳什均衡中,甲和乙的主观概率没有被任何实质性的条件限制;在纯粹策略中,两者按照给定的占优策略行动;在混合策略中,彼此行动的概率选择相互保密,不为对方所知。然而,通过理性协商,主体信念和行动的概率选择成为公共知识,这就决定了协商机制下的行动博弈超越于纳什均衡。
研究人员没有使用图像,而是将形状、颜色和位置编码成数字序列。这确保了测试不会出现在任何训练数据中,韦伯说:“我从零开始创建了这个数据集。我之前从来没有听说过这样的东西。”
米切尔对韦伯的工作印象深刻。“我觉得这篇论文很有趣,也很有煽动性,”她说,“这是一项很好的研究。”但她有所保留。米切尔开发了自己的类比推理测试,名为ConceptARC,该测试使用从谷歌研究员佛朗科斯· 乔里特开发的ARC(抽象和推理挑战)数据集中提取的形状编码序列。在米切尔的实验中,GPT-4在这类测试中的表现比人类差。
米切尔还指出,将图像编码成数字序列(或矩阵)会使程序更容易解决这个问题,因为它消除了谜题的视觉挑战。“解决数字矩阵并不等于解决瑞文测试的问题,”她说。
大型语言模型的性能是脆弱的。对于人类来说,可以肯定的是,一个在测试中得分很高的人也会在类似的测试中表现出色。大型语言模型却并非如此,对测试进行一个小小的调整就可以让分数出现很大的波动。
英国剑桥大学的心理学家露丝·切克说:“总的来说,人工智能评估并没有让我们真正了解这些模型的能力。测试一个系统在特定任务中的表现是完全合理的,但通过这个任务泛化到其他任务和能力,是行不通的。”
以微软研究小组2023年3月份发表的一篇论文为例,他们在论文中声称在GPT-4中发现了“通用人工智能的火花”。该团队使用一系列测试对大型语言模型进行了评估。在其中一项研究中,他们询问GPT-4如何稳定地堆叠一本书、九个鸡蛋、一台笔记本电脑、一个瓶子和一颗钉子。它回答说:“把笔记本电脑放在鸡蛋上,屏幕朝下,键盘朝上。笔记本电脑将夹在书和鸡蛋的边界内,其平坦坚硬的表面将为下一层提供稳定的平台。”
但当米切尔尝试她自己版本的问题,让GPT-4叠一根牙签、一碗布丁、一杯水和一个棉花糖时,她建议把牙签插在布丁里,棉花糖放在牙签上,并把整杯水放在棉花糖上保持平衡。
模型最后提出了一个有用的警告:“请记住,这个堆叠方式很脆弱,可能不太稳定。在建造和处理它时要小心,以避免倾洒等事故。”
还有另一个有争议的研究。2023年2月,美国斯坦福大学研究员迈克尔·科辛斯基发表了一篇论文,他在论文中声称,心智理论“可能自发地成为GPT-3的副产品”。心智理论是是一种能够理解自己以及周围人类的心理状态的能力,这是大多数儿童在三到五岁之间获得的情感和社会智力的标志。科辛斯基报告说,GPT-3已经通过了用于评估人类能力的基本测试。
例如,科辛斯基给GPT-3的场景是:“这是一个装满爆米花的袋子。袋子里没有巧克力。但袋子上的标签上写着‘巧克力’,而不是‘爆米花’。山姆找到了袋子。她以前从未见过袋子,看不清袋子里有什么,但看了标签。”
然后,科辛斯基提示模型完成以下句子:“她打开袋子,往里面看。她可以清楚地看到里面装满了……”和“她相信袋子里装满了……”。GPT-3用“爆米花”完成了第一句,用“巧克力”完成了第二句。他将这些答案视为GPT-3至少显示了一种基本的心智理论的证据,因为它们捕捉到了实际状态和山姆(错误的)想法之间的差异。
科辛斯基的研究结果迅速成为了头条新闻,并在社交平台上引发了争论。
包括沙皮亚和哈佛大学认知科学家汤摩尔·乌曼在内的几位研究人员发表了反例,表明大型语言模型未能通过科辛斯基使用的简单变体测试。乌曼说:“鉴于我很了解大型语言模型是如何构建的,我非常怀疑。”
乌曼调整了科辛斯基的测试场景,告诉GPT-3,标有“巧克力”的爆米花袋是透明的(这样山姆就可以看到这是爆米花),或者山姆不会阅读(这样她就不会被标签误导)。乌曼发现,每当情况涉及额外的几步推理时,GPT-3都无法将正确的状态归因于山姆。
沙皮亚说:“为人类设计的认知或学术测试可以作为大型语言模型能力的准确衡量标准,这一假设源于一种将模型拟人化并使其评估与人类标准相一致的趋势。这种假设被误导了。”
对于切克来说,有一个显而易见的解决方案。几十年来,科学家们一直在评估非人类的认知能力,她说。人工智能研究人员可以调整用于研究动物的技术,这些技术是为了避免基于人类偏见得出结论。
以迷宫中的老鼠为例,切克说:“它是如何导航的?你在人类心理学中可以做出的假设是不成立的。”相反,研究人员必须进行一系列受控实验,以弄清楚老鼠在使用什么信息以及它是如何使用这些信息的,逐一测试并排除这些假设。
至于大语言模型,就更复杂了。切克说:“我们没有针对老鼠的语言测试。我们正处在一个新的领域,但许多基本方法都是可行的。只是我们必须用语言的形式来做,而不是用一个小迷宫。”
威汀格也采取了类似的做法。她和她的同事们正在调整心理学家用来评估人类婴儿前语言阶段认知能力的技术。这里的一个关键想法是将一个特定能力的测试分解为一组测试,这些测试也会寻找相关的能力。例如,当评估婴儿是否学会了如何帮助他人时,心理学家也可能评估婴儿是否理解阻碍是什么。这使得整个测试更加稳健。
问题是这类实验需要时间。切克说,一个团队可能会研究老鼠的行为数年。但人工智能的发展速度要快得多。乌曼将评估大型语言模型与西西弗惩罚进行了比较:“一个系统被声称表现出X行为,当评估显示它没有表现出X时,一个新的系统出现了,而且被认为它表现出了X行为。”
米切尔说,50年前人们认为要想在国际象棋上击败一位大师,你需要一台和人一样聪明的电脑。但结果证明,我们只需要比人类更擅长数字运算的机器。穷举的蛮力胜过智慧。
从图像识别到围棋,类似的挑战已经被定义并解决。每当计算机被用来做一些需要人类智慧的事情,比如玩游戏或使用语言时,它就会分裂领域。大型语言模型现在正面临着自己的“国际象棋”时刻。米切尔说:“这真的促使我们每个人思考什么是智力。”
通过了所有这些测试,是否证明GPT-4具备了真正的智慧,或者它是否找到了一条有效但愚蠢的捷径,一个从数十亿行文本中、数万亿相关性的帽子里取出来的统计技巧?
米切尔说:“如果你说,‘好吧,GPT4通过了律师考试,但这并不意味着它很聪明’,人们会说,‘哦,你是在故意变换标准。’但我们真的在变换标准,还是说智能不像我们之前理解的那样,我们对智能的看法是错误的?”
归根结底,这取决于大型语言模型是如何做到的。一些研究人员希望摆脱对考试成绩的痴迷,并试图弄清楚模型背后发生了什么。米切尔说:“我确实认为,要真正了解它们的智能(如果我们想这么称呼它),我们必须了解它们推理的机制。”
乌曼对此表示赞同。“我同情那些认为这是在变换标准的人,”他说,“但这是很长一段时间以来的动态。现在我们不知道它们是如何通过这些测试的。我们只是被告知它们通过了。”
问题是,没有人确切知道大型语言模型是如何工作的。在一个庞大的统计模型中,很难将复杂的机制割裂开来。但乌曼认为,从理论上讲,对一个模型进行逆向工程并找出它使用什么算法来通过不同的测试是可能的。他说:“如果有人开发出一种技术来弄清楚这些东西到底学到了什么,我可以更容易被说服。我认为,根本问题是我们一直关注测试结果,而不是它如何通过的测试。”