□潘香霖 褚乐阳 陈向东
当前大模型(Large Language Model,又译作大型语言模型或大语言模型)在许多任务和领域展现出的强大能力,尤其是在文本生成、语言翻译、情感分析等任务中的卓越表现,以及其展现出类似人类的行为引起了多个学科的关注(陈向东,等,2023a)。正如圣塔菲研究所的学者们认为的(Mitchell,et al.,2023):直至不久前,人工智能研究界对于机器理解的问题都尚有普遍的共识--它们并不能像人类一样理解自己处理的数据,然而大模型的崭露头角,却改变了一些人对“机器能够理解语言”的可能性的看法。神经科学家谢诺夫斯基的观点则更为直接:“临界点到了,就好像突然出现了一个能够以类人方式与我们交流的外星人。只有一件事是清楚的--大模型不是人类……但它们的表现行为在某些方面似乎体现了智能”(Sejnowski,2023)。
大模型涌现的能力与目前语言模型所采用的技术架构有很大的关系(Belcak,et al.,2023),Transformer 架构的自注意力机制允许模型在长文本中建立全局关系,预训练使模型能够从大规模数据中学习到丰富的语义知识和模式,大量的参数使得模型能够在训练数据中捕捉更多的细微模式和关联,这些特点都有助于语言模型产生多样性、创造性和复杂性的文本内容。大模型的新兴能力引发了人们对于人工智能(Artificial Intelligence,AI)应用在数据隐私、风险行为和可解释性等方面的担忧(王佑镁,等,2023):预训练、交互、交付方式将威胁数据隐私保护;生成内容的偏见、有毒文本与幻觉将产生难以管控的风险行为;内部处理过程的复杂、输出结果的偏差与不确定性导致的大模型在可解释性与透明度方面存在不足。这些问题虽然不是大模型所独有的,但目前的技术架构不仅增加了伦理研究的复杂性,也涌现了许多新的研究领域。
大模型所呈现的“类人”行为以及大模型的潜在风险引发了研究者广泛的兴趣,越来越多的心理学家开始深入探索其背后的原因,以更清楚地划定大模型的能力边界。人们关心这些模型是否可能具备类似人类的认知方式,是否能够模拟人类的思维过程,以及它们所展示的智力水平是否与某个特定年龄段的儿童相当。心理学家通过对人类的思想和行为进行研究以及使用脑成像和计算机建模等其他实验方法来试图了解大脑的工作机制,理解人类的思维并发展人类的认知技能,心理学的部分工具同样可以帮助检验大模型的风险(Binz,et al.,2023)。随着大模型在社会中的影响日益增大,对于研究和评估它们行为的重要性不断上升,同时也推动我们深入挖掘这些模型可能具备的新能力。因此,机器心理学(Machine Psychology)开始受到越来越多的关注。
机器心理学由克里奇马尔等人(Krichmar,et al.,2002)提出,最初旨在研究动物行为过程中的大脑活动,通过对神经解剖学的详尽分析操作为未来智能机器的开发奠定基础。借用这一术语,当前机器心理学的应用领域略有不同,被用于理解大模型“智能”行为背后的机制,类似于心理学研究人类认知的方式来研究大模型。这种方法探究了模型如何从输入数据中提取信息、进行推理、生成回应,并在某种程度上模仿人类的思维模式。例如,通过心理调查可以衡量大模型所表现出来的黑暗性和负面性(Li,et al.,2023),使用大模型模拟人类参与者进行社会科学研究(Chen,et al.,2023),这类研究都是机器心理学在新兴领域的应用。借助机器心理学,研究者将能够更深入地了解大模型如何处理信息、如何产生类似人类思维的结果。这不仅有助于更好地利用这些模型的优势,还能够识别和纠正它们的不足之处。通过深入研究模型的认知过程,我们可以更准确地判断它们的适用范围,避免不当的使用,并更好地引导它们在教育领域的应用。因此,机器心理学对大模型背后原理的深入探求,可以为我们理解模型的智能行为提供新的途径。
本文旨在梳理机器心理学视角下大模型应用研究的现状,为其教育应用引入新的分析维度。机器心理学通过深入挖掘模型的认知机制,了解它们与人类认知的异同,既有助于我们更加准确地判断大模型在教育领域的适用性及潜在风险,也可以帮助我们更好地理解和模拟人类心理过程,为大模型教育领域的应用提供新的可能性。
人工智能研究探讨机器(主要指包含AI 的技术系统)行为和人类行为的异同,主要通过对(人类)行为学和机器行为研究进行类比。传统AI 研究围绕解释机器行为的分析维度,大多从产生行为的机制、行为发展和行为进化等多个层面对机器行为展开探索,积累了丰富的成果。在产生行为的机制方面,有研究者研究无人驾驶汽车表现的驾驶行为如变换车道、在十字路口转弯或鸣笛,探讨了这些行为的策略决策过程(Galceran,et al.,2017)。在行为发展方面,研究者通过将机器暴露于特定的训练刺激环境中来塑造机器的行为。例如,许多图像和文本分类算法经过训练,可以优化人类手动标记的一组特定数据集的准确性,数据集的数量和选择以及对数据集的评估方法可以极大影响分类的准确性(Buolamwini,et al.,2018;Bolukbasi,et al.,2016)。在行为进化方面,行为还受到过去的自然选择和先前进化的机制的影响,对于机器的行为而言,有关微处理器设计的早期选择继续影响着现代计算,而算法设计的传统(例如神经网络)来源于早期。因此,某些算法可能会特别关注某些功能而忽略其他功能,因为这些功能在早期成功的应用程序中都较重要(Wagner,2013)。
传统机器行为的研究偏宏观,但面对大模型不断涌现的强大能力,我们需要从更细致微观的角度对机器行为进行研究。机器心理学的视角可以帮助研究者从心理学的视角认识大模型:一方面可以帮助探索大模型的“类人”特征以更好地为教育服务,另一方面其研究成果可以推动教育研究的发展。精心设计的心理学实验可以帮助描述、解释、预测和改变人类或动物行为,心理学家用观察与实验数据来评估人类对各种情况的反应,为人类行为创造理论和解释原因,这些潜在的原因包括生物因素、社会交互因素以及个人认知因素等。心理学的研究成果使研究者能够绘制人类的认知发展轨迹,并深入了解关键概念的发展时间和方式。这种从心理学实验的角度对于大模型的研究具有以下几个方面的作用,如图1所示。
图1 机器心理学的重要性
使用心理学的经典实验可以帮助探索通用人工智能模型(特别是大模型)的“类人”特征,心理学的方法论技术对于评估大模型较有帮助(Kosoy,et al.,2023)。例如,改变大模型语言编码的方式,观察其语言理解能力的变化。研究者无法仅通过与儿童的对话来准确判断他们的认知能力,但是面对大模型却可以做到。许多大模型的研究者最初将人类的心理学概念和实验方法直接应用于大模型,假设所谓的人类认知和大模型认知具有相似性,从心理上对大模型进行分类,甚至采用模拟人类行为的方式评估大模型的表现。
一方面,这种方法允许研究者通过多次在大模型上执行相同任务的方式,来深入研究模型随着时间推移而发展的情况。通过生成纵向数据并进行对比,研究者可以建立起一种基线,用以推测大模型推理能力的发展趋势。这些数据对于人工智能安全和一致性研究变得越发重要,因为它们有潜力预测单个大模型或多个大模型相互交互的实例在未来行为上的潜在表现。
另一方面,通过建立人类用户与大模型之间的长期互动,我们可以观察这种互动是否能够促进大模型在情感识别、话语理解、社交能力等方面的进步。通过深入探索这些潜力,机器心理学为人工智能的可解释性提供了一种创新的途径。有研究(Jones,et al.,2022)使用认知偏差这一心理学概念识别并测试大模型的问题,结果表明认知科学的实验方法可以帮助表征大模型系统的行为方式。还有研究从行为主义的视角出发,以分析大模型输入和输出之间的相关性为切入点,而不是试图解释神经网络的内部机制(Hagendorff,2023a),这样的研究有助于推导出人工智能模型的可能内在结构或基础。这种方法不仅仅是对传统的自然语言处理基准测试方法的有益补充,更是提供了一个更全面的视角,以理解和评估人工智能系统在真实世界环境中的表现。
由于与心理学科的研究范式高度近似,机器心理学的研究成果对推动教育研究的发展具有一定的积极意义。
首先,将大模型作为研究对象可以更深入了解人类学习的内在机制。将大模型与儿童的输出结果进行对比,可以了解哪些知识是从语言和符号中学习到的,哪些需要与世界进行交互,从而可以更深入地了解人类学习的内在机制。如研究者会从神经科学的角度来解释偏见和刻板印象,将其归因于大脑和神经结构的运作方式(Amodio,2014)。大模型完全依赖于文本数据进行生成和决策,缺乏人类决策所需的思维信息、感官刺激或个人体验。因此,人类的偏见和刻板印象可能更多地受到语言内部因素的影响,而不仅仅是外部因素的影响,这可能有助于纠正对人类心理过程的过度解释。目前大模型在语言文字上表现优异,但儿童在相同数量级的文字语言输入下会表现出更高的学习效率,并有能力推理出新的语言任务(Frank,2023)。这是因为儿童通常通过结构化的社交互动获取语言输入,积极参与互动,而且成人常简化儿童的语言输入,确保易于理解,导致儿童词汇的有限和句子结构相对简单的语言输入。而这种互动式的输入与大模型的训练数据不同,大模型需要处理来自多种复杂且脱离语境来源的大量文本,而且没有互动或干预的机会。由此可见,在早期儿童语言文字学习阶段,互动式学习以及基于语境的学习对于儿童而言至关重要。目前大模型能够几乎完美地模仿自然的人类语言模式和特定的写作风格,其隐喻理解的能力甚至优于大学生(Ichien,et al.,2023)。这表明在大量语言文本中寻找模式可能足以获取语言的许多特征,而与世界的互动无关,因此人类儿童可以以类似方式学习语言特征。类似的,科索伊等人(Kosoy,et al.,2023)发现LaMDA 会产生与社会理解任务的儿童相似的反应,这提供了证据表明这些领域的知识是通过语言发现的,而LaMDA在因果推理任务中的反应与儿童有很大不同,这也表明这些领域需要更多对真实世界的实际探索才能完成,不能简单地从语言输入的模式中学习。
其次,将大模型作为研究环境,机器心理学研究成果对解释“人类是如何学习”等学习科学的基本议题有重要帮助。需要说明的是,尽管学习科学的理论很大程度参照心理学等高度控制的实验环境下产生的研究成果而提出,但由于教育情境的复杂性、方法学的局限以及伦理因素的限制,一些心理学假说难以在人类主体上验证,大模型为我们提供了一个可重复调控变量的理想实验平台。首先,大模型为研究者提供了一个可以生成、优化和测试各种假设和概念的控制平台。研究者可以在大模型上进行实验,以探索不同的教育场景和学习情境,而无须涉及复杂的人际互动或教育场所。其次,研究者可以向大模型提出各种问题,以观察其可能的响应和行为。这有助于研究者更好地理解特定问题的可能解决途径,还可以提供关于大模型如何处理不同情境和信息的见解。第三,大模型可以在研究者收集到人类数据后提供额外的验证和对照。通过将大模型的输出与实际人类反应进行比较,可以更加确保研究的稳健性和可重复性,从而增强了研究的可信度。最后,相较于人类参与者,大模型可以对数百个枯燥无味的任务做出回应,且不违反伦理规范。一个典型的案例是,霍顿(Horton,2023)将GPT-3 作为实验对象进行多项实验,发现大模型可以真实代表人类在实验中的发现,并且具有样本量大、便宜等特点。
现阶段的机器心理学主要采用行为主义的视角,侧重比较心理学实验提示(输入)和提示完成(输出)之间的相关性,而不是通过检查大模型的内在属性(即神经结构)来推断大模型的性质(Hagendorff,2023a)。机器心理学通过将大模型视为心理学实验的参与者来识别大模型的行为模式、涌现能力以及决策和推理机制,有助于深入理解大模型在教育领域的行为、决策和推理机制,从而改善教育应用的性能和有效性。
随着能力越来越强的大模型的出现,研究者需要提高对它们如何学习和做出决策的认识(Gunning,et al.,2019)。从许多角度上来看,大模型的作用令人印象深刻,它们生成与人类创作无异的文本、情感分析以及机器翻译。更进一步的是,这些模型的能力不仅仅是语言生成,他们还可以在输出中交织语言和计算机代码,甚至可以完成复杂的决策分析。尽管大多数人仍然认为这些模型距离人类对语言和语义的理解相去甚远,但不少人开始持这样的观点:基础模型在海量的数据上进行大规模训练并适应广泛的下游任务,已经显示出某种形式的通用智能(Binz,et al.,2023)。但是,如何才能真正评估这些模型(至少在某些情况下)是否做了一些智能的事情?本研究希望通过心理学的手段来回答一些问题,判断大模型是否在思维上和人类具有相似性,毕竟心理学家在理解人类的思维上有着丰富的经验。
多元智能理论认为智力是多元的而不是单一的,可以分为不同的类别,包括语言智能、逻辑数学智能、空间智能等(Davis,et al.,2011)。在大模型中,只能评估智力的特定维度,如语言推理、逻辑和抽象思维或空间智力。智力测试被用于教育评估中,帮助教育者了解学生的智力水平和认知水平,帮助制定个性化的教育方案。可以认为,人类智力测试的测试框架能够作为测试大模型的基础。
例如,韦伯等人(Webb,et al.,2023)将基于文本的矩阵推理任务应用于GPT-3,该任务的问题结构和复杂性与衡量人类流体智力的Raven 渐进矩阵相当,发现GPT-3 有类比推理的能力,在各种基于文本的问题类型中展现出超越人类的表现。在大模型中,智力测试可以帮助研究者评估大模型的认知能力,以更准确地确定模型能力的改进。有研究(Han,et al.,2023)将GPT-3 和GPT-4 应用于人类归纳推理中的一个经典问题(属性归纳)。通过两次实验,每次实验都侧重于将人类归纳判断与GPT-3、GPT-4得出的判断进行比较。结果表明,尽管GPT-3 很难捕捉到人类行为的许多方面,但GPT-4 却十分成功,在大多数情况下的表现与人类的表现相当。智力测试还可以帮助识别大模型的性能瓶颈,以便优化模型在各项任务中的表现。史蒂文森等人(Stevenson,et al.,2022)在吉尔福德替代用途测试(AUT)中评估了GPT-3 的创造力,并将其性能与之前收集的人类回答进行了比较,包括原创性、有用性、惊喜性等,结果表明在创造力的得分上人类得分更高。
智力测试是衡量测量对象认知能力的一种手段,研究者可以通过分析智力测试结果来了解大模型的强项和有待提升的领域,从而对其能力边界有更清晰的认识。
人格是一个相对稳定的心理结构,与亲社会行为和道德认同都相关(陈诚,等,2023)。评估人格的框架也可以应用于大模型,如有研究(Jiang,et al.,2023)用机器人格清单(MPI)数据集来评估大模型人格,结果表明大模型具备人格特征。一些研究应用大五人格(Big Five)(Digman,1990)等不同心理测试来评估他们的虚拟人格(如行为倾向)。例如,卡拉等人(Karra,et al.,2023)使用大五人格分析了各种大模型的人格特质,西西里等人(Sicilia,et al.,2023)使用语言学方法分析了GPT-3.5 的社交语言特征,米奥托等人(Miotto,et al.,2022)研究了GPT-3 的人格特征、价值观和自我报告的人口特征。值得注意的是,另外一些研究通过人格测试检测其模型中的社会和道德风险(如种族偏见)(Rao,et al.,2023),以更全面地了解模型的风险行为。例如,有研究(Li,et al.,2023)使用黑暗人格测试(Short Dark Triad,SD-3)研究了GPT-3 的人格,发现其人格模式相对消极。
越来越多的研究认为大模型具有虚拟人格和心理,这在指导他们的反应和互动模式方面发挥着至关重要的作用。
个体与他人交往时需要了解他人的愿望、情绪和信念,对他人的心理状态进行想象从而推断他人的行为,这种能力被称为心理理论(Theory of Mind,ToM)(刘建榕,等,2024)。对大模型进行心理理论的测试可以帮助我们了解模型是否具备某种程度的社交认知能力,以及其是否能够在生成文本或做出决策时考虑到他人的立场和情感。例如,在生成内容的机制中,模型应该结合上下文理解不同教育者的需求和感受,避免生成具有冒犯性的和有毒的内容,然而,泰克等人(Tack,et al.,2022)研究了大模型在教育对话中回复学生生成对话的能力,发现该能力目前还远落后于人类。
心理理论是社会认知的基础,在社会互动、预测他人能力和培养共情能力方面十分重要。有研究者认为,心理理论是一种基本的认知和社会特征,使研究者能够通过可观察或潜在的行为和言语线索来推测彼此的想法(Baron-Cohen,1999)。多篇论文研究了大模型中心理理论的存在和程度:例如,布贝克等人(Bubeck,et al.,2023)提出了用错误信念测试、意图测试等来评估GPT-4 的心理理论,结果表明GPT-4 可以通过Sally-Anne 和ZURFIN 测试,其具有非常高的心理理论水平,能够推理他人在真实场景下的心理状态;普里斯塔夫斯基等人(Prystawski,et al.,2023)研究了GPT-3 中的隐喻理解能力,并根据隐喻理解的心理模型开发了两种类型的提示,得出大模型擅长将隐喻和恰当的释义进行匹配。最新的ChatGPT(GPT-4)则可以完成93%的心理理论任务,具有强大的分析和决策能力(Kosinski,2023)。
鉴于现有研究证实了大模型存在一定程度的心理理论,已经有研究者将其应用于教育领域,例如,让GPT-3.5 模拟校长、家长、学生等不同角色作为社会调查对象,模拟不同角色对利益相关议题的反馈(陈向东,等,2023b)。
心理学实验可以帮助了解大模型在不同领域的应用潜力和局限性,因此,一些研究通过在大模型上重复心理学的经典实验来判断大模型的能力以便更好应用于教育。
其中,最典型的是BIG-Bench(Beyond the Imitation Game Benchmark)测试(Srivastava,et al.,2023),该测试包括204 项任务,问题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等领域。有研究(Huang,et al.,2023;Qiao,et al.,2023)对大模型中推理能力作为一种新兴能力的含义进行了概念分析并推断原因。宾兹等人(Binz,et al.,2023)使用基于小插图的认知心理学工具研究大模型的决策推理、信息搜索、思考能力和因果推理能力,大模型显示出基于模型的强化学习特征,其在一些任务上和人类的表现相当。
一些研究利用心理学实验判断大模型的行为模式和认知特征,以便确认其是否可以辅助决策。有研究者(Hagendorff,et al.,2023b;Dasgupta,et al.,2022;Nye,et al.,2021;Talboy,et al.,2023;Jones,et al.,2022;Chen,et al.,2023)应用判断和决策心理学的实验(Linda 问题、Wason 选择任务、Cab 问题等)来测试模型中的认知偏差现象。霍顿(Horton,2023)在GPT-3 上提供资源、信息、偏好等,通过模拟场景进行行为经济学实验,并发现其行为在质量上与人类参与者的行为相似。
一些研究将大模型作为参与者参与心理学实验。帕克等人(Park,et al.,2023)将人类对心理学实验的反应与GPT-3.5 的输出进行了比较,结果表明GPT-3.5 与人类被试相比,更易于进行控制实验,这些实验既具高功效,又在统计上有效,使用大模型可以快速且廉价地收集大量样本。阿赫等人(Aher,et al.,2023)使用不同大模型来模拟经典心理学实验(最后通牒博弈、米尔格拉姆实验、群体智慧实验等)中的人类,将该模型用于收集各种参与者行为方面的数据。
这些研究不仅有助于了解大模型的认知过程,还为我们理解人类决策和思考提供了新的视角,并且这些心理学实验为我们揭示了大模型可能存在的局限性和弱点,进一步促进了我们对其优化和改进的思考。
“思维链”(Chain of Thought)一词最早由谷歌实验室提出(Wei,et al.,2022),旨在让大模型模仿人的思考过程,其中引起大模型最终输出的一系列中间推理步骤的提示称为思维链提示。通过引导模型沿着特定的思维链或思考路径,可以更容易地解释模型的决策过程和生成的输出。思维链方法可以显著提高许多大模型的表现,包括在算术、符号和常识推理任务上表现得更优异。
思维链涉及到机器如何链接、组织和理解信息。人类在面对信息时,会根据已有的知识和经验来形成各种关联和逻辑链条,这种能力使得我们能够更加高效地处理信息、做决策和创造新知识。对于大模型而言,思维链不仅仅是处理信息的一种方式,还是它展现出一种类似于人类的认知过程的手段。大模型的思维链可以让我们深入探索机器的“心理”工作机制,例如,大模型如何决定哪些信息是相关的? 它是如何根据上下文调整其思维链的? 这些研究不仅有助于我们更好地设计和理解大模型,还为我们提供了一个窗口,观察机器可能存在的心理过程和认知模式。因此,思维链是机器心理学的一个重要研究案例,为我们提供了理解机器与人类思维差异的有力工具,从而使我们能够更加合理地预测和引导大模型的行为。
思维链提示在给出答案之前,分解成多个中间推理步骤,再进行求解,如图2所示。使用思维链可以引导模型生成特定类型的文本,从而控制输出,确保其符合用户的需求或预期。苏兹贡等人(Suzgun,et al.,2022)将思维链方法应用于大模型PaLM,并评估其对23 项BIG-Bench 任务的完成情况,发现有17项任务超越了人类,包括算术、逻辑、几何和自然语言理解等任务。不同的任务或应用领域可能需要不同类型的思维链,通过为特定任务设计思维链,可以使模型更专注于特定领域的知识和信息,提高模型在该领域的性能和效率。
图2 思维链提示
思维链是模仿大脑的思考过程所提出的一种优化大模型表现的方式,其中间步骤类似于大模型的灯塔,用于实现在模型输出中复制符号以形成答案,而不是真正学习如何解决问题(Madaan,et al.,2022)。思维链试图借鉴人类思维和问题解决的方法,以提高大模型在复杂任务中的表现。它们强调了反思、分解任务、渐进式解决和灵活性等认知策略的重要性。通过将这些策略应用于大模型,研究者试图提高大模型的问题解决能力,使其更接近人类智能的表现。这些方法的有效性在教育和其他领域具有重要意义,因为它们可以改进大模型的学习和决策能力,提高教育支持和问题解决的质量。在思维链的帮助下,大模型可以顺利解决多语言小学的数学问题(Shi,et al.,2022)、多步骤推理问题(Wang,et al.,2022)和用于翻译质量的提高(Lu,et al.,2023)。
然而需要指出的是,尽管思维链虽然在各种自然语言推理任务中表现出了卓越的性能,但它在完成比示例更复杂的任务上表现不佳,研究者在思维链基础上提出了许多拓展方案,例如零样本思维链、思维链自洽性、思维树、思维图的概念,如图3所示。
零样本思维链是指在问题的结尾附加“让我们一步一步思考”等句子,引导大模型按步骤进行思考而生成回答,这类似于教师引导学生分步考虑问题。人类在解决复杂问题时通常会经历考虑多个角度、反复思考和调整答案的过程,因此有研究在思维链基础上提出思维链自洽性,特点是在思维链的基础上对多种答案进行权衡,让大模型自己进行反思迭代(Wang,et al.,2023)。还有研究提出思维树,特点是在思维链自洽性的基础上,将大任务列举出一些子任务以及子步骤,根据每一步推理后的每一种可能性的答案进行投票,并且其可以根据投票结果回溯上一步并重新推理(Yao,et al.,2023)。结果表明思维树的方法显著提高了大模型在三个新任务(24 点游戏、创意写作、迷你填字游戏)中的问题解决能力,相比思维链方法,用该方法的大模型表现更优异。思维树方法将任务分解为子任务和子步骤,并在推理过程中考虑每一步可能的答案。这种方法类似于人类在解决复杂问题时可能会构建思维树,考虑不同决策路径的方式。思维树允许模型根据投票结果迭代地重新考虑先前的决策,这可以增加问题解决的灵活性,类似于人类在思考时可能会回头检查并重新评估之前的选择。除此之外,另一个延伸的概念为思维图(Besta,et al.,2023),是将不同的思考过程、推理链或想法组合在一起综合优点来生成更好的解决方案,类似于人类推理会按照一种思考路径或推理链进行思考,然后回溯或尝试另一种推理链,相互结合,进而形成一个综合各个优点的解决方案。这些提高推理能力的方法不仅可以用于大模型中,也可以将大模型视为研究对象将其反应应用于人类。
对于机器心理学而言,通过对思维链的研究,可以为我们提供一个桥梁连接机器的计算过程和人类心理活动:首先,可以更好地理解机器是如何模拟人类的这一认知过程,从而为构建更加复杂和高效的算法提供指导;其次,可以让机器通过理解其自身的思维链和可能的选择路径,做出更加明智的决策;再次,思维链也可以帮助我们更好地与大模型互动,这为设计更加自然、直观和人性化的用户界面提供了可能性;最后,研究机器上的思维链也可能为我们提供关于人类心理学的新洞见。机器的模拟过程为揭示人类心智中难以觉察的细微结构和模式提供了新途径。
教师和学生如何更好地理解和信任大模型的行为?教师需要确保大模型提供的支持和回答是准确、可靠的,并且需要理解为什么大模型会做出特定的决策。机器心理学的视角为解决这些问题提供了一个可能的途径,大模型尝试使用心理学或人类可理解的术语来解释机器行为模式,以提高对其行为的可解释性,并提高教育领域中这些技术的可信度和适用性。
然而这一做法引发了一系列有关其认知能力和行为特征的争议。如大模型运用心理学术语在某种程度上能够增进大模型对行为的理解,但这种理解也受制于模型在训练过程中所接触到的数据和模式,无法真正领会行为背后的深层含义。现有研究普遍存在一些局限性,如依赖于小样本量,以及对提示措辞的高度敏感等,这些问题可能会影响研究结果的可靠性和适用性。但是,目前机器心理学的这种争议可以帮助提高模型的可解释性,使教育者和学生更好地理解模型的决策和行为模式,从而建立信任,制定更智能、更有效的教育工具支持学生的学习需求,提供更好的学习体验。
机器心理学常用两种心理学方法与大模型交互(Hagendorff,2023a),这两种心理学方法都基于语言文本提示大模型。一种是自我报告法,如访谈和问卷调查,可以通过测量某些态度或行为的普遍程度来获取有关大模型的系统信息。例如,用封闭式问题或等级量表对大模型进行测试时,可以自动化对问卷进行解释,这使得研究者能更快捷地收集数据,且研究结果更可靠。另一种是观察法,观察法可以帮助研究者进行行为记录并从中获取记录模式。需要说明的是,在发展心理学、道德心理学或判断和决策心理学的许多测试框架中,自我报告法并不适用,只有观察法适用(Hagendorff,2023a)。
仅依靠语言文本与大模型交互会产生很多局限性,首先是许多心理学研究使用的实验设计不能转移到大模型上,一些实验设计要求使用语言以外的刺激、感官数据、短长期记忆等来产生严格的实验设计,例如,对于心理理论的测试,理解非语言线索的能力,像面部表情、手势或语气的能力也十分重要,而目前的测试无法感知社交互动的复杂性和丰富性。其次,虽然机器心理学的研究具备及时反应性,一定的输入可以立即得到输出结果,但相比于人类被试,该输出结果很难解释。心理学家很早就意识到,表面上相似的行为可能具有截然不同的心理根源,并且可能是截然不同的学习技术和数据的结果。人类被试的测试结果可以从神经科学、反应时、文化背景上得到解释,而大模型缺乏感官刺激和个体经验,其输出完全来源于语言,因此较难从多方面对大模型的输出结果进行解释。
在心理学实验中,如果参与者之前已经接触过特定的刺激物品,他们可能会展现出已经学会的反应,而不是根据新的线索进行推理。因此,许多研究会使用那些参与者在日常生活中不太可能遇到的词汇或物品,以防止他们依赖已有的学习反应来完成任务。然而,由于大型模型接受了数百甚至数千篇科学论文的训练,这些论文包含了机器学习和心理学评估的示例,因此使用传统的实验方法来评估这类模型可能会毫无效果。模型的输出可能会反映训练数据集中的内容,例如模型的输出可能会依赖于知识库中研究论文的已知答案,而不是进行推理和综合分析。一项研究表明,GPT-3 可以像人类受试者一样或更好地解决一些基于小插图的实验,然而解释这些结果很困难,因为其中许多小插图可能是其训练集的一部分(Binz,et al.,2023)。目前机器心理学领域已经进行的许多研究都可能存在这样一种隐患:他们使用包含心理学实验材料的提示并将其应用到大模型,而没有针对性地改进这些实验材料的措辞、任务顺序等。
心理学实验通常需要经过严格筛选和控制的数据集,以确保实验的可靠性和有效性。然而,大模型的输出是基于其训练数据,并且随着大模型训练规模的上升,回答问题的准确性也会提高,如随着GPT版本的提升,大模型解决错误信念任务的正确率从40%提升至95%(Kosinski,2023),GPT-4 比GPT-3在归纳任务中的表现更出色(Han,et al.,2023)。GPT-3.5 和GPT-4 通过人类反馈的强化学习进行了微调,在GPT 的迭代中,人类的作用可能是不透明且可变的,并且可能只是简单地修改了比较明显的错误。即使针对同一个GPT 模型,同一类任务的表现也有可能不同,如仅对心理理论的原始小插图实验进行微小的更改,GPT-3 的表现就会受到很大的影响(Binz,et al.,2023),而这些干扰对于具有心理理论能力的人来说是不影响的。
因此,在采用心理学测试框架来评估大型语言模型时,必须确保大模型的训练数据不包含与测试内容相同或相似的信息,以确保测试的可靠性和有效性。与此同时,任务的设置条件在获得可靠的结果方面至关重要,就像在设计心理学任务时,研究者会为参与者创造全新的刺激环境来确保测量的准确性。在设计用于评估大型模型的新任务时,需要充分发挥创新,包括测试提示的创新措辞、指令和行为,以激发模型在不同情境下产生有价值的回答。然而也需要注意,在将心理学任务创新地转化为大模型可理解的格式时,研究者必须确保所使用的提示能够合理地反映他们所要测量的结构,这可能需要适当的调整和简化以确保任务的有效性和模型的理解能力。
尽管大模型的机器心理学研究通常采用高度受控的实验设置,排除了影响研究的混杂因素,但目前很多机器心理学研究的共同问题是使用小样本量。小样本量在机器心理学研究中可能引起抽样偏差,这意味着即使微小的提示变化也可能显著影响模型的输出,从而影响研究的准确性和可信度。
除小样本的问题以外,选择具有代表性的样本也至关重要,在理想情况下,这些测试应该在模型训练过程中多次进行,以确定随着模型获得更多经验其表现如何变化,只有这样我们才能可靠地评估某种行为是否具有系统性的重复性和普遍性。在测试大模型的某种能力时,我们还需要在涉及相同抽象概念的多个任务和测量上进行,并将这些不同的实验任务的输出证据结合在一起以获得更全面、可靠的证据,以确保其在不同情境下能够表现出一致的能力。例如,评估大模型的推理能力,需要设计一系列和推理相关的实验任务,包括逻辑推理任务、数学推理任务、图像推理任务等。
需要注意的是,随着GPT-4 等多模态或增强型大模型的出现,机器心理学将变得更重要,这意味着外部信息源、工具、感官数据、图像、物理对象等与大模型可以进行交互(Mialon,et al.,2023)。这些交互可以更方便地帮助教育者更好地理解学生的认知过程和学习需求。通过分析学生与这些模型的互动,教育者可以获得有关学生的深层次信息,如情感状态、理解水平和学习风格。因此,研究者可以采用更多元化的测试方法对大模型进行测试,涵盖各个维度,并且扩展测试场景,使其能够模拟真实的社交互动和交流情境以提高测量大模型应用的准确性。
大模型的迅速发展突显了机器心理学的重要性。教育学长期以来一直专注于如何优化学习过程以提高教育效果,而机器心理学为研究者提供了一种独特的方式来深入了解大模型的认知和情感过程。正如OECD(2023)指出的,人工智能系统在整个生命周期中应保持稳健、可靠和安全,以便在正常使用、可预见使用或误用或其他不利条件下,它们能够正常运行,不会造成不合理的安全风险。大模型在多项测试中超越人类的表现,使得我们重新思考评价与应用大模型的方法和策略。本研究旨在思考机器心理学的研究视角,探讨机器心理学在教育中的关键作用,以及通过思维链案例展示机器心理学在教育中的应用潜力,这为大模型的机器心理学实验提供了新的研究要求和方向。
机器心理学不仅有助于揭示人工智能的复杂性,从另一个层面看也有助于人类了解自身的心理活动。当我们在未来继续探索和开发更为先进的AI系统时,机器心理学或许可以成为窥探机器之窍的强大工具,帮助我们了解大模型的认知和决策机制,以及这些机制是如何影响其在教育应用中的表现。虽然大模型已经可以在很大程度上回应和适应不同的提示,但我们仍然认为这些机器代表了对认知的一种模拟,而非真实的意识或情感。然而,大模型不断涌现的能力迫使我们时刻提醒自己:它们的“心智”到底是什么,这不仅仅是一个技术问题,更需要伦理和哲学上的深入反思。