从好奇发生到满足：好奇反馈循环的神经生理机制*

2023-02-12 02:46陈念劬

心理科学进展 2023年2期

陈念劬

(南通大学教育科学学院,江苏南通 226000)

好奇,尤其是知识好奇(epistemic curiosity)在人们的日常学习和生活中扮演着重要的角色。在过去的几十年里,大量的实证研究已经证实好奇可以促进学习、改善认知、激发创造,甚至缓解焦虑(Baer et al.,2012;Hardy et al.,2017;Hagtvedt et al.,2019;Harrison &Dossinger,2017;Gruber et al.,2019;Kashdan &Roberts,2006)。从理论探讨到问卷调查,从行为实验到神经生理研究,有些研究者关注好奇的特质性,有些研究者强调好奇状态性(Berlyne,1954;Cervera et al.,2020;Kashdan &Ficham,2004;Litman &Silvia,2006;Loewenstein,1994;Murayama et al.,2019)。但经常被研究者们忽视的一点是——好奇是在变化发展的,它会随着经验的积累和脑的发育不断变化和发展。因此,本文将从动态发展的视角看待好奇,以反馈循环模型为框架,探讨从好奇发生到好奇满足的神经生理机制。首先对好奇的概念进行辨析和界定。随后,对构成好奇反馈循环模型的各个阶段进行阐述。接着,对好奇在个体生命周期中的变化与发展进行总结。最后,对基于该模型的未来研究提出建议。

1 好奇的概念界定

构建一个关于好奇的整合模型遇到的第一个问题就是以往文献对好奇的概念界定并不清晰。19 世纪末,James (1891)认为好奇是为了适应生存而演化出来的主动探索环境的本能。半个多世纪后,Berlyne (1954)用驱力减少理论(drive reduction theory)来解释好奇,认为好奇是一种对信息的渴望,就像饥饿一样,需要被满足。驱力减少理论最早由Hull (1943)提出,他认为驱力是一种动机结构,通过给机体力量或能量引发行为,以满足需求,进而减弱驱力。Berlyne (1957)认为好奇是一种令人厌恶的状态,新异性和不确定性会引起好奇。而信息寻求行为的目的就是解决不确定性,从而解除这种令人厌恶的状态。此外,Berlyne(1954)还把好奇分成了知识好奇(epistemic curiosity)和知觉好奇(perceptual curiosity)。其中,知识好奇是对知识信息的渴望,主要适用于成年人类;知觉好奇是对新异性感官刺激的渴望,除成年人类外,在动物和人类婴儿中也有所表现。正是这种渴望,驱动着个体的一系列探索行为。在提出好奇的驱力减少理论后,Berlyne (1970)又指出好奇遵循最佳唤醒原则,刺激新异度太高会导致焦虑,太低会导致无聊,只有新异度居中时好奇水平最高,愉悦度也最高。这似乎与他先前的描述相矛盾,一是按照“驱力减少理论”,驱力应该随着刺激的新异程度增加而单调递增,进而驱动更多的信息寻求行为;二是新异刺激造成的驱力增加对应的是厌恶情绪,那么愉悦情绪从何而来。若从动态过程角度看待好奇,这两个矛盾似乎就迎刃而解了。首先,好奇的发生是有条件的,当刺激引起的唤醒度太高或太低时诱发的便不是好奇,或者说不单纯是好奇,其它动机的产生会削弱信息寻求行为。另外,新异性和不确定性促使驱力增加而引起厌恶情绪,这和随着新异性和不确定性降低促使驱力减少而带来愉悦情绪,两种情绪发生的时间节点不同,并不存在冲突。

到了1994 年,Loewenstein (1994)提出了“信息缺口”理论(information-gap theory),认为信息缺口会引发好奇。例如不确定性、新异性、复杂性、意外性等,这些能引发好奇的特性,本质上都与先验知识的局限性有关,会使个体产生信息缺口。Loewenstein (1994)认为好奇是感知到信息缺口而形成的认知剥夺。与驱力理论一样,信息缺口理论认为好奇为信息寻求提供动力,目的是消除信息缺口带来的厌恶状态。Loewenstein (1994)还指出,信息本身的价值就足以驱动个体的信息寻求行为,哪怕这些信息并不服务于其它的即时目标。

于是,Oudeyer 等人(2016)明确将好奇归到内部动机的概念框架之下,认为好奇是一种内部动机。Ryan 和Deci (2000)将内部动机定义为“驱动个体为了乐趣或挑战而非外在物品、压力或奖励而产生行为的动力。个体为了内在的满足而做一件事,享受的是活动本身而不是它的工具价值。”与内部动机不同,“外部动机驱动的活动具有明显的目的性,为的是获得活动之外的工具性结果。”两者的区别在于是否具有工具性目的。好奇符合内部动机的特点,目标信息本身的价值就足够产生信息寻求,而无须附加其它的工具性价值(Bennett et al.,2016;Lau et al.,2020;Marvin &Shohamy,2016;Oosterwijk et al.,2020)。

以上关于好奇的定义更多是把好奇当作暂时的状态来理解,是个体针对环境特征所表达的瞬间体验,即具有状态性。也有一些研究者认为好奇还是一种会持续对新知识或新经验产生渴望的性格倾向,即具有特质性(Kashdan &Ficham,2004;Litman &Silvia,2006),并据此开发了一系列关于好奇的测量工具,包括《兴趣/剥夺型知识好奇量表》(I/D type Epistemic Curiosity Scale;Litman,2008)、《好奇和探索清单Ⅱ》(Curiosity and Exploration Inventory Ⅱ,CEI -Ⅱ;Kashdan et al.,2009)、《五维度好奇量表》(Five-Dimensional Curiosity Scale,5DC;Kashdan et al.,2018)等。这些测量工具通常涉及三个方面的问题：对信息的渴望程度(动机)、信息寻求行为发生的强度(行为)以及信息寻求时的情绪状态(情绪)。

可以看到的是,在这些对好奇的界定中,涉及到动机、行为和情绪——如减少不确定性的动机,寻求信息的行为,对信息缺口的厌恶或是面对新异刺激的愉悦等,它们似乎都反映了好奇。

但问题是,好奇的本质是什么?想要深入探讨好奇,必须有一个更为清晰的界定。虽然表达有所不同,但大多数研究者都认为好奇能为信息寻求提供动力(Berlyne,1954;Loewenstein,1994;Oudeyer et al.,2016),即好奇的本质是动机,而且是以获得信息本身而非其它附加价值为目标的内部动机。结合Loewenstein 的信息缺口理论,本文想要探讨的好奇是个体感知到信息缺口后产生的内部动机。好奇作为信息寻求的其中一个驱动力而存在。情绪伴随着好奇的产生而产生,随着行为和行为结果的变化而变化。正如从扳机扣动到射中目标是一个过程,行为(信息寻求等)和情绪(厌恶、愉悦、无聊等)就是好奇这个扳机扣动后引发的一系列可能的状态和结果。想象一下,在日常生活中,当你表达“我很好奇”的时候,更多想要传达的可能是“我想知道”这样一种状态,而“想知道”反映的是动机。而动机发生就必然存在动机的满足或不满足,从好奇发生到好奇满足,究竟会经历一个怎样的过程,本文将在下一部分进行阐述。

2 好奇在短时反馈循环中的变化与影响

虽然好奇本质上是动机,但好奇动机是一系列好奇相关事件的开端,这个开端又会受到后续事件结果的影响,也就是说,从好奇发生到好奇满足构成了一个反馈回路(feedback loop)。这个反馈回路主要包括“感知信息缺口-好奇发生-控制的价值评估-信息寻求-好奇满足-信息整合”六个阶段,该结构与Murayama 等人(2019)的知识获取的奖励性学习框架(reward-learning framework of knowledge acquisition)基本一致。Murayama 认为可持续的知识获取从意识到知识缺口开始,之后个体会发起信息寻求行为,直到获取相应知识感受到奖励,进一步强化了信息寻求行为,同时知识库扩增使得人们更容易探测到知识缺口。另外,Gruber 和Ranganath (2019)的预测、评价、好奇、探索(prediction,appraisal,curiosity,and exploration,PACE)模型认为好奇始于预测偏差,接着个体对该偏差指向的未来信息进行价值评估,进而引发好奇和探索行为,并最终促进学习和记忆。奖励性学习框架关注的是知识获取的过程,认为“好奇”、“兴趣”、“吃惊”等只是人们对知识获取过程中产生的各种体验的事后解释。PACE 模型认为好奇是信息价值评估的结果,强调好奇对记忆的影响。本文认为好奇的本质是知识获取行为发生的主要动力,关注的是好奇的动态变化性。

无论具体表达如何,以上模型本质上均源于强化学习(reinforcement learning,RL)模型(Rescorla,1972;Sutton &Barto,1998)。所谓RL,研究的是自然和人工系统如何在环境中学习预测结果,并进行行为优化的过程。RL 的关键是通过强化物改变行为和动机。该理论脱胎于心理学,目前被广泛用于经济学、机器学习等领域(Sutton &Barto,2018)。与一般RL 相比,好奇诱发信息寻求最重要的特点在于强化物是满足好奇的信息本身。

本文在阐述好奇的反馈循环模型时,将重点放在了每个阶段的神经生理机制上。模型将好奇定位在内部动机上,把信息寻求行为作为好奇的诱发结果、情绪作为好奇的伴生产物,强调好奇的动态变化性(见图1a)。根据Loewenstein (1994)的信息缺口理论,个体感知到信息缺口产生厌恶感,为缓解这种情绪,个体对信息(奖励)产生渴望,即产生好奇动机。基于当前环境、过往经验,个体根据当前活动状态或潜在行为(如信息寻求)的预期结果进行控制的价值(value of control)评估,即评估接下来的行为需要施加多少控制和如何施加控制,以决定是否发起信息寻求。信息寻求对应不同的结果：信息获取成功,好奇满足;信息获取失败,好奇未满足。此阶段也会伴随各种情绪的产生(di Leo et al.,2019;Vogl et al.,2019)。由于有新信息的输入,个体的状态会发生改变,并成为控制价值评估的线索,进而影响新一轮的信息寻求行为。好奇满足意味着信息奖励获得,往往会增加个体对新信息的期望价值和行为有效性的估计,进而强化信息寻求行为。而信息的进一步整合带来先验知识的扩展,扩展的先验知识使个体更易于意识到新的信息缺口,激发新的信息寻求行为。此过程形成了一个正反馈循环,有助于可持续的知识获取。反之,信息获取失败,正反馈循环就此打断。需要注意的是,我们容易把好奇满足简单地理解为好奇任务中目标信息的呈现。事实上,在真实情境中,信息寻求过程是动态的,寻求结果也是动态的,所有缩小或扩大信息缺口的信息都会引发个体状态的改变,导致好奇的满足或不满足。

本文与奖励性学习模型(Murayama et al.,2019)最大的区别在于融入了Shenhav 等人(2013,2016)的“控制的期望价值”(expected value of control,EVC)模型。之所以做此融合,是因为从好奇动机的产生到信息寻求行为的发生,符合一般行为决策的规律,遵循神经经济学(neuroeconomics;Rangel et al.,2008)原理,即信息寻求行为的发生及策略的选择取决于一系列神经生物学的价值计算结果(Platt &Plassmann,2014)。EVC 模型对这种基于动机和奖励的行为决策过程进行了概括(图1b)。需要说明的是,EVC 模型中的控制,也叫认知控制(cognitive control),指的是在一些非“自动化”的、需要花费时间并付出努力才能完成的任务中,协调行为使其和目标一致的能力。主动发起的信息寻求就是一种需要施加控制的行为。在EVC 模型中,背侧扣带回(dorsal anterior cingulate cortex,dACC)连接着状态评估和行为调节。具体来说就是,系统将反映当前活动状态或潜在行为预期结果的信号传递给dACC,dACC 综合预期奖励和努力成本等信息,计算得到EVC,决定如何分配控制资源,并将计算结果输出给调节系统进行控制执行(Shenhav et al.,2013;Shenhav et al.,2016)。

另外,在整个RL 过程中,多巴胺(dopamine,DA)系统扮演着重要的角色。投射向不同脑区的DA,可能具有不同的作用(图1c)。其中,主要由腹侧被盖(ventral tegmental area,VTA)和黑质(substantia nigra,SN)腹中侧发出,投射向伏隔核(nucleus accumbens,NAcc;位于腹侧纹状体,ventral striatum,VS)和前扣带回(anterior cingulate cortex,ACC)的多巴胺能神经元(dopaminergic neurons,DAN),对强化物的效价进行反应;而主要从 SN 背外侧和外侧发出,投射向前额叶(prefrontal cortex,PFC)的DAN,则对强化物的突显性进行反应(Dayan &Niv,2008;Matsumoto &Hikosaka,2009;Ott &Nieder,2019)。因此,有研究者认为与效价有关的DA 可被用来更新价值表征,实现RL;而与突显性有关的DA 则预示着刺激需要获得的注意量,参与调节认知控制(Ott &Nieder,2019;Sutton &Barto,2018)。

图1 好奇的反馈循环模型及其神经生理机制。(a)好奇的反馈循环过程。个体感知到信息缺口形成认知剥夺,引发厌恶情绪,从而产生对信息的渴求,即好奇动机。系统对当前状态(包括好奇动机)进行评估,得到EVC,以决定是否值得发起信息寻求行为。若认知控制的收益大于代价则发起控制,进行信息寻求。信息寻求成功,好奇满足。好奇满足产生的体验重新成为输入信息,改变当前状态,进而影响之后的好奇动机产生及信息寻求发起。最后,获得的信息与先验知识发生整合,先验知识得到扩展,个体更容易意识到新的信息缺口,激发新的信息寻求行为。此过程形成了一个正反馈循环,有助于可持续的知识获取。(b)基于动机和奖励的行为决策过程,此图参考Shenhav 等人(2016)的EVC 模型。反映当前活动状态或潜在行为预期结果的信号传递给dACC,dACC 计算EVC,决定控制资源如何使用,并将计算结果输出给调节系统进行认知控制。(c)中脑DA 系统。SN/VTA 位于中脑,是DA 释放的起源(Ballard et al.,2011;Cervera et al.,2020;Frankle et al.,2006)。其中,从中脑发出投射至NAcc (属于VS 区)、ACC、MFC 等区域的DA 通常反映了实际接收到的奖励和预期奖励之间的差异,即RPE。DAN 的活动与效价有关(奖励使DAN 活动性增加,惩罚使DAN 活动性降低),且变化快速,因此可被用来更新价值表征,实现RL。而从中脑投射向PFC 的DA 与效价无关,传递的是刺激突显性信号,预示着刺激需要获得更多注意,因此对认知控制有促进作用。(d)海马-VTA/SN功能回路。海马与中脑VTA/SN 的DAN 构成了一个功能回路。DA 在海马内释放,会增强LTP,有助于记忆巩固。缩写：EVC-控制的期望价值(expected value of control);OFC-眶额皮质(orbitofrontal cortex);dACC-背侧前扣带回(dorsal anterior cingulate cortex);LPFC-外侧前额叶皮质(lateral prefrontal cortex);MC-运动皮质(motor cortex);LC-蓝斑核(locus coeruleus);DA-多巴胺(dopamine system);VTA-腹侧被盖(ventral tegmental area);SN-黑质(substantia nigra);NAcc-伏隔核(nucleus accumbens);VS-腹侧纹状体(ventral striatum);MFC-内侧前额叶皮质(medial prefrontal cortex);ACC-前扣带回(anterior cingulate cortex);PFC-前额叶皮质(prefrontal cortex);RPE-奖励预测偏差(reward prediction error);RL-强化学习(reinforcement learning)

而好奇的一个重要作用——促进学习和记忆(Gruber et al.,2014;Kang et al.,2009;Marvin &Shohamy,2016),也与DA 系统密切相关。因为,参与学习和记忆的关键脑区海马(hippocampus)与中脑VTA/SN 的DAN 之间存在一个功能回路(图1d;Lisman &Grace,2005)。DA 在海马内释放,会增强长时程增强(long-term potentiation,LTP),而LTP 是记忆巩固的关键步骤(Lisman &Grace,2005)。

总之,静态地观察好奇本身存在一定的局限性,把从好奇发生开始的一系列事件联系在一起才能更好地理解好奇的本质和作用。接下来,本文将分别对该模型的各个阶段及各阶段的神经生理机制进行具体阐述。

2.1 好奇发生阶段

Loewenstein (1994)的信息缺口理论认为,好奇的作用与其他驱动力类似,如饥饿促使人们进食,而好奇促使人们填补“信息缺口”。少量信息或冲突信息都可以成为一剂启动剂,驱动信息寻求行为。通常情况下,信息缺口与个体的先验知识有关,当前信息与先验知识的差异决定了缺口的大小。当探知到知识缺口时,人们就会主动发起信息寻求行为,以获取知识。

也就是说,信息缺口可以引起好奇,先验知识决定了信息缺口。那么多大的信息缺口是合适的呢?Berlyne,Hebb 等人(Berlyne,1970;Hebb,1955)指出存在一个最佳的信息不一致水平,并称其为“最佳唤醒”水平。他们认为,不太熟悉也不太新奇的刺激才会诱发好奇,极度的不一致导致的是恐惧反应而不是探索行为。Kidd 等人(2012)的研究也发现,对于信息含量很低(高度可预测)或信息含量很高(高度令人惊讶)的事件,婴儿移开视线的可能性最大。婴儿倾向于将注意维持在具有中等信息量的事件上。Kang 等人(2009)在成人身上也发现了类似的结果,个体对冷知识问题答案的好奇与对答案的信心之间的关系是一条倒U型曲线,即当被试对答案一无所知或极度自信时,好奇最弱;而当被试对答案模棱两可时,好奇最强。更强的好奇动机意味着会启动更多的注意资源投入。这种对中度不确定性产生最大好奇、投入最多注意的策略可以有效防止人们在过于可预测或过于复杂的事件上浪费认知资源,从而帮助他们最大限度地发挥学习潜能。

参与信息缺口探测的脑区主要有两个——海马和ACC (黄骐等,2021)。海马在新记忆形成时参与了新信息的联结,在长时记忆提取时参与了对已存储信息的索引,而且海马与情景记忆的建立关系密切(Squire et al.,2007;Eichenbaum &Cohen,2014)。因此,海马对新的或意外的环境信息极为敏感。这些信息可以通过激活海马引导接下来的视觉探索(Liu et al.,2017;Voss et al.,2017)。除了新异环境,认知冲突也是信息缺口的一个重要体现。对认知冲突的监控则与ACC 有关。有研究者认为存在一个冲突监控系统,用来监控信息处理中的冲突发生,目的是基于冲突大小计算需要施加的控制,并将此信息传递给负责控制的中心,其中负责冲突监控的脑区正是ACC(Botvinick et al.,2001;Shenhav et al.,2016)。研究发现,当给被试呈现模糊图片(诱发好奇的材料)时,ACC 的活动确实有所增强(Jepma et al.,2012)。

另外,好奇作为动机,具有趋避两面性,好奇动机“趋”的是信息(奖励),“避”的是信息缺口带来的负性情绪。Berlyne (1957)就曾指出好奇是一种令人厌恶的状态。Loewenstein (1994)认为意识到信息缺口会带来一种剥夺感。Litman (2008)提出的剥夺型好奇(deprivation type curiosity)表明好奇有可能是不被满足的需求状态。可见,好奇与厌恶情绪相生相伴。最近的实证研究证实了这一负性情绪的存在,van Lieshout,de Lange 等人(2021)用抽奖任务对呈现信息的不确定性进行了定量操作,结果发现不确定性越强,产生的好奇水平越高,但愉悦度却降低了。Jepma 等人(2012)用模糊图片诱发好奇,激活了前岛叶皮层(anterior insular cortex,AIC)。而AIC 与个体的消极唤醒有关(如疼痛、厌恶等;Shackman et al.,2011;Singer et al.,2009),说明好奇发生涉及一种类似厌恶的情绪状态。

2.2 信息寻求行为的决策阶段

首先,需要说明的是,信息寻求被认为是典型好奇诱发行为。当人们感到好奇,即在好奇动机的驱使下,会去探索、提问和操纵有趣的物体(Kidd &Hayden,2015),这些均被视作信息寻求。但好奇诱发的行为不只是信息寻求。例如,当一个人回避剧透(Rosenbaum &Johnson,2015)时,这种回避信息的行为也部分始于好奇动机。此外,信息寻求也并不意味着总是伴随外显行为(Murayama et al.,2019)。例如,在课堂教育情境下,知识可能是由外部提供的,学生只是被动接受者。不过,即便在这种情况下,学生对信息的理解依然取决于他对信息的主动处理程度。也就是说,学生仍然在心理上进行信息搜寻,且该过程需要认知控制。

2.2.1 信息寻求行为的决策过程

从好奇发生到信息寻求具有一般行为决策的特点和内在机制(图1b)。信息寻求行为是否发出、怎样发出是一系列价值计算的结果(Platt &Plassmann,2014;Rangel et al.,2008)。Shenhav 等人(2013,2016)将这种价值描述为EVC,在需要认知控制的任务中,EVC 整合了以下信息：控制过程的预期收益,实现该收益需要投入的控制量,以及认知努力需要付出的成本。所以,EVC 代表着控制的净价值,用于决定在接下来的行为中控制如何分配。EVC 的估计发生在dACC 中,dACC接收来自杏仁核、AIC、OFC、中脑等结构的信号输入,这些信号反映了生物体的当前状态(如当前任务需求、处理能力、动机状态等)和潜在行为结果的价值(同时考虑结果发生的可能性和预期价值)。上文提到的认知冲突只是dACC 处理的众多信号之一(Shenhav et al.,2016)。

在好奇相关的研究中,研究者发现OFC 可能是对信息价值进行编码的脑区。在一个好奇交易任务(curiosity tradeoff task)中,研究者发现OFC既编码了赌博的赌注,也编码了满足好奇的信息价值,这些代表价值高低的信号被送往了中脑DA 系统(Blanchard et al.,2015;Charpentier et al.,2018)。但对信息价值的编码是否与自然奖励物的编码一致,研究者们在观点上仍有分歧(Cervera et al.,2020)。一项关于物品选择任务的研究可以很好地反映OFC 和ACC 在价值编码上的区别(Shenhav &Buckner,2014)。当两个物品都具有高价值,被试必须要选择其中之一的时候,相较于两个低价值物品或价值一高一低的两个物品,被试的焦虑水平最高。ACC 的反应与焦虑水平一致,冲突越大,激活越强。而OFC 的反应只与即将选到的物品价值有关,价值越高,激活越强。可见,OFC 编码的是预期的报酬或奖励,而ACC 反映的是任务需要施加的控制。

当dACC 计算出控制资源的分配方案后,计算结果会输出给调节系统进行控制的具体执行。负责接收来自dACC 输出信号的脑区主要有LPFC、运动皮质、纹状体、LC 等(Shenhav et al.,2016)。

研究表明,信息缺口激活ACC 后会将信号传递给 LPFC,并由 LPFC 决定是否发起探索行为(Gruber &Ranganath,2019;Gruber &Fandakova,2021)。一项使用冷知识问题范式的神经成像研究发现,与低好奇相比,高好奇相关的冷知识问题对LPFC 的激活更强,这可能与高好奇问题拥有更高的EVC 有关(Kang,et al.,2009;Gruber et al.,2014;Ligneul et al.,2018)。其他好奇研究也显示,当面对高不确定性图片时,LPFC 活动更强(Jepma et al.,2012)。去甲肾上腺素能系统(noradrenergic system)中合成去甲肾上腺素(norepinephrine,NE)的部位——LC 也参与了好奇的响应(Gompf et al.,2010)。面对不可预测的、不确定的刺激时表现出的瞳孔扩张反映的就是LC 的活动(Joshi et al.,2016;Payzan-LeNestour et al.,2013)。

值得注意的是,信息寻求行为通常始于好奇,但好奇并不必然会引起信息寻求行为,好奇只是信息寻求的动机之一。有时候“想知道”不意味着人们会采取行动“去知道”。从EVC 模型可以看出,发出一个行为是一系列成本-收益分析的结果。鉴于好奇的内部动机特性,满足好奇的信息本身就具有奖励性质,无须附加其它工具性价值就对信息寻求有驱动作用。众多研究也都支持了这一观点,为了获得满足好奇动机的信息,人们甚至愿意付出一些代价(如货币成本、时间成本、电击等;Bennett et al.,2016;Lau et al.,2020;Marvin &Shohamy,2016)。但这些信息除了满足好奇外,可能还具有其它的附加价值。例如,信息可能拥有不同的情绪效价,对信息情绪效价的预期也会影响信息寻求行为(Hertwig &Engel,2016)。Charpentier等人(2018)的研究表明,当被试可能获得的信息为负性(有金钱损失)时,他们的信息寻求行为会减少。不过,也有研究指出为了满足好奇,即便是恐怖图片依然具有奖励性质,可引起信息寻求行为(Oosterwijk et al.,2020)。

除了信息本身会影响信息寻求行为的价值估计外,获得信息的可能性也是一个重要的影响因素。人们发起信息寻求行为的决定不仅取决于信息携带的价值,还取决于获得信息所要付出的代价。上文提到,人们愿意为了获得满足好奇的信息而付出一些代价,但当代价变大时,信息寻求的可能性便有所降低(Bennett et al.,2016)。研究表明,对行为有效性的评估是影响行为选择与执行的一个重要因素。同样是为了解决不确定性,当认为行为策略有效时,会表现出更多的探索行为(Jaśko et al.,2015;Sankaran et al.,2017)。如果一个人不相信自己有足够的能力获得信息或者行为成本太高,他/她就会放弃信息寻求行为(Noordewier&van Dijk,2016;Silvia,2005)。而如果一个人在探索后没有获得满足好奇动机的有效信息,那么他/她对自己获得目标信息的信念就会降低,最终导致没有动力再次启动新的信息寻求行为(Tanaka &Murayama,2014)。同时,当他/她通过探索获得有效信息并转化成知识时,伴随知识获得,他/她的主观能力和技能也在提高。因此,知识和主观能力随着时间的推移会共同发展,二者在我们的学习系统中可能无法区分。

2.2.2 多巴胺在好奇驱动的强化学习中的作用

除了ACC,DA 系统被认为在动机和认知控制之间的相互作用中发挥关键作用(Ballard et al.,2011;Berke,2018;Bromberg-Martin et al.,2010)。从SN/VTA 发出的DAN 投射向不同的脑区,并且表现出一些功能上的差异(图1c)。主要从VTA 和SN 腹中侧发出,投射向NAcc 和ACC 的DAN,对强化物的效价进行反应;而主要从SN 背外侧发出,投射向PFC 的DAN,则对强化物的突显程度进行反应(Dayan &Niv,2008;Matsumoto &Hikosaka,2009;Ott &Nieder,2019)。因此,有研究者认为与效价有关的DA 主要被用来更新价值表征,实现RL;而与突显性有关的DA 则预示着刺激需要获得的注意量,参与调节认知控制(Ott&Nieder,2019;Sutton &Barto,2018)。

Schultz 等人(1997)最先提出DA 在RL 中有重要作用。Schultz 认为DAN 的放电活动反映的是实际获得奖励和预期奖励之差,即奖励预测偏差(reward prediction error,RPE),而不是反映奖励本身的大小。研究发现,DAN 的反应会随着学习的展开而发生变化,RPE 也随之快速变化,这使得RPE 信号可用于实时更新当前状态和潜在行为结果的价值表征,进而影响后续的行为决策(Berke,2018;Dayan &Niv,2008;Hamid et al.,2016)。

关于好奇会激活中脑DA 系统的证据有很多。几项功能磁共振成像研究报道了在好奇诱发后的预期形成阶段(满足好奇的信息呈现之前的等待阶段),纹状体区域(striatum)的活动有所增强,这些区域的激活受到SN/VTA 释放的DA 的影响(Gruber et al.,2014;Kang et al.,2009;Lau et al.,2020;Oosterwijk et al.,2020)。在冷知识问题任务中,高好奇的冷知识问题会引起更强的中脑DAN活动(Gruber et al.,2014;Kang et al.,2009)。而另一项与好奇相关的研究显示,当可能获得的未来信息更为有利时,被试对这些信息的渴望越强,SN/VTA 和VS 的激活也更强(Charpentier et al.,2018)。可见,虽然与一级奖励(水或食物等)不同,信息是一种间接的奖励,但DA 对它们的反应却是类似的。说明DA 反映的是奖励背后更为抽象的东西,比如奖励物提供的价值(Berke,2018;Matsumoto &Hikosaka,2009)。也就是说,对于皮层下的奖励结构来说,信息的价值与其他事物的价值并无本质区别。

另外,DA 还参与了另外一个重要的过程——认知控制(Ott &Nieder,2019;Sutton &Barto,2018)。Ott 和Nieder (2019)总结了DA 在认知控制中的三个主要作用：(1)控制感觉输入,使得与潜在行为相关的刺激得到加工;(2)维持和操纵工作记忆内容;(3)将这些信息传递到准备行为反应的运动前区。一些研究者认为,动机和认知控制之间的相互作用与从VTA 到LPFC 的DAN 投射有关。例如,研究发现,LPFC 中的DA 水平与认知控制和注意有关(Anderson,2016;Durstewitz &Seamans,2008)。不过,也有证据显示,LPFC 通过影响 VTA 对预期奖励的活动来启动动机行为(Ballard et al.,2011)。即,认为LPFC 通过影响ACC 和VTA 来形成动机性的认知控制。Hippmann等人(2021)的动态因果模型(dynamic causal modeling)分析更支持前一种观点。研究中,当对控制的需求较高时,VTA 对PFC 产生因果性影响。想要确定DA 如何参与认知控制,仍需要更多证据加以证实。另外,虽然好奇驱动的信息寻求行为也需要认知控制的参与,需要DA 的投入,但尚无以好奇为背景的相关研究。

2.2.3 好奇对学习与记忆的促进

在驱动信息寻求之外,好奇最重要的一个作用是能促进个体的学习和记忆。长期来看,特质性好奇与学业成就之间有显著的正相关,这个关系适用于从学前到青年的所有阶段(Froiland et al.,2015;Shah et al.,2018;Tucker-Drob et al.,2016;Oudeyer et al.,2016)。就状态好奇而言,与高好奇相关的信息在实验后的一天和至少两周内仍能被更好地记住(Gruber et al.,2014;Kang et al.,2009;Marvin &Shohamy,2016)。可见,好奇引起的记忆增强不会在短时间内消退。并且,好奇的这一记忆增强效应对儿童、青少年、年轻人和老年人都适用(Fastrich et al.,2018;McGillivray et al.,2015)。此外,好奇状态除了对满足好奇的目标信息有增强效果,对该状态下遇到的其它偶然性信息也有增强效果。Gruber 等人(2014)以成年人为被试,在冷知识问题后的答案预期阶段(尤其是该阶段的早期)插入中性面孔,高好奇被试对这些偶然出现的面孔也会表现出更好的记忆效果。儿童和青少年也会表现出对好奇状态下非目标信息的记忆增强(Fandakova1 &Gruber,2021)。

好奇为什么能够促进学习与记忆?这可能与海马的活动增强有关。Gruber 和Ranganath (2019)的PACE 模型认为好奇通过刺激DAN 增强了海马依赖的记忆编码和记忆巩固。海马是学习、记忆发生的关键脑区,海马中的LTP 过程是记忆巩固的关键步骤。研究者在动物研究中发现,暴露于新环境有利于LTP 的增强,而该过程是由DA 和NE 系统介导的(Li et al.,2003;Li et al.,2013)。另外,NE(Straube et al.,2003)和DA 活动(Moncada &Viola,2007;Lisman et al.,2011)还促进了从早期LTP 到持续LTP 的过渡。

该过程在人类研究中也得到了证实。有关外部动机和记忆关系的文献表明,动机状态本身可以促进学习和记忆(Shohamy &Adcock,2010)。因为,NAcc 和SN/VTA 复合体与海马构成了一个功能性回路(Lisman &Grace,2005)。研究者看到,在预示高奖励(外部奖励,如金钱)的线索出现时,NAcc 和SN/VTA 以及海马的激活都增加了,对相关事件的记忆也得到了增强(Lisman &Grace,2005;Lisman et al.,2011;Shohamy &Adcock,2010)。高奖励条件下SN/VTA 和海马功能联结的增强,不仅发生在记忆编码阶段(Murty &Adcock,2014;Wolosin et al.,2012),还发生在学习后的记忆巩固阶段(Gruber et al.,2016)。Gruber 等人(2016)发现,在学习后的休息期间,高奖励情境对应的海马表征会优先被再次激活,这意味着在高奖励情境中学习的项目会优先得到巩固。

以上是外部动机强化学习的作用机制,好奇作为内部动机的作用机制与其相似,只不过奖励换成了信息本身。研究发现,呈现高好奇问题和低好奇问题时右侧海马体和双侧NAcc 的激活差异预测了高好奇问题答案和低好奇问题答案的记忆差别(Gruber et al.,2014)。而答案呈现时这些脑区的活动却不能对好奇相关信息的记忆进行预测。这一结果表明在高好奇状态下,对未来信息产生预期时分泌的DA 刺激了NAcc 和海马,进而促进了对即将到来信息的学习。研究还发现如果学习是被好奇驱动的,额外再附加外部动机是不必要且无效的。这也是为什么在一些情况下,其它外部奖励反而会降低好奇带来的促进作用(Murayama et al.,2010)。

除了SN/VTA-海马功能联结能增强学习过程,好奇还会通过影响学习过程中的注意促进学习。研究表明,DA 会引导个体对指向过去或未来奖励的刺激产生即时的注意偏向(Anderson,2016)。一项眼动研究发现在好奇情境中出现了类似的注意偏向,高好奇状态下,被试对即将呈现冷知识问题答案的位置会投以更多关注,即产生预期注视(Baranes et al.,2015)。而高好奇对注意力的改变与注意网络的激活有关,好奇或者说好奇引起的DAN 的活动改变了额叶和顶叶区域(与注意有关)的激活状态(Jepma et al.,2012)。

另一个与学习增强有关的系统是NE 系统。瞳孔大小的改变反映了NE 系统的活动情况,而对好奇对象的瞳孔扩大程度可以正向预测学习效率(Nassar et al.,2012)。另外,LC 活动与个体的情绪唤起状态有关,它对调节海马功能、影响学习过程也有作用(Mather et al.,2016;Sakaki et al.,2014)。

总之,好奇状态下,在DA 和NE 系统的影响下,海马的活动性增加,这不仅帮助人们记住了他们感到好奇的事情,还帮助他们记住了该状态下(好奇发生后)出现的其它信息。

2.3 好奇满足阶段

在日常生活中个体采取的每一个行动都有其潜在的结果,要么是积极的,要么是消极的。这些结果在很大程度上塑造了我们未来的行为,并激发出个体为获得积极结果而做出决定的动机。好奇驱动的信息寻求行为也是如此,需要一个积极的结果——好奇满足,作为反馈以巩固这些行为和动机。好奇满足才能使好奇动机驱动的RL 得以完成。

在广义的RL 模型中,智能体(agent)的学习过程极度依赖其自身经历(图2a)。智能体发出一个动作作用于环境,环境状态发生改变的同时,产生了一个强化信号(奖励或惩罚)反馈给智能体,智能体根据当前的环境状态和反馈的强化信号决定下一个动作的发出策略,原则是使奖励最大化。选择的动作又会影响下一时刻的状态和强化信号,如此往复(Sutton &Barto,2018)。按照Gershman 和Uchida (2019)的解读,生物体的RL是贝叶斯式的,涉及三个关键成分: 状态(state)、价值(value)和策略(policy)。首先,状态指生物体当前占有的环境状态,如时间、地点、面对的对象等。从感知角度讲“生物体并不能获得当前所处状态的完整信息,而是只能接收感官数据提供的关于当前状态的模糊信息。”生物体实际获得的是基于贝叶斯规则得到的信念状态(belief state),即利用感官数据的概率分布(P(x))、潜在真实状态的先验概率(P(s))以及似然估计值(真实环境状态中得到当前感官数据的条件概率P(x|s))计算得到的后验概率(P(s|x)),是对过去所有观察历史的最优估计。其次,价值是根据当前状态计算出来的未来奖励预期。事实上,信念状态才是奖励预测的关键自变量,也就是说价值是一个关于信念状态的函数。“关于奖励获得的价值函数的参数是通过感受不同状态下的奖励经验逐渐确定的”(图2b)。第三,策略是在当前状态下采取何种行动的决定。“存在一个从状态到策略的映射,该映射受到习得价值的调节。”由于最优策略通常是未知的,生物体必须在“利用”奖励确定的行为和“探索”可能有更好奖励的行为之间进行权衡。Gershman 和Uchida (2019)认为“这三种不同形式的不确定性(与状态、价值和策略相关)在DA 的调节和被调节中扮演着核心角色。”在贝叶斯RL 框架下,“状态不确定性通过信念状态的概率分布影响DA 系统”,信念状态的计算可能发生在内侧前额叶(medial prefrontal cortex,MPFC)。“价值不确定性通过价值函数参数的概率分布影响DA 系统,DA 通过报告RPE 又反过来推动价值函数参数的更新”。价值函数形成主要涉及的脑区是纹状体。一篇关于RL 的元分析研究也指出,VS 是参与众多RL 的关键皮层下结构(Garrison et al.,2013)。最后,“策略不确定性通过生物体行为的概率分布影响DA 系统”。单核苷酸多态性研究发现,两个调控DA 水平的蛋白质COMT 和DARPP-32 参与了定向探索和随机探索(Frank et al.,2009;Humphries et al.,2012)。贝叶斯RL 框架极大地丰富了传统RPE 对DA 的解释。

图2 强化学习模型。(a)广义的强化学习过程。智能体发出动作改变环境,环境一方面改变了对智能体的状态输入,一方面给智能体提供一个强化信号(奖励或惩罚),影响智能体接下来的动作。如此循环,在奖励最大化的原则下不断调整智能体的行动策略。(b)贝叶斯框架下的强化学习(此图参考Gershman &Uchida,2019)。由于不确定性的存在,生物体实际获得的是基于贝叶斯规则得到的信念状态,即利用感官数据的概率分布(P(x))、潜在真实状态的先验概率(P(s))以及似然估计值(真实环境状态中得到当前感官数据的条件概率(P(x|s))计算得到的后验概率(P(s|x))。基于信念状态形成的关于未来奖励的价值函数在RPE 的变化中不断调整函数的参数。

该模型同样适用于从好奇发生到好奇满足的RL 过程。以与目标信息的距离为例,个体感知到的与目标信息的距离,即信念状态,是基于当前掌握信息和过往经验形成的估计,并不完全等同于当前环境与目标信息的真实距离。该估计值决定着目标信息预期价值。个体感知的与目标信息的距离随着信息寻求的展开不断变化,目标信息的预期价值也随之动态改变。当实际获得的信息价值高于其预期价值,即RPE 为正时,预示着可以对行为的预期价值进行上调,从而增加后续好奇发生和信息寻求的可能性。Litman 等人(2005)就发现,越是接近答案(feeling of knowing)被试就越是好奇,VS 激活也越强。

Jepma 等人(2012)的知觉好奇和Ligneul 等人(2018)的知识好奇研究都表明,在好奇满足阶段(分别对应图片模糊性消除和冷知识问题解答)VS会产生更强的神经活动。这一结果与Gruber 等人(2014)发现的答案预期阶段而非好奇满足阶段出现纹状体激活相矛盾。之所以出现这样的差异,与不同研究间的任务设计差异有关(Gruber et al.,2019)。Jepma 等人(2012)和Ligneul 等人(2018)的研究中,满足好奇的信息并不一定每次都出现,由于常常得不到满足,对目标信息的预期价值估计就会降低,而当意外获得目标信息时,就会出现一个明显正向的RPE。而Gruber 等人(2014)的冷知识问题的答案总是会出现,加上冷知识问题本身比较枯燥,使得冷知识问题答案提供的实际价值和答案的预期价值都比较稳定,导致答案呈现时的RPE 不会有太大的变化,而这可能会削弱好奇动机。

可见,对于信息寻求行为的强化来说,简单的好奇满足可能还不够,超出预期价值的信息也很重要。Marvin 和Shohamy (2016)用“信息预测偏差”(information prediction errors)表示新信息的实际回报价值与新信息的期望回报价值之差。如果获得的信息是意外的,则信息预测偏差为正,个体会调高未来新信息的预期回报价值。有研究表明,当新知识与期望不一致时,信息寻求行为会增加(Vogl et al.,2019)。另一方面,如果新信息没有超出预期,人们往往感到失望,信息价值会被调低。

前文提到,一些研究者认为信息缺口引起厌恶情绪,即好奇发生伴随着一个负性情绪(Berlyne,1957;Loewenstein,1994)。也有一些研究者认为好奇可能伴随着积极的情绪(Grossnickle,2016;Litman,2008)。这种理解上的差异很可能是因为研究者们关注的不是同一个情绪过程。当以过程观看待好奇的发生发展时,就会发现不同阶段引发的情绪是在不断变化的。好奇发生时产生情绪,好奇满足后也会伴随情绪。在好奇满足阶段,可能会产生诸如愉悦(好奇满足)、吃惊(目标信息价值超出预期)、失望(目标信息价值达不到预期)、无助(信息寻求失败)等情绪(di Leo et al.,2019;Vogl et al.,2019)。由于研究中对好奇的界定不清晰,情绪评估的阶段不统一,才会出现对好奇情绪认识的分歧。

2.4 信息整合阶段

至此,好奇的反馈循环还未真正结束。目标信息获得后,还需要对它进行进一步的加工。如果它最终被纳入原有的知识结构,就会更新先验知识库。信息缺口的形成,直接源于当前信息和先验知识的差距。而先验知识库的更新,会更容易产生新问题、形成新的信息缺口,诱发出新的好奇,进而启动新一轮的循环。Lydon-Staley 等人(2021)发现高剥夺型好奇者构建的知识网络更加紧密,在信息寻求中会更多的返回之前查看过的主题信息。

Murayama (2019)总结了知识获得促进进一步信息寻求的三条路径: 首先,如上所述,知识获得使个体更能意识到先前意识不到的“信息缺口”。这是因为扩充的知识网络使更多的知识扩展空间显露了出来(Loewenstein,1994)。意识到知识缺口就能促进好奇发生并进一步引导知识获取行为。其次,获得信息的奖励感会增加新信息的预期奖励价值,累积的知识还会让个体意识到相关主题的重要性,这都会让个体在评估阶段给新信息赋予更高的价值。最后,除了主题相关信息的价值会被上调外,个体对获取信息的能力感知也会提高,从而增加对信息寻求行为的价值估计。

不过,在知识获得后,无论在实验研究还是在真实学习情境中,都可能出现对新信息缺口感知的钝化。即个体没能发现更多的信息缺口,甚至终止学习任务,因为他们主观上觉得自己已经对该主题有了完全的了解。实验中出现这种情况多半是因为诱发材料(如冷知识)通常与先验知识没有太多关联,实用性太低,在答案获取过程中容易引起被试的餍足情绪(Marvin &Shohamy,2016;Murayama et al.,2019)。真实学习环境中的问题往往是,学生常常错误地认为自己已经掌握学习内容,但实际上并没有。如前文所述,个体的感知状态和真实状态之间是有差距的(Gershman&Uchida,2019)。相关研究表明,学习者对自己掌握的学习材料的判断常是不准确且过度乐观的,他们经常过早地终止了自己的学习行为(Murayama et al.,2016)。

总的来说,知识的获取与整合会增强未来的好奇动机,驱动更多的信息寻求行为,进而使知识获取过程具有可持续性。在奖励系统的作用下,从好奇发生到好奇满足,到真正的信息整合,再回到新一轮的好奇发生,形成了一个正反馈循环。而稳定的好奇特质正是这种短暂好奇体验重复发生并最终固化的结果(Fayn et al.,2019;Lydon-Staley et al.,2021)。

3 好奇在个体生命周期中的变化与发展

好奇反馈循环模型中从好奇发生到好奇满足,展现的是短暂性的好奇变化发展的一个小循环。事实上,好奇的变化发展嵌入在一个更大的动态过程,即个体的出生、成长和衰老中。

3.1 好奇随年龄的发展与分化

大量研究表明,婴幼儿会通过系统性地探索环境以减少不确定性并填补信息缺口,可见在好奇的发生和表现上婴幼儿与成人并无显著区别(Begus et al.,2016;Leckey et al.,2020)。

但引发好奇的刺激和好奇产生的影响会随年龄的增长而变化。引起不同年龄个体好奇的事物是不同的,婴儿喜欢探索视觉上更新奇的物体,而年幼的儿童更喜欢探索功能上不清楚的事物(Kidd &Hayden,2015;Schulz,2012)。2021 年,Fandakova 和 Gruber 用冷知识范式,研究了在10～14 岁被试中,好奇是如何影响记忆的。结果发现,个体越是好奇,对知识的记忆也就越好。而相比于10～12 岁的儿童,12～14 岁的青少年对冷知识答案表现出更好的记忆力,这一结果很大程度上与青少年对目标信息的价值预期有关,他们觉得冷知识问题比预期的更有趣(Fandakova &Gruber,2021)。也有可能是因为青少年的先验知识更多,更容易与新信息建立联结。

好奇的这些年龄特点可能与脑的发育有关。与冲突监测相关的ACC 在好奇发生中扮演着重要角色,从婴儿到青春期,ACC 都在持续的发育成熟。具体表现有,与认知冲突监测和处理相关的脑电成分——错误相关负波(ERN)的振幅在成年之前一直都在随着年龄的增长而增加。Fandakova等人(2018)还发现,12 岁的儿童在面对不确定性的记忆信息时会激活ACC 和AIC。但只有10～12岁的孩子会在报告不确定性时激活LPFC。进一步分析表明,10 岁时与认知冲突相关的脑区激活更强的孩子(尤其是AIC),在1.5 年后的不确定性评估中 PFC 的激活会更大。据此,Gruber 和Fandakova(2021)假设,随着年龄的增长,个体不断经历各种认知冲突导致的信息缺口,基于ACC的冲突处理能力不断提高,而ACC 激活上的差异,进一步导致基于PFC 的评估系统差异化地发展,最终使儿童和青少年表现出差异化的好奇和好奇驱动的探索行为。另一项纵向研究结果也显示,7～15 岁儿童PFC 的结构变化与评估过程的发展有关(Fandakova et al.,2017)。Fandakova 等人(2017,2018,2021)倾向于将LPFC 理解为评估系统,但在EVC 框架中LPFC 更多体现的是控制的执行(Shenhav et al.,2016)。就好奇相关研究来说,两种观点似乎都可以解释现有的研究结果,至于哪一种更合理仍需进一步探讨。另外,PFC 是一个比较模糊的脑区定位,它涉及很多亚区,不同亚区在功能上也是存在差异的(Reverberi,Lavaroni,et al.,2005),有必要对其进行更细致的区分。

总的来说,年幼儿童更依赖于ACC 和AI 的功能,对简单的信息预测偏差产生反应,从而表现出不加区分的高好奇。随着额叶系统的成熟,LPFC 开始对包括信息预测偏差及以外的其它相关因素进行综合评估(Fandakova et al.,2017,2018;Fandakova &Gruber,2021),又或者具有更强的控制能力使注意能聚焦于当前任务(Reverberi,Toraldo,et al.,2005;Shimamura,2000)。这都可能是年龄较小的孩子对不同领域表现出广泛的兴趣,而年龄较大的孩子的兴趣领域开始减少和分化的原因(Frenzel et al.,2012)。一旦好奇被诱发,LPFC 还会通过刺激中脑边缘系统多巴胺能通路来调节海马依赖的学习(Gruber et al.,2014;Lau et al.,2020)。可能正是发展了的PFC 与海马依赖性学习的多巴胺能神经调节之间的交互作用,让我们看到上文提到的现象,即信息预测偏差引发的好奇对青少年的记忆增强作用要强于儿童(Fandakova &Gruber,2021)。

3.2 好奇随年龄的衰退

好奇除了会随年龄增长表现出不断的分化外,还会随着个体的衰老而出现衰退。大量调查研究发现,从成年早期到成年晚期,个体的知识好奇、人际好奇和自我好奇等都会随年龄的增长而下降(Robinson et al.,2017)。与好奇相关的开放性(openness to experience;Costa et al.,2000;Ziegler et al.,2015)、感觉寻求(sensation seeking;Giambra et al.,1992)、探索行为(exploratory behaviors;Kashdan et al.,2009;Kashdan et al.,2004)都表现出相应的降低。

好奇及其相关行为的衰退主要与两个系统——DA系统和NE 系统的退化有关。DA 系统和NE 系统很容易受到衰老的影响。老年人大脑中这些对好奇至关重要的脑区的功能削弱和结构受损,可能是导致前面提到的主观好奇及其相关行为下降的一个重要原因(Chowdhury et al.,2013;Eppinger et al.,2013;Sakaki et al.,2018)。

不过,也正因为好奇能激活上述两个系统,使好奇成为抗衰老的一剂保护剂。海马会随着年龄增长出现功能障碍(Mitchell et al.,2000;Raz et al.,2010),而好奇可以通过DA 系统和NE 系统刺激海马,以减缓记忆功能的退化(Lisman &Grace,2005)。短暂的好奇激发,或形成长期的好奇特质对衰老有很好的抵抗作用。一项纵向研究发现,保持好奇可以让个体终身受益,尤其是在影响海马促进记忆上(Martin et al.,2007)。除了记忆保护,好奇对其它认知功能也有改善作用,这可能与DA 系统和NE 系统对PFC 的刺激有关(Sakaki et al.,2018)。

4 总结与展望

综上所述,好奇的反馈循环模型从动态过程的视角看待好奇的发生发展,把一次好奇事件分解成以下6 个过程,即: 感知信息缺口、好奇发生、控制的价值评估、信息寻求、好奇满足、信息整合。作为一个动态变化的过程,以上每一个环节都会受到当前信息输入和上一环节反馈输出的影响。模型确立了好奇的内部动机本质,将好奇诱发的情绪和行为分离出来,具体分析了每个阶段发生的条件、过程及影响。该模型以RL 模型为原型,区别在于好奇情境中最重要的强化物是满足好奇的信息本身,而非其它外部奖励。因此,在好奇反馈循环中,不断地诱发、满足好奇,并获得超出预期的目标信息才是可持续性知识获取的关键。

另外,好奇的这种动态循环嵌入在个体的终生发展过程中,一方面它受到生命发展中各种生理性变化的影响和限制;但另一方面,好奇循环的反复巩固也会引起生理上的变化,这种改变又反过来影响我们的生命进程。总的来讲,好奇相关的两个系统——DA 系统和NE 系统——对短期的注意、记忆和信息寻求行为有促进作用,对长期的认知功能维持与改善也大有益处。然而,即便好奇对从出生到年老的个体发展意义重大,但对好奇发展的特点及其背后的神经生理机制研究才刚刚起步,我们仍需要更多的研究数据才能对其形成一个更完整的认知。

好奇研究越来越具有跨学科性和多领域交叉性,这就需要有一个统一的概念和框架作为进一步科学讨论的基础。关于未来好奇的研究,可以加强对以下几个方面的关注。

4.1 加强对好奇满足的重视

以往研究更多关心好奇诱发所带来的各种好处,却忽视了好奇满足才是这些好处存在的关键。事实上,好奇得不到满足才是日常生活中的常态,它往往会带来一系列负性影响。例如,有研究发现,知识好奇不被满足带来的认知空虚会使个体产生更多的非理性消费,个体会用物质满足替代知识满足(Wiggin et al.,2019)。因此,后续研究有必要对好奇满足予以更多的关注。

4.2 改进现有的好奇研究范式

关于好奇的研究,一类是把好奇作为稳定特质的调查研究,另一类是针对短暂的好奇状态的实验研究。短暂的好奇状态的研究常用的研究范式包括引发知觉好奇的模糊图片范式(Jepma et al.,2012;Wiggin et al.,2019)和引发知识好奇的冷知识问题范式(Kang et al.,2009;Ligneul et al.,2018;Marvin &Shohamy,2016)。魔术(Lau et al.,2020)或抽奖任务范式(Kobayashi &Hsu,2019;van Lieshout,de Lange,et al.,2021,van Lieshout,Traast,et al.,2021)也常被用于诱发好奇,但在诱发的好奇类型上较为模糊。

这些好奇研究范式在解决一些特定问题上是存在局限的。例如,(1)好奇满足信息要么直接呈现,要么用代价(等待时间、代币或经历厌恶刺激)换取,无法反映被试的主动信息寻求行为。(2)各范式基本都会呈现答案,因此在试次间形成了对好奇满足的稳定期待;即便关注好奇满足,也只是在试次间(有些试次满足好奇,有些试次不满足好奇)进行比较,无法得知持续的好奇不满足会对被试造成什么样的影响。(3)诱发好奇的材料缺乏生态效度和实用价值,冷知识问题往往因其不成体系难以被整合。学习一个简短的、独立的冷知识问题的答案可能不足以激发人们进一步探索这个话题的兴趣。因此,这类范式很难探知知识积累对主题价值感知的影响。(4)当前研究范式更关注那些短暂好奇对信息寻求的影响(好奇满足信息在几秒钟后就呈现),虽然有利于刻画信息寻求的微观机制,但对整个知识获取过程缺乏整体把握。因此,未来有必要对好奇的研究范式进行充实和改进,以便对更现实、具体的好奇问题进行探讨。

4.3 加强对内部、外部奖励使用的比较

好奇诱发的学习和外部奖励(extrinsic rewards)诱发的学习本质上都是基于奖励的学习,二者的区别在于好奇是内部动机,满足好奇的信息是内部奖励(intrinsic rewards)。很多针对好奇的研究,往往在研究过程中既包含外部奖励,又包含内部奖励,混淆的变量会影响对好奇的理解和解释。

更重要的是,缺乏对内部动机和外部动机驱动的学习过程的比较研究。从 Festinger 和Carlsmith (1959)提出认知失调后,研究者们就意识到了外部奖励不足时,人们会自己生成奖励以使行为合理化。之后,研究者们陆续发现,外部动机有时会削弱内部动机,从而减少个体对任务的投入(Deci et al.,1999;Eisenberger et al.,1999)。这提示教育者必须非常小心地使用外部奖励,避免适得其反。因此,后续研究有必要对内部奖励、外部奖励的编码过程、使用时机和使用情境进行探讨,尽量保证学习过程是一个自我驱动的自增长过程。

4.4 重视好奇的发展性研究

从状态到特质,从动物到人,从婴儿到老年,好奇都有其重要的生存意义。但在对好奇的研究中,大多数研究者关心的只是它对青少年及成人的认知促进,忽略了它的在个体发展中的变化规律。例如,迄今为止几乎没有研究直接对儿童的好奇进行测量。好奇如何从小循环进入大循环,在更长的时间尺度上发生发展是今后需要重视的一个课题。