反馈负波及其近10年理论解释*

2018-02-22 05:25李丹阳
心理科学进展 2018年9期
关键词:正性脑电负性

李丹阳 李 鹏 李 红



反馈负波及其近10年理论解释*

李丹阳 李 鹏 李 红

(深圳大学心理与社会学院, 深圳 518060)

个体决策后的反馈对随后的结果监控和行为调整起着至关重要的作用。事件相关脑电位研究发现, 反馈负波(feedback-related negativity, FRN)是与决策后反馈加工过程紧密相关的脑电成分。近10年来关于FRN的理论解释, 在最初经典的强化学习理论和情绪动机假说的基础上又提出了反应−结果的预测模型、奖赏正波理论以及积极情绪启动模型。未来的研究应该立足于大样本, 采用互补的研究手段和多样的分析技术来探讨FRN的心理意义; 同时考虑将FRN作为奖赏加工的脑电指标, 研究社会互动情境下的人类行为。

反馈负波; 强化学习; 前扣带回; 奖赏正波; 奖赏预测误差

1 反馈负波简介

决策后的反馈是指个体做出决策行为之后所认识到的事件或行为结果, 它不仅能够帮助个体对行为结果进行评估和监察, 也能促进个体调整和修正下一步行为(Luft, 2014)。研究者利用事件相关电位技术(event related potentials, ERPs), 记录决策后呈现反馈结果时大脑皮层的脑电活动, 发现FRN这一脑电成分与反馈刺激的加工过程紧密相关。其中FRN指的是, 在负性反馈刺激呈现后的200~350 ms的时间窗口出现的一个相对负向偏转的脑电波成分(Miltner, Braun, & Coles, 1997; 李鹏, 李红, 2008), 它反映的是一种强化学习信号, 这种信号在大脑中的传递能够帮助行动者进行认知上的学习和行为决策上的调整(Schönberg, Daw, Joel, & O’Doherty, 2007)。

反馈加工过程是一个复杂的认知过程, 而个体对反馈的学习容易受到多方面因素的影响, 因此需要不断探索和尝试新的技术和方法进行研究和解释。当前研究中关于FRN的分析方式主要有两种:一种是原始波形的分析, 即计算不同类型的反馈刺激所诱发的脑电波叠加之后的平均波幅(Sambrook & Goslin, 2015); 另一种是差异波的分析, 即计算和分析正性反馈和负性反馈之间的差异波, 得到与奖赏加工相关的特异性FRN成分(Holroyd & Krigolson, 2007; Bress & Hajcak, 2013)。近年来也有一些研究者通过新的方法, 比如在脑电原始波的基础上利用主成分分析和独立成分分析法排除其他成分对FRN的干扰, 得到更精确和稳定的FRN成分。Marco-Pallares, Cucurell, Münte, Strien和Rodriguez-Fornells (2011)对于获得有效的FRN成分所需最少的叠加次数进行了探讨, 结果发现在正常人群中, 健康青年被试至少需要20个试次, 而健康老年被试至少需要50个试次; 其次, 稳定和有效的反馈负波获得主要取决于信号记录过程中的信噪比以及样本特征, 例如对于认知受损或者临床疾病的人群来说, 由于自身认知功能的下降等因素导致实验的信噪比较低, 可能需要更多的试次数量。

另外, 关于FRN的发生源, 不同的学者采用了不同的技术进行研究。大部分研究通过传统的偶极子溯源定位技术发现FRN可能产生于前扣带回皮层区域(anterior cingulate cortex, ACC)。前扣带回皮层位于前额叶区域, 与行为决策和认知控制有关, 因此这与FRN的理论解释相符合, 即FRN成分反映了个体对于结果评价的学习和决策过程(Holroyd & Coles, 2002; Nieuwenhuis, Holroyd, Mol, & Coles, 2004; Holroyd & Yeung, 2012)。然而, 也有研究者提出了一些相反证据。例如, Foti, Weinberg, Dien和Hajack (2011) 采用主成分分析法(principle components analysis, PCA), 提出FRN的发生源可能在于纹状体的壳核部分; 除此之外一些学者利用功能性磁共振成像与ERP技术相结合的方式, 采用独立成分分析法(independent components analysis, ICA), 证实了FRN还与大脑的多巴胺奖赏回路有关:可能也存在背侧和腹侧纹状体的激活(Becker, Nitsch, Miltner, & Straube, 2014)。综上可见, 受制于ERP技术本身空间定位不精确这一缺陷, FRN的溯源定位仅供参考, 相比而言, FRN前中部的头皮分布是一个来识别FRN成分的更加稳定的特质。

2 反馈负波的理论发展历程

从Miltner等人(1997)首次报告FRN这一脑电成分以来, 早期关于FRN的理论解释主要有两种竞争性理论:强化学习理论和情绪动机假说。前者认为, FRN反映了对于奖赏预期错误的认知加工过程; 后者则认为其反映了反馈刺激所带来的情绪、动机意义的评价过程(李鹏, 李红, 2008)。在最近10年左右的研究中, 关于FRN的理论解释又有了新发展和进步。本文将在2008年李鹏和李红《反馈负波及其理论解释》这一综述的基础上, 简述强化学习理论和情绪动机假说两种早期理论的最新发展, 并重点介绍近几年关于反馈负波的一些最新的理论模型的发展, 并提出一些新的研究方向。

2.1 经典的强化学习理论

强化学习理论认为, 人们通过不断的学习来调整行为, 从而选择最优化的决策。最初Holroyd和Coles (2002)采用概率奖赏学习任务, 即给被试呈现多个选项, 每个选项背后代表的奖赏或者惩罚的概率不同, 被试根据按键选择后呈现的反馈结果学习刺激和反应之间的联结, 从而调整自己的行为以期获得更多的奖赏。他们通过分析在概率学习任务中反馈刺激呈现后被试的脑电变化, 发现在长时间的反馈学习过程中, 正性反馈(即金钱奖赏)和负性反馈(即金钱损失)所诱发的脑电波差异主要来自于负性反馈:相较于正性反馈来 说, 负性反馈会诱发一个更加负向偏转的脑电波(Bellebaum & Daum, 2008)。因此, 首先该理论认为在反馈过程中人们会在行为−结果之间形成一个稳定的预测, 即类似于刺激−反应之间的联结信号, 也称作强化学习信号。根据这一信号的传递和监控, 行动者不断调整自身的行为选择, 从而习得最优化行为(Padrón, Fernández-Rey, Acuña, & Pardo- Vazquez, 2016)。其次, 该理论提出FRN这一成分是对于奖赏预测误差的一种表征, 即预期奖赏与实际奖赏的差异(reward prediction error, RPE)的表征。具体来说, 当呈现正性反馈结果即实际奖赏大于预期奖赏时, 会诱发一个正性的奖赏预测误差(positive reward prediction error, +RPE)信号, 个体根据这一反馈维持或者增加自身的行为表现; 但是当呈现负性结果即实际奖赏小于预期奖赏的情况时, 会诱发一个负性的奖赏预测误差(negative reward prediction error, −RPE)信号, 个体根据这一反馈调整或者减少自身的行为表现。有研究表明负性反馈相较于正性反馈会诱发一个更加负性的奖赏预测误差信号, 个体根据这一信号的传递做出目标指向性行为, 从而实现利益最大化。这一神经信号的加工过程主要是−RPE信号会导致中脑多巴胺神经元活动的相位下降, 继而引发ACC神经元的去抑制活动增强, 从而产生较大波幅的FRN (Holroyd & Coles, 2002; Maia & Frank, 2011)。

虽然该理论在一定程度上能够很好地解释早期反馈结果好坏维度上的二元评价(即比预期结果好, 或者比预期坏), 但是在近几年的研究中该理论也受到了一些挑战。首先, 该理论通过偶极子溯源定位分析, 认为FRN可能产生于ACC。然而, 有研究采用简单赌博任务范式, 即通过给被试呈现两个选项, 例如两个关着的门, 被试需要选择打开其中的一扇门, 被试做出决策后程序随机呈现反馈结果(赢或者输), 在反馈呈现阶段观察被试的脑电变化以及大脑激活水平的变化, 通过ERP和fMRI技术的结合发现FRN也可能源于背侧和腹侧纹状体(Carlson, Foti, Mujica-Parodi, Harmon-Jones, & Hajcak, 2011), 而这两个区域主要与金钱奖赏加工功能有关。第二, 该理论认为, 错误相关负波<①(error related negativity, ERN)和FRN反映的是一种类似的强化学习信号, 但是很多研究都表明这两个脑电波成分表现出了实验性分离, 二者反映了不同的认知阶段(Schulreich, 2016), 其中Gehring, Goss, Coles, Meyer和Donchin (1993)早期通过简单的按键反应任务(被试进行按键时就已经知道反应结果的正确与错误), 发现了ERN这一脑电成分。随后研究者通过建立刺激−反应之间的联结过程进一步分离个体的按键决策反应过程和随后的反馈结果呈现过程, 结果发现:在负性反馈呈现之后, 个体的脑电波出现了一个负性的偏转。所以, 大多数研究认为ERN反映了早期的错误检测的认知过程, 而FRN则反映了后期的反馈加工的认知学习过程(Schulreich, 2016)。第三, 该理论认为负性的奖赏预测误差会诱发较大波幅的FRN, 但是有研究者采用反转学习任务, 即通过在简单的赌博任务中不断改变刺激−结果之间的关系, 让被试在观察他人做出决策行为时报告自己的结果预期, 通过预期与反馈结果的对比, 分离预期因素和效价因素, 发现FRN仅对结果效价敏感, 而与预期因素无关(Von Borries, Verkes, Bulten, Cools, & de Brujin, 2013)。

2.2 情绪动机假说

情绪动机假说最早由Gehring和Willoughby (2002)提出。他们的研究操纵了金钱得失和行为正误两个变量, 发现FRN只对金钱得失敏感, 同时还发现FRN溯源定位于与情绪加工有关的ACC的前部, 从而认为FRN表征的是反馈刺激带来的情绪动机意义。该理论假说的提出挑战了强化学习理论的观点(Gehring & Willoughby, 2002)。随后, FRN领域早期的大量研究探讨了这两种理论的争论(例如:Gehring & Willoughby, 2002; Nieuwenhuis et al., 2004; 李鹏, 李红, 2008)。近10年来经典强化学习理论有了新的发展, 然而对于情绪动机假说的讨论减少, 讨论二者合理性的文献也越来越少。究其原因, 可能是研究者越来越意识到两者未必相互排斥:情绪动机假说不能脱离认知过程谈更高级的情绪(Yeung, 2004), 而强化学习理论只强调奖赏预期错误加工的认知过程, 也无法摆脱情绪动机对该认知过程自上而下的影响(Walsh & Anderson, 2012; Bismark, Hajack, Whitworth, & Allen, 2013)。此外, 研究者还发现即使是相同的强化学习过程在特定的社会交互情境中也会诱发不同大小的FRN成分(Li et al., 2010; Chen, Wu, Tong, Guan, & Zhou, 2012; Ma et al., 2011; Hu, Xu, & Mai, 2017), 说明动机因素调节了反馈加工过程。

实际上, 早期强化学习理论的提出者Holroyd近年来更新了自己的理论, 提出了多层次的强化学习模型(Holroyd & Yeung, 2012)。在该理论中, Holroyd等人提出FRN (又被称为Reward Positivity)反映的不是前扣带回皮层监控个体执行每一个具体动作的功能, 而是在不同的任务中做选择并且保持努力直到完成某个任务的功能(Holroyd & Umemoto, 2016)。这个观点实际上与早期的情绪动机假说部分吻合。

2.3 反应−结果的预测模型(Predicted response- outcome model, PRO model)

早期经典的强化学习理论认为, 表示行为错误或者失去奖赏的负性反馈刺激会诱发一个较大负向偏转的FRN。然而, Oliveira, McDonald和Goodman (2007)通过在时间估计任务中让被试在估计一秒钟的时间后, 接着报告自身的结果预期(预期自己反应正确或者错误), 随后呈现反馈结果来分离预期因素和效价因素的影响, 发现预期之外的反馈相较于预期之中会产生较大波幅的FRN, 这一结果和早期经典的强化学习理论的观点不符。Alexander和Brown (2011)针对FRN的效价独立性提出了反应−结果的预测模型。该模型认为FRN对结果反馈预期敏感, 主要编码突显的预测误差, 而不是RPE (Talmi, Atkinson, & El-Deredy, 2013; Kobza, Thoma, Daum, & Bellebaum, 2011)。由于以往的研究中主要关注奖赏条件下的反馈, 因此Talmi等(2013)研究者加入了厌恶刺激设计。他们设置了两种条件:奖赏条件和厌恶条件, 并通过操作奖赏条件下获得奖赏的概率(25%, 75%)以及惩罚条件下无电击的概率(25%, 75%)来定义预期因素(低概率事件发生的结果对被试来说是一个预期之外的反馈:例如25%的奖赏, 25%的无电击)以及反馈效价因素(奖赏还是电击), 被试需要根据每个试次的概率线索做出选择。结果发现预期之外的“无奖赏” (负性结果), 以及预期之外的“无电击” (正性结果)都会诱发一个较大波幅的FRN。因此, 该模型提出产生于前扣带回皮层的FRN编码类似于绝对的奖赏预测误差信号(absolute reward predicted errors):不管反馈的结果效价如何, 只要反馈结果和被试的预期不符合都会诱发一个较大的FRN波幅(Ferdinand, Mecklinger, Kray, & Gehring, 2012)。该研究也存在一定的不足, 比如说两种条件下的动机差异:奖赏条件下获得奖赏的次级强化物和厌恶条件下保护自己的初级强化物。由于动机的不一致, 直接对比两种条件下的差异可能存在问题。

但是, 该模型也存在一些争议。Sambrook和Goslin (2015)通过元分析发现, FRN可能受反馈效价以及奖赏数量的影响, 而预期这一因素仅反映在后期的P300成分上。该研究团队通过主成分分析的方法, 除了提取出编码+RPE的FRN成分之外, 还提取出了许多编码突显信息的成分, 但是没有提取出编码−RPE的成分(Sambrook & Goslin, 2016)。此外, 由于P300成分和FRN成分在时间窗口上存在一定的重叠, 导致某些研究在一定程度上混合了两个成分, 而P300也被认为和预期因素有紧密关系(Nieuwenhuis, Aston-Jones, & Cohen, 2005; Zheng, Li, Wang, Wu, & Liu, 2015; Balconi, Finocchiaro, & Canavesio, 2015), 因此, 该理论的合理性还需要进一步研究。

2.4 奖赏正波(Reward positivity, RewP)

根据近几年来对FRN差异波的分析, 研究者发现正性反馈条件下的FRN变化较大, 而负性反馈的差异波变化较小或者基本不变化, 因此FRN可能对于正性结果更加敏感(Walsh & Anderson, 2012)。实际上, Holroyd等人早在2008年就提出了“奖赏正波”这一概念, 这是对经典的强化学习理论的补充和修正。他们认为在时间估计任务和简单赌博任务中, 正性和负性反馈刺激呈现后的250 ms左右都会诱发一个相对正走向的差异波即RewP, 而且预期之外的正负反馈之间的差异值变化大于预期之内(Holroyd, Pakzad-Vaezi, & Krigolson, 2008)。此外, 该理论认为FRN是反馈效价和反馈预期相互作用的产物, 它代表了一种存在正负之分的奖赏预测误差(signed reward prediction errors, sRPEs), 这和经典的强化学习理论相一致。后来该团队针对PRO模型提出的反馈负波编码突显的预测误差信号进行研究。他们采用虚拟的T迷宫实验(即在迷宫的每一条路的拐角处, 都有相应的两个选项, 被试需要作出决策, 随后出现反馈结果), 设置了两种条件(奖赏以及惩罚), 从而产生了4种反馈结果, 金钱奖赏/无奖赏, 电击惩罚/无电击; 其中对于被试来说, 金钱奖赏和无电击结果是正性反馈, 无奖赏和电击是负性反馈。研究发现在奖赏条件下反馈刺激诱发了奖赏正波, 而在惩罚条件下诱发了一个延迟的奖赏正波(Heydari & Holroyd, 2016), 并且在惩罚条件下, 无电击相较于电击的波幅更正, 因此他们认为RewP反映的不是一种突显的预测误差, 而是一种奖赏预测误差。

一系列的研究表明这一现象的出现可能是由于预期之外的事件诱发了一个对新异刺激敏感的N200成分, 该成分主要和实验任务特征相关(Angus, Kemkes, Schutter, & Harmon-Jones,2015), 依赖于实验背景的操作(Baker & Holroyd, 2011; Shahnazian & Holroyd, 2017), 反映了刺激的新颖性。它反映在大脑活动上主要是正性反馈诱发的多巴胺活动的阶段性增加抵消了N200的活动从而产生了一个正偏向的RewP, (Hewig et al., 2010); 而负性反馈诱发的多巴胺活动阶段性下降则不能抵消N200的波幅, 最终导致负反馈相较正反馈诱发了较大的FRN原始波(Holroyd, Krigolson, & Lee, 2011)。因此, 潜在的RewP成分不能在脑电原始波上直接观察, 但是通过差异波减去N200成分或者通过PCA②处理后可以观察并分析这一成分(Foti et al., 2011)。

2.5 积极情绪启动模型(Positive affective system)

近几年的一些研究数据, 除了支持效价独立性的强化学习模型之外, 也有数据表明在奖赏背景下或者奖赏概率较高的条件下FRN会出现一个相对正走向的偏转波(San Martín, Manes, Hurtado, Isla, & Ibañez, 2010)。因此, 有研究者采用概率奖赏任务范式分析先前试次的反馈结果对于当前反馈结果的脑电活动影响时发现:在随机呈现反馈结果的情况下, 前一次结果是赢相较于前一次是输的条件, 本试次中正反馈诱发的FRN波幅更正, 而当前试次中负反馈诱发的波幅差异不显著(Mushtaq, Stoet, Bland, & Schaefer, 2013)。因此, Mushtaq, Wilkie, Mon-Williams和Schaefer (2016)学者提出了积极情绪启动模型。该模型认为, FRN可能对于积极背景因素敏感。例如前一试次中FRN的奖赏背景可能提前启动了一个积极情绪从而导致当前试次的FRN波幅呈现一个相对正向的偏转, 但是负性情绪条件下差异不显著, 因此这也可能作为未来测量积极情绪状态的一个客观的生理指标。

这一反馈加工过程表现在个体的神经活动上主要是, 积极情绪会诱发更多的中脑多巴胺神经元活动, 从而促使大脑在随后的行为表现中对与奖赏相关的刺激会更加敏感, 导致FRN产生一个更加正向的偏转波(Mushtaq et al., 2016)。但是该模型由于过分强调短时情绪效应对于反馈加工过程的影响, 而忽视了长时间的强化学习过程; 其次该模型只能解释反应−结果的联结不存在或者较弱的条件, 而不能解释反应−结果之间形成稳定的联结预测这一学习过程; 最后, 积极情绪启动模型是一个数据驱动模型, 研究者仍然需要将其与其他心理学理论相结合来解释复杂的反馈加工过程。

上述关于反馈负波的5种功能性意义的解释, 分别从不同的方面、不同的技术出发解释了人们是如何根据从环境中获得的反馈进行学习, 调整自身的行为, 从而做出最优化的决策。其中情绪动机假说与另外4种理论的不同主要体现在反馈负波所代表的是反馈刺激的认知加工过程还是其背后的情绪动机意义, 这个问题需要更深层次的研究。关于另外的4种理论的区别主要体现在:首先, 经典的强化学习理论和反应−结果的预期模型是理论驱动下的模型, 有自身的理论依据, 而奖赏正波模型和积极情绪驱动模型是数据驱动下的模型(Mushtaq et al., 2016), 理论和数据二者进一步地结合分析才能够更加完善地解释FRN这一成分。其次, 前三种理论对于FRN到底是与负性RPE, 正性RPE还是RPE的绝对值变化有关进行了争论, 而第四种理论与前三种的区别在于FRN反映的到底是长期学习的影响还是短期情绪的影响。具体来说, 经典的强化学习理论模型认为人们对于−RPE敏感, 反馈加工的认知过程反映了错误的检测过程和认知评价过程; 反应−结果的预期模型认为人们对于显著的意料之外的预测误差敏感(RPE的绝对值), 反馈加工的认知过程反映了一种冲突监控的认知过程; 而奖赏正波理论的支持者通过正负反馈差异波或PCA等数据处理方式对脑电数据进行分析, 发现反馈负波对于正性的反馈结果更加敏感从而提出了奖赏正波模型。最后, 其他研究者发现在短时期的学习过程中, 积极的背景启动会使反馈负波对于正性的反馈结果更加敏感, 从而提出了积极情绪启动模型。

3 研究启示

目前关于FRN的理论解释还不完善, 但是随着未来研究的深入, 有望形成一个较为统一的FRN理论。当前研究者采用不同的实验任务, 以及不同类型的反馈刺激形式, 如积极反馈、消极反馈和模糊反馈(Gu et al., 2017; Ernst & Steinhauser, 2015), 并基于这些任务背景或者特定的分析方法得出了不同的结论(Zheng et al., 2015, 2017; Umemoto, Hajihosseini, Yates, & Holroyd, 2017; Schaefer, Buratto, Goto, & Brotherhood, 2016), 支持了不同的理论假设。而由于脑电波很容易受到其他因素的干扰, 从而导致研究者在提取和分析FRN成分上存在问题, 这对于FRN理论的整合也存在一定的影响。未来关于FRN的理论探索可以从以下几个方面进行深入:

第一, 进一步改进FRN的获得方式和分析方法。由于决策后的反馈学习过程是一个复杂的心理过程, 不仅包含反馈加工过程, 还包含奖赏预期, 结果评价等过程, 现有的研究范式和数据分析方法不能有效地剔除和分离其他脑电成分对于FRN的影响。因此, 将来的研究一方面可以从数据处理着手, 考虑采用主成分分析法(PCA)、独立成分分析法(ICA)与时频分析方法相结合的方法(Bernat, Nelson, & Baskin-Sommers, 2015; Cohen, Wilmes, & van de Vijver, 2011), 从而较为有效地分离FRN、P300以及其他无关的脑电成分(Sambrook & Goslin, 2015)。另外, 也可以尝试从样本量入手, 提高统计检验力和实验效度, 采用大数据、大样本的思路, 缩小实验误差, 从而得到可靠和有效的FRN, 为相关的理论完善提供坚实的数据支持(Sambrook & Goslin, 2016)。除此之外, 还应充分发挥不同技术的优势, 取长补短, 更加深入地研究FRN。例如, 有高空间分辨率的fMRI和有高时间分辨率的ERP的结合能够提供更加精确的空间定位和时间进程的变化, 进一步加深对强化学习进程的认识(Becker et al., 2014)。另外, 也可以将无损伤的脑刺激技术和ERP技术相结合, 通过微弱电流/磁场来刺激反馈加工的相关脑区, 从而分析FRN相关脑区的作用。

第二, 关于FRN在大脑中的起源地, 学者们存在不同的认识, 主要存在两种观点:FRN可能源于具有认知控制功能的前扣带回皮层, 也可能源于负责奖赏加工的纹状体区域。未来的研究可以从被试的选取角度来探讨FRN发生地。例如以往的研究主要选取健康的成年被试, 未来的研究可以选取前扣带回皮层受损或者纹状体受损的被试进行研究, 通过分析这两类被试的行为表现, 对比特殊被试与正常被试的反馈加工的行为学习过程和脑电差异, 来验证或者探索FRN的发生源。

第三, 关于FRN的理论解释, 应该从具体的情境出发, 具体分析个体在不同的环境中对于不同刺激物的学习和加工过程。目前FRN的研究大多局限于实验室环境, 未来的研究可以借助新兴的仪器或者技术来研究真实社会情境下的FRN的变化以及所反映的心理过程。比如说, 利用近红外设备和ERP技术的结合, 研究真实情境中双人或者多人的合作或竞争等, 观察个体在合作或竞争条件下学习过程中的脑电变化, 探索在社会认知领域中一般人群的强化学习过程, 将FRN与社会认知过程相联系, 从而提供更为完善的心理解释机制。国内研究者Leng和Zhou (2010)主要关注结果评价过程中个体社会认知活动中的脑电变化, 他们发现结果评价的早期过程中FRN可能在行为正误以及自我利益的激活上扮演着重要作用。近几年来越来越多的学者将FRN研究应用于高级社会认知加工过程当中, 例如责任感(Li et al., 2010; Beyer, Sidarus, Bonicalzi, & Haggard, 2017), 社会合作(Kimura & Katayama, 2016), 自我归因(Li, Han, Lei, Holroyd, & Li, 2011), 社会从众(Chen et al., 2012; Shestakova et al., 2013), 移情机制(Ma et al., 2011; Thoma, Norra, Juckel, Suchan, & Bellebaum, 2015), 社会比较效应(Wu, Zhang, Elieson, & Zhou, 2012)等。未来的研究也可以进一步探讨特殊人群的强化学习过程, 例如, 焦虑障碍, 强迫症, 阿兹海默症等(Gu, Huang, & Luo, 2010; Gu, Ge, Jiang, & Luo, 2010; Takács et al., 2015; Doñamayor, Dinani, Römisch, Ye, & Münte, 2014; Mensen et al., 2015), 在临床上提供客观的生理指标。但是, 在实验中社会情境本身的生态效度以及脑电实验特有的多试次重复等都是未来研究中需要慎重考虑的问题。

李鹏, 李红. (2008). 反馈负波及其理论解释.(5), 705−711.

Alexander, W. H., & Brown, J. W. (2011). Medial prefrontal cortex as an action-outcome predictor.(10), 1338−1344.

Angus, D. J., Kemkes, K., Schutter, D. J. L. G., & Harmon- Jones, E. (2015). Anger is associated with reward-related electrocortical activity: Evidence from the reward positivity.52(10), 1271–1280.

Baker, T. E., & Holroyd, C. B. (2011). Dissociated roles of the anterior cingulate cortex in reward and conflict processing as revealed by the feedback error-related negativity and N200.(1), 25−34.

Balconi, M., Finocchiaro, R., & Canavesio, Y. (2015). Reward sensitivity (behavioral activation system), cognitive, and metacognitive control in gambling behavior: Evidences from behavioral, feedback-related negativity, and p300 effect.(3), 219−227.

Becker, M. P. I., Nitsch, A. M., Miltner, W. H., & Straube, T. (2014). A single-trial estimation of the feedback-related negativity and its relation to bold responses in a time- estimation task.(8), 3005− 3012.

Bellebaum, C., & Daum, I. (2008). Learning-related changes in reward expectancy are reflected in the feedback-related negativity.(7), 1823−1835.

Bernat, E. M., Nelson, L. D., & Baskin-Sommers, A. R. (2015). Time-frequency theta and delta measures index separable components of feedback processing in a gambling task.(5), 626–637.

Beyer, F., Sidarus, N., Bonicalzi, S., & Haggard, P. (2017). Beyond self-serving bias: Diffusion of responsibility reduces sense of agency and outcome monitoring.(1), 138−145.

Bismark, A. W., Hajcak, G., Whitworth, N. M., & Allen, J. J. B. (2013). The role of outcome expectations in the generation of the feedback-related negativity.(2), 125–133.

Bress, J. N., & Hajcak, G. (2013). Self-report and behavioral measures of reward sensitivity predict the feedback negativity.(7), 610–616.

Carlson, J. M., Foti, D., Mujica-Parodi, L. R., Harmon-Jones, E., & Hajcak, G. (2011). Ventral striatal and medial prefrontal BOLD activation is correlated with reward- related electrocortical activity: A combined ERP and FMRI study.(4), 1608−1616.

Chen, J., Wu, Y., Tong, G. Y., Guan, X. M., & Zhou, X. L. (2012). ERP correlates of social conformity in a line judgment task.(1), 43.

Cohen, M. X., Wilmes, K. A., & van de Vijver, I. (2011). Cortical electrophysiological network dynamics of feedback learning.(12), 558−566.

Doñamayor, N., Dinani, J., Römisch, M., Ye, Z., & Münte, T. F. (2014). Performance monitoring during associative learning and its relation to obsessive-compulsive characteristics., 73−87.

Ernst, B., & Steinhauser, M. (2015). Effects of invalid feedback on learning and feedback-related brain activity in decision-making., 78−86.

Ferdinand, N. K., Mecklinger, A., Kray, J., & Gehring, W. J. (2012). The processing of unexpected positive response outcomes in the mediofrontal cortex.(35), 12087−12092.

Foti, D., Weinberg, A., Dien, J., & Hajcak, G. (2011). Event-related potential activity in the basal ganglia differentiates rewards from nonrewards: Temporospatial principal components analysis and source localization of the feedback negativity.(12), 2207–2216.

Gehring, W. J., Goss, B., Coles, M. G. H., Meyer, D. E., & Donchin, E. (1993). A neural system for error detection and compensation.(6), 385–390.

Gehring, W. J., & Willoughby, A. R. (2002). The medial frontal cortex and the rapid processing of monetary gains and losses.(5563), 2279−2282.

Gu, R. L., Feng, X., Broster, L. S., Yuan, L., Xu, P. F., & Luo, Y. J. (2017). Valence and magnitude ambiguity in feedback processing.(5), e00672.

Gu, R. L., Huang, Y. X., & Luo, Y. J. (2010). Anxiety and feedback negativity.(5), 961−967.

Gu, R. L., Ge, Y., Jiang, Y., & Luo, Y. J. (2010). Anxiety and outcome evaluation: The good, the bad and the ambiguous.(2), 200−206.

Hewig, J., Kretschmer, N., Trippe, R. H., Hecht, H., Coles, M. G. H., Holroyd, C. B., & Miltner, W. H. R. (2010). Hypersensitivity to reward in problem gamblers.(8), 781−783.

Heydari, S., & Holroyd, C. B. (2016). Reward positivity: Reward prediction error or salience prediction error?.(8), 1185−1192.

Holroyd, C. B., & Coles, M. G. (2002). The neural basis of human error processing: Reinforcement learning, dopamine, and the error-related negativity.(4), 679−709.

Holroyd, C. B., & Krigolson, O. E. (2007). Reward prediction error signals associated with a modified time estimation task.(6), 913−917.

Holroyd, C. B., Krigolson, O. E., & Lee, S. (2011). Reward positivity elicited by predictive cues.(5), 249−252.

Holroyd, C. B., Pakzad-Vaezi, K. L., & Krigolson, O. E. (2008). The feedback correct-related positivity: Sensitivity of the event-related brain potential to unexpected positive feedback.(5), 688–697.

Holroyd, C. B., & Umemoto, A. (2016). The research domain criteria framework: The case for anterior cingulate cortex., 418−443.

Holroyd, C. B., & Yeung, A. N. (2012). Motivation of extended behaviors by anterior cingulate cortex.(2), 122−128.

Hu, X. M., Xu, Z. H., & Mai, X. Q. (2017). Social value orientation modulates the processing of outcome evaluationinvolving others.(11), 1730−1739.

Kimura, K., & Katayama, J. (2016). Cooperative context is a determinant of the social influence on outcome evaluation: An electrophysiological study., 28−35.

Kobza, S., Thoma, P., Daum, I., & Bellebaum, C. (2011). The feedback-related negativity is modulated by feedback probability in observational learning.(2), 396−404.

Leng, Y., & Zhou, X. L. (2010). Modulation of the brain activity in outcome evaluation by interpersonal relationship: An ERP study.(2), 448−455.

Li, P., Han, C. H., Lei, Y., Holroyd, C. B., & Li, H. (2011). Responsibility modulates neural mechanisms of outcome processing: An ERP study.48(8), 1129−1133.

Li, P., Jia, S. W., Feng, T. Y., Liu, Q., Suo, T., & Li, H. (2010). The influence of the diffusion of responsibility effect on outcome evaluations: Electrophysiological evidence from an ERP study.(4), 1727− 1733.

Luft, C. D. B. (2014). Learning from feedback: The neural mechanisms of feedback processing facilitating better performance.(6), 356− 368.

Ma, Q. G., Shen, Q., Xu, Q., Li, D. D., Shu, L. C., & Weber, B. (2011). Empathic responses to others' gains and losses: An electrophysiological investigation.(3), 2472−2480.

Maia, T. V., & Frank, M. J. (2011). From reinforcement learning models to psychiatric and neurological disorders.(2), 154−162.

Marco-Pallares, J., Cucurell, D., Münte, T. F., Strien, N., & Rodriguez-Fornells, A. (2011). On the number of trials needed for a stable feedback-related negativity.(6), 852–860.

Mensen, A., Poryazova, R., Huegli, G., Baumann, C. R., Schwartz, S., & Khatami, R. (2015). The roles of dopamine and hypocretin in reward: A electroencephalographic study.(11), e0142432.

Miltner, W. H. R., Braun, C. H., & Coles, M. G. H. (1997). Event-related brain potentials following incorrect feedback in a time-estimation task: Evidence for a "generic" neural system for error detection.(6), 788−798.

Mushtaq, F., Stoet, G., Bland, A. R., & Schaefer, A. (2013). Relative changes from prior reward contingencies can constrain brain correlates of outcome monitoring.(6), e66350.

Mushtaq, F., Wilkie, R. M., Mon-Williams, M. A., & Schaefer, A. (2016). Randomised prior feedback modulates neural signals of outcome monitoring., 868−879.

Nieuwenhuis, S., Aston-Jones, G., & Cohen, J. D. (2005). Decision making, the P3, and the locus coeruleus- norepinephrine system., 510− 532.

Nieuwenhuis, S., Holroyd, C. B., Mol, N., & Coles, M. G. H. (2004). Reinforcement-related brain potentials from medial frontal cortex: Origins and functional significance.(4), 441−448.

Oliveira, F. T. P., McDonald, J. J., & Goodman, D. (2007). Performance monitoring in the anterior cingulate is not all error related: Expectancy deviation and the representation of action-outcome associations.(12), 1994−2004.

Padrón, I., Fernández-Rey, J., Acuña, C., & Pardo-Vazquez, J. L. (2016). Representing the consequences of our actions trial by trial: Complex and flexible encoding of feedback valence and magnitude., 264−276.

Sambrook, T. D., & Goslin, J. (2015). A neural reward prediction error revealed by a meta-analysis of ERPs using great grand averages.(1), 213−235.

Sambrook, T. D., & Goslin, J. (2016). Principal components analysis of reward prediction errors in a reinforcement learning task., 276−286.

San Martín, R., Manes, F., Hurtado, E., Isla, P., & Ibañez, A. (2010). Size and probability of rewards modulate the feedback error-related negativity associated with wins but not losses in a monetarily rewarded gambling task.(3), 1194−1204.

Schaefer, A., Buratto, L. G., Goto, N., & Brotherhood, E. V. (2016). The feedback-related negativity and the p300 brain potential are sensitive to price expectation violations in a virtual shopping task.(9), e0163150.

Schönberg, T., Daw, N. D., Joel, D., & O'Doherty, J. P. (2007). Reinforcement learning signals in the human striatum distinguish learners from nonlearners during reward-based decision making.(47), 12860−12867.

Schulreich, S. (2016). Altered performance monitoring in psychopathy: A review of studies on action selection, error, and feedback processing.(1), 19−27.

Shahnazian, D., & Holroyd, C. B. (2017). Distributed representations of action sequences in anterior cingulate cortex: A recurrent neural network approach., doi: 10.3758/s13423-017-1280-1

Shestakova, A., Rieskamp, J., Tugin, S., Ossadtchi, A., Krutitskaya, J., & Klucharev, V. (2013). Electrophysiological precursors of social conformity.(7), 756−763.

Takács, Á., Kóbor, A., Janacsek, K., Honbolygó, F., Csépe, V., & Németh, D. (2015). High trait anxiety is associated with attenuated feedback-related negativity in risky decision making.600, 188−192.

Talmi, D., Atkinson, R., & El-Deredy, W. (2013). The feedback-related negativity signals salience prediction errors, not reward prediction errors.(19), 8264−8269.

Thoma, P., Norra, C., Juckel, G., Suchan, B., & Bellebaum, C. (2015). Performance monitoring and empathy during active and observational learning in patients with major depression., 222−231.

Umemoto, A., Hajihosseini, A., Yates, M. E., & Holroyd, C. B. (2017). Reward-based contextual learning supported by anterior cingulate cortex.(3), 642−651.

Von Borries, A. K. L., Verkes, R. J., Bulten, B. H., Cools, R., & de Bruijn, E. R. A. (2013). Feedback-related negativity codes outcome valence, but not outcome expectancy, during reversal learning.(4), 737−746.

Walsh, M. M., & Anderson, J. R. (2012). Learning from experience: Event-related potential correlates of reward processing, neural adaptation, and behavioral choice.(8), 1870− 1884.

Wu, Y., Zhang, D. X., Elieson, B., & Zhou, X. L. (2012). Brain potentials in outcome evaluation: When social comparison takes effect.(2), 145−152.

Yeung, N. (2004). Relating cognitive and affective theories of the error-related negativity. In(pp. 63−70).Leipzig.

Zheng, Y., Li, Q., Wang, K., Wu, H. Y., & Liu, X. (2015). Contextual valence modulates the neural dynamics of risk processing.(7), 895–904.

Zheng, Y., Li, Q., Zhang, Y. Y., Li, Q., Shen, H. J., Gao, Q. H., & Zhou, S. Y. (2017). Reward processing in gain versus loss context: An ERP study.(7), 1040−1053.

①ERN主要出现在错误反应呈现后的80 ms, 是一种刺激锁定的ERP成分, 是一个对于早期的反应错误的自动化觉察过程。

② PCA是一种数据驱动下的分析技术, 主要用于提取事件的主要成分, 剔除事件中的其它重叠成分, 是一种降维的方法。

The updated theories of feedback-related negativity in the last decade

LI Danyang; LI Peng; LI Hong

(College of psychology and sociology, Shenzhen University, Shenzhen 518060, China)

External feedback plays a vital role in ongoing outcome monitoring and future behavioral adjustments. Previous event-related potentials (ERPs) studies have consistently associated the feedback- related negativity (FRN) component with feedback processing after decision making. Until now, several theoretical interpretations of FRN were proposed and continuously updated in the last decade, including the classical reinforcement learning theory, affective-motivational hypothesis, reward positivity (RewP) theory, Predicted response-outcome model (PRO model) and Positive affective model. Whereas different models emphasized on different aspects, no unified theory has yet been proposed to integrate all of the existing experimental evidences. Based on these literature reviews, we argued that big-sample data, multiple and complementary technologies are highly necessary in future FRN studies. Moreover, we proposed that FRN should be considered as an electrophysiological index of reward system to investigate human behaviors in complex social interaction contexts.

feedback-related negativity; reinforcement learning; anterior cingulate cortex; reward positivity; reward prediction error

B845

2017-07-21

* 国家自然科学基金项目(31671158和31671150)、广东省普通高校创新团队建设项目(2015KCXTD009和2015WTSCX094)、深圳市基础学科布局项目(JCYJ20150729104249783)、深圳大学青年教师科研启动项目(2017074), 深圳大学人文社科青年扶持项目(16QNFC51)。

李鹏, E-mail: peng@szu.edu.cn

10.3724/SP.J.1042.2018.01642

猜你喜欢
正性脑电负性
自我管理干预对血液透析患者正性情绪和生活质量的影响
共患难, 更同盟:共同经历相同负性情绪事件促进合作行为*
国学教育理念带给临床护理实习生的正性导向作用的研究
非负性在中考中的巧用
个性化护理干预对子宫全切患者负性情绪的影响
正性情绪教学法在初中数学课堂的应用研究
希望疗法对康复期精神分裂症患者负性情绪的影响
现代实用脑电地形图学(续)
现代实用脑电地形图学(续)
现代实用脑电地形图学(续) 第五章 脑电地形图的临床中的应用