重复决策中的概率匹配行为及其认知机制*

2019-04-29 02:31:0434

应用心理学 2019年2期

(1.四川理工学院教育与心理科学院，自贡 643000;2.西南大学心理学部，重庆 400715;3.重庆脑科学协同创新中心西南大学分中心，重庆 400715;4.中国基础教育质量协同创新中心西南大学分中心，重庆 400715)

1 引言

日常生活中的很多决策问题大多具有重复的性质，常常需要在相同或相似的情境下做选择。例如司机决定开车是否系安全带，企业决定是否在年度税务报告中做“手脚”，医生判断某种症状是否应被诊断为癌症。一般意义上讲，理性的决策者在面临上述决策问题时，应当每一次都采取价值最大化的最优策略。例如，当司机认为系安全带对自己更有利时，他/她应当始终采取系安全带的措施。然而大量研究表明，人类决策者在面对重复性决策问题时，并不总是做出对自身最有利的行动。

在经典的概率学习任务中，被试需要预测两个互斥的随机事件，例如猜测红绿两只灯泡哪只会亮。每次预测时，红和绿出现的概率分别为0.3和0.7，并且概率值在整个实验中保持不变。理性人应该始终猜测绿色，该策略平均正确率为0.7；然而实际研究中，多数决策者更倾向于采取概率匹配(probability matching)的策略，即大致以3∶7的比例猜测红和绿。该策略的平均正确率只有0.7×0.7+0.3×0.3=0.58，因而是次优的。概率匹配行为已被大量实验研究重复(见综述Hardy-Vallee,2007;Koehler & James,2014;Vulkan,2000)。此外，在人类知觉决策(Murray,Patel,& Yee,2015)、概率推断(Acerbi,Vijayakumar,& Wolpert,2014)、抽象规则的学习(Craig,Phillips,Zaldivar,Bhattacharyya,& Krichmar,2016)、注意的空间分配(Geng et al.,2013)等研究领域中也都发现了类似的行为模式。

早期的观点认为，概率匹配行为是一种次优的非理性行为(见综述Vulkan,2000)。然而，根据司马贺(Simon,1990)提出的有限理性(bounded rationality)原理，由于认知能力的局限，人类并不总够获得所有问题的最优解，因而在对个体行为做出评价时，应当充分考虑决策者的认知能力及其所处的具体环境。在评价概率匹配行为时，同样应该考虑到环境因素。实验室条件下的重复决策问题大都是静态(static)的，具有时间独立(temporal independence)的性质(Haselton et al.,2009)，然而真实世界的随机过程大都存在一定的规律，如物价随时间波动的情况、觅食资源的时间-空间分布状况(Group et al.,2014)。因此，概率匹配行为可能在某种程度上具有一定的进化合理性(Hardy-Vallee,2007;Seth,2007；Todd,& Gigerenzer,2012)。

个体行为受认知能力和环境因素共同影响，具有一定的多样性(Simon,1990；王晓田,&陆静怡.2016)。这里需要区分两类可能导致概率匹配行为的策略。一类称为启发式，指在认知能力有限的前提下所采取的简化策略(Simon,1990)。另一类称为老练(sophistication)，指通过分析环境结构、构建心理模型(internal/world model)来指导决策行为(Daw,Niv,& Dayan,2005;Shteingart & Loewenstein,2014)。与启发式相比，老练策略需要投入更多的认知资源。

2 认知启发式

这部分将分别阐述联结学习(associative learning)和选择多样化(choice diversification)两种可能导致概率匹配行为的启发式策略。

2.1 联结学习启发式

早期的学习理论家认为，概率匹配行为主要来自于外推(extropolate)短期成败经验的联结学习过程(Erev & Barron,2005；Vulkan,2000)。联结学习的基本原理是效果律(law of effect)：重复成功的反应，规避失败的反应。在重复决策任务中，联结学习理论假设个体在短时记忆中回溯最近几次的成功、失败的经验，并采取成功次数较多而失败次数较少的反应。该策略的一种极端形式是只依赖最近一次反馈的反应规则：成功后维持不变，失败后立即调整反应(win-stay-loss-shift)(Otto et al.,2011;Worthy & Maddox,2014)。联结学习策略是一类简化的认知启发式，因为只需要遵循一个简单的规则，而不需要更多认知资源的投入。

但是也有一些证据表明，联结学习启发式能够更灵活地适应决策环境的动态变化。例如在重复决策任务中，当优势选项在被试不知情的情况下发生反转(reversal)时——指原先获得奖励概率较高的优势选项转变为获得奖励概率较低的次优选项，而原先的次优选项则转变为优势选项，这类任务称为反转学习(reversal learning)(见综述Izquierdo et al.,2017)——原先表现出概率匹配行为模式的决策者能够更迅速地适应这一变化，在更短时间里改变反应模式，更多选择反转后的优势选项(Gaissmaier et al.,2008)。

联结学习策略也会受认知能力和任务情境因素的调节。当同时存在的干扰任务占用了工作记忆资源时，个体采用联结学习策略的偏好会增加(Otto et al.,2011;Worthy,Otto,& Maddox,2012)；反之在认知资源充足的条件下，个体倾向于采取老练的探索学习策略(Gaissmaier & Schooler,2008)(见本文第3节)。也就是说，个体能够选择与认知能力相匹配的策略。另一些证据表明，在决策情境动态变化的反转学习任务中，个体能够通过检测选项反转(环境变化)的频繁性来调整反应策略：当选项反转出现得不那么频繁时，个体对情境变化表现得不敏感，需要经历更多次失败才会放弃原先的优势选项(反转后为劣势选项)；反之，当反转事件出现地较频繁时，个体对情境变化则表现得较敏感(Behrens,Woolrich,Walton,& Rushworth,2007;Faraut,Procyk,& Wilson,2016)。这说明在动态的决策环境中，个体能够推断环境中的高级规则，并根据这些规则来调整学习和反应策略，这是元学习能力的体现(Faraut,Procyk,& Wilson,2016)。

2.2 多样化的策略

另一些学者认为，概率匹配行为可以看作一类多样化的反应策略，该策略可能来自于心理模拟的认知启发式(Koehler & James,2014)。在Koehler和James(2010)的实验中，研究者使用一个2面为红色、4面为绿色的特殊筛子，要求被试连续猜测10次掷筛子的结果(红色还是绿色朝上)，正确的猜测可获得奖励。结果显示，有超过一半被试会给出一个多样化的反应，比如3次猜红色、7次猜绿色。两位研究者认为，在上述问题中，人们倾向于在头脑中模拟10次掷筛子的结果，并根据他们想象出来的结果进行反应。由于人们更容易想象红、绿两种颜色混合的结果，而不是清一色的红或绿，于是他们给出的预测也是红绿相混合的。根据该假说，心理模拟的容易程度取决于个体对两次预测事件的知觉连续性。因此当上述研究的实验者使用10枚不同图案的筛子(James & Koehler,2011)或是在两次预测之间增加一些时间间隔和干扰(破坏了知觉连续性)(Denison,Bonawitz,Gopnik,& Griffiths,2013)，都能够显著降低概率匹配行为。相反地，同时预测多个事件则会增加知觉连续性，并导致多样化的反应模式(Gao & Corter,2015)。

在真实世界中，多样化策略并非总是对个体不利。例如，觅食的动物通过选择多个不同的觅食地点能够有效地分摊风险(risk spreading)(Higginson et al.,2012)，因为在生态环境中，被捕食群体大多数情况下会成群地、不规律地出现在其中的某个觅食地点，锁定单个地点往往会扑空。此外，当群体内部成员间彼此竞争资源时，多样化的策略也有助于优化资源的分配。经验证据表明，觅食群体能够自发地组织起来，根据食物资源的空间分布模式成比例地分配种群数量，成功地避免了因“扎堆”所带来的低效(Tregenza,1995)，人类被试在实验模拟的资源竞争任务中也表现出类似的行为模式(Schulze et al.,2015)，而采取概率匹配策略的计算机程序也更有可能在实验室模拟的竞争觅食环境中胜出(Seth,2007)。此外，某些物种(如斑马鱼、阿根廷蚁、三刺鱼)的归一化行为(collective behavior)——指某个群体中，个体对其他成员行为的模仿——也服从概率匹配的模式(Arganda et al.,2012)。这些结果暗示，多样化的概率匹配策略可能具有一定的进化合理性，是个体适应特定环境的有效策略。有趣的是，像诸如城市化、择偶、商业竞争这类人类社会现象似乎也符合上述规律。

2.3 启发式策略的评价

判断决策领域的一些学者始终致力于寻找人类判断和决策过程中存在的认知偏差，并收获了颇丰的成果(Gilovich,Griffin,& Kahneman,2002)。然而，启发式偏差(heuristics and bias)研究取向存在一定的不足。首先，忽略了环境变量对行为的影响(Gigerenzer & Gaissmaier,2011；Haselton et al.,2009)。其次，对认知过程的多样性缺乏关注。一些学者提出双过程理论(dual-processes theory)(Evans & Stanovich,2013)，主张将认知系统分为直觉(intuitive)和分析(deliberative)两种独立的成分，思维可看做是两个系统的共同作用的结果。Koehler和James(2014)在双过程框架下探讨了概率匹配行为的认知过程，然而该模型仍然存在一定的缺陷。一方面，该模型依然是基于描述性的，即简单地将个体行为看成两种过程的叠加，却并没有深入到机制层面进行解释(Gigerenzer & Gaissmaier,2011)。另一方面，该模型不能预测个体如何对环境的变化做出反应，也不能解释个体或群体行为的进化根源(Group et al.,2014)。

3 老练的策略

概率匹配行为也可能来自两种更老练的(sophisticated)策略：找规律(searching pattern)和构建心理模型(internal/world model)。本小节将分别阐述两种策略。

3.1 自下而上的推断

一些实验研究提供了支持找规律行为的证据。在一项早期的概率学习实验中(Yellott,1969)，研究者在被试不知情的情况下，操纵了任务最后阶段的反馈，使得猜测任意结果都能获得正确的反馈。有趣的是，多数被试在最后阶段依然表现出概率匹配行为，实验结束后，这些被试甚至声称他们发现了其中的规律(即使并不存在)。Gaissmaier和Schooler(2008)用一个有规律的模式序列直接探测被试找规律的倾向，结果发现那些在模式序列中能够成功发现规律并加以利用的被试，在完全随机的伯努利序列中也更倾向于表现出概率匹配行为。

另一些研究者则尝试对找规律的认知过程进行建模(Altmann & Burns,2005；Jones,Curran,Mozer,& Wilder,2013;Plonsky et al.,2015)，其主要的假设如下。首先，短时记忆参与序列模式(可简单理解为多个事件的排列组合，例如4次掷硬币共有2×2×2×2=16种模式。)的编码。但由于编码长序列的所有模式可能会超出短时记忆容量的范围，因而实际情况是某些具有显著(saliance)特征的模式更容易被编码和记忆(Jones,Curran,Mozer,& Wilder,2013)，例如连续(streak/run)模式、连续切换模式(ABABAB)和镜像模式(ABAABA)。这导致个体对模式的记忆存在一定的偏差。其次，在记忆系统中，具有相似特征的模式被单独作为一类进行保存，为后续的归纳推断和假设检验提供内容支持(Altmann & Burns,2005)。最后，已经存储的模式通过线索再认的方式影响当前的行为反应(Plonsky et al.,2015)。总之，模式搜索策略涉及较多高级的认知过程，并且需要较多的认知资源。

的确有一些证据支持了上述观点。例如，当任务要求被试对随机出现的A、B两种刺激进行分类时，如果局部事件序列为ABABAB，并且接下来出现A时，被试的反应时通常要比出现B时更短(Jones et al.,2013)，暗示被试可能根据当前的情境外推(extrapolate)了局部模式的特征。其次，关于近因曲线(recency curve)的实验研究为找规律策略的认知过程提供了一定的启示。在概率学习任务中，当研究者以连续出现A事件的次数为横坐标，被试预测或选择A事件的频率为纵坐标画出近因曲线时，该曲线呈现出先增-后减-再增的“波浪”形态(Plonsky et al.,2015;Plonsky & Erev,2017)。一般认为，近因曲线的递增的部分与联结学习策略有关(Erev & Barron,2005)，递减部分则与赌徒谬误信念有关(Farmer,Warren,& Hahn,2017;Xue,Juan,Chang,Lu,& Dong,2012)，波浪形态的近因曲线则暗示两种认知过程的共存。另一些研究则发现，近因曲线的形状对个体的短时记忆容量较为敏感(Altmann & Burns,2005)。

3.2 基于模型的探索

已有的知识经验可通过自上而下的方式影响个体对环境的探索。在探索过程中，个体通过建构当前环境的心理模型(internal/world model)，利用该模型来推测环境中可能存在的统计规律，并做出对自身有利的行动(Daw et al.,2005)。心理模型的误用可能是导致概率匹配行为的一个主要原因(Shteingart & Loewenstein,2014)，例如早期研究发现，概率学习在不同任务条件之间存在负迁移效应：暴露于有规律的条件一段时间后，被试在无规律的静态条件下仍倾向于维持原先的概率匹配行为模式(Vulkan,2000)。另一些研究则直接操纵了心理模型，Green等人(2010)发现当预测任务使用的虚拟赌盘看上去像是被做了某种“手脚”，而非一个真正公平的赌盘时，概率匹配的行为随之增加。另一些研究者(Schul,Mayo,Burnstein,& Yahalom,2007)在博弈的情境下发现了类似的效应，实验要求被试识别潜在的欺骗信号，这些欺骗信号可能由另一名实验者的助手随机生成(人为条件)，也可能是计算机随机生成的(控制条件)。虽然两种情况下成功识别信号的概率是完全相同的，被试的行为模式却不同：在人为条件下更倾向于努力识别信号。

此外，个体对随机过程持有的错误观念会影响其对随机事件的知觉和判断。通常情况下，人们会认为连续多次出现同一事件(如掷硬币正面朝上)后，再次出现相同事件的可能性会降低，这就是经典的赌徒谬误(gambler’s fallacy)(Farmer et al.,2017)。近期的研究发现，在重复预测的任务中，赌徒谬误行为会受每组(block)实验中试次数量的影响(Farmer et al.,2017)，即只有当每组实验进行足够多次的预测，赌徒谬误才会发生。研究者通过计算机模拟，证明了该行为可以由短时记忆容量和任务情境交互作用产生。结果再次支持了心理模型的假说。

3.3 老练策略评价

一种观点认为，找规律的偏好主要来自于知识经验的误用(Shteingart & Loewenstein,2014)。如经典的“迷信”实验(Yellott,1969;Jones et al.,2013)、赌徒谬误(Farmer et al.,2017;Xue et al.,2012)、控制错觉(Green et al.,2010;Schul et al.,2007)以及确认性偏误(confirmation bias)(Doll,Hutchison,& Frank,2011)都可以解释为心理表征(心理模型)的负迁移。实际上，建构心理模型有重要的适应功能。首先，生态环境中的个体随时需要应对外界的变化。每一次面对新环境都重新探索是一种低效的做法，更有效的策略是在头脑中预存一些成熟的心理模型，面对类似的情境时便可直接拿来套用。好比一个老道的股票经纪人敏锐地捕捉到与当前价格变化模式相似的历史经验。其次，在动态的决策环境下，现有的模型不断被修正和完善；当遇到极端反常的情况时，老练的决策者能够利用环境中的线索，并结合已有知识创造性地建构新的模型(Donoso,Collins,& Koechlin,2014)。Donoso等人(2014)通过巧妙的任务设计研究了个体在动态环境下建构和修正模型的全过程。研究者还利用认知建模技术对以下四种认知成分进行了定量分析：提出新的模型(假设)、对模型的参数进行估计、对现有模型的可靠性进行检验、新旧模型之间的比较和仲裁。该研究为人类有限理性状况下的适应性推理和学习过程提供了重要的启示。

4 概率匹配行为的应用

概率匹配行为原理在法律实践中有广泛的应用，尤其是对优化执法资源的部署的重要启示(Guttel & Harel，2005)。由于实际条件的限制，执法者不可能做到全面禁止违法行为。但是执法者可以通过部署警力资源，操纵违法行为的成本(即受制裁的风险)。假设企业是理性的，那么只要风险足够大，漏税行为就会终止。实际上，现实中的企业大多会采取概率匹配的策略——即使受制裁的风险很大，他们也会偶尔地尝试漏税。这使得执法者不得不重新考虑完全禁止这类行为的必要性，因为投入额外警力资源也是需要成本的。概率匹配行为对法律制度设计也有一定的参考意义(Guttel & Harel，2005)。例如民事法中的惩罚性赔偿(punitive damages)条例，刑法中的制裁升级条例(escalating sanctions)以及风险责任(risk-based liability)制度，都是依据了这一行为原理。

概率匹配行为可以解释金融市场中的某些异常现象。例如，从长远视角来看，股价会围绕理想价格(ideal price)上下以超出随机游走模型预期的幅度的波动；从短期视角来看，价格有顺应势头(momentum)的倾向；但是在中间时段，价格的变化则更容易出现逆转(reversal)。大多数金融理论(如资产定价模型)不能解释这一现象。Gerber等人(2010)根据对单个投资者行为的适当假设——通过增加概率匹配、过度自信、焦点协调(focal point coordination)这类心理学成分——能够成功预测上述宏观水平的价格变化模式。

赌博和预测的研究中也涉及大量的概率匹配行为。McCrea和Hirt(2009)开展了一项体育博彩的研究。研究者从网络上收集了2004年和2005年NACC篮球锦标赛第一轮比赛的投票数据，并对每回合比赛中两支球队的投票率进行了统计。发现两支球队的实力差(通过历届比赛的平均胜率测量)越大，强队获得的投票率越高，而投票率几乎和球队历届的胜率完全匹配。这种投票模式反映了公众的非理性行为，因为理性的投票者应该总是投强队获胜。其他针对不同类型决策者的研究也发现了相似的结果，如医疗专业人士(Arkes,Dawes,& Christensen,1986)、赌博成瘾者(Gaissmaier et al.,2016)、老年人(Hosseini et al.,2010)、儿童(Denison et al.,2013)、组织集体(Schulze & Newell,2016)。

5 总结与展望

本文对影响概率匹配行为的策略因素进行了分析(见表1)。受Simon(1990)思想的启示，文章从认知能力和环境两个维度对每种策略进行了探讨。然而本文的讨论和证据更多地聚焦于环境变量，未来的研究者可以进一步探讨个体差异因素(如智力、认知风格)如何对策略选择行为产生影响。

表1 概率匹配行为的策略及适用条件

如何对同种策略在某种情境下的有效性进行量化也是值得进一步研究的问题。一些研究者从统计学的角度出发，尝试通过对环境中包含的信息维度进行数理分析，推导出策略所适用的决策情境(Gigerenzer & Gaissmaier,2011)。这些分析的结论需要进一步的经验证据的支持。另一些学者将认知俭省(effort-reduction)作为评价策略质量的标准(Shah & Oppenheimer,2008)，也就是说在达成决策目标的前提下，耗费认知资源越少的策略越有效。我们认为，用尽可能少的认知资源做出尽可能有利的决断无疑是高效的，但认知俭省只是个体适应环境的一种手段，而不是最终的目的。

以往研究过分强调认知简化造成的危害(Gilovich et al.,2002)，却忽略了对另一类将简单问题复杂化的认知偏差。实际上，一些研究者已经注意到，更多的信息、更多认知资源的投入并不总能带来更准确的判断，其中一个主要的原因是(统计或心理)模型对信息结构的过度拟合(overfitting)(Gigerenzer & Gaissmaier,2011)。然而在现实生活中，非理性信息寻求(irrational information seeking)和过度拟合的行为现象却普遍存在(如医疗中的过度诊断问题，Welch,Schwartz,& Woloshin,2011/2015)，是导致个体低绩效及社会资源浪费的重要根源。导致过度拟合的一个主要原因是缺乏认知资源配置的上限。因此，如何分配认知资源的元决策能力至关重要。一些学者从问题的相反面出发，提出“少即是多”的原理(Gigerenzer & Gaissmaier,2011)，即在某些特定情境下放弃部分信息反而有助于做出高效的决断。我们认为，少即是多不等同于无知，而是基于对问题结构的重复深入理解和有效利用(exploit)；只有真正理解了过度拟合的原因，才能在实际的问题中避免这一偏差。因此，未来的研究还更应关注元层面的问题：例如个体如何选择适合当前环境的最佳策略？如何通过学习来获得策略选择的最佳方案？又该如何对策略选择的有效性进行量化？回答这些问题或许有助于推进对人类决策智能认识的新思考。