儿童情景记忆信心判断测评：方法及适用性

2018-07-23 12:03:10姜英杰

东北师大学报（哲学社会科学版） 2018年4期

姜英杰，岳阳

(东北师范大学心理学院，吉林长春 130024)

情景记忆是个体对特定时间、特定地点所发生事件的记忆储存[1]381-403。可以将情景记忆划分为两个部分，即项目记忆(item memory)和联结记忆(associative memory)[2]441-517。项目记忆是指对单个项目的记忆，而联结记忆是在项目成功记忆之后，对项目与项目之间、项目与背景之间形成的成功绑定(binding)。绑定加工中涉及诸多信息，如时间、空间、背景等信息。为了在情景记忆中完成这些复杂的绑定加工，个体必须要协调控制各种认知资源。因此，记忆监控能力，即元记忆能力的发展对于情景记忆至关重要。

元记忆是指对主体记忆过程的认知[3]906-911，包含两个相互作用的成分：监测过程(monitoring process)和控制过程(control process)。这两个过程在记忆与元记忆间形成一个闭合的反馈环路，通过对记忆过程的实时监测，个体能够对记忆进程进行控制并选择合适的记忆策略进行有效学习[4]125-173。Chua，Schacter和Sperling对前瞻性元记忆判断——知道感判断(feeling of knowing，FOK)和回溯性元记忆判断——信心判断(judgment of confidence，JOC)的研究发现做元记忆判断时，内侧前额皮层(medial prefrontal cortex，medial PFC)和外侧前额皮层(lateral prefrontal cortex，lateral PFC)得到了更大程度上的激活[5]1751-1765。这表明元记忆功能与前额皮层紧密相关。进一步讲，有研究表明前瞻性元记忆判断与内侧前额皮层的功能相关[6]957-966，而回溯性元记忆判断与外侧前额皮层的功能相关[7]1188-1193。另外，有关孤独症个体情景关系记忆缺失的研究发现，前额皮层功能损伤是其主因[8]615-627。可见由前额叶皮层管理的记忆监控能力影响情景记忆的发展。

一、情景记忆监控能力测评的必要性

(一)记忆监控能力的发展是情景记忆的必要组成部分

情景记忆的两成分发展模型(two-components episodic memory development model)认为情景记忆主要包含两个相互作用的组成部分，联想成分(associative components)和策略成分(strategic components)[9]495-513[10]365-373。联想成分是指在编码、存储和提取过程中将事件的不同方面绑定成一个整体情节的认知过程，其主要依赖于内侧颞叶(medial temporal lobes， MTL)和海马(hippocampus)；而策略成分是指在编码、存储过程中通过利用已有知识和策略对信息的多个特征进行组织、整合以实现精细加工的过程，或者在检索时实现验证、监测和评估相关信息的过程，其主要依赖于前额叶皮层(prefrontal cortex，PFC)[11]148-155。这两个成分是情景记忆发展中不可分割的两个方面，两者的协同发展才会产生高水平的情景记忆加工。

(二)情景记忆加工水平与记忆监控准确性相互影响

情景记忆的回想过程影响元记忆判断。情景记忆的双过程加工理论(dual-process model)认为在情景记忆的检索过程中包含两个独立的过程，即回想(recollection)和熟悉(familiarity)过程。回想是一种对事件的背景信息进行回忆的过程(如：我在学校的图书馆见过她)。相反，熟悉是一种在缺乏对背景信息的提取时对记忆强度的整体评估(如：我见过她，但是记不清事件和地点)[10]365-373[12]1363-1374。当个体能够回忆出具体的背景信息，即为“记得”反应时，其信心判断值更高，并且其元记忆判断更准确。因此，情景记忆的加工程度会影响记忆内容的元记忆判断[13]212。

而另一方面，情景记忆监控能力的发展对情景记忆发展有促进作用，会为情景记忆相关要素间联想记忆的形成提供执行功能上的保障。在对工作记忆容量进行监测的基础上，通过对定势转换(set shifting)、认知抑制(inhibitation)等调控过程的综合运用[8]615-627，协调和控制认知资源进行有效的绑定加工，促进事实信息、空间信息和时间信息间的联想记忆的形成。

综上，有必要对情景记忆监控能力进行测评。本文对其中的信心判断准确性计算方法和在研究中需要注意的适用性问题进行了相应总结。

二、情景记忆信心判断准确性的计算

信心判断的准确性有两类，即绝对准确性和相对准确性。绝对准确性反映的是个体的正确率与信心判断之间的差异，而相对准确性反映的是信心判断对正确项目和错误项目的区分度[14]109-133。这两种准确性均有多种方法进行计算。

(一)绝对准确性

反映绝对准确性的指标包括校准(Calibration)、海曼相关(Hamann coefficient)以及是否高低估(Over—/Underconfidence)等。

1.校准

校准反映的是信心判断与成绩之间的差异。它适用于分类数据，并且要求信心判断和记忆成绩均是连续变量[15]416-427。具体计算公式如下：

其意义是计算出信心判断与实际记忆成绩之间的平均误差大小。其中n代表进行回忆或再认的项目总数。T代表涉及的信心判断等级，如信心判断等级从50%(猜测)到100%(完全确定)，因此就会有6个等级：50—59，60—69，70—69，80—89，90—99和100。ct是指在r信心等级上的正确率平均值，rtm是指在信息等级r上的信心判断平均值。nt是指在信心等级r条件下进行判断的项目数。其值越接近于0，代表其准确性越好。

2.海曼相关

当信心判断为二分变量时，即：判断自己答案正确，或判断自己答案错误，可以根据信号检测论把被试的信心判断和记忆成绩之间的关系分为两种条件，即：两个击中(hit)条件和两个漏报(miss)条件。如：回答正确其信心判断也为正确或回答错误其信息判断也为错误，即信心判断和记忆成绩一致条件，即为击中。反之则为漏报。

表1 2×2成绩——信心判断匹配表

如：在表1中a为答案正确、信心判断认为答案也为正确条件；d为答案错误、信心判断认为答案也为错误条件；b为答案错误、但信心判断认为答案正确条件；c为答案正确、但信心判断认为错误条件。海曼相关等于击中的项目数减去漏报的项目数与全部总和的商[15]416-427。

3.高低估

高低估又叫偏差(bias)，它是测查学习者在进行学习判断时是否存在高估或者低估的情况，其计算方法与校准基本一致，只是不将信心判断与记忆成绩的差值平方。其值为正则代表被试出现了高估，其值为负则代表被试出现了低估，当值越接近于0，代表其准确性越好。

(二)相对准确性

与绝对准确性不同，相对准确性评估的是学习者对其正确答案和错误答案的区分能力。反映相对准确性的指标有伽马相关(Gamma coefficient)、区分度指标斜率(slope)和信号检测论中的辨别力等。

1.伽马相关

伽马相关适合处理分类数据，其最大的优点在于对数据的分布没有要求。与海曼相关相似，均收集信心判断与记忆成绩一致条件的项目数与不一致条件的项目数。但其计算方法为两种击中条件的乘积和两种漏报条件乘积的差与击中条件乘积和漏报条件乘积的和之商[14]109-133，值的范围在[-1，1]之间，其值越大说明其准确性越好。

2.斜率

斜率反映的是学习者能否在信心判断指标上区分出正确答案和错误答案的能力，其计算方法为正确答案的信心判断平均值与错误答案信心判断平均值的差，该数值越大代表其相对准确性越好。

斜率(slope)=MCc-MCi

在公式中，MCc代表正确答案的平均信心判断值，MCi代表错误答案的平均信心判断值。

3.信号检测论中的辨别力指标

在实际应用中，前人研究发现利用伽马相关计算元记忆相对准确性的研究也存在一些问题，即得到的数值变化范围较小，使得统计检验结果常常不显著，或者得到与假设相悖的结论[16]989-993。因此，Benjamin和Diaz(2008)对信号检测论进行分析，提出了可以用于测量元记忆相对准确性的新指标辨别力指数da′。它利用信号检测论中的信号分布与噪音分布之间的距离作为个体对正确答案和错误答案分辨能力的指标，并对其进行了校正，作为个体的元认知判断相对准确性指标[17]73-94，具体计算方法请参见刘希平，石靓子和唐卫海(2013)[16]989-993。

另外，Maniscalco和Lau(2012)利用信号检测论作为基础，考查个体的元记忆监测准确性，分离出了物理信号分布和心理信号分布，并分别计算了辨别力指数d′和元认知判断准确性meta-d′[18]422-430。

在经典的信号检测论中假设信号分布和噪音分布均为正态，根据信号和反应的匹配程度可以形成四种结果，详见表2。根据击中率和虚报率可以算出被试的物理辨别能力指标d′。

表2 经典信号检测论中可能出现的四种结果

辨别力指标d′=z(H)-z(FA)

而在心理分布中，信心判断可以看作是一种二级区分任务(secondary discrimination task)。被试需要对自己的正确答案和错误答案进行区分，并在信心判断指标上反映出来。因此把信心判断任务看作是一种“2型任务”。在这种条件下，其击中率和虚报率被重新定义了。

表3 2型任务信号检测论中可能出现的四种结果

表4 2型任务信号检测论中可能出现的具体结果

以2型任务中的击中率为例：

以此可以计算出2型任务中的虚报率等指标，进而计算出meta-d′以代表被试的元记忆监测相对准确性。这种方法的优点在于能够排除反应偏向对元记忆监测准确性的影响，更好地反映出一个人的信心判断与准确性之间的关系。然而需要注意的是，信心判断并不总是二分变量的，当进行多级评分时，需要对多个级别进行高低分类。

三、儿童情景记忆信心判断测评应注意的问题

(一)问题形式的年龄适用性

问题形式(question format)是指考查儿童的情景记忆时所采用的方式，包含记忆的类型和针对记忆内容所进行的不同提问方式。主要涉及回忆与再认的对比，以及问题的偏向性对儿童情景记忆信心判断准确性的影响。

首先，儿童在自由回忆条件下的元记忆判断准确性优于再认。Allwood， Innes-ker， Homgren和Fredin(2008)的研究中分析了问题形式对儿童事件记忆元记忆准确性的影响。选取8—9岁，12—13岁和成人大学生被试，设置开放式的自由回忆条件(free recall)和二选一的再认条件(focused question)。要求被试观看一段视频，一周之后进行自由回忆和再认，将自由回忆的内容编码为陈述句，并在一周之后要求被试分别对陈述句和再认答案进行信心判断。收集了被试的绝对准确性指标。结果发现，相比较再认条件，三个年龄组在自由回忆条件下均未出现显著的高低估现象，说明儿童在自由回忆条件下能够表现出较好的信心判断准确性。这表明记忆测试的问题形式确实会影响儿童的情景记忆信心判断准确性[19]529-547[20]149-169。

可能原因：Koriat和Goldsmith(1996)认为人们不是把脑海中所有浮现的内容全部报告出来，而是会根据所在的场景和要求，进行元认知策略性评估和控制，有选择地报告一部分正确信息，保留不确定信息。另外，对成人被试的研究中显示：是否给被试报告的自由，对于其元记忆准确性有帮助[21]490-517。因此，当在自由回忆条件下儿童能够控制哪些信息要报告，即拥有是否进行报告的选择权(report option)时，他们也可以利用元认知的控制能力(strategy control)使得其正确率上升。相反，在迫选再认条件下无法选择。因此，相比较再认，儿童的自由回忆可能更可信[22]405-437。

另外，儿童很难排除误导性问题的影响对正误答案给出准确的信心判断[23]1052-1067 [24]352-371。Roebers和Howie(2003)在研究中分析了误导性问题和无偏性问题对儿童情景记忆信心判断准确性的影响。选取8、10岁和成人被试，实验中让被试观看一个7分钟的视频，需要注意观看并给出对视频的看法，并没有提前告知被试需要记忆视频的具体内容。14天之后由一名主试提问关于视频的相关问题，包含8道无偏性问题(无导向性的开放问题)、8道误导性问题(暗示错误答案的问题)和4道填充问题(暗示正确答案的问题，其作答不进入统计分析)，让被试进行回答。并通过对问题答案进行三点评分式信心判断收集其信心程度。结果发现在无偏问题条件下，相比较错误答案，儿童能够对正确答案给出高信心判断；然而在误导性问题条件下，儿童对正确答案和错误答案的信心判断无差异，其元认知监控能力受到影响[24]352-371。

(二)信心判断指标的年龄适用性

儿童在做信心判断时的收集方法可能会对信心判断准确性产生影响。以往研究显示儿童小学初级阶段，即7—9岁，只有随着在学习和测试中自我监控能力得到增长，才能表现出较好的元认知监测准确性[25]391-409。此时通常收集的外显信心判断指标，即对答案做出“在多大把握上是正确的”准确性评估。而当其收集方式采用眼动指标作为其内隐信心判断时，有研究证实了儿童在表现出外显的信心判断准确性以前，就已经具有了初步的内隐信心判断准确性。Paulus，Proust和 Sodian(2013)的研究中收集了3.5岁儿童对信心判断量表的注视时长，并以此作为其信心判断选择，发现在简单条件下3.5岁儿童虽然在外显信心判断指标上并没有表现出元记忆监测能力，但是在眼动指标上，对正确答案，即之前学习过的项目中高信心判断的标识注视时间更长，表现出初步的内隐信心判断准确性[26]145。

可见，如果要对低龄儿童的信心判断进行研究，就不建议选取外显指标。眼动技术可以作为收集较低年龄儿童的信心判断指标的新方法，适合被选择来对低龄儿童内隐信心判断进行测评。

(三)量表复杂程度的年龄适用性

所选量表的复杂程度也可能会影响儿童的情景记忆元认知表现。量表的复杂程度包含两个方面：一是量表表征方式的复杂程度；二是量表等级数的多少。关于信心量表的选择，当前研究中主要存在四种，可以大致根据表征方式分为具体和抽象两种类型。具体型可以分为图画表情型(picture scale)和线型标注型(line scale)，而抽象型可以分为数字百分比型(numerical scales)和言语估计型(written scale)。具体型更适合低龄儿童，另外的较为抽象的数字百分比型和言语估计型多用于成人的研究中。比如在年幼儿童的研究中多采用图画表情，用积极表情、中性表情和消极表情代表其信心判断的确信程度[23]1052-1067；而线型标注型是让被试在一个长方形上，在50%确定到100%确定之间标示出被试的信心判断值。采用这种方法的研究者认为6—10岁儿童在表达可能性时可能需要借助于例如大小、形状和颜色等具体表征的帮助[20]149-169。可见具体型的信心判断收集方式可能更适用于低龄儿童。

然而，这种量表表征方式上的差异可能只在一定年龄范围内对儿童信心判断准确性产生影响，而对年龄较大的儿童影响较小。Allwood，Granhag和Jonsson(2007)的研究中就这一问题设计了实验并进行了年龄间比较。考查了信心判断领域中经常用到的四种信心判断量表对儿童信心判断准确性的影响。实验选取11—12岁儿童，观看一段视频之后，对44道二选一的再认问题进行回答，随后进行信心判断。针对这四种信心判断量表收集了被试的信心判断值。实验结果发现11—12岁儿童在这四种量表上没有出现信心判断及准确性上的差异。由此可见，11—12岁儿童已经能够排除具体和抽象形式的影响，较好地理解信心判断的意义，准确报告出信心判断值。

另外，信心判断量表等级数量的多少对于儿童情景记忆信心判断准确性也有影响。被试能否理解不确定性和可能性对于准确报告信心判断非常关键。Roebers等人(2007)的研究发现儿童在信心判断阶段需要区分的类型越少越容易理解，三分量表对于年幼儿童更好掌握[27]117-137。然而，Roebers和Howie(2003)的研究中为了验证是否是因为五点评分对于8岁儿童过于复杂而出现Roebers(2002)的研究中8岁儿童其信心判断准确性较差的现象，设置了三点评分量表并排除了社会期待对儿童的影响，重新对8岁儿童的信心判断准确性进行考查，发现不能将8岁儿童的准确性低归因于是由处理五级评分量表存在困难导致的[24]352-371。由此可见，量表等级数的多少可能只对年幼儿童的信心判断准确性产生影响，而对于8岁以上儿童影响较小。

(四)信心判断类型的年龄适用性

信心判断准确性可以分为两类，即绝对准确性和相对准确性。在对儿童情景记忆元记忆监测能力进行考查时，选择计算儿童的绝对准确性还是相对准确性做出发展性研究结论可能不同[20]149-169。有研究显示10岁儿童在对视频材料进行再认嫌疑犯面孔时已经具备了区分自己正确答案和错误答案的能力，即在相对准确性上与成人差异不显著[28]871-893。然而有研究显示11岁儿童在目击者再认中相比较成人，其信心判断绝对准确性较差，并表现出更大程度上的过度自信[29]286-314。

这可能是两种监测准确性测查的元记忆能力不同。儿童首先发展出对自己正误答案的区分能力，随着学习经验的增加，才能逐渐发展更为客观的元记忆绝对准确性。

另外，元记忆绝对准确性可能更容易受到实验材料难易程度的影响。在绝对准确性研究中，有一个值得注意的现象，即：难易效应。它是指较难项目(正确率较低的项目)上容易出现更大程度上的高估[20]149-169[28]871-893。因此计算儿童信心判断绝对准确性时需要注意实验材料的难度，以避免材料难度混淆了情景记忆信心判断准确性上的发展变化。因此，在考查低龄儿童情景记忆监测能力差异时，需要综合考虑不同准确性指标的适用性。