阅读方式和学习次数对中文词汇的产生效应的影响 *

2022-11-16 12:48谭秀娟白学军

心理与行为研究 2022年5期

谭秀娟李馨白学军

(1 教育部人文社会科学重点研究基地天津师范大学心理与行为研究院，天津 300387) (2 山西师范大学教育科学学院，太原030006) (3 天津师范大学心理学部，天津 300387) (4 学生心理发展与学习天津市高校社会科学实验室，天津 300387)

1 引言

产生效应（production effect）指朗读单词的记忆成绩好于默读单词的（MacLeod et al., 2010）。这一现象最早由Hopkins 和Edwards（1972）发现并被称为“发音效应”（pronunciation effect），MacLeod 等人深入探讨了这种现象并将其更名为“产生效应”，随后的研究者均沿用了这一概念。

MacLeod 等人（2010）采用的是“学习-再认”范式，即在学习阶段，被试完成阅读任务；在测试阶段，将已学习的单词（“旧词”）和未学习的单词（“新词”）进行混合，让被试完成“新或旧”再认判断，这一范式广泛用于产生效应的研究（Bodner et al., 2014; Forrin & MacLeod, 2018;Hopkins & Edwards, 1972; Ozubko et al., 2012;Pritchard et al., 2020）。这些研究主要采用两种实验设计：（1）被试内设计，即被试完成阅读任务，朗读一半单词，默读另一半单词，朗读与默读随机呈现；（2）被试间设计，即随机把被试分为朗读组和默读组，每组阅读所有单词。采用被试内设计的研究都发现了产生效应（Forrin & Macleod,2018; Hopkins & Edwards, 1972; MacLeod et al., 2010;Ozubko et al., 2012; Pritchard et al., 2020），但采用被试间设计的研究结果不一致，有的出现了产生效应（Bodner et al., 2014），有的没有出现产生效应（Hopkins & Edwards, 1972; MacLeod et al., 2010）。

基于产生效应在被试内设计和被试间设计的出现情况，研究者提出了两种理论解释：特异观（distinctiveness account）和强度观（strength account）。MacLeod 等人（2010）在被试内设计发现了产生效应，而在被试间设计没有发现产生效应，与Hopkins 和Edwards（1972）的结果一致。为此，MacLeod 等人提出了特异观，主张产生效应与朗读的相对特殊性有关，其中，相对特殊性沿用了Murdock（1960）的解释，主张特殊性和相对性密不可分，如果没有比较刺激，特殊性不适用。具体地讲，朗读和默读均需要正字法、语音和语义处理，但朗读时有外显的发音动作（即发音器官的运动）和声音，默读时无外显的发音动作和声音（Kell et al., 2017; Oppenheim & Dell,2010），这为朗读的单词提供了额外的、有辨别力的信息，使得朗读的单词具有特殊性；如果只采用朗读或默读的其中一种方式阅读单词，朗读的相对特殊性消失。Bodner等人（2014）在被试内和被试间设计均发现了产生效应，因而提出强度观，即产生效应可能与编码的强度差异有关，朗读单词的编码强度高于默读单词的编码强度，且再认测试时被试仅仅基于强度对单词进行辨别。两种理论的差异在于：特异观强调朗读的特殊性，朗读涉及更多的编码特征，且这种特殊性是相对的（Jamieson et al., 2016; Murdock, 1960）；强度观强调编码的强度差异，朗读和默读在编码特征的数量上相同，但朗读有更强的加工痕迹（Jamieson et al., 2016; Ozubko et al., 2014）。

三项研究对上述两种理论进行了检验。其中，Ozubko 和MacLeod（2010）以及Zhou 和MacLeod（2021）是从朗读的相对特殊性的角度来检验特异观，Ozubko 等人（2014）是从编码的强度差异角度来检验强度观。（1）Ozubko 和MacLeod采用列表辨别范式来操纵朗读的相对特殊性，要求被试先后完成A、B 两份列表的阅读任务，A 列表要么朗读，要么默读；B 列表是朗读、默读混合随机出现；然后完成一个列表辨别测试，区分每个单词是来自两个列表中的哪一个。结果发现：当A 列表为默读时，B 列表中朗读单词的记忆成绩优于默读单词的记忆成绩；当A 列表为朗读时，B 列表中朗读单词的记忆成绩与默读单词的记忆成绩差异不显著。研究者认为，当A 列表为默读时，由于只有B 列表包含朗读的单词，朗读的相对特殊性存在，因此存在产生效应；当A 列表为朗读时，由于两个列表都包含朗读的单词，朗读的相对特殊性消失，进而导致产生效应的消失，支持特异观。（2）Zhou 和MacLeod 对经典的被试内设计进行了改造，他们在每一个朗读（标记为蓝色）或默读（标记为白色）的单词后插入一个单词（这个单词标记为红色且只能朗读或只能默读），其中，蓝色和白色单词组成的列表称为混合列表，作为被试内变量，插入的红色单词构成的列表称为纯列表，作为被试间变量；告知被试混合列表的单词需要记忆，但纯列表的单词不用记忆；控制条件是在每一个朗读或默读的单词后插入字符串“XXXXX”。阅读结束后立即对两个列表的单词进行“新或旧”再认测验，先测试纯列表单词的记忆，后测试混合列表单词的记忆。结果发现混合列表和纯列表均出现产生效应；纯列表的产生效应显著高于以往单纯将阅读方式作为被试间变量的研究的；相较于控制条件，当纯列表为朗读时，混合列表中的产生效应显著降低。研究者认为当将纯列表穿插在混合列表中呈现时，纯列表会受到混合列表中朗读的相对特殊性的影响，无意地增强了纯列表为朗读的单词的特殊性，会促使被试使用特殊性启发式策略对纯列表的单词进行再认识别；并且当纯列表为朗读时，朗读单词的整体比例显著增加，混合列表中朗读的相对特异性减弱，结果支持特异观。（3）Ozubko 等人要求被试在三种条件下阅读单词：朗读一次、默读一次和默读两次。测试任务是要求被试指出单词是朗读一次的、默读一次的、默读两次的还是未阅读过的新词。结果显示，在源记忆识别正确率上，朗读一次的单词显著高于默读一次的和默读两次的；在源记忆识别误报率上，默读两次的和默读一次的单词被误报为朗读一次的比率无显著差异，朗读一次的和默读一次的单词被误报为默读两次的比率无显著差异。研究者认为若产生效应的出现是由于朗读单词的编码强度高于默读单词的，且再认测试时被试仅仅基于强度对单词进行辨别，那么源记忆判断会受到编码强度的影响，默读两次的单词的判断正确率显著高于默读一次的；相对默读一次的单词，默读两次的会更多地误报为朗读一次的；相对默读一次的单词，朗读一次的单词会更多地误报为默读两次的，结果不支持强度观。

但是，上述三项研究均存在不足。Bodner 和Taikh（2012）对Ozubko 和MacLeod（2010）的研究进行了重复，并没有得到一致的结果，Bodner和Taikh 发现被试在进行列表辨别测试时容易产生归因偏向，具体地说，当A 列表为默读时，被试倾向于将能识别出的单词归为B 混合列表；当A 列表为朗读时，被试倾向于将不能识别的单词归为B 混合列表，他们认为列表辨别范式不能很好地对特异观进行检验。Zhou 和MacLeod（2021）的研究规避了列表辨别范式的不足，该研究将纯列表穿插在混合列表中，但是这样的设计很难将纯列表和混合列表进行分离，纯列表和混合列表的所有单词整合在一起就是一个更长的混合列表，操纵纯列表单词的阅读方式只是改变了朗读单词的数量。Ozubko 等人（2014）的研究将默读的学习次数分为一次和两次，没有操纵朗读的学习次数，即没有充分证明产生效应与项目的编码强度之间的关系。因此，产生效应是与朗读的相对特殊性有关还是与项目的编码强度有关，目前还不明确。

本研究采用经典的“学习-再认”范式进一步检验产生效应是与朗读的相对特殊性有关还是与项目的编码强度有关，共设计两个实验。其中，朗读的相对特殊性通过将阅读方式分别设置为被试内和被试间变量的实验结果对比来体现；项目的编码强度通过操纵学习次数这一自变量来体现（郭秀艳等, 2004; 毛伟宾, 杨治良, 2008; Benjamin,2001; Ozubko et al., 2014; Tussing & Greene, 1999），学习次数越多，词汇的编码越强（Hintzman, 1984）。

实验1 采用被试内设计同时操纵阅读方式和学习次数两个自变量，通过考察阅读方式和学习次数是否具有交互作用来检验强度观。基于前人的研究（李宏英等, 2008; Benjamin, 2001; Mama &Icht, 2018）和预实验的结果，将词汇的呈现时间设置为1 秒，学习次数设置为1 次和3 次。如果阅读方式和学习次数的交互作用显著，即3 次学习和1 次学习的朗读记忆成绩之差，与3 次学习和1 次学习的默读记忆成绩之差，两个差值的差异显著，并且3 次学习的产生效应显著高于1 次学习的，则说明朗读的学习成绩优于默读的学习成绩是编码强度引起的，产生效应受到编码强度的影响，支持强度观。

实验2 将阅读方式作为被试间变量，学习次数作为被试内变量，继续考察其对产生效应的影响。以往将阅读方式作为被试间变量的研究结论不一致（Bodner et al., 2014; Hopkins & Edwards,1972; Jones & Pyc, 2014; MacLeod et al., 2010），且未对被试间的差异进行控制。因此，实验2 将对被试的智商和短时记忆广度这两个体现个体差异且在阅读、记忆等认知活动中发挥重要作用的关键变量进行控制（王协顺, 苏彦捷, 2018; Bayliss et al.,2003; Engle et al., 1999; Peng et al., 2019）。如果实验2 混合设计的产生效应相对实验1 被试内设计的产生效应显著变小或消失，说明产生效应受到朗读的相对特殊性的影响，支持特异观；如果混合设计中的产生效应未显著变小，且产生效应受到项目的编码强度的影响，则支持强度观。

2 实验1：被试内设计中阅读方式和学习次数对产生效应的影响

实验1 考察被试内设计中阅读方式和学习次数对产生效应的影响。

2.1 研究方法

2.1.1 被试

被试量的确定依据两方面：一方面，先前关于产生效应的研究被试量为20 人到32 人，即可得到显著的差异性结果（Forrin et al., 2012; MacLeod et al., 2010）；另一方面，采用G*Power3.1 软件，设置f=0.25（中等大小），α=0.05，1-β=0.80，计算得出所需样本量为24 人。本研究招募30 名母语为汉语的大学生，男生10 名，女生20 名，平均年龄18.47±0.49 岁，皆为右利手，视力或矫正视力正常，身体健康，无严重病史记录，实验结束后获得一定报酬。

2.1.2 实验设计

采用2（阅读方式：朗读、默读）× 2（学习次数：1 次、3 次）的被试内设计。因变量是被试的记忆成绩。

2.1.3 实验材料

从现代字词语料库（Cai & Brysbaert, 2010）选取300 个名词，笔画数在8～24 之间，词频大于30 次/百万，不包含同义词。请不参加实验的40 名大学生对所选词汇的熟悉度与具体抽象性进行5 级评定（1 代表“非常不熟悉”或“非常抽象”，5 代表“非常熟悉”或“非常具体”），在匹配材料的词频、笔画数、熟悉度和具体抽象性等属性后，选取160 个词汇作为正式实验材料，包括80 个学习阶段阅读的词汇和80 个再认测试阶段加入的新词。学习阶段阅读的词汇分别用蓝色和红色呈现，其中，蓝色词40 个，1 次学习和3 次学习的词汇各20 个；红色词40 个，1 次学习和3 次学习的词汇各20 个，两种颜色分别代表两种阅读方式，颜色线索在被试间平衡，实验词汇以44 号宋体呈现在白色的屏幕中央。

实验材料在各属性上的匹配情况见表1。

表1 实验材料在各属性上的匹配情况（M±SD）

经重复测量方差分析，结果显示：在词频、笔画数、熟悉度和具体抽象性上，颜色线索和学习次数的主效应均不显著（ps＞0.05），交互作用均不显著（ps＞0.05）。

同时，再认测试阶段80 个新词的词频、笔画数、熟悉度和具体抽象性与80 个学习阶段的词汇也进行了严格匹配。

2.1.4 实验程序

采用E-Prime 2.0 软件编写实验程序，在计算机上呈现，并在主试的指导下进行个别施测。

实验包括练习和正式实验两个阶段，练习阶段的实验流程和正式实验的流程相同，且供练习使用的词汇不包含在正式实验词汇列中，被试熟悉实验流程后才进行正式实验。

正式实验包括：（1）学习阶段。80 个词汇随机逐一呈现，每个词呈现1 秒，要求被试对出现在屏幕中央的词汇进行朗读或默读，在朗读时，被试出声阅读屏幕上出现的词汇，音量至少保持在正常说话的程度；在默读时，被试在心里阅读屏幕上的词汇，不能有口型且不出声。词与词之间用注视点“+”间隔，时间为500 毫秒。15 名被试朗读蓝色词、默读红色词，15 名被试朗读红色词、默读蓝色词。词汇学习次数为1 次或3 次，学习次数通过呈现次数来操纵，每呈现1 次，被试阅读1 次；因80 个词汇中，一半词汇呈现1 次，一半词汇呈现3 次，所以共有160 个词汇刺激，这些刺激的呈现顺序是完全随机的。告知被试实验结束后有记忆测试。（2）再认测试阶段。学习结束立即进行再认测试，再认测试时学习阶段的词汇和新加入的词汇均标记为绿色，随机逐一呈现，要求被试按键反应。如果屏幕上的词汇是学习阶段出现过的，则按“Z”键，反之，则按“M”键。

2.2 结果

2.2.1 记忆成绩

基于前人的研究（MacLeod et al., 2010），用再认击中率代表被试的记忆成绩。被试的再认击中率结果见表2。经重复测量方差分析，结果显示：阅读方式的主效应显著，F(1, 29)=44.64，p＜0.001，=0.61，朗读的记忆成绩显著优于默读的记忆成绩。学习次数的主效应显著，F(1, 29)=183.10，p＜0.001，=0.86，3 次学习的记忆成绩显著优于1 次学习的记忆成绩。两者交互作用不显著，F(1,29)=1.44，p=0.24，3 次学习和1 次学习的朗读记忆成绩之差，与3 次学习和1 次学习的默读记忆成绩之差，两个差值的差异不显著。

表2 实验1中朗读和默读的再认击中率（M±SD）

2.2.2 产生效应

对1 次学习和3 次学习时的朗读和默读的记忆成绩分别进行配对样本t检验，结果显示1 次学习时，t(29)=5.17，p＜0.001；3 次学习时，t(29)=5.64，p＜0.001，即在1 次学习和3 次学习时均存在产生效应。以产生效应的大小为因变量，其中，产生效应=朗读的再认击中率-默读的再认击中率，对1 次学习和3 次学习的产生效应进行配对样本t检验，结果显示，t(29)=1.20，p=0.24，即1 次学习的产生效应与3 次学习的产生效应无显著差异。

2.3 讨论

对名词的词频、笔画数、熟悉度和具体抽象性等属性进行了严格的控制和匹配后，实验1 在中文词汇的被试内设计中发现朗读的记忆成绩优于默读的记忆成绩，且效应量较大，与前人的研究结果一致（Forrin & Macleod, 2018; Hopkins &Edwards, 1972; MacLeod et al., 2010; Ozubko et al.,2012; Pritchard et al., 2020），这说明语音加工在英文和中文的阅读学习中均发挥普遍的重要性（Perfetti & Zhang, 1995）。3 次学习的记忆成绩显著优于1 次学习的，即增加学习次数能显著提高再认的正确率，与前人的研究结果一致（李宏英等,2008; Benjamin, 2001），这说明实验1 中学习次数这一变量的操纵是有效的。

但是，实验1 发现阅读方式和学习次数的交互作用不显著，说明朗读的学习成绩优于默读的学习成绩并不是编码强度引起的；同时，3 次学习的产生效应与1 次学习的产生效应无显著差异，说明产生效应未随着项目的编码强度的增强而增强，不支持强度观。然而，仅仅通过实验1 并不能全面考察产生效应与朗读的相对特殊性的关系，本研究将通过比较阅读方式分别作为被试内变量或被试间变量的两种实验设计的结果来检验特异观。

3 实验2：混合设计中阅读方式和学习次数对产生效应的影响

实验2 将阅读方式设置为被试间变量，学习次数为被试内变量，考察混合设计中阅读方式和学习次数对产生效应的影响。为了克服个体差异对混合设计中产生效应的干扰，对两组被试的智商和短时记忆广度进行了匹配。

3.1 研究方法

3.1.1 被试

采用G*Power3.1 软件，设置f=0.25（中等大小），α=0.05，1-β=0.80，计算得出所需样本量为34 人。为了保证结果更稳定，并参照以往关于产生效应研究的样本量（Jones & Pyc, 2014; MacLeod et al., 2010），本研究将样本量定为60 人。

智商测验采用联合型瑞文测验（CRT）（李丹等, 1988）；短时记忆广度测量采用正序和倒序数字背诵任务，共筛选被试60 名，其中，男生10名，女生50 名，平均年龄18.69±0.67 岁，皆为右利手，视力或矫正视力正常，身体健康，无严重病史记录，实验结束后获得一定报酬。将被试分成朗读组和默读组，各30 名。经检验，两组被试在智商、短时记忆广度上没有差异。见表3。

表3 两组被试的智商测验和短时记忆广度得分（M±SD）

3.1.2 实验设计

采用2（阅读方式：朗读、默读）×2（学习次数：1 次、3 次）的混合设计，其中，阅读方式是被试间变量，学习次数是被试内变量，因变量是被试的记忆成绩。

3.1.3 实验材料和实验程序

实验材料同实验1。

实验程序包括练习实验和正式实验。正式实验包括学习和再认测试两个阶段。与实验1 不同的是，在学习阶段，要求被试忽略词汇颜色，一组被试朗读所有出现在电脑屏幕中央的词汇，另一组被试默读所有词汇。

3.2 结果

基于前人的研究（MacLeod et al., 2010），用再认击中率代表被试的记忆成绩。所有被试的再认击中率结果见表4。

表4 实验2 中朗读和默读的再认击中率（M±SD）

经重复测量方差分析，结果显示：阅读方式的主效应不显著，F(1, 58)=0.27，p=0.61，朗读组和默读组在记忆成绩上无显著差异。学习次数的主效应显著，F(1, 58)=324.88，p＜0.001，=0.85，3 次学习的记忆成绩显著优于1 次学习的记忆成绩。两者交互作用不显著，F(1, 58)=0.42，p=0.52，3 次学习和1 次学习的朗读记忆成绩之差，与3 次学习和1 次学习的默读记忆成绩之差，两个差值的差异不显著。

由于被试的反应敏感性和判断标准可能会影响击中率，将学习次数为1 次和3 次的击中率和虚报率合并后对两种阅读方式的辨别力指数d’和判断标准C进行分析，其中，d’=z(击中率)-z(虚报率)，C=-1/2[z(击中率)+z(虚报率)]（Macmillan &Creelman, 2004）。结果见表5。

表5 实验2中朗读组和默读组的辨别力指数d’和判断标准C（M±SD）

独立样本t检验结果显示：在辨别力指数d’上，t(58)=-0.57，p=0.57；在判断标准C上，t(58)=0.40，p=0.69，即两组被试的反应敏感性和判断标准均不存在显著性差异。

3.3 讨论

实验2 控制了两组被试在智商、短时记忆广度方面的个体差异，并检验了两组被试的反应敏感性和判断标准，结果均不存在差异，即排除被试间差异可能对结果的影响。结果发现，朗读、默读两种阅读方式的记忆成绩在1 次学习和3 次学习时差异不显著。由于实验1 发现1 次学习和3 次学习时两种阅读方式的记忆成绩均存在显著性差异，而实验2 与实验1 不同的地方在于阅读方式由被试内变量转变为被试间变量，说明产生效应受到朗读的相对特殊性的影响，支持特异观。

4 总讨论

特异观和强度观分别对产生效应进行解释。特异观主张产生效应与朗读的相对特殊性有关，相对特殊性强调“对比”（Murdock, 1960），如果单纯只采用朗读或默读一种阅读方式学习单词，朗读的相对特殊性消失；强度观主张产生效应仅仅是由于编码强度差异导致的。在前人研究的基础上，本研究增加了评估编码强度的自变量指标，同时操纵了阅读方式和学习次数两个自变量，并分别采用被试内设计和混合设计来检验上述两种理论。

基于特异观，被试内设计存在产生效应，但混合设计不存在产生效应或显著小于被试内设计的；基于强度观，被试内设计和混合设计均存在较强的产生效应，且产生效应会受到学习次数引起的编码强度的影响。实验1 被试内设计的结果显示3 次学习和1 次学习时朗读的记忆成绩均优于默读的记忆成绩，与已有研究结果一致（Hopkins &Edwards, 1972; MacLeod et al., 2010; Ozubko et al.,2012; Pritchard et al., 2020），且3 次学习的产生效应与1 次学习的产生效应无显著差异。实验2 在控制被试间差异后，将阅读方式由实验1 的被试内变量转变为被试间变量，并保持学习次数仍然是被试内变量，确保实验2 与实验1 相比仅仅是朗读的相对特殊性发生了变化，结果发现混合设计中两种阅读方式的记忆成绩差异不显著，与Hopkins 和Edward（1972）、Jones 和Pyc（2014）以及MacLeod等人（2010）的研究结果一致，不存在产生效应。综合实验1 和实验2 的结果，说明产生效应不会受到项目的编码强度的影响，但会受到朗读的相对特殊性的影响，支持特异观。MacLeod 等人（2022）考察了高频词和低频词、图片和图片对应的单词、真词和假词等不同材料的产生效应，结果发现各种材料阅读学习时均存在产生效应，且产生效应的大小不受材料性质的影响，他们认为这是由于与默读时相比，不同类型的材料在朗读时依赖相同的额外编码特征，因而显示出一致的记忆优势，支持特异观。

以往对于产生效应的研究大都采用再认击中率代表被试的记忆成绩（Forrin & Macleod, 2018;Hopkins & Edwards, 1972; MacLeod et al., 2010;Ozubko et al., 2012; Pritchard et al., 2020）。信号检测论认为，辨别力指数d’反映了一个人的感觉敏感性，它不受情绪、期望、动机等的影响，能够比击中率更好地反映被试记忆的准确性。因此，实验2 除了使用击中率作为因变量指标外，还对比了两组被试分别对朗读和默读的辨别力指数d’和判断标准C，结果在混合设计中没有发现差异。但是在被试内设计中，当进行“新或旧”再认测验时，朗读和默读的虚报率不能精确获得，如果将朗读和默读看作共享一个虚报率，计算出来的d’会存在明显的缺点（Forrin et al., 2016）。因此实验1 只使用击中率作为因变量指标进行分析。未来应思考如何统一分析指标，对采用不同实验设计的结果进行比较，进一步揭示产生效应的内在机制。

5 结论

本研究条件下得出以下结论：（1）中文词汇在被试内设计中存在产生效应，在混合设计中不存在产生效应；（2）产生效应未随着项目的编码强度的增强而增强；（3）中文词汇的产生效应支持特异观。