认知行为实验研究中最佳素材容量的选择与确定：多元概化理论应用

2014-01-31 21:34:32罗照盛郭小军

心理学报 2014年6期

罗照盛郭小军

(江西师范大学心理学院, 南昌 330022)

1 前言

心理学实验首先必须保证结果的有效性和可靠性。实验信度指的是实验结果和结论的可靠性、稳定性及一致性程度。如果实验结果是不可靠的,那么研究结论将毫无价值。影响实验结果的因素非常多, 而现在认知行为实验已经发展出了许多精巧的实验研究范式及其变式, 在控制实验误差方面也已经考虑得非常周到。实验素材是影响实验研究结果的核心因素之一, 它指的是心理学实验中使用的各种刺激材料, 实验素材的选择会直接影响实验的结果, 实验素材的选择需要考虑材料的性质及其容量。在认知行为实验研究中, 经常是同一种实验范式下相似的实验使用了非常不同的素材容量, 那么,什么样的素材容量才是最合适的呢？众所周知, 过少的实验素材会影响实验结果和结论的可靠性, 而过多的实验材料又可能导致被试疲劳及尾端实验数据不可靠, 同时还会导致实验耗时、增加实验成本等。因此, 选择一个最佳实验素材容量对实验结果就显得非常重要。

不同的实验素材容量明显会对实验信度产生影响。在许多已有的实验研究文献中, 甚至同一类型实验, 实验素材的容量并不确定。如认知研究IAT范式中, 有采用5个(吴明证, 2006)、8个(何安明, 刘华山, 惠秋平, 2013)等不同素材容量进行实验; 言语研究中图-词干扰范式上有采用48个(孙勇,郭可教, 1992)、96个(刘亚, 王振宏, 2011)、256个(陈雪飞, 蒋军, 赵晓, 陈安涛, 2010)等不同素材容量; 注意研究的线索提示范式中, 有研究者选择了160个(潘运, 沈德立, 王杰, 2009)、256个(李迎娣,张学民, 2010)等不同素材容量; 在双耳分听范式(张学民, 舒华, 唐云, 2008; 郭春彦, 朱谨, 侯培庄,1998)与情绪启动效应(杨丽珠, 蒋重清, 刘颖, 2005;吕勇, 张伟娜, 沈德立, 2010)等研究范式中也存在这种现象。由此可以看到, 不同研究在相同类型范式的研究中采用的素材容量都存在着明显的不同,虽然这些具体的实验之间存在着差异, 但是, 素材容量的选择还是存在着许多的主观性, 因此, 探讨最佳实验素材容量的选择, 从而更好的保证实验结果和结论的信度就显得非常重要。然而, 至今未发现专门对认知行为实验中最佳素材容量问题进行过专门的研究。

概化理论(Generalizability Theory, GT) 是一种把测量误差作为模型参数来处理的测量理论(Brennan, 2001; 杨志明, 张雷, 2003), 通过分析各种测量误差来源对测量目标的影响模式, 进而提出改进研究方案, 降低实验误差, 从而最终提高测量结果概化能力(Generalizability)的最佳方案。概化理论中关于变量的关键概念是测量目标和测量侧面,测量目标一般就是被试在某项任务上的成绩, 而测量侧面就是影响测量目标的变量, 也就是测量误差来源。概化理论分为一元与多元概化理论。多元概化理论(Multivariate Generalizability Theory, MGT)是对一元概化理论(Univariate Generalizability Theory, UGT )的推广与发展。多元概化理论指测量目标在某个特定全域分数上有多个全域分数。当前,针对MGT开发的常用软件是mGENOVA (Brennan,2001), 该软件使用比较简单, 即使对不太熟悉概化理论的人也容易学会。其分析结果一般包括(杨志明, 张雷, 2003) ：第一, 分别估计测量目标、测量侧面以及目标与侧面或侧面与侧面之间的主效应和交互效应在各个变量的方差与变量间协方差;第二, 估计考生在各个变量上全域分数、全域分数的方差、绝对误差、相对误差等, 并估计出测量目标在各个变量上的概化系数和可靠性指数; 第三,估计全域合成分数及其方差; 第四, 估计全域合成分数的绝对误差方差和相对误差方差以及全域合成分数的可靠性指数、概化系数和信噪比; 第五,对研究者所提出的改进方案估计其合理性。

概化理论根据样本值估计总体真值, 同时通过D研究指出真值所适用的空间与概括全域以及相应的精度估计值(G系数与

指数), 并且以相对误差与绝对误差的形式探讨了经典测量理论中的信度与效度。概化理论可以在多个范围上对测验分数做推论与解释, 并且分别提供测量的精度指标, 即一个测验提供多个“信度”值, 所以概化理论被广泛的应用在考试(杨志明, 张雷, 马世晔, 2004; 白娟,2013)、量表编制(杨志明, 张雷, 2003; 何立国, 周爱保, 2006)与人才测评(孙晓敏, 张厚粲, 薛刚, 黎坚, 2009; 康春花, 姜宇, 辛涛, 2010)等研究中, 探讨不同变量的容量与整体信度(概化系数与可靠性指数)之间的关系。

本研究的目的是, 通过多元概化理论分析技术对3个经典认知行为实验范式下的具体实验数据进行分析, 来研究认知行为实验研究中最佳实验素材容量的确定问题。以为其他不同的实验研究在素材容量选择上提供借鉴, 在保证实验信度的前提下,使得实验设计更加科学合理。

2 研究方法

本研究选择了3个经典认知行为实验研究范式的具体实验, 即, 研究认知的IAT范式(Greenwald,McGhee, & Schwartz, 1998)、言语的图-词干扰范式(Stroop, 1935)与注意的线索提示范式(Posner, 1980),实验程序统一采用E-prime 1.1软件编制, 数据处理基于多元概化理论, 运用mGENOVA软件对3个实验的数据进行分析, 以保证实验信度合理为条件,选择和确定各实验中最合适的素材容量。

实验设计中采用的因变量均是反应时, 在进行多元概化理论分析前, 3个实验所收集的数据都要经过筛选与预处理, 统一要求每个被试的正确率在80%以上, 并且每个素材所有被试在该项目上的作答正确率为80%以上, 否则作为无效被试或素材,在此基础上, 对于作答错误素材, 采用在该素材上作答正确被试的平均反应时替换。

3个认知行为实验采用的是相同的数据分析模型, 其中G研究包括两个维度的单面p×i交叉设计,Xpi为被试在维度h (h = 1, 2)中第i个实验材料上的正确反应时, 则G研究的数学模型为：

在模型(1)中, p是指测量目标, i指测量的侧面, pi为测量目标与测量侧面的交互效应。

2.1 研究1 实验素材容量选择：IAT范式MGT分析

2.1.1 IAT范式研究过程

被试选择：从某校选择40名大一新生做被试,其中男生20人, 女生20人, 所有被试都是右利手,矫正视力正常, 没有做过类似实验。

实验程序：实验材料选择了黄色和红色作为彩色概念, 黑色和灰色做为非彩色概念, 同时选择了褒、贬词各10个高频词汇; 仿照Greenwald花虫实验七步骤程序流程, 只选取第四步与第七步的数据,两步素材容量分别为20, 共40个刺激, 注视点(黑色加号+)呈现时间为500 ms, 被试按键反应后或者4000 ms未做出反应, 则刺激消失。实验流程通过e-prime 1.1软件编制程序, 以保证各个被试接收的刺激同等, 实验实施统一在一个光线适当的机房进行, 由负责人统一开始, 旁边由经过专门指导的人员负责被试在实验过程中可能遇到的问题。

数据预处理先按照统一要求筛选合格数据, 再对高于3000 ms或者低于300 ms的数据分别替换为3000 ms和300 ms, 之后替换作答错误素材的反应时。对于是否要求对数据进行自然对数转换, 目前研究尚有争议, 本文为了与后续研究一致, 统一不进行转换。

2.1.2 IAT范式G研究

基于模型(1)通过软件mGENOVA, 可以得到被试(p)、任务(i：相容与不相容任务)以及被试与任务(pi)的交互效应在相容与不相容任务上的方差与协方差分量的估计结果, 如表1。

表1 G研究中效应在不同任务上的方差与协方差分量估计

对IAT的概化理论分析是基于IAT效应存在的前提下进行的, 从相容与不相容任务的平均反应时发现, IAT效应 = M- M= 760.76 - 653.33= 107.43, 说明本实验存在IAT效应并且能够作为IAT范式的一个代表样例。由表1可知, 在p (被试)主效应上, 相容任务的方差分量要比不相容任务的方差分量大, 这说明被试在相容任务上的变异要大于不相容任务。同时从协方差分量与相关系数可以看出, 相容任务与不相容任务的相关比较低, 相关系数只有0.40; 在i (项目)主效应上, 不相容任务的方差分量要高于相容任务的方差分量, 说明不相容任务的项目引起的变异要高于相容任务; 在pi交互效应上, 不相容任务的方差分量也要大于相容任务的方差分量。

2.1.3 IAT范式D研究

根据G研究估计的方差和协方差矩阵, 可以进一步估计不同任务上的全域分数、误差的方差分量、概化系数及可靠性指数, 结果见表2。

从表2可以看出, 相容任务的全域方差分量(33140.42)要小于不相容任务的全域方差分量(13842.32)。从测量精度来说, 由于本文是实验研究,不是常模参照测验或标准参照测验, 必须要考虑测量的绝对误差, 在可靠性指数上, 不相容任务为0.56, 明显要低于相容任务(0.90), 而从绝对误差上来看, 相容任务要低于不相容任务的方差分量也能反应出来。

在内隐联想实验中, 相容与不相容任务的实验素材容量是一样的, 所以两者的权重系数相同, 各为0.5, 在此基础上合成全域分数, 结果如表3。

表2 不同任务上的方差分量值

表3 D研究合成全域分数的方差分量等指标估计

从表3中数据可以看出, 全域概化系数值为0.82, 可靠性指数为0.81, 处于中等水平。全域总分相对误差的方差分量(3478.74)与绝对误差的方差分量(3711.94)差异较小, 所以概化系数与可靠性指数差异不大, 同时从可靠性指数大小而言是可以接受的, 测量精度中等。

实验分析了不同任务类型对总方差的贡献比例, 结果如下表4。

表4 不同任务对总方差贡献比例

不同任务素材容量一致, 从理论上说, 按照任务均等影响, 其贡献比例应是相同, 但受到p (被试)、i (任务)以及pi交互效应的影响, 导致相容与不相容任务的贡献比例出现变化。在表4中可以看出, p主效应在相容任务的方差分量大于不相容任务的方差分量, 相容任务对全域总分的方差贡献比例为65.07%, 而不相容任务只有32.26%。在相对误差与绝对误差上, 相容任务的贡献比例都低于不相容任务的贡献比例。

以保证IAT范式实验信度为目标, 探讨最佳的实验素材容量的选择, 结果见表5。

表5 D研究中不同任务样本量与可靠性指数关系

当不同任务的素材容量只有1个时(基准), 总分可靠性指数只有0.18, 素材容量增至5时, 总分可靠性指数也只有0.52, 增加了0.34, 在实验中,这样的精度是不被接受的, 于是素材容量增加到10, 也就是不同任务各有10个, 总分可靠性指数增加了0.16, 达到了0.68, 在实际中, 这个实验信度还是偏低, 于是当增加到20, 也就是本文中G研究的样本素材容量时, 可靠性指数增加了0.13, 达到了中等精度要求0.81, 之后继续增加实验素材容量,在增加到60、70、80时, 增量之间的差异非常小, 趋于稳定, 相对在2.5倍模式时, 即素材容量为50时,增量的差异为0.01, 而且增量为0.02, 是随着素材容量增加, 可靠性指数变化趋势的转折点, 同时全域总分可靠性指数为0.92, 综合认为在IAT范式中,最佳的素材容量为50。

2.2 研究2 实验素材容量选择：图-词干扰范式

(stroop效应)MGT分析

2.2.1 图-词干扰范式研究过程

被试选择：从某校选择31名大二新生, 其中男生10人, 女生21人, 所有被试都是右利手, 矫正视力正常, 没有做过类似实验。

实验程序：图片采用250×200像素, 字体大小为100磅, 干扰条件用红、绿、黄、蓝4种颜色书写红、绿、黄、蓝汉字(不包括呈现颜色与内容颜色一致的材料), 控制任务用红、绿、黄、蓝4种颜色正三角形、圆形和正方形、正六边形4种几何图形, 每个刺激在实验中重复呈现2次, 并且从4个图形中抽取一种颜色作为练习, 使得干扰与控制素材容量一致, 所以被试在正式实验中, 控制与色词素材容量分别为24个, 实验要求忽略词义对呈现的颜色作按键反应, 被试按键要求分别用左手中指、食指和右手的食指、中指按D键、F键、J键和K键(红、绿、黄、蓝), 每个实验界面中下位置会出现4个颜色词与对应按键, 注视点(黑色加号+)呈现时间为500 ms, 被试按键反应后或者3000 ms未做出反应, 则刺激消失。实验采用E-prime程序编制, 电脑统一采用DELL台式, 在计算机机房统一进行。

数据预处理采用上文一致标准筛选, 同时替换错误作答素材的反应时之后, 再进行多元概化理论分析。

2.2.2 图-词干扰范式G研究

被试(p)、任务(i：色词与控制任务)以及被试与任务(pi)的交互效应在色词与控制任务上的方差与协方差分量的估计结果, 如表6。

表6 G研究中效应在不同任务上的方差与协方差分量估计

由表6可以看出, 首先保证stroop效应的存在,经过对色词与控制任务分别计算均值发现, stroop效应 = M- M= 1092.58 - 966.04 = 126.54。在p (被试)主效应上, 色词的方差分量要高于控制任务的方差分量值; 在测量侧面i上, 控制任务的方差分量为4637.96, 而色词任务的方差分量为10767.89, 所以控制任务的变异明显要低于色词任务; 同时在pi交互效应上, 色词任务的方差分量也要高于控制任务, 从色词与控制任务的相关与协方差值可以看出, 两者呈高度相关。

根据G研究估计的方差和协方差矩阵, 可以进一步估计不同任务上的全域分数、误差的方差分量、概化系数及可靠性指数, 结果见表7。

表7 不同任务上的方差分量值

从全域分数的方差分量来看, 控制任务的方差分量明显要低于色词任务的方差分量。在概化系数与可靠性指数上, 控制任务与色词任务相差不大,都为0.82以上, 达到了良好水平, 相对而言, 色词任务的测量精度更好一些, 但两者差异不明显。

2.2.3 图-词干扰范式D研究

实验中, 由于色词任务与控制任务的素材容量相同, 所以两者以0.5为权重合成了全域总分, 结果如表8。

表8 D研究合成全域分数的方差分量等指标估计

从表8可以看出, 全域总分的概化系数与可靠性指数都达到了0.91以上, 这是一个比较高的值,说明图-词干扰范式的实验控制得比较好, 受误差影响较低, 精度较高。

不同任务对总方差贡献比例的分析结果如表9所示,

由表9可知, 色词任务的方差贡献比控制任务高11%, 同时在相对误差与绝对误差上色词都要高于控制任务, 但各自在相对与绝对误差上差异较小。

以保证实验信度为目标, 探讨了本实验范式的最佳实验素材容量的选择, 结果见表10。

表9 不同任务对总方差贡献比例

表10 D研究中不同任务样本量与可靠性指数关系

从表10可以看出, 色词与控制任务素材容量为基准模式时, 可靠性指数只有0.30, 当容量达到G研究样本的0.5倍, 即12时, 可靠性指数就能达到0.84, 并且比0.25倍容量增加了0.12, 在增加一倍后, 即为24时, 增量为0.07, 总分可靠性指数达到0.91。当色词与控制任务素材容量各为36与48时, 增量分别为0.03和0.01, 全域总分可靠性指数为0.94和0.95,之后继续增加, 可靠性指数的增量只有0.01, 同时在2倍模式时, 与1.5倍模式增量变化为0.01, 与2.5倍模式的增量比较也只有0.01,增量极低。综合考虑认为, 总分可靠性指数达到了0.95, 素材容量为48时,实验素材容量达到最佳,继续增加素材容量时的可靠性指数变化不大。

2.3 研究3 实验素材容量选择：线索提示范式MGT分析

2.3.1 线索提示范式研究过程

实验被试：实验同样收集了31个被试的反应时数据, 其中男生10人, 女生21, 皆为大二学生。

实验程序：实验图片都采用240×170像素, 以箭头为提示线索, “*”为目标刺激, 线索提示呈现时间为300～600 ms之间随机一个点, 目标刺激呈现1500 ms, 在实验前告知被试线索提示与目标一致性概率分别为80%与50%, 对左右不同位置的目标刺激分别按“d”键与“k”键。正式实验中, 有效提示与无效提示素材容量都为25, 共50个素材。实验采用E-prime程序编制, 统一在学院机房进行。

数据预处理在线索提示范式实验中也采用上文一致标准筛选, 同时替换错误作答反应时。

2.3.2 线索提示范式G研究

被试(p)、任务(i：有效提示与无效提示任务)以及被试与任务(pi)的交互效应在有效提示与无效提示任务上的方差与协方差分量的估计结果, 如表11。

表11 G研究中效应在不同任务上的方差与协方差分量估计

在表11中, 首先对线索提示范式的效应存在时进行分析, 通过比较有效提示与无效提示均值发现, 提示效应 = M- M= 414.35 - 377.42 =36.93, 说明提示效应是存在的。在p主效应上, 无效提示的方差分量(3879.22)要高于有效提示的方差分量(3214.10), 说明无效提示变异更大; 对于不同提示效果的测量侧面i可以看出, 两者的方差分量相差不大; 在pi交互效应上, 无效提示的方差分量要高于有效提示的方差分量, 同时从协方差与相关系数可以看出, 有效与无效任务的相关较高。

2.3.3 线索提示范式D研究

根据G研究估计的方差和协方差矩阵, 可以进一步估计不同任务上的全域分数、误差的方差分量、概化系数及可靠性指数。结果见表12。

从表12可以看出, 在全域分数的分差分量中,有效提示产生的方差分量明显要低于无效提示的方差分量。有效提示和无效提示的概化系数分别为0.93和0.94, 可靠性指数也达到了0.93和0.94, 说明实验的精度在有效与无效提示任务上都比较高,受到误差影响较小。

由于有效提示为50%, 所以有效提示与无效提示素材容量的权重是一样的, 从而合成了如表13所示的全域总分的不同数据指标。

表12 不同任务上的方差分量值

表13 D研究合成全域分数的方差分量等指标估计

全域总分的相对误差与绝对误差相差较小, 从全域总分的概化系数与可靠性指数的差异也可以看出来。全域总分的概化系数达到了0.96, 而可靠性指数也为0.96, 所以, 绝对与相对误差或者标准差之间的差异都比较小。全域总分的可靠性指数为0.96, 这是非常高的一个数值, 说明线索提示范式的实验测量精度非常高。

不同提示任务对总方差的贡献比例分析结果,如表14所示。

表14 不同提示对总方差贡献比例

在表14中, 从不同提示任务对总方差的贡献比例可以看出, 虽然无效提示与有效提示的素材容量是一样的, 但是无效提示对总方差的贡献明显要高于有效提示的作用, 两者分别为52.58%、47.42%,但不同提示任务在相对误差与绝对误差上差别还是比较小的。

以保证实验信度为目标, 探讨了本实验范式的最佳实验素材容量的选择, 结果见表15。

表15 D研究中不同提示样本量与可靠性指数关系

在表15中, 基准模式的可靠性指数只有0.51,到G研究样本容量25时, 可靠性指数达到了0.96以上, 相对0.5倍模式, 增加了0.02, 当素材容量增加至35时, 增量为0.01, 可靠性指数为0.97, 当达到2倍模式与2.5倍模式时, 增量分别为0.01、0.00,可靠性指数达到了0.98、0.98, 但可靠性指数增量明显变小, 所以综合而言, 线索提示范式的最佳素材容量为35, 可靠性指数为0.97。

3 讨论与结论

在许多的认知行为实验研究中, 典型的素材容量的选择从20左右到100左右, 相互相差很大, 还未发现研究者对各种容量选择情形下的误差进行解释。那么, 当容量为20时就够了吗？达到100时是否合适呢？

在认知行为实验研究中, 如何确定最佳的实验素材容量？有的研究者可能依据前人的研究设计,有的研究者可能依据自身的经验, 有的研究者可能会依据认知行为实验研究的一般性要求, 有的研究者可能只能根据素材的实际可得性条件来确定。许多相同的实验范式之间使用的素材容量相差极大。素材容量主要是影响实验结果的信度, 即结果的稳定性、一致性程度。研究者当然可以通过不断增加容量以确保实验结果的稳定性, 然而, 究竟多少是合适的呢？研究者也许可以通过不断试验的方式来进行研究, 但是, 基于概化理论的分析也许是一种更加直接高效的分析架构, 因为它既可以分析出一种理想的素材容量, 同时也可以指出当素材无法达到最佳容量要求时可能存在的误差大小。概化理论可以在同时考虑多个影响测量目标的因素的情形下分析出最佳的实验设计模式。

本文运用多元概化理论技术, 以追求良好的实验信度为目标, 同时考虑实验成本, 探讨了不同实验(认知、语言、注意)的素材容量的最佳选择。同时在确定实验效应存在的前提下, 通过素材容量的改变, 结合可靠性指数的增量变化大小, 从而确定最佳实验素材容量, 为实验研究在素材容量选择上提供有价值的参考。结合前面对IAT内隐联想范式、图-词干扰范式、线索提示范式的分析, 以及图1所示, 可以认为, 在IAT实验上, 相容与不相容任务的素材容量为50时, 即2.5倍模式, 可靠性指数为0.92, 之后实验的可靠性指数变化趋于直线; 在图-词干扰范式中, 素材容量位于2倍模式后, 增幅趋于直线, 所以其素材容量以48为最佳, 可靠性指数为0.95; 对线索提示范式, 当50%线索为有效提示时, 有效与无效提示最佳素材容量为35, 即素材容量为1.5倍模式, 其测量精度为0.97。

图1 不同实验素材容量的可靠性指数

本研究可以为认知行为实验研究者在选择合适的实验素材容量时提供一些有益的借鉴。

Bai, J. (2003). Study of the multivariate generalizability analysis of Chinese medicine entrance tests in 2012.

Examinations Research,

(1), 51-56.[白娟. (2013). 2012年全国硕士研究生入学中医综合考试的多元概化理论研究.

考试研究,

(1), 51-56.]Brennan, R. L. (2001).

Generalizability theory

. New York：Springer-Verlag.Chen, X. F., Jiang, J., Zhao, X., & Chen, A. T. (2010). Effects of practice on semantic conflict and response conflict in the Stroop task.

Psychological Science, 33

(4), 869-871.[陈雪飞, 蒋军, 赵晓, 陈安涛. (2010). 练习对Stroop效应中语义冲突和反应冲突的影响.

心理科学,

33(4),869-871.]Greenwald, A. G., McGhee, D. E., & Schwartz, J. L. K. (1998).Measuring individual differences in implicit cognition： The implicit association test.

Journal of Personal and Social Psychology, 74

(6), 1462-1480.Guo, C. Y., Zhu, Y., & Hou, P. Z. (1998). An experimental study of the influence of binaural hearing and word-fragment completion on immediate recall and delayed recall.

Psychological Science, 21

(2), 118-122.[郭春彦, 朱滢, 侯培庄. (1998). 双耳分听和补笔对立即回忆、延迟回忆影响的实验研究.

心理科学, 21

(2), 118-122.]He, A. M., Liu, H. S., & Hui, Q. P. (2013). An experimental research on implicit and explicit gratitude of undergraduates.

Psychological Development and Education, 45

(1), 22-30.[何安明, 刘华山, 惠秋平. (2013). 大学生感恩内隐效应的实验研究.

心理发展与教育, 45

(1), 22-30.]He, L. G., & Zhou, A. B. (2006). A study of life satisfaction scales applicable to Chinese adolescent students by the Generalizability theory.

Psychological Science, 29

(5),1199-1202.[何立国, 周爱保. (2006). “青少年学生生活满意度量表”的概化理论研究.

心理科学, 29

(5), 1199-1202.]Kang, C. H., Jiang, Y., & Xin, T. (2010). Generalizability theory in the study of raters’ consistency of personnel evaluation.

Psychological Science, 33

(6), 1456-1460.[康春花, 姜宇, 辛涛. (2010). 概化理论在人事测评中的评分者一致性研究.

心理科学, 33

(6), 1456-1460.]Li, Y. D., & Zhang, X. M. (2010). The different cuing effect of three types of cue.

Psychological Science, 33

(3), 627-630.[李迎娣, 张学民. (2010). 不同类型提示线索提示效应的大小比较.

心理科学, 33

(3), 627-630.]Liu, Y., & Wang, Z. H. (2011). The relationship between the emotional Stroop effect and the Stroop effect.

Psychological Science, 34

(4), 806-812.[刘亚, 王振宏. (2011). 情绪Stroop效应与Stroop效应的关系.

心理科学, 34

(4), 806-812.]Lü, Y., Zhang, W. N., & Shen, D. L. (2010). Subliminal affective priming effect by faces with different valence： An ERP study.

Acta Psychologica Sinica, 42

(9), 929-938.[吕勇, 张伟娜, 沈德立. (2010). 不同愉悦度面孔阈下情绪启动效应,来自ERP的证据.

心理学报, 42

(9), 929-938.]Pan, Y., Shen, D. L., & Wang, J. (2009). The spatial numerical association of response codes effect of Chinese character number processing in different attention referential cues.

Studies of Psychology and Behavior, 7

(1), 2l-26.[潘运, 沈德立, 王杰. (2009). 不同注意提示线索条件下汉字数字加工的SNARC效应.

心理与行为研究, 7

(1),2l-26.]Posner, M. I. (1980). Orienting of attention.

Quarterly Journal of Experimental Psychology, 32

, 22-25.Stroop, J. R. (1935). Studies of interference in serial-verbal reaction.

Journal of Experimental Psychology, 18

(6),643-662.Sun, X. M., Zhang, H. C., Xue, G., & Li, J. (2009). The application of the multivariate generalizability theory to a structured interview.

Psychological Science, 32

(4), 916-919.[孙晓敏, 张厚粲, 薛刚, 黎坚. (2009). 多元概化理论在结构化面试中的应用研究.

心理科学, 32

(4), 916-919.]Sun, Y., & Guo, K. J. (1992). Hemispheric asymmetry in the processing of Stroop stimuli.

Psychological Science,

(2),20-25.[孙勇, 郭可教. (1992). Stroop色词干扰效应与大脑两半球言语功能的不对称性.

心理科学,

(2), 20-25.]Wu, M. Z. (2006). The relationship between the IAT effect and the target-concept’s association.

Psychological Science,29

(3), 580-582, 531.[吴明证. (2006). 内隐联结测验的IAT效应和概念联系的对应关系研究.

心理科学, 29

(3), 580-582, 531.]Yang, L. Z., Jiang, Z. Q., & Liu, Y. (2005). A comparative study of subliminal affective priming and the emotional Stroop effect.

Psychological Science, 28

(4), 784-787.[杨丽珠, 蒋重清, 刘颖. (2005). 阈下情绪启动效应和Stroop效应之对比实验研究.

心理科学, 28

(4), 784-787.]Yang Z. M., & Zhang, L. (2003).

Generalizability theory and its applications

. Beijing： Educational Science Publishing House.[杨志明, 张雷. (2003).

测评的概化理论及其应用

. 北京：教育科学出版社.]Yang, Z. M., & Zhang, L. (2003). Can we measure the third factor by WISC-CR? —a study of WISC CR by the Multivariate Generalizability Theory.

Psychological Science, 26

(2), 305-307.[杨志明, 张雷. (2003). 韦氏儿童智力量表能否测量第3因子—WISC-CR的多元概化理论研究.

心理科学, 26

(2),305-307.]Yang, Z. M., Zhang, L., & Ma, S. Y. (2004). Multivariate generalizability analysis of the Chinese college entrance comprehensive examination.

Psychological Science, 36

(2),195-200.[杨志明, 张雷, 马世晔. (2004). 从多元概化理论看高考综合能力测试的改进.

心理学报, 36

(2), 195-200.]Zhang, X. M., Shu, H., & Tang, Y. (2008). Phonological effect on Chinese word cognition in dichotic listening task.

Applied Linguistics,

(2), 72-80.[张学民, 舒华, 唐云. (2008). 双耳分听任务中语音相似性对汉字认知的影响.

语言文字应用,

(2), 72-80.]