量表中的措辞效应：类型、机制及控制方法

2017-02-16 20:27余小霞辛自强苑媛

心理技术与应用 2016年9期

余小霞　辛自强　苑媛

摘要：措辞效应是一种由量表语言表述引起的特殊的方法效应。本文系统梳理了措辞效应的相关研究，根据措辞效应的来源将其分为正向一反向表述效应、问题表述焦点效应、量尺选项的措辞效应三类，并从语义理解、认知加工等视角探讨了措辞效应发生的心理机制。控制措辞效应有两类方法，一方面可以采用转换项目表述方式和量表形式等程序控制手段，另一方面可以采用“相关特质相关方法”“相关特质相关特性”和双因子模型分析方法进行统计控制。未来研究应加强影响因素的探究，考察常用量表在不同文化下的措辞效应，并借鉴语言学的视角深入探究措辞效应的本质。

关键词：措辞效应；方法效应；心理机制；控制方法

1.引言

心理测量主要以文字语言为载体传达意义，受测者基于对量表语义的理解对各个项目做出反应。这就使得量表中语言表述的结构、内容等因素均可能导致测量结果的差异。这类由语言表述方式对量表产生的影响可以统称为“措辞效应”（wording effect）。

国内外研究者在使用“wording effect”这一概念时，往往将其等同于“项目表述效应”（item/question wording effect），即项目的正向和反向表述方式引起的与测量内容无关的系统变异（顾红磊，王才康，2012；顾红磊，温忠麟，2014；DiStefano&Moil，2006）。事实上，项目表述效应仅是措辞效应的一种表现形式.由于其具有普遍性和典型性，将显著影响量表的信度和效度，因而引起了众多研究者的关注。

从根本上讲，措辞效应是一种方法效应（method effect）或者说反应偏差（response bias），它是一种与测量构念无关的、系统的误差反应（American Education Research Association，1999）。心理测量中有两个值得特别关注的问题：测量结果能否反映被试的真实状态？测得的是不是目标变量？量表的优劣通常用信度和效度两个指标来衡量，量表中的细微差异，包括问题和选项的顺序、措辞使用等都会对量表的信度和效度造成影响（Krosniek，1991）。

随着测量法的广泛应用.研究者面临着一个共同的困境：尽管使用同一量表.不同研究得到的量表结构却不尽一致。最为典型的如罗森伯格自尊量表，大多数研究结果不支持原量表设想的单维结构：一些研究发现正向表述和反向表述的项目各聚合成一个因子.构成量表的二维结构（Farh&Cheng，1997；Marsh，Scalas，&Nagengast，2010）；一些研究发现除整体的自尊因子外，正向表述项目（Wang，Siegal，Falck，&carlson，2001）或反向表述项目（DiStefano&Moil，2006）存在一个方法因子；也有研究发现，除整体的自尊因子外，正向表述项目和反向表述项目各包含一个潜在的方法因子（Lindwall.Barkoukis，Grano，Lucidi，Raudsepp，Liukkonen，&ThogersenNtoumani，2012；Urban，Szigeti，Ktiktinyei，&Demetrovics，2014）。以项目表述效应为代表的措辞效应普遍存在于诸如罗森伯格自尊量表等各类量表中，不能忽视（Marsh，1996；Biderman，Nguyen，Cunningham，&Ghorbani，2011），一些实证研究已经从不同角度揭示了措辞效应的实质.对以上问题做出了解答。本文将梳理措辞效应的主要类型及其对测量的影响，分析不同类型措辞效应存在的心理机制.在此基础上探讨避免和消除措辞效应的方法。

2.措辞效应：类型及影响

量表中的措辞既包括指导语和题干的语言表述，也包括量尺上的选项表述。根据措辞效应的来源，可将其分为三类：正向-反向表述效应、问题表述焦点效应、量尺选项的措辞效应。

2.1正向-反向表述效应

在大多数量表中.为了避免被试产生趋同反应.只在量尺的一端作答，往往同时采用正向题和反向题（McClendon，1991；Schuman&Presser，1981）。以罗森伯格自尊量表（Rosenberg Seff-Es-teem Scale，RSES）为例，该量表共有10个条目，包括5道正向题（比如，“我认为自己是个有价值的人，至少与别人不相上下”）和5道反向题（比如，“我觉得自己没有什么值得自豪的地方”）。

即便对反向题进行了反向计分处理，使正向题和反向题在逻辑上具有等价性.正向题和反向题的混合使用仍带来了新的问题。许多人格量表都是单维结构，正向题和反向题引起的项目表述效应使得项目间的相关降低，导致因素分析中单维结构拟合不佳（DiStefano&Moil，2006）。这一现象在不同的量表中均得到了证实，例如Rosenberg（1965）编制的自尊量表（DiStefano&Moil，2006；Marsh et a1.，2010），Judge，Erez，Bono和Thoresen（2003）编制的核心自我评价量表（Gu，Wen，&Fan，2015），Scheier，Carver和Bridges（1994）编制的生活定向测验（顾红磊，王才康，2012；Kam&Meyer，2012），Prmto，Sidanius，Stallworth和Malle（1994）编制的社会支配倾向量表（Xin&Chi，2010）。

同时.对于哪些项目适合正向表述.哪些项目适合反向表述.以及正向和反向表述各占多大比例等问题目前尚无定论。研究者对于某些项目采用正向表述还是反向表述也存在争论.比如罗森伯格自尊量表中文版的条目8。在原量表中该条目被列为反向题，采用反向计分方式。中文版量表将其翻译为“我希望我能为自己赢得更多尊重”，在语义上变成了正向表述项目，但使用时仍沿用反向计分方式（汪向东，王希林，马弘，1999）。研究发现，这樣的处理方法导致该条目鉴别度不强，量表的信度也随之降低，因此一些研究者建议删除该题目或者修改表述和计分方式（韩向前，江波，汤家彦，王益荣，2005；申继亮，张金颖，佟雁，周丽清，2003；田录梅，2006；王萍，高华，许家玉，黄金菊，王成江，1998）。申自力和蔡太生（2008）通过比较不同的表述方式发现.该项目改为反向表述“我觉得我将来难以获得更多的尊重”时，量表的内部一致性信度更高，因此采用反向表述似乎更好。

在正向一反向表述中，还有一种较为特殊的类型：比较式表述。当进行两个事物的比较时，既可以采用正向比较（比如“A比B好”），也可以采用反向比较（“B比A差”），研究者将这两种表述形式分别称为“优于”（more than）句式和“差于”（less than）句式（Bruekmtiller&Hoorens，2015）。在逻辑意义上，两种句式是等价的，然而研究表明.人们对正向比较表述的同意程度和喜欢程度均高于反向比较表述，并且“优于”句式（“多于”“好于”……）比“差于”句式（“少于”“弱于”……）更有说服力。

作为一种典型的措辞效应，正向一反向表述效应具有一些较为明显的特征。首先，它受到个体因素的影响，比如年龄、受教育程度、人格。大多数研究发现罗森伯格自尊量表的反向表述效应更突出.但该量表用于老年人时正向、反向表述均存在方法效应且正向表述的效应更突出.研究者认为这与被试的情绪和心境有关，老年人特定的心态导致他们偏好积极回答（Carstensen&Mikels，2005；Lindwall et al，2012）；受教育程度较高的被试更不容易受到不同项目表述的影响.因为认知水平影响对措辞的理解能力，受教育程度较高的被试能够辨别出正向表述和反向表述间细微的差异（Campostrini&Mcqueen，1993），理解两种表述形式的语义等价性，因此不容易受措辞形式改变的影响；具有完美主义人格的被试在中文版生活定向测验中反映出更明显的项目表述效应（顾红磊，王才康，2012）。

其次，正向一反向表述效应的大小与文化背景有关。由于不同文化中人们对项目表述的理解，尤其是反向表述的理解具有较大差异（Schmiu&Allik，2005），因此，不同文化的被试在同一量表特质因子和方法因子上的得分不一致，并且正向表述和反向表述的效应也存在差异（Lindwall etal，2012；Yang，Chen，Lo，&Turner，2012）。此外，文化差异可能作用于人格导致作答差异。在测量自尊时，东方文化下被试表现出保守倾向，使得他们容易低估自己的表现，最终导致正向表述的项目出现措辞效应（Farh&Cheng，1997）。

再次，项目的排列顺序也可能影响项目表述效应。有研究发现，当改变自尊量表中项目的顺序时，项目表述效应的强弱随之改变（Urban etal，2014）。同时，项目表述效应具有跨时间的稳定性（Moil&DiStefano，2002；Urban et al，2014），因此一些学者认为其反映的是人格特质（DiStefano&Moil，2006；Lindwall et al，2012）。

2.2问题表述焦点效应

在理解问题表述时.措辞中隐含的特定意义以及问题表述中涉及的关键词语都可能成为焦点，影响被试对项目的反应。

2.2.1引导性措辞

引导性措辞是指问题表述通过传达隐含的假设，引导回答者以特定的方式思考问题，从而给出研究者期望的答案（Lehman，Krosnick，West&Li，1992）。比如，“你在多大程度上认为有关x的新闻报道含有对x的偏见？”中暗含了一个确定的判断：新闻报道含有对x的偏见。这类措辞容易引起人们的默许反应倾向和证实倾向.掩盖其真实态度，做出社会大众或研究者所赞许的行为。

2.2.2关键词表述

问题表述中有一些较为关键的措辞.它们可能成为被试关注的焦点，从而影响反应结果。这些措辞主要涉及专业术语、敏感话题、频率词、反应内容、行为主体等方面.有研究者曾总结了其中一些方面对量表产生的影响（Podsakoff.MacKenzie，Lee，&Podsakoff，2003）。

专业术语的指代含义十分明确，其熟悉度和理解难度对于不同群体差异较大。在日常使用中，人们还会对一些专业术语附加一定的褒贬意味.使得作答结果表现出更强的社会赞许性。研究者在调查临床医疗中安慰剂的使用频率时.采用了两种问卷，一种直接使用专业术语“安慰剂”.一种将其隐晦地表述为“非特异性疗法”，结果采用“安慰剂”表述的问卷上.医生回答的使用频率显著低于另一种问卷（Tilburt.Emanuel，Kaptchuk.Curlin，&Miller，2008）。与之类似，量表中涉及敏感话题（比如“性观念”）时，措辞的使用也非常关键。为了避免社会赞许性的影响.往往采用较间接的、隐晦的措辞。

人格和心理健康测量中经常使用一些表示频率的词语，这些词语的使用也可能影响被试的反应。当题目中包含极端的频率词（如“总是”“从不”）时，被试有更强烈的避免极端选项的倾向.导致在李克特量表上更容易选择中点值（MePherson&Mohr，2005；Nye，Newman，&Joseph，2010）。

另外，量表的指导语或题干表述明确指出了被试需要做出何种反应，比如，是评价“喜欢程度”还是“同意程度”.前者侧重情感，后者则含有较多的认知成分，这类引导反应内容的措辞可能导致不同的结果。此外，问题表述中行为主体规定的是自己、特定他人还是一般人也将影响被试的反应。当涉及自我评价时.社会赞许效应会更明显，因此如果量表含有敏感话题.最好涉及“一般人”而非被试本人（辛自强，2012）。

2.3量尺选项的措辞效应

量尺是否标出所有选项、选项呈现的顺序以及两端选项的表述这三个特征是引起措辞效应的主要因素。

2.3.1量尺选项的完整性

通常情况下，量尺要么标明所有选项，要么只标注两端的选项。有研究对比了这两种量尺的差异，但结论存在争议。Christian（2007）发现，在标出所有选项时.被试更容易做出極端的积极回答，导致量表得分偏高；只标出端点时，被试的回答可能比其真实态度消极。随后又有研究发现，两种量尺得到的平均分并没有显著差异（deLeeuw，Hox，&Scherpenzeel，2011；Menold，Kaczmirek，Lenzner，&Neusar，2014），但是在deLeeuw等（2011）的研究中，标出所有选项时选择两个极端选项的被试的比例显著少于只标注两端选项的情况。

关于量尺选项的完整性与量表信效度的关系.研究结果也具有差异。一些研究发现，标出所有选项能提高评分者信度、重测信度、效度等指标（Menold et a1.，2014；Weng，2004）。然而，也有研究者得到了相反的结果（如Andrews，1984）。值得注意的是.李克特量表所采用的计分量尺严格来讲是一种顺序量尺或等级量尺.只是在处理数据时通常将其视作等距量尺（辛自强，2012）。在量尺上标出所有选项有利于被试理解.但文字表述间往往并不等距，易破坏量尺的等距性。

2.3.2量尺选项的顺序效应

选项的呈现顺序可能影响被试的回答，产生首因效应或近因效应（Krosnick&A]win，1987）。研究表明，首因效应和近因效应的出现与作答形式有关，量表以视觉形式呈现（如自陈式填答）时首因效应更明显，以听觉呈现（如电话调查）时近因效应更明显（Christian，2007；Krosnick&Alwin，1987）。

量尺上选项的方向性在一定程度上也会影响测量结果。李克特量表通常采用水平方向呈现的量尺，左端为消极表述，右端为积极表述，比如“非常不同意——非常同意”，但也有反向呈现的量尺.即采用“非常同意——非常不同意”的形式（如Lindwall et al.，2012）。此外，也有一些研究采用垂直方向呈现的量尺（如Christian，2007）。从已有研究结果来看，选项的方向性对垂直量尺的影响似乎更大。Christian（2007）发现，垂直量尺的顶端为消极表述时.评价结果略微积极，但在统计上没有显著差异。Hahne和Lenzner（2015）运用眼动技术探查选项顺序效应的本质.比较了方向性对水平量尺和垂直量尺的影响。其结果发现.垂直量尺更容易受到选项方向的影响.导致两种方向的量尺上作答结果出现更明显的差异。该研究同时揭示了被试在水平量尺和垂直量尺选项上注视点数量和注视时间的差异.无论方向如何，水平量尺左右两端获得的注意较为平均.垂直量尺上总是顶端部分获得的注意更多。

2.3.3量尺端点的文字表述

量尺选项的文字表述直接影响到被试对量尺的理解，措辞上的细微变化可能导致不同的反应。其中，量尺端点的文字表述尤为重要。研究者发现，量尺端点的文字表述可能通过激活与之对应的概念影响被试在量尺上的回答（Gannon&0s—trom，1996）。量尺的端点值可以采用“非常不x”和“非常x”，也可以采用“非常Y”和“非常x”（x与Y意义相反）。在前一种表述中，量尺明确标记的类别（x）被激活，另一个未被明确标记的类别会被用来判断量尺最左端的值（“非常不x”），在大多数情况下这个类别就是x的反面：而对于后一种.x和Y两个类别都被激活.而且一个与之均不同的类别会被用以理解量尺中间点。

使用李克特五点量表时，备选答案的表述用词采用“非极端表述方式”（“同意、比较同意、不确定、不太同意、不同意”）还是“极端表述方式”（“非常同意、同意、不确定、不同意、非常不同意”）可能影响被试的态度表达。研究者以大学生为被试，考察了这两种表述方式对被试的选择倾向是否存在影响。结果表明，大学生倾向于用非极端表述来表达态度，因而表现出对非极端表述量尺的偏好（李艳玲，2006）。

3.措辞效应：心理机制

3.1语义理解

对于正向一反向表述引起的项目表述效应，虽已有多年研究.但研究者的观点不尽一致，因此在项目表述效应的实质上还未达成共识（Kam，2016）。尽管如此，项目表述效应源于措辞，措辞本身的结构特征以及由此传达的语义在一定程度上有助于理解该效应。

Wason（1960）的研究表明，当改变对某一规则的语言描述时，被试会认为规则本身也发生了改变。由此看来，当某一项目由正向表述改为反向表述，或由反向表述改为正向表述时，其意义在一定程度上已经出现了差异。正反表述引起的结果差异可能正是由于正反表述背后的概念不同（campostrini&Mcqueen，1993）。在兼有正向和反向表述的量表中.反向表述效应更为普遍，这是因为理解否定陈述更具复杂性，等价的否定陈述与肯定陈述的信息处理方式不一致（Mayo，Schul，&Burnstein，2004）。比如在理解反向表述“我不是有罪的”时（对应的正向表述为“我是无辜的”），Mayo等（2004）发现，人们不是简单地通过“有罪的”或“无辜的”来进行理解，说明“有罪的”与“无辜的”不仅意义相反，且是两个不同的概念体系。由于语义理解很大程度上取决于个体的语言能力，因此有研究者认为，正反表述的反应偏差与被试的语言能力有关（Marsh，1986）。

语义理解的差异也为关键词表述引起的措辞效应提供了可能的解释。Manstead和Parker（1995）发现，在评价某一事物时，询问“是否喜欢”和“优势劣势”将分别激活态度的不同方面.导致评价结果不同。“是否喜欢”的表述激活情感性信念，诱发诸如兴奋、紧张、害怕等情绪，被试将基于情绪体验来进行评价；“优势劣势”的表述激活工具性信念，使被试更多地考虑客观实际的后果.基于行为的具体结果进行评价。

语义理解受到文化差异和日常使用习惯这两个因素的影响，这两个重要因素有助于进一步解释措辞效应。Schmitt和AHik（2005）采用罗森伯格自尊量表在53个国家开展大规模调查，发现反向表述效应在不同国家样本中的强弱程度有差异。他们认为，这是因为反向表述的理解更加复杂，在不同文化中更容易产生差异，这或许也是反向表述效应更为普遍的原因之一。有關罗森伯格量表的诸多研究证据启示研究者，在翻译、修订量表时.需要格外注意文化差异导致的语义理解上的分歧。以学习动机量表为例，研究者发现，中文版量表中的一些项目与其在原量表中所隶属的内生和外生动机取向不同（池丽萍，辛自强，2006）。比如，“我想要知道自己究竟能在学业上做得多出色”在原量表中是内生动机的组成项目，中国被试却因“出色”是与他人比较得出的结果而将其视为外生动机的内容。

语义理解受到日常使用习惯的影响，语言习惯导致人们对一些特定的表达方式具有独特的理解。比如，对于两个极端的类型，如好-坏、高-矮等.人们习惯于使用“好”“高”一端，这一端往往涵盖了正向、反向的所有类型，而相反的一端只包含了其本身指代的类型。比如，当人们问“这个人有多让人讨厌”时，意味着这个人是让人讨厌的（只是在问讨厌的程度），而在问“这个人有多让人喜欢”时就没有这样的预设（Bruckmtiller，&Hoorens，2015）。

3.2认知加工特征

3.2.1决策判断中的偏见

“假设证实策略”（hypothesis—confirmation strategy）可以解释引导性措辞的影响。当问题表述中隐含的假设被个体知觉时，人们倾向于证真而非证伪，因此会无意识地搜集与之符合的证据，并选择性地忽略反面证据（Skov&Sherman，1986）。决策与判断领域的研究将这种现象称为“判断焦点效应”（Lehman et al，1992），认为人们普遍存在内隐的、支持题干表述焦点的倾向。这一效应还受到被试作答动机的影响，比如，利己性动机可能导致不同程度的措辞效应。因此，在涉及个人特质时，问题表述对个人特质越有利，被试越容易赞同（Sakshaug&Kreuter，2014；Sears，1983）。此外，当量表不仅仅是自我评价，还关系到自我在他人面前的表现时，措辞效应更为明显（Farh&Cheng，1997）。

3.2.2认知比较

一些项目表述含有对两个事物的比较，社会知觉领域的研究发现，人们在对两个事物进行比较和判断时，通常习惯把一方作为基准，通常是地位更高或占據多数的一方：而对于两个社会地位一致的群体，当把其中一个作为比较的基准时，该群体会被认为具有更高的地位和权力（Bruckmtiller&Abele，2010）。比如，“男性跟女性有什么不同”和“女性跟男性有什么不同”两个问题得到的答案可能有一定区别。并且，当人们缺乏关于这两个群体的地位的知识时.这种现象更明显（Bruckmtiller，Hegarty，&Abele，2012）。基于这一机制，在比较句式中将哪一方作为基准尤其重要，这将影响人们对两个事物相对特性的期望。

在具体表述时.人们更偏好正向比较句式（“A比B好”）而不是反向比较句式（“B比A差”），这是因为“多于”“好于”等句式更符合日常的语言使用习惯，具有更高的认知流畅性（Bruckmtiller&Hoorens，2015）。

3.2.3认知资源分配

量尺选项引起的措辞效应源于认知资源的有限性，这种有限性使得个体在不同选项上分配的认知资源不均衡（HoShne&Lenzner，2015；Krosnick&Alwin，1987；Tourangeau&Rasinski，1988）。

标出量尺的所有选项与仅标注两端两种条件下，被试对量尺的认知加工存在差异。在前一种条件下.被试要阅读、加工并理解所有选项（Christian，2007），因此各选项得到的注意程度及被选择的可能性更为平均，这似乎能解释deLeeuw等（2011）研究中标出所有选项时极端回答更少的现象。

量尺选项的首因效应和近因效应更突出体现了各个选项上认知资源分配的不均衡性，这两种效应的强弱受到作答形式的影响，不同作答形式导致对选项的加工深度不同.加工越深的选项越容易被选择（Krosnick&Alwin，1987；Christian，2007）。当量表以视觉形式呈现时（比如自陈式填答），第一个选项往往能获得更深层的认知加工.容易出现首因效应；当量表以听觉形式呈现时（比如电话调查），第一个选项还没来得及加工，第二个选项又会呈现.因此最后一个选项往往能获得更深层的加工，出现近因效应。

4.措辞效应：控制方法

措辞效应并非不可避免，研究者可以从两个层面尽可能地减少甚至消除措辞效应的影响：（1）程序控制，编制量表时适当转换项目表述方式和量表形式等；（2）统计控制，在事后统计分析时通过比较不同模型的拟合度，辨析措辞效应是否存在并予以分离。

4.1程序控制减少措辞效应

方法一，舍弃反向表述项目。反向表述引起的措辞效应更为普遍.因此.一些研究者认为避免措辞效应最为简便的方法就是只采用正向题（Lindwall et al，2012）。但这样容易导致被试在各个项目的反应趋同，带来共同方法偏差.所以遭到大多数研究者的反对。较早之前有研究者提出仍然保留反向题，将其作为填充题或测谎题，但计算总分的时候只使用正向题（Marsh，1996）。这种方法可能有效，但也带来了新的问题。由于一些正向题和反向题属于同一个维度，但内容不同，如果忽略反向题的得分，就必须增加与之对应的、等价的正向题，这就会使得量表项目的数量增加。

方法二，将单极表述项目改为双极表述项目。主要做法是将正向或反向单极表述的项目转化为由一对反义词或一对意义相反的表述构成的双极表述项目（Schweizer，Rauch，&Gold，2011；Schweizer&Schreiner，2010）。在具体操作时，需要找到表述方向相反的一对项目，明确它们表述的核心概念，再定义量尺的两端。比如可以将评价符合程度的两个项目“大多数时候我都很开心”和“大多数时候我总是闷闷不乐”转化为“大多数时候我的情绪状态”.并采用“十分沮丧——十分开心”作为量尺。

该方法具有三个较为明显的优势。其一，转化后的项目能对所属维度做出更准确的描述（单极项目只能描述该维度的一个方向）.从而使分量表之间，以及分量表与总量表的相关性显著提高。其二，双极表述项目较为中性，能有效减少偏见，避免被试对项目产生独特性的理解（Goldberg，1992）。Schweizer和Schreiner（2010）认为，双极量表同时刺激了正向和反向作答的倾向，能平衡不恰当的反应倾向.排除情感因素的影响.更具有客观性。其三，这样的转化还能减少量表中的项目数量。

方法三，改变量表形式。一些研究者建议用“特殊构念量表”（construct-specific scale）代替询问同意程度的李克特量表（Saris.Revilla，Krosnick，&Shaeffer，2010）。常用的李克特量表都是采用类似“你在多大程度上赞同‘陌生人是可信的？”的题目.相应的文字量尺为“非常不同意——非常同意”。事实上，可以将题目表述转化为“陌生人多大程度上可信？”，量尺采用“非常不可信——非常可信”。这两种量表形式都是在测量“陌生人的可信程度”.区别在于“特殊构念量表”在项目和选项中直接使用了测量的目标概念。Christian（2007）比较了两种量表形式，发现被试在询问同意程度的李克特量表中往往避免选择“强烈赞同”等极端选项.有较明显的趋中作答倾向，而在“特殊构念量表”中.被试在各个反应选项上的选择较为平均。Saris等（2010）认为，“特殊构念量表”能使被试在作答时只需要考虑一个维度，即量表测量的维度，而不需要同时考虑量表测量的维度以及“是否同意”这一反应维度，能有效减少测量误差。

此外.在量表形式上，可以用语义分化量表代替李克特量表。有研究分析了不同文化下的极端作答倾向，比较了两种类型的量表——李克特量表和语义分化量表.发现李克特量表更容易引起极端作答。研究者认为这是因为它太简单，被试作答时卷入度较低（Rocereto.Puzakova，An—demon，&Kwak，2011）。

方法四，在题目表述和选项设置的其他细节上尽量避免措辞效应。首先，对于反向表述项目，语义要尽可能地明确，让被试理解答题要求：同时，注意避免双重反向表述，因为与反向表述相比，双重反向表述有更强的方法效应（Wang.Chen，&Jin，2014）。其次，在翻譯量表的过程中.为保证量表所测项目的有效性，可以根据量表编制者的理论意图和概念界定对一些容易产生歧义或者不符合语言习惯和文化背景的项目进行修正（池丽萍，辛自强，2006）。此外，注意控制项目表述的难度，避免多重语义。比如，研究者发现.将询问同类行为发生频率的问题拆分成若干个只针对某一具体行为的问题后，被试回答出现这些行为的概率更高——因为把所有行为放在一道问题中时.被试无法详尽考虑所有问题（Brener，Grunbaum，Kann，Mcmanus，&Ross，2004）。

4.2统计控制分离措辞效应

在编制量表的过程中.应首先考虑程序控制手段，这样才能从源头上避免措辞效应。但是，由于难以穷尽量表措辞的所有细节，一些措辞的微弱差异也很难探查到，因此研究者试图用统计的方法验证措辞效应是否存在，并通过特殊的统计方法将其分离出来。

在包含正向和反向表述项目的人格量表中.若要探明人格结构的实质，分离措辞效应尤其重要。目前，分离措辞效应的统计方法在有关正向、反向项目表述效应的研究领域已十分成熟，其基本思路是，运用验证性因素分析的方法.建立包含项目表述效应在内的多个模型，比较模型的拟合度，探查效应存在与否并进一步分析计算。

研究者基于多元特质-多重方法（multitraitmultimethod）的概念框架.先后发展了相关特质相关方法（Correlated-Trait Correlated-Method，CTCM）和相关特质相关特性（Correlated-Trait Correlated-Uniqueness，CTCU）两类模型。两类模型的原理具有差异：CTCM模型把项目表述效应当作一种稳定特质，通过构建独特的潜变量方法因子，将项目表述效应从特质效应和误差效应中分离出来.并得到估计：CTCU模型则把项目表述效应当作影响因子结构的噪音，通过限制所有的正向题或反向题的测量误差相关.将项目表述效应分离，但不能对其单独估计（Bagozzi，1993；Lindwall etal，2012；Podsakoff et al，2003；Quihy，Oakman，&Risko，2006；Tomds&Oliver，1999）。相比之下.CTCM模型的一大优势在于包含了独立的方法效应因子，使得方法效应能用其他变量量化和预测（Lindwall et al，2012）。除此之外，两种模型各有优劣.研究者对于采用哪种模型存在较大争议，有研究者对此进行了总结，并通过数据模拟加以比较，建议优先采用CTCM模型（Conway，Lievens，Seullen，&Lance，2004）。

以Pratto等（1994）编制的社会支配倾向量表（social dominance orientation scale）为例，Xin和Chi（2010）基于CTCM和CTCU的方法明确了量表的结构。社会支配倾向量表由16个条目构成，正向表述项目和反向表述项目各8个.采用7级评分（1为“非常不同意”，7为“非常同意”），在数据分析时对反向表述项目进行反向计分处理。原量表被认为是单维结构，只包含社会支配倾向特质（SDO）一个因子（Pratto et al，1994）。另有研究者发现该量表可能包含2个甚至3个因子。为了探明该量表的结构，Xin和Chi（2010）依据CTCM和CTCU的方法构建了多个可能的模型，如图1所示。

在图1中.1A是一个单维结构模型，所有项目均负荷在SDO一个因子上.是原量表的理论模型；1B为两因素结构，正向和反向表述项目各自负荷在一个因子上：1C和1D为相关特质相关方法模型（cTCM），认为量表不仅包含SDO因子，还存在一个与SDO因子不相关的反向表述因子（1C）或正向表述因子（1D）；1E和1F为相关特质相关特性模型（CTCU），认为在SDO因子的基础上.存在反向题的测量误差相关（1E）或者存在正向题的测量误差相关（1F）。

采用验证性因素分析的方法检验这6个模型的拟合度.可以得到它们各自的拟合度指标和因素载荷。普遍来说，当X2/df小于5（接近或小于3更好）.CFI和NNFI大于0.90（接近或大于0.95更好）.RMSEA和SRMR小于0.08的时候.模型可接受。研究结果表明，单维结构的模型，即1A不可接受。也就是说，量表不只包含一个因子。比较这6个模型发现，模型1E具有更好的拟合度。这说明社会支配倾向量表不仅包含SDO特质因子，还包含由反向表述项目引起的方法因子。

如何证明反向表述项目的因子是方法效应而不是稳定特质呢？研究者以“群际信任”（group trust）为效标.检验了特质因子和方法因子与效标因子的关联度。理论上.特质因子为测量的目标特质，其与效标因子的相关性应达到显著水平；方法因子为系统误差.与效标因子则应当没有关系。由于模型1E中方法因子不是独立的，无法计算效标关联度.研究者以1c为基础，加入效标因子并构建了模型2，见图2。

同样地.采用验证性因素分析的方法检验模型2的拟合度。结果表明，模型2具有很好的拟合度。值得注意的是，社会支配倾向因子到群际信任的路径是显著的，反向表述效应到群际信任的路径则不显著。也就是说，只有社会支配倾向因子是量表测量的目标特质，它能有效预测群际信任水平，反向表述效应因子仅仅是方法因子。

由此可见，对于可能含有措辞效应的量表，可以依据CTCM和CTCU方法建构模型，比较模型拟合度，探明量表的实际结构；结合效标关联程度，进一步确认该量表中的措辞效应是方法效应还是穩定特质；通过文化背景差异的比较，还可以探究量表结构在不同文化中的稳定性。

但是.有研究者认为，CTCU和CTCM模型过于强调特质效应与项目表述效应的差异，忽略了二者的关系.因此建议采用“双因子模型”（bifactor model）（顾红磊，温忠麟，方杰，2014）。双因子模型是一种特殊的多维因子模型，该模型中同时包含了测量所有题目共同性的全局因子和测量部分题目共同性的局部因子（顾红磊，温忠麟，2014）。在该模型中，全局因子是测量的目标特质.局部因子则反映了正向表述或反向表述的效应（顾红磊，温忠麟，2014；Rios&Wells，2014）。通过这样的方式，量表项目的变异分解成全局因子、局部因子变异和误差变异，就可以计算局部因子在共同因子中所占的比例，得到测验的同质性系数.从而评价项目表述效应对测验单维性的影响程度（顾红磊，等，2014）。

近年来国内外一些文献系统介绍了CTCM、CTCU模型法（顾红磊，王才康，2012；熊红星，张璟，叶宝娟，郑雪，孙配贞，2012；周浩，龙立荣，2004）以及双因子模型法（顾红磊，温忠麟，2014；顾红磊，等，2014；Rios&Wells，2014）的原理和应用，本文不再赘述。

5.研究展望

措辞效应在不同的量表中普遍存在，它使得测量结果中掺杂了新的误差变异，增加了测量结果产生偏差的可能性。在采用测量法的研究中，措辞效应需引起高度重视。目前，与措辞效应相关的研究较多，但研究主题侧重正向一反向项目表述效应，各类措辞效应的实质和特性有待深入探究。

其一，探明措辞效应的影响因素及因素间的相互作用。一些因素对措辞效应的影响已经得到了验证，但已有研究对一些因素的作用存在争议，且不同因素间是否存在相互作用尚不明确。未来还需进一步探究各种可能的影响因素，并关注它们与一些重要的心理变量是否存在交互作用，这样才能更好地在量表编制、研究设计的程序上对措辞效应加以控制。

其二，考察不同文化背景下一些常用量表是否存在措辞效应及其具体表现。不同文化下语言的形式和语义理解存在较大差异，这可能是措辞效应的重要来源。罗森伯格自尊量表中措辞效应的研究发现对其他量表具有重要的借鉴意义.一些常用量表还需置于不同文化中考察是否存在措辞效应，以解释不同文化下的测量结果，并促进完善量表。

其三，借鉴语言学的视角深入探究措辞效应的本质。措辞效应源于语言形式，语言学的已有研究成果或许有助于解释措辞效应的本源.继而指导量表编制中的措辞使用。在未来研究中.从语言学和测量学的双重视角探究措辞效应的实质不失为一条好的研究路径。