应用Rasch模型分析Rosenberg自尊量表

2018-11-08 02:37:26张向葵

心理学探新 2018年5期

高爽张向葵

(东北师范大学心理学院，长春 130024)

1 引言

自尊，是个体生活中的基本需要，是个体人格的核心因素之一。自尊定义强调自尊应该从自我概念(Self-concept)结构中分离出来，自尊是在表达情感，或者评估自我概念结构中，强调人们如何感受自我(Leary & Baumeister，2000)。自尊不仅影响着人们的日常行为，如低自尊被证实与焦虑、抑郁、自杀、酗酒和暴力等消极行为相联系；还影响人们的情绪及生活满意度，与个体的心理健康密切相关(Baumeister，Campbell，Krueger，& Vohs，2003；Baumeister，2010；Sowislo & Orth，2013；高爽，张向葵，徐晓林，2015)。对于自尊的研究，一直以来就受到研究者们的重视，而有关自尊的测量亦是研究者关注的问题之一，使用何种测量工具能够测量出个体更真实的自尊水平，何种测量工具具有更好的测量学意义，这些都会影响研究者在自尊领域研究中的准确性与客观性。有关自尊的测量，目前使用最广泛的工具是由Rosenberg于1965年编制的自尊量表(简称RSES)，具有广泛性和代表性(Schmitt & Allik，2005)。Rosenberg提出该量表所测量的项目为单一维度，目的在于测量个体的整体自尊(Rosenberg，1995)。以往的一些研究对Rosenberg自尊量表究竟是单因素的模型还是两因素的模型进行了验证并提出了自己的见解，如Roth等(2008)认为RSES之所以被抽取出两个维度，完全是人为造成的——试题陈述方式的差异，但多数研究已证明RSES为测量单一维度(整体自尊)的有效工具(Chao，Vidacovich，& Green，2016；Quilty，Oakman，& Risko，2006)。

项目反应理论(Item Response Theory，简称IRT)的发展得益于传统经典测量理论(Classical Test Theory，简称CTT)的不足与局限，尤其体现在以下两方面：一是项目的参数指标具有样本依赖性，估计值依赖于样本，并随着样本能力不同而有所变化；二是CTT的前提假设是所有样本具有相同的测量误差，这会忽视样本在能力上的个体差异，导致估计不精确(漆书青，戴海崎，丁树良，2002)。相对于经典测量理论，项目反应理论能有效地评定被试的特质水平(杨业兵等，2008)。鉴于此，项目反应理论(IRT)在克服经典测量理论(CTT)不足的基础上发展出新的测量方法，并广泛应用在人格、教育及能力等测量中。Rasch模型(Rasch Model)以数据与模型的拟合为前提，对个体能力值和项目难度进行对数转换，建立一个等距的刻度衡量测试题的难度和个体能力，通过这种方法可以克服传统测量方法中对样本和测验的依赖(Wright，2000；刘昊，刘肖岑，冯晓霞，2013)。Rasch模型是目前IRT领域中最简化的模型(reduced model)，需要估计的参数最少，因而参数估计稳定性及精度往往比复杂的模型(如专家提到的用于人格测验的GGUM模型等)更高(Al-Owidha，2007；晏子，2010)，因此为了得到更精确的参数估计结果选用Rasch模型的重要考量之一。此外，与其它IRT模型相比(如2PLM，3PLM或GGUM)，Rasch模型有其自身独特的优势，即项目难度参数b是等距量表(interval scale)。近年来，已有越来越多研究者将Rasch模型应用在人格领域。巫博瀚等(2013)采用Rasch模型针分析Rosenberg自尊量表发现该量表较适用于中等自尊水平的被试。Chao(2016)采用Rasch模型对非裔美国大学生的自尊测量进行分析发现，该量表具有单维性并适用于自尊水平较高个体的测量。目前，国内多数研究采用经典测量理论的方式对Rosenberg自尊量表进行分析与报告。田录梅(2006)研究发现，Rosenberg自尊量表具有较高的信效度，但被试对项目8的理解与西方存在差异，建议将此改为正向计分或删除。鉴于前述IRT所弥补经典测量理论在测量上的不足与局限性，考虑到Rasch模型的特点以及在Likert量表应用上的多种优势，采用Rasch模型对RSES进行分析，探讨该量表的项目特征和适用个体等。此外，由于该量表对不同文化条件下的群体的适用性问题，已有研究探讨中美不同文化背景下自尊量表上的差异功能检验(Song，Cai，Brown，& Grimm，2011)，但不同性别类型被试在Rosenberg自尊量表上的差异功能检验的相关研究相对较少，随着公平教育、性别平等教育等理念的大力提倡，对性别差异的研究就变得更加关键。

综上，研究旨在通过项目反应理论对Rosenberg自尊量表进行项目参数估计以及差异项目功能分析，并应用拟合指标查找异常的项目或个体，以期为进一步完善和使用该量表提供依据。

2 研究方法

2.1 研究对象

样本选取自吉林省一所师范类大学和一所综合性大学学生进行测量，共440人进行施测，回收问卷435份，问卷回收率为98.9%；其中有效问卷425份，问卷有效率为97.7%。被试的平均年龄为21.76 ± 2.31岁，男生191人，占44.9%；女生234人，占55.1%。

2.2 研究工具

Rosenberg自尊量表由Rosenberg于1965年编制而成，是个体对自己整体自尊的自我报告测量工具，是目前自尊研究领域中使用最广泛的工具。该量表包含10个项目，其中有5个项目为正向计分题，如项目7：整体而言，我对自己感到很满意；另外5个项目为反向计分题，如项目10：我有时认为自己一无是处。该量表为Likert四点评分，采用1-4评分方式，理论分数范围是10～40分，得分愈高，表明个体的自尊水平越高。

2.3 统计方法

Rasch模型是一种单参数的项目反应模型，在Likert量表分析中具有客观等距的优势(刘昊等，2013)。考虑到Rosenberg自尊量表为Likert式单维度量表，并在数据分析中通过单维检验亦可证实，采用Rasch模型对Rosenberg自尊量表进行分析，以此评估项目单维性、信度、难度及模型拟合度，包括各项目的信息量。进一步进行项目功能差异检验(Differential Item Functioning，简称DIF)，以探讨自尊量表每个项目在性别上是否存在DIF。

采用SPSS21.0进行数据的前期整理及单维性检验，应用Conquest2.0软件进行模型拟合的数据处理，采用R 3.0.1软件中的“Lordif”程序包进行DIF分析。

3 研究结果

3.1 单维性检验

采用Rasch模型对量表进行编制和修订时有一个前提：量表具有单维性(Roth，Decker，Herzberg，Brähler，2008)。若第一因子特征根与第二因子特征根的比值接近或大于3，则说明该量表具有单维性(Hambleton & Swamniathan，1985)。对Rosenberg自尊量表的数据进行主成分分析发现(见表1)，第一因子的特征根与第二个因子特征根的比值为3.426，说明数据基本满足单维性的要求，因此适合Rasch模型分析。

表1 单维性检验

3.2 信度

Rasch模型计算个体信度(Person separation reliability)是指由个体所产生“真实”变异与总变异的比例，目的在于考察受试者在项目评定上的可靠性程度(刘昊等，2013)。在整个测验水平上定义针对评价单个被试的信度概念，就是测验信息函数，测验信息函数就是测验所含项目的信息函数的累加(Bond & Fox，2015)。Rasch模型测量的整体信度通过个体层面的解释率计算获得，数值范围在0～1之间。一般而言，信度指标在0.7以上是可接受的，高于0.8为较好(Bond & Fox，2006)。经计算获得，本测试的信度值为0.84。

3.3 难度

从表2中的项目估计值发现，各项目的难度分布在-1.006与1.497之间(平均难度设定为0)，图1表示被试的自尊水平与项目难度的对应关系。结合表1难度估计值，由图1可知，Rosenberg自尊量表的项目对于中等及偏低水平自尊的被试提供的信息量最大，但不适用于用来评定自尊水平较高的被试。

3.4 模型拟合度

在Rasch模型中，加权残差均方(Infit MNSQ)和残差均方(Outfit MNSQ)常用来评价项目的χ2拟合指标，其中Infit MNSQ则是加权(以方差为加权系数)后的残差均方，Outfit MNSQ 是残差的均方。通过Rasch模型分析发现，Rosenberg自尊量表中的第8题的Infit MNSQ及Outfit MNSQ值分别为1.51和1.55，根据Wright和Linacre(1994)的建议：凡是MNSQ>1.4或<0.6时，即可以认为该题的拟合效果较差。可见，除第8题外，其它项目的拟合效果均良好，具体见表2。

图1 项目难度与自尊特质分布图

项目难度估计值标准误InfitOutfitMNSQCITMNSQCIT1-1.0060.0640.850.871.13-2.40.840.871.13-2.42-0.4050.0640.900.861.14-1.40.910.871.13-1.43-0.5310.0640.850.861.14-2.20.860.871.13-2.14-0.6160.0640.820.861.14-2.70.860.871.13-2.25-0.2720.0631.050.861.140.81.050.871.130.76-0.4720.0640.620.861.14-6.30.620.871.13-6.470.1960.0630.820.861.14-2.70.820.871.13-2.781.3570.0611.510.871.136.61.550.871.136.991.4970.0611.040.871.130.71.100.871.131.4100.251*0.1891.370.861.144.81.380.871.134.9

此外，图2表示自尊量表所有项目组成的总测验信息曲线，该曲线反映的是自尊量表所有项目作为一个整体对具有不同特质水平的被试所提供精确评估的程度。其中横坐标代表项目的难度，对应着被试的特质水平，每一个刻度代表一个logit单位，纵坐标表示信息量大小，即Fisher信息函数(Bond & Fox，2015)。整体来说，自尊估计值范围在0～-2之间，所能提供的测量精确性最高，对于自尊水平中等及偏低的被试所提供的信息量最大。

图2 测验信息曲线

3.5 性别的项目功能差异检验

表3 项目功能差异分析检验

图3 自尊水平θ值的分布

4 讨论

4.1 针对拟合指标不佳的项目的分析

采用Rasch模型对Rosenberg自尊量表的特性进行分析，由模型拟合度的指标发现，项目8(我要是能更看得起自己就好了)的Infit MNSQ及Outfit MNSQ值分别为1.51和1.55，拟合度较差，该项目为量表中的反向计分题，但在陈述措辞方式上同时包含了正向(更看得起自己)与反向(要是能)两层含义，这可能导致被试误解该项目的原意。国内学者田录梅(2006)在对Rosenberg自尊量表的优点与不足进行论述，尤其针对项目8进行鉴别与处理，在意义理解上由于我国文化注重谦虚的态度，因此会将项目8理解为正向，而给西方认为的消极负向，并进一步发现，将项目8若按正向题计分，其鉴别力会达到显著水平。巫博瀚等人(2013)在对Rosenberg自尊量表进行修订时发现项目8拟合度不佳，在删除项目8后，被试在其余9个项目上均具有较好的模型拟合。造成这种差异的原因很大程度上是由于文化背景的不同，Lehman等人认为文化是某一特定群体共享，并不同于其他群体的一系列行为准则与认知(Lehman，Chiu，& Schaller，2004)。由此可知，在不同的文化背景下，个体的自尊水平既具有相似的成分，又表现出个体差异(蔡华俭，丰怡，岳曦彤，2011)。蔡华俭等(2007)在一项对中西方自尊进行比较的研究中发现，中国人在自尊的情感成分上与西方相似，在自尊的总体和认知成分上要低于西方水平。相对而言，西方文化背景更为强调个人主义，而东方文化强调集体主义，因此会将谦虚内敛作为积极品质，从而导致在自尊量表项目8上表现出差异。据此，以后的研究可考虑是否将项目8进行正向修改或调整，以获得更客观的自尊测量结果。

4.2 关于Rosenberg自尊量表适合人群的探讨

对Rosenberg自尊量表的测验信息曲线进行分析发现，该量表对自尊中等及偏低特质水平被试能提供较为精准的评估。Halama和Biescad(2006)的研究发现，Rosenberg自尊量表对中等及偏低水平的被试提供较多的信息量，对自尊水平较高的被试提供的信息量较少，结果与此相一致。一般而言，高自尊个体具有更好的心理适应性和社会适应性，但有关高自尊者个体之间存在着质的差异，包括防御性自尊、不稳定的自尊、自恋等(田录梅，张向葵，2006)。通过项目难度及信息曲线图发现，Rosenberg自尊量表对自尊水平较高的个体评估相对不够适合，这可能是由于高自尊个体的异质性所导致，个体无法将其他成分与自尊水平相分离。Deci和Ryan(1995)将自尊区分为相倚性高自尊和真正的高自尊，相倚性自尊是指对自己的感受来自或取决于符合某些优秀标准或不辜负某些人际或内心的期望。由此可见，在某种程度上，通过测量获得的自尊分数具有不同的可能性，如自我欺骗、印象管理及防御性地保持一种高自尊的感觉等，倾向于对自己有利的评价，这也从另一角度解释自尊异质性对测量结果造成偏差影响的原因。未来研究宜设计一些更为客观反映个体高自尊水平的测量项目，更好地完善测量的精确性。

4.3 关注Rosenberg自尊量表在性别上的DIF检验

项目功能差异检验是一种考察测验项目对于来自不同团体的被试是否具有相同功能的分析方法，通过观察项目特征曲线来解释同一项目在不同被试组之间是否存在差异(Wang，2004；Crane & Belle，2006；Choi，Gibbons，& Crane，2011)。针对被试在自尊项目上的DIF检验发现，项目1(我认为自己是个有价值的人，至少与别人不相上下)和项目5(我觉得自己没有什么值得自豪的地方)具有DIF，倾向于对男生有利，这说明对于总分相同的被试而言，男生倾向在这两个项目上有较高的得分。造成这种差异的原因可能是由于相对于女生，男生较不容易受外在评价的影响，将自尊水平与能力相结合，较少受社会关系影响。此外，由DIF检验的θ值分布可知，男生自尊水平高于女生。Kling等(1999)关于自尊性别差异的元分析结果发现，男性自尊水平要高于女性。伍秋萍和蔡华俭(2006)的一项元分析也发现同样结果，男性自尊略高于女性，DIF检验结果与此相一致。社会文化因素对性别差异造成一定的影响，而个体在自尊水平上的性别差异与其社会性习得性别角色和刻板印象密切相关(Wood & Eagly，2002)。鉴于此，建议以后在使用该量表的同时，注意考虑项目1与项目5在性别上造成的差异，以保证测量的客观性。

5 结论

采用Rasch模型分析Rosenberg自尊量表，结果发现：项目8(我要是能更看得起自己就好了)的表述内容有必要进行调整；在被试群体上，考虑到个体高自尊的异质性，需要进一步对高自尊水平个体的测量进行甄别与开发；考虑性别差异时，项目1(我认为自己是个有价值的人，至少与别人不相上下)和项目5(我觉得自己没有什么值得自豪的地方)需要调整，以期为个体自尊水平的测量提供更为精准和客观的估计。