基于多侧面Rasch模型分析的公文筐测评研究*

2017-06-05 15:18吕智宇孙海法

中山大学学报(社会科学版) 2017年3期

吕智宇，孙海法

吕智宇，孙海法

评价中心技术是常用的人才测评手段，测评结果的合成及解释影响测评者做出决策的准确性。以往研究多采用经典测量理论分析评价中心的测评结果，难以清晰探明评分的各种偏差。采用项目反应理论的多侧面Rasch模型(MFRM)，以公文筐测评结果为例，探讨评分者评分宽严度、评分内部一致性、维度难度、受评者能力水平问题，并讨论各种偏差。通过MFRM分析人才测评结果，对受评者真实能力的差异、鉴别维度的难度和探查测评的误差源进行了深入了解，进而对测评试题编制的合理性、测评维度与测评目的匹配性、评估或诊断评分者合格性进一步完善，并为未来的人才测评中的拓展项目反应相关研究提供独特视角。

公文筐；多侧面Rasch模型；人才测评

一、前言

评价中心(Assessment Centers, ACs)测评技术的实证研究始于英国军事心理学家，其在西方人力资源管理领域的应用已有超过60 年的历史，主要用于人员选拔、晋升、诊断及发展等目的。公文筐测验(In-basket test,IB)是评价中心的重要测评手段之一，是由测评者设计一系列与应聘岗位实际工作经常处理的文件，要求候选人在指定的时间内完成任务。通过评估受测者提交的书面文件，衡量该候选人的各项胜任特征。

20世纪80年代中期，中国研究者开始在国有企业领导干部的选拔中应用评价中心技术。评价中心技术的广泛应用使得测评分数的合成及解释显得至关重要。公文筐测评分数通常采用维度评定计分法，即要求评分者分测评维度对受评者进行评分，而受评者的测验总分是每个测评维度分数的直接加权，又或者通过结构方程、MTMM方法、从测验内部寻找评价中心效度证据。这些方法基于经典测量理论(Classical Test Theory)的统计方法，只从维度和测验方法两个方面进行计算，忽略了评分者和受评者侧面的变异，难以辨析评分的各种偏差情况。而在实践中，公文筐作为主观评价方法，难免受评分者效应及测评维度难度影响形成偏差。

(一)评分者效应( rater effects)

评分准确性直接影响到受评者的选拔，而由于评分者的个人特征、类型、来源以及接受的培训差异，评分者评价时不可避免地存在一定的主观性。评分者主要评分效应表现为宽严效应、集中趋势、晕轮效应、培训效应等。

宽严效应表现为评分者在评价时明显的宽松或严厉性。过往研究表明评分者的宽严效应影响评价整个过程，但各研究结论不一。Macmillan (Macmillan, 2000)观察10名评分者在一周内对8285名小学生文章的评价行为，结果发现其中9名评分者随着时间的推移，评分越来越严格，表明不同评分者宽严趋势产生变化。Myford和Wolfe(Carol M Myford & Wolfe, 2009)发现随着评分时间的延长，部分评分者会存在明显的评价变化趋势。以上研究表明测量和解释评分者宽严效应的重要性，宽严效应影响了评价稳定性。

集中趋势也是影响评分偏差的重要表现，即评分者不正确地将受评者评价为接近平均或中等水平。Myford & Mislevy (Carol Monroe Myford & Mislevy, 1995)等认为当评分者被监视时，他们会使用安全策略，使用中间等级以避免被审查。Knoch、Read和 von Randow(Knoch, Read & von Randow, 2007)通过分析各评分等级的次数判断评分者的集中趋势，发现培训组评分呈现更严重的集中趋势，验证了评分者经常使用中间等级的原因。

研究者认为只要有主观评价，就存在晕轮效应，晕轮效应是普遍存在、不可避免(Feldman, 1986)、无处不在的(Cooper, 1981b)。造成晕轮效应的最大可能性是评价者“以偏概全”，仅凭受评者的个别特征进行整体评分(Murphy, Jako & Anhalt, 1993)。通过统计控制、培训，提高评价者对受评者的熟悉度能在一定程度上消除晕轮效应(Cooper, 1981a)。

此外，评价者类型(Kolk, Born, Van Der Flier & Olman, 2002; Sagie & Magnezy, 1997)、智力(Furnham, Taylor & Chamorro-Premuzic, 2008)及评分者的个人特征，如工作经验、评分过程的思考方式、人格特征等因素都有可能导致评分不一致或评分偏差(Bartels & Doverspike, 1997; Kolk et al., 2002)。一项元分析证实，相对于无评分者培训，有评分者培训的测评构想效度结果更好(Woehr & Arthur, 2003)。另一项研究发现培训时间的增加并不能对评分者评分起到明显的改善(Dugan, 1988)，但也有研究发现培训时间越长的评分者在测评构想效度方面结果更好(Carol M Myford & Wolfe, 2009)。此外还有研究发现：与长时培训(超过1天)相比，短时培训(1天或更短)带来的评分中维度变异比例更大(Lievens & Conway, 2001)。各研究均表明了评分者培训能更有效地观察、记录和评价受测者的行为。

由评分者特点导致的评分者偏差使受评者分数发生变化，引入不可预期、与结构无关的变异。为获得可靠、有预测性的测评结果，测评必须探测评分者的评分特点，并及时调整不合理结果。

(二)测评维度难度效应

评价中心是基于维度评价的测试(Lievens, Dilchert & Ones, 2009)。评分者按照维度界定标准对受评者在不同模拟情境下的行为表现进行评价，是评价中心的基本设计理念。评价中心主要以特质为基础的维度特征进行测量，评分者评分过程受维度评价难度的影响，从而影响着测评效度。以往有关人才测评研究较少探讨维度难度对测评的影响，可能造成测评效度的降低。

评分者在测评过程中常受以上因素的影响，导致评分误差，从而影响测评质量。在情境测评开发与应用中，测评者对维度的界定往往比较模糊、随意，缺乏统一标准。这也是导致评价中心构想效度不佳的原因之一(Hoffman, Melchers, Blair, Kleinmann & Ladd, 2011; Thornton III & Gibbons, 2009)。为解决这个问题，可通过工作分析或胜任特征模型确定测量维度，保证测题的一致性(Lance, 2008)；并加强评分者培训，能降低评分误差的产生(Sulsky & Noonan, 2001; O’Sullivan & Roch, 2003; Uggerslev & Sulsky, 2008)。

以上控制方法基于测评设计与实施方面，对于提高测评质量有效性仍不足。随着心理测量水平的日渐提高，研究者使用现代测量学来评估误差产生的根源，并针对不同类型的误差特征，制定更符合实际的调整。

(三)应用多侧面Rasch模型(Many FacetsRaschModel, MFRM)的优势

相比于经典测量理论，在情境测评中使用MFRM能构建受评者、评分者、维度等侧面，根据不同侧面的度量值获得更详细的信息，有利于提高测量质量。在心理测量和教育领域，研究者使用MFRM考察阅卷人的评分质量，其结果可用作调整试卷，达到简洁易操作的目标，提高试卷评分的准确度(Randall & Engelhard, 2009)。

在统计分析过程中，MFRM通过剔除特定项目和评分者偏差的影响，进而得到独立于特定项目难度以及特点评分者特点的受评者能力值。所以，基于MFRM分析所得到的受评者能力值将使用人决策更客观公平。此外，MFRM能获得不同评分者评分过程的宽严程度，更直观地呈现评分者效应对评分的影响，帮助测评者甄别不合格评分者，提高测评结果的准确度。最后，MFRM通过偏差分析，可快速有效地分辨出“问题”受评者和不合格评分者，从而便于测评者采取有效的措施(如重评、更换或培训评分者)，以保证评分的质量和整体上的一致性。总之，MFRM结果为控制和保证测评质量提供了统计上的参考依据。

本研究重点在于：(a)根据公文筐情境测评中评分者的宽严度，判断评分者评分的倾向性；(b)通过构建评分者的个人特征，如评分者数量、评分者背景(如培训经验、类型)等影响评分信效度的侧面，评估这些因素对评分的影响；(c)通过不同侧面的交互效应分析，如评分者—受测者、评分者—维度等侧面的比较，可对测评过程中的评价偏差信息进行全面的分析，并为探究测评设计方案的最优化提供有价值的参考。

二、研究设计

(一)研究目的

首先，本研究使用多侧面Rasch模型估计受评者真实能力值，比较基于真实能力估计值和与基于合成总分的决策，找到排序差异较大的“问题”受评者。其次，分析评分者宽严度及内部一致性，探讨评分者误差；通过考察测评维度难度及评定等级使用情况，以判断评分者的评分特点。最后，通过MFRM偏差分析，跟踪误差源，分析造成偏差的深层原因。

(二)测评工具

由测评专家综合过往研究，对公文筐测验试题进行编制，同时编制对应的评分标准。公文筐测验试题在正式施测时包含组织计划能力、沟通协调能力、分析解决问题能力和大局观四个测评维度。经过SPSS软件对被试测评结果的相关分析、测评总分与各维度的回归分析及采用AMOS软件对测评结果进行验证性因素分析，表明测评的结构效度较好。

(三)测评被试

参加公文筐测试的受评者共138名，均为本科应届毕业生，均来自于广州某大学，平均年龄为21岁，其中男女生比例为1:3。本研究有6位评分者，分为培训组和非培训组，其中评分者A、B、C属于非培训组。评分者均来自广州某大学应用心理学专业，培训组平均年龄为25岁，非培训组平均年龄为23岁。

(四)测评施测程序

所有被试在规定的时间内完成公文筐测验。6名评分者根据评分标准对被试答案评分。

(五)测评结果处理

本文采用FACETS软件对公文筐测评数据进行统计。研究建构评分者、受评者和评分维度三个侧面，通过多侧面Rasch模型研究两组评分者的评分特征，为评估测评方式和科学性提供合理的依据。通过使用FACETS软件，我们得到以下的数据进行分析：

(1)度量值(Measure)：个体在统一标尺上的标度值。FACETS将各侧面的度量值统一换算为以logit为单位的统一度量值，方便比较和分析各侧面。通过该指标分析受评者能力、评分者严宽度、维度难度等使用情况。

(2)模型标准误差(Model S.E.)：度量值的精确度，表示该模型估算时的准确程度。

(3)拟合统计量(Fit statistics)：对模型预测变异值和侧面的观察值之间拟合程度的衡量。拟合统计量包括未加权均方拟合统计量(OutfitMean Square,OutfitMnSq)和加权均方拟合统计量(InfitMean Square,InfitMnSq)两个维度。

(4)分隔系数(Separation)和信度(Reliability)：对所有侧面的个体之间的差异是否大于测量误差的衡量，其数值越大，表示认为该侧面个体之间存在显著差异的把握越大。

(5)卡方检验值(Chi．Square Statistics)：无差异卡方(Fixed Chi-square)在ρ<0．05的情况下，表示个体之间在统计上具有显著差异，与分隔系数和信度的作用相似。

(6)偏差分析(bias analysis)：“偏差”指实际分数与模型预测值的偏离程度。偏差分析可判断在不同研究侧面间的交互作用中显著偏离模型估计值的评分是否存在，并以此对识别评分者能否保持一贯的严宽度和评分者对受评者或维度的评分差异问题进行追踪。

三、研究结果

(一)受评者能力的结果分析

(二)评分内部一致性和评分者宽严度结果分析

(三)各维度评分结果分析

表1 维度评分统计结果

注:RMSE：0.03AdjS.D.：0.30Separation：10.21SeparationReliability：0.99

(四)评定等级分析

通过对6位评分者的评定等级统计结果进行分析后发现，大多数评分者对第3—5等级使用过度，被评分者使用次数最多的是第4等级的评分。由此表明，评分者评分存在一定的集中趋势。平均能力值代表受评者能力与评定等级之间的关系。受评者能力与评定等级呈正相关关系。在进行分析后，结果表明6位评分者评分总体上与受评者能力相吻合。

(五)偏差分析

MFRM是一种深入测评内部，检测评分者评分过程，寻找偏差源头，提供详细信息报告的技术。通过追踪评分者对受评者及不同维度的评分，可判断评分者宽严趋势的稳定性及对维度评判标准把握的清晰度。

1.评分者与受评者的偏差分析

2.评分者与维度的偏差分析

表2 评分者与维度的偏差数

四、讨论

(一)受评者能力水平的估计

以往的测评都是基于评分者对受评者各维度评分的简单加和作为测评总分，而利用MFRM能通过估计独立于各种偏差的受评者能力值，来为测评提供全新的视角，即关注受评者的能力排序进行筛选。基于不同分析方法，得到的不同排序结果将直接影响到受测者的录取结果。以此次的公文筐数据为例，假设使用测评总分作为录取统计标准，录取线划定为前10名，第50号受测者能成为录取人员，而第14号受测者则被拒绝。统计排序最大差异发现，第22号受测者的排名差异最大。测评者需对排名较前的受评者进行深入观察，避免仅以排名作为人员决策的最终判断条件。

此外，评分者界定评分标准的特异性会对能力处于同一水平的受评者给予的分数差距较大。以55号和59号的受评者为例，两位受评者在能力值基本一致的情况下，其Infit值有较为明显的差异，59号受评者Infit值最大，后面的偏差分析也表明了评分者对59号受评者表现判断异议，意见难达一致。MFRM综合分析总分及评价稳定性，将评分较为稳定的55号受评者列为第一。传统测评容易忽略评分者评分特异性，虽然决策精简易行，但导致决策的片面性。MFRM可帮助测评者在受评者能力值相同时，根据规定范围的Infit值，排除不符合域值的受评者评分，使人事决策过程更具具科学性，进而提高评判合适人选标准。

(二)评分者因素对评分的影响

评分者因素会因为情景的变化而对评分造成偏差。评分者对受测者在把握评分等级、测评试题上的表现进行评价方面受个体经验的影响。在考察评分者主观评分时以评分者的内部一致性和宽严度的差异作为指标能对各评分者评分误差进行准确地区分，同时为评分者评分错误的校正提供科学依据。

受评者得分在一定程度上受评分者宽严度影响。MFRM在评分者宽严度方面采用了量化的方法，对评分者自身的评价提供数学指标。分析结果表明A评分者评分最宽松，B评分者评分最严厉。评分内部一致性是衡量同一评分者对所有受评者评分稳定性的指标。在应用FACETS时，评分者的内部一致性通过Infit值来判断。在分析内部一致性时，经典测量理论无法对评分者评分的稳定性进行独立检测，是其明显不足。MFRM从维度角度、受评者深入分析评分者在不同情境的评分一致性，提供评分者个体内部一致性得分，从而可对内部一致性明显不一致的评分者进行培训、跟踪和监控。

对比培训组和未培训组后还发现，培训使得评分者的宽严度更为集中。专业化的培训可以在测评中帮助评分者保持客观性和独立性。一方面，加强评分者对测评答案的熟悉程度，更准确地对受评者书面回答进行评分；另一方面，帮助评分者理解维度定义，准确区分和鉴别受评者书面回答的维度得分。通过利用MFRM来检验的评分者的宽严度和内部一致性，进一步优化测评体系，这对未来的人才测评研究具有一定借鉴意义。

(三)维度难度的MFRM分析

主观测评技术都需要评分者对受评者测评行为表现使用观察法进行评价，受评者的总体得分会受到不同维度评定的影响。本研究中大局观维度评价难度最大。大局观指能对自身岗位角色以及整体组织岗位结构的客观认识较好，从而能更准确地分配自己的时间和工作。由于受评者背景的影响(在校应届生)，尚未接触具体岗位，所以该维度得分难度较高。通过分析不同维度的难度，可以帮助测评者通过控制不同维度的难度，从而更加科学地筛选受评者。

(四)偏差分析

偏差分析的意义在于识别评分者具体的评分差异，并以此为基础对评分者评价方案进行完善，从而为测评的公正性与准确率提供保证。在测评中使用偏差分析可以在评分内部一致性良好的情况下准确识别评分者在测评分数上存在的问题，避免评分者受情景等因素影响，导致其在测评过程中的评分准确性的误差。

在评分者与受评者偏差的分析中发现，评分者在内部一致性较高的情况下，对受评者的评分仍存在宽严度的浮动变化。从评分者的角度分析，是因其对维度的理解不够；从受评者的角度分析，是因其对题目理解的一致性较低，导致回答不一致较差，从而干扰了评分者的评分。所以在测评中，要兼顾试题的难度和评分的标准。

在现有的主观测评方法中，测评者一般以评分培训达到控制评分者偏差、提高评分者信度的目标。培训的内容包括制定统一的评分标准、介绍各种评分错误现象、加强以行为观察为基础的练习、增加特殊行为的记录及试评等。在测评过程中，不但需要优化筛选评价者的标准来减少评分者的评分偏差次数，还需要通过培训来降低评分者的评分偏差，使用评分标准清晰的量表，以偏差显著的维度为依据来辨别和规避会导致风险决策的维度或存在的问题，进而完善评分标准或开展评分指导。

五、结论与展望

借助FACETS软件，分析本次公文筐测评结果，得到以下主要结论：(a)在剔除了评分者及维度等其他因素对受评者能力的制约，MFRM能估算反映受评者真实能力的能力值，为用人决策提供更广泛且准确的依据；(b)评分者的宽严度差异显著，评分者F与其他5位评分者的宽严度差距较大；(c)不同维度的得分存在显著差异，受评者的能力通过不同维度评分能较好地被区分；(d)评分各等级均有一定的使用频率，其中3—5分数段使用频率较高，可能存在一定的评分集中趋势，但整体上符合要求；(e)评分者需要接受专业的培训，评分者与受评者之间的偏差和评分者与维度之间存在偏差较为明显。

以上结论表明：对评价中心技术情景模拟测评的结果，相对于过往常使用的经典测量理论分析而言，使用MFRM能深入分析主观性测评的受评者能力、评价者评分内部一致性和宽严度、评定等级与测评维度的难度等特征，能更好地对受评者能力水平差异、测评维度差异、评分者评分特征及各种偏差情况进行分析，并为改善测评质量提供合理的方案。

本研究仅分析公文筐测评的结果，在实际运用中，测评者一般使用评价中心的多种测评技术，若要对比评价中心技术内不同测评情境的效果，还要考虑多种测评技术的侧面因素。此外，虽然MFRM可获得评价者评价过程及测评维度等不同侧面信息，从而评估测评质量，但无法取得有关测评精确的效度结果。因而，未来可加入不同测评技术侧面，进一步探讨各种测评技术的特征，为人才测评发展提供科学的理论依据。

Bartels, L. K., & Doverspike, D. (1997). Assessing the assessor: The relationship of assessor personality to leniency in assessment center ratings. Journal of Social Behavior & Personality.

Cooper, W. H. (1981a). Conceptual similarity as a source of illusory halo in job performance ratings. Journal of applied psychology, 66(3), 302.

Cooper, W. H. (1981b). Ubiquitous halo. Psychological bulletin, 90(2), 218.

Dugan, B. (1988). Effects of assessor training on information use. Journal of applied psychology, 73(4), 743.

Feldman, J. M. (1986). A note on the statistical correction of halo error. Journal of applied psychology, 71(1), 173.

Furnham, A., Taylor, J., & Chamorro-Premuzic, T. (2008). Personality and Intelligence Correlates of Assessment Center Exercises. Individual Differences Research, 6(3).

Hoffman, B. J., Melchers, K. G., Blair, C. A., Kleinmann, M., & Ladd, R. T. (2011). Exercises and dimensions are the currency of assessment centers. Personnel Psychology, 64(2), 351—395.

Knoch, U., Read, J., & von Randow, J. (2007). Re-training writing raters online: How does it compare with face-to-face training? Assessing Writing, 12(1), 26—43.

Kolk, N. J., Born, M. P., Van Der Flier, H., & Olman, J. M. (2002). Assessment center procedures: Cognitive load during the observation phase. International Journal of Selection and Assessment, 10(4), 271—278.

Lance, C. E. (2008). Why assessment centers do not work the way they are supposed to. Industrial and Organizational Psychology, 1(1), 84—97.

Assessment center exercise factors represent cross-situational specificity, not method bias. Human Performance, 13(4), 323—353.

Lievens, F., & Conway, J. M. (2001). Dimension and exercise variance in assessment center scores: A large-scale evaluation of multitrait-multimethod studies. Journal of applied psychology, 86(6), 1202.

Lievens, F., Dilchert, S., & Ones, D. S. (2009). The importance of exercise and dimension factors in assessment centers: Simultaneous examinations of construct-related and criterion-related validity. Human Performance, 22(5), 375—390.

Macmillan, P. D. (2000). Classical, generalizability, and multifaceted Rasch detection of interrater variability in large, sparse data sets. The Journal of experimental education, 68(2), 167—190.

Murphy, K. R., Jako, R. A., & Anhalt, R. L. (1993). Nature and consequences of halo error: A critical analysis. Journal of applied psychology, 78(2), 218.

Myford, C. M., & Mislevy, R. J. (1995). Monitoring and improving a portfolio assessment system: National Center for Research on Evaluation, Standards, and Student Testing (CRESST), Graduate School of Education, University of California, Los Angeles.

Myford, C. M., & Wolfe, E. W. (2009). Monitoring rater performance over time: A framework for detecting differential accuracy and differential scale category use. Journal of Educational Measurement, 46(4), 371—389.

Noonan, L. E., & Sulsky, L. M. (2001). Impact of frame-of-reference and behavioral observation training on alternative training effectiveness criteria in a Canadian military sample. Human Performance, 14(1), 3—26.

Randall, J., & Engelhard, G. (2009). Examining teacher grades using Rasch measurement theory. Journal of Educational Measurement, 46(1), 1—18.

Roch, S. G., & O'Sullivan, B. J. (2003). Frame of reference rater training issues: recall, time and behavior observation training. International Journal of Training and Development, 7(2), 93—107.

Sagie, A., & Magnezy, R. (1997). Assessor type, number of distinguishable dimension categories, and assessment centre construct validity. Journal of Occupational and Organizational Psychology, 70(1), 103—108.

Uggerslev, K. L., & Sulsky, L. M. (2008). Using frame-of-reference training to understand the implications of rater idiosyncrasy for rating accuracy. Journal of applied psychology, 93(3), 711.

Woehr, D. J., & Arthur, W. (2003). The construct-related validity of assessment center ratings: A review and meta-analysis of the role of methodological factors. Journal of Management, 29(2), 231—258.

【责任编辑：杨海文；责任校对：杨海文，赵洪艳】

2016—04—18

吕智宇，中山大学管理学院(广州510275)；孙海法，中山大学管理学院(广州510275)。

10.13471/j.cnki.jsysusse.2017.03.019

基于多侧面Rasch模型分析的公文筐测评研究*

一、前 言

二、研究设计

三、研究结果

四、讨 论

五、结论与展望

一、前言

四、讨论