李 斌
(北京师范大学发展心理研究所,北京 100875)
影响主观评分一致性的评分者自身特征分析
李 斌
(北京师范大学发展心理研究所,北京 100875)
文章编制一份调查问卷对参加某全国统一考试作文题目评阅的评分者进行调查,来分析影响评分一致性的评分者自身特征。首先,采用探索性因子分析方法对数据进行处理后,得出影响主观评分一致性的评分者自身特征为六因子结构,即:责任心、自信心、情绪稳定性、评分经验、标准把握能力及执裁能力。然后,应用单因素方差分析法研究被调查者的有关人口学特征与评分者自身特征的关联,研究表明教龄和评分经验、阅卷次数和情绪稳定性之间存在明显正相关。
主观评分一致性;因素结构;探索性因子分析
主观评分是指具有一定专业知识和经验背景的评分者,按照一定的评分标准对被测对象的作答内容或行为表现做出有效和客观评判的思维过程,其目的是对被测对象进行打分 (判断其类别)或者以此分数来决定被测对象的排名顺序。主观评判性是主观评分的本质属性,[1]每个评分主体即评分者依据评分标准做出某一种判断,具有强烈的主观色彩,带有许多人为估计的成分。评分者的知识、经验、性格、习惯以及心态等因素都体现在评分活动过程中并影响评分结果,造成多个评判主体间的不一致现象。[2]因此在实际应用中评分信度常常较难保障,影响了主观评分的客观性、公平性和科学性。
目前国内外研究者主要运用不同的理论模型从统计学的角度,针对主观评分者的信度进行研究:经典测量理论将主观测试的信度理解为评分者所评分数的一致性,并用相关系数表示信度系数用以计算评分者的一致性,如皮尔逊积差相关、斯皮尔曼等级相关、肯德尔等级相关以及 Cronbach’s Alpha系数等组内相关法。[3]概化理论则通过识别各种误差来源以及他们对于总变异的贡献大小,来提供一个总体概化系数以反应测量的水平。该理论全面描述评分的各种误差来源,特别是评分者效应,不单关注某个评分员,还提供了评分员间信度的信息。[4]项目反应理论更关注于对评分员效应的分析识别,得出评分员的不一致性不仅表现为严厉度的差异,还表现在准确度和集中度的差异上。[5,6,7]有的学者针对主观评分的误差分析和控制进行研究,关注主观评分各种误差来源及其特点研究[8,9],苏永华博士研究了影响主观题评分误差的各种心理效应。[10]有研究评分员队伍建设、评分资格认证以及评分员培训在控制主观评分不一致性现象中的作用。[11,12,13]还有的学者结合主观评分的应用背景环境展开相关研究,如结合英语口语测试讨论评分者效应的各种影响因素;[14,15]研究结构化面试中评分过程中追问方式、首因效应、面试者接收信息的顺序等影响因素,[16]有四个影响因素维度,即“评价维度、测评的情景、评价员、受测被试”四个不同侧面影响到了测评的有效性,[17]研究绩效考核中宽大效应的成因及其控制方法[18]等等。
总的来说,对主观评分的研究国外学者注重从统计学角度对主观评分结果进行衡量分析与应用,而国内则偏重从实践应用的角度来分析主观评分不一致的影响因素以及采取的一些可行措施。主观评分活动是一个复杂的思维过程,受到诸多来自自身和环境等因素的影响,并且人们对主观评分不一致产生的机理还不明确,对影响因素较难有全面的认识;主观评分一致性影响因素的研究分散在信度衡量研究、误差分析与控制研究以及一些具体背景问题的研究中,同时研究者又从不同侧面对其进行研究,比如:从整个评分系统、评分过程、评分者效应、评分者的个体效应等。本文不涉及主观试题、评分标准设计以及被试的表现或作答等因素,主要以主观评分者的自身心理特征为主,通过设计的调查问卷来研究影响主观评分一致性的评分者自身特征因素,并进行解释。
(一)被试选择
本文选择参加某全国统一考试英语科目作文和语文作文网上阅卷的教师为被试,评分者对考生的作文在计算机上独立打分,彼此互不影响。
(二)工具编制
我们检索了已有评分者一致性研究文献,没有找到对评分者自身特征进行研究的调查问卷。于是通过专家访谈、预试等程序编制了评分者自身特征调查问卷,来分析评分者自身特征对评分一致性的影响。
首先,采用访谈法搜集影响主观评分一致性的各种因素。我们选择了多年从事主观试卷评阅,具有丰富主观评分经验的专家共 10人,进行了深度访谈。主要的访谈提纲是:
问题一:您是如何理解“主观评分一致性”这个概念的?并举例说明。
问题二:请您列举出一些“主观评分不一致”的现象,并用实例说明。
问题三:您以为影响主观评分一致性的因素有哪些?请列举说明。
问题四:主观评分的特点是依靠主观评分者的主观判断,请您谈谈自身某些特征对评分结果有哪影响?
问题五:请您就影响主观评分一致性的不同因素来源,列举出影响主观评分一致性的各因素? (每个因素来源至少五个)
问题六:关于影响主观评分者一致性问题,您的其他想法?
然后,确定调查问卷的内容。将访谈分析中收集到的影响主观评分一致性的因素进行归纳整理,得出主观评分一致性的影响因素有 22项,即来自主观评分环境的有安静程度、气氛等;来自主观评分者方面的有评分者的自身素质、专业知识水平、业务水平、评分经验、认真负责态度、注意力、心理、心情及疲劳度等;来自被试者方面的有被试者书写的字体清晰度、内容要点突出、表达准确、卷面整洁度、字迹工整程度等;来自评分标准的有评分标准中主观题的分值与平时百分制打分不协调;来自主观评分组织管理工作的有评卷任务压力、评卷方式、专家和组长的意见、评分过程管理的严格程度、阅卷报酬计算标准等。因本文主要从评分者自身角度来探索影响主观评分一致性的因素,因此不考虑评分环境、评分标准及被测试者表现等因素,从而编制了包含 25个调查项目的问卷。
经随机选取参加某省统一考试英语作文阅卷的教师进行预试 (发放问卷 80份,收回 72份,有效问卷 71份)。经对问卷预试结果的分析,剔出 2项无关项,最终得到 20项主观评分一致性的影响因素调查问卷。
(三)施测
我们分两次向参加某全国英语考试作文和语文作文网上阅卷的教师发放调查问卷 120份,收回115份,剔除无效问卷 5份,共获得有效问卷 110份。这 110位评分者的人口学特征为:按性别分,男40人,女 70人;按年龄分,30岁以下 5人,31-40岁 85人,41-50岁 11人,51岁以上 9人;按教龄分,2年以下 26人,3-8年 54人,8年以上 30人;按从参加阅卷的次数分,第一次参加 8人,第二次 22人,第三次 34人,参加 4次以上 46人。
我们采用 Cronbach’sAlpha系数法对调查问卷信度进行分析。一般来说,Cronbach’s Alpha如量表的信度系数在 0.9以上,表示量表的信度很好;信度系数在 0.8~0.9之间,表示量表的信度可以接受;信度系数在 0.7~0.8之间,表示量表有些项目需要修订;如果量表的信度系数在 0.7以下,表示量表有些项目需要抛弃[19]。本调查问卷 20个调查项的信度Alpha=0.862 0,因此其信度和探索分析结果是可以接受的。
本调查问卷 K MO值为 0.685有些偏低,但满足大于 0.5的条件,还是适合因素分析[20]。
(一)因子结构
本文采用比较常用的主成分析法来进行公共因子的提取,因子旋转采用方差最大化正交旋转方法,得到了影响主观评分一致性因素结构,累计解释变异数为 68.029%,能解释出大部分整体的变异。共抽取出了 6个公因子,各个公因子的解释指标都在三个或三个以上。其中各项指标在各因子上的载荷达到 0.8以上的占 35%,载荷在 0.7-0.8的占到15%,载荷在 0.6-0.7的占到 20%,载荷在 0.5-0.6之间的占到 30%。解释命名后,得到影响主观评分一致性的评分者自身特征六因子结构,即责任心因素、情绪稳定性因素、自信心因素、评分经验因素和标准把握能力因素。
因素一命名为“责任心”:包含 3.阅卷时我能很好的安排时间,使各项评阅工作按时完成;20.对各种阅卷工作我都能及时正确地完成;5.我能够高质量地完成阅卷工作;16.阅卷中我会尽力把相关问题考虑周全。主要体现评分中评分者主观上重视、行动上落实、严格要求自己、有信心胜任主观评分工作。
因素二命名为“情绪稳定性”:包含 10.情绪激动会使我的评分出现偏差;8.评分工作环境的偶然变化会引起我情绪的改变;17.我的打分会受到评卷过程中其他无关事件的干扰。情绪和心情都是评分者的心理活动表现,这些都影响到评分者的主观判断,情绪会影响到对被试的态度以及对评分标准的把握。
因素三命名为“自信心”:包含 11.我认为专业知识水平决定了评分的公正性;6.我评分时精力集中思维敏捷;7.评分中我会合理安排评分细则等三项。评分者自信来自于本身的专业背景和知识水平、评分过程中的判断思维活动以及自己对主观评分标准的科学理解和把握,自信因素将影响到主观评分的整个过程环节。
因素四命名为“评分经验”:包含 2.过去的评分经验有利于提高我的评分效率;15.我的第一印象往往是正确的;1.我在评分时是理性的等三项。评分者的经验形成了定势的评分行为,造成评分者的偏好和盲目自信,只有经验和客观标准的有机结合才是理性的评分。
因素五命名为“执裁能力”:包含 12.我打分有时犹豫不决;13.缺乏评分经验会使我对题目评分的判断把握不准确;4.面对繁重的评卷任务我会感到不安等三项。体现评分者对评分问题的应急处理能力以及对评分任务的适应性,和评分者所具有的专业知识、评分经验及评分标准的熟练掌握程度。
因素六命名为“标准把握能力”:包含 18.评分时过去的某些评分经验可能会与评分标准的要求不符;19.感觉疲劳时我会放松对评分过程的把握;14.通常要花很多时间我才能静下心来评分;9.我对评分标准把握得不好。评分过程中评分者对评分标准的把握尺度很重要,不能前紧后松、忽高忽低,标准的把握不能受制于先验的评分经验和评分习惯。
(二)人口学特征与主观评分一致性自身特征的关联分析
对调查问卷数据进行探索性分析得到六因子结构后,以六因子的因子得分数据和被调查教师的人口学特征数据为依据,运用方差分析方法 (SPSS15. 0中的One-Way ANOVA)来分析人口学特征与各因素的关系,并通过平均值比较、方差检验和组间多重比较的方式进行分析检定,得到的分析检定结果如下表所示。因为在被试中研究生以上学历占总数的 86%,其他学历人数较少,年龄也是集中在 30到40岁,数据没有代表性,仅分析教龄和阅卷次数与自身特征的关联。
表1 教龄和阅卷次数对主观评分一致性影响因素分析检定结果(n=110)
平均值比较的结果说明不同的教龄层次和不同的阅卷次数在主观评分一致性影响因素的六个影响维度上都存在一般性差异,但是否在显著性差异则需要通过方差检验的结果来说明,由表中的 F值可知,三个不同层次的教龄组在评分经验维度上的差异达到了 0.05;四个不同层次的阅卷次数组在情绪稳定维度上的差异达到了 0.05。
教龄的差异分析,在评分经验维度上 8年以上教龄显著高于 2年以下教龄,其他维度没有发现因教龄差异而带来的显著差异。不同教龄的教师仅在“评分经验”上差异显著,而在其他因素上不存在显著差异。教龄越长,评分经验也就积累越多。
阅卷次数的差异分析,在情绪稳定性维度上阅卷次数 4次以上的显著高于只参加过 1次阅卷的,其他维度没有发现因阅卷次数差异而带来的显著差异。参加过不同阅卷次数的人员在“情绪稳定性”上表现出差异显著,可见,参加阅卷的次数越多,阅卷者的情绪越容易保持稳定。
本文通过专家访谈方法,来搜集和整理主观评分一致性的各影响因素,并通过编制主观评分一致性评价者自身特征问卷来获取主观评分者对各影响因素的评定信息,然后对调查问卷数据进行探索性因子分析,得出主观评分一致性影响因素的因子结构,即责任心、自信心、情绪稳定性、评分经验和标准把握能力和执裁力六个因素,六因素结构分别从主观评分过程和主观评分者方面对主观评分不一致性的产生进行了解释。一般来说,评分者的责任心和自信心能够保证评阅任务的顺利完成,其情绪稳定性则是不受外界干扰的关键因素,过去的经验对一致性影响不能忽视,它使评分者可以尽快适应评分要求,而标准把握能力则是反应评阅工作中标准的重要性,一个评分者具有良好的执裁力才能作出客观的评判。通过单因素方差分析得出主观评分者的人口统计特征对主观评分一致性影响因素结构的影响,即教龄和阅卷次数分别对主观评分一致性影响因素结构中的自信心、评分经验和情绪稳定三个维度影响显著。
影响主观评分一致性的评分者自身因素的验证和应用是今后的两个研究内容。本文经探索分析得到的影响因素结构只是在初步分析调查数据的基础上得到的,还需要在更大样本的调查数据基础上来进行验证性因子分析,来验证并修正六因子结构模型,以得到模型结构简单、与大量样本数据拟合度较好的影响因素结构模型。主观评分一致性的影响因素结构在一定程度上解释了主观评分不一致性产生的根源和常见因素,希望把这一结果应用到对主观评分信度的控制中去。比如在选择主观评分者时,要选拔那些责任心强、自信心高且情绪稳定,能够很好把握标准的人员,这样能够减少主观评分的不一致性;并且优先选择那些具有一定专业知识背景学历较高、教龄较长并多次参加过主观评分阅卷的人员,以便在主观评分者选择阶段来预先控制主观评分不一致现象的产生。
[1]刘建立.体育竞赛中主观评分的概念、内涵及其评判特征研究[J].体育与科学,2008(3):78-81.
[2]徐晓锋,刘 勇.评分者内部一致性的研究和应用[J].心理科学,2007(5):1175-1178.
[3]孙晓敏,张厚粲.表现性评价中评分者信度估计方法的比较研究——从相关法、百分比法到概化理论[J].心理科学,2005(3):646-649.
[4]魏高峡,李佑发,孙晓敏.概化理论及其在运动成绩主观评定中的应用 [J].北京体育大学学报,2006(1):53-55.
[5]Thomas Eckes.Examining Rater Effects in TestDaF W riting and Speaking Performance Assess ments:A Many-Facet Rasch Analysis[J].Language AssessmentQuarterly,2005, 2(3):197-221.
[6]George Engelhard,Jr.Examining Rater Errors in the Assessment of W ritten Composition W ith a Many-Faceted RaschModel[J].Journal of EducationalMeasurement Summer,1994,31(2):93-112.
[7]George Engelhard,Jr.Evaluating Rater Accuracy in Perfor mance Assess ments[J].Journal of EducationalMeasurement Spring,1996,33(1):56-70.
[8]王文成.笔试主观性试题评分误差及其控制研究[D].华中师范大学硕士学位论文,2005.
[9]Okim Kang.Ratings of L2 Oral Performance in English: Relative I mpactof RaterCharacteristics andAcousticMeasures of Accentedness[J].Spaan Fellow Working Papers in Second or Foreign Language Assess ment,2008(6):181-205.
[10]苏永华.现代人才测评理论与方法研究[D].华东师范大学博士学位论文,2000.
[11]O Loughlin.K.The I mpact of Gender in Oral Proficiency Testing[J].Language Testing,2002(2):169-192.
[12]Bachman,L.F.Some Reflection on Task-Based Language Performance Assess ment[J].Language Testing, 2006(2):452-476.
[13]Steven Barrett.The I mpact of Training on Rater Variability [J].International Education Journal,2001,2(1):49-58.
[14]Wang Haizhen.Rater Perceptions of Factors thatAffect the Rating of TEM-4 oral test[J].Celea Journal(Bimonthly) (30)2:9-15.
[15]Lawrence T.DeCarlo A Model of Rater Behavior in Essay GradingBased on Signal Detection Theory[J].Journal of EducationalMeasurement Spring,2005,42(1):53-76.
[16]孙悦博.结构化面试中评分过程影响因素的实验研究[D].吉林大学硕士学位论述文,2007.
[17]彭平根.评价中心的测评有效性及其影响因素的实证研究[D].华东师范大学博士学位论文,2003.
[18]周 浩,龙立荣.绩效考核中宽大效应的成因及控制方法[J].心理科学进展,2005(6):806-813.
[19]王剑辉,肖 玮,车文博.军事飞行员职业自我效能感量表的探索性分析[J].中华航空航天医学杂志,2005, 16(1):34-37.
[20]李永鑫,赵 娜.工作 -家庭支持的结构与测量及其调节作用[J].心理学报,2009(9):863-874.
The Analysis of Raters’O wn Characteristics Influencing Subjective Scoring Agreement
L IBin
(Institute of Developm ental Psychology,B eijing Nor m al University,B eijing100875,China)
By surveying many raterswho attended the writing scoring in a National Examination with the questionnaire,this papermakes an analysis of raters’own characteristicswhich influence the subjective scoring agreement. Firstly,after processing the collected data with the method of exploratory factor analysis,it finds that the raters’own characteristicswhich influence subjective scoring agreement are of six-factor structure,namely,responsibility,self-confidence,stabilization of emotion,scoring experiences,and the abilities in grasping criterion and exercising scoring.Then,by the means of single factor analysis of variance this paper explores the relationship between the factor structure and demographic variable,with the result that therewere significantpositive correlations between education and self-confidence,teaching years and scoring experiences,total scoring ti mes and stabilization of emotion respectively.
subjective scoring agreement;factorial structure;exploratory factor analysis
book=75,ebook=296
G449.7
A
1000-5935(2010)03-0075-05
(责任编辑 石 涛)
2009-11-08
李 斌(1974-),男,山东章丘人,教育部基础教育课程教材发展中心助理研究员,北京师范大学发展心理研究所在读博士,主要从事教育评价与测量方向的研究。