基于多层面Rasch模型的英语写作教师评分与同伴互评对比研究

2017-12-14 00:45:19吴雪峰

重庆第二师范学院学报 2017年6期

关键词：信度同伴一致性

吴雪峰, 周静

(南京林业大学外国语学院, 南京 210037)

基于多层面Rasch模型的英语写作教师评分与同伴互评对比研究

吴雪峰, 周静

(南京林业大学外国语学院, 南京 210037)

基于多层面Rasch模型，本文对比分析了大学生英语作文的教师评分与同伴互评的评分质量，以及在写作教学中引入同伴互评的可行性与必要性。研究表明：从总体宽严度、自身一致性等指标上看，教师评分员的评分质量明显高于学生评分员；但整体而言，两类评分员的评分结果具有较高的一致性，这表明对于形成性评估的大学英语写作测试而言，同伴互评可以作为教师评价的辅助性手段参与写作教学与评估，从而有效提升评分效度，丰富教学手段，增强英语写作教学效果。

英语写作；多层面Rasch模型；教师评分；同伴互评

一、引言

写作是英语教学体系中的重要组成部分，但它具有高投入、低产出的特点。其原因在于在传统的教与学的模式中，学生作为客体被动接受知识，参与度较低，积极性不高。单就英语写作的评估方式而言，传统的英语写作教学评价体系过于单一,在课堂或测试环境下一般均采用教师打分作为写作评估的主要甚至唯一模式。教师往往要耗费大量时间和精力评改学生作文，而许多学生对老师的批阅却未能仔细研读和消化，最终导致教学效果甚微，学生的英语写作能力很难得到有效提高。

鉴于此，对英语写作评分而言，有必要进一步提升学生或被试群体在写作评估中的地位和参与程度。评价是学习过程中重要的一环，可靠的评分能为教学提供诊断性反馈，为日常教学决策提供依据。让学生参与评价过程，将同伴互评作为英语写作教师评分的一种重要补充，有利于提高学生的自主性[1]，不仅可以改变他们在评价中的被动角色，而且能让他们从评价他人的作文中受到启发，从而在一定程度上促进自身写作水平的提高。本研究旨在通过量化的方法对比分析教师评分和学生互评的评分质量，探讨在课堂环境下大学英语写作课程引入同伴互评的可行性。

二、文献综述

(一)国外研究

国外研究者对外语写作评估进行了大量研究。教师评估被认为是写作过程中最基本的组成要素，在二语写作评估研究领域始终占据着中心位置。然而随着高等教育的发展，国外研究者在外语写作评估上的研究重心转移到作文评改的替代方式上，不同形式的评分方式，尤其是同伴互评开始被引入大学英语写作课堂。Azarnoosh[2]研究发现：教师评分与学生互评之间没有显著差异；同伴互评的结果往往与教师评阅的结果之间存在较高的相关性。此外，同伴互评不仅可以让学生相互评分，提高课堂环境下写作评分的效率，还可以帮助学生获得评改作文的宝贵经验，这也是一项非常重要的技能，使得学生在批阅过程中通过对比自己与他人写作的异同，反思自身写作中存在的问题，取长补短，从而不断提升自己的英语写作水平。

然而，尽管同伴互评存在上述优势，许多研究者仍然对英语写作同伴互评的质量及可靠性持怀疑态度。Freeman[3]认为学生所掌握的语言知识有限，不能完全发现和修改目的语中的错误，进而影响评分的可信度。Mangelsdorf[4]在实证研究中发现，很多学生不信任同学的评议，认为同学没有能力对自己的作品给出合理的评价。尽管一些英语基础较好的学生能够比较准确地理解和评判同伴作文，但大部分学生仍抱怨学生评分员给出的分数不够“公平”。Sengupta[5]的调查则认为，在以应试为目的和强调语言准确性的环境中，学生对同伴互评的态度很冷淡，认为同伴互评不具有任何教育教学方面的价值。

(二)国内研究

在国外大量相关研究涌现的同时，国内对写作评估模式的研究也取得一定进展。在传统的大学英语写作课堂中，教师评分被认为更具权威性。许多问卷调查和访谈结果显示，学生对教师评阅的接受度最高，更倾向于接受教师评分[6]。中国的英语学习者非常重视教师的评语，他们普遍认为教师评改能够有效帮助学生提高英语写作水平[7]。然而，作文评改是“一种复杂的、易出误差的认知过程”[8]，教师若作为唯一的评阅者，极易导致评价偏差。因此，近年来，国内不少研究者将重点放在了写作评分的不同类型上，探讨将同伴互评引入大学英语写作课堂的可行性与有效性。

目前，学界对同伴互评在作文评阅中的可信度尚未达成共识。一部分研究表明，同伴互评是教师评阅的有益及有效补充，能激发学生进行作文自主修改活动的兴趣，为学生创造较多的相互学习、共同提高的合作机会[9]。同伴互评和教师评分在评分结果上具有很高的一致性，只要设计合理、操作严谨，同伴评价可以作为一种有效的评价方式，融入写作教学中。研究还发现，总的来说同伴评估不受学生自身写作水平的影响[10]。因此，同伴互评的准入门槛较低，受众较广，易于接受和操作。而王莹[11]则认为，学生所掌握的语言知识较为有限，不能完全识别和纠正作文中的错误或不当之处，极大地影响了评分的信度，而教师评改效果较为明显，受大部分学生欢迎。

由此可见，学界对同伴互评模式的信度、效度仍存在较大分歧，对这种评价模式能否引入教学还存在诸多争议。此外，现有研究一般仅通过相关分析或T检验的方法检测学生与教师在作文评分信度上的一致性，研究方法相对较为单一。此类定量研究只能检测到不同种类评阅者间(如学生与教师之间)的交互信度，而无法检测单个评分员自身评卷的稳定性，即评卷者内部信度。有鉴于此，本研究在传统定量研究的基础上增加多层面Rasch模型分析，采用FACETS软件对比分析英语写作教学中教师评分与同伴互评的评分质量，探讨同伴互评在实际教学中实施的可行性和可靠性。

三、研究设计

(一)研究问题

本研究旨在回答下列两个问题：

1. 学生评分与教师评分的评分质量是否存在差异？

2. 学生评分员与教师评分员的评分结果是否具有一致性？

(二)研究对象

研究者首先选取9名学生作为同伴互评的研究对象，全部为南京某高校英语专业四年级学生，其中男生3人，女生6人，平均年龄为21.4岁，编号为 11～19。同时，研究者邀请了该校5名英语专业教师作为教师评分员参加此次研究，其中男性2人，女性3人；博士2人，硕士3人；教授1人，副教授2人，讲师1人，助教1人。所有教师评分员编号为 21～25号。

(三)数据收集

实验材料来自英语专业学生课堂上完成的命题作文。研究者从中随机抽取5篇，复印14份，隐匿姓名并编上序号，采用英语专业四级考试(TEM4)写作评分标准，将所有材料发放到教师评分员与学生评分员手中。为体现教师和学生评分的真实性，我们在评分前未对评分员进行相关培训，所有评分员均依照TEM4评分标准对上述作文独立进行分项式评分。

(四)数据分析

本研究运用SPSS 23.0及FACETS 3.58这两个统计软件对数据进行分析，共分2个步骤，分别用以回答本研究的两个研究问题：1.运用多层面Rasch(MFRM)模型对比分析学生评分员与教师评分员的评分质量；2.运用独立样本T检验比较学生评分员与教师评分员的评分结果。

MFRM是项目反应理论(Item Response Theory)模型之一，该模型可用于主观试题的评分质量分析。它基于随机概率模型，将各层面中每一个体(考生、评分者、任务等)在共同的logit标尺上进行度量，并计算每个度量值的估算误差、对模型的拟合程度以及每个层面之间可能的交互作用。由Linacre和Wright(1987-2004)开发的“FACETS”是基于MFRM的电脑软件，可以对评分员的评分行为做出分析和解释。鉴于MFRM的强大功能，越来越多的学者借助MFRM研究L2写作评分问题。利用FACETS(Version 3.58)，我们可以得到以下主要分析数据。

1.度量值(Measure)：个体在共同标尺上的标度值。FACETS将所有层面中的每一个体的度量值都转化为以logit为单位的统一度量值，便于各层面之间的比较和分析。

2.拟合统计量(Fit statistics)：衡量每一个体的实际观察值与模型预测值之间的拟合程度。包括加权均方拟合统计量(Infit Mean Square)和未加权均方拟合统计量(Outfit Mean Square)。后者更容易受到差异较大的数据影响，因此一般把前者作为判断个体是否拟合模型的依据[12]。如果Infit MnSq 值为1，说明与模型预测完全符合。拟合值大于1表明数据与模型之间存在随机偏差，而小于1则说明数据之间的差异小于模型预测的差异。

在评分员层面，一般认为若Infit取值在0.5～1.5的范围内，可以认为评分员的稳定性较高，低于0.5的项目为过度拟合，高于1.5为非拟合。也就是说，Infit MnSq值大于1.5，表明评分员之间一致性较低，而小于0.5时则说明评分员之间差异性太小，在评分过程中可能存在趋中或光环效应。同时，如果标准拟合数据(ZStd)绝对值小于2，表明评分员的评分行为符合Rasch模型。如果MnSq值大于1.5，且标准化值(Zstd)大于2，则表明评分员未能很好地使用各个分数段，评分的前后一致性较差。

3.分隔系数(Separation)和分隔信度(Reliability)：衡量每个层面的个体之间的差异是否大于测量误差，数值越大越说明该层面个体之间存在显著的差异。一般分隔系数大于2时可以认为个体间有明显差异[13]。分隔信度衡量个体之间存在显著差异的程度。对于评分员来说，分隔系数和信度的值越大，则说明评分员之间的差异越大，评分的一致性越低。

四、研究结果

(一)学生评分员评分质量分析

1.整体分析

图1是FACETS提供的学生评分员评分结果的总体情况。最左边的纵列是logit量尺，是后面所有纵列参照的共同标准。第二列是考生能力的度量值，度量值越大，说明考生能力越强。第三列表示评分员的宽严度，评分员在量表上的位置越高，表示该评分员较其他评分员更严格；越低，则表示其评分更宽松。

图1 学生评分员总层面图

如图1所示，14号评分员最严格(1.08 logit)，12号评分员最宽松(-1.86 logit)。其他评分员均分布在±1.0 logit之间，表明大多数学生评分员之间的评分一致性较高。

2.评分员层面分析

表1为FACETS提供的9位学生评分员评分结果分析。评分宽严度仍然用洛基量尺测量。在评分过程中，我们希望评分员尽可能做到客观，一般认为，评分宽严度在-2至+2之间为可接受范围。如表1所示，9名学生评分员评分宽严度各有不同，而Rasch模型要求评分宽严度差异越小越好，这表明学生评分员在评分宽严度方面表现不够理想。但所有评分员的logit值均分布在可接受范围内(±2 logits)，平均宽严度为.00 logit，说明学生评分员的评分结果基本合理，可以接受。从整体来看，评分员的分隔指数(3.04)①显示评分员的宽严度大致分为3个不同层次。此外，分隔信度(.81)、卡方检验值(chi-square =40.0)、sig值(=.00)，这些数据都表明学生评分员之间存在明显的宽严度差异。

从拟合情况来看，12、13、14、15、16号均符合拟合模型，可以认为大多数评分员具有较好的前后一致性，也就是说，大体上能把握较一致的宽严度；11号(Infit MnSq=2.24)为显著非拟合，说明自身一致性较差，对评分标准的理解可能和其他评分员不一致，并且给出的分数没有可预测性，缺乏信度；17、18、19号为过度拟合，说明可能存在趋中现象。

表1 学生评分员层面分析结果

Separation: 2.03; Reliability: .81; Fixed chi-square: 40.0; Significance: .00

(二)教师评分员评分质量分析

1.总体分析

图2是教师评分员评分结果总体情况。所有教师评分员宽严度均分布在-1到+1 logit之间，表明存在相当高的一致性。

2.评分员层面分析

表2为FACETS提供的5位教师评分员评分结果分析。教师评分员评分宽严度有所不同，但均分布在可接受范围内(±1 logits)，平均宽严度为.00 logit。3位评分员略微宽松(logit值lt;0)，21号(.68 logit)和25号(.68 logit)评分员最为严厉，24号评分员最为宽松(-.56 logit)。但最严格及最宽松教师评分员的logit值差仅为1.24 logit (.68logit～-.56 logit)，远小于学生评分员最严最宽之差(2.94 logit)，这表明教师评分员在评分宽严度方面整体上优于学生，内部一致性程度更高。尽管分隔信度(.66)和卡方分析结果(χ2=14.4, p=.01) 表明教师评分员的评分严厉程度仍存在显著差异，但所有教师评分员的宽严度logit值均分布在可接受范围内(±2 logits)，平均宽严度为.00 logit，说明教师评分员的评分结果比较合理。

图2 教师评分员总层面图

表2 教师评分员层面分析结果

Separation: 1.38; Reliability: .66; Fixed chi-square: 14.4; Significance: .01

此外，卡方检验值(chi-square=40.0)和sig值(=.00)也表明评分员的评分严厉程度有显著差异。教师评分员的分隔指数(2.17)显示评分员的宽严度大致分为2个不同层次，而学生评分员则大致分为3个层次，这也从另一个层面证明了教师评分员在宽严度的把握方面优于学生评分员。从拟合情况来看，21、22、24号均符合拟合模型，表明大多数评分员具有较好的前后一致性；23号(Infit MnSq=.29)、25号(Infit MnSq=.39)为过度拟合，说明这两名评分员在评分过程中可能存在趋中现象。

综上所述，教师评分员的评分宽严度差异小于学生评分员，其内部一致性程度优于学生评分员，相比较学生评分员而言，教师评分员在写作评估中能够更好地保持评分的一致性，给出更为客观的分数。因此，教师评分员的评分质量整体高于学生评分员，但Rasch模型数据显示学生评分员的评分结果也具有一定的合理性，基本可以接受。

(三)学生与教师评分结果的对比

本文采用独立样本t检验的方法，从语言应用、思想内容、总成绩三个层面检验学生评分员与教师评分员在评分结果上的差异。

从表3可以看出，学生评分员与教师评分员在语言应用、思想内容及总成绩这3个层面均不存在显著差异(p=.870；p=.550；p=.476)，这表明两组评分员在语言应用层面上的评分均无显著性差异。

表3 独立样本t检验结果(α=.05)

五、讨论

Rasch模型的数据显示学生与教师评分员的总体宽严度均在可接受范围内。然而，教师评分员的评分一致性要高于学生评分员，说明教师的评分质量整体高于学生。从评分宽严度、自身一致性等指标来看，学生与教师评分员在评分质量上存在一定差异。教师评分员与学生相比，对总体评分宽严度把握得更好，给出的分数更能够反映考生的真实英语写作水平，评分结果更具客观性，评分质量更高。这个结果也得到相关文献的支持。较之教师评分，同伴互评的信度较低，学生评分员往往低估同学的作文质量。导致这一现象的原因可能是学生的语言知识有限，语言技能还没有完全成熟，知识体系不够完备等，他们不能完全识别目的语写作中存在的语言错误；对写作内容进行鉴定和评估也往往有失偏颇，进而影响其评分信度。尽管评分质量整体低于教师评分，但学生评分员的评分宽严度仍在可接受范围内，独立样本t检验结果表明，同伴互评与教师评分在各评分维度及总分方面均没有显著差异。Sadler amp; Good[14]的研究也表明，学生自评、学生互评及教师三者之间在评分结果上存在显著的高相关性。众所周知，大型考试中的作文评分，如高考，全国大学英语四、六级考试，全国高校英语专业四、八级考试等，对评分员的要求非常严格，评分员应最大限度地达到总体宽严度的一致和自身评分的一致，对考生的实际写作能力做出尽可能公平、公正的评估。不过，日常课堂教学中的英语写作练习有别于此类大型考试中的写作项目，其评分过程中的误差不会给学生带来太严重影响，因此对评分员的要求可以适当放宽。而本文的研究也表明学生评分员基本能够胜任课堂教学中的同伴互评工作，写作评分中引入同伴互评是可行的。此外，同伴互评还可对英语写作的教与学产生积极的反拨作用。

在同伴互评过程中，学生需要对评分标准进行研读、学习和消化，这一过程可以帮助学生进一步明确写作规范与要求，从而在今后的写作中有意识地遵照评分标准进行写作训练。从某种程度上来说，同伴互评中的评分标准不仅直接用于教育测量，更是一种具有教学指导意义的工具。研究表明，使用评分标准对英语写作进行同伴互评可以有效提升学生的英语写作水平[14]。当然，要达到这一效果的基本前提就是学生对评分标准完全吃透和理解，教师也需主动提供必要的支持，起到应有的中介作用，对学生进行评分标准方面的培训。文秋芳[15]指出，同伴互评状态下教师应提供专业引领，在为学生评分员选择典型样本、带领学生合作评价的基础上再来实施同伴互评，从而确保同伴互评过程中评分标准使用的准确性与合理性。在同伴互评的实施过程中还应注意避免“只打分，不评析”的趋势，鼓励学生在评分后对自己的评分过程认真总结，将自己的写作文本与所评阅的文本进行对比，认清自己的优势与劣势，从而取长补短，逐步提高自己的英语写作水平。学生与学生之间也应当加强沟通，交流评分体会，并在此基础上对英语写作共同进行反思。

同伴评估在英语写作教学中的运用并非十分广泛，但学生参与评估被认为是基本有效、可靠的，有助于培养学生批判性思维能力、分析问题和解决问题的能力，因而完全可以作为一个重要的组成成分参与到英语写作教学中来。考虑到教师评分员的语言基本功更为扎实，评分经验更加丰富等因素，在未来的基于课堂的写作评分中，可以实行“教师评分为主，同伴互评为辅”的教师-学生合作评价模式，为学生创造更多的机会真正参与到课堂互动中来，改变他们一直以来的被动角色，培养主动修改作文和自主学习的本领。

六、结语

综上所述，在英语写作测试与评估中，教师评分员的评分质量显著高于学生评分员，但后者的评分质量也并非完全不可接受。基于多层面Rasch模型的量化研究表明，学生评分员在评分过程中整体上基本能做到客观、合理，对于相同的写作样本，其评分结果与教师评分员相比并无显著性差异。为提升写作教学与评估的效率，增强学生的学习效果，同伴互评可以作为教师评价的辅助性手段参与到写作教学中来，使写作评分更加全面、合理、科学。本研究的不足之处在于样本容量较小且样本全部来自同一所高校，因此研究成果的推广价值相对较小。在未来的研究中，可以扩大样本容量，进行更广范围的研究。对于本研究中出现的极端案例，未来可通过问卷调查、访谈或有声思维报告等其他定性研究方法进一步深入研究。

注释：

①分隔指数的计算公式为(4G+1) / 3，其中 G 为分隔比率 (Myford amp; Wolfe，2004)

[1]Dheram, P. K. Feedback As a Two-bullock Cart: A Case Study of Teaching Writing[J]. ELT Journal, 1995, 49(2): 160-168.

[2]Azarnoosh, M. Peer Assessment in an EFL Context: Attitudes and Friendship Bias[J]. Language Testing in Asia, 2013, 3(11): 74-83.

[3]Freeman, M. Peer Assessment by Groups of Group Work[J]. Assessment amp; Evaluation in Higher Education, 1995, 20(3): 289-300.

[4]Mangelsdorf, K. Peer Reviews in the ESL Composition Classroom: What Do the Students Think?[J]. ELT Journal, 1992(3): 274-284.

[5]Sengupta, S. Peer Evaluation: ‘I Am Not the Teacher’[J]. ELT Journal, 1998, 52(1): 19-28.

[6]李奕华.基于动态评估理论的英语写作反馈方式比较研究[J].外语界,2015(3):59-67.

[7]王俊菊.总体态度、反馈类型和纠错种类——对大学英语教师作文书面反馈的探究[J].国外外语教学，2006(3):24-30.

[8]Cronbach, L. J. Essentials of Psychological Testing (5th ed.)[M]. New York: Haper and Row, 1990.

[9]莫俊华.同伴互评：提高大学生写作自主性[J].解放军外国语学院学报，2007(5):35-39.

[10]孙鑫，李秋菊.基础英语写作教学中自我、同伴及教师评估对比研究[J].中国外语，2015(1)：75-81.

[11]王莹.教师反馈和同伴反馈应用于大学英语写作教学之对比研究[J].陇东学院学报，2012(1)：133-137.

[12]李清华，孔文.TEM-4写作新分项式评分标准的多层面Rasch模型分析[J].外语电化教学，2010(1)：19-25.

[13]刘建达.评卷人效应的多层面Rasch模型研究[J].现代外语，2010(2)：185-193.

[14]Sadler, P.M., amp; Good, E. The Impact of Self- and Peer-grading on Student Learning[J]. Educational Assessment, 2006,11(1): 1-31.

[15]文秋芳.师生合作评价：“产出导向法”创设的新评价形式[J].外语界，2016(5)：37-43.

[责任编辑亦筱]

2017-03-29

中国高等教育学会高等教育科学研究“十三五”规划课题“泛在网络时代大学英语碎片化学习中的认知障碍及对策研究”(16YB050)；第八批教育部中国外语教育研究中心课题“基于泛在网络的大学英语碎片化学习中的认知障碍及对策研究”(ZGWYJYJJ2016B56)；江苏高校哲学社会科学研究基金一般项目“纠正性反馈对英语书面表达复杂度的影响研究”(2015SJB033)

吴雪峰(1981 — )，男，江苏南通人，博士研究生，讲师，研究方向：语言测试；周静 (1993 — )，女，江苏宿迁人，研究方向：外语教学。

H319

1008-6390(2017)06-0085-06