基于多层面Rasch模型的在线同伴互评内部一致性问题分析

2022-05-10 08:16杜默君

吉林省教育学院学报 2022年3期

杜默君

动态评估注重在形成性评价过程中评价者和学习者的协商，并通过一定的中介干预来实现学习者的潜在能力发展。Lantolf & Poehner 将动态评估的模式分为干预式动态评估和互动式动态评估两种类型，同伴干预是干预式动态评估模式的一种形式，它要求学习者在写作过程中以书面评论和面对面协商的形式相互对其写作的草稿进行讨论。部分学者对同伴干预进行了积极评价，并认为匿名互评能够提高学生对作文反复修改的意愿，让学生在轻松的网络环境下实现真正意义上的协商与合作，进而从根本上提高学习者的英语写作自主性，提高学习效果。

国内越来越多的研究者使用互动型同伴互评作为一种新型的形成性评估手段，并将其运用到外语语言教学中。尽管如此，基于信息技术的匿名同伴互评在我国语言教学与动态评估领域的理论与实践研究尚处于初期阶段，需要更多的研究人员采取一定的手段来进行实证性研究与验证。

一、文献综述

国际上同伴干预研究逐渐成为外语教学的研究热点。从研究趋势来看，相关描述性研究正逐步减少，进入到实证性研究和质量研究阶段。近年来的实证性研究多以教育心理学理论为指导，采用准实验研究手段调查互动影响因素与语言发展间的因果关系，质性研究常在社会文化理论指导下对同伴互评展开探索，也有一些学者基于该理论采用个案研究、民族志、会话分析三种质性研究方法展开讨论。

国内关于同伴互评的实证性研究尚处于起步阶段，研究成果相对较少。主要研究比较了在二语教学过程中的自评、互评和师评结果之间的差异性、一致性以及评分标准的交互性，有研究者分析了不同水平组学生在评估自己或者同伴英语写作能力时的差异，以此探讨同伴互评的科学性与可行性。

这些研究均为同伴互评的可行性与效度验证提供了基本参考，但仍存在一些不足之处，因此，本研究采用MFRM 在网络环境下的大学英语写作动态评估中的同伴互评展开研究。

二、研究设计

（一）研究问题

本研究试图回答以下2个问题：

1.基于计算机网络技术的在线同伴干预的交互性与信度如何；

2.在Peerceptiv互评系统环境下，同伴互评内部一致性如何。

（二）研究对象与环境

研究对象均为江西某普通理工科高校63 名非英语专业本科生，A 级班，选修大学英语课程。女生19 人（占总人数的30.16%），男生44 人（占总人数的69.84%），均为理工科背景专业。

（三）研究工具

本研究要求学生在规定时间内基于Peerceptiv互评系统环境完成一篇议论文，文章主题是交通方式改变我们的生活，与所学课文相关，题中没有生僻词汇，适合本阶段本科生作文。写作主要包括三个过程：写作过程、干预过程和评估过程，分别由以下几个步骤组成：

1.写作过程：学习者根据要求在Peerceptiv互评写作平台独立按时完成评估者设置的任务初稿并提交，等待同伴互评；

2.同伴干预及矫正过程：采用同伴线上干预+线下教师面辅（采用渐进提示法对学习者进行干预）的方式进行，然后要求评估者结合同伴干预情况，对一稿进行修改或矫正。然后由受试者提交二稿，并对评估者写回评。

3.评估过程：根据受试者在Peerceptiv互评网络平台提交的二稿进行二次互评，评估者根据结果对其在线写作能力进行评估，互评结束后要求受试者给与评价者回评，并记录回评结果，以便于后期结果进行比对。

评分标准包含词汇准确度、语言清晰度、结论是否完整、文章篇幅（长度）、结构完整性、语法等7个维度。各分项评分标准全部采用李克特7 级量表，其范围从“非常同意”到“非常不同意”顺序排列。

三、研究结果

（一）数据初步分析

数据和模型拟合是否理想，主要依据加权的均方拟合统计量和未加权的均方拟合统计量来判断。一般而言，拟合不佳的被试人数控制在5%以内属于可接受范围。在本研究的63 名被试者中，仅有3人（占总人数的4.8%）的加权的均方拟合统计量（Infit MnSq）和未加权的均方拟合统计量（Outfit Mn-Sq）值不在［0.5，1.5］参照区间内，由此说明，本研究的数据与Rasch 模型的总体拟合情况较好。本研究中数据显示在进行计算机辅助的动态写作时，普通本科学生作文结论部分（首尾是否呼应）不尽人意，文章长度和用词准确性方面尚可。

（二）测量层面分析

1.受试层面分析

表1 是本研究中受试层面的分析结果报告，主要报告了受试能力值及得分一致性情况。表中第一列是依据Facets 测算原始值并经MFRM 调整后得到的公平均值（Fair Average），第二列为依据Facets计算后得到的被试在线英文写作能力测量值（单位为logit）。表1显示，被试的写作能力值差别较大，在0.10~3.20 logits 之间。由加权的均方拟合统计量Infit MnSq 可知，同伴互评中有 3 位受试者（Infit 值分别为1.85，1.53，0.48）得分一致性较差，除此之外，受试者整体获得评分情况的一致性较好。从表中可以看出，本例中的卡方检验值为883.1，该数值可以用来检验各测量层面内部被试个体测量值之间是否存在显著性差异。结果表明，χ2=883.1，自由度df=62，p=0.00，小于显著性水平设定的0.05，说明被试者的能力值（本文中表现为同伴互评的等级分）之间存在显著性差异。表格下方也报道了FACETS 测算出来的被试分隔指数为3.50，这一数据说明被试的能力可大致分为4 个等级；分隔信度系数为0.92，这一指标说明基于计算机的动态评估中的同伴互评结果能较好地区分不同能力水平的学习者。

表1 受试层面测量报告

2.评分者侧面

评分者侧面的分析报告了评分者的评分宽严程度，Infit 统计量反映了评分者自身评分的一致性。由表2 可知，基于Peerceptiv 动态同伴互评中受试者 R37、R8 的Infit 统计量大于1.5，表明这两位评分者评分过程中自身评价尺度不稳定，前后波动较大，有时宽松有时严格，存在少数评分者自身一致性较差的现象，但占比仅为4.76%。仅有一位评分员R59的Infit 统计量小于0.5，数据说明其他同伴互评评分区分度良好，没有趋中的倾向，评分者自身一致性较好。

通过分隔指数和分隔信度方面的数据来看，同伴互评评分者分隔指数为4.18，分隔信度为0.95，卡方检验值为1112.1，df=62，p=0.00＜0.05，说明同伴互评者严厉程度存在差异性显著。分隔信度系数为0.95，证明了评分员严厉度的区分结果可靠性，就整体评分员的内部一致性而言，基于动态评价理论框架设计的同伴互评，评分者在评价不同工作时，评价尺度前后一致，才具有更好的评分者自身一致性。评分员的内部一致性主要依据Infit MnSq 和Outfit MnSq 值来进行评估。McNamara（1996）认为评分员的内部一致性主要参考Infit MnSq 和Outfit MnSq 值是否介于均值±2 个标准差之间。表2 显示，评分员整体Infit MnSq 和Outfit MnSq 均值都在1.00±2×0.32 即 0.36~1.64 之间，说明互评者整体内部一致性都比较理想。

表2 评分员层面测量报告

3.评分标准层面

表3 显示的是评分标准测量报告，主要用于分析评分标准各个维度的难度值。表中第2 列的测量值表示同伴互评过程中所拟定的评分标准各维度的难度及其差异，测量值与各维度的难度值成正比。从表3 中的数据可以看出，本研究采用的7 项评分标准的难度差别不大，评分标准的描述语表达清晰，考生能够抓准各描述语的含义。各评分维度难度值位于－0.44~0.20logits之间，其中“文章长度”难度最大，说明在线写作对文章长短不易把握；“语言清晰程度”维度的难度系数最低，说明学生写作时能够明确地阐述自己的中心思想。表后的卡方检验结果表明，评分标准各维度之间的难度存在显著性差异（χ2=43.7；df=6；p=0.00）。表中分隔系数的读数显示为2.33，说明整体评分标准的难度大致可以分为2~3 个等级，平均误差很小，仅有0.08 的误差值，分隔信度系数指标为0.84，说明评分标准描述语达到预期效果，其难度的区分结果可靠。

表3 评分标准层面测量报告

四、讨论与建议

基于计算机的线上动态二语写作考试评分的主观性使评分者偏差成为考试中需长期关注的重要问题。本研究利用Facets 软件对动态评价理论指导下的基于计算机的作文同伴互评测试进行了详细分析，具体而言，对在线同伴互评内部一致性问题也进行了详细分析。研究结果表明：

（一）在信息技术环境下进行动态英语写作测试过程中，也存在同伴互评者之间评分宽严程度不一致的问题，存在显著差异。具体而言R17是本次网络写作中最严厉的评分者，而R50 则是最宽容的评分者，两者之间相差4.89个logits。

（二）在Peerceptiv 同伴互评系统控制下，评分者在二语写作评分中能保持整体评分的一致性，但少数评分者评分时仍然表现出集中趋势。这说明虽然进行计算机网上二语写作评分可提供更及时的反馈，但仍需建立更加合理的监控机制，提醒过多使用集中趋势量尺的评分者。

（三）由于基于计算机的动态系写作测试有别于传统的静态测试，评分者未能及时进入角色，这也是发生评分者偏差的一个重要原因。因此，在计算机动态英语写作测试中要控制评分者偏差，提高评分者信度，对评分前培训及试评应给予足够重视，同时还要注意监控后期评分过程。