基于钉钉学习圈的线上CET-4作文训练模式研究

2020-08-13 07:19李晨辉

卷宗 2020年17期

摘要：线上教学对大学英语作文训练提出了重大挑战，作文自动评分系统重要性日益突显。本研究聚焦阿里钉钉学习圈中的“英语作业”功能，邀请5名大学英语学生开展小范围的实证研究，尝试回答：1）“英语作业”功能的赋分是否可信;2）如何理解点评内容两个问题。研究结果显示，和人工得分相比，钉钉得分无显著差异。钉钉评语详尽，层次分明，学生可以先关注错误、再关注警示性点评、“学习提示”和“推荐表达”，最后关注“近义词表达学习”和“拓展辨析”，有步骤地提升自己。

关键词：钉钉;“英语作业”;作文自动评分

1 引言

近年来，大学英语线上教学蓬勃发展，也遭遇了诸多挑战。大学英语教学无法回避写作训练，详尽的反馈是学生提高写作能力的根本保证，但教师人工反馈的成本极高，网络授课更加剧了这种情况。作文自动评分（Automated Essay Scoring，AES）系统除自動评分外，还具备了错误分析、维度分析、个性化反馈、写作辅助等功能，十分适合信息化时代大学英语的教学要求。因此，找到可靠的AES系统就成了化解这个突出矛盾的关键。钉钉的“英语作业”功能就具备自动评阅功能，极大方便了师生，但它的可靠性有待检验。

2 “英语作业”简介

钉钉使用了“分类建群”的思想，不同类型的群配备不同的群应用。“英语学习”程序内置于钉钉培训群中，需手工添加，提供“老师布置作业，学员提交作业，老师点评等功能”。它允许老师设置批改方式、学生修改次数，还能设置批改公式，适应不同考试培训需求，它的主要功能是批阅文字中的词汇和语法，十分适合大学外语教学的需要。教师点击任务，就可以设置作文的标题、字数、具体要求、提交时间等内容并发布到学生群。面对新技术，虽然师生主观上觉得它是好工具，但对评分的信任度以及如何运用它来辅助教学仍不清楚。本文设计了小规模实验，探讨以下两个研究问题：1）“英语作业”功能的赋分是否可信？2）如何理解点评内容？

3 实验设计

研究随机选取了5名大学英语学生作为被试，外语成绩不做要求但必须自愿。被试均未通过四级考试或渴望刷分，十分愿意接受测试，因此可以排除被试消极应付实验的可能。

研究利用四级训练课完成，教师在“英语学习”程序中发布一个模拟测试题，被试在教室当堂线下写作，限时30分钟，写作期间不得使用手机，以排除被试求助线上资源的可能。写作完成后，被试需在钉钉里提交电子版，并上交纸质版，教师核验两个版本完全一致后，实验方可结束。钉钉会自动批阅，显示分数和评语。

实验邀请2名教师独自人工判分，按照0-15分给分，允许保留小数点后一位。由于钉钉主要反馈的是学生的语言表述，因此教师人工判分的内容主要也是语言表述。当分差≥2分时，需第三位教师干预。所有评分人的算术平均分记为该被试的人工得分。使用独立样本T检验检查钉钉得分和人工得分是否存在显著性差异，同时分类统计评语，探究其内在逻辑，分析评语的内在价值。

4 讨论

4.1 独立样本T检验

被试的人工评阅得分分别为12.25，12.5，11.25，12.75和13，均值12.35，方差0.456。钉钉得分为12.2，12.4，11.6，13.1和13.5，均值12.56，方差0.536。

使用Excel进行F检验-双样本方差，验证方差齐性。当α=0.05时，P（F≤f）=0.422，因此认为两组数据的方差没有明显差异，可以进行T检验。T检验结果显示，当α=0.05时，P（T≤t）=0.327，因此认为两组数据也没有明显差异。

T检验的结果不支持两种评分具有显著差异的假设，因此认为钉钉判分是可靠的。当然，任何AES系统都是基于人类评分员训练出来的，因此该结果也在情理之中。

4.2 点评内容

“英语作业”提供逐句点评功能，点评看似复杂，却均由三部分组成：

[序号] [类型] [评语]

5篇作文共123条点评，以红、黄、绿三色呈现。整理后发现红色代表错误，绿色代表表扬，黄色可以归纳为警告或提示。这种分类刚好和交通规则相匹配，大大提高了评语的辨识度。

每种颜色的评语又细分出许多子类型。红色评语共23处，7个子类型，都是明确的语法错误，如“动词错误”、“名词错误”等，显然学习者应优先关注错误的内容。绿色评语共6处，分为“精彩句型”和“闪光短语”，它们类似语文学习中的好词好句，钉钉发现后提出表扬而已。因此对于学生提高语言技能的帮助不是很大，倒不必过多关注。

黄色评语最多且看起来都比较雷同，容易导致学生不想看。其中警示性内容最多，这类评语的描述和红色的错误几乎一样，但多了“疑似”、“是否”等表述，这体现了钉钉评语的严谨性，可以当作是疑似错误，学习者可以向教师请教是否存在错误并改正。其余点评都是扩展性内容，意在引导学生开拓视野。“学习提示”侧重汉语和英语表述一对多的情况，提示学生加以辨析，因此可以理解为易错词。比如汉语的学院/大学，对应英语中多个单词，很容易用错。“推荐表达”则提醒学生使用高级表达，暗示原文表述不够好。而“近义词表达学习”则是希望学习者频繁更换表述，增加语言美感。“拓展辨析”聚焦两个词之间的差异，也会频繁提示语料库中的频次，不过这个功能对于学生提高语言能力，帮助不大，可以忽略。

5 结语

本次小规模实验的结果显示，钉钉判分大致可靠，而且点评及时，评语详尽，能有效化解人工反馈的巨大成本矛盾。钉钉评语类型划分合理，逻辑清晰，在提高学生英语语言表述方面具有重要的参考意义。学生可以按照重要性逐一消化，首先关注错误、其次关注警示性点评、“学习提示”和“推荐表达”，最后可以关注“近义词表达学习”和“拓展辨析”。

参考文献

[1]翰宁.几个英语作文自动评分系统的原理与评述[J].中国考试，1994：38-44.

[2]宋毅宁.自动作文评分系统对大学生英语写作能力的影响实证研究[J].大学教育，2019：132-134.

[3]唐锦兰，吴一安.写作自动评价系统在大学英语教学中的应用研究[J].外语与外语教学，2012（4）：53-59.

[4]王勃然，金檀，赵雯.自动写作评价研究与实践五十年—从单一、合作到交互[J].外语研究，2015（5）：50-56.

[5]葛诗利，陈潇潇.大学英语作文自动评分研究中的问题及对策[J].山东外语教学，2009：21-26.

作者简介

李晨辉（1991-），男，汉族，浙江嘉兴人，硕士，助教，研究方向：大学英语教学。