摘 要:线上教学对大学英语作文训练提出了重大挑战,作文自动评分系统重要性日益突显。本研究聚焦阿里钉钉学习圈中的“英语作业”功能,邀请5名大学英语学生开展小范围的实证研究,尝试回答:1)“英语作业”功能的赋分是否可信;2)如何理解点评内容两个问题。研究结果显示,和人工得分相比,钉钉得分无显著差异。钉钉评语详尽,层次分明,学生可以先关注错误、再关注警示性点评、“学习提示”和“推荐表达”,最后关注“近义词表达学习”和“拓展辨析”,有步骤地提升自己。
关键词:钉钉;“英语作业”;作文自动评分
1 引言
近年来,大学英语线上教学蓬勃发展,也遭遇了诸多挑战。大学英语教学无法回避写作训练,详尽的反馈是学生提高写作能力的根本保证,但教师人工反馈的成本极高,网络授课更加剧了这种情况。作文自动评分(Automated Essay Scoring,AES)系统除自動评分外,还具备了错误分析、维度分析、个性化反馈、写作辅助等功能,十分适合信息化时代大学英语的教学要求。因此,找到可靠的AES系统就成了化解这个突出矛盾的关键。钉钉的“英语作业”功能就具备自动评阅功能,极大方便了师生,但它的可靠性有待检验。
2 “英语作业”简介
钉钉使用了“分类建群”的思想,不同类型的群配备不同的群应用。“英语学习”程序内置于钉钉培训群中,需手工添加,提供“老师布置作业,学员提交作业,老师点评等功能”。它允许老师设置批改方式、学生修改次数,还能设置批改公式,适应不同考试培训需求,它的主要功能是批阅文字中的词汇和语法,十分适合大学外语教学的需要。教师点击任务,就可以设置作文的标题、字数、具体要求、提交时间等内容并发布到学生群。面对新技术,虽然师生主观上觉得它是好工具,但对评分的信任度以及如何运用它来辅助教学仍不清楚。本文设计了小规模实验,探讨以下两个研究问题:1)“英语作业”功能的赋分是否可信?2)如何理解点评内容?
3 实验设计
研究随机选取了5名大学英语学生作为被试,外语成绩不做要求但必须自愿。被试均未通过四级考试或渴望刷分,十分愿意接受测试,因此可以排除被试消极应付实验的可能。
研究利用四级训练课完成,教师在“英语学习”程序中发布一个模拟测试题,被试在教室当堂线下写作,限时30分钟,写作期间不得使用手机,以排除被试求助线上资源的可能。写作完成后,被试需在钉钉里提交电子版,并上交纸质版,教师核验两个版本完全一致后,实验方可结束。钉钉会自动批阅,显示分数和评语。
实验邀请2名教师独自人工判分,按照0-15分给分,允许保留小数点后一位。由于钉钉主要反馈的是学生的语言表述,因此教师人工判分的内容主要也是语言表述。当分差≥2分时,需第三位教师干预。所有评分人的算术平均分记为该被试的人工得分。使用独立样本T检验检查钉钉得分和人工得分是否存在显著性差异,同时分类统计评语,探究其内在逻辑,分析评语的内在价值。
4 讨论
4.1 独立样本T检验
被试的人工评阅得分分别为12.25,12.5,11.25,12.75和13,均值12.35,方差0.456。钉钉得分为12.2,12.4,11.6,13.1和13.5,均值12.56,方差0.536。
使用Excel进行F检验-双样本方差,验证方差齐性。当α=0.05时,P(F≤f)=0.422,因此认为两组数据的方差没有明显差异,可以进行T检验。T检验结果显示,当α=0.05时,P(T≤t)=0.327,因此认为两组数据也没有明显差异。
T检验的结果不支持两种评分具有显著差异的假设,因此认为钉钉判分是可靠的。当然,任何AES系统都是基于人类评分员训练出来的,因此该结果也在情理之中。
4.2 点评内容
“英语作业”提供逐句点评功能,点评看似复杂,却均由三部分组成:
[序号] [类型] [评语]
5篇作文共123条点评,以红、黄、绿三色呈现。整理后发现红色代表错误,绿色代表表扬,黄色可以归纳为警告或提示。这种分类刚好和交通规则相匹配,大大提高了评语的辨识度。
每种颜色的评语又细分出许多子类型。红色评语共23处,7个子类型,都是明确的语法错误,如“动词错误”、“名词错误”等,显然学习者应优先关注错误的内容。绿色评语共6处,分为“精彩句型”和“闪光短语”,它们类似语文学习中的好词好句,钉钉发现后提出表扬而已。因此对于学生提高语言技能的帮助不是很大,倒不必过多关注。
黄色评语最多且看起来都比较雷同,容易导致学生不想看。其中警示性内容最多,这类评语的描述和红色的错误几乎一样,但多了“疑似”、“是否”等表述,这体现了钉钉评语的严谨性,可以当作是疑似错误,学习者可以向教师请教是否存在错误并改正。其余点评都是扩展性内容,意在引导学生开拓视野。“学习提示”侧重汉语和英语表述一对多的情况,提示学生加以辨析,因此可以理解为易错词。比如汉语的学院/大学,对应英语中多个单词,很容易用错。“推荐表达”则提醒学生使用高级表达,暗示原文表述不够好。而“近义词表达学习”则是希望学习者频繁更换表述,增加语言美感。“拓展辨析”聚焦两个词之间的差异,也会频繁提示语料库中的频次,不过这个功能对于学生提高语言能力,帮助不大,可以忽略。
5 结语
本次小规模实验的结果显示,钉钉判分大致可靠,而且点评及时,评语详尽,能有效化解人工反馈的巨大成本矛盾。钉钉评语类型划分合理,逻辑清晰,在提高学生英语语言表述方面具有重要的参考意义。学生可以按照重要性逐一消化,首先关注错误、其次关注警示性点评、“学习提示”和“推荐表达”,最后可以关注“近义词表达学习”和“拓展辨析”。
参考文献
[1]翰宁.几个英语作文自动评分系统的原理与评述[J].中国考试,1994:38-44.
[2]宋毅宁.自动作文评分系统对大学生英语写作能力的影响实证研究[J].大学教育,2019:132-134.
[3]唐锦兰,吴一安.写作自动评价系统在大学英语教学中的应用研究[J].外语与外语教学,2012(4):53-59.
[4]王勃然,金檀,赵雯.自动写作评价研究与实践五十年—从单一、合作到交互[J].外语研究,2015(5):50-56.
[5]葛诗利,陈潇潇.大学英语作文自动评分研究中的问题及对策[J].山东外语教学,2009:21-26.
作者简介
李晨辉(1991-),男,汉族,浙江嘉兴人,硕士,助教,研究方向:大学英语教学。