大数据时代基于在线自动评改的英语写作反馈研究

2019-05-04 13:56张威蔡文育

教书育人·高教论坛 2019年4期

张威蔡文育

[摘要] 本文以教育部颁布的《大学英语教学指南》中关于大学英语课堂教学要与现代信息技术相结合的相关精神为指导，回顾及梳理了国内外英语写作研究与实践领域中主要成果及主流写作自动评改系统的特点与不足，展望了未来大规模外语测试中人机结合作文评阅的前景，并提出要多学科交叉，校企协作，将计算语言学、二语写作研究成果与大数据、人工智能、机器学习、深度学习技术整合的建议，以期进一步提升自动评改系统的准确度。

[关键词] 大数据;自动评改;英语写作;反馈

[中图分类号] G642 [文献标志码] A [文章编号] 1008-2549（2019） 04-0102-02

一研究背景

英语写作作为一种重要的语言输出，是测试学生综合能力和认知水平的一种非常有用的方法，也是英语学习者听、说、读、写、译这五种语言应用能力中最难以培养的。在传统的英语写作教学过程中，学生写作水平的提高主要依靠自身练习与教师引导，教师要从内容、词汇、语法、篇章结构、格式规范等各方面对学生的作文进行评改，长期以来学生和教师都投入了大量的时间和精力，但是收效甚微。在全国大学英语四、六级考试中，学生的听力和阅读成绩在近年来都有较明显进步，而写作成绩却少有提高。这是由于大班授课、写作练习及评改不足、反馈不及时、主观性较强等多种原因造成的。因此，张雪梅（2006：28）认为由于现行教学中的教师反馈质量不高、教学针对性不强，我国大学英语写作存在着费时、低效的现象。

教育部于2016年颁布的《大学英语教学指南》为下一步的大学英语写作教学改革指明了方向，“大学英语应大力推进最新信息技术与课程教学的融合，继续发挥现代教育技术，特别是信息技术在外语教学中的重要作用。大学英语教师要与时俱进，在具体的课堂设计与实施过程中，融入并合理使用信息技术元素”。鉴于此，主动适应大数据、“互联网+”时代下大学英语教学发展的需求，充分利用现代信息技术手段提高教学效果，深入促进教育信息化的发展及写作教学的转变，实现教育与信息技术相互交融及创新发展，已成为高等院校未来发展的必然趋势。

二国外写作在线自动评改系统的发展

所谓自动写作评改系统（Automated Essay Evaluation System，AEES），是指使用专门的计算机程序为教育环境中的作文自动评估与评分。自动写作评分是一种教育评估的方法，也是一种自然语言处理的应用。这个方向的研究始于美国上世纪60年代，其在国外主要经历了三个发展阶段。

第一阶段是第一套自动写作评分系统PEG（Project Essay Grade），由美国杜克大学Ellis Page等人于1966年开发（Page，2003），Page是第一个探索、记录和验证基于计算机的写作评估的人，因其开拓性的研究，Page被视为“自动写作评分系统之父”。Page使用回归模型，将文本的表面特征（如：文本长度、词长和标点符号）作为自变量，将论文得分作为因变量来衡量作文，不涉及内容、组织、体裁等。

第二阶段是由美国科罗拉多州皮尔逊知识技术公司于20世纪90年代研发的IEA（Intelligent Essay Assessor）、美国教育考试服务中心（Educational Testing Service，简称ETS）研发的 E-rater和美国新泽西州Vantage学习公司研发的IntelliMetric，这几个系统对写作的评估更为系统化，增加了词法、句法、语篇及结构的分析。IEA基于潜在语义分析（Latent Semantic Analysis）分析隐藏在文本中的潜在的语义结构（Semantic Structure），即所有词汇项（terms）的语义之和。基于对大量文本（通常为数千到数百万字）的统计分析，LSA得出高维语义空间，单词和段落在该语义空间中表示为矢量，待评分作文可以通过这些LSA矢量来表征，与已知写作质量的作文进行比较，它们的相似性通过语义空间中包含角度的余弦来度量，两文之间的角度越小，语义或概念内容则越相似，并基于它们的相似性得出作文评分（Similarity Score）;E-rater利用了统计技术、矢量空间模型技术和自然语言处理技术，既能像 PEG 那样评判作文的语言形式，又能像 IEA 那样评判作文的内容质量，还能对作文的篇章结构进行分析。E-rater 围绕这三个主要方面（即三个模块）分析和评判作文质量，分别是话语结构（Discourse）（即篇章结构）分析模块、句法多样性（Syntactic Variety）（即语言形式）分析模块、内容（Content）分析模块（唐冬宁，张威 2017）;IntelliMetric则更为先进，以基于大脑或基于思维的认知模型为基础，借鉴了认知加工，人工智能，自然语言理解和计算语言学的传统。能分析400多种语义、句法和话语层次的特征，能提供整体评分以及中心思想與一致性、文章展开与细节描述、文章组织与结构、句子结构、技巧及惯用规则这五大类特征的分数。

第三阶段是2000年以来，基于上述评分系统开发的My Access！、Criterion、Bayesian Essay Test Scoring System（BETSY）、Hot Online Essay Scoring和Writing Roadmap等系统，这几个系统不仅可以反馈写作分数、词汇和语法，还能够有针对性和个性化地反馈写作的内容质量、篇章组织及格式规范，因此它们在美国的课堂教学中也成为重要的形成性评价工具，但它们主要针对英语本族语学习者。

三国内写作在线自动评改系统的发展与不足

国内对写作自动评改系统的研究始于20世纪初，主要侧重介绍与探讨。最早涉足该领域者是梁茂成（2005），他在研制适合中国学生的英语写作自动评分系统方面进行了大胆的探索。李亚男（2006）将自动评改技术用于中国少数民族汉语水平测试的写作研究中。曹亦薇和杨晨（2007）是第一个使用潜语义分析技术对汉语作文进行自动评分研究的开创者，并得出潜语义分析在汉语写作的自动评分中起着至关重要作用这一结论。韩宁（2009）介绍并评价了美国英语考试及教学中最流行的七个写作自动评分系统。梁茂成（2011）开发了大型英语考试写作自动评分系统，即EFL Essay Evaluator1.0。该系统把1000多篇人工评分的中国大学生议论和说明文体的英语命题作文文本作为语料库，对前期的评分模型进行验证和优化，从而建立出系统架构，其主要围绕作文的语言质量、内容质量以及篇章结构这三个方面进行评判。