兰雅迪 王镌泽 王海波
摘要:本文论述了机器学习在英语作文批改中的应用,即在原有中国学习者语料库和NUCLE-release2.2语料库的基础上建立优秀英语作文数据库,首先将作文进行初步分类,根据语句词汇量的丰富度,深度等进行评判,算出语句各词出现的概率以及出现语法错误的概率,将相对概率小的结果标注实现自主批阅英语作文的功能。
关键词:机器学习;数据库;自主批阅
一、研究背景
互联网的出现帮助各行各业快速发展,在信息化的影响下各方面实现智能化成为时代发展的必然趋势,教育工作走在了智能化的前沿,英语成为最受大家关注的学科之一,受到了教育部门、教师、学生、家长的普遍重视。英语写作是英语教学中一个棘手的问题,由于我国师生比例相差较大,在英语批改方面存在以下问题,首先教师在工作中不能够保证对每位同学的作文进行批改,提出意见;
针对这一现状我们依靠对现有的语料库进行预处理实现计算机自主进行英语作文批阅。在减少老师教学压力的基础上,学生也可通过计算机自行评判英语作文的模型,了解自己错误,也在最大程度上帮助学者改正作文。
二、研究内容
机器学习涉猎概率论、统计学、算法复杂度等多领域学科,以求自主的获得新的知识并运用学习到的规律预测位置的事物。随着机器学习的出现以及语料库语言学的发展与更新,提高了人们自行处理自然语言的能力。国内的批阅系统依靠的主要是对语料库进行预处理。目前,主要的两个语料库分别是:中国学习者语料库以及NUCLE-release2.2语料库,这两种语料库均包含人工标注。其中中国学习者语料库对中国英语教育更具有针对性,提供大范围学习英语的群体中进行语料库训练,训练英语范围包括中学英语、大学英语和四六级英语。
在进行英语作文评定时,首先搜集大量的英语优秀作文形成优秀作文数据库,根据数据库中的作文进行数据标准化处理。评判一篇作文时,根据作文是切题或跑题为判断依据,英语题目确定,切题作文的特点是词汇使用率大致相同,因此首先将作文进行聚类分析,区分出跑题作文与切题作文,这一部分主要考慮词汇。
第二部分进行语法检测,在后台语料库中进行匹配与改进,输出修改意见供笔者参考。
第三部分要进行语义检测,运用后台数据库对英语作文进行拟翻译,根据语义的通顺程度给出建议。笔者得到的结果是综合考虑到词汇的丰富程度、语法的正确度以及语义的通顺的等多个条件进行修改的意见。纠错系统的设计与分析流程图如下图所示:
三、数据分析:
我们针对批改系统进行了准确性测试,分别请10位英文教师对200份英语四六级作文试卷进行批阅,统计出作文成绩的均值与机器所算成绩作出比较,结果呈现如下:
以100份四级作文为例(15分满分),分别由教师评分与机体评分进行均值比较,结果如下所示:
教师评分 机体评分
9.61分 9.59分
以100份六级作文为例(15分满分),分别由教师评分与机体评分进行均值比较,结果如下:
教师评分 机体评分
7.02分 7.02分
由以上数据分析可以看出,教师评分与机体评分的相似程度吻合度极高,可见批改系统还是很理想的,可以进行后期批阅工作。
四、结语:
通过以上数据分析结果,可以看出机器自主的进行英语作文的批阅可信度较高,可以进行推广。极大程度的提高教师的教学效率,提高同学们可以清楚的认识自己的错误,提高自主学习效率。
参考文献:
[1]李艳玲,田夏春.iWrite 2.0 在线英语作文评分信度研究,2018:76-78.
[2]桂师春,杨慧中.中国学习者语料库[M].上海:上海外语教育出版社,2002:710-713。
[3]李悦,[D]英语作文辅助评阅系统中语法检查的设计与实现.中国科技大学,2015:10-22.
[4]张梅,英语论文自动评分系统探索[J]重庆大学学报.社会科学版,2005(3):95-97。
[5]HeiftT,Schulze M. Errors and intelligence in computer- assisted language learning: Parsers and pedagogues.Routledge,2007.
该论文支撑辽宁科技学院2018年省级大学生创新创业训练计划项目:《基于机器学习的英语四六级助考平台》