英语自动作文评分系统实现路径探析

2018-08-02 03:17夏林中罗德安张春晓张卫丰
深圳信息职业技术学院学报 2018年2期
关键词:神经网络自动特征

夏林中,罗德安,张春晓,张卫丰

(深圳信息职业技术学院电子与通信学院,广东 深圳 518172)

引言

中国社会的发展已深度融入世界发展的潮流中,其国际化程度越来越高。为此,中国英语学习的普及率也随之变得越来越广泛,从中国的小学开设了英语课程就可见一斑。目前,有关英语的测试非常之多,主要测试的是听、说、读和写四个方面,其中写的测试尤为重要。从统计的数据中观察发现学生的写作分数普遍偏低[1]。写作能够使英语知识不断得到巩固并内在化,有利于英语技能的全面发展。但是,英语写作又是学习者最感头痛的问题,究其原因,主要表现在两个方面:一方面,学生需要坚持由简到繁、主题多样、形式各异等原则进行大量的英语写作练习,这样会给每个指导教师带来巨大的批改工作量,从而很容易导致指导老师无法及时甚至无法给出批改反馈;另一方面,学生在练习写作时,若无法得到及时的反馈,其继续锻炼写作的动力就会不足。因此,开发英语作文自动批改系统就显得尤为重要。

从国家层面看,近年来中国每年中考和高考人数都达到千万量级,大学英语四、六级每年考试人次也达到了千万量级。对于这样大规模的考试,国家需要抽调大量的英语教师参加阅卷,这将耗费大量的人力、物力和财力。同时,由于阅卷的规模大,每个阅卷人需要超负荷阅卷,这会造成阅卷人身心俱疲,从而使得评分结果存在较大的差异。另外,每个阅卷人的主观喜好、水平、评判标准等方面都存在着差异,这会使得评分结果具有较大主观性[2-4]。英语自动作文评分系统则可以很好的解决以上所述人工阅卷的弊端。

英语自动作文评分(Automated Essay Scoring,AES)系统是指通过计算机软件对学生的作文进行自动评分,评分过程中没有人的干预[5]。AES的研究涉及到统计学、自然语言处理等技术。实现AES的路径有很多种,包括:(1)基于非文本相关特征的AES系统;(2)基于文本相关特征的AES系统;(3)基于统计分类方法的AES系统;(4)基于深度神经网络的AES系统。

1 基于非文本相关特征的AES系统

基于非文本相关特征的AES系统是依靠文章浅层语言学特征来给文章评分的,并未涉及到对文章内容的分析。早期的AES系统设计依据的就是非文本相关特征的分析,如Ellis Page开发的PEG(Project Essay Grader)系统[6,7]。由于文章的流畅性、文章的措辞、语句复杂度、用词准确性等特征无法用计算机直接评价,因此,该类系统使用间接度量指标来评价,该种方法可以称之为代理量度标准[8]。比如,文章的长度、句子数、用词准确性等特征就可以反映文章的流畅性;单词的长短变化、单词丰富度等特征就可以反映文章的措辞水平;句子的长短、介词和关系代词的运用等特征就可以反映文章的语句复杂度;拼写错误、时态准确性等特征就可以反映文章用词的准确性。

利用基于非文本相关特征的AES系统进行评分可分为两个阶段:第一阶段先由人工评分员对训练集中的作文进行打分,再确定非文本相关特征变量,特征变量的值由计算机通过分析得出,再将特征变量与人工评分一起用标准多元回归进行计算,最后得出预测回归方程中每个特征变量的系数;第二阶段通过计算机计算需要评分的作文的各个特征变量值,再将特征变量值代入预测回归方程计算出作文的最终得分。非文本相关特征主要可分为词法特征和句法特征,具体情况如表1所示。

表1 非文本相关特征Tab.1 Non text related features

基于非文本相关特征的AES系统在试验中取得了较好的成绩,如Page最新的实验结果与人工评分在多元回归相关性上达到了0.87[9]。但是因该系统无法对作文内容本身进行评价招致了诸多指责。同时,该系统无法反馈与写作内容相关的指导性建议,从而限制了其应用范围。再就是该系统的评分方式很容易被考试者利用,如写出文理不通的长文、主题不相关的内容、用很多与写作内容不相关的长单词等方式来获取好的成绩。

2 基于文本相关特征的AES系统

所谓文本内容相关特征指的是文本的词性标注、文法结构、蕴含主题、浅层语义等特征,基于文本相关特征的AES系统就是针对上述特征来分析文本,从而得出分数。

在对文本内容相关特征进行分析之前,首先要对文本进行词性标注(part-of-speech tagging, POS tagging)。所谓词性标注就是将文本中每个词的词性进行标记,为随后的各项文本内容分析打好基础。文本的词性统计结果本身也是对文本进行评分的一个重要特征集(如:动词、形容词、连词、介词等词的数量和使用频率就能很好的反应文本内容的质量)。具体标注方式如图1所示,图中CC代表并列连词,RB代表副词,IN代表介词,NN代表名词,JJ代表形容词。

图1 文本词性标注示例Fig.1 Examples of text tagging

计算机并不能像人类一样处理自然文本信息,因此需要将自然文本信息转换成计算机能够理解和处理的形式。为此,需要找到合适的表达形式来将自然文本信息表达成计算机能够进行文法分析的形式。这是一个极具挑战性的研究领域,因为要用形式化语法来描述无限句子集合的结构。经过多年的发展,目前主要用依存句法来分析句子的结构,用语义依存分析来分析句子的内在语义。在作文评分过程中,句子语法是否正确和句子结构是否合理是两个重要的评分特征量;同样,基于语义依存分析的句子语义也将作为自动评分的重要特征量。

在作文评分过程中,是否对题是一个很重要的特征,上述基于非文本相关特征的AES系统最大的缺陷就是无法判断作文蕴含的主题是否对题。为此,建立一种能够挖掘作文“隐含”主题的主题模型就非常重要。隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)主题模型是由Blei等人提出,他是一种概率生成模型[10]。该模型认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。在这个过程中,目标是求解服从多项式分布的“文档-主题(参数X)”和“主题-词项(参数Y)”两个参数。LDA是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息。

浅层语义分析(Latent Semantic Analysis, LSA)是一种自然语言处理中用到的方法,LSA也叫做潜在语义索引( Latent Semantic Indexing, LSI),顾名思义,是通过分析文章来挖掘文章的潜在语义。LSA的基本假设是,如果在同一篇文章中,有几个词同时出现,则可以推想这几个词在语义上具有一定的相似性。LSA利用大量语料来构建一个矩阵,矩阵中的每一列代表一篇作文,每一行代表一个词,而矩阵交叉处的值是该词在该文档中出现的频次,然后在此矩阵上使用奇异值分解来保留列信息的情况下减少矩阵行数,在此之后,通过使用矩阵行向量来计算每两个词语的相似性,计算值越接近于1则说明两个词语越相似,越接近于0则说明越不相似。

基于文本相关特征的AES系统有很多,如智能作文评审器(Intelligent Essay Assessor, IEA)[11-12]、E-rater[13]、IntelliMetric[14]等。IEA是由Pearson集团研制而成的,它主要的理论基础就是LSA,同时该系统也包含了对作文写作技巧等评价。E-rater系统已经商用,使用的部门是美国教育考试中心,该系统由三个模块组成:文法模块、论述模块和主题模块。IntelliMetric是由Vantage Learning公司研制而成的AES系统,该系统要分析超过300种特征变量,主要包括五大类:作文的整体性、文章的组织结构、主题相关性、句子结构、技巧和约定(如拼写、语法、大小写、标点符号等是否符合标准)。

3 基于概率统计分类方法的AES系统

最早将概率统计分类方法用于AES系统的是Larkey和Croft[15],在他们的系统中使用了贝叶斯独立分类方法和最近邻分类方法,并提取11个文本复杂度特征用于线性回归的计算,取得了一定成果。后来由美国教育部投资开发了贝叶斯作文测试评分系统(Bayesian Essay Test Scoring System,BETSY),该系统的开发者是美国马里兰大学的Lawrence Rudner[16]。BETSY系统在分类文本前会依据训练集的内容、形式等多方面抽取一个大型特征集,再以多元伯努利模型和多项式模型根据特征集对文本进行分类(在分类过程中:事先将不同分数段确定为不同的类,比如分为优、良、合格、不合格四类)。

2002年,Ruder&Liang采用了462篇作文作为训练集来训练BETSY,选取了80篇作文作为测试集,最终获得了80%的准确率[16]。BETSY不但整合了PEG、E-rater、IEA等系统的优点,同时还具有自己的特点。因此,该系统不仅用在作文分类上,还用在其它不同领域。值得一提的是该系统是目前唯一可免费下载使用的自动作文评分系统。

4 基于深度神经网络的AES系统

近些年,深度神经网络在自然语言处理领域得到了广泛的应用,如词性标注、组块/命名实体识别、语义角色标注、信息检索、知识库修复、语言生成、语言理解、文本分类、单关系问答、机器翻译等。2016年,Kaveh等构建了一个基于CNN-RNN-LSTM(Convolutional Neural Network,CNN; Recurrent Neural Network, RNN; Long short-term Memory, LSTM)的深度神经网络自动作文评分系统,取得了非常好的结果[17]。同年,Dimitrios等使用深度神经网络构建了自动作文评分系统,且取得了不错的成果[18]。2017年,王耀华等构建了基于文本语义离散度的神经网络自动作文评分系统,并分析了多元线性回归、CNN和RNN-LSTM三种方式的优缺点[19]。深度神经网络自动作文评分系统构建框架如图2所示。

图2 深度神经网络自动作文评分系统构建框架Fig.2 Framework for AES based on deep neural network

作文是由单词构成,单词之间并不是独立同分布的关系,而是相互依存的关系。一篇作文可以看成是由单词或句子序列组成的,而RNN是最善于处理序列数据的。但在实践中,一篇作文的句子较多,因此在时间轴上网络层次会很深,而RNN会因为时间轴层次深而导致梯度消失现象,为了克服RNN的不足,人们引入了LSTM单元,他可以很好的克服梯度消失现象。同样,为了能更好的刻画作文的局部特征,人们引入了CNN,CNN能够根据窗口的合理设置来捕捉难以靠人类感官发现的局部特征。一个基于CNN+RNN+LSTM自动作文评分系统的构建框架如图3所示。

图3 基于CNN+RNN+LSTM自动作文评分系统框架Fig.3 Framework for AES based on CNN+RNN+LSTM

从图3中可以看出,从文本输入到最后得出分数共经过了向量表示层、卷积层、循环层、平均值层和带Sigmoid激活函数的线性输出层。下面将从这几个层的工作细节做一个简要的介绍。

(1)向量表示层。计算机无法像人类一样处理自然语言,所以我们需要将自然语言转换成计算机能处理的数字形式。一种简单的方式是用one-hot词向量来表示单词,在图3中,分别由一个 dLT维向量表示,因此向量表示层输出可以表示为式(1)的形式。

式(1)中的 E 是词嵌入矩阵,开始训练时会人为设置一个初始值,在训练过程中会不断被修正。其中。

式(2)中的 W 和 b 分别是神经网络的权值参数和偏置参数。

(3)循环层。循环层可以是RNN结构,也可以是LSTM结构。虽然LSTM结构要比RNN结构复杂,但其效果却要好很多,因此循环层采用LSTM结构。在图3中没有标出LSTM结构的细节,实际上LSTM单元内部分别由输入门、遗忘门、输出门、状态器等组成,通过这种方式就可以对信息进行保持和遗忘。具体描述LSTM细节的公式如式(3)、(4)、(5)、(6)、(7)、(8)所示。

在式(3)、(4)、(5)、(6)、(7)、(8)中,xt和 ht分别代表时刻输入和输出向量;Wi、Wf、Wc、Wo、Ui、Uf、Uc和 Uo代表权重矩阵;bi、bf、bc和 bo代表偏置向量;符号代表元素依次相乘;代表Sigmoid函数。

(4)平均值层。循环层的输出结果可以表示为,H=(h1,h2,……hM)这些结果将会当作输入值传输给平均值层,再做平均,可得如式(9)的结果。

带Sigmoid激活函数的线性输出层。平均值层的输出结果将会传输到线性输出层,并经过如式(10)的运算,从而将结果映射到作文得分空间。Sigmoid激活函数的作用是将线性输出层的值线性转换到0~1之间。

式(10)中的 x 代表MoT(H),W代表权重参数,b是偏置参数。

上文介绍了基于CNN+RNN+LSTM自动作文评分系统的工作过程,但在使用该系统进行自动作文评分之前还有非常重要的一个步骤,就是准备好作文训练集对系统进行训练,只有在训练过程中才能逐渐的确定系统的所有未知参数。为此,只有训练好的系统才能执行自动作文评分任务。

5 AES系统存在的问题及发展方向

本文梳理并简要介绍了目前使用效果较好的几种基于不同路径的AES系统,他们都有一个共同的特点:必须准备一个作文训练集(包含至少100篇以上已评分的作文),每个系统都需要通过训练集的训练来建立评分模型。因此,不同AES系统的共同实质就是:计算机依据一定数量已评分作文的某些数据特征建立数据特征与得分之间的映射关系,再抽取未评分作文的数据特征通过之前建立的映射关系获得评分。通过实践表明,不同的AES系统的评分结果与人工评分结果都达到了很高的相关度。

由于AES系统并不能像人类一样鉴赏作文,因此也招致了很多批评。尤其是基于深度神经网络的AES系统招致的批评最多,因为该系统是通过神经网络抽取数据特征,他无法像其他系统那样可以对抽取的数据特征进行合理的解释。还有就是AES系统无法对已评分作文进行有建设性的意见反馈,而对于语言学习者来说,具体而富有建设性的反馈意见是促进其作文写作水平的重要参考。当然,AES系统在大规模考试中已发挥着重要的作用,在一些重要的英语考试中,可以被接受的方式是采用一个人工评分员和一个机器评分员各自独立工作的模式。

未来AES系统发展的方向是:首先,基于传统统计学的AES系统优势的情况下,结合基于深度神经网络的特点构建融合各自优点的AES系统,在达到增强系统评分准确度的同时,还要提高系统评分机理的可解释性;其次,优化不同纬度的数据特征,找到能够合理解释且与作文优劣强相关的数据特征;再次,AES系统不仅是一个评分系统,还是一个对英语教学有巨大帮助的英语作文写作练习系统。

猜你喜欢
神经网络自动特征
根据方程特征选解法
自动捕盗机
如何表达“特征”
神经网络抑制无线通信干扰探究
不忠诚的四个特征
抓住特征巧观察
让小鸭子自动转身
自动摇摆的“跷跷板”
关于自动驾驶
基于神经网络的拉矫机控制模型建立