蔡 黎,彭星源,赵 军
(中国科学院 自动化研究所 模式识别国家重点实验室,北京 100190)
考试作为考查学生学习和掌握知识的程度及评估学校教学水平的手段由来已久,并且还会在今后相当长的一段时间内存在下去[1]。
通过作文可以检测应试者综合运用语言的能力。然而,大规模作文阅卷面临两大难题: 其一,阅卷需要耗费大量人力、物力等资源;其二,评判作文质量具有很强的主观性,阅卷的信度和效度不强[2]。
辅助作文评分是计算机技术在语言测试方面的最新应用,也是语言技术发展的必然趋势。近几十年来,随着计算机硬件和软件性能快速提高,自然语言处理等技术获得了长足的发展,国外一批作文辅助评分系统相继问世,这两个长期困扰大规模作文阅卷的难题有望得到解决。
辅助作文评分中核心的问题是:
(1) 机器可用的、高信度的评分特征的选取[2];
(2) 如何最大限度利用训练语料特征,建立有效的模型。
本文针对这两个问题,提出了自己的创新:
(1) 一篇作文从文本挖掘,提供的主要信息是词和词序。李亚男[3]提取了一些浅层特征,利用多元回归进行预测。但是浅表特征的相关度不高,而且非常不稳定。本文利用自然语言处理和信息检索技术,从作文写作水平和主题相关两个方面,通过词和词序的信息提取了稳定、有效的特征。
(2) 在利用特征回归建模中,本文提出利用训练样本分数分布和一位评卷员的评分,作为特征,提出分段回归和三重分段回归。利用有效的信息建模,在节省一半阅卷量的情况下,达到精度在97%以上(图1)。
图1 中文辅助评分系统流程图
本文按如下方式进行组织: 第2节介绍了几个著名的辅助评分系统以及分析了它们的优缺点,第3节介绍了利用自然语言处理技术和信息检索技术,提取作文文本主题和写作水平的特征,第4节介绍和分析了实验设计以及实验的结果,第5节对本文以及已有工作的问题进行了总结,同时展望了进一步的工作的方向。
一个优秀的作文辅助评分系统最重要就是能从作文文本中,挖掘出反映作文质量的、机器可用的特征。
PEG[4-5]是在1966年EllisPage应美国大学委员会的要求而研发的。和李亚男[3]提取的特征相似PEG主要依靠对文章的浅层语言学特征的分析(例如,作文长度、介词、关系代词等、词长的变化等等),然后对作文进行评分。基本上,没有涉及写作水平、句子结构、文章内容、文章措辞等高级特征。最后该系统无法给出对学生有意义的指导意见。
IEA[6-7]是20世纪90年代末由Pearson Knowledge Analysis Technology公司利用潜在语义分析[2](Latent Semantic Analysis)技术开发的。潜在语义分析,是1988年S.T. Dumais等人提出的一种新的信息检索代数模型,是用于知识获取和展示的计算理论和方法,它使用统计计算的方法对大量的文本集进行分析,从而提取出词与词之间潜在的语义结构,并用这种潜在的语义结构,来表示词和文本,达到消除词之间的相关性和简化文本向量实现降维的目的。潜在语义分析的基本观点是: 把高维的向量空间模型表示中的文档映射到低维的潜在语义空间中。这个映射是通过对项/文档矩阵的奇异值分解(SVD)来实现的。
IEA使用潜在语义分析技术将作文按照它所包含的词投射成能够代表作文意义的数学形式,然后从概念相关度和内容相关的含量两个方面与已知写作质量的作文进行比较,从而得出作文的评分。
E-rater[8-9]是由Educational Testing Service(ETS)的Burstein等人在20世纪90年代末开发的。据我们了解,E-rater也是目前商用效果最好的辅助评分系统,已经在GMAT,TOEFL考试中商用。E-rater系统主要有5个模块组成,其中3个模块用来抽取特征,一共67个特征,这些特征包括: 句法、篇章、主题等。其中的自然语言处理技术采用的是微软自然语言处理的工具包来完成。第4个模块,是用来构建模型,对67个变量进行筛选,建立回归方程。第5个模块是用来计算待评分文章的最后得分,即提取作文显著特征的特征值,代入回归方程计算最后得分。
IntelliMetricTM[10-11]是第一套基于人工智能(AI)的作文评分系统。它的开发商Vantage Learning应用了人工智能、自然语言处理和统计技术,使得IntelliMetricTM能够模仿人工阅卷,对作文的内容、形式、组织和写作习惯进行分别进行评分。IntelliMetricTM需要对已经评好分数的作文集进行训练,构建模型。对于要评阅的作文,IntelliMetricTM提取了作文中包括语义、句法、篇章3个方面的300多项特征,代入模型评分。其效果与评卷员的一致率达到了97%至99%。
另外,IntelliMetricTM能够评阅多种语言的作文,如英语、西班牙语、以色列语和印度尼西亚语等等。
一个优秀的作文辅助评分系统最重要就是,能从作文文本中,挖掘出反映作文质量的,机器可用的特征。从E-rater的文献[8-9]中,我们知道E-rater使用了微软自然语言处理的工具包来提取比较深层次的特征,如句法识别句子的复杂度等。同样,我们利用哈尔滨工业大学信息检索实验室*http://ir.hit.edu.cn/提供的自然语言处理包,也做了相关实验,但是实验的效果都不理想。原因可能主要是训练语料和测试语料的领域不相关引起的。
本文利用自然语言处理和信息检索技术,从作文写作水平和作文主题两个方面,创造性地通过词和词序的信息提取了稳定、有效的特征。在建模时,利用样本分数分布的特征和一位评分员的评分的信息,创造性的提出三重分段回归模型。
作文写作水平特征,反映的是考生使用语言的能力。
衡量一个作文的写作水平有多个方面,最重要的就是遣词造句。现在的中文自然语言处理技术还不能以很高的精度提取句式特征,不能精确判断句中词语搭配的好坏等,我们就主要从词方面入手,本文提取的作文写作水平特征是基于以下的常理: 越常见的词,越是易用词;越不常见的词,越是难用词。下面是作文写作水平特征提取的算法。
算法:作文写作水平特征提取
输入: 分词后的大语料L,分词后的作文E,词频阈值limit。
输出: 作文E的写作水平特征值S。
方法:
1. 对大语料L进行词频统计,词Wi的词频记为fwi。
2. 对于每个Wi∈L,如果fwi 3. 对于每个Wi∈L,计算Wi的使用难度系数λwi=1/logfwi。 4. 作文E的写作水平特征为该篇文章所有词的使用难度系数之和: 为文章的词数 5.返回S。 作文主题特征,反映的是考生作文内容的扣题程度。主题在作文评分中的重要性不言而喻。因为我们测试的对象是汉语作为第二语言学习者,所以作为文不对题, 背范文的现象还是很严重的。我们请两位经验丰富的评卷员对随机抽取的500篇作文,进行跑题作文和非跑题作文的分类。分类结果如表1所示。 表1 评卷员对作文跑题的分类结果 从表1中可以看出跑题作文的比例还是较大的。用现在的自然语言处理技术,提取整篇文章的语义基本上很难做到的。在这个情况下,主题特征就成为了衡量文章内容很重要的特征。 作文主题特征提取,Burstein[4]利用作文内容向量和预测作文的内容向量的相似度作为判别作文是否跑题的标准。 这样做的问题是: (1) 现代考试的作文题目是多样的,不是所有作文题目都是文字的,比如看图说话就没法用以上的算法; (2) 没有利用词序的信息。 为了解决以上两个问题,我们利用信息检索里面两个成熟的技术: (1) TF: TF(Term Frequency)是一种用于信息搜索和信息挖掘的常用加权技术。TF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF词频指的是某一个给定的词语在该文件中出现的次数。 (2) PageRank: PageRank的发明者通过对网络超链接结构和文献引文机制的相似性进行研究,把引文分析的思想借鉴到网络文档重要性的计算中来,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为“网页A投了网页B一票”,增加了网页B的重要性,最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化,而这个重要性的量化指标即PageRank值。在实际计算PageRank值时,除了考虑网页得票数(即链接的纯数量)之外,还要分析为其投票的网页的重要性,重要的网页所投之票有助于增强其他网页的重要性。简单的说,PageRank就是要从链接结构中获取网页的重要性,而网页的重要性决定着同时也依赖于其他网页的重要性。 PageRank的基本思想主要基于“从许多优质的网页链接过来的网页,有很大可能还是优质网页”的回归关系,来判定所有网页的重要性。 我们把这两项技术背后的思想应用到作文辅助评分中: (1) 一个词的TF值越大,表明该词越是主题相关的词; (2) 词序的信息,即词语搭配是很难利用的,因为词序的变化太多了。我们转化PageRank的思想,来利用起词序的信息。我们可以把PageRank的思想转换为,越重要的词出现在越重要的词语搭配中,越重要词语搭配中的词越重要。 图2 词与词联系的网络示意图 第一点很好理解。我们重点讲第二点,如有两个词,我们就把这两个词比作网页A和网页B。如果两个在一起共现,我们就比作网页A和网页B有链接。如图2所示,词的权重为词的TF值,词与词的链接权重为词与词的共现次数。这样我们就可以利用PageRank算法。 算法:作文主题特征提取 输入: 分词和词性标注后的N篇作文样本语料,分词后的预测作文E,PageRank算法的迭代次数D,共现窗口大小M。 输出: 作文E的主题特征值S。 方法: 1. 计算语料中,词Wi主题权值fwi: 上式中tfi是第i个词的词频。 2. 去掉辅助功能的词,只保留名词、动词、形容词。 3. 以M为窗口,统计语料中,两个词的共现次数lij。 4. 过滤,共现次数小于5的词对,统计余下共现次数的总和Sum。 5. 计算共现的权重lij=lij/Sum。 5. 利用PageRank算法,迭代D次。 fwi=fwi+lij×fwj 7. 返回S。 下面作文主题特征提取的算法。 由于现在自然语言处理技术,并不能从作文文本中挖掘出体现作文质量的所有特征, 挖掘出的特征相关度也不是很高。所以我们希望从其他方面挖掘一些能够提高预测精度的特征。 我们从18 000篇作文中,随机挑选出994篇。我们可以从表2中看出作文分数的分布,大约有80%的作文集中在2.5~4.5分数段。我们利用分数分布的这个特征,来提高我们的预测精度。我们提出利用分段回归的思想进行建模,下面是分段回归的算法。 表2 作文分数分布 算法:分段回归 输入: 训练作文的特征和分数,预测作文的特征,分段阈值T。 输出: 预测作文的分数。 方法: 1. 对所有的训练作文进行回归,得到回归系数fall。 2. 对大于分段阈值T的所有训练作文进行回归,得到回归系数fhigh。 3. 对小于分段阈值T的所有训练作文进行回归,得到回归系数flow。 4. 把要预测的作文特征值输入到回归系数fall,得到预测的分数。 5. 如果预测分数大于T,把要预测的作文特征值输入到回归系数fhigh;如果预测分数小于T,把要预测的作文特征值输入到回归系数flow,这样得到的分数为最后预测的分数S。 6. 返回S。 后面的实验表明,辅助评分系统的评分精度,还不能达到实用的要求。那我们能否利用辅助评分系统来减轻阅卷的工作量呢? 我们的思路是借用E-rater的做法,试卷的最终得分由辅助评分系统的评分和一名评卷员决定。同先前有两名评卷员的做法一样,如果辅助评分系统跟评卷员的评分相差大于1分,就请第二名评卷员评分。现在,问题就变成了如何使得辅助评分系统的评分和评阅员的评分相差大于1分的比例最小? 我们的思路是更好的利用训练语料,训练语料中的每篇作文,其实有三个分数,两个评分员的评分,和最终的分数。我们就是充分的利用这三个分数,训练三个分段回归模型,我们称之为三重分段回归模型。这样的话,一个测试作文提取特征,代入到这个三重分段回归模型中,就会得到三个分数。如果这三个预测分数中,有一个分数和评阅员的评分小于1分,就取两个分数的中间值作为最终得分,不用再请评阅员评分了。否则,就请另外评阅员评阅。 实验中,我们使用的语料来自2008年5月在内蒙古举行的少数民族汉语考试。我们从18 000篇真实考生作文中, 随机挑选了968篇录入。作文总分为6分。考试作文的题目是读一段短文, 然后写 感想。这种半开放的考试题目在汉语考试中很常见。我们用772篇用作训练,196篇用作测试。训练试卷的分数,我们用的是作文的最终评分,即有两个评卷员评分,如果两个评卷员的评分相差大于1分,就请一个资深评卷员评分,最终分数是以资深评卷员评分为主,综合前面两个评卷员的评分。如果两个评卷员的评分相差小于或等于1分,就取两个评阅员评分的中间值作为最终分数。 实验中,评测中采用了传统的精确度。我们定义精确度为,预测分数与实际分数相差在0.5分以内的比例。我们对语料进行统计发现,两个评卷员评分完全相同的只有不到40%,就是说,有大于60%的作文,两个人评分的相差是超过0.5分的。因此,我们把预测分数和实际分数的误差定义为0.5分,这个值是完全可以接受的。 此外,我们还考虑了相关度,在提取特征后,建模手段是回归分析。回归分析是要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。相关度代表的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。相关度的计算方法和数学的协方差一样。 实验中,我们首先做了特征有效性实验,然后是建模实验。实验中,对作文文本进行分词和词性标注,我们使用的是哈尔滨工业大学信息检索实验室*http://ir.hit.edu.cn/提供的自然语言处理包。 4.3.1 作文写作水平特征实验 在进行作文写作水平特征抽取实验时,我们采用《人民日报》(1998年1~6月)的语料作为大语料库。测试语料是772篇作文语料,772篇这个数量,足够能保证,我们特征相关度的稳定性和有效性。为了防止稀疏性的词频阈值,我们通过实验来选取,表3反映了特征相关度随着词频阈值变化的情况。 表3 作文写作水平特征测试结果 从表3可以看出,阈值对作文写作水平特征相关度的影响不是特别明显, 作文写作水平特征相关度在不同阈值下还是比较稳定的。从图中可以看出,作文写作水平特征在阈值50~70时,达到相对比较高的阶段。本文就取阈值处于50时的作文写作水平特征值,用作后面建模。 4.3.2 作文主题特征实验 在进行作文主题特征的抽取实验时,我们用上一节的500篇语料,利用作文主题特征提取算法来获得主题特征。实验中,我们的共现窗口的取值为5。我们通过实验来选取利用词序关系的PageRank算法的迭代次数,表4反映了特征相关度随着迭代次数变化的情况。 表4 PageRank迭代次数对作文主题特征测试结果 从表4中可以看出,作文主题特征的相关度随着迭代次数的增加而减小。基于以上分析,本文就取迭代次数为1的作文主题的特征值,用作后面建模。 4.3.3 建模 为了验证分段回归算法的有效性,在建模实验中,我们同时实验了线性不分段回归和线性分段回归算法。分段回归的阈值,我们取3.5,因为3.5正好可以把样本语料分为差不多对等的两份。用772篇训练语料所抽取的特征和最终的评分,训练回归参数,196篇作测试。 表5 回归和分段回归的测试结果 从表5中可以看出线性分段回归比线性不分段回归在相关度和精确度上都有了明显的提高,相关度提高约0.05,精度提高约3%。但是,即使这样,辅助评分系统达到的最好精度为46.11%。这样的精度,显然仅靠辅助评分系统不能达到实用的要求。 接下来的我们通过一个实验,验证三重分段回归模型的有效性。在196篇测试语料上,分别用分段回归和三重分段回归。实验结果见表6。 表6 分段回归和三重分段回归的测试结果 从表6中可以看出通过三重分段回归模型,可以使辅助评分系统与评阅员的评分小于1分的比例,提升7%,达到84%以上。这样,只有16%的试卷,需要评分员重新进行评分。 表7 三重分段回归的测试结果 最后,为了验证我们系统的精度,我们就把辅助评分系统的评分当作一个评阅员的评分,结合一个真实评分员的评分进行预测。如果辅助评分系统的评分和一名评卷员相差小于1分,就取和评卷员评分最接近分数取平均分作为最后得分。如果相差大于1分,就请第二名评卷员评分,我们实验中取测试试卷的真实最终得分。我们通过实验得到最后预测分数的精确度和相关度。 从表7中可以看出分数的精确度已经达到97%以上,这个精度完全可以使用。我们计算一下,在达到完全可以实用的精度下,我们的作文辅助评分系统所能够节省的劳动力? 我们就假设100份试卷,如果不用我们的系统,两个评阅员首先评阅的阅卷量为100×2=200(人×卷)。根据我们的统计,大约有13.5%试卷需要资深评分员评阅,资深评分员评卷的薪酬是普通评分员的3倍,那么100份试卷需要付出的阅卷量为200+13.5×3=240(人×卷)。如果利用我们的系统,一个评分员首先评分的阅卷量为100×1=100(人×卷)。根据表6的数据,大约有16%的试卷,需要评分员重新进行评分,这16%中又有 13.5% 要资深评分员评分,那么100份试卷需要付出的阅卷量为100+16+0.135×16×3=122.3(人×卷)。从上面的分析中我们可以看出,利用我们的辅助评分系统,在只用大约一半阅卷工作量的情况下,精确度达到97%以上。这足以说明辅助评分系统的价值。 作文辅助作文评分是一个复杂的过程,需要总结前人的经验并不断汲取新的理念、利用最新的技术。这样才能不断地提高机器的精度。 本文利用统计自然语言处理和信息检索的技术和思想提取特征,建模时利用样本作文分数的分布,提出三重分段回归模型。在节省大约一半阅卷量的情况下,达到97%以上的精确度。 相对英文作文辅助评分系统,中文作文辅助评分系统还处于起步阶段,未来还有很多的工作需要完善。我们就提出以下几个方向: (1) 利用更高级的自然语言处理和信息检索技术,从作文文本中挖掘出更多跟作文质量好坏相关的特征; (2) 防作弊技术,中文作文辅助评分如果要想在商业应用上取得成功,很完善的防作弊技术是必不可少的; (3) 在更大规模的语料上进行测试,现在我们的测试语料只是100篇级的,要真正达到商用,必须在更大规模的语料上测试。 [1] 李莉,张太红. LSA在中文短文自动判分系统中的应用研究[J].计算机工程与应用,43(20):177-180,2007. [2] 梁茂成,文秋芳. 国外作文自动评分系统评述及启示[J].外语电话教学,No.117,2007. [3] 李亚男. 汉语作为第二语言测试的作文自动评分研究[M].,北京语言大学,硕士论文,2006. [4] Page E. B. Project Essay Grade: PEG. In M. D. Shermis & J. Burstein (Eds.) [J]. Automated essay scoring: A cross-disciplinary perspective (pp. 43-54). Mahwah, NJ: Lawrence Erlbaum Associates,2003. [5] Page E. B. Computer Grading of Student Prose, Using Modern Concepts and Software[J]. Journal of Experimental Education, 2004, 62, 127-14. [6] Landauer, T. K., Laham, D., Foltz, P. W.. The intelligent essay assessor: Putting knowledge to the test. [C]//Paper presented at the Association of Test Publishers Computer-Based Testing: Emerging Technologies and Opportunities for Diverse Applications conference, Tucson, AZ.2001. [7] Landauer, T. K., Laham, D., Foltz, P. W.. Automated scoring and annotation of essays with the Intelligent Essay Assessor[J]. In M. D. Shermis & J. Burstein (Eds.), Automated essay scoring: A cross-disciplinary perspective (pp. 87-112). Mahwah, NJ: Lawrence Erlbaum Associates, Inc.2003. [8] Burstein, J. The e-rater scoring engine: Automated Essay Scoring with natural language processing[J]. In M. D. Shermis and J. C. Burstein (Eds.), Automated Essay Scoring: A cross disciplinary approach (pp. 113-121). Mahwah, NJ: Lawrence Erlbaum Associates, 2003. [9] J. Burstein, K. Kukich, S. Wolff, C. Lu, et al. Braden-Harder, and M. D. Harris. Automated scoring using a hybrid feature identification technique[C]//In Proceedings of the 17th international conference on Computational linguistics, pages 206-210, Morristown,NJ, USA, 1998. Association for Computational Linguistics. [10] Elliot. IntelliMetric: from here to validity[J]. In Mark D. Shermis and Jill C. Burstein (Eds.). Automated essay scoring: a cross disciplinary approach. Mahwah, NJ: Lawrence Erlbaum Associates,2003. [11] Elliot, S. M. IntelliMetric: From here to validity[C]//Paper presented at the annual meeting of the American Educational Research Association, Seattle, WA,2001.3.2 作文主题特征
3.3 分段回归
3.4 三重分段回归
4 实验结果及分析
4.1 实验数据集简介
4.2 评测指标
4.3 实验及分析
5 结语