党丽琼 刘文辉
摘要: 主观试题自动评阅系统涉及人工智能、模式识别以及计算机自然语言理解等复杂的系统知识,是无纸化考试中自动阅卷系统的设计难点。为此,仿照传统考试过程中人工阅卷的基本思路,把主观试题的自动评阅问题分解为知识库的构建、概念相似度的计算以及语句结构的处理等三部分,并把一种改进的多因素语义相似度算法引入到概念相似度计算,详细设计了主观试题的计算机自动评阅模型。实例运行结果表明,占总数70%的计算结果在可接受误差范围内。
关键词: 主观试题; 多因素; 自动评阅; 语义相似度
中图分类号:TP399 文献标志码:A 文章编号:1006-8228(2012)05-09-04
Study of automatic marking method of subjective questions based on semantic similarity
Dang Liqiong1,2, Liu Wenhui3
(1. Shan Xi Spaceflight Employee University School of Computer Science, Xian, Shanxi 710100, China;
2. Xian Shiyou University; 3. 95092 units)
Abstract: It is because of the automatic marking of the subjective questions involving artificial intelligence, pattern recognition and computer understanding of natural language that has become a difficulty of the automatic marking in the design of paperless examination. By simulating the basic train of thought of the manual marking in traditional test, automatic marking of the subjective questions is divided into three parts which are construction of knowledge, calculation of concept similarity and handle of sentence of structure, then a kind of improved multi-factor semantic similarity calculation is introduced to solve the concept similarity, finally a computer automatic marking model of subjective questions is designed in detail. Practical operation results show that seventy percent of the total results within the acceptable error range.
Key words: subjective questions; multi-factor; automatic marking; semantic similarity
0 引言
随着计算机网络技术的飞速发展,无纸化考试逐渐成为一种新的发展方向。在无纸化考试系统的开发中,除一般试题库的设计、试卷的组织管理以及考试过程的控制外,计算机自动阅卷模块的设计是一个重要的内容。对于完善的无纸化考试系统来说,自动阅卷模块除了提供客观试题自动评阅的功能,还必须能够解决好主观题自动阅卷问题。由于考生答案的灵活性和多样性,主观题评阅会涉及到人工智能、模式识别和计算机自然语言理解等多方面系统知识,这就使得主观题的自动评阅成为自动阅卷设计中的技术难点。
1 主观试题自动评阅
主观试题的自动评阅可以理解为的计算机对自然语言的处理过程。汉语与英语等欧式语言相比,在结构和组织方式上有很大的不同,计算机对汉语言的处理不仅要考虑词与词之间的关系,还应考虑句子结构之间的关系,因此计算机处理上相比欧式语言难度增加了很多。目前在这方面有代表性的算法有:李辉阳等根据有限概念领域中简述文字的自动判读过程提出的一种基于关系的带权匹配技术[1],文献[2]提出的基于动态规划的语句相似度算法,黄康等提出的基于带权概念网络进行分层的语义相似度技术[3],文献[4]从汉语自然语言理解的语义分析角度提出的一种基于概念图理论的模糊含权概念图法,以及文献[5]引入模糊理论中严格贴近度的概念来计算贴近程度得分等。
上述方法研究的重点主要集中在三方面:一是知识库的构建,如有限领域、概念图、概念网等;二是句子结构的处理,如动态规划法、分层语义相似度技术等;三是相似度算法,如带权匹配技术、模糊概念图法、基于模糊理论的严格贴近度法等。一般来说,研究重点的不同,带来的只是结果上的差异,而最有效的解决方案应该是针对待处理的问题构建最合适的知识库、选择最佳的句子结构处理办法、确定最有效的相似度算法。本文研究的对象是在线考试系统中简单问答题的自动评阅技术;主要思路是从简答题题型结构出发,基于试题答案知识点构建识库,重点分析研究知识库中概念节点的分布特点,最终采用由概念到句子的主观试题自动评阅处理流程。
2 知识表示
实现主观试题的自动评阅功能的一般方法是,通过访问领域知识库,使计算机获得特定领域内的专业知识,并在此基础上计算标准答案和学生答案之间的相似度,由此可见,领域知识库的创建对于自动评阅的实现是极其必要的,建立高效的领域知识库是计算机自动阅卷的基础。语义相似度的计算需要建立相应领域的知识库,实现起来不但工作量大、且需要耗大量的时间进行比较和匹配,这样对于在线考试系统的实时性来说不太现实。因此,对于特定领域问题的解决应该具体问题具体分析,采用的特定的、符合实际的解决方法。目前,受限于自然语言理解领域的研究水平,直接让计算机从自然文本中获得专业领域知识还比较困难,所以一般采用计算机辅助的人工录入方式来建立领域知识库。
本文以计算机基础课程为例,分析了大量的试题的结构和特点,从试题答案组织结构关系出发,对知识库的构建提出了以下原则。
⑴ 借鉴“知网”、“概念图”等概念词典,仅采用简单的“包含”、“从属”、“类同”等结构来表示概念之间的关系。
⑵ 对于概念的描述尽可能详细,且必须以试题答案所涉及到的知识点为基础,进行全面的扩展,必要时包含同义词描述等,以保证知识库能涵盖所有可能的概念组合,并能根据考生答案实际进行扩充。
⑶ 知识库从上到下,概念表示应该由抽象到具体,由简单到详细,以保证最底层的概念尽量达到“义元”级别,即概念的最小意义单位。
如图1所示为本文基于以上原则建立的计算机基础知识库树状结构局部图。
图1知识库树状结构局部图
3 概念相似度计算
与概念相似度密切相关的一个概念是语义距离(semantic distance),通常认为它们是概念关系特征的不同表现形式。可以建立一种简单概念词相似度用来描述概念树中两个节点之间的语义接近程度,对此,一般最常用的是刘群提出的以《知网》为基础的相似度计算方法[6]:
⑴
式⑴中p1和p2表示两个概念节点,是树状结构中两节点间的最短距离,α是一个调节参数,表示相似度为0.5时的路径长度,一般取1。
Agirre和Rigau在利用WordNet计算英文词汇相似度时,同时引入了层次树深度和密度的因素[7]。他们认为,在词语层次树中,路径长度相同的两对节点,深度越大(远离树根)的节点对,语义距离越小。因为深度越大,语义网中的概念分类由小到大,由抽象逐渐到具体,也意味着分类越详细。例如,对于路径长度相同的2对节点来说,由于他们所处区域的节点密度较高,所以语义距离相对较小。因为概念密度越大,表明对概念的描述越详细。如图1中,同层节点“处理器”、“总线”、“系统软件”和“应用软件”路径距离相同,但“处理器”、“总线”所处的区域节点密度较高,从一般常识来看,“处理器”、“总线”之间的语义相似度要高于“系统软件”和“应用软件”。因此,计算概念相似度,只考虑节点之间的路径长度这个单一因素显然不够合理,应同时考虑概念网中概念节点之间的纵向和横向因素,以及他们之间的相互制约量,综合考虑,才能取长补短,消除概念之间的相似度计算结果的影响因素。
本文采用文献[8]提出的一种改进的多因素语义相似度计算方法:
⑵
式中,调节参数,l(p1,p2)为分别遍历概念网中节点p1,p2到达其最小公共父结点所历经的父结点(包括最小公共父结点)数的最大值。w(p1,p2)为p1,p2所在层概念数的最大值。在该调节参数的作用下,当w(p1,p2)增大时,密度因素对相似度的贡献值大;而当p1,p2离最小公共父结点较远,深度因素对相似度的贡献值较大。同时式中约定当p1,p2的父结点和最小公共父结点相同,且同层只有p1,p2两个节点时,调节参数为0.5。
4 句子相似度的处理
一般认为句子相似度计算包括两个步骤[9,10]:首先,经过词的结构相似度计算,得到句子的结构相似度,然后,在句子结构相似的基础上,再进行句子语义相似度的计算。
设学生答案和标准答案分别表示为P和Q,P经自动分词处理后可表示为概念向量组P=(P1,P2,…,Pm),Q包含的概念向量为Q=(Q1,Q2,…,Qm)。
则句子相似度的处理过程具体可分为以下两个步骤:
⑴设MPQ为句子P,Q的相似度特征矩阵,则有:
⑶
式中,元素Sim(pi,qj)表示词语pi和词语qj间的语义相似度,通过前文讲述的概念相似度公式计算获得。矩阵中的每一行表示句子P中的某个词语与句子Q中所有词语的语义相似度。
⑵对矩阵中的每一行取最大值max(S(pi,qj)),即求句子P中的某个词语和句子Q中的所有词语的语义相似度的最大值,得到词语最大组合序列,则句子P中所有词语与Q句子之间的语义相似度可以表示为:
⑷
5 自动评阅模型的实现
前面我们分析了主观试题的自动评阅问题的基本思路,按照一般教师的试卷评阅过程,把该过程分解为概念语义相似度的处理和句子语义相似度的处理两个流程,对每一个流程给出了解决方案。下面将在上述基础上给出主观试题计算机自动评阅模型的流程。
Step1:初始条件
已知标准答案A,将其表示为关键词序列:A=(a1,a2,…,an);考生答案B,表示为关键词序列:B=(b1,b2,…,bn);标准分值S0。
除了上述的条件,模型还需要如下中间条件:
⑴ 考生答案中包含多少个符合条件的知识点;
⑵ 考生答案知识点与标准答案之间的相似度。
Step2:算法
⑴ 查找匹配符合条件的知识点
提取考生答案中每一个关键词,对照先前创建好的知识库,从底层开始遍历搜索,当找到对应的概念节点时,提取该节点的高度、密度等属性信息,并保存起来,搜索完成后即可进行相似度的计算。
⑵ 求解概念相似度
概念相似度的计算采用语义相似度技术。设标准答案A可以表示为知识点的一个向量组A=(a1,a2,…,an),则通过概念语义相似度算法可得到任意两概念之间的相似度Sin(ai,bj),其中i=1,2,…,m,j=1,2,…,n。
⑶ 求解语句相似度
把标准答案A与考生答案B之间的相似度表示为概念相似度矩阵,并把该矩阵处理为[0,1]区间上的一个归一化相似度量。
Step3:确定最后评分结果
为了考虑不同知识点对得分的贡献值,本文把不同知识点对得分的贡献值以权值λj的形式分配到模型中。λj由出题老师在出题的时候根据不同重点的知识点直接给定,其中j=1,2,…,n。通过加入权值因素,本文最终确定的主观试题自动评分结果如下:
⑸
式中。
图2主观题自动评阅模型流程图
按照上述思路,本文确定的主观试题自动评阅模型流程如图2所示。
6 实例分析
下面我们以一个实例来介绍试题的评阅过程。设试题题干为:“计算机硬件由什么组成?”。
考生甲的答案是:“计算机硬件包括处理器、总线、存储器、输入输出设备”。
考生乙的答案是:“计算机硬件包括CPU、总线、内存、硬盘、键盘、显示器”。
考生丙的答案是:“计算机硬件包括中文分词技术和语义相似度技术”。
标准答案是:“计算机硬件包括处理器、总线、存储器、输入输出设备”。标准答案关键词序列为:“计算机;硬件;处理器;总线;存储器;输入输出设备”。
考生甲的答案可表示为关键词序列:“计算机;硬件;处理器;总线;存储器;输入输出设备”。
考生乙的答案可表示为关键词序列:“计算机;硬件;CPU;总线;内存;硬盘;键盘;显示器”。
考生丙的答案可表示为关键词序列:“计算机;硬件;中文;分词;技术;语义;相似度”。
设该题总分为10,对应关键词权值序列为:“0.3;0.3;0.2;0.2”。本文把考题中出现的关键词如“计算机;硬件”按权值为0对待。最终计算结果如下:
考生甲=10*(1*0.3+1*0.3+1*0.2+1*0.2)=10。
考生乙=10*(0.919*0.3+1*0.3+0.524*0.2+ 0.512*0.2)=7.1729=7。
考生丙=10*(0.01*0.3+0.01*0.3+0.01*0.2 +0.01*0.2)=0.01=0。
从计算结果可以看出,考生甲得满分,符合判断结果;考生乙的答案与标准答案只有一个关键词是相同的,而其他答案只能算是与标准答案相近或者相似,最终模型给出7分,其结果基本与人工评阅结果相近;至于考生丙的答案完全与标准答案无关,但模型给出了一个很小的分值,这是因为,对于完全不相关的概念,本文认为它们之间的语义距离为无穷大,直接按照相似度为0.01处理。
为了进一步验证模型实际应用效果,本文随机抽取100道简答题进行在线测试,并与的人工阅卷结果作了对比。统计结果表明,其中完全符合的8例,不完全符合但准确率90%以上的40例,准确率在80%-90%之间的18例,完全不相关的8例,剩余26例。如果认为准确率在80%内都算合格,则有66例符合评阅要求,占总数66%,不符合要求的34例,占总数34%。其中
相对误差=[2]。
实际上对于与标准答案完全不相关的答案来说,经过分词处理后并没有在知识树网络结构中找到对应的节点。本文把这些词按照未登录词进行处理,同时把这些词录入到未登录词数据表中,在后续的试题管理中,由老师根据知识树网络结构需求进行处理,对于符合要求的添加到知识库中,不合要求的则抛弃,这样当下次考生给出相似答案的时候,系统会相应给出更为准确的计算结果。本文处理后剩余4道试题的评阅结果在相对误差范围内,这样符合要求评阅结果的比例上升为70%。
7 结束语
本文分析了目前在线考试系统自动评阅技术的现状,从知识库的构建、概念相似度的处理、语句相似度三个方面给出了主观试题自动评阅问题的详细解决方案,并详细介绍了计算机自动评阅模型的流程。在模型的设计和实现过程中以计算机基础课程为研究对象,基于试题答案的组织结构构建了专业领域知识库,并采用一种改进的多因素语义相似度算法来解决概念级相似度求解问题。实例运算结果表明,模型基本实现了主观试题的自动评阅功能。
参考文献:
[1] 李辉阳,韩忠愿.有限领域简述文字的自动判读及其在CAI中的应用[J].
计算机工程与应用,2002.
[2] 高思丹,袁春风.语句相似度计算在主观题自动批改技术中的初步应
用[J].计算机工程与应用,2004,14:132~135
[3] 黄康,袁春风.基于领域概念网络的自动批改技术[J].计算机应用研
究,2004.11:260~262
[4] 刘佩琦,李增智.基于模糊含权概念图的主观题自动方法研究[J].计
算机应用研究,2009.26(12):4565~4567
[5] 李晓捷.基于Web的在线考试管理系统的设计与实现[D].(天津)天津
工业大学,硕士学位论文,2005.12.
[6] 刘群,李素建.基于"知网"的词汇语义相似度计算[C].第三届汉语词汇
语义学研讨会论文集,2002:59~76
[7] AGIRREE, RIGAU G. A Proposal for Word Sense Disambiguation
Using Conceptual Distance[EB/OL].1995.12.11
[8] 蒋溢,丁优,熊安萍等.一种基于知网的词汇语义相似度改进计算方
法[J].重庆邮电大学(自然科学版),2009.21(4):533~537
[9] 党丽琼,刘文辉.一种改进的多因素语义相似度计算方法[J].计算机
现代化,2011.10:24~26
[10] 穗志方.语句相似度研究中的骨架依存分析法及应用[D].博士学位
论文,北京大学,1998.5.
[11] Sergei Nirenburg,Constantine Donmashnew,Dean J Grannes.
Two Approaches to Matching in Example-based Machine Translation[C].In:Proceedings of the fifth International Conference on Theroretical and Methodological in Machine Translation of Natural Languages,1993:47~57