杨 威,张莹鑫,薛二虎(长春师范大学计算机科学与技术学院,吉林长春 130032)
智能在线考试系统的设计与实现
杨 威,张莹鑫,薛二虎
(长春师范大学计算机科学与技术学院,吉林长春 130032)
传统的在线考试系统对客观题的评判较好,但不能进行主观题的判断,因此也就不能给学生及时答复,无法减轻教师的阅卷负担。中文语义相似度是通过对文本进行分词、过滤掉停用词后计算语义相似度和语法相似度,再由两者的加权平均计算得出。目前中文相似度主要应用于信息检索、自动问答、自然语言处理、数据挖掘等领域,还可以将中文语义相似度的方法应用于在线考试系统中。本文通过对“一种用于中文文本查重的双因子相似度计算”进行改进,实现了两文本的语义相似度的计算,然后将其应用于在线考试系统的主观题评判上。智能考试系统实现了智能考试与阅卷,扩大了语义相似度的应用范围,节约了教育的成本,减轻了教师阅卷的负担,提高了教学效率。
在线考试系统;文本相似度;语义相似度;语法相似度;中文分词
随着网络的普及以及学生接受教育方式的改变,学生了解自己掌握知识情况的方式也发生着改变,不再只是依靠参加纸质考试,然后由教师阅卷,再由教师评讲的方式来了解自己对知识的掌握情况。在线考试系统能很好地适应这种改变的趋势,但是传统的在线考试无法很好地进行主观题的评判,而对主观题的评判就涉及中文语义相似度计算[1-3]。为了迎合这种趋势以及减轻教师压力、方便学生快速掌握自己的学习情况、降低教育成本、使学生不受时间与地点的约束而进行考试,同时方便教师在网上编卷和查看学生成绩,有必要开发基于中文语义相似度计算的在线考试系统。
学生在互联网上通过智能在线考试系统进行测试,可以了解自己对知识的掌握情况。在线考试系统在给予学生及时、准确答复的同时,也大大减轻了教师阅卷的负担。在主观题的判断上使用中文语义相似度的方法来比对学生答案与标准答案,解决了传统在线考试系统此方面的弊端。
中文语义相似度计算首先通过对文本进行分词[4],然后过滤掉停用词,最后进行语法相似度和语义相似度的计算[2]。语法相似度计算是将过滤后的分词按顺序排列,然后对这两个序列提取最大公共子串,根据最大公共子串在两文本序列之和中所占比例求出;语义相似度计算是通过分词计算词语在文本中的权重,根据权重提取特征词,再由两文本的特征词的重合度计算得出。
2.1 考生模块
普通考生可以进行在线考试,查看考试成绩等操作;注册考生还可以查看考过试卷的信息及试卷答案和解析。考生模块流程如图1所示。
2.2 管理员模块
管理员可以添加、修改试卷信息,管理考生信息、网站以及个人信息。管理员模块流程如图2所示。
图1 考生模块流程图
图2 管理员模块流程图
智能在线考试系统中采用的分词方法是用基于PHP语言的SCWS(Simple Chinese Word Segmentation)简易中文分词系统,它是一套基于词频词典的机械中文分词引擎,经小范围测试准确率在90%~95%之间,能够满足系统的需求。该系统的使用方法是将SCWS的类实例化,具体代码如下:
require ’pscws4.class.php’;
$scws = new PSCWS4(’gbk’);
$scws->set_dict(’etc/dict.xdb’);
$scws->set_rule(’etc/rules.ini’);
$scws->send_text($text);
$tmp = $cws->get_result();
文本相似度的计算包括语义相似度的计算与语法的相似度计算两部分。语义相似度计算,首先通过对文本进行分词,然后过滤掉停用词,最后进行语法相似度和语义相似度的计算。语法相似度计算,将经过过滤后的分词按顺序排列,然后对这两个序列提取最大公共子串,根据最大公共子串在两文本序列之和中所占比例求出。
最大公共子串的计算方法:(1)计算第一个文本序列与第二个文本序列的公共子串个数C1,如图3所示,公共子串为C1=3。(2)计算第二个文本序列与第一个文本序列的公共子串个数C2,如图4所示,公共子串为C2=4。
图3 第一个文本序列与第二个文本序列的公共子串
图4 第二个文本序列与第一个文本序列的公共子串
比较C1和C2的大小,最大公共子串的取值为较大的那个。本文通过对“一种用于中文文本查重的双因子相似度算法”[2]进行改进,实现了两文本的语义相似度的计算。语义相似度计算是通过分词计算词语在文本中的权重,根据权重提取特征词,再由两文本的特征词的重合度计算得出。文本相似度计算流程图如图5所示。
图5 文本相似度计算流程图
语义相似度f1的计算公式为:
(1)
其中,n为交叉集中元素的个数,Wki为文本1特征串中第k个词的权重,Wkj为文本2特征串中第k个词的权重。N为文本1和文本2特征串元素的总个数。
语法相似度f2的计算公式为:
(2)
其中,c为公共子串的个数,a为文本1中词的个数,b为文本2中词的个数。
文本相似度f的计算公式为:
f=∂×f1+β×f2.
(3)
其中,∂为语义相似度的权值,β为语法相似度的权值。本系统中采用∂=0.7,β=0.3。
用该文本相似度计算方法得出的结果如表1所示。
表1 文本相似度计算结果表
5.1 前台界面设计
考生可以进行注册,密码采用md5加密处理,注册后由系统自动发送邮件通知注册成功。考生注册后可以登录考试系统,查看试卷内容、试题答案、答案解析、自己的答案、自己在该次考试中的成绩以及成绩排名等信息。考生前台界面设计如图6所示。
图6 考生前台界面
5.2 后台界面设计
管理员必须进行登录才能进行操作,每个后台页面都有对管理员身份进行验证的功能。管理员后台界面设计如图7所示。
图7 管理员后台界面
中文语义相似度主要应用于信息检索、自动问答、自然语言处理、数据挖掘等领域。本文将其应用于在线考试系统主观题的评判上,能够很好地实现在线考试系统的智能考试与智能阅卷。智能在线考试系统扩大了语义相似度的应用范围,节约了教育的成本,减轻了教师阅卷的负担,提高了教学的效率。
[1]金希茜.基于语义相似度的中文文本相似度算法的研究[D].杭州:浙江工业大学,2009.
[2]刘小军,赵栋,姚卫东.一种用于中文文本查重的双因子相似度算法[J].计算机仿真,2007(12):313-314.
[3]鲍军鹏,沈钧毅,刘晓东,等.自然语言文档复制检测研究综述[J].软件学报,2003(10):1753-1760.
[4]Hightman.SCWS中文分词[EB/OL].(2008-03-08)[2013-04-01].http://www.xunsearch.com/scws/docs.php#pscws4.
Design and Implementation of the Intelligent Online Examination System
YANG Wei, ZHANG Ying-xin, XUE Er-hu
(College of Computer Science and Technology, Changchun Normal University, Changchun Jilin 130032, China)
The traditional online examination system judges the objective questions better, but it can not judge the subjective questions, so it can not give the student timely reply and can not alleviate the burden of the teachers. Semantic similarity of Chinese is calculated by word segmentation, filtering out stop words, and calculating the semantic similarity and grammatical similarity, and then calculating the weighted average of them. At present, Chinese similarity is mainly used in information retrieval, automatic question answering, natural language processing, data mining and other fields. However, the method of Chinese semantic similarity can also be applied to online examination system. In this paper, we improve the semantic similarity of two texts by improving the “two-factor similarity measure” for checking the weight of Chinese text, and then apply it to judge the subjective questions of online examination system. The intelligent online examination system achieves intelligent examination and marking, expands the application of semantic similarity, saving the cost of education, reducing the burden of teachers marking, improve teaching effectiveness.
online examination system;text similarity;semantic similarity;grammatical similarity; Chinese word segmentation
2017-01-20
吉林省教育厅“十二五”科学技术研究项目“基于智能算法的遥感影像分类技术研究”(吉教科合字[2015]第361号);长春师范大学校内科研基金项目“基于聚类集成的多分辨率遥感影像分类技术研究”(长师院自科合字[2012]07)。
杨 威(1979- ),女,副教授,从事智能信息处理研究。
TP311
A
2095-7602(2017)04-0026-05