周小平,王 佳,马晓轩
(北京建筑工程学院电气与信息工程学院实验教学中心,北京 100044)
基于VSM的电子作业反抄袭系统的设计与实现
周小平,王 佳,马晓轩
(北京建筑工程学院电气与信息工程学院实验教学中心,北京 100044)
针对日益严重的电子作业抄袭现象,在分析目前的电子作业抄袭检测系统无法将抄袭作业拒绝于提交之前等问题的基础上,阐述了一套基于空间向量模型TF-IDF方法的电子作业反抄袭系统。该系统在对电子作业进行分词的基础上,使用空间向量模型的TF-IDF方法计算文本相似度,并依据相似度判断电子作业是否有抄袭行为。为了解决因短时间内大量的电子作业提交而导致系统崩溃,系统使用MSMQ建立电子作业提交队列,同时,系统还提供了电子作业评阅及系统设置等功能。系统使用时间优先策略来认定抄袭作业,有效地从抄袭者和被抄袭者上杜绝了抄袭行为。
电子作业反抄袭系统;抄袭检测;文本相似度;向量空间模型
随着计算机的普及和计算机技术在教学中的广泛使用,以及电子文档的易编辑性和阅读性强,越来越多的教师希望作业以电子文档的方式提交,尤其在一些以培养应用型人才为主的高等学校的计算机相关专业的课程中,几乎所有的实践课程成果都需要有电子版作业或电子版实践报告,作业电子化使得学生作业整洁、易读、美观和易于保存。然而,电子作业的可修改和复制性,使得电子作业的抄袭更为简单。越来越多的学生更愿意使用简单的“复制”、“粘贴”等操作来“完成”一份作业,并且这种现象在大多数的高校中愈演愈烈[1]。它极大地影响了学习的主动性,对学习效果产生了巨大的负面效果。因此,如何有效地防止电子作业抄袭成为了计算机教学,尤其是实践教学亟需解决的一个问题。
在高等教育大众化的背景下,依靠人工检测电子作业的抄袭行为,不仅效率低下[2-4],而且,准确度也不高。因此,建立行之有效的针对实践教学环节的电子作业抄袭检测系统,已成为了高校教学质量管理的一个重要课题。目前,部分高校的教学质量管理部门对电子作业抄袭检测也做了相关研究。参考文献[5]阐述了一种基于数据库注册机制,以句子为单位进行相似度判断的电子作业抄袭检测系统。它将所有学生提交的电子作业上传到数据库中,通过计算2篇文档间的内容相似度来判断该作业是否有抄袭行为。但是,该系统不能拒收存在抄袭可能的作业。参考文献[6]提出了一种建立在网络邮件系统基础上的,基于句子相似度的电子作业抄袭检测技术,其也存在着相似的问题,且依赖于邮件系统。
在研究大量实践教学电子作业存在抄袭现象的基础上,本文设计了一套电子作业反抄袭系统。该系统以词为单位对文档进行分词,用向量空间模型表示文本,用TF-IDF公式计算分词权重,根据向量间夹角余弦计算相似度。它在电子作业提交之前,检测该电子作业,并拒绝接收重复率过高的电子作业,起到了很好的反抄袭作用。
大量的实践教学电子作业表明,目前电子作业抄袭现象主要体现在:对一篇或多篇文档的直接复制和简单组合,即通过直接复制一篇或多篇文档中的相关段落和句子,经过移位、删除、同义词替换、少量内容增加等简单加工、组合而成。对于抄袭者而言,其能很轻易地“完成”一个作业;对于评阅教师而言,由于这些作业都是针对同一个实验完成的,其本身就具有一定的相似性,因此,其很难通过作业内容判定该作业是否有抄袭行为。甚至,在认定2份作业存在抄袭行为的情况下,评阅教师也无法确切地知晓哪份作业是原始作业,哪份作业是抄袭作业。因此,系统在设计和实现时,主要存在的难点和核心问题有:
(1)抄袭检测。绝大多数抄袭作业都是将多份作业进行“组装”而成,而且,此类抄袭现象人工很难辨别。因此,本系统需要能够检测出一份作业抄袭自另一份或者多份其它作业的行为,从而才能有效地杜绝抄袭现象。本系统采用向量空间模型的TF-IDF方法来计算文本相似度。TF-IDF综合考虑了不同的词在所有文本中的权重信息[7],它能够检测出电子作业是否“组装”自一份或多份已提交的电子作业。
(2)抄袭对象认定。抄袭对象认定是指当2个或者多个作业之间存在抄袭行为时,认定哪份或者哪几分是抄袭作业的方法。当2个电子作业相似度很高时,在不采用任何策略的情况下,人工或者计算机将很难或不可能判断哪个电子作业是属于原创的。本系统采用时间优先策略进行抄袭对象认定。它假定先提交的电子作业不可能抄袭后提交的电子作业。也即,当2个电子作业相似度很高时,后提交的电子作业将被视为抄袭作业,并被拒绝提交到系统中。
在分析并合理解决上述问题的基础上,综合考虑电子作业及其提交过程中的实际情况,本文设计了一个电子作业反抄袭系统,其工作流程如图1所示。当学生提交电子作业后,电子作业依据其提交时间的先后顺序进入作业提交队列,等待系统对其进行作业抄袭检测。作业抄袭检测模块依次从作业提交队列中取出电子作业进行检测。作业抄袭检测模块依据已成功提交的电子作业,采用向量空间模型的TF-IDF算法计算相似度[8-10]。当某份电子作业所检测的相似度大于设定阈值时,系统认为该电子作业有抄袭行为;否则,该作业为原创。当电子作业抄袭检测完毕后,系统将检测结果提交给检测结果处理模块进行处理。检测结果处理模块将抄袭检测结果反馈给提交人员,并将原创的电子作业加入到电子作业数据库。
图1 系统结构及工作流程图
很多实验都要求在课程结束之前提交电子作业,由于各方面因素,大量的电子作业都会是在最后几分钟内提交。它要求系统能够在短时间内接收大量的电子作业,并进行抄袭检测。在硬件等资源有限的情况下,为了避免系统在短时间内因需要处理大量的电子作业而瘫痪,本系统使用队列(作业提交队列)对短时间内提交的大量的电子作业进行缓冲。
电子作业依照提交时间顺序进入作业提交队列。作业抄袭检测模块从作业提交队列中取出电子作业,并进行抄袭检测。由于队列采用“先进先出”的原则,因此,作业抄袭检测模块能够依照作业提交的先后顺序进行抄袭检测,符合时间优先策略,从而有效地认定抄袭作业。
作业抄袭检测模块从作业提交队列获取等待检测的电子作业,并进行抄袭检测。由于多数抄袭属于一抄多的行为,因此,系统需要能够检测出一份作业抄袭来自一份或者多份作业的情况。文本相似度是表示2个或多个文本之间匹配程度的一个度量参数,相似度大,说明文本相似程度高,反之文本相似度低。本文使用文本相似度来衡量电子作业是否有抄袭已提交的电子作业的行为。
本文使用向量空间模型的TF-IDF方法计算文本相似度,其单词权重计算使用如下公式计算。TF值通过单词在电子作业中出现的次数除以该文档的词数得到。IDF由总文件数除以包含该词的文件数目,在将得到的商取对数得到。词语的权重由公式TF× IDF获得[11]。
作业抄袭检测模块以已成功提交并保存到电子作业数据库的电子作业为依据,计算从队列获取的电子作业同数据库中电子作业的相似度。当相似度达到给定的阈值[12]时,系统将认为该电子作业有抄袭行为,反之,则认为该作业为原创作业。
作业抄袭检测模块将检测结果反馈给检测结果处理模块。对于抄袭行为的电子作业,系统将反馈客户端作业提交失败,并将该电子作业置入抄袭作业文件夹。对于原创作业,系统将反馈客户端作业提交成功,并将该电子作业置入电子作业数据库。
在作业提交之前,教师可以根据实际情况,对电子作业进行相关设置,如实验名称设定、抄袭阈值设定等。当作业提交完成后,教师可以通过系统提取电子作业,并对电子作业进行评阅。
电子作业数据库是抄袭检测的依据,它存储成功提交的电子作业,以及相关的基础设置信息等。系统使用Microsoft SQL Server 2008作为电子作业数据库。
本系统使用Visual Studio 2010实现。在作业提交队列上,系统使用Microsoft Message Queue(MSMQ)实现。MSMQ是在多个不同的应用之间实现相互通信的一种异步传输模式,无论是发送方还是接收方都不用等待对方返回成功消息,就可以执行余下的代码,因而大大地提高了事件处理的能力。在抄袭检测模块上,系统使用SOGOU提供的互联网词库作为语料库,使用盘古分词法对电子作业进行分词;然后,使用TF-IDF算法计算词语权重,使用向量空间模型计算相似度;最后,依据所得的相似度同设定的阈值对比,判定电子作业是否有抄袭行为。检测结果处理模块根据所得的检测结果,将相关信息写入电子作业数据库,同时,将结果反馈给客户端。此外,系统还为教师提供了电子作业评阅及系统设置功能。该系统运行的部分界面如图2所示。
目前,系统在几门课程的实践课程中进行尝试使用,从所提交的电子文档来看,内容重复现象较以往有巨大的改观。
图2 作业提交结果界面图
针对日益严重的电子作业的抄袭现象以及其给教学效果带来的巨大负面影响,本文在分析现有电子作业抄袭检测系统的基础上,设计并实现了基于空间向量模型的电子作业反抄袭系统。系统使用sogou语料库,采用盘古分词对电子作业进行分词。为了能够识别出大量存在的一份作业抄袭自多份作业的情况,系统使用IF-IDF方法计算各分词权重,最终使用空间向量模型,计算文本相似度,并判断该电子作业是否具有抄袭行为。
系统引入MSMQ建立作业提交队列,以解决因短时间内大量上传的电子作业而导致系统瘫痪。它是提交作业和抄袭检测的一个缓冲,有效地缓解了系统高负荷下的压力。为了有效认定抄袭作业,系统使用时间优先策略,也即系统认为先提交的作业不可能抄袭后提交的作业。时间优先策略使得原创作业得以提前提交,抄袭作业能够被拒绝提交。它能有效地从抄袭者和被抄袭者上杜绝抄袭行为。
(References)
[1]王怀成.德国关注学生抄袭因特网现象[N].光明日报,2006-11-23,(12).
[2]史彦军,腾弘飞,金博.抄袭论文识别研究与发展[J].大连理工大学学报,2005,45(1):50-57.
[3]黄俊花.反抄袭检测系统的研究与实现[D].沈阳:沈阳理工大学,2010.
[4]金振蓉.学术不端文献检测系统研制成功[N].光明日报,2009-03-17:(6).
[5]秦新国,丁国勇.作业抄袭检测系统的设计与实现[J].南京审计学院学报,2008,5(3):86-88.
[6]秦新国.电子作业管理和作业抄袭检测技术研究[D].南京:南京师范大学,2007.
[7]冷强奎,秦玉平,王春立.基于句子相似度的论文抄袭检测模型研究[J].计算机工程与应用,2011,47(24):199-201.
[8]郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258.
[9]费洪晓,康松林,朱晓娟,等.基于词频统计的中文分词的研究[J].计算机工程与应用,2005(7):10-11.
[10]沈斌.基于分词的中文文本相似度计算研究[D].天津:天津财经大学,2006.
[11]汪忠国,吴敏.基于向量空间模型的题库相似度检查算法[J].计算机系统应用,2010,19(3):213-216.
[12]刁力力,王丽坤,陆玉昌,等.计算文本相似度阈值的方法[J].清华大学学报:自然科学版,2003,43(1):108-111.
Design and implementation of an anti-plagiarism system of e-homework based on vector space model(VSM)
Zhou Xiaoping,Wang Jia,Ma Xiaoxuan
(School of Electrical and Information Engineering,Beijing University of Civil Engineering and Architecture,Beijing 100044,China)
To solve the issue of increasingly severe e-homework plagiarism,an anti-plagiarism system of e-homework based on the vector space model(VSM)and TF-IDF is given,after the analysis of current counterparts systems.Similarity is calculated by VSM theory and TF-IDF after the segmentation of the e-homework,and plagiarism is decided by the similarity.Microsoft Message Queue(MSMQ)is used to relieve the stress of the system,and e-homework and system configuration functions are supported.Also time preference tragedy is used.And it can validly avoid the plagiarism from both copycat and the source.
anti-plagiarism system of e-homework;plagiarism detection;similarity of text;vector space model(VSM)
TP302
A
1002-4956(2013)03-0109-03
2012-06-30
北京市优秀人才项目(2011D005017000002);北京建筑工程学院校教育科研项目(Y11-20)
周小平(1985—),男,福建寿宁,硕士,实验师,主要从事计算机应用技术和建筑信息建模等的研究.
E-mail:zhouxiaoping@bucea.edu.cn