梁斌 陈家湖 冯晓锋 周富肯
摘 要:查重抄袭分析是在计算机系教学领域中尤为重要的一个研究支线,近年来,越来越多计算机门类的教评工作者采取了线上批改方案以此进行教学工作的展开,故代码的查重抄袭分析工作开始逐步成为了业内焦点,由此引申出的分析模型系统自然备受瞩目,目的是为每一名使用者完成其自身独立的数据模型构建,产出相对便利教学工作的优势输出。本文将对目前主要查重以及抄袭分析的研究方向,应用等方面进行展开讨论,通过比较和分析的手法完成查重分析目前的应用趋势以及未来展望。
关键词:查重;抄袭分析;数据模型;类比分析;综述;性质
1 数据模型及公式
抄袭检测分析系统中,使用者的数据内容主要有以下几点,提交人的学号,学生姓名,提交时间,成功提交题目数量,总得分,代码内容等。由此完成抄袭检测抄袭分析的首要工作。每一位使用者录入的数据模型不尽相同,故此将会根据每人相应的数据内容得出不同的分析数据,但这份分析报告也并非为独立个体,将会划分入统计系统中,以直观图表形式显示。上述讨论为分析的基本信息,当然对于使用者数据部分不仅于此,根据不同试题提交时间的不同,可以对每一道题目进行时间间隔的分类管理,从而得出这一题的大致耗时为多久,同时计算成功提交题目的数量,计算在相应时间间隔中,一次即提交成功的题目数量占比为多少,这些使用者的数据皆能良好反应抄袭率的起伏变化。同时代码内容的录入也能够成为抄袭分析的数据支撑量,从而在页面上精准显示相应的计算分析内容,使得教评工作人员直观得出需求数据。
对于一个学生来说,该名学生的平均查重率 为
学生的抄袭率 为
在不同的课程中有不同的题型,对于选择填空这种有固定答案的题目,要将分数权重控制在20%以内,着重分析编程题这种不止一种写法的题目情况。
一个学生在一次题目集的作业中的分数score为
2 抄袭分析的具体实现
抄袭分析是为了找出那些学习编程只是为了应付作业,敷衍了事的学生。在进行分析之前,我们要分析下这类的学生学习习惯。一般来说,对于认真学习的学生的定义是在老师布置好作业后,会第一时间去完成作业,会对学习抱有热情,这样的学生在代码提交平台上的具体表现就是会大量的做编程题目,对于一些难题会出现多次提交,但是不会是一次就得到正确答案的。而对于敷衍了事的学生,老师布置的作业从来都是漠不关心,甚至很多时候都会拖到最后时刻逼不得已才去做的。只要抓住这种学生的做作业习惯很容易可以推断出实行抄袭的学生的作业特点为:
(1)作业提交的时间接近作业提交的截止时间。
(2)编程作业的代码的查重率会非常高。
(3)在短时间内多次提交作业,并且连续提交的通过率接近甚至等于100%。
抓住以上的三个特点就可以容易的指定出一条筛选抄袭作业的学生的规则,对于第一个提交时间接近截至时间,我们选择忽视掉,因为每个人的学习时间都不是固定的,作业晚提交也不能说他抄袭作业。
进行抄袭分析主要通过特点2和特点3来进行筛选:
对于一个学生,首先利用代码提交表查找这个学生在这次作业中提交正确的题目,然后根据查重表找出这些题目查重率是100%的题目(查重率100%不代表这个人是抄袭的,因为对于某些题目的解题方法都存在相同的解法)。找出查重率为100%的题目后,根据提交时间将这些题目进行排序,如果相邻的两个题目在短时间内(10分钟到30分钟)进行提交并且一次就通过了,那么的话这个学生的做的这个题目就很大概率是抄袭的,这个短时间在不同的难度的作业应该是可以进行适当的进行改变,对于大多数的题目来说,经过多次实验短时间内的时间设置在15分钟内最为合适。
抄袭分析的结果与实际结果的误差与误差分析:
将实际手动进行筛选抄袭的题目与抄袭分析得出的结果进行比较后,两者之间的误差在10%以内,说明虽然实现的逻辑简单但是得到的结果也是有效的。会得到这种效果的原因在于:
认真编程的学生通常会完成一道题目就会提交一次,出错就会改进后再提交直到题目通过为止,而敷衍了事去抄袭作业提交的学生会从别人或者从网上得到答案后直接进行复制粘贴点击提交就完成一道题目。这样做得到的结果就是短时间内产生大量的正确提交。然后这样就会被我们设置的规则捕捉到,进而找出抄袭的题目。
之所以会产生10%以内的误差经过分析得出的主要原因有一下几点:
(1)在某些作业集中会存在个别题目十分简单,这类题目的查重率会非常之高,此时设置的15分钟的时间限制就会出现差错。
(2)存在一些学生会将题目全部完成再进行提交。
3 结束语
随着互联网逐步跨越性发展,大数据时代的不断深入,越来越多的高校采取了完全网络化的课程方式,这种现象在计算机系学科中尤为突出,将网络化以及数据化应用于日常教学中,例如课程上的设置以及作业的安排。在这一背景趋势下,题库网站的出现成为了热门焦点,其中抄袭查重分析的出现使得这一门类的学业辅助网站更添竞争力,拥有着更加广阔的发展前景。据此基于本文的讨论内容我们可以轻易得出,目前的市场应用场景处于一个稳步上升期。我们在本文上述讨论内容中,介绍了查重的基本性质,分类,作用等,同时完成了代码分析的数据处理工作详述,构建了用户数据模型,完成更有效的精准分析工作,于此这一的工作我們期望更多同行研究人员能够朝着这一方向开展更为详尽的探讨以及更为深入的研究。
参考文献
[1] 方兴林.博弈论视野下大学生课程作业抄袭现象研究[J].《安庆师范学院学报:社会科学版》,2016,35(3期):128-130.
[2] 何晓柯.大学生毕业论文抄袭现象透析及遏制对策[J].现代物业(中旬刊),2011:35-37.
[3] 王明昊.程序代码相似性检测在论文抄袭判定中的应用[J].计算机光盘软件与应用,2010:145-146.
[4] 沈林.大学生作业抄袭现象的根源分析及解决思路探讨[J].中国科技信息,2009(17):247-248.
[5] 李书伟,王琪.大学生抄袭作业现象的分析探讨[J].中国科技信息,2007:241+243.