基于大数据分析的作业抄袭检测方法研究

2023-10-12 23:27杨立彬杨芳尹慧
中国新通信 2023年16期
关键词:大数据分析检测方法数学模型

杨立彬?杨芳?尹慧

摘要:随着教育现代化的发展,高校学生的作业抄袭问题日益突出,严重影响了教学质量。过去的研究主要关注学生之间的抄袭行为,而本文将注意力放在个体学生上。采集了学生的作业成绩、平时测验成绩、期末成绩等信息,并采用基于大数据分析的方法,建立作业抄袭检测模型。通过合理设置参数,对学生个体的成绩进行比对,以确定是否存在抄袭行为。这种研究有助于教师全面了解学生的学业情况,并能有针对性地提供辅导。通过检测作业抄袭行为,不仅可以改善学风,还能为教师提供有效的教学管理工具。这种模型的建立和应用,对于提高教学质量、减少作业抄袭现象具有重要意义。

关键词:作业抄袭;检测方法;大数据分析;数学模型

作业是评估学生学习效果的重要手段,也是教师了解学生学习情况和开展个性化教学的基础。然而,在高校中,学生之间抄袭作业的现象比较普遍。为了省事和图便利,许多学生会直接复制他人的作业或从网络文档中找到模板,稍作修改甚至不修改就提交给老师,试图蒙混过关。这种行为对学生本身极不负责任,严重影响了教学质量,让许多教师感到困扰。特别是随着互联网的发展和教育现代化的推进,高校学生的作业抄袭问题变得更加突出,逐渐侵蚀并严重影响国家人才培养的质量[1]。

一、作业抄袭检测方法研究分析

(一)研究现状

对于作业抄袭问题的研究,教师一直非常关注且感到困扰。研究可以分为两类。一类是通过分析学生抄袭作业的原因,采取一些措施来遏制抄袭行为。例如,降低作业的题目难度,增加主观题,使作业结合学生的生活经验,为每个学生留下不同的作业等方式。另一类则是将人工智能算法和数据处理分析技术结合起来,分析学生作业之间的相似度,提出作业抄袭检测方法。以王鹏在2017年发表的《计算机程序抄袭检测系统的设计方案》为例,该研究通过对学生提交的程序实践作业进行程序相似度计算,找出相似度较高的程序文档对,进而筛选出疑似抄袭的作业。另外,杨寅在2019年提出了在大学生作业抄袭检测中应用多线程爬虫技术的方法。于俊在2021年提出了基于KR和Winnowing的程序代码作业相似度检测算法,该算法提高了学生作业相似检测的精准度,并增加了不同学生之间作业相似结果的区分度。通过对以上算法的研究发现,以往的作业抄袭检测系统主要侧重于对不同学生作业之间的相似度进行检测,从而让教师能够宏观地了解班级整体的作业完成情况和学业水平。这种方法在抄袭检测方面取得了不错的效果。然而,这种方法无法对学生个体的知识点掌握情况进行具体把控,也无法预测学生的学习效果。因此,本文采用的方法恰好弥补了这个不足,并取得了重要的进展。采用基于大数据分析的方法,结合学生的作业成绩、平时测验成绩和期末成绩等数据,来比对学生个体的成绩情况,从而确定是否存在作业抄袭行为。这种方法不仅帮助教师全面了解學生的学业情况,还能为他们提供有针对性的辅导,进一步提高学习效果。

(二)问题的分析

本文采用的方法以学生个体为研究对象,重点比较同一名学生在每次作业中不同知识点的得分率与测验的得分率。通过设置适当的参数,筛选出差异较大的数据,以判断是否存在作业抄袭行为。这种方法有助于教师全面了解每位学生的学习情况,进行有针对性的辅导,并准确预测学生的总评成绩。对于学生来说,这种方法更有说服力,因为通过数据对比,能够清晰展现每位学生在不同知识点上的掌握情况和努力程度。同时,该方法有效地杜绝了作业抄袭现象,对学风建设有积极的推动作用。

二、作业抄袭检测方法研究主要工作

(一)检测流程设计

1.采集数据

在超星学习通平台中,可以导出学生的作业成绩、测验成绩和期末成绩等数据。

作业成绩的采集:作业总共6个模块。其中,第一模块是关于极限与连续,包含7个知识内容;第二模块是导数及其应用,包含8个知识内容;第三模块是不定积分,包含3个知识内容;第四模块是定积分及其应用,包含3个知识内容;第五模块是微分方程,包含2个知识内容;第六模块是空间解析几何,包含1个知识内容。总计共有24个知识内容。

测验成绩的采集:章末测验共有5次,每次测验安排10个小题;期中测试1次,安排10个小题,共60个小题。

期末考试成绩的采集:期末考试共22个题,其中填空题5个小题,单项选择题5个小题,判断题5个小题,解答题7个小题。

综上共需采集106条数据。

2.数据的分析

在每一模块作业完成后,安排一次章末测验,以此评估学生对知识点的掌握情况。具体的评估方法是计算测验成绩与作业成绩之间的差值,若两者差值在0.3~0.7,则存在一定作业抄袭嫌疑;差值高于0.7,则存在明显作业抄袭现象;低于0.3,则无作业抄袭嫌疑。接着进行下一模块的作业和章末测验,再次评估学生对知识点的掌握情况。若差值在0.3~0.7之间则存在一定作业抄袭嫌疑,高于0.7存在明显抄袭嫌疑,低于0.3无抄袭嫌疑。如此循环,若每次评测都不存在抄袭行为则进行期末考试,并计算各知识点掌握程度。

3.建立作业抄袭检测系统模型

通过以上分析的结果,建立数学模型,分析学生知识点掌握程度。

4.模型的检验

通过对海量的学生作业、测验成绩进行采集,利用统计分析的方法将作业成绩与测验成绩进行对比,以及与学生交谈等方式,评测模型的准确性,并通过修改测评指标找到适当的评估指标,建立数学模型,继续不断优化。

(二)检测步骤

Step1:作业成绩采集。采集学生第一模块知识内容1~知识内容7各次作业的得分,计算出得分率;

Step2:测验成绩采集。采集学生章末测验一中知识内容1~知识内容7各小题的得分,计算出得分率;

Step3:合理性判定。评估第一模块中各知识点掌握合理性。

若作业成绩与测验成绩得分率差值在0.3~0.7,则此学生作业存在一定作业抄袭嫌疑;

若作业成绩与测验成绩得分率差值大于0.7,则此学生作业存在作业抄袭嫌疑;

若作业成绩与测验成绩得分率差值小于0.3,则此学生作业不存在作业抄袭嫌疑。

Step4:结果分析。

若作业成绩与测验成绩得分率差值小于0.3,则进行第二模块的作业与测验,并重复Step1~Step3;

若作业成绩与测验成绩得分率差值大于或者等于0.3,则教师采取一定的措施,确定学生是否存在抄袭。针对确实存在抄袭的作业,要求学生改正后,再进入第二模块的学习。

Step5:重复以上步骤,直至完成第六模块的作业与测验,并进行期末考试。

Step6:计算期末考试各知识点的得分,计算知识点掌握程度,评估课程目标达成度。

Step7:出具课程学业评价报告。

(三)检测过程可能存在的问题

虽然学生的课后作业成绩可以通过学习通平台导出,且较为方便,但是整个班级的期末考试成绩及每小题得分需要手动采集,工作量较大,对数据进行整理和分析问题也比较困难。

考虑到整个检测系统的严谨性,仅凭数据不能完全确定该学生是否存在抄袭行为。所以在后续过程中需要利用一定的时间,持续性观察学生们的实时情况,多和学生交流,对比每个学生平时章末测试的成绩和最终期末的成绩。对于浮动范围较大的学生要多多留意,叫到办公室谈话或者向班级其他同学询问的方式来加以验证,最终检验出模型的合理性。

三、作业抄袭检测方法实现

以2022级工商管理专业1班的两名同学的成绩为例进行数据的采集、分析等。

(一)采集学生课后作业成绩及测验成绩,绘制散点图

学生第一模块课后作业及章末测验知识内容得分率如表1所示,散点图诶图1所示。

(二)数据分析

通过数据比对发现,李娜同学知识点3的作业得分率为1.00,测验的得分率为0.50,两者之差大于0.3,存在一定的作业抄袭嫌疑;知识点5的作业得分率为1.00,测验的得分率为0.75,两者之差小于0.3,基本上不存在作业抄袭嫌疑;知识点6的作业得分率为0.80,测验的得分率为1.00,不存在作业抄袭嫌疑。

周梦玲同学知识点3的作业得分率为0.75,测验的得分率为0.50,两者之差小于0.3,基本不存在作业抄袭嫌疑;知识点6的作业得分率为0.60,测验的得分率为1.00,存在一定的作业抄袭嫌疑。

(三)模型检验

为了进一步验证结果的准确性,在教学中教师会多多关注该同学的表现,以了解其学习情况。并在课后答疑时,与该学生交流。

针对李娜同学,经过一段时间的了解,该同学承认作业3知识点(无穷小与无穷大的概念)较难,课上并未完全理解,所以在做测验时去网上搜索了答案。知识点5(无穷小的比较)的测验在计算时出现了失误,导致扣分。知识点6(函数的连续性)在做作业时未理解概念的含义,在老师讲解作业后化解疑問,考试掌握较好。

针对周梦玲同学,经过一段时间的了解,该同学承认作业3知识点(无穷小与无穷大的概念)较难,课上并未完全理解,作业和测验成绩均不理想。知识点6(函数的连续性)在课上未理解概念的含义,在听了老师的作业讲解后,经与同学讨论,掌握该知识点。

(四)模型改进

在对学生的课后作业及章节测验成绩进行比对时发现,当测验成绩低于作业成绩时,检测模型基本符合实际,但是当测验成绩高于作业成绩时,往往意味着学生经过努力,巩固了所学内容,所以成绩会有一定的提高。此时检测模型与实际会有偏差。因此考虑改进模型。

当测验成绩高于作业成绩时,评估与之关联的知识点掌握的合理性。若在关联知识点的评价中学生存在抄袭嫌疑,则通过谈话的方式确定最终结论;若关联知识点的评估合理,则消除学生抄袭嫌疑。

此方法通过知识点之间的关联进行判断,有利于教师全面了解学生的学业情况,进一步优化教学,对学生而言也更具有说服力。

(五)模型评价

1.模型的优点

本文提出的新的作业抄袭检测方法,与过去针对学生之间的作业相似度检测不同,这个方法着重关注个别学生,通过对比他们的作业成绩和测验成绩来评估他们的学习情况。这种方法对教师来说具有精准掌握学生学习情况、因材施教的优势。经过一个学期的验证,该方法被证明是方便可行的,且具有较高的检测准确度。这表明该方法在实际应用中具有一定的价值。

2.模型的缺点

在使用过程中,模型的准确度可能受到人为主观因素的影响,这是需要进一步提升的方面。当发现学生存在抄袭嫌疑时,教师需要依靠自身的经验和与学生的交流等方式,进一步确定是否存在抄袭行为。这种方式引入了主观因素,可能会影响判断的效率和准确度。但随着使用时间的增长和数据量的积累,模型的参数可以进一步改进,降低主观因素的影响。通过对更多样本的观察和分析,不断优化模型,提高其准确性和可靠性。

四、结束语

研究作业抄袭检测问题已经有多年的历史,而以学生个体为研究对象,基于大数据分析的方法进行作业抄袭检测则是相对较新的思路。本文通过比对学生自身的课后作业、章节测验及期末成绩,设置合理的参数,评估学生对知识点的掌握情况,进而判断是否存在抄袭嫌疑。初步的研究验证表明,该方法具有合理性和可行性。在未来的研究中,将继续收集大量数据,并不断完善作业抄袭检测系统,以提高检测的准确性和效率。这种检测方法为各大高校的教师提供了一种合理化的手段,提高了对学生的管理效率。从而更好地遏制了学生抄袭作业的现象,提升作业完成的质量。另外,这种方法能够为改善学风提供有力的保障。

参  考  文  献

[1]邹恩岑,马壮,申宇,等.一种高校电子作业抄袭检测系统设计[J].物联网技术,2020(10):51-56。

[2]于俊等. 高教程序代码作业抄袭检测的方法研究与实践[J].中国科学技术大学学报,2020(8):1048-1057。

[3]罗云华,姬增利.网络教学中大学生作业抄袭现象的预防策略研究[J].教学研究,2020(1):77-78.

基金项目:辽宁省大学生创新创业训练计划项目(202213208034)。

杨立彬(2001.05-),男,汉族,河南平顶山,本科在读,研究方向:道路桥梁与渡河工程。

猜你喜欢
大数据分析检测方法数学模型
AHP法短跑数学模型分析
活用数学模型,理解排列组合
面向大数据远程开放实验平台构建研究
面向大数据分析的信息管理实践教学体系构建
传媒变局中的人口电视栏目困境与创新
宫颈内人乳头瘤病毒的研究进展
对一个数学模型的思考
小儿氨酚黄那敏颗粒有关物质对氯苯乙酰胺检测方法的建立
粉状速凝剂氯离子含量检测方法
古塔形变的数学模型