董 冰
(河南省科学院地理研究所,河南 郑州 450052)
计算机程序抄袭检测系统设计及应用
董 冰
(河南省科学院地理研究所,河南 郑州 450052)
计算机信息技术的飞速发展及网络共享资源的拓展在为人们带来便利的同时,也产生了一些不利的影响。比如利用网络的便捷性进行学术抄袭,严重影响了当下的学术氛围以及研究者健康成长,所以探讨计算机程序抄袭检测系统及应用具有现实意义。本文立足现实,具体分析计算机程序抄袭检测系统的相关技术理论,并探讨计算机程序被应用于抄袭检测系统的功能需求性,最后对计算机程序抄袭检测系统设计方案进行简单分析。
计算机程序;抄袭检测系统;设计;应用
计算机程序抄袭检测系统是为了防止学术抄袭和学术造假情况发生而逐渐被开发设计出的平台软件。虽然已经有诸多计算机程序检测系统被研发出来,但随之而来的各种反抄袭软件也层出不穷。由此,我们要在追求检测文档抄袭语句准确率的基础上,从适用性及高性能上追求更高级别检测系统的实用性[1]。仅仅围绕对反抄袭软件的对抗作为设计标准,会模糊计算机程序的发展内涵。现阶段,我国大多数计算机程序抄袭检测系统都是针对中文文档而设计的,而国外先进的在英文环境下开发的计算机程序抄袭检测系统无法被借鉴应用。针对这一现状,我国学术界正在逐步与世界接轨,争取优化自己的程序系统,以使其服务于学术研究,净化学术环境。
1.1 模拟匹配技术
模拟匹配技术的使用范围最为广泛,是从基础检测技术、文档搜寻检索及语句之间的匹配等方面进行深入研究,同时也是支撑我国现阶段计算机程序抄袭检测系统正常运转的精确算法之一。模拟匹配技术主要包括单模式匹配算法和多模式匹配算法。其中,单模式匹配算法指的是从语句的长度对所需检测的文档进行抄袭检索,如果找到相同语句内的相似字符数超过N个就会被认定为抄袭语句,如果没有对应的相似文档,就会返回到初始位置;多模式匹配算法指的是将所要检索的文档按照相应的字符数,在集合以内对语句进行识别,反之就会回到零。两种模式的匹配算法相互配合可以大大提升抄袭检测效率和使用性能[2]。
1.2 相似度算法技术
随着计算机技术的不断进步,计算机程序抄袭检测系统日臻完善。针对抄袭者调换字符串或者使用同等功能的词语进行掩盖来逃避抄袭检测系统的行为,相似度算法能准确识别出来。从相比较程度来讲,相似度算法属于匹配度模式的一种,是对不同字符串相似度进行计算的方法,包含了文本相似度、空间模型相似度及集合模拟相似度等多种计算方法。
1.3 中文分词技术
如果仅仅按照相似整句文本进行相关信息检测,那么反抄袭的行为不可能从根本上得到遏制,且会降低检测结果的准确率和检测效率。基于此,中文分词技术对检测的文本进行科学合理划分,在使用计算机程序抄袭检测系统时进行必要的文本处理,可以利用语句匹配分词技术、统计处理分词技术及对文档观点理解的分词技术等。
首先,基于当前对反抄袭程序的研究成果,把握对计算机程序抄袭检测系统进行综合改造核心技术。计算机程序抄袭检测系统的核心技术是抄袭检测技术,从上述介绍可知,相似度技术最大的特点是计算选择文本和对照文本在文档内容方面的相似度。这种检测方法的应用范围极其广泛,已经被数字技术、软件工程代码管理、知识产权及学术界领域所采纳,且发挥着不可替代的作用,只有在应用中明确检测系统的功能、需求,才能更好地设计开发[3]。
其次,从计算机程序电子文档特征的检测角度来讲,必须要求编码有足够的长度,预防过短的抄袭检测影响整个文档的检测结果。在此要求下,还应保证提取出来的编码语句有一定数量的关键词,且关键词要科学有效。比如,在设定程序代码的有效关键词数低于计算机程序所设置的程序电子文档,就可判定为无效检测。
最后,需要分析计算机程序电子文档编码的专业用语,按照各种标点符号进行文档内容合理转换,把一般意义上的文档语句转变为必要的语句序列。基于此,利用词法分析的方法划分检测文档语句适合检测抄袭词句排列。
我国计算机程序抄袭检测系统仍存在挖掘的潜力。根据发展迅猛的计算机技术及反抄袭检测系统的功能需求,笔者考虑从中英文环境出发,研究开发技术工具[4]。从计算机程序抄袭检测系统的服务对象来看,在进行功能模块设计时需要包含以下几个层面。
第一,计算机程序抄袭检测系统是立足于用户的需求而设计出的检测系统,面对的是整个系统的用户功能设计,因此,在设计时,需要为用户提供维护个人信息的资源,并及时更新信息。比如,在信息资源程序文档的提交过程中,会提示操作步骤,怎样查询检测的结果要有清晰的字体标示,对于这些系统性功能,设计者要根据互联网技术的发展不断进行更新完善。
第二,计算机程序抄袭检测系统面向系统管理员的功能设计,基于对系统管理员的检测需求提供完备的信息资源库。包括添加删除中英文程序的文档,维护资源信息和及时更新信息表等多方面的操作处理。与此同时,还为系统管理员提供了需要的参照数据库[5]。
第三,整个运行过程是计算机程序抄袭检测系统运转的核心,首先通过系统管理员对操作页面输入相应口令登录到检测系统平台,然后添加所要检测的中英文文档进入对应的数据资源库,为用户提供经过抄袭检测后的文档。系统用户只需在系统平台完成注册便可执行这一检测过程,系统平台会自动将信息资源库中的文档与用户所传送的文档进行相似匹配,完成相似匹配度较高的文档。最后将相似度较高的文档与抄袭检测过的文档进行深入的对比分析,完成抄袭检测程序流程的最后一步,最终结果呈现在计算机程序抄袭检测系统页面上反馈给用户。
通过对计算机程序抄袭检测系统相关技术的介绍,我们认识到在设计过程中需要遵循的功能需求及设计原则,最终实现对被检测对象所提交计算机程序的文档内容的处理,这对研究当前的计算机程序抄袭检测系统具有现实意义,是提高整个抄袭检测水平的重要途径。目前,计算机程序检抄袭检测系统已经被广泛应用于社会的各个行业,且发挥着不可替代的作用,对净化学术界氛围具有重要的意义。
[1]王鹏.计算机程序抄袭检测系统的设计方案[J].电子技术与软件工程,2017(18):153.
[2]王鹏.计算机程序抄袭检测系统的设计方案[J].电子技术与软件工程,2017(18):153.
[3]张淑娟.计算机程序抄袭检测系统的设计方案研究[J].吉林广播电视大学学报,2014(4):75-76.
[4]房德安.计算机程序抄袭检测系统的设计方案分析[J].黑龙江科技信息,2013(6):94.
[5]李旭东.计算机程序抄袭检测系统的设计方案[J].电脑知识与技术,2012(4):799-800.
Design and Application of Computer Program Plagiarism Detection System
Dong Bing
(Institute of Geography Sciences,Henan Academy of Sciences,Zhengzhou Henan 450052)
The rapid development of computer information technology and the development of network shar⁃ing resources have brought convenience to people,but also have some adverse effects.For example,the aca⁃demic plagiarism of the convenience of the network has seriously affected the current academic atmosphere and the healthy growth of the researchers.Therefore,it is of practical significance to explore the computer program plagiarism detection system and its application.Based on reality,this paper analyzed the related technology theory of computer program plagiarism detection system,and discussed the function requirement of computer program applied to plagiarism detection system.Finally,it made a simple analysis of the de⁃sign scheme of computer program plagiarism detection system.
computer program;plagiarism detection system;design;application
TP311.11
A
1003-5168(2017)12-0039-02
2017-11-01
董冰(1984-),女,硕士,助理研究员,研究方向:区域经济发展。