探究计算机程序抄袭检测系统设计及应用

2018-11-09 17:49周琼
中国信息化 2018年10期
关键词:字符串分词文档

周琼

一、引言

计算机程序抄袭检测系统是一款能够避免学术抄袭、造假等情况的计算机软件。虽然很多计算机程序被研发出来,但也出现了很多反抄袭的软件系统。这就需要在保障检测抄袭精准性前提下,提出更高级别的检测系统。如果只是围绕反抄袭软件展开设计,会显得较为被动。现如今,我国大部分计算机程序抄袭检测系统都是针对中文文档而设计的,国际上、英文环境下所开发的计算机程序抄袭系统无法被借鉴利用。针对此类情况,需要加强国内学术和世界学术界间的接轨,不断优化程序系统,提高抄袭检测的性能,这样才能够全面净化学术环境。

二、计算机程序抄袭检测系统中的关键技术

在信息时代下,由于网络信息共享度不断提高,因此文献信息获取变得更加便捷,学术抄袭问题也层出不穷。针对此类问题,抄袭检测系统也在不断更新,提出了多种检测技术,应用较为广泛的抄袭检测技术有:

(一)模拟匹配技术

模拟匹配技术是抄袭检测领域应用最为广泛的技术之一,融入了基础检测、文档搜寻、语句匹配等内容,是一种十分精确的算法之一。整个技术中包括单模/多模检测匹配方法。

单模算法是指让长度为N的字符串Y中的找出长度为M字符串X有相似率的子串,如果在搜索中找出了相应的字符串,就提对应指定位置,如果没有找到相似的字符串就会自动归零。

多模算法是指采用集合算法,建设处串集合,如N={N1,N2...Nx},对字符串的Z进行匹配分析,找到相似的字符串并转回到指定位置上,如果没有找到相应的字符串就会返回到零。多模与单模算法不同,多模是采用同时计算方法,能和多个字符进行匹配,从而大大提高了抄袭检测精度和效率。

(二)相似度算法

随着我国抄袭检测技术不断发展,系统愈加完善,抄袭人员也在不停的更改抄袭方法,例如同义词更换、添加/删除字符等方法,也可以调换词语顺序来规避检测,针对此类现象可以采用相似度算法进行匹配。从本质上说,相似度算法也是一種匹配算法,针对不同字符串的相似度算法,包括匹配相似度算法、集合相似度算法、空间向量模型相似度算法等等。

(三)中文分词技术

在进行文献检测过程中如果采用了整句搜索关键词方法,会导致所检测的内容或匹配信息过于片面,并且检测过程也十分复杂,检测时间较长,与当代学术爆炸时代不相符。基于此,可以采用中文分词技术展开检测。在实际应用当中,通过对词汇进行分割,找出句子当中的相同/相似字符相似率,从而判定句子相似率,从而提高检测精度和效率。该项技术包含了字符串匹配分词、统计方法分词、知识理解分词等技术手段。

三、计算机程序抄袭检测系统功能分析

抄袭检测系统设计需要结合用户的使用需求和功能需求两个方面开展,只有保证检测系统设计的针对性,才能够提高系统程序设计的适用性。究根结底,设计抄袭检测系统主要是为了最大程度上检测出文档抄袭,但也要关注整个软件的可操作性与效率性。

(一)使用需求分析

一篇文档完成之后,如果没有进行抄袭检测,则他人无法认定文档当中哪个部分存在抄袭问题,所以大部分文档都需要展开抄袭检测或匹配检测,我国大部分软件都是以百分比的形式表示抄袭比例,如知网检测、paperpass、万方检测等。同时,也需要充分考虑抄袭检测系统用户的使用逻辑思维和习惯,这就要在不同程序文档进行相似度匹配后,对这些相似度计算内容展开方向性排序,采用上述计算分析处理后即可找出相似度最高文档,这样即可更加精准、高效的找出抄袭内容。

(二)使用功能分析

1.按照抄袭检测的逻辑程序将抄袭检测系统的检测路径和名称进行检测,也可以对这些的文档进行删除与添加将,之后可以采用分析需求方法,把指定程序文档进行部分删除或全部删除,也可以清空处理。

2.设计文档相似度计算功能,需要将这些将要被抄袭系统对被检测的程序文档进行相互匹配计算,也就是把文档内容展开匹配分析,并在此基础上对这些文档的相似度进行计算。之后把上述程序文档相似度计算结果,把被抄袭文献的抄袭比例由高向低进行一一排序。由此可见,将相似度匹配技术应用到抄袭系统当中,可以有效提高检测精度,这也是整个检测系统的核心功能。

3.对于被检测文档相似度较高的对象(文献)展开进一步的划分和处理。相似度较高的程序文档能够说明此文档存在较高的抄袭性,所以在相似度匹配结果上要对文献内容进行细致分析,从而进一步确定被检测文档是否存在着抄袭情况。在系统分析当中,需要把两个相似度最高的文献展开深度对比,并将相似/抄袭部分用特殊颜色标注。如果相似度匹配结果较低,可以确定这些文档几乎不存在相互抄袭的情况。

四、计算机程序抄袭检测系统的设计思路

虽然当今我国很多检测软件都能够在很大程度上分析文档的抄袭率,但从宏观层面上看,检测系统依然不够完善,还存在着一些漏洞问题,如中英文环境冲击和反抄袭功能需求。所以,检测系统要重点从适应英文文献下的抄袭检测技术工具,也就是让该系统中具备对英文字符进行分割,从而展开相似度匹配计算方法,之后将相似匹配过程展开模糊、分割匹配计算方法,这样即可对英文文献字符进行检测分析,提高抄袭检测的精准性和广泛性,根据检测个层次字符串标准,对被检测文档进行相似度匹配计算,为抄袭现象提供相应的依据。

再者,为了能够提高检测系统的实用性,还要在检测数据库中存储、添加剂中英文文档,保证资源库的及时更新性,加强数据库资源的维护,可以把过于老旧或废气的文献剔除,提高数据库的空间率。以此为思路,结合抄袭检测系统的功能模块功能,对整个系统进行开发设计和优化升级。本文认为,检测系统功能模块设计中,需要服务的对象主要包括以下几点:

(一)在系统设计中,重点内容就是面向系统用户的功能设计方法,结合用户的实际需求,提供之前检测系统所欠缺的用户个人数据维护、新用户注册、信息定时/实时更新、数据修改与完善、会员登录、提交信息资源文档、查询检测结果、强化操作处理等多个方面。

(二)在计算机程序抄袭检测系统设计层面上,也要针对系统管理员展开针对性设计。也就是结合管理员的实际操作内容和标准,提供文档资源数据库中的中英文程序文档操作功能,主要包括相关文档的添加/阐述、维护信息资源、信息资源列表、定时/实时更新等方面。与此同时,为了能够提高整个系统在实际操作中的适应性,还需要提供针对管理人员的数据库系统操作内容,包括界面操作、模块化服务功能,设立模块接口,以便于后续的功能增添和操作。

(三)在以上设计的理念与思路下,该检测系统的登录过程和应用流程如下:首先,系统管理人员可以先注册登录管理人员的身份账号,并赋予相应的操作权限;其次,管理人员通过输入相应的账号密码登录到检测系统平台中,把所检测的中英文档添加到信息资源库当中,这样即可提高文档检测的便捷性。系统用户在完成系统平台注册登录后即可检测文档抄袭率或相似率;再次,整个检测系统对被检测的文档进行匹配计算后(与数据库资源进行匹配),即可由高到低罗列出相似度较高的文档信息;最后,把这些相似度较高的文档进行对照对比,采用两两对比分析的方法,将最终的计算结果反馈给操作用户。

五、结束语

综上所述,为了能够提高抄袭检测精度、效率、适用性,需要在现有的检测系统上进行升级改造或再设计,将整个系统设计出注册、筛选、抄袭检测、后台信息维护等多个模块,并保证每个模块可以相互独立运行,这样即可更好的为抄袭检测系统提供服务。

猜你喜欢
字符串分词文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
轻松编辑PDF文档
分词在英语教学中的妙用
结巴分词在词云中的应用
结巴分词在词云中的应用
一种基于PowerBuilder环境字符串相似度算法
Word文档 高效分合有高招
SQL server 2008中的常见的字符串处理函数
倍增法之后缀数组解决重复子串的问题