学术不端行为检测系统的使用及建议

2019-01-10 06:57黄东平何山

科技视界 2019年36期

黄东平　何山

【摘要】学术评估乏力导致学术不端事件频频发生，为此产生了各种各样的学术不端行为检测系统。虽然检测系统快速、智能、功能强大，客观上对“学术不端行为”起到了警示和震慑作用，但在实践中发现其仍然存在着一些问题，对此提出了一些解决方法，并建议应结合专家意见合理看待、理性使用检测结果，加强宣传教育，预防为主，建立健全相应的监督体制和诚信档案。

【关键词】学术不端;检测系统;TMLC2

中图分类号： G643.8文献标识码： A文章编号： 2095-2457（2019）36-0151-002

DOI：10.19694/j.cnki.issn2095-2457.2019.36.069

The Use and Suggestion of Academic Misconduct Detection System

HUANG Dong-ping HE Shan

（South China University of Technology Library， Guangzhou Guangdong 510641， China）

【Abstract】Weak academic assessment leads to lots of academic misconduct， and a wide variety of academic misconduct detection system appear to solve these problems. Although these detection systems are fast， intelligent， powerful， frightening the “academic misconduct”， but we find that there are still some problems with them in practice ， we find a number of solutions， and suggest we should have a reasonable view， rational use of the test results combining expert advices， strengthen publicity and education， prevention， establish and improve the supervision system and the integrity of files.

【Key words】Academic misconduct; Detecting system; TMLC2

0 引言

“汪暉事件”、“唐骏事件”、 “李连生事件”等频频发生的学术不端事件背后反映出学术评估乏力[1]，为了遏制学术不端行为的产生，营造良好的学术氛围。各种各样的学术不端行为检测系统陆续产生：CNKI学术不端检测系统、万方论文相似性检测系统、维普通达论文引用检测系统、ROST反剽窃系统、Turn it in系统、CrossCheck系统、SafeAssign系统、PERK系统等[2]。国内机构目前用得较多的是CNKI学术不端检测系统。

1 CNKI学术不端检测系统简介

CNKI学术不端检测系统是由中国学术期刊电子杂志社与清华同方知网共同研制的[3]，2006年开始立项研发，主要包括以下7个子系统：科技期刊学术不端文献检测系统（AMLC2）、社科期刊学术不端文献检测系统（SMLC2）、学位论文学术不端行为检测系统（TMLC2）、大学生论文抄袭检测系统、中学生作文检测系统、英文检测系统、中英对照检测系统。而学术不端文献检测系统VIP版主要是对针对博硕士毕业论文和科研论文的检测，包括AMLC2、SMLC2、TMLC2等三个子系统。

该系统采用CNKI自主研发的自适应多阶指纹特征检测技术[3]。算法的最小指纹粒度为句子，即只要被检论文与样本库中的文献存在一个句子相同就可以被系统发现。支持超长篇幅文献，改写、组合等变形文献，句子、段落等各层级的检测。

自2008年底开通以来，已被全国各高校、科研机构、出版单位广泛使用。截至目前用户数量已达5000家，累计检测70万篇论文[3]。用于毕业论文检测、项目立项、验收、报告审查，期刊审稿等。检测功能强大、智能、快速，绝大部分结果客观正确。

2 检测系统存在的问题及改进建议

本馆受本校研究生院委托对本校博硕士学位论文使用TMLC2系统进行检测，结合实际过程中的使用经验，参考学生、网友意见和一些文献的信息，发现检测系统主要存在以下问题：

（1）对于“改写型”论文反抄袭能力不足。有些学生把抄袭的文字或调换句子顺序[4];或主动变被动、被动变主动;或增加一些扩充性解释;或长句变短句、短句变长句等等。对于这类论文系统并不能很好地检测出来。我们只能期待系统的检测算法能够将指纹粒度从句子变为更细的语法单位或者采用模糊比对算法[5]，甚至也像人一样根据语义去判定抄袭与否。

（2）对于参考英文等外文文献的论文反抄袭能力不足。互联网上流行一种反反抄袭的方法“google新用”[4]：先把自己的论文利用google在线翻译的方法先翻译成英文，再将翻译成的英文再用google翻译成中文，然后再对其中的少量病句错词稍加修改即可，这样每句话跟原来的就不一样了，或者英文水平较好的学生将来自不同外文文章的资料按论文框架整合在一起然后翻译成中文。甚至一些学生将外文文献直接翻译成中文然后照搬进论文中，从而达到反反抄袭的目的。无论是“google新用”还是“翻译法”都告诉我们，检测系统还不能检测这类跨语言的抄袭。在未来或许可以开发出按语义的检测系统，用于弥补当今只是针对文字的检测系统的不足。

（3）对于参考书籍等纸质文献的论文反抄袭能力不足。cnki检测系统目前比对范围是：中国学术期刊网络出版总库、中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库、中国重要会议论文全文数据库、中国重要报纸全文数据库、中国专利全文数据库、互联网资源、英文数据库（涵盖期刊、博硕、会议的英文数据以及德国Springer、英国Taylor&Francis 期刊数据库等）、港澳台学术文献库、优先出版文献库、互联网文档资源、个人比对库。未含任何纸质图书。故而对于抄袭纸质图书的论文无法检测。在未来可以将对比库扩充，将纸质图书文献包含进来，虽然可能因此导致检测时间增长，但却可以大大提高检测系统反抄袭的能力。

（4）对于英文等外文书写的论文反抄袭能力不足。英文等外文检测样本库太少甚至没有包含某些外文文献的数据库。目前TMLC2系统只包含涵盖期刊、博硕、会议的英文数据以及德国Springer、英国Taylor&Francis 期刊数据库等少量数据库。这就导致对英文论文检测能力非常有限而对日文、俄文、法文、德文等文字书写的论文毫无检测能力。虽然目前国内高校毕业生论文一般都用中文书写，但是也有部分学生如外国语学院的学生、留学生用英文写论文，这就会导致这些学生的重复率比较低，反抄袭的能力就大大下降了。

（5）对于理工科学生的论文反抄袭能力不足。理科工学生的论文一般是要进行一些实验或编写一些软件[4]。如果他们把实验的数据改一改，实验步骤稍加变通，这样实验的结果，图表就会不一样了。还有编写软件，可以根据自己的框架需要，上网下载一些源代码，然后根据需要修改一下，放进自己的框架里，这样软件就设计完了，论文也大功告成了。而目前的检测系统只根据文字进行检测，是无法对这类论文进行反抄袭的。

（6）对于公式占比较大篇幅的论文可能存在文字复制比过高的情况。数学类专业的论文中可能有较大篇幅的公式及公式推导，而这类公式推导如果在样本库的文献里也曾出现过，系统将其断定为抄袭似乎有些不合理了，这时需要评审专家认真地查看、综合地考虑检测报告。

（7）不能很好地区分同名不同人的情况[6]。即如何断定参考的文献是作者本人的，如果仅仅是同个作者姓名断定，有可能出现不是作者本人的文献当作作者本人的文献处理了。这样导致去除本人已发表文献复制比过低，结果不准确。

（8）只显示两篇论文存在抄袭现象，不能断定谁抄谁的。在高校里导师或团队的研究是延续的，同一团队的人员的学术研究成果是共有的，有可能低年级的学生将研究成果发表了，而即将毕业的高年级的学生的毕业论文又将研究成果放进论文，这就会导致是师兄师姐抄袭师弟师妹的论文的情况，甚至导师抄袭学生的情况。这对于即将毕业的学生来说是很不合理的。

（9）有时会出现论文上传不了或读取不了。一般出现这种问题的论文可能含有比较多的公式、特殊符号、图片，这时一般是把论文转换为07版的word文件或者pdf文件即可。

（10）上传不了文件比较大的论文。曾经碰到过超过100M的文件上传不了的情况，这时可以将文件格式转为pdf文件，压缩文件的大小。

（11）系统批量导出的检测结果的信息不够全面，目前只含有检测结果、重合字数、去除引用、去除本人、总字数等字段。如若能够导出更全面的信息，将可以减轻工作人员的负担。

3 工作建议

鉴于学术不端检测系统并非万能的，同时该系统的使用又关系到毕业生、科技工作者的切身利益，关系到党和国家科技事业的发展，故而在实际工作中，应该慎重地、合理地使用该系统，注意好以下几点：

（1）正确地看待引用和抄袭[5]。对于高校里的研究生等青年学生来说，他们从事研究的时间尚短，撰写论文的经验尚浅，适当地引用前人的研究成果是必要的和必需的，尤其是当他们撰写以评论、综述为主的论文时。他们的性质与故意抄袭有着本质的区别，我们应该正确地区分和看待。

（2）判定论文是否抄袭时，不应只根据报告中的复制比判断，而应该是评审专家参考检测报告，根据报告中所列举的被抄袭的期刊名、作者名、文章名去综合考虑。因为有可能是同个团队或同个导师的文章。

（3）无须追求过低的复制比。复制比的高低与论文质量的好坏、创新性的强弱没有必然的联系。复制比低、重复字数少只能说明该论文抄袭的嫌疑比较低，原创性的可能性比较大，但并不表明这是篇好论文。一篇复制比为零的论文也可能是经过“巧改”、“翻译”、“google新用”等手段“整容”而成的。而且我们的研究一般是站在前人的、巨人的肩膀上进行的，需要引用前人的研究成果。故而无须追求过低的复制比，过少的重复字数，我们应该正确地看待、理性地使用检测报告的结果。

（4）确定合理的合格标准。首先对于博士和硕士应该采用不同的标准[5]，硕士因其做研究的时间比较短，故而标准应该宽些，博士应该严些;另一方面因为博士论文字数10万字左右，硕士3至5万字，所以看检测结果时博士应该重点看重复的字数，而硕士应该重点看文字复制比。其次对于不同的学院专业应该采用适宜该学院专业的标准，理工科专业可以稍微严些，而像法学专业类的文科专业，应该宽些，毕竟某些法律条文不得不引用，而且这些引用的法律条文也一个字也不能修改。再次，以最新研究成果为主的论文应该严些;以实用型应用性技术为主的论文应该宽些;以评论、综述为主的论文应该宽些，且要求有适当的引文。

（5）检测系统不能解决所有问题，要从制度和监管上加以约束和惩治。[5]

4 结束语

通过以上分析，我们知道检测系统对学术不端行为起到了震慑作用，但是由于系统推出不久，仍然存在着一些不足，同时也面临着一些精心抄袭、造假的论文的挑战，我们在期待系统进一步改善的同时，也必须从制度上加强监管和约束，综合检测报告和评审专家意见鉴别论文是否存在抄袭行为，并通过宣传教育的手段，引导师生和科技工作者加强学术道德修养，设立学术道德必修课，建立学术道德诚信档案[5]，健全奖惩体制，从源头上防止学术不端行为的产生，营造良好的学术氛围。

【参考文献】

[1]盘点2010年学术造假事件：唐骏张悟本等上榜[EB/OL].[2013-7-4].http：//news.qq.com/a/20101224/001355.htm.

[2]张旻浩，高国龍，钱俊龙.国内外学术不端文献检测系统平台的比较研究.中国科技期刊研究，2011，22（4）：514-521.

[3]CNKI科研诚信管理系统研究中心[EB/OL].[2013-7-4].http：//check.cnki.net/Article/about/2009/06/59.html.

[4]“反抄袭”软件遭遇大学生“反反抄袭”[EB/OL].[2013-7-4].http：//www.cnbeta.com/articles/103798.htm.

[5]颜峻，候风华，黄莉，徐胜.防范学术不端“净化高校学风”——使用“学术不端文献检测系统”的体会.编辑学报，2010，12：8-10.

[6]胡朝明.学术不端文献检测系统的使用与建议.图书馆工作与研究，2012，4：33-35.