基于已发表论文的学术不端检测系统的分析研究★

2015-06-21 12:50:59赵冬梅

河北科技图苑 2015年6期

关键词：不端学术论文

赵冬梅

（山西大学图书馆山西太原 030006）

基于已发表论文的学术不端检测系统的分析研究★

赵冬梅

（山西大学图书馆山西太原 030006）

学术不端检测系统的广泛应用源于现代社会学术诚信失衡的现状，文章基于大量已发表论文的检测数据，根据检测报告判定出作者、系统等诸多因素造成的检测结果的失真，针对性提出排除影响结果真实性若干干扰因素的应对策略，为图书馆等信息检索机构、编辑部、检测系统开发商、职称部门提供改进意见和建议，客观、公正、理性评价已发表论文作者的学术水平。

已发表文献；学术不端检测；系统

1 引言

学术不端检测系统的广泛应用源于现代社会学术诚信失衡的现状，CNKI论文学术不端检测系统覆盖到本科生、研究生、职称评审、项目申报等各个领域，多个层面。大部分人理解的学术不端检测都是面向未公开发表的论文。针对已经发表论文的检测是近年来职称评审要求的必备条件之一，一旦检测结果不符合规定标准，不但耽误晋升职称，还要丧失学术清誉，因此已发表论文的再次审定对于作者的重要程度更甚于未发表论文的检测。

本文基于大量已发表论文的检测数据，根据检测报告判定出作者、系统等诸多因素造成的检测结果的失真，针对性提出排除影响结果真实性若干干扰因素的应对策略，为图书馆等信息检索机构、编辑部、检测系统开发商、职称部门提供改进意见和建议，客观、公正、理性评价已发表论文作者的学术水平。

2 检测统计结果

本文选取的数据来源于CNKI科研诚信管理系统研究中心开发的学术不端文献检测系统有关高校职称论文的检测结果。统计结果见表1。

表1 检测结果复制比统计表

表1显示，一年来，通过CNKI学术不端文献检测系统5.0版本检测论文共计6224篇，检测结果低于10%复制比的论文占比56.04%，检测结果低于20%复制比的论文占比73.36%，检测结果低于30%复制比的论文占比83.92%。所有检测结果均非系统直接产生的结论，每篇论文的检测结果都经过专业人员的人工判断，排除了正当引用、本人已发表文献正当引用部分、未公开发表的本人博硕士论文等因素，在此前提下统计结果低于10%复制比的论文仅有56.04%的论文通过，低于30%复制比的论文也只达到83.92%的通过率。这一数据现象发人深省，证明已发表论文的再次检测是完全有必要的。

3 检测系统存在的问题

基于“中国知网”海量的信息资源，以及其学术不端检测系统在学术研究、研究生培养、本科教学、项目申报、成果鉴定、职称评审等诸多领域的广泛应用，奠定了“中国知网学术不端文献检测系统”做为检测工具的最佳选择。系统为我们提供科学、准确、全面的数据检测起到了积极的作用，但其不尽完善之处还需给以高度关注。

3.1 比对源不全面

学术不端检测系统检测覆盖资源范围包括中国学术期刊网络出版总库、中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库、中国重要会议论文全文数据库、中国重要报纸全文数据库、中国专利全文数据库、互联网资源、英文数据库、港澳台学术文献库、优先出版文献库、互联网文档资源等。从文献类型考虑，资源库明显不能达到穷尽所有的资源类型，比如科研最常用到的图书就没有包含在比对源里。从单一类型的文献来看，单一类型资源也无法达到全面收录。以期刊资源为例，自“维普期刊资源整合服务平台——期刊地区分布导航”统计显示全国各省份发行期刊种数共计达14 763种，而中国知网期刊介绍收录国内学术期刊8 002种，维普期刊资源整合服务平台与中国知网没有一家数据商全部收录中文出版发行期刊种类，二者存在6 761种的差异，因此，从期刊单种文献类型看，知网检测系统后台资源总量显示明显不足。

3.2 论文提取失真

针对这些论文的报告单仔细核查，发现问题源于论文提取失真的情形。为了保证发表论文的原始状态，已发表论文的检测选择直接从知网数据库里提取论文，在检测实践过程中发现了有许多结果出人意外，主要体现形式有如下几个方面：

（1）部分提取。检测论文的时候系统调用数据库原文有误，仅提取论文第一页或者最后一页，势必造成检测结果的片面性，表现为报告单总字数与实际字数差别很大，对应的总文字复制比也是局部的，不能真实反映该篇文章的实际情况。

（2）乱码显示。系统调用数据库原文检测论文，全文报告单出现乱码显示，虽然给出了检测结果总字数，总文字复制比，但是结果明显是针对乱码比对的无效结果。

（3）转页误读。为了充分利用每一个版面，编辑部编排文章时如果一篇论文没有占满完整的版面，该篇文章所占版面的余下部分会由另一篇文章的转页部分补充完整。这样一篇文章的pdf原文版有部分其他文章的内容在里面。调用这样的原文进行比对，结果会出现总文字数的增量显示，相应的总文字复制比也会失真。

3.3 引用标志未识别

（1）“引号”引用标志不识别。有些人撰写论文的时候经常用到别人的观点作为自己论文的论据或者支持自己论文的观点，这部分内容用引号引起来，检测系统未定义引号为引用识别标志，检测结果相似文献列表显示的是非引用标志，一般做抄袭复制处理。

（2）“文字表述”引用方式不识别。有些论文作者在撰写论文时以行文方式体现了论文的某个部分使用了别人的观点，检测系统从语义的角度无法做出判断，常常定位该部分为抄袭复制。

（3）“引用”标志未识别。检测系统程序设计对做了规范引用标志的论文的引用部分不作为抄袭处理，但是检测过程中不乏引用标志明显但系统未识别的案例，属于不正确的判断。

3.4 检测结果涵盖参考文献部分

检测系统设计检测结果不包含参考文献总字数，相应的总文字复制比也不体现参考文献部分，在论文检测过程中却出现了参考文献计算在内的现象。把参考文献计算在内加大了文献复制的比率，影响本篇文章正常复制情况的显示。

3.5 网络文献报告列表显示有误

检测系统检测范围包括互联网资源，检测结果中网络文献列表的时间仅显示年份，不显示具体时间，且时常出现检测时间范围之后的文档列表，针对此类现象，经多篇文章测试，发现这些网络文献的显示基本不会改变总体复制比，但是系统针对网络文献在时间上的误读虽对结果产生不了太大的影响，但是容易引起作者对报告单的质疑，从而忽略检测系统的正面作用，无限放大系统的漏洞。

3.6 检测结果涵盖了文章自身

有些文章的检测结果报告单重复文章列表中显示文章自身，即查重文献与文章本身重复。排除了原文，文字复制比就下降了。

3.7 同一论文不同时间检测结果不同

同一篇论文在不同的时间段检测，检测结果存在差异。虽然同一篇文章在不同的时间进行检测，但是锁定的检测时间范围是一致的，出现不一致的结果属于系统判断失误。

4 理性认识检测系统，充分发挥系统价值

要理性使用学术不端检测系统，充分享有它带来的便利，同时要正确看待它存在的缺陷，使检测结果更加公正合理［1］。这是检测系统经过广泛推广使用后大家达成的共识。完善检测系统功能，提升专业人员的判断能力，排除系统障碍，最大限度发挥系统价值。从以下三方面考虑，确保检测结果能够如实反映论文的真实学术水平。

4.1 制定检测标准消除干扰结果正确性的客观因素，以明确论文的原创性与有效价值

论文检测系统问世的初衷是从技术层面采取遏制学术不端行为。最初应用于论文发表的源头期刊杂志社，并从编辑部推广普及。编辑部在使用过程中积累了丰富的经验，使这一检测工具在编审环节起到了积极有效的作用。综合前期多家编辑部和学位论文检测积累的经验，加入人们对原创作品的专业理解，制定已发表论文学术不端检测的标准，排除干扰因素才能保证对每一篇已发表论文给出客观公正的评价。

（1）本人未公开发表的博硕士学位论文、会议交流论文，属于个人成果但是没有正式公开发表，本人拿出其中一块或者做了进一步的完善发表在期刊上不计算在重复范围之列。

（2）引用文献，论文中用别人的论点支撑本人论文的部分做了规范的引用标志，并在参考文献中有所体现不计算在重复范围之列。

（3）本人已发表文献，论文中用到了本人前期成果，在合理范围内不计算在重复范围之列。

（4）网络文献，由于系统原因出现的检测时间范围之外的网络文献，含博客、文库、互联网资源等均不计算在重复范围之列。

4.2 加入专业人员人工判断消除检测系统的漏洞，以纠正系统检测裸数据的错误因素

笔者在大量实践的基础上认真分析了论文检测系统的不尽完善之处，如何纠正、补充、完善系统存在的问题应做如下几方面的思考。

（1）国内开发的论文检测系统主要有清华同方、万方、维普和超星公司的大雅相似度检测系统，不同厂商开发的检测系统姑且不论其检测原理，每个产品依托的后台数据库都是自建数据库，每个数据库都不可能穷尽所有的资源。同一篇文章使用不同的系统检测结果不尽相同。作为评价工具，使用一个系统标准对所有人做出评价有失公允。

（2）论文提取失真的根源在于建库过程的失误所致，数据库在建库过程中难免出现疏漏，疏漏几率应该有可控制的允许范围。首先作为系统的开发商针对这一问题应该在以后的数据加工过程中避免这种事故的发生，同时建立倒查机制，无论公司工作人员还是用户遇到这种情况都鼓励及时反馈，从源头上修正以前的错误。检测人员尽可能使用论文发表时的原始版本进行复查，以保证结果的真实可靠。

（3）有些论文检测结果偏差表现在系统对引用标志的未识别，“引号”引用标志不识别，“文字表述”引用方式不识别这三种情况，第一种情况属于系统具有对规范引用格式的识别功能，个别情况未识别应该不属于程序漏洞，与数据录入中的误差有很大关系，找出此种失误的例子研究其问题所在，避免类似事件发生。第二、三种情况是普遍现象，属于系统语义功能的不完善所致，系统应该完善语料库，增强语义功能，增加这两种情况的识别度，增进系统检测的有效度。

（4）数字化网络化环境下互联网资源是学术造假的主要来源，网络资源未公开发表，许多人撰写论文用到BLOG、微博、论坛、文库等资源，不加注释，据为己有，作为自己的最新成果发表，因此检测系统比对源涵盖互联网资源遏制住了人们对网络资源的恶意抄袭。但检测实践中，发现报告单有大量的网络资源时间上滞后于检测论文，经过多篇测试此类列表的存在虽对结果的影响不大，但是容易造成作者对检测系统失去信任。数据库开发商应该针对网络文献类型从时间上加以限制弥补此类漏洞，在系统未完善的情况下检测人员手工认真核查排除错误列表后再出具可信的报告单。

此外，检测结果涵盖参考文献部分，检测结果涵盖文章本身，逻辑计算错误，同一论文不同时间检测结果不同等不容忽视的个案造成的检测结果偏差虽属于偶然现象，也给人以警示。系统开发商应直面问题，给使用者以合理解释，关键在于不断完善系统，杜绝类似情况再次发生。专业检测人员也要以严谨的态度对待每一篇论文的检测，力求做到不冤枉、不误判每一位作者的辛勤劳动成果。

4.3 消除作者学术创作侥幸蒙混的念头，以严谨的治学态度对待科学研究

除系统本身原因之外，大部分论文复制比偏高的原因来自于作者自身因素，主要体现形式为：（1）同一导师系列论文重复度高，作者认为在一个导师门下搞研究，方法、材料等都应该是相同的，论文出现相互雷同属于正常现象。（2）同一主题系列论文重复度高，论文作者认为后期发表论文大量沿用自己以前发表的论文属于正常现象。（3）同一作者同期发表的几篇论文重复度高，一个时间段一个作者同时发表几篇文章，出版时间较晚的论文检测结果与较早出版的论文重复度很高。论文作者认为同一研究思路得出不同的结论合情合理。（4）同一主题系列论文重复度高，不同时间发表的同一主题论文重复率达到70%以上。显而易见是一稿多投现象。只是论文题目做了适当改动。（5）作者不重视规范引用格式，不严格按照引用规范标准撰写论文，要么不标注引用，要么引用格式不规范，要么参考文献不列出来都是造成结果偏高的直接原因。比如：编辑部对同意录用的稿件会做编辑校对工作，一方面润色文字，一方面会根据版面要求做一些文字的删减，删减的文字一般是一些无关论文主要观点的语句，作者引用的部分是论文的重要支撑绝对不会删掉，还是要强调“引注”，规范写作格式，可以规避造成的文字复制。

以上作者检测论文出现检测偏高结果，均为自身原因造成，第一种现象不成立的理由，应该是虽然同属一个导师，教导方法一致，但是每个个体的行文方式、语言表达应该有所不同，出现相同情况，图省事拿来别人的东西据为己有实属抄袭、剽窃行为；第二到四种现象毋庸置疑，纯属侥幸投机心理，同一时间段在投的多篇稿件编辑部无法检测出复制比，如果没有职称评审、科研立项等的再次审定，多篇论文都将在评审中起到作用。第五种现象在论文中使用自己（或自己作为作者之一）已发表文献的内容，却不加引注，是一种不规范的学术行为，作为晋升高级职务的老师应该具备这样的学术素养，否则从这一点上就不符合晋升要求。

5 结束语

学术不端检测系统智能化程度有限，存在不少检测盲区，只能作为一种辅助工具［2］。实践证明，影响结果真实性，造成通过率不理想的主要原因集中在检测系统存在的问题和作者行文主客观因素这两大方面。借助学术不端检测系统检测学术论文客观评价科研人员的学术水平杜绝使用裸数据，一定要融入图书馆信息检测专业人员的判断，采取审慎、科学、客观的态度，对检测系统多层面、深层次地理解与把握［3］，力求检测结果的科学性、客观性、公正性。

［1］李丹.学术不端检测系统的理性使用［J］.学术界，2012，（12）：129－133.

［2］李永莲.学术不端文献检测系统的检测盲区研究［J］.青岛职业技术学院学报，2014，（5）：78－80，86.

［3］王宇.学术不端文献检测系统研究综述［J］.西南民族大学学报：人文社会科学版，2013，（4）：236－240.

（收稿日期：2015-10-06 责任编辑：马秀娟）

G237.5

或者

与发表日期期间检测结果显示有复制的论文，由于任何一篇论文都存在投稿与刊发的时滞现象，检测结果中出现在这期间的论文不计算在重复范围之列。

本文系山西省科技基础条件平台建设项目“构建山西高校科技文献资源服务体系”（2014091001－0101）研究成果之一。