两种中文文献检测系统在实际工作中的比较分析研究*

2016-03-17 17:57:41范晓鹏刘洁云浙江工商大学杭州310018

高校图书馆工作 2016年6期

●王倩范晓鹏刘洁云项珍 (浙江工商大学杭州 310018)

●王倩范晓鹏刘洁云项珍 (浙江工商大学杭州 310018)

如何阻止学术造假，端正学术风气已经成为当前学术界迫切需要解决的问题。目前国内很多机构都开始使用各种文献检测系统应用于论文审核的工作。文章分析了国内主流的两种文献检测系统，并对它们进行了比较，指出因系统的差异性而导致的实际工作中所出现的问题及如何回避或处理这些问题，为检测员的论文检测工作提供了帮助。参考文献7。

文献检测系统论文检测学术不端学术造假行为

1 国内主要文献检测系统概述

文献检测系统，是一些大型的学术出版机构以自身所拥有的庞大的数字资源为数据支撑，开发出的用以检测论文内容是否抄袭的辅助性工具。国外著名的检测系统有Tumitin、CrossCheck、SafeAssign、PERK等等［1］。而国内的一些数据商也相继开发出中文检测系统，包括中国知网学术不端文献检测系统、万方论文相似性检测系统、维普通达论文查重系统、PaperRater论文检测系统等。其中以中国知网学术不端文献检测系统(下简称知网系统)和万方论文相似性检测系统(下简称万方系统)这两种检测系统开发和进入市场的时间最早，影响范围最大，技术也最为成熟。

1.1 中国知网学术不端文献检测系统

由中国学术期刊(光盘版)电子杂志社与同方知网(北京)技术有限公司研发的多语种图文抄袭检测系统，2008年底正式推出。该系统可为全国各行各业在学术出版、论文答辩、科研项目审批和鉴定验收、学术职称评定等项工作中防治学术不端行为提供专门的信息咨询服务［2］。现在由最初的单一检测版本发展为多个，可分别为学位论文、期刊文章、人事评审、工作报告等做专门检测。

1.2 万方论文相似性检测系统

由北京万方数据股份有限公司基于万方海量学术文献资源所开发，2010年推出。该系统能对学术成果进行相似性检测，并提供客观详实的检测报告，为学术出版、科研管理、学位论文管理等提供支持［3］。目前从客户端检测过渡到了远程平台检测，并根据用途分为了新论文检测和已发表论文检测，最近又新增了大学生论文检测入口。

这两种检测系统虽然同时发布了多个不同用途的版本，但是同个系统之间有不同版本所用底层技术与数据量都是同出一源，只在界面上做了一些开发。所以本文只选取两种系统各自发布最早、使用最多的两个版本：知网的学术不端文献检测系统5.0与万方的新论文检测系统，以这两个版本为例，来说明两个系统的区别，以下即简称知网系统和万方系统。

2 两种检测系统的特点

2.1 拥有海量文献比对资源

文献检测系统检测结果的精准度与后台作支撑的数据量覆盖范围有关，检测时所比对的资源越丰富，数据量越多，系统所得到的检测结果就越精确。这两种检测系统是国内排名前列的两大学术出版机构所开发的，其文献资源从数量和种类都十分丰富。

知网系统的文献资源覆盖了国内绝大部分的中文期刊报纸、中文学位论文、专利数据库，还收录了有合作关系的港澳台文献和国内出版的图书资源，网上的优质免费资源(包括博客、豆丁、百度文库)等。除此之外，知网检测系统还与其它外文库如Springer、Taylor＆Francis合作，收录了一部分英文文献，使外文论文的检测也变为可能。

万方系统的文献资源涵盖了万方数据公司所收录的中文期刊、中文学位论文、中文会议论文、网页资源等。截止到2015年11月，其比对库文献的数量达3 400多万篇。

2.2 拥有强大的检测技术

知网系统采用基于数字指纹的多阶快速检测方法，对用户指定的文档做数字指纹，与相关文档指纹比对，按照文档类型与内容特征不同，支持从词到句子、篇章级别的数字指纹。相似字符串检测阈值根据用户需求可调，以获得用户希望的最佳检测结果［4］。该系统还提供了去除本人文献检测结果，无论受检方是受检论文的第几作者，均可排除同名作者的相似文献。

万方检测系统基于滑动窗口的低频特征部分匹配算法，可以批量检测，可处理多种格式的文献，支持断点续传续检，并能智能识别出参考文献，进而辅助排除第一作者的自引情况。

2.3 系统操作与管理便捷易懂

两种系统均以创建组来对检测任务进行管理，知网支持在线创建虚拟文件夹功能，在同一文件夹下的任务都具有同一检测条件，如检测时间范围，检测子库范围等。相较之下，在万方系统中，未发表论文检测的创建组功能，虽然便于对文献进行分类检测，但是欠缺更细化的检测条件限定。在管理检测报告上，两种系统都能批量地下载报告，还可对报告进行一些统计分析，对检测工作进行回顾和总结。

知网的管理员账号下可以下分子账户，一个管理员下最多可分为20个子账户，管理员可以划分下属子账户的工作权限，并可以检查子账户的论文检测结果，便于了解与掌握子账户的工作情况。

万方系统的账户采用分级管理，可以控制账户的权限，并与其它既有系统集成，例如，高校将其与本校的论文管理系统集成，使两个系统的功能都得到增强与互补。而出版社则将其与原有的投稿审稿系统集成，可以加快稿件的初步筛选工作。

3 两种检测系统的局限性

3.1 文献格式限制

两种系统均支持多种主流的文献格式 doc、docx、txt、pdf等。但知网系统还支持其自有格式caj、kdh、nk格式的文献上传。经实际测试，将同一篇文献，用从知网数据库主站下载的自有格式文献与其它数据库中下得的包括pdf在内的其它格式在知网检测系统中检测，结果证明，上传知网格式所得到的文字复制比数值更精准。而将同一文献的不同数据库存储的通用格式在万方系统的检测结果，精准度最高的则变成万方数据库的通用格式文献。两种系统的检测结果都说明，不同的文献格式在两种检测系统中得到的检测结果会产生差异。

3.2 字数限制

知网系统以字符为计算单位，与计算机学的定义不同，所谓的字符数包括了中文字符与标点符号等非中文字符的计数，其汉字、数字、英文字母、标点都算一个字符。知网系统一次上传文献最大字符数为300 000，也就是说理论上最多一次性可以上传30万字的文献。

万方系统是在上传文献限制为10M之内，理论上计算出它一次上传的最大字数为5 242 880，但这种限制更多是在上传文件的大小上，即字数限制是可以用文件格式转换等方法来规避。

字数的限制让图书、学位论文等文献的检测变得复杂，一些字数长的文献需要分为多个文档进行上传。但出现多人合写，各自负责章节的情况，就可以较为明晰地判断出侵权的具体责任方。

3.3 上传方式的限制

知网系统支持对从电脑本地上传受检论文，但若在撰写时使用了辅助软件如Spss、ChemBioDraw、Origin等，或使用了大量的图片、表格，相对的中文字数较少，这些文献在上传时易被系统判定为文献字数过短而无法检测。

万方系统较知网系统而言，其上传方式更为多样化，除本地上传外，还提供在线查找论文的功能，自动搜索与后台数据库中录入信息相匹配的文献，保证了文献来源的可靠性。另外还提供了直接粘贴文本至网页的上传方式，可以避免检测已发表文献时，出现多余的非该篇文献内容的弊端。

3.4 比对范围的局限性

两种检测系统的比对资源都以中文的论文资源为主，但是实际上为了提高市场竞争力，知网和万方都偏向与各个出版社签署独家使用协议，买断该刊物的电子版权。这就造成了两个系统所依仗的数据库资源的缺失，造成检测结果的偏差。同样因知识产权的原因，检测系统比对范围不能将中外文图书、外文论文资源特别是非英语类的外文学术成果都包括。

通过对比两种检测系统，我们发现它们由于各自设计理念的差异、数据库资源覆盖侧重等各种主客观原因，在实际应用中也表现出很大的区别。检测机构需要针对检测系统的特点和自身的检测需求来选择相应的检测系统。例如，万方系统对学位论文的检测可能更能做到系统化的管理，而知网系统更加适用于对团队型学术成果文献的检测等。而检测员如果发现选择的检测系统在实际应用中与自身检测需求不甚相符，那就需要在检测时根据检测系统的性能来进行相应的设置与调整。

4 检测工作应注意到的问题

4.1 注意受检文献的来源，根据所使用的系统选择检测文献的格式与方法

尽管两种检测系统都支持多种格式的检测，但检测员在检测时应设定默认的文献格式，笔者推荐以大部分数据库支持的doc或pdf格式。如果是对已发表文献的检测，为保证其来源可靠性，受检文献应优先从检测系统的数据库中查找并下载。如果该数据库未收录，则再从其它数据库中下载。检测员要确认受检文献内容与发表的纸本完全一致，不要轻信他人所提交的来源未知文献。若是对未发表文献或是已发表但数据库中尚未收录的文献检测，可以让受检者提交word版的论文文档，但受检者须作出责任声明，确保该文为发表的最终定稿。若之后发现文献有出入，则将被视为学术不端行为来处理。

4.2 部分学术造假手段需要第三方进行审核和监督

由于系统目前存在一些不足，一些学术造假行为，如数据篡改、图表抄袭、将外文论文翻译成中文后重复发表等行为都无法使用检测系统甄别出来。在论文审核工作中，使用文献检测系统只是进行初步筛选，并不代表论文审核工作的完成。之后通过系统初选的文献还需要同行专家评审，建议论文检测工作参考目前编辑出版所普遍采用的双向匿名评审制度［5］，请第三方匿名的专家参与文献检测工作。审核方还要在检测工作完成后公示审核通过名单，开通申诉渠道，便于公众监督举报。

4.3 对待系统自动生成的检测结果，需要加入适当的人工干预

在实际的检测过程中，笔者发现有以下情况之一出现时，不能简单地依靠系统智能分析，必须加以辨别：

(1)无参考文献或引注不规范的论文。长期以来，学术界大部分人对于论文引注都视为细枝末节，统一的引注规范出台很晚。到了上世纪90年代，问题日益突显，对判定某篇论文是恶意抄袭还是过度引用的问题上，许多学者各执一词。在检测发表时间较早的文献时，其引注普遍存在不规范的现象，检测结果误差较高。特别是在文艺性通俗性较强的报纸和杂志，往往受到版面限制，本身对参考文献要求较低或者根本不作要求，导致发表在这些刊物上的文章检测结果大都不太理想。此外，一些文章的脚注和文中引注也常被误判。

(2)同一作者进行的有延续性的团队型研究成果。作者发表文章，主旨在于阐述自己的学术观点，即是作者对自己所获取的知识的深度思考与总结。论文就是捍卫自己理论成果、延续自身科研活动的证明。作者自引是一种合理的文献使用，不属于学术不端。虽然一般情况下不会产生学术纠纷，但如果该作者发表的文献是属于所参与团队的科研成果，除排除作者本人的著作之外，检测员还应将团队成员发表的相关文献也考虑在内。

而对于自引的排除，检测员还要注意这样一种学术作假情况：恶意冒认或抄袭同名作者科研成果。检测员在检测中要考虑到作者重名的情况，需要通过论文发表时附后的作者简介、工作单位等信息来判断。

(3)综述型论文。对原始文献观点提炼和总结所写出的综述型论文，与一般学术论文相比，其引用文献的内容与数量都比较多［6］。综述型论文的这种特点造成在论文检测中，综述型论文的文字相似值要远高于一般学术论文。而这种情况的出现需要检测员对文章进行详细的内容甄别。

(4)权威性文献集中的专业。一些专业如法学、马克思主义哲学、历史学等，在撰写这类论文时需要引用大量的文献原文，但这些引用文献并不涉及知识产权等问题而常被作者忽视，检测系统也经常误判致使检测结果数值增高。检测员在检测时需要认真核查全文，凡是内容涉及政府公开的报告、文件、法律法规、史料文献、定义定理等信息，即使作者未加以标注，也应当作为参考文献来对待。

(5)出现参考文献相同的文献耦合关系。文献耦合是指若两篇论文同时引用一篇或多篇论文的情况，即这两篇论文有共同的参考文献。目前文献检测系统可以根据上传文章的参考文献判断出现在文章正文中的引用，但是无法分析出两篇参考文献相同的情况，造成检测的文章的参考文献经常由于文献耦合而被误判。在这种文献耦合关系发生时，进行人工干预必须给予特别注意。因为目前的两种检测系统，对被误判的文字部分，只能以去除对比文献的方式来降低数值，这种数据纠正方式很可能导致与所去除文献的其余相似部分也一并去除。例如，检测论文A，与论文B的比对结果是有30%的文字重复，但其中A与B存在5%的文字是共引于另一篇文章C，但若要去除这5%的数值误差，只能选择人工干预，将论文B从比对库中去除，但这样会把B剩余25%的相似文字一并删除，最终检测结果却造成了近25%的数据误差。

以上5种情况都是检测时比较常出现的需要进行数据纠正的情况。最为合理的数据纠正方式应是可以将该处文字直接判断为合理引用，系统可以自动统计出这一部分的重合字数，但目前的两个系统都缺乏这一功能，意味着检测工作不是简单的一检了之，人工干预必须存在。

4.4 谨慎使用系统的辅助及其新增功能

一般来说，系统升级所新增的功能通常为解决实际应用中出现的问题而增设的，但因检测员对其不熟悉而出现效果倒退现象也较为常见。另一方面，对新增功能的使用还可能容易导致检测标准与往年不统一的情况，因此要经实际测试并深入了解后再决定是否使用。例如，知网系统的跨语言检测和中文繁体文献的检测，万方系统从新论文检测中划分出的学位论文检测项等。

4.5 要制定正规公正公平的文献检测系统使用规范

检测机构需要对文献检测系统制定相应的使用规范。论文检测其本意应是端正学术风气，而一旦滥用或误用都会造成与本意截然相反的结果。一些不法机构及个人用户也可能以此牟利，掩盖学术不端行为，成为学术不端的保护伞。所以针对受检方的检测要求，检测机构需要谨慎操作，以公平公正的原则，严格按规定流程进行，对检测结果反复审核，出具准确的检测报告，并按照规定交由受检方作最终处理。检测员需要有良好的道德水准与行为准则，除受检方外，不得随意向他人透露检测结果［7］;检测机构及检测员不可使用该系统牟取商业利益。检测机构应严格管理账号并定期核查系统的操作日志。

5 对文献检测系统及检测工作的一些思考

两种文献检测系统都各有特色，但还存在着一些缺陷，检测结果的误差可能长期都无法得到根本性的解决。检测机构和检测员应把检测系统做为一种辅助的文献审核工具，把检测结果作为判断的参考依据，不能完全依赖其给出的检测结果。

对于将论文检测系统应用到学生的学位论文检测、师生投稿文献方面，要防止出现“倒果为因”现象，将检测出现的问题进行修饰后从而通过检测系统，使检测工作不但未起到端正学风的作用，还助长了学术不端行为，背离了检测方的本意。

检测机构还要注意照顾受检方的心理，给出检测结果时，表达态度与行为举动要充分考虑到受检方心理的承受能力，防止因受检方心理素质不过关而出现的过激行为，造成负面的不良影响。

无论是哪种文献检测系统，都是一把双刃的利剑，关键是在于运用它的人。检测者应握起它来捍卫学术，最终让它成为学术界的达摩克利斯之剑，还学术界一个清新安宁的科研氛围。

［1］张旻浩，高国龙，钱俊龙.国内外学术不端文献检测系统平台的比较研究［J］.中国科技期刊研究，2011(4)：514－521.

［2］学术不端文献检测系统宣传册.［EB/OL］.http：//check.cnki.net/downloadfile/.［2014－01－13］.

［3］万方数据相似性论文检测.［EB/OL］.http：//check.wanfangdata.com.cn/.V.［2014－01－13］

［4］学术不端文献检测系统用户手册.［EB/OL］.http：//check.cnki.net/Article/downloadf/Index.html.［2014－01－13］.

［5］周莉华.取舍之间：如何正确判断学术不端及专家意见［J］.出版发行研究，2013(3)：79－81.

［6］朱大明.研究型论文与综述型论文引文量的对比分析［J］.编辑学报，2010(1)：33－34.

［7］谭华，崔洁.学术不端文献检测系统的使用建议［J］.编辑学报，2010(2)：153－155.

(赖宁编发)

Comparative Analysis Study of two Chinese Literature Detection Systems

Wang Qian Fan Xiaopeng Liu Jieyun Xiang Zhen
(Zhejiang Gongshang University，Hangzhou，Zhejiang 310018，China)

It is an urgent problem to prevent academic fraudulent practices and offer good academic atmosphere in present academia.Many domestic institutions have used different literature detection system in paper detection.The paper analyzes and compares domestic two mainstream literature detection systems and points out what should be paid attention to during detecting so as to help checkers to check papers.7 refs.

Literature detection system.Paper detection.Academic misconduct.Academic fraudulent practices.

G25

1003－7845(2016)06－0049－04

王倩，馆员，范晓鹏，副研究馆员;刘洁云，副研究馆员;项珍，馆员;现在浙江工商大学图书馆工作。

2016－03－20

* 本文系浙江工商大学2015年高等教育研究立项课题“高校论文检测系统的应用与实践研究”(项目编号：xgy15079)研究成果之一。