基于CrossCheck论文防剽窃系统的稿件处理策略分析
——以《数学物理学报》(英文版)为例

2019-11-20 01:40黄睿春张玉平
中国科技期刊研究 2019年10期
关键词:审稿人不端稿件

■黄睿春 张玉平

1)武汉大学《数学杂志》编辑部,湖北省武汉市武昌区八一路299号 4300722)《数学物理学报》编辑部,湖北省武汉市武昌区小洪山西30号 430071

“日益增长的论文投递数量和捉襟见肘的同行评审数量之间的矛盾”成为当今学术界的突出问题[1]。期刊出版行业经历了传统出版、数字出版、网络出版、移动终端的在线浏览,以及现在的人工智能融合出版,科技的发展深刻影响并改变着出版业的发展,一些快捷、高效的网络平台搭建可为科技期刊传播过程中的相关主体提供更多便捷服务。由CrossRef首创并与iParadigms公司共同开发的CrossCheck论文防剽窃系统为学术期刊审稿工作带来了便利,尤其是在稿件处理初期,编辑可借用该工具对稿件进行更为客观的判断——是否存在学术不端现象,能否直接送同行评议等,进而优化稿件处理流程,将有限的评审专家资源以及专家的精力用于对稿件所讨论核心问题的甄别。基于此,《数学物理学报》(英文版)在成为CrossCheck会员后,除了利用该工具检测学术不端现象外,还对利用CrossCheck论文防剽窃系统指导编辑部的稿件处理进行了探索,以提高审稿效率和质量。

根据CrossCheck中文网站的介绍,CrossCheck论文防剽窃系统是一款用于帮助学术出版者验证出版文档原创性的学术工具类系统。它的功能由两部分组成:由全球学术出版物组成的庞大数据库和基于网页的检验比对工具,支撑中文、英文、韩文等语种的论文检测查重,2008年6月19日正式向全球发布。2009年,林汉枫等[2]介绍了《浙江大学学报(英文版)》作为中国第一家会员应用CrossCheck系统的实践与体会;2011年林汉枫等[3]再向期刊界介绍了CrossCheck的工作模式和规范标准。令人遗憾的是,随后的研究寥寥无几,直到2017年和2018年,《哈尔滨工业大学学报》和《高等学校化学学报》的编辑才分别发文报道了CrossCheck系统在学术不端防治中的应用。当前研究主要集中于CrossCheck系统的功能和特点的介绍,以及基于其检测功能对学术不端现象及对策分析[3-5],亦或基于CrossCheck的不同学科典型抄袭案例调查报告以及CrossCheck查比规范的研究[6-8]。虽然文献[3]中提到CrossCheck检测报告结果中的总相似度和单篇论文相似度两个重要的参考值,提出利用几个关键的相似度值指导稿件的送审工作,却没有对相似度与审稿结论的关系进行详细对比分析。这些研究虽然能让人们了解CrossCheck系统的功能、优势及其在学术不端发现上的应用,但是对CrossCheck的应用与讨论仅停留在重复度检测以发现学术不端行为上。本研究立足于学术共同体各自的需求,深度利用该软件的查重功能,充分参考CrossCheck检测报告的参数值,以提高编辑部初审稿件的效率和质量,进而在减轻审稿专家负担,规范作者的投稿,遴选合适审稿人等方面给出合理的建议。

1 研究方法及数据来源

本研究选择中科院物理与数学研究所主办的《数学物理学报》(英文版)为研究对象。该刊创办于1981年,双月刊,SCI收录期刊,曾获“中国科技期刊国际影响力提升计划”B类资助, 其影响因子在国内数学领域长期排名前列。

本研究以2017年6月至2018年6月《数学物理学报》(英文版)来稿(共计907篇)为研究样本,剔除有CrossCheck检测结果但是没有专家审稿意见的稿件共205篇,其余702篇稿件皆经过CrossCheck检测,有详细的检测报告,并通过编辑初审、同行专家审稿和编委终审,有全程审稿记录。

利用Excel软件,分别按照CrossCheck检测报告的总相似度值的两种分区对比分析CrossCheck检测结果与稿件的审稿结果,判断两者变化趋势的关系,从而给出基于CrossCheck的编辑部稿件处理策略。

2 结果分析

CrossCheck检测报告中有两类不同概念的数值:一是单篇论文相似度,它是指单篇论文重复内容所占比例;二是总相似度,它是指被检测论文所引用的单篇论文相似度的总和,包括参考文献的相似度。本研究所呈现的相似度均为总相似度。

2.1 文字相似度比对内容分析

以《数学物理学报》(英文版)为例,通过分析数学论文的检测报告发现,CrossCheck不仅能够比对纯文字,还能够比对利用相关函数书写的数学公式、表格、矢量图(图1和图2),但是不能比对图片格式的内容。因此,表1所示的总相似度在数值上为单篇论文相似度的总和,在比对内容上包括文字以及不以图片格式呈现的数学公式、表格以及矢量图。

图1 CrossCheck的数学公式比对示例

图2 CrossCheck的表格比对示例

2.2 审稿结果与总相似度划区间分析

对稿件审稿结果与总相似度值常规分类进行划区间统计,结果见表1。

从表1可以看出:总相似度在10%以下的稿件有3篇,全部被退稿;总相似度在10%~19%区间的稿件共18篇,仅1篇被录用。相似度低说明稿件原创程度高,但也说明作者的研究相对孤立,跟前人的研究关联不多,也非自身研究方向的延续,没有前人的研究成果作为支撑和基础,文章的立意从何而来,其意义何在?这可能是审稿人给予退稿的缘由,可见,并非相似度越低的文章质量越好。事实上,一篇优质的研究成果是建立在自己或者他人研究的基础上,是他人或者自己研究的延续性产物,并且具备可持续性研究的特质。

表1 CrossCheck 检测报告中总相似度与审稿结果的对比

图4 总相似度在17%~60%之间的录用稿件数量分布

总相似度区间为20%~29%和30%~39%的稿件数量共250篇,而总相似度区间为40%~49%的稿件为229篇,可见原创程度高,其稿件数量并不多,若相似部分为引用已有的研究成果来佐证所写论文的结论,那么只要推导论证的过程和结论正确,就可以判断这些稿件为原创程度较高的优质稿源。事实上,从审稿结论可以看出,这2个区间的稿件录用率最高,也就是说这一批稿件所获得的认可度最高。客观检测结果和人为判断结果基本一致。

总相似度区间为40%~49%的稿件数量在所划分的7档区间中最多,这一统计反映了目前科研工作者的常态——大多数的研究成果是以已有的研究为基础,是延续性研究的成果。

CrossCheck的检测报告对50%及以上的总相似度数值用亮蓝色背景进行突出显示,提示论文检测者注意防范初见端倪的学术不端风险。由表1可知:总相似度为50%~59%的稿件数量为146篇,录用11篇;总相似度为60%及以上的稿件数量为56篇,录用1篇,总相似度位于此区间的录用率也偏低。对高相似度论文进行进一步分析发现,如今数学研究人员习惯先将其论文上传至 arXiv.org,再提交给专业的学术期刊,由于论文已经在arXiv.org上预出版,利用CrossCheck检测时,所检测的论文与在arXiv.org上预出版的论文会呈现较高的相似度。

2.3 录用稿件结果及总相似度趋势分析

2.3.1 基本结果分布

统计显示,702篇文献中,共有119篇被录用,占比17%(图3),退稿率为83%。经统计和比对,发现总相似度小于17%的稿件被全部退稿,总相似度大于60%的稿件仅1篇预出版的稿件被录用,其余全部被退稿。鉴于此,本研究忽略了总相似度低于17%、高于60%的录用稿件的趋势分析。总相似度在17%~60%之间的录用稿件数量分布如图4所示。

图3 审稿结果分布

2.3.2 不同总相似度的稿件录用率分析

对总相似度区间为17%~60%的稿件接收率(即稿件录用率)的趋势进行分析,结果如图5所示。可以看到:这个区间的稿件录用率存在波动,且整体呈下降趋势。表明录用稿件的总相似度主要分布在17%~60%之间,随着总相似度的提升,录用率波动下降,即稿件的录用在这个区间内是倾向于录用“总相似度值低的稿件”。

图5 不同总相似度的稿件录用率分布

从图5可以看出,录用率高于50%稿件的总相似度取值有三种情况,分别为23%(60%)、22%(50%)、32%(50%)。录用率范围为40%~49%的稿件总相似度取值分别为37%(47%)、24%(40%)。可见,总相似度在20%~29%和30%~39%范围内的稿件录用率相对较高。

由图5可知,录用率的3个波峰的总相似度分别为23%、32%和37%。进一步分析可知,总相似度大于37%的稿件,随着总相似度的上升,被录用的概率逐渐下降。

3 对策与建议

CrossCheck对稿件判断与审稿人的判断存在差异,但可互补。CrossCheck对优质稿源的判断来自具体数据的统计分析,更具有客观性,但是评价指标单一;审稿人对稿件的判断来自个人的科研经验和积累,存在主观性,但是其科研经验和积累来自客观、科学的知识以及对当前学术前沿的把握,从根本来说审稿人对稿件的判断也是客观和科学的。通过以上的分析不难看出,查重软件与审稿人对稿件的判断具有一致性和统一性。因此,编辑部可以充分借力审稿人的知识积累和研究储备,深度利用CrossCheck这一工具来优化稿件送审流程、指导作者投稿、遴选审稿人。

3.1 为作者投稿提供有针对性的建议

CrossCheck若为个人使用,会收取论文检测费,根据检测论文的字数来确定收费标准,其中2万字内容的论文检测费为400元。若是知名出版商的合作期刊,则可以免费使用,比如《数学物理学报》(英文版)为Elsevier合作期刊,所有文献均可以免费使用CrossCheck进行论文检测。面对高昂的检测费,大多数作者会放弃使用CrossCheck在投稿前进行查重比对。但对于编辑部,尤其是可以免费使用CrossCheck的编辑部,给作者的收稿回执中可向作者反馈文章基于CrossCheck检测的总相似度值,让作者知晓编辑部利用CrossCheck对文章进行了比对,对于不存在学术不端行为的作者而言,能够从编辑部免费获知个人付费才能知晓的论文比对结果,有利于树立期刊的良好服务形象;对于存有学术不端行为的作者则是一种警示,利用技术手段来规范作者的学术行为也发挥了CrossCheck的最大价值。

网络上有很多关于降低重复率的方法,其中一条就是利用CrossCheck暂时不能比对图片的漏洞,将数学公式、图、表都采用图片格式插入。对此,编辑部应该在投稿须知中提示作者,除了复杂的图片外,文章中的数学公式、表格和矢量图都需要利用相关软件进行编辑,不能直接插入截图。事实上,现有编辑软件的技术均支持对复杂公式、表格以及矢量图的编辑。比如:Word可以加载MathType软件来编辑复杂的数学公式,软件也具有复杂表格的编辑功能;使用非常广泛的LaTex软件同样可以编辑复杂的数学公式、表格以及矢量图。因为CrossCheck能够直接比对非图片格式的数学公式和表格,编辑部只需有针对性地对图片进行人工比对,就可在无形中减少了大量工作。同样,这一规定有利于防范作者的学术不端行为。

如有文章因引言或者引用前人研究成果后相似度过高需要反馈给作者修改时,编辑部应将详细的CrossCheck检测报告一并转给作者,让作者进行有针对性的修改,以节省修改时间,加快论文在审稿流程中流转的速度。

3.2 为编辑初审提供重要支撑

期刊编辑的最佳办刊体验就是能够借助相对权威的工具进行稿件处理。因此不管是中文稿件还是英文稿件,编辑部应该利用相关的查重软件对其进行首次筛选:一是防范作者的学术不端行为;二是根据检测报告的内容决定稿件的处理流程。

对总相似度高于60%的稿件,编辑部应筛选出在arXiv.org预出版的文章,对此类论文可直接进入同行评议流程,其余则不宜进入同行评议流程,而是应该将比对结果反馈给作者,特别对有明显抄袭痕迹的文章,编辑部应对其作者设置黑名单,并将编辑部的决定告知所有作者,第三方的严格监管对作者科研习惯的养成是有益的。

对总相似度低于10%的稿件,建议不进入同行评议流程,编辑部应将比对结果反馈给作者,同时请作者提交论文的研究背景、立论依据、添加参考文献,然后对修改后的论文再次进行检测,并结合作者的修改说明决定其处理流程。

从表1可以发现,总相似度位于40%~49%和50%~59%这两个区间的稿件数量最多。编辑部应充分利用CrossCheck来提高筛选文章的效率。CrossCheck可比对非图片格式的数学公式、表格、矢量图,因此编辑部可直接查看论文检测报告,对有明显抄袭痕迹的论文直接作退稿处理,并将编辑部处理意见告知所有作者。对于在引言、前期研究成果介绍中出现的大段引用,应将文章比对结果和检测报告反馈给作者进行修改,并对修改后的论文进行检测,根据检测结果决定其处理流程。

总相似度位于20%~29%和30%~39%这两个区间的稿件应是编辑部重点关注的对象。通过以上分析可知,这批稿件是期刊的主要稿件来源,其质量决定着期刊的质量。编辑部应仔细比对CrossCheck的检测报告,若相似部分主要集中在主要结论的表述和论证过程中,建议直接退稿;若文章中插入有大量图片格式的内容,CrossCheck不能对图片内容进行比对,则应该将文章反馈给作者修改,要求将图片中可用编辑软件直接编辑的部分进行重新编辑,并对修改后的论文再次进行检测,根据检测结果决定其处理流程。如果相似部分集中在引言和已知结果的叙述上,可以直接提交同行评议,由审稿专家进一步给出关于文章原创性、科学性的判断和说明。

对于总相似度为10%~19%的稿件,参考表1中这一区间的稿件数量以及录用率,编辑部首先要对文章进行比对,然后根据检测报告来决定其流程,若相似部分集中在引言和参考文献部分,可以直接进行同行评议;若相似部分仅仅集中在参考文献上或者分散在全文非主要结论的叙述上,编辑部应请作者提交文章的立论依据,然后根据其说明来决定其处理流程。

3.3 为遴选审稿人提供重要信息来源

编辑部不仅可以利用CrossCheck减轻审稿人负担,同时还可以对审稿人进行筛选,实现审稿人的精准遴选。首先,CrossCheck虽然能够减轻审稿人负担,但不宜让审稿人知晓论文检测的具体相似度值,因为审稿人一旦知晓了文章的相似度,在对文章进行客观、公正的评价之前就有了一个基于数字的经验,在某种程度上会影响审稿人的评审。但是可以告知审稿人此文章经过了CrossCheck检测,从而让审稿人集中精力去甄别文章的创造性、科学性以及核心观点论证的准确性。编辑部前期的工作越细致,审稿人的评审工作就会越高效。

此外,CrossCheck具有强大的文献追踪功能,它能自动追踪相似文献来源,清晰标注相似段落。作者的引文习惯大致为自己或者团队前期研究成果,国内外同领域内的最新或者以往的研究成果。CrossCheck可以追踪到所有引用文献的详细信息,编辑部可利用这一功能去筛选或者定位审稿人。通过比对被检测论文和相似文献的作者地址可以获知是否为同一单位、比对基金项目编号可以获知是否为同一研究团队、追踪多篇相似文献可以发现是否有共同的合作作者,在作者简介中可以发现潜在审稿人的年龄、职称、电子邮箱,亦或者可以发现是否跟作者毕业于同一所大学等信息,回避同一单位、同一研究团队、同一师门、同一毕业单位的审稿人后,则可定位论文最合适的审稿专家。

4 结语

本研究以《数学物理学报》(英文版)702篇稿件为样本,对比稿件的CrossCheck检测报告和审稿结论,分析稿件相似度与录用结果之间的变化趋势。研究结果表明:学术期刊编辑部基于CrossCheck系统的稿件处理策略可以帮助编辑部规范作者的学术行为,高效筛选稿件、遴选审稿人,优化稿件处理流程,从而提高编辑部处理稿件的效率。

致谢感谢武汉大学信息管理学院占莉娟、叶冉玲两位博士在本文数据分析中给予的大力帮助。

猜你喜欢
审稿人不端稿件
录用稿件补充说明
本刊稿件体例要求
本刊稿件体例要求
《电源技术》2021年度优秀审稿人
本刊稿件体例要求
关于采用《科技期刊学术不端文献检测系统(AMLC)》的声明
2020年度《中国渔业质量与标准》优秀审稿人
特约审稿人遴选通知
论文作者学术不端行为类型
《中国粮油学报》关于学术不端稿件的认定和处理办法