程 翠 王 静 胡 敏 蓝 安 胡世莲
学术不端文献检测系统检测医学学术论文存在的问题及对策
程 翠 王 静 胡 敏 蓝 安 胡世莲
[摘 要]学术不端文献检测系统目前已被医学期刊编辑部广泛应用,在甄别抄袭、剽窃文章方面非常有效。但系统在检测医学学术论文时存在收录论文的统计源不全、检测技术需要改进方面的问题。同时,医学学术论文的格式和内容也容易引起检测缺失。作为编辑,对检测的结果不能简单、机械地以重复率作为稿件取舍的标准,还需要扩大筛查的统计源、发挥编辑的主观能动性、发挥审稿专家的作用等,多方面综合判断文章的价值。
[关键词]学术不端;检测系统;缺陷;主观能动性
[作 者] 程 翠,硕士,副编审,中国临床保健杂志社编辑部副主任;王 静,中国临床保健杂志社编辑部副主任;胡 敏,中国临床保健杂志社责任编辑;蓝 安,中国临床保健杂志社编辑部主任;胡世莲,中国临床保健杂志社总编辑、社长。
为净化学术环境,防止学术论文抄袭、剽窃、一稿多投、重复发表等不端行为的发生,很多编辑部都运用了学术不端文献检测系统对来稿进行筛选、甄别。目前,国内编辑部运用的多为中国知网、万方数据、重庆维普三家大型数据库推出的检测系统。笔者从2014年开始在对来稿初审时应用学术不端文献检测系统。在实际应用中发现,利用系统检测学术不端,确实便捷高效,甄别出不少抄袭、剽窃的文章。但仔细分析系统检测的结果,发现存在一些不合理的地方需要编辑修正。对检测的结果不能简单、机械地以重复率作为稿件取舍的标准,还需要发挥编辑的主观能动性,应用自己的专业知识和职业敏感性对检测结果进行分析,正确判断。
(一)收录论文的统计源不全
中国知网、万方数据、重庆维普是国内比较大型且广泛应用的文献数据库。这三家分别与国内众多期刊有合作,但三家数据库所收录的期刊并不完全重合,这就造成了各家收录论文存在差异性,而学术不端检测的技术数据就来源于每篇论文,这就会导致学术不端检测的结果差异。
中国知网、万方数据和部分科技期刊编辑部签订了独家合作协议,一旦某一编辑部签订了独家合作协议,就意味着该编辑部刊出的所有文章只能在这一数据库检索到,势必造成其他数据库的统计源文献缺失。这样,当其他编辑部检测文章的学术不端时,论文统计源势必又缩小,导致查重准确率降低。目前,医学期刊中此类现象尤为突出。中国医学会是中国医学科学技术工作者的群众性学术团体,其2015年主办的期刊达133本,是国内外医药卫生界数量最大的期刊群。这133本期刊多数居国内专业学科期刊前列。这样即使有作者抄袭了中华医学会主办的期刊文章,某一编辑部如果只在中国知网查重,就无法筛查出该文章的学术不端行为。
随着社会信息化进程的加快,人们对信息服务的要求越来越高。各大数据库陆续建成了优先出版渠道。通过优先出版渠道,编辑部可以将定稿的单篇或整期论文上传到数据库,这比常规的上传形式快2个月左右[1]。这在一定程度上解决了纸样出版的滞后问题,让新的技术和方法能更快地传播出去。但优先出版容易出现时间差,造成某一时间点各数据库的论文统计源出现差异。
(二)检测技术需要改进
学术不端检测需要计算机数据与汉语言分析相结合,段落有段落级的算法,句子有句子级的算法。而每家数据库对于同一篇文章的处理采用技术存在差异。如对文章的字段识别、语义识别,每个数据库有自己的算法和分析手段,这就造成对同一篇文章在相同数据源内检测的结果也会存在差异。同时,汉语言分析的工作量太大,需要不断地积累和更新,这就从技术层面上影响了学术不端检测的正确性。
有的作者与检测系统玩起了文字游戏,通过对语句顺序的调整、同义词替换、语句表达方式的变动躲避系统的检测。
如:高水平的血浆PAI-1是血管事件的重要危险因素,被认为是加速发生冠状动脉硬化的标志物。
系统检测为重复句。
改为:血浆PAI-1的高水平现象是引起血管事件发生非常危险的因素,对于冠状动脉硬化,它是加速催化的标志物。
系统检测不为重复句。
(一)投稿文章与学位论文相似度过高
有些作者将自己已提交的学位论文进行整理,以论文的形式在期刊中发表。而学术不端检测系统的统计源往往包括学位论文数据库。如中国知网的学术不端检测系统就包括中国学术期刊网络出版总库,中国博士学位论文全文数据库/中国优秀硕士学位论文全文数据库,中国重要会议论文全文数据库,中国重要报纸全文数据库。学术不端检测系统进行机械化的检测就会提供高重复率的结果。
(二)图表和公式等非文字类不端检测较弱
现在的数据库学术不端检测技术往往针对的是文字上的重复检测。对文章中的图表和公式等非文字类检测效果不佳,这在一定上存在了技术漏洞。有的作者利用这一技术缺陷,大量抄袭他人的图表和公式,已降低文章的整体重复率。
(三)医学论文的结构和表达易存在重复
医学论文采用的是格式化的书写形式,前言、资料与方法、结果、讨论都是统一的格式,笔者对研究的描述往往词句相似。
医学研究的数据分析都需要介绍统计学处理方法,而大多数研究的统计学处理方法都是一样的。系统机械地认为这是重复,文章的重复率自然就提高了。作为编辑,就需要根据具体内容鉴别重复率的合理性。如:采用SPSS统计软件分析数据,计量资料以±s表示,组间比较采用t检验;计数资料组间比较采用χ2检验。P <0.05为差异有统计学意义。
医学研究的结果许多都是为了临床上应用,文章讨论中经常会出现诸如“此药物治疗效果较好,值得临床上推广”的语句。这一含义是很多作者都需要表达的,但语言的表达方式有限,系统根据文字表达判定为重复,无疑提高了全文的重复率。
医学研究需要依据统一的标准和研究方法,这些内容往往被很多研究者参考和引用。这就容易被检测系统机械化判断为重复文字,造成重复率高。
如:高血压的诊断标准依据2010年《中国高血压防治指南》,心力衰竭的诊断标准依据2014年《中国心力衰竭诊断和治疗指南》[2]。
(四)综述类文章重复率易高
综述是指就某一时间内,作者针对某一专题,对大量原始研究论文中的数据、资料和主要观点进行归纳整理、分析提炼而写成的论文[3]。综述类文章往往要大量应用原文章的语句。虽文章内已标注为引用文字,但很多时候,学术不端检测系统无法识别、准确划分,仍将其归入重复率计算内容,造成综述类文章重复率普遍较高。
(五)同一研究方向的文章重复率较高
同一方向的研究往往查询的文献相同、采用的技术和方法一致,就连在术语的应用和语言的表达上也容易造成重复。若几篇文章的作者同为一个课题组,那么基础的研究方法、实验仪器、实验材料都相同,而以上内容都需要在医学论文中用文字说明,这就难免发生出版时间居后的论文重复率较高,而论文不存在抄袭、剽窃的现象。还有,在医学研究中,经常出现同一作者在前期研究的基础上继续深入,后期文章中前言文字、研究方法、研究仪器、所用材料、统计学分析等很多文字说明与前期文章一致,甚至会引用前期文章中的数据,如果按照系统的机械化检测,文章的重复率肯定过高。
(一)整合论文的统计源
目前国内尚没有一家数据库囊括所有的出版期刊内容。这就形成每家数据库的统计源都存在检索漏洞。只有整合论文的统计源,使得统计源数据越庞大、越全面,抄袭的文章被发现的概率才越高。
(二)多个数据库筛查
在没有一个囊括所有期刊的统计源供筛查的情况下,为了提高抄袭文章被发现的概率,只有手工扩大统计源。在中国知网、万方数据、维普资讯等大型数据库一一筛查。同时还可以通过百度等搜索引擎进行筛查。
(三)收稿时和发表前均需检测
论文的出版存在滞后性。有的作者急于拿到出版的期刊,同时将论文向多家期刊编辑部投稿,并按照各家编辑部的要求进行修改、交费。反复地利用学术不端检测系统进行筛查,可以帮助编辑部发现这类问题,避免文章重复出版的发生。
在编辑工作中也容易出现这样的情况。有的论文初审时重复率合格,但经过修改、编辑,文章内容有了较大幅度的改动,导致修改、编辑后的文章重复率过高。只有再次进行学术不端检测,才能发现此类问题,保证期刊的出版质量。
(四)发挥审稿专家的作用
编辑需要了解期刊所涉及的专业知识,但并不深入。尤其对专业学科内的新技术、新发展,很少有编辑能做到及时掌握。这就需要发挥审稿专家的优势,利用他们在专业领域的信息量对文章进行判断,通过审稿专家的主观分析判断文章的核心内容是否存在抄袭[4]。
(五)正确对待学术不端文献检测系统检测医学学术论文
学术不端文献检测系统的检测结果只能是编辑部筛查文章的一个参考,绝对不能仅凭系统
的重复比高低直接判断文章是否通过初审。需要根据每一篇文章的具体检测情况,结合医学论文内容的具体情况,得出检测系统能有效帮助初审但不能取代初审结果的结论[5]。
编辑要发挥主观能动性,仔细阅读文章内容,参考学术不端文献检测数据,综合判断文章质量。对于选题新颖、创新性强、有研究价值的文章,只要研究数据真实、观点鲜明,即使文字重复比较高,也不要退稿。可以跟作者沟通,引导作者围绕自己的研究结果进行阐述,改善文字表达能力,降低文字重复比。
这样,既获得了一篇好文章,也尊重了作者的劳动成果,和作者建立了良好的合作关系。同时,也提高了作者的写作能力,有利于培养优秀固定的作者群,为日后的优秀稿源打下基础[6]。
学术不端文献检测系统可以快捷、有效地甄别稿件的重复内容,但系统在检测医学学术论文时存在收录论文的统计源不全、检测技术需要改进方面的问题。作为一名医学期刊的编辑,对检测的结果不能简单、机械地以重复率作为稿件取舍的标准,要结合医学论文的特点、发挥审稿专家的优势、分析论文的内容,综合评价、判断文章的价值。
【参考文献】
[1]罗瑞,唐璞,舒安琴,等.两种学术不端检测系统对医学论文检测结果的差异性研究[J].天津科技,2014(12):71-73.
[2]郭一洁,王海军,陈宇翔,等.非瓣膜性心房颤动患者并发缺血性脑卒中的多因素分析[J].中国临床保健杂志,2016(1):4-7.
[3]王春秀.服务于高校科研的图书馆竞争情报研究[J].科技情报开发与经济,2011(9):71-72.
[4]杨晨晨.运用学术不端文献检测系统检测医学论文存在的问题及对策[J].编辑学报,20146(1):42-44.
[5]学术不端检测系统在医学科技核心期刊初审稿件中应用价值研究[J].传播与版权,2014(3):48-49.
[6]阮爱萍,马艳霞,王沁萍,等.学术不端文献检测系统在《山西医科大学学报》应用中存在的问题及应对措施[J].山西医科大学学报,2012(12):970-972.