学术不端检测的难点及对策

2019-02-13 01:57孙雄勇
中国科技期刊研究 2019年1期
关键词:不端学位学术

■孙雄勇 耿 崇 申 艳

同方知网数字出版技术股份有限公司,北京市海淀区西小口路66号中关村东升科技园 100084

学术不端行为是全球学术界普遍存在的现象,具有非常大的危害,必须采取有效措施来全面抑制学术不端行为。由于科研从业人员数量大、涉及的范围较广,因此不能完全依赖于科研人员的道德自觉或学术伦理、学风建设,而必须借助于他律性、常规性的制度来加以约束。建立与完善有助于学术活动健康发展的管理体制与运行机制,才是防范与杜绝这些不良现象的最好办法。

长久以来,主要通过举报、民间打假等办法来发现学术期刊出版过程中存在的学术不端行为,不仅效率低、准确率不高,而且容易带来其他负面影响,如因为个体事件造成公众对学术界的怀疑、攻击。2008年年底,同方知网的“学术不端文献检测系统”问世,实现了对我国学术期刊出版过程中稿件内容的技术性手段监管,大量存在抄袭剽窃行为的学术论文被发掘出来,从而有效遏制了学术不端现象的进一步蔓延。

学术不端研究也已成为近年的研究热点,已有的研究主要集中在学术不端行为的起因、防范措施、技术检测等方面[1-7]。虽然学术不端现象得到一些遏制,但还是没有完全消失。“道高一尺,魔高一丈。”随着技术的发展,许多隐性学术不端行为悄然出现,如抄袭内容的部分改写、图片改写、外文翻译、代写代发论文等,许多编辑部也针对这些现象进行了探讨,并总结经验供业界同行参考[8]。但是学术不端行为的检测需要强大的技术支持,针对隐性学术不端检测的难点,同方知网数字出版技术股份有限公司对论文检测技术进行深入探索,采用神经网络方法对检测技术进行升级,并取得了一定的效果。本研究针对学术不端检测中出现的难点问题,从技术、使用规范以及制度等角度提出解决方案,以期帮助期刊界同仁更好地发挥学术不端检测工具的最大功效,为科技期刊遏制学术不端提供有力的技术支持与保障。

1 学术不端检测现状

利用中国知网学术期刊数据库,通过对2013年到2017年发表在学术期刊上的文献进行检测,对各重复比例的论文数量占当年总文献量的比例进行统计分析,结果如图1所示。可以发现:高重复比例论文占比明显下降,其中重复比例超过50%的论文占比的下降尤为明显;2015年之后,高重复比例论文占比一直保持着较低的数值。

另外,对985院校博士学位论文进行了检测,结果如图2所示。可以发现,各重复比例的论文占比变化过程中存在两个较为明显的“拐点”:2009年,学术不端文献检测系统在高校研究生培养单位大规模推广应用;2013年,《学位论文作假行为处理办法》颁布[9]。

图1 2013—2017年已发表文献的重复比例变化情况

图2 985院校各重复比区间的博士学位论文占比的年度变化情况

重复比区间为[30%,50%)以及[50%,100%)的学位论文占比总体上呈逐年下降趋势;重复比区间为[10%,30%)的学位论文占比在“拐点1”前变化相对无规律,之后呈先升后降趋势;重复比区间为(0,5%)和[5%,10%)的学位论文占比在“拐点2”之后呈平缓上升趋势。

上述统计数据表明,论文中的抄袭剽窃等学术不端行为已经得到了明显遏制,其原因主要包括以下几个方面。

(1) 政府等主管部门高度重视科研诚信,相关政策日趋完善。教育部、科技部近年来陆续出台了一系列相关的政策文件,2018年,中共中央办公厅、国务院办公厅正式印发了《关于进一步加强科研诚信建设的若干意见》,各级单位对学术不端行为的处理措施越来越完善,处理效率也越来越高。

(2) 社会各界态度更为理性、客观,主管部门行动更加积极、自信。以前,许多单位对内部发生的学术不端问题避而不谈,或者内部处理,不向社会公布处理结果。而现在,越来越多的单位将处理结果主动向社会公开。

(3) 抄袭检测等信息技术的普及使用。2008年,同方知网发布了“学术不端文献检测系统”,目前该系统在各行各业治理学术不端行为的活动中发挥了重要作用,帮助发现了一大批抄袭剽窃行为,有效遏制了学术不端行为的发生。

(4) 作者科研诚信意识增强。随着越来越多的学术不端事件曝光,以及各种诚信教育的开展普及,科研人员越来越清楚和明白科研诚信是学术研究的底线。

但这并不能代表学术不端得到了根本遏制或杜绝,各类学术不端事件仍时有发生。从统计数据上也可以发现,仍然有存在抄袭剽窃等学术不端行为的论文没有被检测系统发现而发表出来。因此,改进检测手段,规范检测系统的使用,加强科研诚信建设仍有大量的工作要做。

2 学术不端文献检测系统使用模式分析

学术不端文献检测系统已经广泛应用于学术出版、教育、科研等领域,知网对检测系统的使用情况进行了跟踪调查,发现检测系统在各个领域和各个单位的使用模式千差万别,而使用模式对检测系统所产生的效果影响巨大,在科研诚信建设过程中所发挥的威力也大不相同。

2.1 期刊使用模式

学术出版是最早使用学术不端文献检测系统的领域,十年来,各个期刊编辑部已将文献检测作为期刊编辑部审稿环节之一,所有编辑部收到的稿件都需要经过检测系统的检测处理。在使用过程中,各个期刊编辑部逐渐形成了各自的系统使用模式。使用模式的不同,在学术不端处理上产生的效果也大相径庭。期刊对学术不端文献检测系统的使用模式主要包括:(1)设定阈值,稿件的重复比例超过某个设定数值时,直接拒稿,或走比正常流程更加严格的单独审核流程,或将检测报告返回给作者修改,等作者将重复比例降低后再接收;(2)不设定阈值,将检测结果作为参考依据,由编辑和审稿人审核认定,并给出处理意见。

2.2 学位论文审核使用模式

目前,许多高校都制定了和学术不端文献检测系统相应的管理制度,如规定学位论文重复比例超过某个“阈值”,后期核实存在抄袭剽窃后,会相应地受到返回修改、延期答辩、延期毕业、取消学位授予等不同程度的处罚。在使用模式上,学校的做法也存在很大不同,有些高校只给予学生一次学位论文检测机会,出现抄袭剽窃问题时就会受到相应处罚;而有些高校允许学生进行多次检测,只要学生在提交论文截止日期之前能提交合格的版本就行。从实际使用情况来看,不同的使用模式在学生中产生的威慑效果存在明显区别。允许学生进行多次检测的高校,在执行过程中如果不对多次提交的论文作出明确要求,存在学术不规范、抄袭剽窃的学位论文初稿数量会更多。

2.3 人事职称管理使用模式

目前,学术不端文献检测系统也应用到各行各业的职称评审及人才选拔等活动中,对候选人的论文进行审核评估,防止利用存在学术不端行为的论文作为评审材料。各单位对待评审材料的方式也存在很大区别。有些单位发现涉嫌抄袭论文,人工论证后,取消候选人评审资格;但也有部分单位的做法仅是要求候选人更换其他符合要求的论文继续参与评审,而不会对候选人有其他相应处理。

各单位采取的模式和措施对检测系统的使用效果、对学术不端的处理结果都有较大影响,甚至有些措施采取的不够完善,结果还适得其反。对于采取的不同使用模式,究其原因,主要是因为目前业界还缺乏相应的学术不端处理制度和完善的处理流程,处理流程和调查机构大都是单位内部规定,其中的不明确因素较多,一旦涉嫌学术不端处理,存在很大争议,结果也往往难以令人信服。例如广西某学院的“院长论文抄袭事件”就是如此。

3 当前学术不端检测难点及对策

随着学术不端文献检测系统的普及使用,网络上也出现了各种规避检测技术的手段,甚至有人还写成了一本“反抄袭检测”的攻略;还有专门针对目前的使用模式和管理漏洞而形成的“论文撰写策略”等,这给学术不端检测带来了新的问题和挑战。根据知网从不同渠道获得的反馈信息,目前主要存在大面积改写以降低文字重复比例、将文字内容转成图片以规避检测、“Google翻译方法”规避检测、论文代写及买卖等规避学术不端检测的方法[10],知网针对这几类规避方法所导致的技术难点进行了专门的研究,在一定程度上就如何改进学术不端检测提出了新的解决办法,但要想完全解决这些难点,还需要技术提供商、期刊编辑部以及相关部门单位加深合作,人机结合,让学术不端检测工具发挥出更大的作用。

3.1 大面积改写以降低文字重复比例

利用计算机来分析论文是否存在抄袭,主要是根据文字的相似程度进行判断。因此,有些作者就会对文章进行大面积改写,以此来规避检测。图3所示为大面积改写论文的真实案例。对于以字词为基础的比对分析技术来说,这种改写就可以规避检测,蒙混过关。

图3 大面积改写的真实案例

针对这种情况,同方知网采用神经网络方法对学术不端文献检测系统对比对技术进行升级,从而实现对这一类改写行为的有效检测。同时,知网根据实际使用情况,对该检测系统的运行模式进行了改造,对观点类内容进行“意思抄袭检测”,而对其他内容,仍保留原来的检测方式(图4)。

图4 中国知网学术不端文献检测系统的检测过程

3.2 将文字内容转成图片以规避检测

由于一般的检测系统只是对文字内容进行检测,对图片等不作处理。因此,有些作者就将涉嫌抄袭的整段文字变换为一张图片,然后将这张由文字组成的图片插入到Word文档的相应位置(图5),不仅肉眼很难分辨出来,一般的检测系统在处理的时候也会忽略这张图,从而检测不到抄袭行为。针对这一现象,知网的学术不端文献检测系统专门引入了光学字符识别(Optical Character Recognition,OCR)技术,对论文中的图片进行自动识别,根据识别结果,利用数据分析手段,自动判断哪些是刻意由文字转换成的图片,哪些是正常图片,从而有效地保证了检测结果的准确性。2018年,这一功能被嵌入到学术不端文献检测系统,引起各大使用单位的广泛关注,并发现了一批试图利用图片规避检测的行为。

图5 将文字内容转成图片的案例

3.3 “Google翻译方法”以规避检测

一些作者发现经翻译软件翻译之后,论文的语句发生了变化,因此他们就找一篇已正式发表的论文,采用Google在线翻译服务把论文翻译成英文;然后再将翻译好的英文用Google在线翻译服务全部转回中文;最后,作者把得到的中文文献中的语病进行修改,一篇新的论文就完成了。针对这一行为,目前,知网的学术不端文献检测系统已经支持中英双语对照检测和语义检测,即“翻译抄袭”也可以被检测出来,只要比对库中存在相应的语种文献,就可以实现检测。自该功能上线以来,知网的学术不端文献检测系统已经发现了6000多篇涉嫌翻译抄袭的文章,而对于这种翻译之后再翻译的情况,该检测系统也有了较好的语义检测技术,基本上可以发现此类学术不端论文。

3.4 论文代写及买卖

根据电商平台方面的检索信息发现,论文买卖在现实中真实存在,且交易额巨大,涉及的行业也很广,这种行为对整个学术环境和科研环境造成的影响十分恶劣,是一种极其严重的学术不端行为,但这种学术不端行为的发现难度较大。目前,知网已经完成了一些数据方面的分析以及文章写作风格的分析实验,初步实验证明,技术手段可以为论文代写和买卖提供一些有效的线索。例如,笔者对某论文网站的文献进行分析时,发现一系列关于“茶文化”的文章,涉及的领域千奇百怪,通过大量的数据分析,可以获得一些规律来判断一篇论文是否存在代写的可能性。此外,也可以对大量文献的数据进行挖掘分析,从用词、句子、段落等维度分析作者的写作风格,分析同一作者的不同论文,或者同一论文里的不同部分,判断写作风格是否相似,如果不相似,则存在代写和买卖的可能。

4 制定相关规章制度并加以规范使用以更好地发挥技术工具的威力

构建学术诚信工作体系,遏制学术不端行为,需要社会各界共同努力,加大科研诚信教育,改进评价考核制度,大力宣传优良学风等。更需要作为政策制定和推行的行业相关主管部门从整体着手,采用包括技术手段、管理手段和教育手段等在内的多种手段和方法来推动各个行业的整体进步。具体而言,笔者认为应该加大以下几个方面的管理和执行力度。

4.1 加强行业交流,形成对技术工具的使用规范

当前学术不端文献检测技术虽然存在一些不完善的地方,但对于发现学术不端行为、遏制学术不端现象发挥了不可替代的重要作用。同时也发现,在一个行业,例如期刊界,各个期刊编辑部对学术不端文献检测系统的使用千差万别,一些期刊编辑部没有在实际工作中利用好这一技术工具,也没有学习其他期刊编辑部的先进管理制度的机会和渠道。因此,加强行业交流,分享好的经验,形成一个行业内使用学术不端文献检测系统的规范流程是一件重要的工作。

4.2 各级各类单位要更主动拥抱信息技术

自学术不端文献检测系统发布以来,一直有一种声音认为,由于技术工具存在不完善的地方,功能还不够强大,或者是使用模式存在一些问题,因此使用技术工具来检测文献存在的学术不端,反而会带来更隐蔽的学术不端现象。随着这10年的发展,学术不端文献检测系统已经较为成熟,功能也较为强大,可对文献中存在的抄袭剽窃等学术不端行为进行准确判断,并可以作为各单位治理学术不端的有效措施之一。因此,各级各类单位应该更加主动积极地拥抱技术工具,制定相关的规章制度,主动采取措施来遏制学术不端行为的发生。

4.3 加强论文完成的过程管理

无论是在期刊上发表的学术论文还是学位论文,在论文完成的过程中,如果实现了对论文全过程的有效监控管理,就可以有效遏制论文的代写买卖:编辑可以通过论文完成的过程管理来了解投稿作者的论文完成过程;高校导师可以通过论文完成的过程管理来了解到学生学位论文的完成情况。只有加强过程的管理,才能从源头上有效遏制学术不端行为。

4.4 非涉密论文公开化

对各类论文如学位论文应采取积极主动公开的措施。学位论文公开化,就是将非涉密的学位论文在网络等开放环境中公开,允许公开查阅,接受社会公众的监督,能有效杜绝作者的作假行为,也增加了学术不端行为被发现的概率,从而敦促学生认真对待自己的论文,提高学位论文的写作质量,也控制了学术不端行为的发生。

4.5 对学术论文进行监控和定期检查或抽查

目前,我国的论文产出数量已经跃居世界第一。在目前的条件下,结合技术工具,我们已经完全可以实现对学术论文的全方位监控,再结合人工,对疑似学术不端的论文进行定期检查或抽查不失为一个可行的办法,可进一步预防学术不端行为的发生。定期检查可避免出现一时蒙混过关的情况,也给作者带来更大的威慑力,以敦促作者认真撰写论文。此外,随着社会的发展,知识在不断发展,在学术论文归档后一定年限内对其进行检查,也能有效避免作者盗取国内外尚未传播的他人成果等类似行为的发生。

猜你喜欢
不端学位学术
关于采用《科技期刊学术不端文献检测系统(AMLC)》的声明
学术是公器,不是公地
教育部就学位法草案公开征求意见
学术动态
论文作者学术不端行为类型
《中国粮油学报》关于学术不端稿件的认定和处理办法
对学术造假重拳出击
『博士后』是一种学位吗?
英国大学本科一等学位含金量遭质疑
《中国医疗美容》学术不端检测方法