唐银辉,岳鸿伟,朱宝林
(1.金陵科技学院学报编辑部,江苏 南京 211169;2.金陵科技学院党委组织部,江苏 南京 211169)
加强学术规范是净化学术生态环境、推动我国科学研究取得实际成果的基本保障。随着“互联网+”时代的来临,虽然学术共同体、学术期刊、学术管理部门在学术规范建设与学术失范的防控中也适时采用了新的信息技术手段,但学术失范(主要包括学术不端和技术性学术失范两大类)在我国却呈愈发严重之势。技术向来是一把“双刃剑”,现代信息技术虽然为学术失范提供了更加便利的技术手段以及生存土壤,但其也为学术规范的建设与学术失范的防控提供了技术支持和解决问题方案。研究现代信息技术在学术规范建设中的逆向作用机理,将现代信息技术嵌入学术规范运行机制中,借助其“他律”和“自律”两种机制引导我国科研人员遵守学术规范,具有重要的现实意义。
现代信息技术是借助计算机技术和电信技术相结合形成的手段,对声音、图像、文字、数字和各种传感信号等信息进行获取、加工、处理、储存、传播和使用的能动技术。现代信息技术是一个外延非常广的技术群,它包括计算机技术、网络技术、通信技术、电子技术、控制技术等。现代信息技术为学术失范提供了极大的便利,“互联网+”时代学术研究更容易失范。
论文为作者的原创成果是论文能在学术期刊发表的基本要求,然而现代信息技术与互联网的融合发展给研究者抄袭剽窃带来了前所未有的便利。当下,研究人员可以便捷地在互联网上查阅到研究所需文献,并通过文字复制抄袭剽窃他人研究成果。借助相关翻译软件,这种抄袭剽窃还可以跨国界、跨语言。
抄袭剽窃是比较显性的学术不端行为,而照搬他人研究方法并伪造篡改研究数据以形成一篇新的论文则是比较隐性的学术不端行为。当下,许多计算机软件系统给研究者伪造篡改数据提供了便利,如研究某一现象的发生与哪些因素有关,经常会用到SPSS等统计软件,使用者将研究数据导入软件,软件就可以自动进行相关性分析,根据其运行结果,便能判断自变量与因变量是否有关,若有关,是正相关抑或负相关,相关度大小如何。如前所述,技术是一把“双刃剑”,研究者也可以利用这类软件伪造篡改数据,如通过不断修改数据并导入SPSS软件来调整论文中的数据,最终使数据之间呈现出研究者想要的相关性以及表面上的合乎规律性,最终形成一篇看似新颖且具有科学性的论文。
现代科学研究的逻辑起点一般是前人研究成果,研究路径是在前人研究的结论上深化研究,自然科学抑或人文社会科学研究概莫如是。可见,一项学术研究的起点是查阅前人相关研究文献。在互联网出现以前,研究者一般是在图书馆或专业资料室查阅纸质文献,这些基本都是一手文献。进入21世纪,现代信息技术与互联网的深度融合发展将学术信息的传播带入一个全新的数字时代。当下研究者查阅前人文献基本是通过互联网在各种学术文献数据库中检索相关文献,查找各种数据、信息、案例也基本通过互联网。然而,互联网上的信息纷繁复杂,特别是自媒体信息(如个人学术博客)缺少同行评议和编辑把关,信息的真实性、可靠性有待商榷。如果研究者不加以证实就引用互联网上的信息,例如错误的数据、不实的例证或者引用网上二次甚至三次文献,很有可能在不同层级的引用中出现无意识的人为错误,最终导致在论文中出现一些技术性错误,从而造成技术性学术失范。如果研究思路或实验方法来源于网络上错误的或不实的信息,则会导致整个研究结论错误。因此,对于网络上的信息,研究者还应保持一种质疑的态度。
编辑无意识犯错也是比较典型的技术性学术失范行为。对于文责应该由作者自负还是由作者与编辑共负,一直存在争论。笔者倾向于赞同文责共负,因为编辑是学术论文发表前的把关人,而把关的内容不仅包括文字,还包括内容。在文章发表过程中,编辑也可能因知识欠缺或无意识犯错,导致学术质量不高的论文得以发表。如编辑没有深入把握文章的专业内容,将文章送给专业不太对口的专家审稿;编辑没有核实作者推荐的专家联系信息,将文章误送给作者中意的专家更甚至是虚假的专家来审稿,如此获得的审稿意见,不是质量不高,就是虚假不实。
学术规范“他律”机制主要是防范学术不端这类学术失范行为的发生。信息技术的飞速发展和不断提高,使得新的计算机技术和信息处理方法在防范学术不端中具有广阔的应用前景。
当下国际国内学术论文发表数量与日俱增,网络学术信息爆发式增长,学术不端愈演愈烈,已成为国际性问题,而仅依靠编辑人工查阅资料来判断论文是否存在抄袭剽窃行为已是天方夜谭。因此,国内外有关机构研发出学术不端文献检测系统,利用计算机技术来检测论文是否有抄袭剽窃嫌疑。
在国外,比较权威的、使用广泛的英文学术不端文献检测系统是Cross Check,该软件是国际出版链接协会(PILA)管理的非营利性会员制协会组织CrossRef与iParadigms公司共同开发的反剽窃文献检测系统。Cross Check包括一个基于全球大量学术出版物的庞大数据库和一个基于网页的检验工具。依靠行业中最先进的搜索技术建立的持续增长的庞大数据库是Cross Check的核心,目前该系统拥有海量学术文献比对资源,包括来自学术著作、书籍和会议论文集的文献,来自期刊、杂志已发表论文的文献以及海量网页。
在国内,使用比较广泛的学术不端文献检测系统是中国知网(CNKI)科研诚信管理系统研究中心发布的科技期刊学术不端文献检测系统(AMCL)和社科期刊学术不端文献检测系统(SMLC)。AMCL和SMLC支持从词、句子到段落的数字指纹定义,并可对图、表等特殊检测对象进行基于标题、上下文、图表等内容的相似性检测处理[1]。其后,万方数据和维普资讯也相继推出WFSD和WPCS。此外,还有PaperPass——主要面向广大高校毕业生的检测系统。PaperPass的比对指纹数据库由超过9000万种的学术期刊和学位论文以及一个超过10亿数量的互联网网页数据库组成。与PaperPass类似的检测系统还有百度论文检测平台、PaperRight等[2]。
国内外现有学术不端文献检测系统的工作原理,主要是将待查询文献上传至相应的检测系统,并与检测系统文献数据库中的所有数据进行文字比对,得出文字复制比。但这主要能防控显性的抄袭剽窃行为,而更隐蔽的学术不端行为,如借助翻译软件跨语言抄袭、剽窃他人学术思想则不易被发现。
人工智能(AI)最初是在1956年的达特茅斯人工智能夏季研究会上提出的。AI是研究如何制造智能机器或智能系统来模拟人类智能并延伸人类智能的科学。虽然AI早在1956年就被提出,但AI技术获得迅猛发展并得到广泛应用则是在2016年及以后。任何智能的发展都是一个长期的学习过程,而这一过程离不开数据的支持。随着大数据、云计算、深度学习、图像和语音识别等信息技术的发展和大量资本的涌入,第三次人工智能浪潮席卷全球,当下AI技术的应用已经渗透到许多领域。第三次人工智能浪潮的基石是大数据[3]。在学术不端防控领域,“大数据+AI”也能创造出良好的应用范例。
1.将机器翻译技术嵌入学术不端文献检测系统,防控跨语言抄袭行为。美国科学家Warren Weaver于1947年提出了利用计算机进行语言自动翻译的想法[4]。经过几十年的努力、挫折、沉寂、复苏,自2011年开始,伴随着语音识别、机器翻译技术、DNN(深度神经网络)技术的快速发展,智能翻译成为当今信息处理领域新的研究热点。机器翻译是AI的一个应用分支,其是通过计算机把一种自然语言转换成另一种自然语言的过程,用以完成这一过程的软件系统称为机器翻译系统。目前,在国内科大讯飞在智能翻译方面做得较好,如果国外与国内的学术不端文献检测系统可以互联互通,并在嵌入科大讯飞的智能翻译技术后,“大数据+机器翻译”将构建一个跨语言智能分析检测平台,那种比较隐性的跨语言抄袭剽窃行为将无所遁形。
2.将深度学习嵌入学术不端文献检测系统,防控学术思想的剽窃行为。机器学习也是AI的一个分支,其经历了浅层学习和深度学习两个阶段。在很多时候,机器学习几乎成为AI的代名词。机器学习就是通过算法使机器能从大量历史数据中学习其中的规律,从而对新的样本做智能识别或对未来做预测[5]。机器学习立足于神经网络,并在此基础上发展出多层神经网络,从而可以进行深度学习。深度学习的目的是构建并模仿人类大脑的神经网络进行分析学习的过程,进而模仿人类大脑来解释和分析数据,如识别与分析图像、声音和文本数据,自动完成数据表示和特征提取,通过深度学习获取有效的数据,从而实现对数据的理解[6]。可以预见,如果学术不端文献检测系统能通过深度学习,理解后台文献资源库中文本和图像(图表、公式推导)的含义,即能“读懂”文字和图表,那么原来无法检测的将文字意思转换为图表表示或将图表转化为文字表述的抄袭行为将会被发现,甚至在理解全文文义的前提下,抄袭他人研究思想也可能被检测系统发现。可见,“大数据+深度学习”将构建出一个类似人脑的人工智能分析检测平台,隐性的学术思想剽窃行为也将原形毕露。
学术规范“自律”机制主要是防范技术性学术失范行为的发生。技术性学术失范多缘于缺乏相关学术规范知识,或疏忽或无意识犯错。加强学术规范教育与学习,大胆设想,谨慎求证,技术性学术失范大多可以规避。为了防范科研人员因无知而犯错,学术研究或管理机构有责任对学术研究人员进行技术规范教育和科研诚信教育。当下,美国一些大学已普遍开设学术规范课程,而我国在学术规范教育方面还需要加强。学术研究机构应加强对技术性学术失范案例及有关数据的收集,并利用大数据分析技术挖掘与预测技术性学术失范的主要内容与方式,有针对性地开设线上、线下学术规范课程;还可以充分利用互联网强大的信息传播功能,在相关网站或微信公众号中加强学术规范的宣传教育,使研究人员在学术规范限定的范围内开展研究工作;同时,还应帮助研究人员培养谨慎求证的学术研究精神,对于二次、三次文献一定要利用各种信息技术手段去查找原始出处,以防止引用不当这类技术性学术失范行为的发生。
在防控技术性学术失范方面,编辑也应提高职业敏感性,有效利用现代信息技术避免因个人疏忽而使学术质量不高的论文得以发表。首先,编辑可以从论文参考文献中寻找专业匹配的小同行专家来审稿。论文的参考文献通常与论文的专业研究范围相近,其中有些参考文献的作者就可能成为编辑要找的小同行专家,在锁定某一专家后,编辑可以通过学术文献数据库、学术博客、专家所在机构网站等寻找并邀请其对论文进行专业把关。其次,编辑应认真核实作者推荐的审稿专家的所有个人信息,特别是用于联系专家的E-mail地址,可以借助国内外学术文献数据库查找专家已发表的论文,这其中可能就有该专家的E-mail地址。最后,编辑可在期刊网站、投稿系统或期刊微信公众号中列举常见的学术不端行为、注意事项、参考文献著录要求与规则等,帮助作者正确区分合理引用、过度引用、抄袭剽窃等行为,进而引导作者规避技术性学术失范行为。
学术规范产生作用依赖于自身的运行机制,即“他律”机制和“自律”机制。在“互联网+”时代,将现代信息技术嵌入学术规范运行机制,充分发挥其对学术规范建设的正向作用,将有助于学术规范更有效地规范研究者的学术行为。