利用文献数据库加强审稿过程中的学术质量判断

2017-01-27 07:04朱银周

中国科技期刊研究 2017年7期

■朱银周

《昆明理工大学学报》编辑部，云南省昆明市呈贡区景明南路727号 650500

我国已经成为世界学术论文大国，每年发表的学术论文数量排名仅次于美国。目前,高校和科研院所已经成为学术研究的主力军，教师、研究生和科研院所的研究人员构成了学术论文的主要作者群。2015年全国教育事业发展统计公报显示，我国在读研究生约191.14万人，其中，在读博士生32.67万人，在读硕士生158.47万人[1]；加上在职高校教师和研究院所的研究人员，学术论文作者群相当庞大。

鉴于高校的毕业规定和科研绩效考核政策，研究生为了完成论文数量，科研人员为了完成科研绩效，可能陷入只重论文数量而不重质量的误区，学术论文中隐藏的学术质量问题和论文作者的学术不端行为[2-3]，不经过严格比对和分析，往往很难发现。王文福[4]提出了网络时代学术不端行为特征和发展趋势及其网络深度挖掘方法。虽然学术不端行为的发现方法增加了，但是深度学术不端行为依然难以根除。

学术期刊编辑从大量的来稿中精选优质稿件是一项艰巨的任务。不能把判别来稿的学术不端行为完全交由计算机软件，也不能把论文的所有决断权全部交给审稿专家，学术期刊编辑应该承担起更多的学术责任。学术专业问题理应交由审稿专家决断，但是审稿专家责任心和学术水平参差不齐，学术意识和观点有所差异，利用学术期刊文献的条件和能力各不相同，往往导致同一篇稿件的审稿结果存在较大的差异，甚至有时出现已经刊发的学术论文存在严重的学术问题而不得不撤销发表的现象。针对这些问题，部分学者进行了研究，周洁等[5]归纳了收稿记录、参考文献、网络资源三种比对维度，从初审的角度评判稿件的学术质量；张淑敏等[6]从初审稿件的常规流程出发，寻求提高稿件质量和初审效率的方法。但是比对维度有限，得到的比对结果局限性很大，需要研究突破常规选稿流程的行为。

为了弥补审稿专家对稿件评判的缺陷，发掘稿件中隐藏的学术质量问题，本文主要分析一线编辑的精选稿件行为。编辑对稿件的严谨行为是学术论文质量把控的关键。编辑在精选稿件的过程中，除了依赖自己的从业经验和对应的专业知识外，还要严控稿件的处理流程。随着国内外学术期刊文献数据库的完备、跨库检索功能的完善，笔者认为编辑在选稿流程中除了对来稿格式的常规审查、检测学术不端行为之外，还应当增加基于学术期刊文献数据库的多维度的比对流程。此举主要达到以下几个目的：第一，尽量发现深度学术不端行为；第二，评判稿件的选题价值；第三，印证稿件的创新性；第四，评估作者学术影响力；第五，通过文后参考文献列表判断作者的学术态度和稿件的学术价值。

编辑能否主动、合理地利用文献数据库与提高学术期刊质量息息相关。因此，有必要进一步分析编辑利用学术文献数据库精选稿件的流程，这也正是本文的初衷所在。

1 利用学术期刊文献数据库：一般问题和方法

学术期刊文献数据库已经相对完整，各大期刊文献数据库几乎融合了国内外中英文主流期刊数据库，并且实现了跨库检索。对于编辑精选稿件而言，利用学术期刊文献数据库比对目标稿件的最大价值在于能够快速追踪到最大相似度的文献集合，可以比对文献集合中的主要文献，发现稿件中是否存在学术不端行为，研究稿件学术质量问题。

基于检索学术期刊文献数据库，不同检索系统的检索原理雷同，但是各自又有独特的个性化功能。期刊编辑应该明白以下共性的问题。

第一，检索数据源包括期刊论文、学位论文、会议论文、外文期刊、外文会议论文等，可以实现多库或跨库检索，数据源不同，检索结果也会有差异。

第二，检索词包括题名、机构、摘要、关键词、基金项目，不同检索系统的检索词略有差异，但是检索词的规范性十分重要，对于检索结果影响很大。

第三，检索词之间的逻辑关系包括与、或、非逻辑运算。根据检索结果合理选择，利用逻辑运算连接检索词，将包含多个检索词的检索结果之间的逻辑关系表现为包含、并集或不包含。

第四，分组浏览，即对检索到的文献以学科、发表年度、研究层次、作者、机构、基金分组，将同类文献放在一起增加可比性。

第五，组内浏览排序，即按照主题、发表时间、被引次数和下载数量等排序，快速找到目标文献。

第六，一般检索系统都包括普通检索和高级检索，普通检索基本满足要求；高级检索会将检索词与检索结果的匹配度分为精确和模糊两种。

对于检索结果，往往是多个检索条件的组合结果，因此，合理选择检索条件十分重要。

遗憾的是，对于使用检索到的文献，一般都不是免费的，但是高校和科研院所一般都购买了重要的期刊数据库，个人在单位所属的IP地址段内可以免费使用。

2 发现深度学术不端行为：学术期刊文献是一面镜子

学术不端行为是编辑选取稿件流程中应该考虑的第一个问题。稿件中存在严重的学术不端行为时，最重要的是在第一时间发现并且合理处置，解除隐患，严防稿件“带病”进入后续流程。

编辑一成不变地常规处理稿件的行为，有时也会对稿件质量产生负面影响，对于期刊的生存和发展埋下难以预料的结果。特别是近年来普遍使用采编系统和学术不端行为检测软件，编辑往往按照软件流程化处理稿件，缺乏个人的深度分析和见解。最为典型的莫过于检测稿件的学术不端行为，编辑往往只关注软件检测的统计结果数据，而并不进一步分析产生这种因果关系的合理性，对软件高度信赖并予以认可。

稿件中的学术不端行为分为简单的学术不端行为和深度的学术不端行为两大类[2]。简单的学术不端行为表现简单、原始，容易识别，危害程度有轻有重，可以通过计算机检测软件的检测发现，如全部或部分原样复制、原样剽窃观点、过度引用。深度学术不端行为较为隐蔽，往往深藏于文中，经过改头换面，危害程度更深，例如作者对剽窃内容重新进行意思改写，翻译外文文献并做了一些技术处理，或者将多篇同类论文的创新之处融合为一篇论文。目前，计算机软件还难以识别深度学术不端行为，需要编辑和专业人员经过深入比对、逆向分解才能发现。根据来稿的常规处理流程，编辑往往把判断学术不端行为的过程交由计算机软件处理，查看复制比没有超标即认为稿件不存在学术不端行为，便将稿件交给审稿专家审稿。根据经验，由于所选的审稿专家的研究领域与稿件内容有时难以高度吻合，加上其他各种因素，导致审稿意见有时难以准确无误，更无法进一步判断稿件中是否存在深度学术不端行为。所以，真正有经验的编辑不仅依靠检测软件判断来稿的复制比，而且更进一步依靠学术期刊文献数据库和网络数据深入判断来稿是否存在深度学术不端行为。

学术不端行为检测软件自身也存在缺陷，会作出错误的判断，因此，编辑不能过度依赖学术不端行为检测软件。这种典型情况经常出现在作者引文不规范的情况，软件往往将引用部分算作非法复制范畴，可能导致编辑与好稿件失之交臂。特别是综述论文，复制比稍高也属正常，需要具体情况具体判断。对于稿件中学术不端行为的精确剔除，除了利用常规的检测软件进行交叉检测之外，还需要将通过软件检测的稿件进行文献数据库比对。基于文献数据库的稿件比对,可以识别深度学术不端行为。

从来稿中主要的关键词、作者姓名和单位全称三个维度检索学术期刊文献数据库中的同类文献。无论从任何一个维度检索到的同类学术期刊文献，总能获得一个文献排序链条集合，比对同类文献即可。通过检索不同关键词可以获得不同学术期刊文献列表，比对与来稿题目相似度较大的文献，评判来稿是否存在深度学术不端行为。检索作者姓名，主要比对作者的历史文献，判断作者是否有过度拆分或过度引用自己研究成果的行为。检索作者单位全称，主要比对作者单位或其所在学术团队的文献，评判来稿是否存在与同单位或同一个学术团队作者之间的文献吻合的深度学术不端行为。

通过不同维度检索到的文献构成不同的排序链条，若能将稿件顺利放入文献链条中而不与其他文献产生冲突，即可证明来稿不存在学术不端问题；相反则可能存在问题。比较分析通过关键词检索到的同类文献集合与作者来稿的内容，将学科方向较为接近的文献与目标稿件进行简单的人工比对，若内容和方法均无雷同，数据和图表也不相同，稿件存在深度学术不端行为的概率较小；相反存在深度学术不端行为的概率相对较大，可以对稿件进行退稿处理或进入下一步判断流程。若编辑无法判定，但是仍然存在疑虑，可以将相关文献和待审稿件一并发送，交由专家处理。此种方法可以最大程度地剔除深度学术不端行为。此外，外文翻译为中文的稿件，特别是意译的稿件，判断难度更大。剔除翻译外文文献的学术不端稿件，只有依靠外文文献数据库，同样通过比对英文关键词检索到的外文文献集合。编辑和审稿专家都无法发现的学术不端行为，只有依靠广大读者才可能发现，但有时难免会对期刊造成难以弥补的影响。由此可见，简单的学术不端行为可以依靠检测软件，深度的学术不端行为还需要编辑的深度参与[2]。

3 分析选题价值：重在前瞻性和新兴学科

评判学术论文的选题价值是编辑选取稿件需要考虑的第二个问题，而明显的选题价值是学术论文的第一要务。学术论文的选题主要取决于是否属于热门学科，或者属于冷门学科中的热点问题。热门学科的研究者众多，不同学科领域的很多学者从不同层面进行了研究，要想挖掘热门学科中选题价值较为明显的稿件较为困难。冷门学科的研究者相对较少，要么学科已经相对成熟，挖掘创新性内容相对困难，要么属于新兴学科，研究价值尚未被真正地认知，仍属于边缘学科。但是，冷门学科中也有热点问题，特别是利用创新的方法研究冷门学科中的某些问题或者冷门学科与其他学科的交叉学科，关于这类选题的学术论文也具有一定的研究价值。关于新兴热门学科的选题的稿件是首选，这类稿件的价值一般要优于其他学科，需要编辑具有敏锐的洞察力和前瞻性。

编辑评判稿件的选题价值，主要选择主题或文题这一个检索维度。由于编辑评判稿件的选题是宏观的，更多地需要考虑比对效率，能够在较短的时间内找到最大相似度的文献，一般情况下，检索主题或文题即可。除了学科之外，更多地需要评判选题的热度，即比对通过主题检索词检索到同类文献的多个集合。按主题检索最大的好处在于检索系统只检索文献标题、关键词、摘要三部分，检索到的文献数量相对较少。检索到的每个期刊文献集合，可以按照学科、发表时间、研究层次、作者、机构和基金等分组浏览，组内文献可以按照主题、发表时间、被引次数、下载数量排序，获得更多的相关文献信息。一般文题中大多都包含论文的主要关键词，通过组合文题中的主要关键词或多个关键词，可以检索到同类期刊文献集合，从中快速找到与目标稿件的选题内容相似度最大的文献，并且浏览同类主要文献的引用及下载情况。通过检索到的期刊文献集合，可以得到以下观点。

第一，如果同类文献集合量很大，说明该学科方向研究人员众多，受研究人员关注程度高，属于热门学科或学科热度具有可持续性；相反，则说明该学科方向研究人员少，属于冷门学科的概率较大，需要谨慎对待该类稿件。

第二，对同类学科文献按时间排序，如果近期期刊发表文献较多，则该学科属于当前新兴热门学科，可予以高度关注；相反，则需慎重对待。

第三，对同类学科文献按被引频次排序，重点关注高被引文献和发表时间，如果是近三年发表的高被引文献，其学科方向具有很强的选稿价值；相反，该学科的热度可能逐渐减弱。

第四，对同类学科文献按下载数量排序，如果下载数量大并且为近三年发表的文献，说明该学科方向的持续广泛关注度较高，可予以高度关注。

第五，关注被引频次高、下载数量大的文献作者单位及其所属学术团队，该类团队研究的学科大多为热门学科，这类单位的学术团队成员为最佳约稿对象，其后续论文可重点关注。

检索词的合理组合以及相互之间的逻辑运算对检索结果的影响很大，应该根据需要,合理搭配。例如，对稿件《高校研究生深度学术不端行为的演变》一文选题分析时，可以通过“高校+学术不端行为”“高校+学术规范”“高校+学术道德”进行检索，即可得到三个角度下的文献集合。通过分组浏览和组内排序可以找到引用、下载数量最大且相似度最大的文献集合。选取文献集合中的主要文献浏览，即可获得目标稿件的选题依据。如若同类文献的引用都较低，可对稿件进行退稿处理。

但是对于新兴学科类的稿件，检索到可比对的文献数量一般相对较少，评判稿件的学术质量需要编辑综合评判，判断的准确性往往取决于编辑的前瞻性。

4 创新查证：站在同类文献基础上的创新分析

来稿的创新性查证分析是编辑选取稿件需要考虑的第三个问题。编辑对来稿的创新性评判至关重要，不能仅凭感性认识，更多要建立在与有影响力的同类文献比对的基础上，才能确保来稿的创新性，这就有必要针对来稿增加期刊文献数据库比对流程，多角度查新验证来稿内容。比对稿件创新内容，能够及时剔除缺乏创新内容的稿件。周洁等[5]主要通过稿件作者的文献列表判断稿件的创新点。张淑敏等[6]仅仅针对查重和硕博毕业论文重新投稿的时间节点问题进行讨论。这有可能难以及时发现作者故意隐匿参考文献中的重要信息。对稿件创新性评估和分析主要建立在文献数据库基础之上，构建合理、准确的检索词，通过检索词检索文献的主题或文题，得到同类文献集合。

基于文献数据库的稿件创新性比对，就是基于不同检索词检索到不同角度的同类文献的队列集合，使队列以不同关键字排序，如学科、时间顺序、引用次数、下载数量，尽量使同类文献形成不同的链条效应，将目标稿件放到不同的链条中的某个节点，通过该节点与前后的某几个关键节点对应的文献进行内容比对，得到目标稿件在内容方面与相似文献的异同信息。例如，若把目标稿件放到适合的学科排序的文献集合中，很快就能对前后几篇重要的文献与目标稿件进行内容比对，得出目标稿件是否具有创新性以及创新内容的价值；若把目标稿件放在引用次数降序的排序链条中比较，能够分辨目标稿件所涉及的内容是否为热点、焦点内容。链条效应最大的作用在于预测目标稿件的内容在未来发表后能否成为某个链条中的不可或缺的一环，与其他文献构成某个学术领域联动的完整链条。如果可行，那么该稿件将具有重要的学术价值，其创新性能够填补文献链条中某个节点空白；否则，该稿件的学术价值相对较小，需要谨慎对待。

5 评估作者学术影响力：作者历史文献及学术环境分析

分析来稿作者及其团队的学术影响力是编辑选取稿件需要考虑的第四个问题。分析作者的历史文献及其学术研究环境，对选取稿件具有重要的辅助价值。学术环境主要包括作者单位、学术团队、基金项目，以及作者合作的研究机构。

关于评估作者个人的学术影响力，很多学者利用不同的方法，从不同的角度提出了自己的看法，但是学术环境对于学术成果具有重要的辅助贡献。如今，大多科学研究趋向于国内多机构和国际化的发展态势，邓启平等[7]利用引用影响力和合作影响力两个角度反映作者学术影响力的不同方面。刘盛博等[8]以引用内容分析论文的影响力。高志等[9]综述了个人学术影响力的动态评价方法，认为论文引用是学术影响力的一个主要指标。杨波等[10]揭示了高影响力作者在科研机构中的分布规律。邹丽雪等[11]的研究成果表明高被引论文与高端基金项目相关性较大。这些学者的研究成果均表明重视作者的学术影响力十分重要，应该为编辑选稿所用。

编辑精选稿件还应当包括基于文献数据库分析作者的学术影响力和作者的学术研究环境。学术影响力决定了作者在某个学科领域的引领作用，学术环境可以辅助判断作者的学术地位和未来成长空间。为了实现作者和编辑部的共赢，不能仅凭作者稿件内容决定稿件的取舍，还应当考虑作者过去的学术成就和现在的学术研究环境，即通过作者已经刊发的学术论文的影响力、作者单位的学术影响力、作者所属学术团队的创新能力、作者基金项目的数量以及级别等外在因素的变化趋势评估作者的学术影响力。这样的做法有以“貌”取稿件的意图，因为这些外在条件在某种程度上影响了稿件的学术质量，其目的是通过与作者相关的信息预判目标稿件的学术价值，将选取高质量稿件变成大概率事件。

主要运用跨库检索的方法，分别通过作者姓名、作者姓名+单位、作者单位等词条检索文献数据库，得到不同的检索结果集合，分析检索集合，可以得到以下结论。

首先，分析作者学术实力路径。比较作者已发表文献，利用跨库检索的方法，分别检索作者的中英文姓名，主要查看作者已经刊发的学术论文以及刊发的学术期刊平台。通过作者过去刊发的学术论文，可以了解作者的学科研究方向、刊发的期刊级别、学术研究的前瞻性、论文的引用次数、下载数量。通过作者论文刊发的期刊平台，可以大致判断作者的学术实力。通过作者自身已经刊发的论文，可以判别当前稿件处于作者研究历程中的学术位置，并且可以预判稿件的未来。通过分析作者刊发论文的引用次数和下载数量，可以推断作者文献的社会影响力或学术团队研究成果的社会认可程度，亦可推断作者涉猎的学科的前瞻性。

其次，分析作者所属单位的学术影响力。通过检索作者的单位名称得到的检索集合，以文献数量、下载数量和引用次数排序，可以得到作者单位的学术影响力；通过“作者姓名+单位名称”可以得到作者在该单位的学术研究历程，同时，还可以了解作者与其他单位的合作者的文献交集。

再次，评估作者所属学术团队的创新实力。通过检索作者，查看作者在每篇文献中排名次序以及经常出现的其他作者，可以了解作者是“单枪匹马”，还是整个学术团队不断进行深入研究，以及该作者在学术团队中的学术实力。如果是学术团队的学术论文往往因为学术研究的持续性，后续论文还会不断涌现，学术研究还会不断深入，后续的论文也会不断产生。

最后，分析基金项目。通过查看作者及其团队已刊论文的支撑基金项目及其级别，可以推测该作者及其团队的学术持续创新能力。

6 分析参考文献：判断作者学术态度与学术意识的前瞻性

分析来稿的参考文献是编辑选取稿件需要考虑的第五个问题。稿件中合理引用的参考文献列表具有重要的学术参考价值，也是编辑评判稿件学术质量的重要辅助参考信息。文献[5-6]都对此有同样的看法。但遗憾的是，参考文献列表中呈现的重要信息仍往往被忽略，编辑仅仅关注参考文献篇数、著录格式正确与否、文献新旧搭配是否合适等常规信息。而稿件中引用的参考文献列表，往往能够为编辑提供判断稿件学术质量的附加信息：一是可以看到作者对同类学术研究的了解程度；二是可以窥见作者对同类研究的学术态度；三是能够看到作者当前稿件的学术创新定位和价值所在。一篇好的学术论文往往写作规范，稿件中引用的参考文献列表合理、准确无误，既可以看到同类研究的过去状况，又可以看到作者现在研究的创新性，正如钟细军[12]所认为，反映研究的科学依据和立论的基础表现了科学研究的继承特征。

稿件中引用的参考文献列表也包含了作者故意设置的陷阱，某些别有用心的作者隐藏了重要的文献信息或故意错误指向。一是学术创新性不足或没有创新性的稿件，往往在稿件所引用的参考文献列表中不列出同类重要的文献；二是存在学术不端行为的稿件往往也不列出揭穿自己行为的相关文献；三是故意列出与自己稿件内容关联度不大但是大量引用来自国内外著名期刊的文献，以提升自己稿件内容的价值。这种隐藏重要文献或者故意指向“出身高贵”而又与稿件内容相关性不大的罗列文献的行为，往往意味着稿件中可能存在学术质量问题，需要编辑慎重对待。

对待从参考文献列表中推敲出疑似存在问题的稿件，编辑不能置之不理，这类稿件存在严重隐患，需要进入文献数据库中进一步查证。对编辑而言，主要方法就是在文献数据库中，通过不同角度的检索词条检索同类文献集合，找出相似度最大的文献进行多角度比对，进一步印证稿件是否具有创新性，是否存在学术不端行为，或者其他不妥行为。总之，参考文献列表也是编辑重点关注的内容，编辑对稿件中参考文献列表的严谨行为，也可能成为判别稿件学术质量的辅助手段之一。

[1] 中华人民共和国教育部. 2015年全国教育事业发展统计公报[EB/OL]. [2017-06-08]. http://www.moe.gov.cn/srcsite/A03/s180/moe_633/201607/t20160706_270976.html.

[2] 朱银周. 期刊主体人员防范深度学术不端行为的职责分析[J]. 中国科技期刊研究,2014,25(11):1373-1378.

[3] 王蕾. 深度学术不端中的“简单问题复杂化”现象探析[J]. 中国科技期刊研究，2016,27(7):683-686.

[4] 王文福. 网络时代期刊论文隐形学术不端挖掘策略[J]. 中国科技期刊研究，2016,27(7):677-682.

[5] 周洁,钱钺,王昕. 初审中稿件学术质量的比对维度研究[J]. 编辑学报，2013,25(6):526-528.

[6] 张淑敏,辛明红,段为杰,等. 如何提高稿件初审环节的工作质量与效率[J]. 编辑学报，2014,26(4):354-356.

[7] 邓启平,王小梅. 利用LeaderRank识别有影响力的作者[J]. 现代图书情报技术,2015，31(9):60-67.

[8] 刘盛博,王博,唐德龙,等. 基于引用内容的论文影响力研究——以诺贝尔奖获得者论文为例[J]. 图书情报工作，2015,59(24):109-114.

[9] 高志,张志强. 个人学术影响力的动态评价方法研究综述[J]. 情报杂志，2015,34(11):40-43.

[10] 杨波,黄水清,白振田. 高影响力作者的机构分布模式研究[J]. 图书情报工作，2012,56(22):37-41.

[11] 邹丽雪,赵云鲜.PLoSONE发表的中国论文学术影响力分析[J]. 中国科技期刊研究，2014,25(11):1414-1420.

[12] 钟细军. 论科技学术论文创新性的初审评价[J]. 编辑学报,2010,22(2):108-110.