■谢维熙 张光耀 王贤文
大连理工大学科学学与科技管理研究所暨WISE实验室,辽宁省大连市甘井子区凌工路2号 116024
同行评议(本研究只讨论学术论文发表同行评议,不涉及科研项目和奖项评审情况)和引文分析是科研评价中常用的两种方法。同行评议是科技期刊对论文进行评价和遴选以保证发表论文质量的过程,由期刊邀请同行专家对投稿论文提出修改意见和作出评判,并将其评价作为判断文章是否能发表的主要依据[1]。引文是作者选择支撑其学术研究的理论、观点、数据和方法等研究资料,引文分析则是利用引文与学术成果的互依性进行学术评价[2]。同行评议与引文分析在学术评价中各有优缺点,随着同行评议数据的不断开放,科学工作者们可以从实证角度对同行评议和文献计量间的关系展开研究,但其研究仍受同行评议数据开放程度的限制。
本研究旨在开放同行评议的背景下,对三类论文在评审得分和被引频次方面的差异以及论文同行评议得分与被引频次的相关性进行分析,探讨论文同行评议结果与传统文献计量指标的关系,从而验证同行评议的有效性以及分析同行评议结果与传统文献计量指标在科研评价中的关系,为提高学术评价的科学性以及完善学术评价体系提供一定的参考。
同行评议最早可追溯到17世纪,一直以来在学术期刊质量控制和科研评价方面发挥着不可替代的作用[3]。传统的同行评议在实施过程中存在诸多问题[4-5],如审稿人和作者之间信任缺失、由个人利益和喜好导致不公正评价等问题[6]。
随着开放科学运动的不断推进[7],开放同行评议(Open Peer Review,OPR)以其公正、透明的优势日益受到关注并在全球多种学术期刊上得到实践,比如PLoSONE、PeerJ、BMJ等[8],与国外相比,国内关于开放同行评议的研究和实践仍处于初级阶段。开放同行评议向大众开放审稿信息,包括审稿人和作者身份信息、审稿人的建议、作者的回复以及评审结果等信息[9],评审过程的开放性使得审稿人在评审时会更加谨慎公正,这对提高审稿意见的质量和客观公正性、缩短审稿时间、完善评议过程的监督机制以及促进知识交流等都有一定的促进作用[10]。关于同行评议的开放性是否会对稿件的被引频次产生影响,Zong等[10]和Ni等[11]分别对PeerJ和NatureCommunications的同行评议数据进行分析,得出了不一致的结论:前者认为开放同行评议提高了论文被引频次,而后者则并没有发现这一效果。
Bornmann等[12]以AtmosphericChemistryandPhysics上的1111篇接收论文为研究对象,并提取论文发表3年后的被引频次,结果发现论文在各个数据库中的被引频次随着同行评议评分级别的降低而减少。Ragone等[13]调研了10本计算机领域的会议论文集,发现同行评议评分等级与被引频次呈正向弱相关。王一华[14]将IF(JCR)、CiteScore(Scopus)、h指数、SJR值、SNIP值与同行评议结果进行Spearman非参数相关分析,发现同行评议结果与这5个文献计量指标的测量结果之间呈显著正相关。Bornmann[15]研究了PLoS或F1000专家推荐评审等级与传统文献计量指标的相关性,结果发现FFa(F1000论文因子)与被引频次之间的正相关性显著。
檀旦[16]以医学信息学和糖尿病为主题,分析F1000与传统文献计量学指标的相关性后发现两者具有一定的正相关性。万昊等[17]通过对120多篇实证研究进行元分析,比较同行评议与文献计量在科研评价中的作用,结果发现两者仅存在适度的正相关性,从而提出建构在定量辅助基础上的知情同行评议模式。黄明睿[18]基于《2014年版中国科技期刊引证报告(核心版)》,采用多种计量统计方法研究期刊评价指标载文量、总被引频次、影响因子和综合评价总分之间的相互关系,结果表明总被引频次、影响因子、综合评价总分三者之间相互影响,在学术评价中起主要作用。现有的大部分实证研究表明:同行评议结果与以被引频次为基础的传统文献计量指标存在正相关关系,而且大部分研究结果显示两者的相关系数并不高。
传统同行评议背景下,审稿过程数据的封闭状态限制了同行评议实证研究的开展。随着开放同行评议的推进,大量的关于审稿数据供科研人员进行研究。本研究基于ICLR会议论文的开放同行评议数据,使用同行评议的评分来定量测度同行评议的结果,相较于以往的定性研究具有一定的优势,而且ICLR数据集除了录用论文外,还包括拒稿,这使得研究更加充实和全面。
OpenReview是一个会议论文公开评审网站, 其中ICLR(International Conference on Learning Representations)的全称为“国际学习表征会议”,是深度学习领域影响力最大的顶级会议之一,虽然成立较晚(2013年成立),但是其作为深度学习的顶级会议已经得到了学术界的广泛认可。ICLR备受关注的原因不仅是其在学术上具有较高的影响力,还在于它采取了开放同行评议制度,其公开的同行评议数据有原文题目、作者、摘要、下载链接、评审意见、作者与审稿专家以及参会人的讨论过程、审稿结果即评审得分(Rating)。在ICLR论文审稿中,会议主席对其负责的投稿作出录用与否的决策。会议主席考虑的信息包括审稿专家的评分、审稿过程中提供的证据、作者和审稿专家之间的讨论以及自己对论文的评估等等(1)①来源于作者与ICLR项目主席的邮件通信,ICLR项目主席的邮件原文为:“Within the ICLR review process, Area Chairs make an accept recommendation for each submission in their respective batch. Area Chairs are asked to take into account several sources of information, including the reviewer scores and certainty, the evidence provided in the reviews, discussion between authors and reviewers, and the Area Chair′s own assessment of the paper. As such, there is no hard and fast rule on whether a paper will be accepted given a specific score. In addition, the Program Committee work with Area Chairs to calibrate acceptance decisions across Area Chairs, to account for factors such as the fact that some Area Chairs may be more conservative than others in their acceptance decisions. All calibration happens online and asynchronously, i.e., there is no single meeting where decisions are made.”。一些实证研究已经探索了这一数据集在研究中的可靠性,如基于ICLR的评审意见文本数据,对审稿意见情感以及评审中存在的制度偏见进行分析,还有学者提出将融合定性评价的论文质量评价模型用于定性评价文本的定量化研究[19-21]。在本研究中,将ICLR系列会议在OpenReview平台中的同行评议数据和文献计量指标数据作为研究数据,ICLR的公开审稿意见(示例)如图1所示。
图1 ICLR公开的审稿意见示例
本研究选取OpenReview平台上ICLR会议论文集在2018—2019年公布的2220篇论文(排除审稿意见缺失的1篇论文和谷歌学术上查询不到的8篇论文,以及14篇数据出现异常的论文)作为研究对象,包括42篇口头报告论文(Oral Presentation Papers,以下简称“OP论文”;难度最大,录用率约为1.35%)和780篇海报展示论文(Poster Presentation Papers,以下简称“PP论文”;录用率约为22.65%)以及1398篇被拒收论文(Rejected Papers,以下简称“RP论文”)。其中,用于数据分析的变量主要包括同行评议过程中审稿专家对每篇论文给出的评分,用来判断单篇论文的非共识程度的得分方差,以及每篇论文发表至今(2021年6—7月查询)在谷歌学术上的总被引频次。考虑到会议论文数据集在单个数据库中无法保证检全,因此选择谷歌学术上的被引频次作为研究要素。需要说明的是,考虑到同行评议数据的完整性以及统计被引频次时保证两年的被引时间窗口,本研究只选取2018年和2019年的数据作为研究对象。
为了比较OP论文与PP论文以及RP论文在同行评议结果和引文指标方面的差异,选取同行评议得分与论文发表至今的被引频次这两个指标进行比较分析,结果如表1和图2所示。由表1可知:OP论文的评审得分和被引频次均明显高于PP论文,而PP论文的评审得分和被引频次又明显高于RP论文;单因素方差分析结果显示,不同类型论文之间的平均得分与平均被引频次差异有统计学意义。由于数据分布不符合正态分布,使用K-S检验进一步对三类论文的评审得分和被引频次进行检验,P值均<0.001,说明OP论文、PP论文和RP论文三者之间的评审得分和被引频次均存在显著差异。
表1 OP论文、PP论文与RP论文的评价指标对比
图2 OP、PP与RP论文评审得分和被引频次分布(a)评审得分;(b)被引频次
经过K-S检验,论文的评审得分与被引频次不符合正态分布,因此采用Spearman秩相关分析方法对各类论文的评审得分与被引频次进行相关性分析。由表2可知,对于全部论文(OP、PP和RP论文),相关系数为0.625,表现出较高的相关性;对于OP论文,相关系数为0.134,即评审得分与被引频次呈显著正相关(P<0.01);对于PP论文,相关系数为0.160,即评审得分与被引频次呈显著正相关;对于全部录用论文(OP、PP论文),相关系数为0.209,全部录用论文的评审得分与被引频次呈显著正相关。
表2 论文评审得分与被引频次的相关性分析结果
对评审得分与被引频次之间的关系进行进一步分析,首先探究全部录用论文(OP 和 PP 论文)中不同得分水平论文的被引频次差异是否有统计学意义。由于被接收论文中只有一篇低于4分,其余均分布在4~10分范围内,因此剔除一篇最低分论文,将821篇论文按得分分到3个区间里([4,6)、[6,8)、[8,10]),对这三组论文进行非参数检验,发现不同得分水平论文之间的被引频次差异具有统计学意义(P=0.002)。其次,探究对于不同被引频次水平的论文评审得分对被引频次的影响规律。本研究分析了高被引论文和极高被引论文的得分情况,将所有论文按被引频次降序排列,取前5%为高被引论文,前1%为极高被引论文,结果如表3所示。可以看到,极高被引论文的评审得分均值(6.91)>高被引论文的评审得分均值(6.57)>非高被引论文的评审得分均值(5.37)。
表3 高被引论文和极高被引论文的平均评审得分与平均被引频次的比较
为了更清晰地展示评审得分与被引频次的关系,绘制了全部2220篇论文的评审得分与被引频次的散点图。从图3(a)可以看出,总体上评审得分与被引频次的相关性并不显著。本研究同时考虑了评审存在分歧的论文即非共识论文的被引频次分布情况。国家自然科学基金委员会管理科学部副主任杨列勋指出,评审专家在某一项研究项目的评审上两种意见几乎各占一半,且双方均有一定的论据,那么这项研究就是非共识研究[22];刘文波和钮晓鸣[23]认为,非共识研究是指具有不确定性和创新性且在初期评审专家难以对研究成果达成一致意见的研究行为或活动。虽然目前学术界尚未对非共识研究形成统一的界定,但是关于非共识研究同样存在研究价值和创新价值这一观点已经得到学术界的广泛认可。本研究使用一篇论文评审得分的方差来表示该论文的整体非共识度,方差越大,表示论文非共识的离散或者说审稿人意见相左的程度越大,即非共识度越大,或者说对论文评审结果的分歧越大[24]。图3(b)展现了论文非共识度与被引频次的关系,统计结果显示论文非共识度与被引频次呈正相关,但两者的相关性并不显著。
图3 论文评审得分与非共识度散点图(a)所有论文评审得分与被引频次散点图;(b)论文非共识度与被引频次散点图
上述内容中的统计检验结果显示了论文录用状态、评审得分以及论文非共识程度和被引频次之间的关系。基于上述分析,本研究拟通过回归分析(OLS和mlogit)来进一步检验论文评审得分和被引频次之间的关系。模型设定为
Yi=Xiβ+εi
(1)
式中:Yi为论文的被引频次;Xi为解释变量;β为回归系数;εi为误差项。
Uij=Xiβj+εij
(2)
式中:Uij表示第i篇论文在第j种评审状态下的随机效用;βj为不同评审状态下对应的回归系数;εij为误差项。变量的描述统计结果和相关系数矩阵如表4和表5所示,论文评审得分与被引频次的回归结果如表6所示。
表4 变量的描述统计结果
表5 变量的相关系数矩阵
表6 论文评审得分与被引频次的回归结果
为避免极端值的影响,在回归前将Citations、Rating、Variance在99分位作截尾处理。方差膨胀系数(Variance Inflation Factor,VIF)最大值为2.24,平均值为1.51,表明不存在严重的共线性。在模型1中加入了所有变量,评审得分的回归系数为正且在0.001水平上显著相关,录用论文的系数在0.001水平上显著正相关,意味着录用论文的被引频次相比于RP论文更高。进一步将样本拆分成两部分,在模型2中纳入RP论文样本,在模型3中纳入全部录用论文样本,这两个模型的评审得分系数仍然为正,且在0.001水平上显著相关。从模型3可以看出,PP论文的系数为负,且在0.05水平上显著相关,意味着相比于PP论文,OP论文有着更高的被引频次。模型4~6为使用mlogit估计的结果,表6中呈现的是评审得分的边际效应,其中对于OP和PP论文,评审得分的边际效应为正,对于RP论文,评审得分的边际效应为负。
上述分析结果得出被ICLR接收的论文,其Spearman秩相关系数r=0.209,因此对这种弱相关背后的一些例外情况进行分析。运用案例分析方法,选取6篇评审得分低-被引频次高的论文和6篇评审得分高-被引频次低的论文作为案例,对这两组案例的评审得分、被引频次、得分方差、预印本(arXiv)存档以及文献内容进行分析,以发现同行评议结果与被引频次相悖的文献特征,对评审得分低-被引频次高以及评审得分高-被引频次低的论文进行统计,结果如表7所示。
表7 案例论文统计结果
在会议集对论文做出接收或拒绝的决定之前,有部分论文已经发布到arXiv平台上,表7统计的低得分-高被引论文都在被接收之前发布在arXiv平台上,这就使得这些论文较其他未发布到arXiv的论文有更长的被引窗口。以往的研究表明,arXiv论文在许多数据库中都具有显著的引用优势[25]。
由表7可知,这些低得分-高被引论文具有一些共同的特征:评审专家给分均不高、存在较低分导致平均得分较低、大部分论文都发布在arXiv平台。高得分-低被引论文也具有一些共同的特征:大部分论文并未发布到arXiv平台,并且这些论文的评审得分方差普遍较低,说明评审专家对这些论文的评价分歧较小。分析上述论文的原文和审稿意见后发现:低得分-高被引论文的创新性通常较低,或者属于综述性研究;而高得分-低被引论文通常具有较高的创新性,因而得到审稿人的高度认可。
论文的评审得分反映的是审稿人对研究的主观评价,而且大多数都是定性评价,被引频次反映的是学术同行对科研劳动成果的认可程度,在一定程度上反映了科研产出的质量,是一种定量评价。上述研究结果表明用这两种方法对科研成果进行评价得到的结果并不总是一致的。
ICLR通过同行评议决定论文是否录用以及录用为口头汇报还是海报展示,通过对OP论文、PP论文和RP论文进行描述统计和方差分析,发现这三类论文的评审得分和被引频次是有差异的,进行两两比较后发现差异均有统计学意义(P<0.05),这个结果从一定程度上反映了同行评议的有效性和同行评议结果与传统计量指标的一致性。
通过对论文评审得分和被引频次进行相关性分析和回归分析,发现PP论文、录用论文、全部论文的评审得分与被引频次存在显著的正相关关系,这一结果与以往关于同行评议结果和被引频次的研究结果类似。本研究结果表明:虽然同行评议和被引频次从不同角度反映科学研究的学术影响力,但是两者在一定程度上呈正相关,证明了同行评议和被引频次在科研评价中的有效性和一致性;同行评议能够选出具有价值的论文,并在发表之后具有更高的影响力,证实了同行评议的有效性。
录用论文的评审得分与被引频次的相关性不高,可能是因为同行评议与传统计量指标是从不同维度对文章进行评价,同行评议具有主观性和封闭性等特点,引用具有偏性和引用动机复杂性等特点。对这种弱相关性背后的一些个例进行统计,对低得分-高被引和高得分-低被引论文进行分析发现,前者是事先发布到arXiv平台的微创新性研究论文或综述性文章,后者则大多是非共识度低、但创新程度高的研究论文或学术争议文章。这一结果从一定程度上反映了以引用为代表的定量指标和同行评议定性评价指标是相辅相成的,可将定量和定性两种评价工具结合起来进行相对有效、全面的科研评价。
同行评议的结果是从评审专家的角度来评估论文的质量,而以被引频次为基础的传统计量指标是从作者的角度来判断论文的质量及影响力。同行评议作为科学研究的“守门人”,虽然存在主观偏见可能导致结果有失公允,但是其作为控制科研质量的首要机制,对科研评价体系的建设起到至关重要的作用。被引频次作为传统文献计量评价的基础,虽然存在引用的不完备性和有偏性,但是被引频次可以作为一种定量化工具,在一定程度上反映同行对研究质量及影响力的评价。本研究结果发现虽然同行评议结果与引文度量指标之间呈正相关,但是同行评议和文献计量指标之间是不可相互替代的:同行评议仍然是目前科研评价体系最重要的一环;相比于同行评议的精英评价,文献计量指标能够提供更大范围内公开的同行评价参考。
从期刊评价实践的角度来看,文献计量指标是对同行评议的重要补充。期刊评价体系应该是建立在定性同行评议的质量评价基础上,融合定量文献计量指标,形成一种主客观相结合的评价模式。
本研究存在一些局限:首先,本研究使用的开放同行评议数据,其开放透明的特点给研究带来了极大的便利,但是由于目前采取开放同行评议模式的期刊和会议集较少,而且开放程度也不尽相同,本研究仅选取了公布全部投稿论文的评审得分数据的ICLR数据集进行分析,论文样本量较小,可能会限制研究的开展;其次,本研究的对象是计算机领域的会议论文,可能存在学科差异,结论外推时需谨慎;最后,本研究对同行评议结果和文献计量指标的相关性进行分析,提出应将定性、定量两种评价工具结合起来才能进行有效的科研评价,但如何实现二者的融合评价是亟需解决的问题,需要后续进一步研究。