余皖鑫# 张翠翠# 梁兆佳 余 挺秦文光
(广州医科大学口腔医学院 广东·广州 510140)
尽管传统的发表前同行评议仍是学术成果评价的基石,其固有缺陷如今饱受诟病,如程序不透明、评审时间过长甚至纠错功能失效。这些问题导致其不能很好地满足当前爆炸式增长的学术成果的评价需求。新型评价模式如发表后同行评议、社交媒体相关计量指标相继涌现,有望与传统评议相辅相成,从而维持学术成果的高水准。“千名科学家”(Faculty of 1000 Scientists,F1000)于2002年从全球邀请数千名各领域的顶尖生物学家和医学家组成生物医学专家库,并率先采用发表后同行评议模式发表论文(F1000Research为其官方杂志),对学术出版标准影响深远。而且,F1000于2009年上线专家推荐和质量打分为特色的评议服务,组成F1000Prime Recommendations(FPR)数据库。专家库成员被委以重任,即筛选PubMed索引的重要论文,帮助科研人员在信息过载而阅读时间有限的困境下获取更有价值的文献。专家在推荐论文时,需撰写一份正面评议,阐述该论文为何重要,并分三级进行质量打分(好/Good、极好/Very Good、杰出/Exceptional,分别赋分1、2、3)。FPR平台综合各专家打分给出一个FFa分值(F1000 Article Factor),即F1000因子,该因子近年常作为论文质量的评价指标。为此,FPR逐渐成为不同于传统模式的新型科研评价数据源,不少科研人员以被FPR推荐为荣。
生物医学领域(包括遗传学、免疫学、医学等)相继有研究探索了以FPR为代表的发表后正面同行评议与论文影响力的关系,部分研究发现二者的正向联系。然而,口腔医学领域仍罕见此类新型学术评价工具的探索,可能归因于知识或态度欠缺。尽管如此,时有口腔类论文被FPR推荐为“好/Good”质量论文。在此种背景下,探索发表后正面评议与口腔类论文影响力的关系,对口腔医学科研人员具有积极示范效应。本研究猜想,在口腔医学领域,发表后正面评议的论文具有更高的引用影响力。本研究以FPR作为数据源,探索专家推荐和质量打分对口腔类论文的引用影响力的作用。
以Scopus数据库收录的187种口腔类期刊的ISSN号为关键词,在PubMed数据库上检索出这些期刊出版的所有论文(访问时间2018年1月27日)。在PubMed过滤器中个性化设置,识别出被FPR推荐的论文(简称FPR论文),并在F1000官网确认。FPR论文的题录信息包括标题、出版日期、期刊等由PubMed导出。论文被引次数、对应的期刊影响力CiteScore指数(Journal CiteScore,JCS)从Scopus获取。FPR论文的推荐数据包括FFa分值、推荐日期、推荐专家的姓名和专长标签、论文标签(包括改变临床实践/Changes Clinical Practice,确认/Confirmation,争议/Controversial,教学好素材/Good for Teaching,有趣猜想/Interesting Hypothesis,新发现/New Finding,新药靶点/Novel Drug Target,反驳/Refutation,技术进展/Technical Advance,临床研究(非随机对照)/Clinical Trial:not RCT,临床研究(随机对照)/Clinical Trial:RCT,系统评价或Meta分析/Systematic Review/Meta-analysis,综述或评论/Review/Commentary)从F1000官网获得。定义一篇论文的推荐时间效应=(访问时间-推荐时间)÷(访问时间-发表时间)×100%。
依据Scopus数据库的筛选功能,将FPR论文分为综述和论著两类。综述、系统评价、荟萃分析、评论、专家共识归入综述类。论著类除包括原创性研究类论文,亦纳入病例研究、新技术新材料。每篇FPR论文均匹配一组非推荐(NR,Non-recommended)论文子集,作为对照。为尽量保证二者与引用影响力相关的传播属性相近,每个NR子集与其对应的FPR论文来自同一期刊的同一出版年,且论文类型一致,该条件经Scopus限制功能实现。每个NR子集的论文被引次数的中位数或算术均数作为对应FPR论文的被引次数对照。为保证3年以上的引用窗口期,在与NR论文比较被引次数时,剔除2015年1月前发表的FPR论文。
统计检验和分析使用软件(SPSS17.0,IBM)实现,所有变量接受正态性检验。结果主要以中位数和四分位间距呈现,即中位数(Q1,Q3)。Spearman等级相关用于相关性分析。FPR与NR论文的被引差异采用非参数Wilcoxon检验(两相关样本)。FPR论文中,带论文标签与不带者之间的被引或FFa分值差异,采用非参数Mann-Whitney U检验。检验水准P<0.05。
(1)口腔医学FRP论文的总体情况:口腔类FPR论文共筛选出 75篇,占 Scopus索引的口腔医学领域论文总数(304,281)的0.025%。这些FPR论文来自21个口腔类期刊,大部分(42/75)来自口腔颌面外科期刊,其次是综合性期刊J Dent Res(14/75)。3篇(4.0%)来自非科学引文索引(SCI,Science Citation Index)期刊,3篇来自开放获取期刊。绝大部分(63/75)FPR论文是论著。
(2)FPR论文的推荐特征:FPR论文的发表和推荐时间分别为67(44,91)和64(27,87)个月,推荐时间效应达97.73(84.60,100)(%),即这些论文发表后1.0(0,5.5)个月即被推荐。在过去15年时间(自F1000生物学2002年上线),FPR论文数量随时间呈增长趋势。除开2018年,2010~2017年的FPR论文数量是2002~2009年的4倍以上(58/14)。
75篇FPR论文由62名专家推荐,每篇论文由1~3[1.0(1.0,2.0)]名专家推荐,每名专家推荐 1~8[1.0(1.0,2.0)]篇FPR论文。大部分(44/75)专家来自北美地区,尤其是美国(42/75)。由于FPR的学科分类不涉及口腔医学,所有专家的专长标签均为非口腔领域,主要包括耳鼻咽喉科学、肿瘤学、风湿病学及临床免疫学、微生物学、麻醉学及疼痛管理等。
FPR论文的质量评分,即FFa分值平均为1.0(1.0,1.5)。大部分(56/75)FPR论文被评为“好”,小部分为“极好”,仅1篇论文得4分(2个“极好”)但未被评为“杰出”。近一半FPR论文获标签“新发现”(34/75),其次为“确认”(15/75)和“有趣猜想”(10/75)。
(3)FPR论文相对于NR对照是否存在被引优势?在75篇FPR论文中,纳入61篇发表超过3年的论文用于比较被引差异。与61篇 FPR论文相对照的61个 NR子集,共包含5,678篇NR论文,每个子集包含140(91,173)篇NR论文。这些NR论文平均被引13(6,26)次。与NR子集的被引次数的中位数相比,FPR论文的被引次数高28.57%[18(10,34)vs.14(7,21),Z=-4.05,P<0.001]。即使与NR子集的被引次数的均数相比,FPR的被引次数依然更高(Z=-2.288,P=0.022)(图 1)。
图1:FPR论文与NR子集、NR论文的被引次数差异
Spearman相关性分析显示,FPR论文的FFa分值与其被引次数(R=0.171,P=0.187)及对应期刊影响力指数 JCS(R=0.099,P=0.447)无显著相关性。相比之下,JCS与FPR论文的被引次数(R=0.506,P<0.001)及NR子集的被引次数中位数(R=0.675,P<0.001)均显著正相关。FPR论文被引次数与NR子集的被引次数中位数亦显著正相关(R=0.580,P<0.001)。
(4)论文类型和标签对FPR论文被引和质量评分的影响:FPR论文中,综述的被引次数明显高于论著(P=0.004),而两者的FFa分值相当。标签为“有趣猜想”的论文比不带该标签者的FFa分值更高(P=0.006),但二者被引次数相当。标签为“新发现”、“确认”、“教学好素材”的论文与未标记相应标签者相比,被引次数、FFa分值均无差异(表1)。
表1:FPR论文中不同论文类型或标签之间的被引次数、FFa分值差异
基于FPR数据源,本研究首次探索了专家推荐和质量打分对口腔医学论文的引用影响力的作用。结果发现,专家推荐意味着论文未来被引增加29%。直接的原因可能是专家推荐的论文质量更高或更重要,从而产生被引优势。该结果与以往针对非口腔领域的研究结果似乎一致,即FPR论文的质量打分越高,未来被引次数越高。然而,这种正向相关的强度普遍不高,可能因为专家的质量打分在某种程度上依赖于非质量因素,如期刊名声(即期刊影响力)。本研究采用病例-对照的设计,将FPR论文及其对照限定在同一来源出版物和出版时间,排除了期刊名声的混杂影响。该设计使得两组的被引次数一致性达58%,剩余42%的不一致则包含了两者的质量差别和其他成分。至于质量打分与被引次数未发现相关性,可能归因于该设计将期刊名声的潜在混杂效应排除在外,或归因于FPR文章样本量偏小。
本研究中,论文标签影响质量打分,标签为“有趣猜想”的FPR论文较无该标签者的FFa分值更高。类似地,医学领域的FPR论文亦发现带“改变临床实践”标签的FFa分值较不带者更高。根据Du等分类,带这两种标签的论文归为变革性或转化性研究,这类论文较非原创性研究(如标签为“综述或评论”的论文)或基于证据的研究类论文(如标签为“系统评价或Meta分析”的论文)不具被引优势,但质量打分更高。因此,相比于被引次数,反映论文质量的FFa分值可能更适用于辨识转化类或冒险性研究。另外,某些论文标签亦可反映论文的社会影响力。Bornmann等发现标签为“教学好素材”的论文的社交网络(即Facebook和Twitter)替代计量学分值较无该标签者更高。总结来看,论文标签是影响被引次数或质量评价的可视化因素,因此可作为评价论文影响力(包括科学和社会学方面)的补充性指标。
尽管F1000的专家推荐可指示高质量的科研成果并意味着更高的引用影响力,此模式亦存在一些问题。首先,专家推荐具有主观性,且并无公开的论文推荐标准或质量高低的鉴别标准。其次,专家的正面评议大都简短,论文标签的赋予常过于随意。第三,专家的遴选具有明显地理偏向。本研究和以往研究显示,大部分专家来自北美。第四,不同学科间以及同一学科内的专业偏向亦非常明显。本研究中,FPR论文仅占口腔医学论文的0.025%,远低于生物医学领域的平均水平(2%)。而且,大部分FPR论文偏向口腔颌面外科,且大部分专家被标记为非口腔医学专长(如耳鼻咽喉科学)。主要因为口腔颌面外科与大医学的关系更为密切,且FPR数据库未下设口腔医学门类。最后,没有一篇FPR论文被评为“杰出”,这并非意味着口腔领域没有优秀的工作。相反,可能因为FPR的专家库尚缺乏更专业视野的学者去挖掘口腔领域的漂亮成果,毕竟不同专业领域的学者对同一作品存在认知差异。非专业内的学者在物色FPR论文时,可能仅因从论文中获得了某些灵感。而只有专业内的学者,方可从学科发展角度预见性判断一项工作的重要性。作为一种新的科学评价模式,发表后同行评议包括FPR正经历成长之痛,但其与传统同行评议的目标是一致的,二者相辅相成终将不断提高科学成果的质量。
本研究存在一些不足。首先,FPR论文的样本量相对偏小,除限制了以部分文章标签作为分类变量的分析外,也限制了以某些可能影响论文影响力的外在因素(如合作活跃性指标包括作者、机构、国家数量)为分组变量的分析。以这些外在因素作为考虑变量的大型前瞻性同行评议研究,或者新型评价系统的升级(如扩展来自口腔领域的FPR专家库)有望解决这一问题。其次,被引次数、专家推荐和质量打分分别只是论文影响力、论文质量的一维性反映,而后两者都是多维度的。基于这两种指标的外延性解释应谨慎,避免单独使用。比如,某些中性或负面引用甚至零引用,也存在潜在影响力。被引次数很高但未被推荐的论文在本研究及以往研究中亦不少见。今后研究应开发更可靠的补充性指标(如替代计量指标和负面指标),使用多重指标(既有定量的也有定性的)而非简单的被引次数或专家打分,更全面地评价论文或学者个体的贡献。
综上,专家推荐和质量打分可能有利于促进口腔医学论文的被引优势从而提高其影响力。专家赋予的论文标签可作为评价论文质量或影响力的补充性指标。发表后正面同行评议的新型模式需要口腔科学共同体的更多参与。