■檀 旦
武汉大学中南医院医学新知杂志编辑部,武汉市武昌区东湖路169号 430071
对文献进行及时、恰当的评估是学术评价的前提。目前,国内外常用的评价体系[1-3]都是基于论文发表的期刊及某一数据库中该论文出版后的总被引次数,缺乏对论文本身的评价。同行评议是遴选论文、维护和提高学术质量的重要途径之一[4]。互联网时代对同行评议前景的看好以及对居于主导地位的影响因子的诟病亟需新的评价科学质量的方式。
F1000(Faculty of 1000)是一个基于同行评议的文献评估系统,其名称来源于 Science Navigation Group机构计划筹建一个由全球顶级科学家组成的千人学院,请生物医学专家从每年发布的生物医学论文中评选出一小部分(不足千分之二)赋予F1000论文称号,推荐给全世界的生物学和医学工作者[5-6]。
全世界卓越的科学家和临床医生通过F1000推荐生物学和医学领域的重要文章,并且评价文章和阐述文章的重要性,提供生物学及医学论文的重要信息及研究成果。F1000从2002年开始推荐文章,至今已有14年。F1000在全世界拥有超过5000名专家,推荐了超过100000篇顶级生物学和医学文章,覆盖超过3500种同行评议期刊,并且每天更新。F1000成员平均每个月推荐超过1500篇文章。F1000成员及其推荐的文章分布超过40个学科,并进一步细分为超过300个亚学科。
F1000从两年前开始改变计算方式,不再使用F1000因子来表示文章的重要性[7-10],而是改用“星”来表示。F1000成员推荐文章时需简短阐述文章的重要性,而后将文章划分为好、很好、杰出3个等级(相当于1星、2星、3星的分数)。F1000根据每位推荐者单独的评分来计算文章的总分,并且根据总分对文章排序。一篇文章得到的总评论数和总星数越多,排名就越靠前。
国内学者宋丽萍选取F1000和Web of Science数据库,以免疫学和生物信息学为研究对象,检索并统计2005—2011年的数据,分析F1000因子与文章被引频次的相关性,结果表明传统文献计量指标与同行评议结果具有正相关性[11]。Wardle D A研究7种生态学核心期刊共1530篇文献在F1000中的被推荐情况与论文出版5年后的被引频次比较,结果发现F1000分数并不能预测其被引频次,也不能预测被引数百次的高影响力文章[12]。此外,Allen L[13]、Li X[14]、刘春丽[15]、Mohammadi E[16]、Waltman L[4]等也就同行评议指标和替代计量学指标做过类似的研究。以上研究广泛讨论了F1000因子与 Web of Science、Google Scholar、Scopus以及被引次数的相关性。然而,仍有以下不足:①F1000因子是两年前F1000评价文章的指标,如今已改用F1000总分来表示;②统计文章被引频次的时间不够长,可能造成误差。本文采用新的检索方式,在新的F1000总分计算方式下,以医学信息学和糖尿病为主题,检索2010年发表文献的F1000总分以及文章发表至今的总被引频次和所在期刊的影响因子(IF),分析F1000总分与总被引频次、F1000总分与期刊IF的相关性,探索F1000和传统文献计量指标在科学评价中的有效性与相关性,以期为数字出版时代文献及期刊评价提供借鉴。
选择2010年为检索年份,得到文献发表至今(5年)的总被引频次和文章累计被推荐情况,避免造成偏倚。
通过阅读文献、与F1000工作人员沟通和自身实践,发现可在 PubMed中检索 F1000文献,并且PubMed检索优于F1000自带的检索功能,两种检索方法如下:①使用loprovf1000[Filter]进行字段限定。在 PubMed检索框中分别直接输入((loprovf1000[Filter]OR loprovf1000m[Filter]))AND“Medical Informatics”[Mesh]和((loprovf1000[Filter]OR loprovf1000m[Filter]))AND“Diabetes Mellitus”[Mesh]进行检索[17];②在 PubMed 的 My NCBI的filter中选择类别为LinkOut,检索框中输入“Faculty of 1000”,然后检索,选择“Faculty of 1000 Ltd”,而后在PubMed中直接检索就可以显示F1000推荐的结果。均去掉印刷出版日期在2010年之前的文献,以及出版日期在2010年之后的文献。提取每篇文章的PMID、题目、第一作者、刊名、F1000总分等信息,并绘制Excel表格。利用Web of Science数据库检索每篇文章的总被引频次,在JCR中检索期刊在2010年的影响因子,并将文章的总被引频次和期刊IF加入之前绘制的表格。
使用SPSS20.0软件进行分析,运用Spearman检验分析F1000总分与文章总被引频次、F1000总分与期刊IF的相关性。P<0.01为差异有统计学意义。
2010年发表并被F1000推荐的医学信息学主题的文献共259篇。
F1000总分为8分的文献有2篇,分别发表在JAMA和Science Translational Medicine上,总被引频次为208次和122次,2种期刊2010年的IF分别为30.011和3.292。总分为6分的文章有2篇,5分的文章1篇,4分的文章6篇,3分的文章18篇,2分的文章78篇,其余为1分的文章。
总被引频次最高的文章被引464次,F1000总分为2分,刊名为PLoSBiology,IF为12.472。总被引频次最低的文章被引1次,F1000总分为1分,刊名为 Anaesthesia,IF为0.729。
IF最高的期刊为The New England Journal of Medicine,IF为53.486,被推荐文章3篇,F1000总分均为1分,总被引频次分别为132次、86次和76次。IF最低的期刊为 Biomedical Papers of the Medical Faculty of the University Palacky, Olomouc,Czechoslovakia,IF为0.716,被推荐文章 1篇,F1000总分为1分,总被引频次为5次。
在JCR中未查询到3种期刊2010年的IF数据,分 别 为 Database-The Journal of Biological Databases and Curation、Biotechnology Journal和Journal of Anxiety Disorders。
2010年发表并被F1000推荐的糖尿病主题的文献共169篇。
F1000总分为14分的文献有3篇,其中2篇发表在Nature上,1篇发表在The New England Journal of Medicine上,总被引频次分别为285次、80次和885次,2种期刊2010年的IF分别为36.104和53.486。总分为13分的文章有1篇,5~9分的文章9篇,3~4分的文章26篇,其余为1分和2分的文章。
总被引频次最高的文章被引885次,F1000总分为 14分,刊名为 The New England Journal of Medicine,IF为53.486。总被引频次最低的文章被引0次,F1000总分为2分,刊名为European Heart Journal,IF为 10.052。
IF最高的期刊为The New England Journal of Medicine,IF为53.486,被推荐文章8篇,F1000总分最高为14分,最低为1分,总被引频次最高885次,最低49次。IF最低的期刊为Australian Journal of Primary Health,IF为0.408,被推荐文章1篇,F1000总分为1分,总被引频次为26次。
2种期刊未在JCR中查询到2010年的IF数据,分别为 Preventing Chronic Disease和 Endocrine Practice。
(1)医学信息学主题F1000总分与总被引频次的相关性
将Excel中的数据导入到SPSS20.0软件,由于两个变量不满足线性相关分析的适用条件,因此进行Spearman秩相关分析,结果见表1。相关系数r表示两变量间的直线相关程度,r值的范围为-1~1。r为正表示两变量之间为正相关,反之为负相关。r接近于0表示两变量间关系不密切,r的绝对值接近1表示2变量间关系较密切[18]。由表1可知,r=0.223,F1000总分与总被引频次呈低度正相关(P<0.01)。
表1 医学信息学主题F1000总分与总被引频次的相关性分析结果
(2)医学信息学主题F1000总分与期刊IF的相关性
剔除3种在JCR中查询不到IF数据的期刊及其相关数据,而后进行Spearman检验,结果见表2。由表2可知,r=0.165,F1000总分与期刊IF呈低度正相关(P<0.01)。
表2 医学信息学主题F1000总分与期刊IF的相关性分析结果
(1)糖尿病主题F1000总分与总被引频次的相关性
将Excel中的数据导入到SPSS20.0软件,由于两个变量不满足线性相关分析的适用条件,因此进行Spearman秩相关分析,结果见表3。由表3可知,r=0.390,F1000总分与总被引频次呈低度正相关(P<0.01)。
表3 糖尿病主题F1000总分与总被引频次的相关性分析结果
(2)糖尿病主题F1000总分与期刊IF的相关性
剔除两种在JCR中查询不到IF数据的期刊及其相关数据,而后进行Spearman检验,结果见表4。由表4可知,r=0.335,F1000总分与期刊IF呈低度正相关(P<0.01)。
表4 糖尿病主题F1000总分与期刊IF的相关性分析结果
F1000关注研究的特异性和评价的主观性,是基于同行评议的定性评价,与文献计量学方法定量表示的IF和被引频次有一定区别,但是二者的初衷都是为了向科研工作者提供重要信息及研究成果。然而,F1000总分最高的文章不一定是总被引频次和期刊IF最高的,两种方式得到的结果有一定的差异。
本研究结果表明,医学信息学和糖尿病两个主题文献的F1000总分与总被引频次,F1000总分与期刊IF均呈正相关(P<0.01),这与 Allen L[13]、Li X[14]、 宋 丽 萍[11,19]、 刘 春 丽[15]、 Mohammadi E[16]、Waltman L[4]等的研究结果类似,说明虽然F1000与传统引用及影响计量指标从不同维度描述论文的学术影响力,但是两者具有一定程度的正相关性,表明上述指标在科学评价中的有效性和可行性。两个主题文献的F1000总分与总被引频次的相关性均大于F1000总分与期刊IF的相关性,这是因为F1000总分与被引频次都更关注单篇论文的质量,而IF关注整本期刊的质量。
两个主题文献的F1000总分与总被引频次和IF的相关性均不高,可能有以下原因:
(1)F1000的时效性优于传统的计量指标。
文章一经发表或者还未发表就可被F1000推荐,Waltman L对F1000推荐的超过13万篇论文的研究显示,80%的论文在正式出版前2个月至出版后4个月即得到推荐,只有不到10%的文献在出版6个月以后被推荐[4,20],而传统文献计量学指标的统计往往在文献发表若干年后。虽然本研究统计文献发表5年后的总被引频次,但是文章的被引频次随着时间推移会逐渐增加,而且不排除某些被引频次不高的文献发表5年后被引频次突然增加的情况。
(2)F1000与传统计量学指标评价文章的角度不同。
F1000从专家的角度反映文章质量,而被引从作者的角度反映文章质量,因此一些低被引,甚至零被引论文受到专家的推荐,而高被引论文反而没有被专家推荐。
(3)F1000推荐文章的侧重点与传统计量学指标不同。
F1000的专家推荐文章时会根据研究内容给论文赋予一个或多个标签,如新发现、能够改变临床实践、新药靶点、技术进步等。已有研究表明,“新发现”更容易高被引,但是“能够改变临床实践”类的文章专家推荐力度更高,而后者的被引次数往往不高,通过专家推荐能更好的识别医学研究成果对临床实践的适用性。此外,在医学领域,临床研究类论文被引频次低于基础研究和非干预性研究,引文分析会严重低估临床研究的影响力[20-21]。因此,结合F1000专家对论文的评价以及论文的标签特征可以帮助揭示论文的价值。
(4)F1000推荐存在自身的局限性。
既然F1000是基于同行评议的定性评价,专家推荐文章的动机和因素、遴选专家是否有倾向性或偏倚、专家是否相互推荐或者地域性因素等可能导致不客观的结果[12],而基于定量评价的文献计量学指标可以尽可能地避免这些情况。
综上,由于F1000与传统文献计量学指标评价文章的时效性、角度和侧重点不同,且两者均有自身的优点和局限性,应当将两者结合起来对文献进行相对全面的评价。
(1)从统计学角度看,F1000与传统文献计量学指标具有正相关性,这在一定程度上说明了定性评价与定量评价的一致性,也表明上述指标在科学评价中的有效性和可行性。通过对F1000推荐文献的统计分析,可以进一步对所收录期刊的价值作出相应评价;
(2)F1000与文献计量学指标从不同维度描述了论文层面的学术影响力,分别反映了科学评价的一个侧面,都有自身的局限性,应将两者相结合进行多维度的评价分析。
[1]Reinstein A,Hasselback JR,Riley M E,etal.Pitfallsof using citation indices for making academic accounting promotion,tenure, teaching load, and merit pay decisions[J].Issues in Accounting Education, 2011,26(1):99-131.
[2]Psmeyers P,Burbules N C.How to improve your impact factor:Questioning the quantification of academic quality[J].J Philos Educ, 2011,45(1):1-17.
[3]杨远芬.科技论文评价方法实证比较研究[J].科技管理研究, 2008,28(8):57-59.
[4]Waltman L,Costas R.F1000 recommendations as a potential new data source for research evaluation:a comparison with citations[J].JAm Soc Inf Sci Technol, 2014,65(3):433-445.
[5]谢岩岩,孙继林.F1000的文献评价功能浅议[J].图书馆杂志,2011,30(4):38-42.
[6]Bommann L,Daniel H D.Selecting scientific excellence through comm ittee peer review-a citation analysis of publications previously published to approval or rejection of post-doctoral research fellowship applicants[J].Scientometrics, 2006, 68(12):427-440.
[7]何星星,武夷山.基于文献利用数据的期刊论文定量评价研究[J].情报杂志,2012,31(8):98-102.
[8]陈美伦.一种新的医学论文学术评价系统——医学 F1000[J].中华医学图书情报杂志,2008,17(2):70-72.
[9]廖星,谢雁鸣.F1000:新兴医学论文评价和检索系统[J].中国中西医结合杂志,2012,32(5):701-703.
[10]刘春丽.基于软同行评议的科学论文影响力评价方法——F1000 因子[J].中国科技期刊研究,2012,23(3):383-386.
[11]宋丽萍,王建芳.基于F1000与WoS的同行评议与文献计量相关性研究[J].中国图书馆学报,2012,38(198):62-69.
[12]Wardle D A.Do “Faculty of 1000”(F1000)ratings of ecological publications serve as reasonable predictors of their future impact[J].Ideas in Ecology and Evolution,2010,3(3):11-15.
[13]Allen L,Jones C,Dolby K,et al.Looking for landmarks:the role of expert review and bibliometric analysis in evaluating scientific publication outputs[J].PLoS One, 2009, 4(6):e5910.
[14]Li X, Thelwall M.F1000, mendeley and traditional bibliometric indicators[C]//Archambault E, Gingras Y,Lariviere V.The 17th International Conference on Science and Technology Indicators, Montreal, Canada, 2012:541-551.
[15]刘春丽,何钦成.不同类型选择计量指标评价论文相关性研究——基于 Mendeley、F1000和 Google Scholar三种学术社交网络工具[J].情报学报,2013,32(2):206-212.
[16]Mohammadi E,Thelwall W.Assessing non-standard article impact using F1000 labels[J].Scientometrics, 2013,97(2):383-395.
[17]夏武青,葛芬,唐辉.医学F1000推荐文献的来源期刊分布[J].中华医学图书情报杂志,2011,20(11):59-62.
[18]张文彤,闫洁.SPSS统计分析基础教程[M].北京:高等教育出版社,2004:325-347.
[19]宋丽萍,王建芳,王树义.科学评价视角下F1000、Mendeley与传统文献计量指标的比较[J].中国图书馆学报,2014,40(212):48-54.
[20]杜建,武夷山.文献引文轨迹:分类及测度[J].情报理论与实践, 2015,38(7):52-58.
[21]Van Eck N J, Waktman L, Van Raan A F J, et al.Citation analysis may severely underestimate the impact of clinical research as compared to basic research[J].PLoSOne, 2013,8(4):e62395.