PLoS ALMs与Altmetrics评分、单篇论文学术评价指标的比较分析

2018-03-21 01:25,,
中华医学图书情报杂志 2018年2期
关键词:影响力次数学术

,,

随着Web 2.0环境下社会媒体的普及以及开放存取的兴起,信息收藏、信息管理、信息评论、信息推荐和信息共享等已成为学术研究成果在社会媒体上交流的普遍方式。单篇论文评价不再局限于传统的评价方法,即主要依赖于同行评议的专家评审和基于引用的被引分析,Altmetrics便应运而生[1]。

论文层面计量学(Article-Level Metrics,ALMs)是由美国科学公共图书馆(the Public Library of Science,PLoS)在2009年提出并应用的。引文是论文最重要的影响力测度,但引文仅代表用户与论文之间交互的一小部分[2]。据Lin J等人报道,截至2013年5月20日,PLoS出版的80 602篇文献中网页阅览次数达199 913 959次,PDF下载次数仅占24.7%,其中下载PDF版本的用户中仅有七十分之一的人会在论文中引用该文献,而大多数人则用其他方式与论文发生交互,这些可以通过Altmetrics方法捕捉到[3]。

PLoS自2009年开始应用论文层面计量学以来,根据实际应用和扩展,PLoS ALMs指标和分类一直在不断调整,最新的指标分类如表1所示,包括五大类型及24个指标。五大类型分别为阅览(Viewed)、保存(Saved)、讨论(Discussed)、被引(Cited)和推荐(Recommended),既反映了用户行为活动的顺序,也表明了论文影响的深入。PLoS ALMs各指标数据值是计算其频次而来,各类型数值为分指标值之和,因而结果有所交叉重合,尤其是被引,Web of Science和Scopus被引频次有很大重合,所以本文在数据采集时仅统计WOS被引频次[4]。CiteULike是一款参考文献管理工具,允许用户保存和分享学术论文的引用情况,是基于社会书签的在线服务。Mendeley是免费的跨平台文献管理软件,可对文献进行添加与组织、阅读与标注,与全球同行协作备份、同步与移动文献等。Figshare可使研究者保存和分享研究成果,文件类型包括数据、数据集、图像和影音等。

表1 PLoS ALM指标分类

单篇论文学术影响力通常用被引频次表示。自h指数[5]被提出后,Schubert A[6]也将其应用到单篇论文评价,其计算方法是:如果引用某论文的所有论文中有n篇论文,每篇至少被引用了n次,则该篇论文的h指数就是n。叶鹰[7]根据h指数和整体综合测度指标I3(Integrated Impact Indicators,I3)的优缺点,将其相互结合,提出了一个新的学术评价指标——学术迹(Academic Track,T)。学术迹需采集5个基本参数:单篇论文评价论文数P(实际等于该篇论文的被引频次)、论文h指数h、单篇论文评价引文数C(即被引文献被引数)、评价论文中零被引论文数Pz、Ch为评价论文被引频次大于或等于h的评价引文数[8]。

学术迹不仅能应用于学术主体(如国家、学术团体、单个学者),还能评价学术客体(如期刊、论文等)。学术迹用字符T表示,T值越高,学术成就越高。

1 相关研究

国内外已经开展PLoS ALMs的研究。刘春丽认为ALMs可以从论文的使用、引用、社会书签和传播活动、社交媒体讨论和评级等多个角度综合评价单篇论文的影响力[9];顾立平分析了ALMs与传统文献计量的不同,运用案例分析法介绍了PLoS-ALMs的数据流程、数据源与数据类型、开放数据模型等[10];de Winter分析了PLoS ONE推荐文章数量与Mendeley、Facebook等社交媒体活动、被引和文献阅览之间的关系,发现推荐文章数量和被引频次呈显著性弱相关,但和PubMed Central上的文献阅览次数无统计学相关[11];刘晓娟等人基于PLoS ALMs数据,对当前主要的Altmetrics指标进行覆盖率、稳定性、时效性和交叉性分析,发现不同类型的指标在反映文献影响力上侧重角度不同,差异较大[12];Priem J等人对PLoS的样本文献进行分析,发现5%的文献在Wikipedia中被引用,至少有80%在Mendeley中被提及[13];杨思洛等人以中美学者发表在PLoS平台的7种OA期刊上的论文为样本,以PLoS Article-Level Metrics为工具,统计五大类指标的分指标数据,从指标相关性、不同年份、不同类型论文、不同分指标等方面,系统比较中美OA论文影响的异同[14]。

综上所述,已有研究从不同方面对PLoS ALMs进行了探索,但仍限于个别论文层面计量指标与引用次数的相关性分析,或是论文层面计量分指标的相关性分析,而与Almetrics评分、h指数和学术迹T,目前鲜有比较研究。本文以PLoS系列期刊为例,基于PLoS ALMs论文层面计量指标数据,比较分析阅览量、下载量、讨论量、保存量、推荐量与Altmetrics评分、h指数、学术迹T之间的相关性以及对单篇论文的评价效果。

2 样本采集与数据分析

2.1 数据获取

本文选取PLoSBiology和PLoSMedicine两种期刊,在http://almreports.plos.org/检索并下载2014年发表的Research Article类型文献,PLoS Biology有148篇,PLoS Medicine有102篇。利用www.altmetric.com 网站的Bookmarklet得到每篇文章的Altmetrics评分。在WOS中检索每篇文章的总被引频次P,并使用该库的引文分析功能直接或间接得到测算学术迹T所需基本参数(检索时间:2017年10月18日)。

PLoS ALMs将24个指标分为五大类型(表1)。本文根据用户习惯,新增“下载量”类型,各类型计算方法:阅览量为PLoS Journals HTML、PLoS Journals PDF、PLoS Journals XML、PubMed Central HTML、PubMed Central PDF次数相加,下载量为PLoS PDF、PMC PDF和PLoS Journals XML次数相加,讨论量为Facebook、Reddit、Twitter、Wikipedia、Nature Blogs、Research Blogging、Science Seeker、Wordpress.com次数之和,保存标注量为CiteULike,Mendeley,Figshare之和;推荐量则是F1000 Prime分值,被引频次P选取WOS数据库中的总被引频次。

最终得到的样本数据包含以下字段:DOI、论文标题、阅览量、下载量、讨论量、保存量、推荐量、Altmetrics评分、被引频次P、论文指数h和学术迹T(表2、表3)。因篇幅所限,只列出部分数据。

表2 PLoS Biology部分样本数据

表3 PLoS Medicine部分样本数据

2.2 数据正态性检验

利用SPSS 20.0,使用单样本K-S正态性检验方法,按显著性水平α=0.05的检验水准分别检测两组样本数据总体的分布情况。结果表明大部分指标的概率P值小于显著性水平,样本数据不服从正态分布。

2.3 相关性分析

由于2组样本数据均不符合正态分布,因此采用Spearman秩和相关检验进行相关性分析。当P值小于检验水准时,拒绝原假设,可认为2个统计指标之间具有相关性,并分别计算出每个指标之间的相关性系数r,相关性系数反映了两变量间相关程度的强弱。|r|≥0.7表示高度相关,0.4≤|r|<0.7为中度相关,|r|<0.4是低度相关。具体结果见表4和表5。

在PLoS Biology样本数据中(表4),阅览量和各指标之间两两均成正相关。其中与下载量高度正相关(r=0.832,P<0.01),与被引频次、h指数、学术迹呈中度相关(0.4≤r<0.7,P<0.01,),与保存量、推荐量呈低度相关(r<0.4,P<0.01);下载量与h指数、学术迹相关性较高(r=0.721,0.659,0.606,P<0.01),与讨论量、保存量、Altmetrics评分虽有相关性,但相关性并不高;讨论量和推荐量、学术迹T无相关性(P>0.05);保存量与大部分指标无相关性,即使有也是低度相关;推荐量与保存量类似,和各指标低度相关或无关;Altmetrics评分与讨论量高度相关(r=0.781,P<0.01),与阅览量中度相关(r=0.445,P<0.01),与其他指标低度相关或无关;被引频次、h指数、学术迹T彼此之间互为高度相关,与阅览量相关度也较高。

在PLoS Medicine样本数据中(表5),阅览量与推荐量、学术迹无关,与其他指标均有相关性(P<0.05);下载量与推荐量、学术迹无关,与其他指标均有相关性(P<0.05);讨论量与保存量、推荐量无关;保存量仅与阅览量、下载量有相关性,与其他指标无相关性;推荐量与各指标均无相关性;Altmetrics与被引频次有关;h指数与阅览量、下载量、讨论量有关,与其他ALMs指标无关。

表4 PLoS Biology统计指标的相关性(N=148)

**在置信度(双测)为0.01时,相关性是显著的;*在置信度(双测)为0.05时,相关性是显著的

表5 PLoS Medicine统计指标的相关性(N=102)

**在置信度(双测)为0.01时,相关性是显著的;* 在置信度(双测)为0.05时,相关性是显著的

3 讨论与分析

PLoS ALMs指标与Altmetrics评分、学术评价指标之间的相关性差异较大。

3.1 PLoS ALMs各指标相关性

Jason Priem自2010年提出Altmetrics以来,Altmetrics在学术界引起了广泛讨论[15]。目前国际上比较常见的Altmetrics工具有Altmetrics.com、PLoS ALM、Plum Analytics和ImpactStory。PLoS ALMs是论文层面计量工具,不仅有网络社交媒体的评价、讨论和推荐,也包括论文的传统引用、阅览和下载次数。本文将PLoS ALMs的指标整理为6类,分别是阅览、下载、讨论、保存、被引和推荐。根据PLoS Biology和PLoS Medicine的2个样本数据进行相关性分析,阅览、下载和讨论呈两两正相关性,这也与实际情况相符,对文献进行讨论之前需要阅览、下载全文。阅览、下载与其他指标基本相关,推荐量在不同样本数据中的相关性不太稳定。讨论量为社交媒体讨论次数之和,主要来自于Facebook、Twitter和Wikipedia,其他社交网络讨论频次基本为零。社交媒体讨论量和保存量、下载量都呈正相关。Haustein S[16]等人选取大量论文的Twitter提及数与被引频次,结果表明Twitter提及数与文章早期的被引频次呈正相关,与文章后期的被引频次无相关性。

保存量是学术论文的在线使用与分享次数,保存量与阅览量、下载量及被引量都有相关性。推荐量仅包括F1000 Prime分值,F1000以事后评议方式为研究人员甄选生物学与医学领域重要文献,采用加权平均的方式将专家意见汇总,计算出每篇论文的F1000因子,作为论文同行评议结果。推荐量在样本数据中的相关性不稳定,是因为在PLoS Medicine中数据大多为零,在PLoS Biology中分值有所区分。推荐量与讨论量、保存量无相关性,完全独立。

3.2 PLoS ALMs各指标与Altmetrics评分

相较于PLoS ALMs论文层面计量指标,Altmetrics.com仅收集来自社交媒体和文献管理软件的数据,不包括对论文引用数据[17]。PLoS ALMs不仅有网络社交媒体的评价、讨论和推荐,也包括论文的传统引用、阅览和下载。Altmetrics评分与阅览量和讨论量呈中度相关。不管Altmetrics评分如何计算,权重如何分配,关注文章的第一步都是阅览下载,社交媒体讨论量多的文献是引起大众关注的文献,是社会影响力的充分体现。Altmetrics评分与被引频次呈弱相关,与论文指数h、学术迹T无相关性。王睿[18]、赵蓉英[19]等研究Altmetrics指标学术影响力时均发现,Altmetrics在一定程度上可视为一种早期指标,预测文章在未来能否获得高被引。Altmetrics评分关注公共网络媒体中测度单篇论文的社会影响力,h指数反映出高被引和优质论著的特征点,学术迹T则体现了单篇论文被引文献数量与质量的综合面,各指标从各自的角度给出了一定的评价效度,同时也表现出各自的独立性[20]。

3.3 PLoS ALMs各指标与单篇论文学术评价指标

阅览量与被引频次、h指数呈显著相关,论文被使用或被引用是建立在深入阅读的基础上。国内外已有很多研究探讨下载次数与引用次数关系,但下载次数并不等同于阅览次数。本文的研究数据显示阅览量与文章被引频次、论文指数h均有正相关关系,可反映一定的学术影响力。

下载量与被引频次、h指数均呈正相关关系,下载次数反映了文章被社会关注的程度,也可以反映学术论文的质量和学术影响力。Dan O比较了SSCI、Scopus及Google Scholar 3个引文数据库中引用与下载次数的关系,发现二者高度相关[21];牛昱昕等人基于“中国科技论文在线”的论文引用、下载数据,对开放存取论文的被引频次与下载次数进行相关性研究,发现从长期整体角度来看,开放存取论文的下载次数与被引频次之间呈正相关趋势[22]。本文研究结果与上述结论保持一致,且下载次数与论文指数h也有正相关关系。下载次数不仅体现了文献的网络传播力,而且也可以反映了学术影响力,甚至能基于下载量预测未来下载和被引情况。Watson AB以期刊JournalofVision的下载量和被引量为研究对象,分析发现下载量能提前2年对未来可能达到的最终被引量做出很好的预测[23]。

2个样本数据中讨论量与被引频次、h指数均表现出相关性,虽然强弱不同,但说明大众媒体的讨论能反映一部分的学术热点论文。一部分研究前沿内容也是大众感兴趣和关注的内容,如果一篇文章在社交媒体引起热议也是其学术影响力的体现。郭飞等人发现热点论文在Twitter上的传播一般在10-30天达到峰值,影响其传播力的因素主要包括学术内容的显著性和新奇性、学术传播的内需、开放获取、营销途径等[24]。

保存量统计的是学术论文的在线使用与分享次数(表4、表5)。当保存量以3个平台频次之和进行相关性分析时,结果并不稳定;将3个平台数据分别与Altmetrics评分、被引频次、单篇论文学术评价指标进行相关性分析时(表6),Mendeley与学术化指标均呈正相关,与CiteULike、Figshare均无相关性。匡登辉对SCI高被引论文进行实证分析时发现论文的高被引与其对应的在线使用分享的相关度不高,显示出在线使用(Mendeley,CiteULike)与分享(Figshare)的数据在揭示高影响力文献时存在一定不足[25];Ebrahimy S等人分析社交平台CiteULike、Mendeley、Figshare与Scopus、WOS、PubMed central和Crossref被引频次之间的关系时发现CiteULike,Mendeley标记数与被引量呈显著正相关,Figshare与被引呈显著负相关[26]。

表6 保存量分指标与学术化指标相关性

注:**在置信度(双测)为0.01时,相关性是显著的;* 在置信度(双测)为0.05时,相关性是显著的;左下角和右上角分别是PLoS Biology和PLoS Medicine的数据

推荐量在PLoS Biology样本数据中显示与被引频次、h指数、学术迹T均有相关性,而在PLoS Medicine中完全独立,可能是因为PLoS Medicine样本数据推荐量大多为零,故高影响力论文中推荐量和学术指标可能具有相关性趋势,较低影响力论文中不能体现,因此在分析具体问题时要理性看待。由庆斌等人在F1000网站中选取F1000评分、Altmetrics评分和谷歌学术引用量进行相关性分析时发现F1000评分不能独立反映学术影响力的指标[12];陈小清等人比较F1000评分与学术迹相关性时发现学术迹T与F1000评分无相关性[27]。

4 结论

近年来,论文层面计量学越来越进入研究者、出版商、学校、基金管理者、研究机构的视野,其最大的挑战就是确认标准并广泛使用和理解。PLoS ALMs的阅览量、下载量、讨论量与被引频次、h指数均有相关性,说明阅览量、下载量、讨论量不仅能反映论文被社会关注的程度,也可以反映学术论文的质量和学术影响力。保存量中的Mendeley与学术化指标均呈正相关关系,与CiteULike和Figshare无相关性,说明文献管理软件的在线分享可能会提高成果的可见度和未来的引用次数。推荐量F1000与学术化指标无关。PLoS ALMs的保存量在与学术评价指标相关性上基本和Altmetrics评分保持一致,但PLoS ALMs能够提供更详尽的数据支持。不论是反映社会影响力的讨论、保存、推荐,还是反映学术影响力的被引频次、h指数、学术迹T,都只能从某个侧面揭示论文的影响力,不能完全替代彼此的地位。

论文层面计量学(Article level metrics)是一个多维的评价,与Altmetrics在研究与应用中有所交叉,但研究范围不同。论文层面计量学包括Altmetrics,试图在论文层面测量单篇论文的影响力,包括传统学术方面的,也包括随着社会媒体普及兴起的社会化评价。在评价单篇论文时应运用多指标测度,体现研究成果的综合实力,使科学研究为更多大众所熟知,扩大科研的影响力。

猜你喜欢
影响力次数学术
学术是公器,不是公地
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
俄罗斯是全球阅兵次数最多的国家吗?
如何理解“Curator”:一个由翻译引发的学术思考
基于切削次数的FANUC刀具寿命管理
对学术造假重拳出击
天才影响力
黄艳:最深远的影响力
探索性作战仿真实验重复次数控制研究
3.15消协三十年十大影响力事件