陈华芳 向菲
(华中科技大学医药卫生管理学院,武汉 430030)
随着社交网络的普及,学术成果的传播渠道发生改变,过去必须借助纸质的图书、期刊进行传播,现在可以直接在社交软件上发布、转发、收藏等。在社交网络平台上的传播、互动提升了学术成果的影响力范围,影响力的体现方式不再局限于传统的被引频次,还包括分享、收藏、评论、点赞等[1]。传统计量指标如被引频次、H指数、影响因子等在使用中逐渐暴露出时滞期长、影响力不足、引用动机复杂等问题[2],在这种情况下,Priem于2010年提出Altmetrics指标。2012年国内学者刘春丽[3]首次引入Altmetrics指标,并将其译为选择性计量学;2013年,邱均平等[2]将其译为替代计量学,由庆斌等[4]译为补充计量学等。Altmetrics在国内的研究开始逐渐趋热,但研究主要集中在Altmetrics指标与引文指标关系的探究[5-8],而对Altmetrics指标与其他层面指标关系的研究较少。本文将探究Altmetrics与论文、作者、期刊3个层面的传统文献计量学指标的关系,分析Altmetrics在学术论文评价中的特征与优势,为Altmetrics的应用提供参考建议。
医学健康领域存在严重的知识壁垒,医患双方的信息不对称是导致医患关系紧张的一个重要原因[9]。《“健康中国2030”规划纲要》指出可以通过新媒体拓展健康教育,提高全民健康素养[10]。随着社交网络或在线社区的兴起,期刊文献开始通过互联网传播,人们可以通过新媒体轻松获取海量信息,但如何甄别文献价值成了新的难题。传统的引文评价方式由于需要时间积累已经无法满足公众对于最新研究成果进行及时评价的需求。如2020年新冠肺炎疫情期间,大众对新的治疗药物、治疗方案进行及时评价的需求达到前所未有的高度,迫切需要即时、有效的新指标来帮助大众进行分辨。Altmetrics的即时性可以反映最新成果的影响力,但对于Altmetrics的有效性和科学性需要进一步探究。目前已有部分学者对单一学科的Altmetrics与传统计量指标关系进行探究,如航空航天医学[11]、糖尿病[12]、临床医学[5]等,但对于整个医学健康领域来说,Altmetrics的应用方式还需要进一步探究。
目前已有许多学者对于Altmetrics指标与传统计量指标进行研究,但结果不一致,两者之间的关系仍然不明确。Mendeley读者数是目前Altmetrics中文献覆盖率最高的指标,被引频次是传统计量中最基础的指标。以讨论最多的Mendeley读者数与被引频次关系来看,它们的相关系数由于数据源的学科和时间不同一直在变化。研究的主要引文数据源来自Scopus、Web of Science和Google Scholar,Schlögl等[13]以信息系统学的期刊文章为研究对象,得到相关系数为0.510和0.590;匡登辉[14]发现引用次数≥100的PLoS期刊论文中两者相关系数为0.376;Li等[15]研究Nature、Science的文章得到的相关系数为0.559和0.540;Syamili等[16]以“Ebola disease”为主题获取的文章中,两者相关系数为0.678;图书馆和信息科学领域的期刊文章中两者相关系数为0.559[17];生物科学学科的期刊论文中两者相关系数为0.450[18];汉语言文学学科文献中两者相关系数为0.601[19];以“Altmetrics”为主题的文献中两者相关系数为0.687[20];“基因编辑”文献中两者相关系数为0.747[21];在PLoS One期刊的研究论文中两者相关系数为0.520[22];余厚强[23]以2012年1月、2013年1月和2014年1月在Altmetric.com发表的所有论文为研究对象,两者相关系数为0.614。根据各文章中实验数据的最早年限为横坐标,相关系数为纵坐标,绘制图1。从Mendeley读者数与被引频次可以看出,Altmetrics指标与传统计量指标的关系可能会因为学科和时间的改变而发生改变。
Syamili等[16]学者对于2010—2015年数据源的研究表明,Altmetrics的覆盖率很低,只有15%~24%的出版物呈现一些Altmetrics指标数据,不过随着时间推移Altmetrics的使用频率逐渐增加。由图1也可以看出,随着时间的推移,Altmetrics与传统计量指标的关系可能发生变化,需要继续对其进行探究。
图1 Mendeley与被引频次的相关系数
(1)Altmetrics指标获取。Altmetric.com作为目前社交媒体数据的重要平台之一,其数据来源可靠,引入了其他平台所没有的传统新闻与政策媒体提及和新型社交媒体指标,指标覆盖范围广。同时考虑到论文必须有一定的被引积累时间,故选取2016年发表的医学健康领域最受关注的前100篇文章作为研究对象,数据搜集时间为2020年4月29日。Altmetric.com平台限定检索主题为“Medical and Health Sciences”,学术成果类型为“Articles”,出版时间为2016年1月1日—2016年12月31日。根据Altmetric Attention Score(Altmetric.com所设定的指标权重计算的总分)进行排序,采集排名前100的文章Altmetrics指标数据,主要包括新闻、政策文件、Wikipedia、视频、Twitter、Facebook、博客、Google+、Mendeley读者数等。
(2)传统计量指标获取。通过文章DOI在Web of Science数据库查询文章的关键词数、是否被收录为ESI高被引论文。期刊评价指标来源于JCR,包括期刊等级、2015年期刊影响因子、即年指数、论文影响分值、标准化特征因子、期刊影响因子百分位。在Scopus数据库获取文章的参考文献数量、参考文献质量、施引文献数量、施引文献质量、作者数量、科学年龄等指标。
Altmetrics指标的形式丰富且一直在扩充,要对其加以利用,首先需要根据这些指标的属性内涵进行分类,以最大化发挥其优势[24]。有学者从社会关注度的3种不同来源途径对指标进行分类,即社会媒体关注度、自媒体关注度、在线文献管理软件用户关注度[25]。但其中包含的指标数量较少,忽视了部分新指标。也有学者将Altmetrics指标分为4类,即大众传媒、社交活动、学术使用、学术评论[26-27]。综合上述观点,剔除100篇文章对应的微博等4个空指标,本文将Altmetric.com的14个指标分为4类。①大众媒体,指论文在大众媒体平台被提及的次数,特征是自上而下的传播机制,包括新闻、政策文件、Wikipedia和视频;②社交活动,指论文在社交媒体平台上引发的一般公众反应热度,特征是参与速度快、内容简短、受众面积广,包括Twitter、Facebook、博客、Google+和Reddit;③学术使用,指论文被学术科研人员获取使用的次数,包括Mendeley读者数和专利;④学术评论,指论文在学术平台引发的在线学术讨论的次数,包括F1000、同行评议和Q&A(stack overflow)。
根据传统计量指标的所属层级不同分为3个层面:①论文层面指标包括关键词数量、参考文献数量、施引文献数量、参考文献H指数、施引文献H指数、参考文献平均被引频次、施引文献平均被引频次;②作者层面指标包括作者数量、第一作者科学年龄、通信作者科学年龄、作者平均科学年龄、作者最大H指数、第一作者H指数、通信作者H指数;③期刊层面指标包括期刊等级、期刊影响因子、即年指数、论文影响分值、标准化特征因子、期刊影响因子百分位。
常用的相关性检验方法为Spearman法和Pearson法。本文首先采用非参数Kolmogorov-Smirnov单样本正态性检验法对样本数据进行检验,根据正态性检验结果选择相关性检验方法,数据服从正态性分布则采用Pearson法,不服从则采用Spearman法,检验结果p<0.05时具有统计学意义。
ROC曲线又称为受试者工作特征曲线(Receiver Operating Characteristic Curve),可用于检测指标的二分类识别效果。桑基图(Sankey Diagram)通过图中的分支粗细可以直观反映不同阶段数据的流动,揭示数据的复杂变化趋势。线性回归可以分析多个指标之间的关系。根据相关性检验结果选用上述方法对指标关系进一步分析。
正态性检验结果显示,绝大多数指标不服从正态分布,因此采用Spearman相关性检验法对各层面传统计量指标与Altmetrics指标的相关性进行检验。
如表1所示,根据Altmetrics指标与论文层面的传统计量指标相关结果大致可以分为两类,与论文层面的指标不相关的大众媒体和社交活动为一类,与指标较强相关的学术使用和学术评论为一类。其中,学术使用与论文层面的指标均显著相关,与施引文献数量、施引文献H指数呈极强相关。学术评论与关键词数量、参考文献指标不相关,与施引文献相关指标呈中相关。
表1 论文层面指标与Altmetrics指标的相关系数
学术使用与施引文献数量相关系数高达0.867,认为学术使用可以识别高被引文献,采用ROC曲线进一步分析。根据文章是否被ESI高被引论文收录将文章分为ESI高被引论文和非ESI高被引论文。学术使用识别ESI高被引论文的ROC曲线图AUC面积为0.929,可见学术使用对ESI高被引论文有较好的识别能力。
以作者的科学年龄和H指数表示作者的学术成熟度,由表2可知,大众媒体、社交活动与作者指标均不相关,学术使用、学术评论与作者数量呈中相关,与作者科学年龄的相关性不显著,与作者最大H指数和通信作者H指数弱相关。可见,大众媒体、社交活动与作者学术成熟度无关,学术使用、学术评论与作者学术成熟度弱相关。
表2 作者层面指标与Altmetrics指标的相关系数
期刊等级、期刊影响因子、即年指数等指标均表示期刊质量。由表3可知,大众媒体与期刊影响因子百分位弱相关,与其他期刊质量指标不相关。社交活动与标准化特征因子无显著相关,与其他期刊质量指标有显著弱相关。学术使用、学术评论与期刊等级无显著相关,与其他期刊质量指标有显著相关,但相关系数均小于0.450。
表3 期刊层面指标与Altmetrics指标的相关系数
根据相关性检验结果,选取关键词数量、参考文献数量、作者数量、学术使用、学术评论、ESI高被引,反映文章的使用路径,体现文章学术影响力的作用过程。关键词数量、参考文献数量、作者数量、学术使用4个指标根据中位数划分多少;学术评论由于大部分值为0,因此根据值是否为0划分有无;根据文章是否被ESI高被引论文收录,将文章划分为ESI高被引论文与非ESI高被引论文。根据论文在不同阶段的流动情况制作桑基图如图2所示。
由图2可以看出,关键词数量多、参考文献数量多、作者数量多的文章在学术平台上被使用的概率更大,学术使用多的文章更可能是ESI高被引论文,学术使用少的文章更可能是非ESI高被引论文。总体来看,能够引发在线学术讨论的文章较少,学术评论的有无与作者数量有关,有学术评论的文章更可能成为ESI高被引论文。
由表1可知,学术使用和学术评论与施引文献数量中强相关,且经过验证学术使用可以识别高被引文献,推测学术使用与学术评论可以预测论文的被引频次,通过线性回归对预测进行验证。考虑到这两个预测变量对于施引文献数量的作用可能互相影响,在回归模型中加入交互项。被引频次的预测模型见公式(1)。
图2 计量指标间的数据流动图
学术使用、学术评论p值均小于0.05,证明被引频次与学术使用、学术评论有显著线性关系,回归模型具有显著性。模型R2值为0.874,调整R2值为0.870,拟合效果较好。交互项p值小于0.05,表明两个预测变量的交互项显著,推测学术评论、学术使用中至少有一个预测变量与被引频次的关系会受到另一个预测变量影响。
学术成果的影响力由学术影响力和社会影响力构成[24],主要区别在于二者的受众不同,学术影响力指的是对学术界的人(学术同行、专家群体等)产生的影响,社会影响力表现在社会大众对学术论文的反应热度。
4.1.1 大众媒体、社交活动与引文代表的受众不同
学术研究的成果不能只是空中楼阁,必须要作用于社会,服务于大众,最终得到社会的认可[24]。数字媒体的发展拉近了学术与社会大众的距离,大众可以在各种社交网络或者信息平台近乎零成本地获取论文。大众媒体、社交活动表现的是媒体平台上学术成果受到的关注,即论文的社会影响力。大众媒体、社交活动与论文层面的指标均不相关,与其他学者研究结果一致[8,16,28],由此可见,社会影响与学术影响并不相关,社会影响的受众与传统的学术界并没有大幅度重合。传统的引文评价指标主要反映的是学术界对于学术成果的利用,产生这种行为的是“引用作者”。数字媒体带来新的传播途径后,学术成果的影响力范围拓展到学术界以外的人群,大众媒体、社交活动可以作为传统引文评价体系的补充,拓展学术成果影响力的计量范围。
4.1.2 学术使用、学术评论可以表征高质量的文章
一篇文章在期刊上发表需要经过同行评议,期刊质量高,评审对于稿件质量的要求也高,严谨的审稿过程是稿件质量的重要保障[29]。期刊的质量指标体现了经过同行评议的文章价值,学术使用和学术评论的产生者多是相关领域的研究人员,对于文章的认可在一定程度上可以体现文章的潜在质量(价值)。学术使用和学术评论与期刊质量指标(除期刊等级外)均相关,学术使用对于高被引文献具有一定的识别能力,且学术使用和学术评论可以预测被引频次,证实学术使用和学术评论能够在一定程度上表征高质量的文章。
4.1.3 Altmetrics与传统计量指标相互“引流”
关键词数量表示文章被检索获取的入口,是学术活动开始的起点,关键词数量越多,学术使用越活跃。学术使用、学术评论与作者数量显著相关,与关键词数一样,读者可能通过查阅作者的已发表文献进入,作者数量越多,入口更多。有学术评论的文章多为作者数量多的文章,作者数量越多,在文章发表的初始会带来更多的学术使用和学术评论,如作者间的交流、作者的学生学习或者合作作者的阅读交流,类似于引用中的自引。
学术使用与参考文献数量呈中相关、与施引文献数量呈极强相关,可以体现读者对于文章参考文献的跟踪行为和施引文献的追溯行为,参考文献的读者会跟踪其被引用情况,施引文献的读者会追本溯源探究其参考的根源。
学术评论一般是围绕文章内容展开,评论的产生者多是同领域研究学者。学术评论与施引文献数量、施引文献质量呈中相关,且有学术评论的文章多转化为高被引文章,可以认为学术评论为被引频次带来“流量”,反映学者的研究兴趣、思维碰撞和互相启发。
4.2.1 Altmetrics指标可以发现年轻的优秀学者
传统的个人学术影响力定量评价方法包括论文总数、引文总数、篇均被引数、H指数、社会网络分析法等[30]。其中H指数因为兼顾论文的数量与质量,得到广泛使用。然而,H指数在很大程度上依赖于学者的学术生涯时间,年轻学者没有足够的时间积累引文量。Altmetrics指标的积累时间短,可以做出快速反应,有学者参考H指数的定义提出Hmen指数(以Mendeley读者数为基础),验证发现Hmen指数可以发现年轻的杰出学者[31]。实验结果中,Altmetrics指标与作者的科学年龄均不相关、与文章的作者H指数不相关或者弱相关,表明Altmetrics指标不受年龄和声望的桎梏,对于年轻学者很友好。
4.2.2 学术使用、学术评论反映学术影响力更早更广
学术使用的主要数据来源是Mendeley读者数,Mendeley是在线学术社交网络平台,用户多为科研人员,他们利用Mendeley进行文献的阅读与标注以及参考文献的管理和学术交流[32]。学术论文的发表过程需要经过选题、文献阅读与分析、制定和执行实验方案、数据分析和处理、论文撰写和投稿、外审意见修改等众多环节,从功能上看,Mendeley参与了学术论文的写作发表过程,学术使用是学术论文发表前的文章引用体现[33]。学术评论的产生者多是同领域研究学者,反映早期学者对于文章的看法。学术使用、学术评论与被引频次的关系也证实这一点,学术使用、学术评论反映了用户的预引用动机,有效缓解被引频次的时滞性问题。
在被引频次的预测模型中学术使用的系数为0.472,可见并非所有的学术使用都会转化为引用,很多学者在阅读文章时得到隐性知识但并未引用。被引频次统计的范围是“引用作者”,学术使用统计的是“使用用户”,相比之下学术使用反映的学术影响力范围更广。
4.2.3 社交活动可以发现“宝藏”文献
很多文章得到同行认可能够在期刊上发表,但在发表后不能及时得到关注和引用,加上“马太效应”的存在,被引更多的文献引用的高被引文献占比越高,高水平学者也更偏向引用高被引文献,学术新秀往往得不到与自身学术水平相匹配的重视[34],这也是“睡美人文献”产生的重要原因。社交活动与期刊质量指标相关,但与作者年龄、作者H指数均不相关,通过社交活动可以不受作者声望的影响发现优秀的文章。此外,社交活动与关键词数、施引文献数量、参考文献数量、作者数量等不相关,这些指标都是读者的检索入口。综上所述,社交活动可以发现声望较低、检索入口较少的“宝藏”文献。
Web2.0时代信息传播更便利的同时也拓宽了学术成果的传播渠道,学术成果的受众也从原来的相关领域学者拓展到公众,对于学术成果的评价也应进一步拓展。Altmetrics指标中,大众媒体、社交活动可以对传统引文评价体系进行补充,拓展学术成果影响力的计量范围;学术使用、学术评论表征的仍然是学术影响力,但相较于引文指标的范围集中于“引用作者”,二者的覆盖范围更广,而且及时性更好,可以更早反映用户的预引用动机并有效缓解被引频次的时滞性问题。可见,Altmetrics指标与传统计量指标并不是泾渭分明的,它们相互补充、相互“引流”。Altmetrics指标的及时性为其应用带来了优势,可以打破年龄和声望的桎梏,发现年轻的优秀学者和检索入口少、声望低的“宝藏”文献。
当前在互联网上传播的文章数量较少,Altmetrics的覆盖率仍然很低,大多数文章的Altmetrics指标值为0,可用于分析的文章数量有限。学术使用与学术评论预测被引频次的交互项显著,两者间的作用关系还需要进一步明确。引文评价中存在的动机问题在Altmetrics中依然存在,Altmetrics指标与期刊质量指标多为弱相关,部分甚至负相关,可以认为Altmetrics指标对于高质量的文章是有一定的发掘能力的,未来Altmetrics的具体应用方式还需要进一步探索。