替代计量指标覆盖率及相关性研究*

2020-03-20 07:59褚金星王晓光吕涛
数字图书馆论坛 2020年2期
关键词:阅读数覆盖率影响力

褚金星 王晓光, 吕涛

(1.江苏师范大学连云港校区,连云港 222000;2.中国矿业大学管理学院,徐州 221116)

近年来,在线平台特别是社交网络平台日渐成为科学传播及出版的新渠道,也成为研究人员进行科研文献获取及分享的新途径。随着科研成果的多样性发展以及这些成果越来越频繁地出现在各类社交媒体平台上,替代计量学应运而生,为学术评价提供了新的思路,成为适应在线科研交流环境新的评价方法[1]。替代计量指标主要基于社会媒体,大致包括Twitter提及数、博客提及数、新闻报道提及数、Facebook提及数、Google+提及数、Mendeley阅读数、CiteULike阅读数等。替代计量相比较传统的文献计量的优点在于,其提供了更迅速实时的影响力指标,可开放存取及传输,容纳了更宽范围的非学术性听众,涵盖了更多样性的研究成果和资源[2]。科研人员希望替代计量能够协助解决当前学术评价中存在的问题,认为其所测度的影响力可从学术影响力扩展至社会影响力,阅读、下载、转发等轨迹数据较单一的引文数据具有更加全面评价结果和更具时效性的优点[3]。

目前对于替代计量学的主要评价对象即合著论文的研究,是在传统的文献计量学方法基础上从国家、机构和个人3个层面进行。国家层面,主要关注国家或组织之间的科研合作现状及未来发展趋势[4-5];机构层面,主要关注科研机构之间的合作形式以及不同形式的合作对论文引证数量的影响[6-8];而在个人层面,论文合著者的数量和论文引证数量常常被用来进行相关性分析,用以揭示作者数与论文影响力的相互关系[9-11]。

1 文献回顾

替代计量学最早由Priem等[12]于2010年提出,旨在利用社会网络、新闻报道和文献管理等多种计量指标综合评价科研成果的影响力。自概念提出以来,国内外学者从不同角度对替代计量学进行了研究。如Mojisola等[13]对替代计量学概况、工具、数据资源、计量指标,以及面临的机遇和挑战进行阐述,并讨论了未来的发展方向;邱均平等[14-15]科学梳理了替代计量学的产生背景和发展过程,并对替代计量学发展的若干基本问题进行分析。其他引介性论文也对替代计量学的定义、特征、数据源、发展演变、研究主题等方面进行了详细介绍[16-18]。

实证性研究方面,国外关于替代计量指标与引文相关性的研究,意在寻找与引文量相关性高的替代计量指标,并将其作为学术成果影响力新的评价指标。一系列研究已经表明,Mendeley阅读数与学术成果的引文量有较高的相关性[19-21];而Twitter提及数与学术成果引文量的相关系数较Mendeley相对较低[22-24];一些研究分析了科研论文被维基百科引用的情况,发现维基百科对论文的引用量较低,不适合作为替代计量指标[25-26];还有一部分学者将注意力集中在其他计量指标上,如Lutz等[27]计算了WoS数据库论文在政策文件中的提及率,并以此分析政策文件作为替代计量指标的评价效果。

国内的实证研究同样是基于学术成果引文量与替代计量指标的相关性分析。如宋丽萍等[28]对F1000、Mendeley和WoS、Google Scholar做了相关分析,发现F1000因子与统计区间内的被引频次呈显著正相关,但同时有些F1000因子很高的论文并没有高频被引。在另一篇论文中,宋丽萍等[29]发现同行评议结果、传统引文分析指标,以及以Mendeley为代表的影响计量指标具有低相关性。刘春丽等[30]研究了Mendeley、F1000和Google Scholar与引文的关联性,发现Mendeley阅读数指标与Google Scholar的被引次数指标在论文评价结果中的相关程度相对较高。

目前,基于替代计量学的实证研究主要是围绕替代计量指标与引文量这一传统学术影响力评价指标之间的相关性分析,意在寻找与引文量相关性高的替代计量指标。很多研究是对传统文献计量学研究的补充。本文的创新点在于将替代计量方法与合著论文3个不同层次的合著特征(合作国家数、合作机构数、合作作者数)结合起来,根据指标和合著特征的属性,研究替代计量指标覆盖度。同时使用替代计量指标与包括引文量在内的科研成果各种内外部指标进行对比分析和相关分析,尝试增强社会影响力评价的功能,以期发现替代计量指标与论文合著特征的联系规律,更科学全面地反映学术成果的实际水平和实际影响力,为我国构建更加科学合理的学术评价体系提供智力支持。

2 数据获取与处理

本文选取自然指数数据库(Nature Index)作为数据来源。自然指数数据库是依托于全球顶级期刊,统计各高校、科研院所在国际上最具影响力的研究型学术期刊上发表论文数量的数据库。这些期刊主要发表在化学、地球与环境科学、生命科学以及物理科学4个学科领域的论文。自然指数收录的每一篇论文都有对应的替代计量指标,这些指标由目前最重要的替代计量工具Altmetric.com统计并收录,主要表现为提及论文的新闻报道、Twitter、博客及其他评论等形式。

中国科学院(以下简称“中科院”)是国内在自然指数数据库中排名第一的且具有代表性的科研机构。笔者于2018年12月底采集中科院科研人员2017年1月1日—12月31日发表在化学、地球与环境科学、生命科学、物理科学4个学科共3 527篇论文作为研究数据集合。

首先,提取每篇论文的合作机构数、合作作者数和论文对应的替代计量指标,这些指标包括论文关注度指数(Altmetric Attention Score,AAS,一项根据各种替代计量学指标计算得到的综合性得分[31])、Twitter提及数、博客提及数、新闻报道提及数、Facebook提及数、维基百科提及数、Google+提及数、视频(video)提及数、Mendeley阅读数及CiteULike阅读数。然后,根据合作者的信息,人工统计每篇论文的合作国家数。最后,定义只有中国地址的论文为国内合作论文,包含2个及以上国家地址的论文为国际合作论文。

3 分析结果

3.1 分布情况

3.1.1 期刊分布

由于数据集合包含的期刊数量较多,占用篇幅过大,本研究只列出期刊所属的学科及各种学科对应的期刊数及论文数量,其中《自然》《科学》等综合类期刊存在一种期刊属于不同学科的情况。地球与环境科学有11种期刊,187篇论文;化学有18种期刊,1 444篇论文;生命科学有34种期刊,425篇论文;物理科学有23种期刊,1 471篇论文。期刊及论文分布占比情况如图1所示。自然指数数据库收录的国际顶级期刊中,化学和物理科学两类基础学科刊发了大量论文,生命科学虽然总体刊发论文数量不多,但期刊数量是最多的。相对而言,地球与环境科学的期刊数量和刊文量均最少。

3.1.2 合作国家数、合作机构数和合作作者数分布

将所有论文的合作国家数、合作机构数和合作作者数分别进行频次统计,得到分布情况如图2所示。

图1 数据集期刊数、论文数分布及占比

图2 合作国家数、合作机构数、合作作者数频次分布

在3 527篇论文中有超过1 800篇论文的合作国家数为1,即国内合作论文。国际合作论文的数量随着合作国家的增多而逐渐减少,虽然少量论文的合作国家数达到了21个,但大部分国际合作论文的合作国家数不超过7个。随着合作国家数的逐渐增加,论文数量呈长尾分布。合作机构数的频次分布有所不同,有100多篇论文由同一个机构内的作者合作完成,大部分论文是由2~8个不同机构的科研人员合作完成。随着合作机构数量的增加,对应的论文数量大幅减少。合作作者数的频次分布特征与合作机构数类似,绝大部分论文由2~17位作者合作完成,除此之外的论文数量不多,但随着合作者数量的增加而均匀分布。

3.2 指标覆盖率分析

3.2.1 国内合作论文与国际合作论文替代计量指标覆盖率分析

经统计,数据集合中有1 896篇国内合作论文和1 631篇国际合作论文。设Ai={A1,A2,…An}分别表示Mendeley阅读数、Twitter提及数、新闻报道提及数等替代计量指标,Mi={M1,M2,…Mn}表示替代计量指标对国内合作论文的提及数量,Ni={N1,N2,…Nn}表示替代计量指标对国际合作论文的提及数量,CMi为Ai对国内合作论文的覆盖率,CNi为Ai对国际合作论文的覆盖率,则国内合作论文和国际合作论文的替代计量指标覆盖率公式分别为笔者分别计算了各替代计量指标对国内合作论文和国际合作论文的覆盖率,对比数据如图3所示。

图3 国内合作论文与国际合作论文替代计量指标覆盖率对比

对于国内合作论文,Mendeley的覆盖率最高。有50.05%的论文至少被1位Mendeley用户阅读;Twitter紧随其后,对国内合作论文的覆盖率为31.96%。新闻报道、Facebook、博客和CiteULike的覆盖率分别为5.59%、1.79%、1.27%和1.16%。相对较而言,Google+、维基百科和视频的覆盖率更低。

替代计量指标对国际合作论文的覆盖率都相对更高。Mendeley的覆盖率从50.05%提高到61.50%,Twitter的覆盖率从31.96%提高到47.70%。值得注意的是,新闻报道的国际论文覆盖率是国内的将近3倍,Facebook、博客和CiteULike的情况也达到3~5倍,此外Google+,维基百科和视频的覆盖率也有少量增加。已经有研究结果表明,Mendeley和Twitter是主要的替代计量数据来源[32-35],本文的分析结果与之前的研究结果吻合。

各替代计量指标对国际合作论文的覆盖率比对国内合作论文的覆盖率更高,其中固然有国内对如Twitter等网站访问不畅的原因,但更重要的原因是海外科研合作人员更趋向于使用Twitter和Facebook等社交媒体平台或者Mendeley等文献管理平台进行交流并宣传学术成果,从而增加了学术成果被各种替代计量指标提及的次数。

3.2.2 不同学科论文的替代计量指标覆盖率分析

将数据集合按学科分成4组,分别计算Mendeley、Twitter、新闻报道、博客、Facebook、Google+、维基百科和视频对各组论文的覆盖率,对比数据如图4所示。

图4 不同学科论文替代计量指标覆盖率对比

地球与环境科学的期刊数量和刊文量最少,但论文替代计量指标的覆盖率均超过收录大量论文的化学和物理科学;生命科学论文数量仅占论文总量的12.05%,但是各项替代计量指标的覆盖率远超过其他3个学科论文的覆盖率,尤其是Mendeley和Twitter的覆盖率均超过85.00%;与图3分析结果对应,Mendeley和Twitter对各类学科的论文覆盖率均较高。

3.2.3 替代计量指标覆盖率与合作国家数的关系

由于数据集合中绝大多数论文的合作国家数低于15,所以笔者根据合作国家数将数据集合重新划分为15组(国内合作文章为第1组,合作国家数为2~15的论文分别为2~15组)。接着计算9个替代计量指标对每一组论文的覆盖率,得到一个15×9的矩阵(表1),可得到以下结论。

(1)总体上各替代计量指标覆盖率有很大的区别,且存在不同程度的波动。由于Mendeley在学术界被高度认同以及Twitter的广泛使用,两者的覆盖率比其他指标覆盖率高出许多。Twitter对各个分组论文的覆盖率均保持在30.00%以上,Mendeley的覆盖率更是保持在50.00%以上。当合作国家数由1变为3时,Mendeley的覆盖率上升到67.13%,Twitter上升到52.94%。随着合作国家数的继续上升,Mendeley和Twitter的覆盖率在波动中上升并在合作国家数为12时达到最大值(100%和76.92%),如果合作国家数继续增加,覆盖率出现显著回落。

(2)新闻报道、博客、Facebook和CiteULike指标对国际合作论文的覆盖程度高于国内合作论文。此4项指标对国内合作论文的覆盖率分别为5.59%、1.27%、1.79%和1.16%,但是当论文合作国家数为9时,其覆盖率分别增加到31.25%、18.75%、18.75%和6.25%。可以看出,尽管总体覆盖率不高,但是这4个指标对国际合作论文的覆盖程度比国内合作论文更高。

表1 替代计量指标对不同合作国家数的论文覆盖率对比矩阵

(3)Facebook、维基百科、Google+和视频指标对众多国家参与合作的科研论文缺乏关注。这4种指标在合作国家数超过9后,除Google+在合作国家数为11时,覆盖率均为0,尤其是维基百科和视频,只在很小范围内关注了有限数量的合作论文。

3.3 指标相关性分析

笔者选择覆盖率较高的AAS指数、Mendeley阅读数、Twitter提及数、新闻报道提及数和博客提及数为替代计量指标,分别将合作国家数、合作机构数、合作作者数等合著特征值与各替代计量指标进行相关性分析。如表2所示并可得以下结论。

表2 论文合著特征值与替代计量指标相关系数

(1)合作国家数与新闻报道提及数的相关系数为0.362,这是其与替代计量指标相关系数的最大值。这说明随着合作国家的增加,关注合作成果的社会媒体中新闻报道增多的可能性最大。

(2)合作机构数、合作作者数与替代计量指标的相关系数均为中低度相关(相关系数在0.500~0.800为中度相关,0.200~0.500为低度相关),表明科研人员的合作程度与论文被社会媒体关注程度有正向的关联。科研合作程度越高,合作成果被社会化媒体关注的程度越高。

(3)合作机构数和合作作者数的相关系数为0.607,合作国家数和合作机构数的相关系数为0.606,均属于中度相关,与现实情况相符。一般情况下,如果论文的合作机构数较多,意味着合作的作者数量也较多;而如果论文由较多国家合作完成,也意味论文的合作机构数量较多。

(4)Mendeley由于其免费、方便交流、易于使用等特点在学术界广受欢迎,但是并没有被Altmetric.com纳入AAS,因此笔者计算了Mendeley阅读数与AAS以及其他替代计量指标的相关系数。结果显示Mendeley阅读数与Twitter提及数相关系数为0.549,为中度相关。此外,Mendeley阅读数与AAS(0.462)、博客提及数(0.444)和新闻报道提及数(0.296)之间也存在中度相关或弱相关性。

4 结论

本研究采集了自然指数数据库中中科院科研人员发表的论文及其对应的替代计量指标值,对论文合著特征及其替代计量指标进行各种数据特征分析和相关分析,结论如下。

(1)相对于国内合作论文,各替代计量指标对国际合作论文的覆盖率更高,一是因为国内对诸如Twitter等网站访问不畅,二是因为海外科研合作人员更趋向于使用Twitter和Facebook等社交媒体平台或者Mendeley等文献管理平台进行交流并宣传学术成果,从而增加了学术成果被各种替代计量指标提及的次数。Amalia等[36]的研究发现替代计量指标具备评估像社会影响力等非学术性影响力的功能。如果按照这一标准,国际合作论文总体上具有比国内合作论文更高的社会影响力。

(2)在所有替代计量指标中,Mendeley和Twitter对不同合作国家数的论文覆盖率更高,是最主要的替代计量数据来源。并且随着合作国家数量的增多,两者覆盖率呈波动上升的趋势,在合作国家达到12个时,覆盖率达到最大值。这表明如果合作国家数保持在一个特定区间内,则合作论文容易获得较高的替代计量评价效果。

(3)在对不同合作国家数的论文覆盖率比较中,新闻报道、博客、Facebook和CiteULike替代计量指标对国内合作论文的覆盖率不高,但在论文合作国家数为9时,这4个指标的覆盖率显著提高。这说明除了Mendeley和Twitter等指标外,其他替代计量指标也会在特定区间内影响合作论文的替代计量评价效果。

(4)Google+、维基百科和视频分别是国际主流的社交平台、知识平台和媒体形式,但是在各种维度的覆盖率对比分析中,上述3种替代计量指标对论文的覆盖率均处在非常低的程度,对学术论文从社会影响力的角度进行客观评价的功能并没有完全发挥出来。这也是后续研究需要思考的地方。

(5)在各类学科论文中,生命科学类期刊数量最多,论文数量远远少于化学和物理科学,但是各类替代计量指标的覆盖率远在其他各类学科的覆盖率之上。这说明生命科学类论文更容易引起各类平台、媒体的关注,也是最适合引入替代计量学进行学术影响力和社会影响力综合评价的学科。

(6)合作国家数、合作机构数、合作作者数论文合著特征与替代计量指标之间存在中度或低度相关,说明科研合作程度越高,合作成果被社会化媒体关注的程度越高。有所区别的是,多个国家的合作往往引起传统媒体的注意,所以合作国家数与新闻报道提及数相关度更高,而机构与个人层面的合作吸引的是个人的关注,因此合作机构数、合作作者数与社交媒体提及数之间的相关度更高。

(7)虽然Mendeley阅读数没有被计入论文关注度指数,但与关注度指数及其他计量指标之间存在中度或低度相关。之前的研究成果已经表明Mendeley阅读数和论文引文量中度相关,而本文的分析表明Mendeley阅读数也与其他替代计量指标中度相关,这意味Mendeley阅读数既可以有效地评价科研成果学术影响力,又可以起到其他指标类似的替代计量评价效果。换言之,Mendeley阅读数既可以反映科研成果的学术影响力,也可以在一定程度上反映科研成果的社会影响力。

总体而言,各国间不同层面的科研合作有利于提高合著论文的受关注程度,提升合著论文的学术影响力和社会影响力,与合作成果的替代计量指标值是相辅相成的关系。目前中国是世界第二大科研产出国,我国一向支持国际科研合作,通过采取增加资助、拓宽合作途径等多种措施营造健康的环境以增进国际合作与交流。本文的分析结果可以帮助我们更好地理解合著论文的合著特征与论文替代计量指标的关系,对于深入研究中国学术合著论文,评估学术成果影响力,完善我国科研交流评价体系具有重要的意义和价值。

猜你喜欢
阅读数覆盖率影响力
民政部等16部门:到2025年村级综合服务设施覆盖率超80%
科技政务微信传播方式与效果研究
——以某省科技微信公众号为例
我国全面实施种业振兴行动 农作物良种覆盖率超过96%
天才影响力
黄艳:最深远的影响力
基于喷丸随机模型的表面覆盖率计算方法
2015年湖南省活立木蓄积量、森林覆盖率排名前10位的县市区
3.15消协三十年十大影响力事件
传媒不可估量的影响力
编读往来