宋丽萍 王建芳 付 婕 孙 泽
(1.天津师范大学管理学院,天津,300387; 2.中国科学院科技战略咨询研究院,北京,100190)
本世纪以来,科学评价的重心从学术影响力逐步转向社会影响力,由此催化了Bornmann[1]所谓评价领域的“库恩革命”。鉴于以Merton 为代表的规范理论,即“引文是用来偿还研究债务的货币、较高的被引量代表其从同行那里获得了较高的认可”,学术影响力被量化为引用的“因变量”[2],目前计量学家努力寻求“引用等价物”用于研究的社会影响力(下文简称社会影响力)测度。替代计量(Altmetrics)作为除案例研究(case study)外的备选方案,应运而生,并迅速成为国内外研究应用的热点。然而,Altmetrics 评价的可靠性如何,人们对此尚存疑问,本文针对这一问题,从社会影响力评价视角,分析 Altmetrics 评价效果,以期对新型科学评价理论的发展与应用提供借鉴和参考。
2014年,社会影响力被纳入英国高等教育卓越评价体系(Research Excellence Framework, REF),并被定义为给学术界以外的经济、社会、文化、公共政策、服务、健康、环境或生活质量带来的影响和收益[3]。事实上,1945年Bush在题为《科学:无止境的前沿》的报告中即明晰了科学研究与社会影响力之关系,并指出高水平研究乃社会之幸[4]。此后,社会影响力逐渐演化为欧美国家资助研究项目的砝码。世纪之交,荷兰提出“研究的社会质量”、欧盟实施了“地平线2020”计划,由此促进了社会影响力地位的显化。2016年,英国科学院院长、世界银行首席经济师Stern在《REF2014斯特恩评论》中进一步指出REF2021将加大社会影响力权重[5]。2020年12月,美国国家科学院在题为《无止境的前沿——科学未来的75年》的报告中,将研究转化为应用的能力再次划为重点,并将其确定为未来科学发展的五大问题之一[6]。可见,强化社会影响力已被视为提高研究质量的关键手段和促进科技进步的杠杆,而兰德欧洲所谓通过提升社会影响力使科学、技术和创新给社会和经济带来的收益最大化,为这一操作提供了注解[5]。
2016年,Searles概述了社会影响力评价的三种主要方法,即投资回报、成本效益与案例研究,而1870年哈佛大学首创的案例研究为其中主流方法。Thelwall[7]的研究则表明,目前除专利技术影响、医学临床影响两种引用当量的社会影响力测度外,案例研究是唯一可行的路径。英国的REF、荷兰的标准评估协议(Standard Evaluation Protocol,SEP)、澳大利亚的研究质量体系(Research Quality Framework,RQF)均采用了该方法。同时,ArXiv创建者、康奈尔大学物理学家Ginsparg的文本挖掘结果显示,“研究”“影响”的词频与专家评分显著正相关,由此表明,案例研究与同行评议的关联[8]。事实上,专家恰恰依据案例的定性描述对研究的社会影响力进行甄别,因此,案例研究本质上类似于同行评议,其所携带的同行评议基因正是它成为社会影响力有效测度的根源。
然而,案例研究亦存在一些问题,首先,撰写的成本过高;其次,时滞与归因问题,荷兰物理学家Casimir就提出研究与应用间存在15年窗口期,并且研究与贡献之间的因果关系难以量化[9];第三,有悖科学研究解决特定社会问题的初衷,因为其中常规指标大多与经济增长相关;第四,仅报告成功案例、忽视阴性结果,而有违英国著名哲学家卡尔.波普尔的科学的可证伪理论;最后是不可重复性,因为每个案例都是独特的。事实上,定性案例研究的流行反映了目前仍然缺乏捕捉和测量社会影响力的指标、方法与标准,因此,人们希冀通过Altmetrics获得解决方案。
Altmetrics源于2010年9月Priem在Twitter上发表的宣言,其基于Twitter、Facebook等第二代社交网络,将信息交流的数字痕迹转换为指标,以应信息过滤、研究评价之需。经过10年积累,Altmetrics工具已较为完善。目前,两大主要数据提供商——数字科学公司和爱思唯尔分别以Altmetric.com、PlumX系统收集Altmetrics指标,并向大学和研究机构出售。研究人员亦可向Altmetric.com申请免费的数据使用权,本文即通过这一方法获取了第三部分研究所需数据。
为揭示Altmetrics在社会影响力中的应用维度,本文借助WoS(Web of Science),利用荷兰莱顿大学Eck和Waltman基于JAVA开发的VOSviewer,将2010—2020年Altmetrics研究论文可视化[10]。该软件核心思想是通过共现聚类及其可视化分析,展现知识领域的结构与进化,从而揭示研究热点与趋向。检索式为:TS="altemetrics*"and PY=2010—2020 and WoS Categories= information science library science,检索获得论文318篇(见附录)。进而选取基于时间线的关键词叠加视图(图1所示)进行可视化。图1中自2018年social impact和societal impact聚类簇的形成,标志着将Altmetrics作为社会影响力评价路径与手段的尝试。
图1及相关文献表明,Altmetrics在社会影响力中的应用可归述为如下几个方面:①Costas、Lariviere、Haustein等关于学术产出在社交媒体中的利用与共享研究,以充分挖掘社交媒体在信息筛选及科学研究中的潜力[7,9]。②Bornmann、Waltman等将共引(co-citation)等成熟的文献计量方法引入到Mendeley readers (Mendeley读者统计)中,以提高Altmetrics指标水准[11]。③Wouters、Thelwall、Moed就Altmetrics与文献计量指标及F1000(Faculty of 1000)同行评议结果进行相关分析,以诠释Altmetrics指标含义,并探讨其在社会影响力评价方面的可靠性与有效性,然而,目前尚无定论[12]。下文将通过统计结果,划分Altmetrics指标类型,并依据Altmetrics指标内涵及英国REF对社会影响力的定义,就其有效性进行分析。
图1 2010—2020年Altmetrics研究论文关键词叠加聚类视图
本文选取Altmetric.com、iCite、InCites数据库用于统计分析。Altmetric.com创建于2012年,目前提供Number of Mendeley readers(简称Mendeley)、Number of Dimensions citations(Dimensions数据平台中被引量,简称Dimensions)、Twitter mentions(简称Twitter)等19项指标,同时包含对上述指标进行加权获得的综合分值Altmetric Attension Score(AAS)。iCite系2015年美国国立卫生研究院(NIH)开发,其中RCR(Relative Citation Ratio)为通过共引网络识别论文研究领域并对论文被引频次进行规范化,以体现其在同一领域相对被引表现的指标[13]。InCites为基于WoS核心合集七大引文数据库建立的科研评价与分析数据库,含论文被引频次(Times Cited,TC)、CNCI(Category Normalized Citation Impact,学科规范化引文影响力)、学科领域百分位等指标,其中CNCI沿用了1986年匈牙利著名文献计量学家Schubert和Braun[14]提出的相对引用率(Relative Citation Rate),即论文实际与预期(同一领域和同一出版年所有出版物)被引频次的比率。鉴于偏态性是引用的特质,即由于引用密度(citation density)的差异,TC依学科、出版年、文献类型呈高度偏态分布,而RCR与CNCI旨在消除出版时间、学科的不同给科学评价带来的“噪音”,因此,以CNCI、RCR等规范化指标进行跨学科比较已成共识。同时,Thelwall等研究表明,不同学科Altmetrics指标差异显著[15]。就此,本文分析中将CNCI、RCR等典型规范化指标囊括其中,以便于与Altmetrics比较。
本文统计年限为2017年,以保证2—3年被引统计区间,并兼顾Altmetrics指标的时效性。数据采集过程为:①在iCite开源数据包中下载、拆分2017年1068541篇论文DOI、RCR及载文期刊ISSN;②在2020年 JCR(Journal Citation Report)中采集2017年期刊指标,并以ISSN为查找值,利用Vlookup函数对①中期刊进行精确匹配,获得期刊5771种;③以5771条ISSN为检索字段,在InCites中获得论文DOI及其CNCI、载文期刊影响因子(Impact Factor,IF)等指标;④通过DOI将①、③匹配,去除无效数据,获得739604篇论文DOI、RCR、CNCI、TC,并导出文献的文本数据;⑤向Altmetric.com平台申请获得Altmetric Explorer使用权限,通过Altmetric Explorer高级检索导入文献DOI,最终获得519893篇文献对应Altmetrics数据,以用于进一步分析。
数据描述性统计表明,519893篇文献中19个指标的分布为:在Mendeley、Dimensions、Twitter、Facebook、News中的覆盖率依次为99.37%、94.06%、82.92%、24.44%、12.80%,而Blog等指标覆盖率不足10%,因此,剔除部分指标,选取较为典型且覆盖率较高的科研人员研究社区Mendeley和微博类社交媒体Twitter等为代表进行分析。
这里将对RCR、CNCI、Dimensions、Men-deley、Twitter、TC六项指标进行相关分析。K-S检验结果表明,上述指标均不服从正态分布,因此选用斯皮尔曼相关分析,分析结果如表1所示。
表1 六指标斯皮尔曼相关分析结果
依据相关性判定标准,Mendeley与TC呈相关系数为0.65的中度相关,Twitter与TC相关系数仅为0.22。然而,相关不能诠释为比例。加拿大多伦多大学Eysenbach教授研究表明,尽管相关系数r=1意味着变量X和Y存在100%的可完全预测函数关系,但是相关系数0.5并不意味着两个变量间预测的准确度为50%,而是0.25或25%,即r2= 0.52=0.25[7]。这就意味着Mendeley、Twitter将分别预测未来被引量的42%、4.8%[16]。因此表明,Mendeley与TC及其衍生指标CNCI、RCR具有一定的契合度,而Twitter与TC密切度较低。可见,由于数据分布的离散性,不能以相关系数过度解读变量之关系,即Thelwall[7]所言,不能仅以相关系数作出指标间关系的强推论。为此,本文将以偏相关系数加以进一步分析。
这里采用偏相关分析,以剔除其他变量的影响,进一步显示TC与Mendeley、TC与Twitter之关系,其中分别以RCR、CNCI为控制变量,分析结果如表2所示。
表2中偏相关系数低于表1对应相关系数的结果进一步揭示了TC与Mendeley、TC与Twitter的真实关系,即TC与Mendeley为低度相关,而TC与Twitter不相关。下文将采用主成分分析进一步佐证。
主成分分析(Principal Components Analysis,PCA)系通过正交变换,将N维空间的特征映射到K维(即K个主成分),其中N≤K,从而考察变量间相关关系,并通过少数主成分揭示变量内部结构的多元统计方法。鉴于AAS的综合性不适于比较分析,同时出于指标覆盖率的考虑,在此将对TC、RCR、CNCI、Twitter、Mendeley、Dimensions、Facebook进行PCA分析。依据累计方差贡献率≥80%且相关系数矩阵特征值≥1的主成分提取原则,本文提取两个主成分。进而采用方差极大法将成分载荷矩阵进行正交旋转,以显示指标与主成分的关联。表3为旋转结果。
表3 旋转后的成分得分矩阵
以0.5为主成分载荷阈值,PCA将上述指标划分为由TC、CNCI、RCR、Mendeley、Demensions构成的第一主成分,包含Twitter、Facebook的第二主成分。PCA即寻求互相垂直的坐标轴的过程,其几何意义为变量在坐标系中的正交,因此第一主成分与第二主成分线性不相关,即二者代表了评价的不同维度,根据指标涵义分别命名为引用维与关注维。
通过上述分析,得出如下结论:
(1)Altmetrics指标分布存在不均衡性。统计结果显示,519893篇文献的19个指标中,Mendeley、Dimensions、Twitter三项指标覆盖率达80%以上,Facebook、News在10—25%之间,而Blog等14项指标为10%以下。
(2)相关分析与PCA表明,Altmetrics包含类引用指标与关注型指标。其中Mendeley与TC具有一定的重叠性,可视作类引用指标,而Twitter则为典型的关注型指标。
(3)依据上述Altmetrics指标分类可以对研究影响力进行更为宽泛的描述。其中,类引用指标Mendeley能够作为引用指标的早期替代,用以捕捉学术影响力,而Twitter等关注型指标描述了研究成果在不同受众中的扩散,因此衡量了公众关注度与参与度[17]。
(4)Altmetrics指标与研究的社会影响力评价目标有所偏离。除Mendeley外,Altmetrics指标主要侧重于关注度,并非REF定义的研究成果在学术之外的经济、社会中的贡献。
(5)可借鉴学科规范化方法实现Altmetrics的跨学科比较。鉴于Altmetrics依学科分布的偏态性,受Mendeley与CNCI、RCR之间较强相关性的启发,可以将CNCI、RCR方法移植到Mendeley、Twitter中,以消除不同学科原始指标的不可比性,从而实现Altmetrics的跨学科比较。
对于上述结论,具体分析如下:
Mendeley与TC及其衍生指标CNCI、RCR具有同质性。Mendeley被Haustein称为网络形式的传统图书馆[16],其读者统计作为学术交流的痕迹和副产品,为追溯知识流动的路径、探寻研究成果的影响力提供了线索。对于引用,Small指出引用是信息被利用后留下的路标[2]。二者作为学术生命周期的组成部分,描述了知识在时间轴上不同点的扩散过程。鉴于Mendeley与TC的同根同源,同时基于相关分析与偏相关分析揭示的二者相似性,可以以Mendeley预测论文在学术界的未来表现,将其视作引用指标的早期替代[18]。
Twitter和Facebook指标描述了研究成果的扩散和被关注程度。以Twitter为例,其名称源于以短、频、快为主要特征的鸟鸣。因此,作为以“互联网上短信服务”著称的交流形式,学术成果仅仅是其传播内容的子集,其初衷是信息的快捷共享。那么,该指标描述的是研究成果在不同受众中的扩散,衡量的是公众关注度与参与度。因此,就Facebook和Twitter自身含义对关注型指标内涵的解析,Altmetrics与社会影响力评价目标存在一定的偏差[19]。那么,本文数据分析一定程度上佐证了德国计量学家Bornmann[9]与英国计量学家Thelwall[7]的观点。
Altmetrics与社会影响力评价目标存在偏离的结论,一方面提醒人们以Altmetrics进行社会影响力评价时应谨慎行事;另一方面,鉴于科学评价的多元化与多维度原则,这一结果给我们提出了新的课题,即我们需要进一步厘清科学研究发挥社会影响的机制和过程[20],从而以新的视角进一步揭示Altmetrics在社会影响力评价中的有效性。
从根本上说,科学计量的主要挑战即在于找到代表“质量”“影响”或“卓越”的最佳定量方法。然而,由于社会影响力的多维性和复杂性,同时由于Altmetrics部分指标较低的覆盖率,我们尚不完全理解Altmetrics对经济、社会、健康作用的方式,对于Altmetrics与经济、社会之间的直接关联,我们尚不能得出类似引用与学术影响力之间关系般的结论。目前主要沿着统计分析的路径、沿袭引用与学术影响力关系的思维定式,寻求关注、参与与社会影响力之间的相关关系并基于Altmetrics指标本身含义论证其可靠性。2018年,伦敦国王学院的Rowlands[21]提出以构念效度(construct validity)建立计量的理论根基。所谓构念效度,即测验能够测量到某一理论构念或特质的程度,构念效度越高则表明测量得分对某一构念的解释程度越高。构念效度的两个方面——聚合效度和区分效度,体现了运用不同方法测定同一特征时测量结果的相似和差异程度。在文献计量指标有效性的验证中,我们以被誉为科学守门人的同行评议作参照,以文献计量指标与同行评议的契合度考量指标的优劣。Bornmann已证实,F1000数据库中同行评议结果与引用指标具有较好的聚合效度[22]。英国出于评价成本的考量,恰恰以拉夫堡大学Oppenheim教授关于文献计量指标与同行评议高度相关的论断为依据实施基于计量的REF[23]。那么,我们同样可以以构念效度为解题思路,以案例研究作为尺子进一步考量Altmetrics的有效性。诚然,由于数据的可获性较低以及目前较少的案例研究样本量,造成了Altmetrics在社会影响力评价中构念效度的缺失,因此,就本文统计分析及理论层面而言,以Altmetrics进行研究的社会影响力评价时应谨慎结论。同时,随着实践的深入、样本数量的增大,借助案例研究等中间变量、间接证明其评价效果将更具可操作性,就此我们将得出进一步的结论[24]。而此前,案例研究仍是首选方法,这也是《科学评价的莱顿宣言》中同行评议首位原则的体现。
研究影响力向社会影响力的延伸,传递了政府和社会对科学的期望,也是科学承担社会责任的体现,特别是对于我国“破五唯”,建立科学、合理、客观的评价标准具有重要意义。鉴于科学评价对于学科建设、人才选拔、科技奖励乃至科学体系构建的重要性,同时由于“科学共同体对于评价体系的拟态”,对于研究的社会影响力的强化将通过规范科研人员行为改变科学研究文化,并利于营造创新研究生态。尽管社会影响力测量已成为研究评价的一部分,Altmetrics在其中的应用仍值得商榷。案例研究作为社会影响力评价中的同行评议,仍然是目前首选方法。而如何调整Altmetrics研究策略、借鉴相对成熟的文献计量方法对Altmetrics指标进行规范化,并在数据情境分析基础上诠释Altmetrics内涵[25],深入解读对于科研成果的关注如何作用于社会、经济与健康,以进一步验证其有效性成为问题的关键。
附录下载地址:https://pan.baidu.com/s/1NsvB9uzPy2Bo2VK_1BSygg?pwd=5k7o