基于Altmetrics的《科学计量学》研究热点与前沿分析

2019-02-25 11:42李小涛金心怡
现代情报 2019年1期
关键词:因子分析

李小涛 金心怡

摘要:探索基于Ahmetrics指标的研究热点与前沿分析方法,提高分析结果的时效性与准确性.本研究建立了包括Altmetrics指标和被引频次的论文影响力评价体系,采用因子分析识别出《Scientometrics》的高影响力文献,进而对高影响力文献进行科学知识图谱分析,以发现该刊的研究热点与前沿。研究结果表明Ahmetrics指标可为研究热点与前沿分析提供一种更为合理的文献筛选与过滤机制,有助于提高研究热点与前沿分析的时效性与准确性,更好地揭示期刊和学科领域的发展态势。

关键词:替代计量学;科学计量学;研究热点与前沿;因子分析

DOI:10.3969/j.issn.1008-0821.2019.01.019

[中图分类号]G250.252 [文献标识码]A [文章编号]1008-0821(2019)01-0153-08

准确识别与预测研究热点对于掌握学科发展动态、推进科研创新有着重要意义。传统的基于引文的研究热点识别方法难免存在时间滞后的问题,而随着Altmetrics研究的兴起,基于在线数据的替代计量方法具有更好的时效性,可为研究热点探测提供新的思路。

王睿等分别用Ahmetric.con和web of sci-ence获取了273篇论文的Altmetric分数和被引频次,发现高Altmetrics指標在一定程度上能够被视作文献在未来获得高被引的风向标。刘晓娟等对图书情报领域文献的Altmetrics指标进行了分析,发现Twitter适合对文献的社会影响力做出判断,Mendeley更适用于文献的学术影响力评价。赵雅馨等通过Mtmetrics指标对信息与计算科学领域的文献进行了评估,并对综合关注度最高(Top 5%)的文献进行了共词分析。韦博等提出了基于Alt-metrics的研究热点预测新思路,并提出了集评价分析、热点预测、推送服务于一体的平台设计模型。以上研究表明,学术界已充分认识到Altmet-rics指标在研究热点与前沿分析中的潜力,但目前这方面的实证研究还较为缺乏。

《Scientometrics》是科学计量学领域的重要代表性期刊和高水平学术交流平台,能较好地反映该领域的发展态势。本研究建立包括Altmetrics指标和被引频次的论文影响力评价体系,采用因子分析识别出发表于《Scientometrics》的高影响力文献,在此基础上进行科学知识图谱分析。本研究一方面探索基于Almetrics指标的文献影响力评价及研究热点与前沿探测方法;另一方面通过分析《Scien-tometrics》的热点与前沿来揭示科学计量学研究的发展态势,以期为相关研究提供参考借鉴。

1数据来源与研究方法

1.1数据来源

本研究以《Scientometrics》近3年发表的论文作为研究对象,从Web of Science核心合集中以“刊名=Scientometrics”进行检索.时间限定为2015-2017年,获得该刊1141篇文献及其DOI号、被引频次,检索时间为2018年3月8日。

Mltmtrics.con是获取Altmetrics指标的重要数据来源之一。本研究用1141篇文献的DOI号在Altmtries.com中进行检索,共得到680篇文献的Altmetrics指标数据及关注度分值(Altmetrie Auen-tion Score,AAS)。AAS是Mtmtrics.con通过对文献的15种Mtmetric指标(Twitter提及数、Face-book提及数等)得分进行观测,然后对各项指标汇总加权自动计算出的社会关注度总分。

1.2研究方法

1.2.1论文综合影响力评估

Mtmetrics指标可以很好地体现论文的社会关注度,被引频次则可以反映论文的学术影响力.本研究综合考虑这两方面的因素,构建同时包含被引频次和Mtmetrics指标的论文综合影响力评价指标体系。通过因子分析来对该指标体系进行降维并提取公共因子,识别论文影响力的主要影响因素,并计算每篇论文的综合因子得分,以得到论文的综合影响力排名。综合影响力较高的论文不仅当前影响较大,以后也有望获得更多的关注和被引频次,成为未来一段时间学术界关注的焦点,因此本研究将综合影响力前50%的论文作为研究热点与前沿分析的文献来源。

1.2.2研究热点分析

共词分析法是识别研究热点的基本方法之一。该方法通过对能够表达某一学科领域主题或研究方向的专业术语共同出现在同一篇论文中次数的统计,判断各研究主题间的关系,进而发现学科研究热点。除具有较好的时效性外,共词分析法还具有客观性、科学性、敏感性等特点,因此本研究通过对综合影响力排名前50%的论文进行共词分析,并采用Ucinet和Netdraw软件将共词矩阵映射为共词网络进行可视化展示,以揭示近年来《Scientometrics》的研究热点。

1.2.3研究前沿分析

国内外学者主要通过高被引文献、施引文献以及突现的术语和潜在的研究问题来发现与探测研究前沿。Citespace是目前最为流行的科学知识图谱绘制工具之一,其图谱具有直观、高效、客观、准确的优点,被广泛应用于图书情报领域的研究前沿可视化分析中。本研究采用Citespace 5.2进行文献共被引聚类分析,来探测《Scientometries》的前沿研究领域及代表性文献。

2论文综合影响力分析

2.1被引频次和Altmetrics指标特征分析

对680篇论文的被引频次和Mtmetrics指标分值进行描述统计,结果见表1。

表1列出了覆盖率高于0.5%的指标。覆盖率是在某指标下非零值的论文数占论文总数的比例,可以在一定程度上反映某指标在该领域论文评价中的可利用价值,同时也可以看到该领域论文的影响力主要来自哪些方面。680篇论文中,仅有68.38%的论文被引用,这跟论文发表年限较短有关,也说明仅凭这一指标难以对新发表论文的影响力进行全面评估。98.97%的论文在Mendeley上被用户保存过,在Twitter、Blog、Facebook、Google+等社交媒体上被提及的论文所占比例分别是89.12%、16.47%、14.71%、3.97%,而新闻、政策文档、维基百科、同行评议网站和课程大纲等指标对《Scientometrics》论文的覆盖率普遍较低,均在5%以下。可见目前科学计量学研究论文的网络影响力一方面体现在文献阅读软件的保存数上;另一方面体现在Twitter、Blog、Facebook这3类社交媒体上,而在新闻、政策文档等方面的显示度还很低。

2.2论文综合影响力得分

选择覆盖率10%以上的5个指标(被引频次、Mendeley、Twitter、Blog、Facebook)构建论文影响力综合评价指标体系,将论文相应指标数据导人SPSS进行因子分析。首先对数据进行KMO和Bartlett的球形度进行检验:KMO值为0.712,说明5个指标之间偏相关性较强:Bartlett球形检验结果的显著性小于0.05,进一步说明这5个指标适合提取公共因子。

因子提取的方法选择主成分分析,特征根大于1的因子有2个(碎石图见图1),方差贡献率分别为44.93%和35.82%,累计解释总方差的80.75%,因子分析效果可以接受。为更清晰地看到2个因子分别由哪些指标主导,采用最大方差法,对因子进行正交旋转,得到旋转后因子荷载矩阵见表2。第一公因子在Twitter、Blog、Facebook上荷载较大,反映的是论文的社会影响力,因此称之为社会影响因子;第二公因子在被引频次和Mendeley上荷载较大,主要体现论文的学术影响力,称之为学术影响因子。

根据各因子的载荷权重,论文的综合影响力得分=(F1*0.4493+F2*0.3582)/0.8075,依据此计算公式可得出文献的综合影响力得分及排序。本研究将得分较高的前50%文献(340篇)作为《Scientometrics》的高影響力文献。

3研究热点与前沿分析

3.1研究热点

340篇高影响力论文是近三年《Scientomet-rics》学术影响力和社会关注度较高的论文,提取其高频关键词进行共现分析,可以反映近三年该刊乃至科学计量学界最受关注的研究内容。选择词频大于2的关键词,统计其共现关系并进行可视化展示,以揭示该刊的研究热点,结果见图2。

图2中每个节点表示1个关键词,节点大小与该词在网络中的点度中心性成正比,节点间连线的粗细与关键词两两共同出现的频次成正比。图2大致将所有关键词分为3层:第一层为核心层,代表性的节点有Bibliometrics、Cition Analysis、Cita-tions等高频词,体现了当前影响力最高的科学计量研究仍然拥有稳固的核心——文献计量分析与引文分析;第二层是中间层,代表性的节点有Alt-metrics、Web of Science、Scopus、Google Scholar、Hindex、Research Evaluation等高频词,这一层体现出了当前科学计量学研究中数据来源和应用的拓展与创新,Scopus和Google Scholar、Web of Sci-ence为科学计量研究提供了多样化的数据来源,替代计量学指标越来越多的应用于科研评价;第三层是新兴层,代表性的节点有Sleeping Beauties、Social Media、Universities、Research Performance、Collaboration等词,该层的关键词在网络中的位置相对边缘化,可以看作是中间层关键词的扩展和延伸,“睡美人”现象、社交媒体研究、大学科研评价、科研合作等受到学术界和社交媒体的共同关注,在一定程度上预示着科学计量学研究的新兴趋势。

3.2研究前沿

将文献数据导入Citespace,节点类型选择“Cited Reference”,时区跨度(Slice)为1年,数据筛选设置为Top 50,采用寻径网络算法对网络进行整体裁剪。得到文献共被引网络后,对网络进行聚类分析,聚类的标签从施引文献的标题中提取,标签词提取方法选择LSI,结果见图3。

图3中包括218个节点,每个节点表示1篇参考文献,形成了较为清晰的7个文献聚类,每个聚类的标签都用“#”号和阿拉伯数字进行编号。依据Citespace研究前沿的概念模型,本研究将218篇节点文献视为本文献集的知识基础,这些节点文献通过共被引形成的聚类即为本文献集的主要研究领域,每个研究领域的施引文献包含着该领域的研究前沿。在参考Citespace聚类标签的基础上,通过对每个聚类的重要节点文献及其施引文献进行内容分析后,识别出5个前沿研究领域:学术搜索引擎研究(#0 google scholar)、大学评价研究(#1 university administrator)、学术生涯影响因素研究(#2 academic career)、“睡美人”现象研究(#2sleeping beauties)、Ahmetrics研究(#4 social media、#6 alternative metrics、#7 twitter count)。

3.2.1学术搜索引擎研究

这一研究领域由图3中的“#0 google scholar”聚类中的文献及其施引文献构成。学术搜索引擎促使人们对当前学术知识的整体水平进行了重新审视,并对学术网络的规模产生了浓厚的兴趣,Or-duna-Malea E提出了3种方法来测度谷歌学术的规模。他的估算结果是,截至2014年5月,Google Scholar已覆盖超过1亿6千万个文档。Ja-mali H等探索了Google Scholar中论文全文的来源,发现61.1%的论文可以在谷歌学术搜索中以全文形式获得,ResearchGate是提供论文全文最多的来源,谷歌学术10.5%的全文文章来自该网站。由于不同学科领域的引文特点存在较大差异,跨学科的文献计量学评估要求将数据按学科进行归一化,以消除学科差异。Mingers J等测试了由Bo-rnmann等人开发的谷歌学术归一化方法,发现期刊论文的归一化结果与WOS数据相近,证明了对GS标准化是可能的。

Google Scholar经常被用于与其他数据库进行对比,比较的结果常常作为评价数据库的重要依据。微软学术(Microsoft Academic Search,MAS)近年来快速兴起,引起了科学计量学家的关注。Harzing A等以“凤凰”来比喻MAS,接连发表了3篇论文——《微软学术搜索:凤凰于灰烬中重生》《微软学术:凤凰长出翅膀了吗?》《微软学术1岁了:凤凰准备好离开巢穴》来介绍MAS的优势,获得了较高的社会关注度。他把MAS与当前3种最常使用的科学计量数据来源Google Scholar、WOS、Scopus进行了比较,发现MAS的收录的Google Scholar文献远远多于WOS和Sco-pus,而且MAS覆盖了Google Scholar中的所有期刊论文和书籍;在人文学科,MA的引文覆盖率也远高于WOS和Scopus。

Harzing A等的结论在Hug的研究中也得到了进一步地印证,Hug发现在大多数研究领域(包括经济学/商业、计算机/信息科学和数学等领域),MAS的覆盖范围都更有利于科学计量分析。Hug S等还进一步探索了MA在文献计量分析中的实际应用及优势,最后他预测MA即将成为文献计量分析的重要数据来源。

3.2.2大学评价研究

这一研究领域由图3中的“#1 university ad-ministrator”聚类中的文献及其施引文献构成。大学评价一直是科学计量学领域的热点问题,这方面的研究前沿是对大学评价的数据来源进行拓展、对大学评价指标体系进行创新,以及对不同大学评价体系的评价。

Mingers J等拓展了大学评价的数据来源,他采用Google Scholar(GS)机构级数据,构建了基于引文的指标体系,以相对自动的方式评估了英国130所大学研究的质量,并制定了大学排名,进而与其他大学排名体系结果进行了比较,证明了该方法的可行性。Tijssen R等进行了大学评价指标的创新,他批判了现有的几种世界大学排名的有效性和适用性,并提出了一个基于校企合作共享出版物(UICs)指数的大学评价指标体系,以衡量大学的创新能力,并将评价结果与汤森路透2015年的大学创新力排名(RIU)进行了比较。

还有学者对世界大学评价体系进行了评价。Claassen C等使用贝叶斯模型综合分析了上海软科、QS、THE、Usnews等8种不同的世界大学排名结果,发现大学排名结果存在较大的误差,排名前30位与前100位的大学很难进行区分,而且有3个世界大学排名体系都存在对本国大学的偏爱。Piro F等尝试对不同世界大学排名的差异进行解释,他比较了THE和上海软科的世界大学排名,发现排名差异可能是由于不重要指标的微小变化,以及重要指标的重大变化所引起。

3.2.3学术生涯的影响因素研究

这一研究领域由图3中的“#2 academic ca-reef”聚类中的文献及其施引文献构成。目前较受关注的学术生涯的影响因素包括基金资助、工作年限、科研合作及性别因素等。

Ebadi A等研究了科研产出的影响因素,发现获得科研基金资助有助于提高学者科研成果的数量和质量.学者的科研产出也在一定程度上受到马太效应的影响,从事科研工作的年限与科研成果生产力之间呈正相关。此外,他还发现年轻的研究人员在大型研究团队中工作,更有可能取得高质量的研究成果。Cabanac G等研究了计算机科学领域中学者在其学术事业中的合作网络,并探索了合作网络在他们职业生涯中的发展。他发现了该领域大多数科研合作的短暂性——70%的合作者仅仅是一次性的合作伙伴,学者们通过两种方式不断扩展他们的合作范围:一是招募科研事业刚起步的新科研工作者进行合作;二是加强与现有合作者的合作。

性别差异及其对研究事业的影响也受到很多学者关注。越来越多的研究表明,引文和h指数存在性别差异,Geraci L等分析了心理学领域h指数中的性别差异,并发现女性研究人员的h指数偏低可能会影响其收入。Besselaar P调查了男性和女性研究人员之间的绩效差异,以及这种差异的变化情况。他发现在科研生涯的早期,男性和女性的科研绩效相差很小,但10年后男性研究人员的生产力(论文数量)增长速度高于女性研究人员,其科研事业的发展速度远远超过女性研究人员。Krawczyk M研究了在论文引用中的性别错误问题,即将被引作者的性别弄错的情况。他发现女性被引作者被误认为是男性的次数远远多于男性,前者大约是后者的10倍。Abramo G等探索了科学家能维持其科研影响力的时间,发现1/3的顶尖科学家能在连续12年内都保持其巨大的科研影响力,在生命科学领域尤其如此,不过这也与科学家的性别有关——女性科学家长期维持其科研影响力的可能性低于男性。

3.2.4“睡美人”现象研究

这一研究领域由图3中的“#3 sleeping beauty”聚类中的文献及其施引文献构成。在科学计量学领域,“睡美人”文献一般是指一个很长时间没人注意的出版物,几乎是突然被一个“王子”唤醒,吸引了大量的注意力,被引频次急剧上升。随着文献引用中的“睡美人”现象日益受到学术界的关注,“睡美人”现象的产生原因、发生机制、识别方法逐渐被研究者们解决。目前进入到了应用阶段,应用于对不同学科、不同期刊、不同主题下“睡美人”文献的识别。

Ho Y等对“睡美人”现象的研究成效显著,是这一领域2017年社会关注度最高的学者。他们应用自行研发的工具对303 255篇心理学论文进行检测,发现了3篇睡美人文献,但并未分析出这些文献对当前研究的价值及其长期“沉睡”的原因。随后,他们又确定了那些让心理学家注意到3个“睡美人”的“王子”文献,探索了基于计算机技术的睡美人及其王子文献的探测方法。他们还在对第二次世界大战中被高被引文献的计量分析中,发现了5篇“睡美人”文献。

另外,Teixeira A等对“创新研究(Innova-tion Studies)”主题下52 373篇论文中的睡美人现象进行了研究,发现这一领域的“睡美人”文献数量较少(不到0.02%),睡眠时间从7年到17年不等,8篇“睡美人”文獻被发表在高知名度期刊上的37篇王子文献唤醒。

3.2.5 Altmetrics研究

这一前沿领域由图3中的“#4 social media”、“#5 altemative metrics”、“#7 twKter count”聚类中的文献及其施引文献构成。

Mtmetrics研究从关注对象到相关指标都在不断地拓展。Peters Ⅰ等人将Mtmetrics的研究对象从论文扩展到科学数据,以研究数据引文索引(DCI)和Altmetrics.com为数据来源,探索了研究数据的被引频次和Altmetrics分值的相关性。他们的研发现某些数据类型(调查、汇总数据和序列数据)更常被引用,并且也会得到较高的Altmet-rics分数,但并未发现研究数据的引用次数和Alt-metrics总分数之间的相关性。

推特仍然是目前最受关注的Mmtrics指标,对该指标的研究从之前关注推特数量与论文被引频次的相关性,深入到了推特的用户特征、情感特征层面。Vainio J等人以在推特上被提及最多的论文为统计对象,分析了在推特上推荐学术论文的用户特征。Liu X等研究了推特在论文评价中的应用,提出论文作者的推文不应计算在内,与论文内容无关的推文也应排除在外,推文的情感特征(赞同、支持、惊讶等)也应在计数时考虑在内。

论文在政策文件中的被引用次数作为一个新兴Altmetrics指标也日益受到人们关注。Haunschild R等研究了Web of Science论文被政策相关文件提及的次数,发现2000-2014年发表的论文中,仅有0.32%的论文至少被政策相关文件提到1次。因此,他们认为政策相关文件提及论文的次数不应作为Altmtrics指标来衡量论文的影响力,当更多的政策文件来源被作为数据分析来源后,这一指标可能才会成为衡量论文社会影响力的可靠途径。但Vilkins S等人的研究结果更为乐观,他们分析了2010-2017年澳大利亚8个政府部门80个政府出版物(包括报告、文件等),发现总计4649篇参考文献中有1836篇论文来自同行评议的期刊.即在政策相关文件的参考文献中,学术论文所占比例已接近40%。他们认为论文的开放获取可能会增加论文被政策引用的可能性,后续的相关研究同样依赖于政策文件的可获得性。

4结语

本研究探索了Mltmetrics指标在论文影响力评价和研究热点与前沿探测中的应用,发现Mende-ley、Twitter、Blog、Facebook是目前在论文中覆盖率较高的指标,这些指标与被引频次一起进行因子分析,可以较好地计算出论文的综合影响力。本研究对《Scientometrics》的高影响力文献进行科学知识图谱分析,发现了学术搜索引擎研究、大学评价研究、学术生涯影响因素研究、“睡美人”现象研究、Mtmetrics研究等前沿研究领域及其研究进展。本研究表明基于被引頻次和Mltmetrics指标的因子分析可以更为全面、及时地对论文影响力进行综合评价,评价结果可为研究热点与前沿探测提供一种更合理的文献筛选与过滤依据。在此基础上采用共词分析、文献共被引聚类分析所得到的科学知识图谱时效性更好,更能准确揭示特定期刊乃至学科领域的研究发展态势。

猜你喜欢
因子分析
中国创业板生物制药类上市公司成长性评价体系实证研究