基于聚类和关联规则的Altmetric TOP榜文献特征分析

2021-09-07 10:42邱均平丰鹂萱舒非
现代情报 2021年9期
关键词:影响力学者关联

邱均平 丰鹂萱 舒非

DOI:10.3969/j.issn.1008-0821.2021.09.002

[中图分类号]G250.252 [文献标识码]A [文章编号]1008-0821(2021)09-0012-10

近年来,随着互联网技术的发展和知识共享趋势的推动,学术评价不再只是依赖传统学术指标,Altmetrics开始产生,并引起广泛关注和利用。2005年,Bollen J等学者就提出将社交媒体数据作为补充性计量指标,用于期刊影响力评价。Altmetrics最早是由计量学领域学者Priem J提出,之后同Taraborelli D等学者发表宣言,正式提出Ahmet-rics。

自2010年Altmetrics在境外提出后,我国学者刘春丽迅速反应,于2012年将其译为“选择性计量学”,并说明其与网络计量学和传统科学评价的差异,以及选择性计量学在时效、覆盖面和科学交流中的独特意义;随后,邱均平等学者将其译为替代计量学,阐述其提出过程和研究进展;由庆斌等学者将其译为补充计量学,对补充计量学和补充性指标作了详细介绍。这是目前我国学者3种主要翻译形式,许多学者对其有不同理解,具有代表性的理解就多达十几种,但使用较多的是替代计量学。

目前,关于Altmetrics的研究主要分为理论、工具、方法及应用,理论主要是其概念和问题分析,较多涉及Ahmetrics指标与传统指标之间的关系。例如:Alhoori H等学者发现Altmetrics与出版物的数量、h指数、被引量之间存在相关关系;Eysenbach G等学者指出Altmetrics指标与传统的引文指标呈现弱相关,论文的社会影响力与学术影响力之间关联度并不大;王妍等学者采用Spearman方法尝试探究学者被引频次与Ahmetrics中社会影响力指标之间的相关性,以及各项社会影响力指标之间的相关性。随后,越来越多的Alt-metrics工具开始出现,吴胜男等学者以目前比较常见的Altmetrics应用工具Altmletric.com、Plum Analytics、ImpactStory、PLOS ONE Altmetrics、Readermeter、ScienceCard、PaperCritic以及CitedIn为研究对象,针对每一种工具的功能特征、优势和不足进行详细的分析和论述。其中,Altmetric.com是一款分析评估单篇论文Altmetrics指标的工具,由Digital Science公司开发,该工具综合计算某一篇学术论文在Twitter、Google+、CiteULike、Mendeley、博客以及主流新闻媒体等信息源的引用数据,Altmetrics指标具有多种,一般被学者分为几类进行研究。例如:Waltman L等学者对Altmetrics的11个指标通过因子分析分为3类。目前,Ahmetrics研究主要方法为社会网络分析、数据挖掘与分析等,更多应用于论文、期刊、机构、学者等各种影响力评价领域,并通过不断构建评价指标应用到多个领域,王凯利等学者融合了Alt-metrics和引文分析法构建期刊影响力评价体系,并对国际图情期刊的影响力进行分析:Boetto E等学者发现传统引用计数,社交媒体上的引用以及新闻和博客上的提及之间存在适度的相关性,并且定义一种方法,即综合影响力得分(CIS),该方法可以协调不同的指标以提供多维影响力指标。另外,关于Ahmetrics指标的研究,更多则是关于各指标之间相关性,许丹等学者对比分析SCIE被引频次、ESI高被引、FS、Ahmetrics各项指标之间的关系;陈胜龙等学者验证其与学者H5指数间存在显著相关性。

大数据的迅速发展,带动了数据挖掘领域的研究,数据挖掘领域一般具有C4.5、K-Means、SVM、Apriori等多种具有影响力的算法,可涵盖分类、聚类、统计学习、关联分析和链接挖掘,其中关联规则最早是由Agrawal R等学者提出,是数据挖掘领域的一种方法,可以挖掘数据的隐含特征,关联规则经常应用于购物篮分析,从而为商品促销提供参考,基本方法常为Apriori算法,并被许多学者应用于各种领域。例如:游立清等学者利用此算法提出卷烟物理指标关联性的分析方法。目前,关于关联规则的研究主要是关联规则算法创新、关联规则应用等方面,许多学者提出改进算法进行有关应用。例如:常见的多最小支持度的关联规则挖掘、分类关联规则挖掘等方法,田建勇、徐樾等学者将改进算法应用于计算机和动力工程等不同领域。关联规则应用范围较广,学者纷纷创新,广泛应用于多种领域,常见的是应用于中医药,探析用药规律等问题,申玲玲等学者针对急性痛风性关节炎用药规律研究。另外多是利用关联规则进行影响因素的相关研究,曹磊等学者利用关联规则对路面损坏状况影响因素进行探讨。

综合来看,Altmetrics相关研究目前主要集中在与各指标进行相关性分析的研究,以及通过指标构建应用于不同领域进行评价,关于高社会影响力论文的论文特征和传播特征相对较少,聚类分析和关联规则作为常用方法,但较少结合应用于论文特征方面。因此,本文将Ahmetric TOP榜文献作为高社会影响力文献,利用频数统计与分析探讨高社会影响力文献特征,同时利用聚类与关联规则进行分析,探讨不同学科、国家(地区)、文献获取方式、AAS值、被引次数等方面的传播渠道特征。

1研究方法与数据来源

1.1研究方法

本文采用定性与定量分析的方法,首先从Ah.metric,com得到Ahmetric TOP榜文献,基于所得數据进行频数统计与分析,然后通过K-Means聚类将不同指标划分级别,最后利用基于Apriori算法的关联规则探讨不同被引次数区间、AAS值区间、学科、国家(地区)和获取方式的传播特征。其中关联规则是常用的数据挖掘领域方法,能够有效挖掘数据隐含特征,Apriori算法是一个经典的挖掘规则算法。一般以商品交易为例,假设被研究对象称为项(Item),所有项的集合为,={i1,i2,…,im},每条交易ti项对应的项的集合为I的子集,I的任何一个子集被称为项集(Itemset),即X={ij1,ij2,…,ijm},事务数据库为D={t1,t2,…,tm},每条交易数据ti构成事务D,每个项集包含的项的个数称为项集的长度,一个长度为k的项集被称为k项集,一个项集X在数据库D中出现的次数称为频数,记为count(X)。关联规则需要从数据中找出满足最小支持度和置信度的关联规则,其中定义如下:

1)支持度(support)。一个项集X的支持度指的是在数据集中包含该项集的记录所占比例。如式(1)所示。若给定一个最小支持度support(min),所得support(X)≥support(min),则X称为频繁项集。

support(X)=count(X)/|D} (1)

2)置信度(confidence)。也可称为可信度,它是针对一条比如X→Y的关联规则来定义的,指的是包含X的交易中包含Y的比例。即:

cofidence(X=>Y)=|XY|=support(XY)/sup-port(X) (2)

3)增益(lift)。也可称为提升度,是一个评判关联规则的重要标准,大于1表示具有强关联性,小于1视为无效规则,等于1则代表相互独立。即:

lift(X=>Y)=|XY|/|X||Y|=support(XY)/support(X)support(y) (3)

1.2数据来源

本文所用源数据来自于Altmetric.com官方网站,选择2015—2020年高社会影响力文献,即榜单前100篇文献,针对Altmetrics指标数据进行下载,除了2018年榜单数据下载200篇,其余年份各下载100篇文献,并对缺少的数据进行查找补充,然后匹配期刊影响因子,去除期刊名称来源于电子网站、会议等未匹配到影响因子的文献,如来源于arXiv、CHI20:Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems等文献,共得到文献676篇,同时在谷歌学术中查询被引次数,同时查询和匹配第一作者的所属国家(地区),以及第一作者与第二作者的附属高校。

2 Altmetric TOP榜文献整体特征分析

本文从学科、期刊、获取方式、第一作者隶属国家(地区),以及第一、二作者所属高校几个方面对Altmetric TOP榜文献进行特征分析。

2.1学科分布

对2015—2020年文献的学科进行整合,选取占比前10名学科,如表1所示。

可以看出,醫疗健康排名靠前,占比较大,突出了医疗健康学科的社会影响力,同时由于新冠疫情的暴发,医疗健康领域就更加受学者和大众的关注。随后生物科学、人类社会研究、地球环境科学、物理科学、历史与考古学、地球科学、信息和计算机科学等学科也具有较大影响力和传播力度,但法律、哲学与宗教、工程、材料等许多学科占比较小,需要提高大众关注度,努力提高社会影响力,利用大众易于接受和理解的方式进行传播。

通过计算不同学科的单篇被引次数、单篇Alt-metric Attention Score(AAS)和开放或自由获取的占比,可以看出,信息和计算机科学单篇被引次数较大,单篇AAS较大,开放或者自由获取的比重有待提升。由此可知,信息计算机科学领域具有较大的社会影响力,其研究文献也具有较高的学术价值。心理学与认知科学、历史与考古学及地球科学等学科单篇被引次数较少,单篇AAS仅有部分差距,也说明了提高社会影响力的同时,应该致力于提升文献质量。

不同学科开放获取占比有所差异,自然科学和技术、医药卫生等领域,OA论文的比例最高。在本文所研究Altmetric TOP榜文献中,即属于高社会影响力文献,其中医药健康、地球科学等领域开放或自由获取占比较大,物理科学、历史与考古学等学科开放或自由获取占比较小。总体来看,医药健康领域文献在高社会影响力文献占比最大,同时开放或自由获取占比较大,社会影响力较大。

2.2期刊分布

对高社会影响力论文进行汇总排序,部分期刊子刊并未归类于正刊,即分为不同期刊进行整合,同时通过JCR查取2019年各期刊影响因子,所得结果如表2所示。

由表2可知,《Nature》《Science》《The Lan-cet》《Proceedings of the National Academy of Sci-ences of the United States of America》(PANS)、《New England Journal of Medicine》《Journal Of The American Medical Association》(JAMA)、《British Medical Journal》(BMJ)等排序靠前,其中在不计算子刊情况下,仍占比较大,同时期刊影响因子、单篇被引次数及单篇AAS较大,具有强大的学术价值和社会影响。许多科学研究领域中,很多最重要、最前沿的研究结果往往都是以短讯的形式发表在此期刊上,读者主要是从事研究工作的科学家,但杂志前部的文章概括使得一般公众也能理解杂志内最重要的文章。《Nature》开放获取比例较小,90.43%属于付费获取;《Proceedings of the National Academy of Sciences of the United States of America》(PANS)属于高社会影响力文献所占数量较大的期刊,2019年Top榜单占据5篇,但2019年期刊影响因子较小,同样《The Public Library of Science ONE》(PLoS ONE)、《Scientific Repots》《Current Biology》等期刊影响因子较小,也说明了部分期刊社会影响力文献数量与影响因子未必成正比关系,社会影响力较大的文献数量占比较大,期刊影响因子不一定较大。综合来看,《New England Journal of Medicine》《The Lancet》期刊各项指标数据较大,《The Public Library of Science ONE》(PLoS ONE)期刊各项指标数据较小。另外,绝大多数期刊开放(Open Access)或者自由获取(Free to Read)占比较大,大众获取更为容易,同时也更容易得到传播。

2.3文献获取方式情况

在所研究全部文献中,付费获取的方式占较大比重,为45.12%,开放获取的比重仅次于付费获取,占比38.61%,自由获取占比最小。开放获取(OA)是指学术论文发表后立刻在互联网上公开发布,供读者免费获取,可以让学术成果提高传播力和影响力,为学者和大众提供更便捷的知识获取方式,也增强了知识共享与交流,所以,越来越多的国家(地区)积极促进知识开放。通过图1可以发现,Closed(付费获取)比例逐年降低,说明自由和开放获取方式逐步增加,2020年开放获取比例得到较大提升,自由获取有所减少,分别对3种方式作线性预测可以看出,付费获取占比呈现下降趋势,而开放和自由获取都呈现增长趋势,进一步说明了知识获取更加服务大众,顺应了知识共享的趋势。

2.4国家(地区)分布

整合第一作者所属国家(地区),并计算出单篇被引次数、单篇Altmetric Attention Score(AAS),以及各个国家(地区)开放或自由获取占比,所得结果部分如表3所示。可以看出,美国所占比例最大,接近一半,同时综合指标都比较突出,说明美国具有较强的学术实力和影响力:英国开放或者自由获取的比例较大,并且单篇被引次数较大,同样具有较强影响力。综合来看,第一作者所属国籍统计中,美国和英国占比較大,其中美国最多,其他国家(地区)占比较少,需要进一步提高社会影响力和传播能力,把握学术界的热点前沿。

2.5学校分布

整合第一作者和第二作者的所属机构,筛选前两位作者隶属于大学的文献,所得结果部分如表4所示。文献第一作者和第二作者对文献具有较大的贡献,据此统计,可以进一步得出不同高校的学术实力。可以看出,哈佛大学所占比重最大,斯坦福大学、剑桥大学、牛津大学等占比较大,这些大学都属于实力较强和知名度较高的院校。

3 Altmetric TOP榜文献传播特征分析

利用SPSS软件对数据进行K均值聚类.根据数据大小,划分为A、B、C、D、E 5类,以被引次数K均值聚类为例,如表5所示,将文献按照指标数值大小划分为5类,被引次数(E)属于被引次数较低的区间,但占比较多,均值为154。其中,E级别占比普遍较大,反映了大多指标数值集中于某一区间。根据每篇文献特征构建矩阵,然后利用SPSS MODELER进行关联规则分析,探讨各项特征之间的联系。Apriori算法是常用于挖掘出数据关联规则的算法,能够发现事物数据库中频繁出现的数据集。设置最小置信度为0.8,最小支持度为0.1,最大前项数设为1,选择增益大于1,最后结果以置信度排序。

3.1不同被引次数值区间下文献传播特征分析

以前项为被引次数进行研究,共得到关联规则9项,如表6所示。可以发现,后项为被引次数E级,即被引次数较小,与各项指标等级呈现强关联,较多指标表现为E级,即数目平均较小的一类,说明了被引次数较少的文献,微博、谷歌、博客、问答、维基、政策、影片、Reddit提及数普遍较小,也侧面反映出被引次数较小,Altmetrics许多指标值普遍较小。所研究文献中,被引次数和多指标值都属于较小区间,而被引次数在A至D类的文献,属于被引次数较高文献.与同行评审和推特提及数E等级呈现关联性。同时可以发现,被引次数越大,微博、谷歌、问答、维基百科、政策、影视及Reddit提及数可能越大。

3.2不同AAS区间下文献传播特征分析

以AAS值为对象进行研究,共得到关联规则9项,如表7所示,其中前项分为D和E级别,AAS值聚类均值集(A,B,C,D,E)=(33853,25814,8179,3637,1803),其中E类占比较大。从所得关联规则可以看出,AAS值聚类级别为D类和E类的文献特征仍有较大差异,AAS值E类文献,普遍是推特、影视、维基百科、Reddit提及数较小,而D类文献,普遍是微博、同行评审、问答、政策和谷歌提及数较小,可以看出,不同AAS值区间的文献,具有较大的特征差异。同时也可以看出,AAS值越大,文献推特、影视、维基百科、Reddit提及数可能越大。

3.3不同国家(地区)的文献传播特征分析

在所研究的Altmetric TOP榜文献中,美国和英国占比较大,以前项为美国和英国,构成关联规则10项,如表8所示,可以看出,第一作者国籍为美国和英国的文献传播呈现不同特征,第一作者隶属于美国的文献,微博、维基、影片、政策和问答提及数值普遍属于E类,即属于较低区间,而第一作者隶属于英国的文献,表现为同行评审、推特、谷歌、Reddit和政策提及数普遍属于E区间,除了政策提及数普遍较少的特征外,其他特征具有较大差异。第一作者隶属于两个国家(地区)的文献属于E区的指标有很大差异,可以根据自身特征提高各项指标数值,从而提高社会影响力。

3.4不同期刊的文献传播特征分析

《Nature》和《Science》作为国际知名期刊,有着巨大的社会影响力和学术价值,同时在Alt-metric TOP榜文献中,来源期刊为《Nature》和《science》及其子刊的论文占比较大,以两者为前项,构成关联规则为9项,如表9所示,可以看出两大期刊论文的特征差异,来源于《Nature》期刊及子刊的文献,与《Science》及其子刊相同的是同行评审和影视提及数都属于E类,即数值区间属于最低聚类区间,但存在部分差异,《Nature》期刊论文表现为谷歌和被引次数都属于E类区间,说明Altmetric TOP榜文献中,《Nature》期刊及子刊的论文,谷歌和影视提及数普遍不高,有待加强,而《Science》及其子刊的论文,微博、维基百科和政策提及数大都呈现出较低的特征。

3.5不同学科的文献传播特征分析

医药健康科学和生物科学在所研究文献中占比较大,同样以两者为自变量构建关联规则,所得结果如表10所示。生物科学和医药健康科学都与推特和Reddit提及数E类具有关联性,有所不同的是生物科学微博提及数和AAS值属于E类,均值为1803,说明了生物科学领域论文的社会影响力需要进一步提升,针对学科提出正确的方式进行传播。医药健康领域文献占比较大,微博、推特、维基百科、谷歌、影视、Reddit以及政策提及数集中属于E类区间,不同学科的文献传播渠道有很大差异。

3.6不同获取方式的文献传播特征分析

所研究Altmetric TOP榜文献中,3种获取方式的论文传播特征有较大差异,如表11所示,开放获取(OA)的文献维基百科、影视和政策提及数为E类,属于较小区间,付费获取文献则是Twitter Mentions和Reddit Mentions处于较小聚类区间,自由获取的文献微博、谷歌、问答及政策提及数都较小,不同获取方式的文献传播特征差异明显,付费获取的文献应该更注重推特和网站传播。

4总结

通过对数据的统计与分析,可以发现AhmetricTOP榜文献具有以下特征。

4.1文献整体特征

1)学科分布情况。医药健康领域占比较大,为41.42%,生物科学、人类社会、地球环境科学、物理科学、信息与计算机科学等排名靠前,但总体占比不大,法律、哲学与宗教、工程、材料等学科占比过小,这些学科有待提高社会关注度与影响力。信息与计算机科学领域单篇AAS值和被引次数等总体较大,在学术界和社会都有着较大影响力,但开放或自由获取比例仍有待提高。另外,不同学科开放获取占比有所差距,医药健康、地球科学等领域开放或自由获取占比较大,物理科学、历史与考古学等学科开放或自由获取占比较小。

2)期刊分布情況。期刊子刊并未划分为主刊,期刊主要来源于《Nature》《Science》《The Lancet》《Proceedings of the National Academy of Sciences of the United States of America》(PANS)、《New Eng-land Journal of Medicine》《Journal of The American Medical Association》(JAMA)、《British Medical Jour-nal》(BMJ)等期刊,其中,《Nature》除去子刊以外,仍占比较大,体现期刊巨大的影响力,但在所研究文献中,开放或自由获取占比较小。综合来看,《New England Journal of Medicine》《The Lan-cet》期刊单篇AAS值、单篇被引次数,开放获取比例等各项指标占比较大,《The Public Library of Science ONE》(PLoS ONE)期刊各项指标数据较小。一般开放或者自由获取比例较大,AAS值会较大。

3)获取方式情况。在所研究文献中,付费获取比例仍然较大,占45.12%,开放获取比例仅次于付费获取,占比38.61%,自由获取占比最小。通过线性预测可以发现,开放和自由获取比例都呈现增长趋势,付费获取呈现下降趋势,顺应了知识共享和免费的趋势。

4)第一作者国家(地区)分布情况。美国占比最大,接近于一半的比例,同时单篇AAS值和单篇被引次数、开放或者自由获取比例都较大,第一作者隶属于英国的占比仅次于美国占比,其他国家(地区)占比较小,需要进一步提升影响力和传播力,把握学术前沿。

5)学校分布情况。以第一作者和第二作者所属高校进行统计,可以发现,哈佛大学所占比例最大,斯坦福大学、剑桥大学、牛津大学等高校占比位列其后,Altmetric TOP榜文献第一、二作者较多来自于知名高校。

4.2文献传播特征

本文通过构建关联规则发现,不同被引次数区间、AAS值区间、国家(地区)、期刊、学科和获取方式下,文献传播渠道特征差异明显,由此可以根据不同情况,采取一定的措施进一步提高文献影响力。

1)被引次数较小情况下,Altmetrics多项指标处于较小区间,与微博、谷歌、博客、问答、维基百科、政策、影片、Reddit提及数E类呈现强关联,而被引次数位于A-D区间时,仅与推特提及数处于E类具有强关联规则。可以看出,被引次数越小,Altmetrics多项指标可能较小,因此,提高文献质量仍是提高影响力的重中之重。

2)AAS值较小时,文献推特、影视、维基百科、Reddit提及数值较小,而D类文献,微博、同行评审、问答、政策和谷歌提及数较小,可以看出不同AAS值的文献传播渠道有很大差异。

3)除政策提及数都较小以外,第一作者隶属于美国的文献微博、维基百科、影片和问答提及数值普遍属于E区,第一作者隶属于英国的文献则是同行评审、推特、谷歌和Reddit提及数普遍属于E区,可以看出不同国家(地区),文献传播渠道特征有较大差异。

4)来源于《Nature》及其子刊和《Science》及其子刊的文献占比较大,除两者文献的影视和同行评审提及数都不高以外,来源于《Nature》期刊的文献,谷歌和影视提及数普遍较小,而来源于《Science》期刊的文献,微博、维基百科和政策提及数都较小。

5)医药健康和生物科学领域文献占比较大,构成关联规则。生物科学领域的文献微博、推特和Reddit提及数普遍较小,并且AAS值普遍较小,需要进一步提高社会影响力,注重微博、推特和Reddit等渠道的传播。医药健康领域文献占比较大,但微博、推特、维基百科、谷歌、影视、Red-dit以及政策提及数所在聚类区间值较小。

6)开放获取(OA)的文献传播更多的是维基百科、影视和政策提及数为E类,付费获取的文献则是推特和Reddit提及数处于较小聚类区间,自由获取的文献微博、谷歌、问答及政策提及数都处于较小区间,3种文献获取方式下,文献传播渠道有较大差异。

5结束语

本文通过频数统计分析得到文献的学科、期刊、获取方式、第一作者隶属国家(地区),以及第一、二作者隶属学校的分布情况,并利用K-Means聚类以及基于Apriori算法的关联规则对Alt-metric TOP榜文献进行分析,得到不同被引次数区间、AAS值区间、期刊、国家(地区)、学科和获取方式情况下,文献传播渠道有较大差异。利用聚类和关联规则分析文献特征,具有一定的研究意义,并可以进一步拓展到挖掘评价指标,应用到更多学术影响力的评价中去。

猜你喜欢
影响力学者关联
学者介绍
学者简介
学者介绍
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
天才影响力
奇趣搭配
黄艳:最深远的影响力
智趣
学者介绍