基于文献计量的我国开放获取研究成果分析

2022-09-20 13:08翁悦鑫马海群黑龙江大学信息管理学院黑龙江大学信息资源管理研究中心
图书馆理论与实践 2022年5期
关键词:定律发文聚类

翁悦鑫,马海群(.黑龙江大学信息管理学院;2.黑龙江大学信息资源管理研究中心)

1 引言

开放获取(Open Access),也被称为开放存取,根据布达佩斯开放存取先导计划(Budapest Open Access Initiative,BOAI) 中的定义,是指某文献在Internet公共领域里可以被免费获取,且允许任何用户阅读、下载、拷贝、传递、打印、检索、超级链接该文献,并为之建立索引,用作软件的输入数据或其他任何合法用途。与传统的期刊订阅相比,开放获取节省了印刷成本,缩短了出版周期,有利于营造健康高效的学术交流生态。而信息技术的不断革新,为开放获取模式的逐步建立打下了坚实的基础。盈江燕等梳理了我国2004—2014年中国知网(CNKI) CSSCI论文数据库关于开放存取发展的研究现状与研究热点[1];徐迎迎等统计了2004—2012年开放获取论文,发现这些文献与布拉德福定律、洛特卡定律和齐普夫定律这三大定律基本相符[2];曹娟从期刊的概念与类型、产生与发展、出版模式等方面综合分析了开放存取期刊的研究进展[3]。一些研究存在着过时且分析范围有限等问题,因而利用文献分析法对已有开放获取研究论文进行统计和分析就显得很有必要。

本文拟将我国2004—2020年间有关开放获取的研究论文进行统计分析,首先检验论文的作者、期刊、词频分布是否符合文献计量学三大定律(即布拉德福定律、洛特卡定律和齐普夫定律),其次通过时间、作者、期刊、关键词共现、关键词聚类、关键词突现来分析我国开放获取的研究现状与趋势,以期为我国开放获取的研究和发展提供参考。

2 数据来源及数据清洗

(1)数据来源。本文所选取的数据基于CNKI期刊数据库,设置主题检索 “开放获取or开放存取” ,期刊来源为CSSCI与CSCD,时间设置为2001—2020年。经过检索发现,与开放获取主题相关的论文最早的发表时间为2004年,因此把时间段设定为2004—2020年。最后,共检索出2,730篇与开放获取主题相关的文献。

(2)数据清洗。由于选取的论文数量较多,本文根据文章的作者、摘要和关键词的信息,删除了与主题无关的文献,经过数据清洗后,共得到2,263篇论文,以此作为本文的研究数据基础。

3 文献计量学三大定律验证

3.1 布拉德福定律验证

本文把2004—2020年开放获取领域的论文所属期刊划分为3个领域(见表1)。第一区域为核心期刊区,期刊载文量在92篇及以上;第二区域为相关期刊区,期刊载文量在67—85篇;第三区域为边缘期刊区,期刊载文量在1—65篇。可以发现三个期刊区域发表开放获取研究论文的数量大致相同,期刊数量的比值近似于1:2:22,与布拉德福定律区域描述经验公式大致相同。如表2所示,居于核心区域的5家期刊为图书情报工作、中国科技期刊研究、图书馆学研究、情报理论与实践、科技与出版。其中图书情报学相关期刊占比较多,发表的开放获取论文的累计数量占核心期刊区论文的半数以上,说明图书情报学的学者对开放获取的关注最多。

表1 期刊分区表

表2 我国2004—2020年开放获取研究论文核心期刊分布情况

根据布拉德福定律的图像表示法制图(见图1),其中横坐标是期刊累积量的对数,纵坐标是论文累积量,这个散点图的趋势走向基本符合布拉德福定律的曲线分布。前部分呈线性增长,但是后部分出现了 “格鲁斯下垂” ,由本文统计不完全导致(仅统计了CSSCI和CSCD的期刊论文)。

图1 论文累积量分散曲线

3.2 洛特卡定律验证

洛特卡定律是文献计量学的经典定律之一,又称科学生产率的平方反比律,由洛特卡于1926年提出[4]。洛特卡定律主要揭示了科学论文作者写作频率与所写论文篇数间的定量关系,其公式表示为:f(x)=c/xn。其中,x表示为论文的数量,f(x)代表x篇论文的作者占作者总数的百分率,c则是某主题领域的特征常数[5]。

据此,本文整理了2004—2020年间开放获取领域论文署名作者,把所有作者视为第一作者且在无姓名重复的前提下,以洛特卡定律公式为基础,横坐标表示论文的数量,纵坐标为相应论文数量作者占作者总数的百分率,以此绘制出散点图(见图2),得出公式为y=0.5357x-2.392。图中的虚线是散点的趋势线,R2=0.9425,表示拟合程度高,说明我国开放获取相关论文作者的分布符合洛特卡定律。

图2 开放获取研究论文作者洛特卡定律分布散点图

3.3 齐普夫定律验证

齐普夫定律是齐普夫于1935年提出的,揭示了文献中词汇出现频率的分布规律,是文献信息计量学的基本定律之一[6]。本文统计了2,263篇开放获取研究论文的关键词,共有9,208个关键词,平均每篇论文的关键词大约有4个。在统计关键词时,将存在不同表达方式的同义词进行合并处理,如将 “开放存取” “OA” 并入到 “开放获取” 中,把 “开放存取期刊” 和 “OA期刊” 合并到 “开放获取期刊” 中,等。由于关键词数量过多,绘制散点图过于复杂,因此本文只选取排名前200的高频关键词绘制开放获取研究论文词频分布图(见图3)。其中,以排序的序号为横坐标,以序号对应的词频为纵坐标,并添加了乘幂的拟合曲线。从图中可以看出拟合曲线与齐普夫分布曲线大致相同,R2=0.9755,表示拟合程度较好。又以序号和词频的对数作为横纵坐标轴,添加线性趋势线后,拟合程度达0.9754(见图4)。这表明2004—2020年我国开放获取领域相关论文的关键词词频与齐普夫定律相符。

图3 开放获取研究论文关键词词频分布散点图

图4 开放获取研究论文关键词词频分布对数散点图

4 文献分布特征分析

4.1 时间分布特征分析

4.1.1 发表时间分析

将需要分析的2,263篇文章按照发表时间绘制柱形图(见图5),可以直观地看到开放获取领域在这17年内论文数量的动态变化。年度发表论文的数量可以反映出国内学者对此主题的关注程度和未来此领域研究继续发展的可能性。由图5可知,开放获取主题论文的发表数量和变化可以分为3个阶段:第一个阶段是2004—2007年,这段时间是开放获取论文从无到有,逐渐受到了学者们的关注,其原因是2003年12月29日中国签署了《柏林宣言》,代表着我国对开放获取的支持与关注,并将这一理念引入国内[7],2005年6月又举办了 “科学信息开放获取战略与政策国际研讨会”[8],发文量进一步的增长;第二个阶段是2008—2016年,这段时期的发文量整体大幅度增加,呈上升趋势,尽管在2011、2012年期间有所下降,但平均每年的发文量已经超过了150篇,说明开放获取相关领域受到了更多学者的关注;第三阶段是2017—2020年,这段时期与第二阶段相比,发文量有所下降,但是总体的发表数量在145篇,表示学者对于开放获取的关注程度从热切关注转变为理性关注,相关研究处于稳定的状态。

图5 2004-2020年开放获取论文年度发表数

4.1.2 年度累积量分析

1963年,普赖斯在《小科学、大科学》一书中指出,指数规律有可能被破坏,文献的指数增长不可能永远持续下去,实际上有些知识领域内的文献是呈现出直线增长模式的[9]。为了验证开放获取文献是否符合线性增长模式,本文绘制了2004—2020年开放获取相关论文的年度累计增长折线图,并在原有的折线图中又添加一条线性拟合趋势线(见图6)。由图6可知,R2=0.9896,这代表着文献累计增长变化折线与线性趋势线的拟合程度高,表示文献年度累计量整体呈持续的线性增长状态。因此,可以将图6的曲线视为一条直线,直线方程为y=152.54x-359.99,符合线性文献增长规律。

图6 开放获取相关论文累积量变化

4.2 作者分布分析

2,263篇文章的署名作者共计有2,874名,其中发文量排名前十的作者如表3所示,作者发表文章数量的差距较小,发文量排名第一的是张晓林,他在这期间的发文量高达30篇。根据普赖斯定律确定核心作者的最低发文量的公式量在4篇及以上的作者可以被确定为本文开放获取主题的核心作者。

表3 发文量排名前十作者

经统计,发文量4篇及以上的作者共有178人,核心作者发文量占所有作者发文量的27%。可以发现,开放获取相关论文的核心作者发文量占总发文量的比重较高,说明我国开放获取领域的研究有着比较完备的体系,处于发展的成熟时期。

本文利用Citespace软件对作者进行可视化分析,设置时间为2004—2020年,year per silicce=1,即时间切片为一年,node types=author,即分析类别为作者,pruning=pathfinder,pruning the merged network,其他设置为默认值。设置可显示发文量在5篇及以上作者名字,形成知识图谱(见图7)。其中圆圈表示不同作者的节点,圆圈越大,作者的发文量越多,反之则越少。节点之间的连线表示作者之间的合作,线条越粗,作者之间的合作关系越密切。由图7可知,以初景利、李麟、张晓林、黄金霞、顾立平等作者为主的合作很密切,已经形成了作者之间的合作网络。这些作者不仅在数量上占据着主要地位,在合作交流方面也有巨大的贡献。黄如花、盛小平等人发表的论文数量居于上游,但是以自己研究为主,与其他作者没有产生合作。总而言之,2004—2020年期间,开放获取研究领域已经形成了较为明显的合作网络,作者之间的合作有利于最新研究信息的互通,也为之后开放获取研究的创新发展奠定了坚实的基础。

图7 开放获取相关作者及作者之间合作知识图谱

4.3 研究机构分析

利用Citespace软件对开放获取的研究机构进行可视化分析(见图8),图中显示名称的研究机构发文量都在15篇及以上。由图8可知,我国有很多开放获取的研究机构,并且研究机构之间形成了一定的合作网络,其中有些部分是一定区域内之间的合作。如,武汉大学信息管理学院和武汉大学信息管理研究中心,中国科学院文献情报中心和中国科学院大学等,这从一定程度上说明我国开放获取研究机构之间的合作具有局限性。把不同名称的同一机构合并,最后统计出排名前10的机构(见表4)。通过表4可以看出,排名第一的是中国科学院大学,2004—2020年的发文量多达296篇,排名第二的是武汉大学信息管理学院,发文161篇章。这说明中国科学院大学和武汉大学信息管理学院在开放获取领域投入的科研力量大,研究成果多,属于领军机构。排名前10的研究机构共发文696篇,占发文总量的30.7%,超过了发文总量的1/4,这些机构中大多数属于高校,说明高校是开放获取领域的主要科研力量。

表4 发文量排名前10的研究机构

图8 开放获取研究机构及机构合作网络知识图谱

4.4 关键词共现分析

Citespace中的关键词共现是以论文中出现的关键词频次作为参考依据,再以直观方式表达关键词出现的频次。通过关键词共现可以发现某一领域的研究热点、子领域及其关系和领域知识结构[10]。用Citespace软件对这2,263篇开放获取研究论文进行可视化分析,排除开放获取和开放存取这两个频率过高的关键词,形成开放获取研究论文关键词共现图(见图9)。图中的关键词出现频率均在15次及以上,每个圆圈表示一个关键词节点,圆圈的大小代表关键词出现的频次,圆圈越大,关键词出现的频次越多,反之则越少。

图9 开放获取研究论文关键词共现

4.5 关键词聚类分析

关键词聚类是在共词分析的基础上,以共词出现的频率为分析对象,利用聚类的统计学方法,把众多分析对象之间错综复杂的共词网状关系简化为数目相对较少的若干类群之间的关系并直观地表示出来的聚类过程[11]。利用Citespace的关键词聚类功能,对开放获取研究的关键词进行聚类分析,取前10个关键词聚类(见图10)。由图10可见,排名前10的关键词聚类分别有#0学术期刊、#1机构知识库、#2图书馆、#3期刊、#4高校图书馆、#5开放数据、#6机构库、#7学术影响力、#8电子期刊、#9学术出版。

图10 开放获取研究论文关键词聚类

(1)聚类#0学术期刊、#3期刊、#8电子期刊作为一类,显示各种期刊在开放获取的新模式下,如何转变运行模式以达到可持续发展的目标。艾岚认为我国期刊数字化面临着诸多问题,试图从版权管理方式、人才培养、营利模式等方面为数字出版产业提出解决方案[12];吴岩等以中国科学院金属研究所 “联合期刊” 为例,分析了开放获取对期刊影响力的促进作用[13]。

(2)聚类#1机构知识库、#6机构库在开放获取载体方面,从不同角度对机构知识库的建设、设计、发展等问题提供了建议与对策。肖可以根据国内外建设机构知识库的实际情况,针对我国高校机构知识库的建设和发展问题提出了解决对策[14];马建霞从利益相关方需求的角度就机构知识库的建设与服务设计提出了自己的见解[15]。

(3)聚类#2图书馆与#4高校图书馆可以作为一类进行总结与分析,这是由于这两个聚类都是从开放获取重要的开发主体角度出发,且两者的聚类出现年限也相近,分别是2012年和2010年,其主要包括的关键词有 “图书馆” “高校图书馆” “知识服务” “开放出版” “信息服务” 等。吴天吉等探讨了建设农业高校之间联盟知识库的几点解决办法[16];李咏梅总结了开放获取快速发展环境下对图书馆馆藏的现状和需要面对的挑战,并为开放获取环境下馆藏的发展提出建议[17]。

(4)聚类#5开放数据包含38个关键词,出现频次比较多的关键词有 “开放科学” “科学数据” “开放数据” 等,聚类出现的时间为2014年。吴建中从开放性、关联度、流畅度和传播力角度研究如何使知识流通得更为顺畅,讨论了开放获取和开放科学的发展动态以及出版社和图书馆如何联手应对经济、技术和社会发展的挑战[18];李志芳等通过调查和总结我国开放科学数据库平台,对开放数据资源类型和数据服务进行分析[19]。

(5)聚类#7学术影响力共包括34个关键词,如 “学术影响力” “文献计量” “社会网络分析” 等,其出现的时间为2012年。张玉祥等从学科分布和学术质量评价的角度对FOAS集成开放存取期刊进行统计分析,认为FOAS收录的期刊整体影响因子偏低,但也不乏存在高影响因子的期刊,且对于学术界和图书馆都呈现出积极的影响[20];蒋静调查了597种期刊开放存取的现状,认为开放存取期刊总体发展态势良好,但期刊质量还需进一步提升[21]。

(6)聚类#9学术出版一共包括30个关键词,其中出现的高频关键词有 “学术出版” “出版服务” “开放存取出版” 等,聚类出现的时间为2014年。任翔回顾了欧美各国在开放获取政策、出版商主导的OA期刊出版以及学术机构主导的开放知识库,为我国学术出版界今后的尝试提供借鉴[22];赵惠芳等通过对国外图书馆出版服务各个方面的分析,为我国高校图书馆今后的出版服务提出了意见和建议[23]。

4.6 关键词突现分析

分析关键词突现有利于关注到某一时期最突出的文献知识,即 “文献信息的挖掘与文献知识扩散、文献知识吸收和文献知识扫描的发展进程”[24]。利用Citespace软件分析关键词突现,得到排名前15的突现关键词(见图11)。其中Year表示突现词首次出现的年份,Begin表示的是突现词开始突现的时间点,End是突现词结束的时间,Strength则代表突现词突现的强度,其数值越大,突现词在某一时期内突发的可信度越高,也代表这一时期的研究热点。

图11中的关键词突现分为两个阶段。①2004—2016年,这一阶段开放获取研究论文处于从无到有的快速发展阶段,出现的突现关键词数量比较多,有 “学术信息” “信息共享空间” “版权” “信息服务” “信息资源建设” “开放存取资源” “机构库” “信息资源” “著作权” “数字出版” 等。其中最早的突现词 “学术信息” 出现在2005年,持续的时间最短,只有2年。 “信息共享空间” 和 “信息服务” 持续出现5年以上,时间最长。② 第二个阶段是2016—2020年,有 “科学数据” “开放数据” “出版服务” “开放出版” “开放科学” 这5个突现关键词,且持续的时间相对较长,尤其 “科学数据” “开放数据” “出版服务” 和 “开放科学” 一直持续到2020年,表示这4个关键词是当下开放获取的研究热点。

图11 排名前15的突现关键词

5 结论

运用文献计量的方法,对2004-2020年CSSCI和CSCD期刊数据库有关开放获取的研究论文进行统计分析,研究结果和结论如下。

(1)开放获取研究论文的分布规律基本符合文献计量学三大定律。期刊分布比较符合布拉德福定律, “核心” 区域、 “相关” 区域和 “边缘” 区域论文大体相同,期刊数量比值为1∶2∶22;作者分布符合洛特卡定律,公式为y=0.5357x-2.392;开放获取研究论文关键词词频散点图基本符合齐普夫定律分布曲线。

(2)期刊论文分布。在时间分布上,我国开放获取研究论文大致可分为3个阶段,第一阶段为2004—2007年,是从无到有的阶段;第二阶段为2008—2016年,是论文数量大量增长的阶段;第三阶段为2017—2020年,论文数量稍有下降,但依旧保持在一定的数量之上。在作者分布上,发文量排名前十的作者发表开放获取论文的数量均在15篇以上,大多数作者之间的合作较为密切,也存在一些合作较少的作者。在研究机构的分布上,发文量排名靠前的机构以高校和一些研究院所为主,机构之间存在一定的合作网络,但依旧需要更密切交流。

(3)通过关键词共现发现, “机构知识库” “图书馆” “高校图书馆” “学术期刊” “科技期刊” 等高频关键词受到作者的关注;通过关键词聚类,可以总结出期刊、图书馆、机构知识库、科学数据、学术影响力和学术出版6个方面;通过关键词突现可以发现, “科学数据” “开放数据” “出版服务” 和 “开放科学” 这4个关键词依旧是当前的研究热点。

猜你喜欢
定律发文聚类
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
多一盎司定律和多一圈定律
基于K-means聚类的车-地无线通信场强研究
倒霉定律
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法
耐人寻味的定律
食堂定律