基于文献计量和共词分析的国内开放获取研究热点探析

2020-04-08 08:47:08
图书馆学刊 2020年1期
关键词:共词知识库学术

李 睿

(辽宁师范大学图书馆,辽宁 大连 116029)

在第14 届柏林开放获取会议上,中国国家自然科学基金委等机构明确表示中国支持OA2020和开放获取S计划,支持公共资助项目研究论文立即开放获取[1]。截至2019年2月19日,我国大陆有13家机构签订了该意向书。随着开放获取运动实践的推进,国内开放获取研究呈现出哪些热点呢?笔者尝试以国内图情领域相关期刊论文为基础,运用文献计量和共词分析的方法来发现国内开放获取研究的热点。

1 数据来源

2019 年 2 月 16 日,在 CNKI 高级检索页面中,选择“主题”字段,对“开放获取”“开放存取”“OA”“open access”进行逻辑“或”检索,同时将学科限制为“图书情报与数字图书馆”,期刊来源限制为CSSCI 期刊和核心期刊,检索结果为1277 条。阅读文献题录后发现,2011 年前以开放获取为主题进行综述研究的文献较多,故笔者选取发表年度为2011年至2018年间的文献为分析样本,去掉重复、无关及弱关联文献后,得到样本文献775篇。

2 文献计量分析

将775篇文献按年度做发文数量统计分析,如图1所示,可以发现,8年来图情领域开放获取年度核心期刊发文量始终在60 篇以上,研究热度可见一斑;同时,开放获取研究在2012年到2015年间,呈现出直线上升趋势,此后逐年下降,亟待寻求新的研究增长点。

图1 2011—2018开放获取文献年度发文情况

利用Excel对样本题录进行处理,得到1165个作者。按照普赖斯定律[2],计算出高产作者应为前34位,部分高产作者发文情况如表1所示。由最高产作者发文量17 篇,可计算出核心作者发文量约为3.1 篇。在样本中,发文量大于3 篇的核心作者共101 位,发文共计288 篇,分别占作者总数的8.67%和论文总数的37.16%。

表1 部分高产作者发文情况

对101位核心作者进行发文合著网络分析,发现44 位作者之间存在合著关系,利用VOSviewer对合著作者进行共现分析,得到开放获取研究领域核心作者合著网络图谱,如图2所示。从图2中可看出开放获取研究领域的合著作者主要形成了7 个大的子网,结合相关文献的研究主题,发现以黄金霞为中心的子网研究主题为开放获取资源建设、管理与服务;以张晓林、李麟为中心的子网研究主题为开发获取政策、技术和开放出版;以盛小平为中心的子网主要研究社会网络理论与开放获取机制;以顾立平为中心的子网主要研究开放获取政策与实践;以聂华为中心的子网研究主题为机构知识库建设与政策;以刘兹恒为中心的子网和以初景利为中心的子网主要研究图书馆与数字出版。

图2 开放获取研究领域核心作者合著网络图谱

3 共词分析

3.1 获取关键词

在Excel 中用条件语句析出样本的关键词,词频共计3168次,透视后得到关键词1479个。对关键词进行同义词合并处理,如将“开放存取”“开放获取”“OA”3个同义词合并为“开放获取”,对于合并后一篇文献中出现两个相同关键词的则算作1次。由于在样本构建过程中采用“开放获取”为主题词,在描述研究热点时意义不大,故将其从关键词列表及后续共词分析中去除。根据需要,选择词频≥8 的42 个关键词作为高频关键词(如表2),高频关键词的词频总量占总词频的28.55%,满足知识图谱的分析标准。

表2 高频关键词

3.2 构造矩阵

3.2.1 构造共词矩阵

用Excel 统计42 个高频关键词在样本文献中两两共同出现的频次,得到共词矩阵如表3 所示。共词矩阵是一个对称矩阵,行列相交的数据表示两个关键词之间的共现频次,如表3 中“开放获取政策”与“开放出版”的共词频次为3,表示这两个关键词共在3 篇文献中同时出现。关键词共现频次可以体现关键词之间的相关性,数值越大,说明两个关键词之间的相关程度越高。

表3 高频词共词矩阵(部分)

3.2.2 构造相异矩阵

为了适应不同的多元统计方法对数据的要求,一般需要使用Ochiai系数把共词矩阵转化为相关矩阵,Ochiai 相关系数其中,Aij表示关键词Wi和Wj在文献中共同出现的频次;Ai表示关键词Wi在文献中出现的频次;A表示关键词Wj在文献中出现的频次,Oij表示关键词Wi和Wj共同出现的概率。因使用Ochiai 系数转换后的相关矩阵中0 值较多,容易造成统计误差,我们用1 减去相关矩阵中的数据,得到表示两个关键词之间相异程度的相异矩阵,如表4 所示。在相异矩阵中,数值越大越接近于1,表明两个关键词之间的距离越远,相关程度越小;反之数值越小越接近于0,表明两个关键词之间的距离越近,相关程度越大。

表4 高频词相异矩阵

3.3 多元统计分析

3.3.1 聚类分析

在SPSS22.0 软件中,使用组内联接法和Minkowski 距离对高频词相异矩阵进行聚类分析,得到高频词聚类如图3 所示。图3 中关键词大致可以聚为6 类。第一类包括资源共享、图书馆联盟、社会网络分析、数字出版、出版服务、信息资源建设;第二类包括学术图书馆、学术交流、资源建设、开放获取资源、图书馆和信息资源;第三类包括数字图书馆、信息服务、高校图书馆、MOOC、学术出版、美国、学科服务;第四类包括开放获取政策、高校、学位论文、机构知识库、OpenDOAR、版权、Altmetrics;第五类包括知识服务、数据管理、元数据、科学数据、数据共享、开放科学、开放数据、开放出版;第六类包括学术期刊、DOAJ、开放获取出版、影响因子、CSSCI、期刊、开放获取知识库、开放获取期刊。

图3 高频词聚类图

3.3.2 多维尺度分析

在SPSS22.0中,选择ALSCAL多维尺度分析对高频词相异矩阵进行“Euclidean 距离”分析,得到结果如图4所示。图4中关键词大致可划分为6个领域,分别用A-F的字母表示。A领域关键词包括图书馆联盟、开放获取资源、学术图书馆、数字出版、出版服务、资源共享、资源建设、学术交流、社会网络分析;B领域关键词包括元数据、信息资源、知识服务、信息资源建设、开放出版、图书馆;C 领域关键词包括高校图书馆、美国、学术出版、MOOC、学科服务;D领域关键词包括高校、开放获取政策、机构知识库、版权、学术期刊、学位论文;E领域关键词包括Altmetrics、信息服务、数据管理、数字图书馆、数据共享、科学数据、开放科学、开放数据;F 领域关键词包括CSSCI、OpenDOAR、DO⁃AJ、开放获取期刊、期刊、开放获取知识库、影响因子。

图4 高频词多维尺度分析结果

3.4 结果分析

在对共现关键词的多元统计分析中,聚类分析中得到的第一至六类关键词分别与多维尺度分析中得到的第A 至F 类关键词大致对应。根据共词分析结果,结合作者合著网络及相关文献,总结出我国图情领域开放获取研究热点主要集中在以下6个方面。

3.4.1 开放获取对学术交流的影响

涉及的关键词有数字出版、出版服务、社会网络分析、资源共享、图书馆联盟、学术交流和信息资源建设。学术期刊开放获取从根本上改变了作品创作者和使用者的关系,即作品传播由读者付费驱动普遍转向作者付费驱动[4],但开放获取不只是钱的问题,更是一个文化的问题[5]。参与数字出版的图书馆数量在不断增长,在ICOLC 收录的图书馆联盟中,参与数字出版的已达47%,图书馆联盟的角色有向数字资源出版者转变的趋势[6]。李金林等[7]就开放获取对国家科技发展、图书馆、出版商和科研人员等的影响进行了探讨。初景利等认为图书馆出版是图书馆在长期的学术出版活动中对自身角色的重新定义和选择,图书馆应增强内容获取能力、出版增值与传播能力、资金筹集能力,积极参与学术出版[8]。刘兹恒、涂志芳、苗美娟等[9-13]对图书馆出版的定义、内涵及特点进行了深入探讨,并围绕国外高校图书馆参与数字出版的模式、实践、动因等进行了系列研究,指出学术图书馆在技术平台、内容资源、用户和人才等方面都有优势,参与学术出版是学术图书馆使命、角色与功能定位的内在要求。

3.4.2 开放获取对图书馆资源建设的影响

涉及的关键词有资源建设、开放获取资源、开放出版、信息资源、图书馆和学术图书馆。图书馆开放获取资源收集应遵循需求性原则、特色化原则、权威性原则和积累性原则,通过建立站点导航等形式来组织开放获取资源[14]。冯晴[15]建议图书馆将OA 期刊纳入馆藏时,应考虑OA 期刊的影响因子及其在商业数据库中的收录情况;卞长云[16]认为建立OA 仓储联盟是图书馆开放存取资源建设的大方向。郑岱霞[17]提出利用OA资源优化图书馆数字特藏的设想,建议利用OA资源拓展图书馆在支持教学科研及数字特藏知识化服务方面的能力。黄雪梅等[18]调研京津冀高校图书馆主页中所揭示的OA资源后发现,图书馆对“OA资源”认知不统一、缺少统一的OA资源检索平台、OA资源维护度不高,应着力建设高校图书馆OA 资源统一平台。麻思蓓[19]表示开放共享是信息资源的必然趋势,开放获取对图书馆信息资源建设战略、馆藏结构等方面有重要影响,图书馆应着力探索和研究适合OA资源的组织规范。

3.4.3 开放获取对图书馆信息服务的影响

涉及的关键词有数字图书馆、高校图书馆、信息服务、知识服务、学术出版、学科服务、MOOC 和美国。2010 年,有 73 个“211 工程”大学图书馆网站上揭示了开放获取资源[20];到2017年,中国大陆879 所本科院校图书馆中有51.99%或多或少进行了免费网络资源的组织[21]。张理华[22]认为自建开放获取整本电子期刊是新媒体时代图书馆一项重要的创新服务工作内容;何立芳[23]指出MOOC为学科馆员提供了一个重新定位角色的机会,学科馆员可以为教师提供MOOC 资源导航、信息素养教育和课程支持;赵奕[24]认为在当前学术交流模式发生根本变化的情况下,图书馆应该积极参与开放获取,通过建立机构知识库、承担资源数据长期保存任务、宣传学术出版等方式来创新图书馆服务。美国高校图书馆十分重视学术出版服务,注意与出版社的合作,积极组建高校机构知识库,走出了一条成功的图书馆学术出版服务道路[25];弄清动力与目标需求,加强数字出版和开放获取也是国外高校图书馆已见成效的学术出版服务策略[26]。

3.4.4 开放科学与科学数据

涉及的关键词有数据共享、科学数据、开放科学、开放数据、数据管理。黄永文等[27]较早将开放科学数据的含义及国外开放科学数据仓储、数据政策建设情况进行了综述;黄如花等[28]介绍了6种获取科学数据的途径,夏姚璜[29]就re3data 中美国与中国的科学数据仓储进行了对比分析,指出我国科学数据仓储建设应重视数据内容类型、数据管理、数据获取等多个方面;邱春艳、黄如花[30,31]、张晓青、尤霞光、盛小平[32,33]等围绕欧盟、英国及其他国际组织在科学数据共享领域的重要战略决策、报告、项目和实践等进行了研究,认为国家层面对科学数据开放共享价值的重视十分重要,我国应积极参与国际科学数据开放共享政策的制定与项目合作,建构不同层级的科学数据开放共享政策体系,并对公共资助的科学数据实施强制性开放共享政策。

3.4.5 开放获取期刊组织与评价

涉及的关键词有CSSCI、元数据、开放获取期刊、期刊、影响因子、开放获取知识库、Altmetrics、DOAJ。开放获取作为一种新的学术交流方式,其作用日益突显,但始终面临文章处理费用、内容质量保障和信息技术迅猛发展3 个重要问题,其中,内容质量问题是关键[34]。刘锦宏等[35]认为开放获取期刊利用率不高的主要原因之一是用户对OA期刊的分布情况不了解。王智博、盛小平等[36,37]将中心性指标和社会网络理论中的核心——边缘结构理论应用于OA期刊评价中,发现入度中心度可作为OA期刊评价的指标,核心——边缘结构分析可以作为OA 期刊核心期刊评选的一种角度。刘洢颖等[38]发现开放获取论文在出版当年,引用频次多于非开放获取论文,但随着出版后时间的增加,两者在学术影响力上逐渐趋同。黄金霞等[39,40]从OA 期刊的采集、组织、保存和再利用出发,对OA资源建设标准体系进行了探索和实践;涂志芳、刘兹恒[41]介绍了DOAJ、GoOA两个开放存取期刊集成平台的期刊收录标准及遴选原则,指出OA期刊集成平台期刊遴选标准一方面应公平、公开、公正,另一方面应尽量科学、严谨、明确并具有可操作性。

3.4.6 机构知识库与开放获取政策

涉及到的关键词有开放获取政策、高校、学位论文、机构知识库、OpenDOAR、版权、学术期刊、开放获取出版。机构知识库是开放获取运动的产物之一,实现开放获取是机构知识库建设的终极目标,“落实政策”是推动开放获取的重要举措之一[42],机构知识库建设要“建制与建库并重”[43]。机构知识库建设中不可避免地涉及存储协议、版权转让等版权冲突,我国应尽快出台OA运动相关版权说明[44];日本的开放获取策略数据库和科学技术振兴机构制定的各种开放获取政策,对我国机构知识库建设有借鉴作用[45]。张强等[46]提出通过制定强制性开放获取政策、获取出版机构的集体授权、建立国家许可证制度等途径来解决机构知识库的著作权问题。龚亦农等[47]对构建开放获取政策的操作层面提出3 点建议:重视二级机构、建立强制性政策和关注OA 实践效果及OA 出版;白林林等[48]对国外30个机构知识库的存缴机制及政策进行了调研,预测中介存缴、OAI-PMH 开放获取收割方式是必然趋势。汪琴等[49]的调研结果表明国家宏观政策的缺失是我国机构知识库发展不力的关键因素,图书馆可以从扩展机构知识库的服务领域与功能、支持对科学数据的管理、为机构管理层提供决策依据等方面为机构知识库的可持续发展提供根本性支撑。

猜你喜欢
共词知识库学术
如何理解“Curator”:一个由翻译引发的学术思考
中国博物馆(2019年2期)2019-12-07 05:40:44
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
对学术造假重拳出击
商周刊(2019年2期)2019-02-20 01:14:22
基于突变检测与共词分析的深阅读新兴趋势分析
图书馆建设(2018年5期)2018-07-10 09:46:40
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
图书馆研究(2015年5期)2015-12-07 04:05:48
基于共词知识图谱技术的国内VLC可视化研究
基于关键词共词分析的我国亲子关系热点研究
基于共词分析的近十年国内网络团购研究热点分析
学术