张新玲,陈 誉
(重庆三峡学院 传媒学院,重庆 404020)
随着网络技术的发展和用户需求的变化,商业出版商对学术信息的垄断和暴利经营引起了大量用户的强烈不满,引发国际图书界及情报界等开展了一场免费获取信息资源的运动,即开放获取。通俗来讲,开放获取就是将要发表的科研成果放到互联网上,供大众免费使用,其理念是自由、开放、共享,其意义在于学术信息的免费获取以及可获得性。开放获取促进了科学信息的广泛交流,大大提升了科学研究的公共利用程度,保障科学信息的长期保存,提高了科研成果传播的效率,是国际出版界的一种新趋势[1]。随着大众对开放获取关注度与认可度越来越高,国际上很多国家迅速推出了开放获取政策,来保障公众能无障碍地获取所需开放资源[2]。同时,理论界的学者也从不同角度对开放获取展开了深入研究,产生了大量相关科研成果。为了及时了解开放获取的研究现状及研究热点,国内外大量研究者对开放获取进行了综述性研究[3-6],大大推动了开放获取研究的进一步发展。然而,随着研究的深入,研究主题也在动态变化,目前鲜见研究者对国际开放获取不同时期的研究主题及演化路径进行定量分析,这不利于读者整体把握开放获取研究的发展脉络、研究趋势及研究热点。鉴于此,本文借助SciMAT软件分析国际开放获取不同时期的研究主题和演化路径[7],为我国相关领域的研究者尽快把握国际开放获取研究发展动态,丰富开放获取理论研究视角并顺利开展开放获取实践提供借鉴和参考。
Open Access译为开放获取,这个专业术语意义广泛,除了应用于信息学、图书馆学及图书情报学等领域,还广泛应用于医学、化学、物理学等领域。为了获取信息学、图书馆学及图书情报学领域的开放获取文献,本文通过限制学科类别的方式,以主题为检索途径,以WoS核心合集SSCI及A&HCI为数据源,具体检索策略为:TS=“open access”,同时限制文献类型为Article、Proceeding paper、Review,检索年限为1900—2020年,共检索出100个Web of Science 类别的文献7 123篇,精炼INFORMATION SCIENCE LIBRARY SCIENCE类有效文献1 335篇,检索时间为2021年1月1日。
本文以西班牙格拉纳大学开发的SciMAT软件[8-9]对研究数据进行处理分析,SciMAT具有强大的预处理功能,可以构建多种文献计量学网络,并可对结果的影响力进行定量分析,还可以通过配置向导的方式引导用户分析[10]。
据检索到的文献可知,最早的文献在1966年,故起始年设在1966年。将研究区间划分为4个时区:1966—2007年为第1个时区,有文献211篇;2008—2013年为第2个时区,有文献392篇;2014—2017年为第3个时区,有文献394篇;2018—2020年为第4个时区,有文献338篇。
数据清洗分为两步:首先是软件自动清洗,自动合并关键词单复数,如将“OPEN-ACCESS-JOURNAL”“OPEN-ACCESS-JOURNALS”合并为“OPEN-ACCESS-JOURNALS”,将“LIBRARY”“LIBRARIES”合并为“LIBRARIES”等。之后再进行手动清洗,合并同义词和同一聚类关键词,如将同义词“GOLD-OA”“GOLD-OPEN-ACCESS”合并为更常用的“GOLD-OPEN-ACCESS”,将同一聚类关键词“GOOGLE-SCHOLAR”“GOOGLE-SCHOLAR-CITATIONS”“GOOGLE-SCHOLAR-METRICS”合并为关键词“GOOGLE-SCHOLAR”,停用无效关键词“OOS”“ICT”等。
经过多次尝试后,选取最优分析参数。分析单元为Words(Author’s Words 和 Source’s Words);4个时区的数据精简阈值(Data Reduction)依次为2、2、2、2;选择矩阵形式为共现矩阵(Co-occurrence);4个时区网络精简阈值(Network Reduction)依次为2、2、2、2;标准化网络的相似度指标为Salton系数(Salton’s Cosin);聚类算法为简单中心算法(Simple Centers Algorithm),设置网络最大值为12,最小值为3;聚类质量的指标选择文献总被引(Sum Citations)和篇均被引(Average Citations);演化图和关键词覆盖图的相似度指标选择Salton系数(Salton’s Cosin)。
1966年,OpenAccessinSovietPublicLibraries的发表开启了开放获取研究的序幕。1966—2020年,开放获取领域的文献共有1 335条,h指数47,总被引频次14 116。发文量超过50篇的期刊依次为LEARNEDPUBLISHING(144)、SCIENTOMETRICS(138)、INTERLENDINGDOCUMENTSUPPLY(76)、SERIALSREVIEW(66)、PROFESIONALDELAINFORMACION(54),发文量超过50篇的国家为美国(358)、英国(204)、西班牙(139)、加拿大(65)、中国(64)、德国(60)及巴西(59)。研究方向主要集中于INFORMATION SCIENCE LIBRARY SCIENCE、COMPUTER SCIENCE、COMMUNICATION等。
通过SciMAT绘制4个时区的聚类战略图,如图1所示。横轴为中心度(Centrality),代表与其他主题的关联程度;纵轴为密度(Density),代表领域内部关键词之间的关联程度。节点代表聚类主题,节点内的数字代表相关文献量。节点在不同的象限代表不同的战略意义:右上象限的主题属于发展好且重要的研究主题,右下象限代表基础性的有待发展的研究主题,左上象限是稳定的专业主题,左下象限代表新兴或者衰退的主题[11]。
图1 4个时区开放获取主题的聚类战略
综合4个时区开放获取主题战略图和主题聚类指标值发现:(1)早期主题词数量较少,后期主题词数量较多,但早期主题词与后期主题关联性强,是后期研究的基础;(2)研究主题的中心度值和密度值总体上越来越高,尤其是开放获取主题一直是4个时区的热点潜力主题,且中心度值和密度值呈上升趋势;(3)研究主题多分布在右上和左下象限,表明研究主题呈现两极分化的状态,热点研究主题越研究越深入,非热点主题会逐步分化或消亡。下面具体阐述每个时区的研究主题。
(1)1966—2007年聚类为5个主题:开放获取(OPEN-ACCESS)、信息(INFORMATION)、存档(ARCHIVES)、科学(SCIENCE)、作者(AUTHORS)。这个时期是开放获取研究的萌芽期,热点主题及文献量较少。右上象限的开放获取受关注度高,是这个时期成长状态的核心主题;左上象限的存档和科学主题属于发展较好专业主题,尤其是存档,是实现绿色开放获取的主要途径;右下象限的信息和作者主题中心度高、密度值低,内部联系弱,与其他主题联系紧密,是有很大发展潜力的研究主题。
(2)2008—2013年聚类为9个研究主题:开放获取(OPEN-ACCESS)、万维网(WEB)、职业(PROFESSION)、链接数据(LINKED-DATA)、马来西亚(MALAYSIA)、文献计量学(BIBLIOMETRICS)、馆际互借(INTERLENDING)、行为(BEHAVIOR)。研究主题的分布呈现两极分化的状态,多集中于右上和左下象限。右上象限有4个成长状态的核心热点主题:开放获取、万维网、馆际互借、行为。右下象限只有一个主题:研究,中心度值较高,密度值较低,说明该主题与其他联系紧密,有待于进一步发展。该时区唯一的专业主题是左上象限的链接数据,链接数据是早期开放获取采用的主要技术手段,文献数量较少,篇均被引频次却达到了14。左下象限有3个研究主题:职业、马来西亚、文献计量学,这3个主题中文献计量学的密度值和中心度值较高,属于新生的研究主题,很有可能继续在下一时区出现,而职业和马来西亚研究主题密度值和中心度值较低,可能是逐渐衰退或消亡的主题。
(3)2014—2017年聚类为13个热点主题:开放获取(OPEN-ACCESS)、信息(INFORMATION)、影响因子(IMPACT-FACTOR)、版权(COPYRIGHT)、资源(RESOURCES)、社交媒体(SOCIAL-MEDIA)、模型(MODEL)、研究者(RESEARCHERS)、文献计量学(BIBLIOMETRICS)、开放数据(OPEN-DATE)、期刊(PERIODICALS)、市场(MARKET)、在线(ONLINE)。本时区的研究主题多集中于右上和左下象限。右上象限有6个主题:开放获取、信息、影响因子、版权、社交媒体、研究者,相比于前一时区,中心度值和密度值均有很大的提升,尤其是开放获取、影响因子和研究者等,受关注度较高,演化动力极强。文献计量学从上一时区左下象限转移至本时区的右下象限,文献数量也由原来的18篇增长到32篇,具有研究连续性,且研究热度明显提升,属于研究者持续关注的主题。左上象限的资源主题,密度值较高,中心度值低,属于学科领域中发展成熟的专业主题。左下象限有5个主题:开放数据、期刊、市场、在线、模型,开放数据和在线的受关注度较高,篇均被引在10以上,结合战略图和演化图综合分析,开放数据和在线可能属于新生的热点主题,其他主题可能逐渐分化或消亡。
(4)2018—2020年聚类为12个主题:开放获取(OPEN-ACCESS)、研究(RESEARCH)、掠夺性出版(PREDATORY-PUBLISHING)、影响因子(IMPACT-FACTOR)、看法(ATTITUDES)、出版者(PUBLISHERS)、2019新型冠状病毒(COVID-19)、网络(NETWORKS)、开放科学(OPEN-SCIENCE)、社交媒体(SOCIAL-MEDIA)、Scopus数据库(SCOPUS)、未来(FUTURE)。右上象限有4个主题:开放获取、研究、掠夺性出版、看法。相比于上一时区,开放获取的文献数量和被引频次都有所下降,表明这一时区开放获取的研究热度有所降低;掠夺性出版的密度值和篇均被引频次较高,也属于此时区的核心研究主题。位于中心度轴上的出版商主题,文献量较少,由上一时区的研究者演化而来。影响因子从上一时区的右上象限移至本时区的右下象限,文献量和篇均被引频次直线下降,研究热度明显降低。左上象限的两个专业主题为2019新型冠状病毒和网络。为了有效抗击新冠病毒,130个国际组织共同签署了协议,承诺与疫情相关的研究成果将在第一时间开放获取,以协助全球抗击疫情。因此,开放获取背景下新冠文献计量学研究成为专业的热点话题。左下象限及密度轴有4个主题:开放科学、社交媒体、未来及Scopus数据库。开放科学是从上一时区的开放数据演化而来的新生主题,很有可能还会在下一时区继续出现;社交媒体文献量由53篇下降至19篇,篇均被引频次也由15.4骤降至3.1,这个主题在逐渐萎缩;未来主题比较宽泛,主要包括开放获取未来的商业模式、发展形势、管理模式、数据库存储、计划等,未来及Scopus数据库属于新生主题,尤其是Scopus数据库发展潜力很大。
通过SciMAT绘制热点主题演化路径图(见图2),由左至右的时区依次是1966—2007年、2008—2013年、2014—2017年、2018—2020年,节点表示开放获取领域的热点主题,节点的大小表示文献数量的多少,实线表示主题的演化和分裂,虚线表示主题的分化,线的粗细表示两个热点主题的关联程度,线越粗,表示两个主题间的演化动力越强[12]。
图2 开放获取研究热点的演化路径
利用开放获取研究热点的演化路径图,结合开放获取主题战略图,追踪开放获取领域的研究热点可在3个研究方向上形成 6 条明显的演化路径。
(1)开放获取。开放获取演化路径由3条子路径构成:①开放获取、信息、科学→开放获取→开放获取→开放获取;②开放获取→馆际互借→版权→掠夺性出版;③开放获取→馆际互借→资源。
1966—2002年是开放获取研究的萌芽期,文献总量只有34篇。这段时间公众的开放获取意识淡薄,对开放获取了解较少,研究热度低,开放获取研究多与图书馆研究相关联。2002年之后,随着网络技术的发展及用户需求的不断提高,广大用户不满于开发商对学术信息的垄断和暴利经营,纷纷提出抗议并开展了一系列的运动,这助力开放获取更进一步。2003年,Martin Sabo在美国国会上提交了《公共获取科学法案》提案,要求受联邦政府实质性资助的科研作品能为公众免费获取。一石激起千层浪,这一提案受到了科学界、出版界及社会公众的高度关注,商业出版商、非商业出版商及部分研究者强烈反对,而图书馆、部分研究者、大学及读者却大力支持和拥护。此后,进行了较长时期的拉锯战,开放获取的真正实践还有待进一步推进。2006年,《联邦研究公共获取法案》再一次要求受其资助的科研成果要开放获取,之后很多机构和大学颁布了开放获取政策,开放获取逐步走向实践;同年,非营利出版商和倡导科学研究转化的组织科学公共图书馆(PLoS)创办的开放获取期刊PLoSONE,几年就迅速成长为世界上最大的开放获取期刊,影响因子也一路飙升。这开创了开放获取期刊的新模式,其成功的出版案例为开放获取期刊的发展指明了方向。这个过程研究者围绕开放获取的出版模式、技术手段、付费模式、版权问题、相关政策、质量评价等一系列问题展开研究,形成了3条清晰的演化路径:第一条开放获取路径一直是核心研究主题,在演化过程中少有分裂和融合,演化动力强,发展最稳定。第二条开放获取——掠夺性出版路径是开放获取分化的一条路径。掠夺性出版是指依托开放获取,利用学术出版的黄金模式,以获取利润为主要目的的出版活动,是一些出版商借助开放获取骗取学界的稿源与出版费等资源的手段,因此这条路径是开放获取的反面声音。有研究者认为从开放获取到掠夺性出版是科学出版的乌托邦。第三条路径是开放获取——资源路径,演化路径简短有力,这条路径主要从实现开放获取的技术手段方面发展,如馆际互借是不同图书馆间的文献借阅和传递,馆际互借和开放获取的目的都是抵制过高期刊价格的一种方式,但开放获取为读者提供免费的资源,给馆际互借带来了严峻的挑战,也加快了馆际互借的消亡速度,电子资源的共享及存储等演化为研究热点。
(2)文献计量学:①文献计量学→影响因子→影响因子、Scopus;② 文献计量学→文献计量学→开放获取。
1969年,英国著名情报学专家阿伦·普理查德首次提出情报学领域的专业术语BIBLIOMETRICS(文献计量学),故在第一时区研究者只进行一些基础性研究,研究热度低。2008年之后,文献计量学开始发展,起步很快、发展迅速,涉及的专业领域也越来越多,迅速成长为开放获取领域的新生热点主题。经过几年的发展,文献计量学逐步从理论研究转向应用研究,2014年之后演化为文献计量学内容体系的评价指标影响因子。开放获取使学术资源的获取变得更加简捷,为文献计量学的研究提供了数据基础;反过来,文献计量学又应用于开放获取研究,包括开放获取论文的质量评价,而影响因子是开放获取论文的重要评价指标。Scopus数据库是由Elsevier于2004年建立的一个综合性的科学文献检索工具,是目前世界上最大的文摘和索引数据库,Scopus共收录期刊21 670种,其中OA期刊2 914种,占比13.45%,远高于WoS收录期刊的OA占比9.79%,故Scopus成为文献计量学研究的一个重要分支,这也就是文献计量学的第一条演化路径。第二条演化路径随着时间的推移逐步被开放获取吸收,这两条路径的研究主题始于第二时区,研究热度较高,演化动力较强。
(3)开放科学:链接数据→开放数据→开放科学。开放科学演化路径是开放获取研究的主要技术路径,链接数据、开放数据及开放科学之间是紧密的承继关系。链接数据、开放数据是开放科学的前提和基础,开放科学是开放获取的目标。链接数据是计算机领域的专业术语,是一种基于语义技术在互联网上发布和关联结构化数据的方法,利用Web在不同数据源之间创建语义关联。链接数据是产生于开放获取初期的一个技术手段,随着公众对开放获取的关注度越来越高,开放获取的技术手段也在逐步升级,链接数据逐渐演化为开放数据。开放数据是指没有任何版权、专利和其他机制的限制,能被任何人无障碍、重复利用和重新分配的数据资源[13]。相比链接数据,开放数据的应用范围更广,随着信息技术和科学传播的进步,开放科学作为一种更开放的科学生态系统产生[14]。开放科学是指各种形式科学知识在科学发现过程初期实现其开放共享的理念和范式,主要包括开放数据、开放方法、开放获取、开放同行评审、开放资源等维度。开放科学加强了研究人员之间的合作和资源共享,保证学术出版物、研究和学术方法产生数据的免费可用性。开放科学是世界文献供给的未来,是开放获取的愿景和希望。此路径脉络非常清晰稳定,演化过程少有分化和吸收,受关注度越来越高,未来研究潜力较大。
综上所述,1996—2007年和2008—2013年,主题数量少,尤其是1996—2007年,只有5个主题,但与后期主题关联紧密,是后期开放获取研究的基础。2014—2017年和2018—2020年主题数量增多,研究热度明显提升,核心热点稳定发展。不同时期的主题关联紧密,无一孤立主题出现。
国际开放获取领域始于1966年,早期发展缓慢,主题数量较少,研究热度低。2003年《公共获取科学法案》的提出推动了开放获取研究的快速发展。因此,2005年之后,文献数量骤然提升,随后,研究热度越来越高,主题数量越来越多,主题内容也越来越丰富,演化过程稳定,主要形成3个研究方向6条演化路径。开放获取是最主要的研究路径,演化动力强,一直是该领域的核心主题;文献计量学路径始于2008年,演化过程中研究热度逐渐增强;开放科学路径脉络清晰有力,受关注度越来越高。这些演化路径是信息学及图书馆学领域开放获取研究的主要知识脉络,将持续成为该领域的研究热点,给我国开放获取的理论研究和发展实践很大的启示。
开放获取对于科学成果的广泛传播有着不可估量的积极意义。从2003年开放获取明确提出到2020年已有17年的历史,美国、墨西哥等国家的开放获取已进入立法阶段,美国地球物理联盟、世界卫生组织等纷纷制定开放获取政策,开放获取实践逐步推进。我国在开放获取理论研究和实践推进方面也取得了一定的成绩,但整体来说国内社会各界对开放获取的认识和重视程度还落后于西方一些国家,只是近10年来,开放获取的理念才逐渐被部分科研工作者所了解。要让开放获取走近大众并惠于大众,需要加大对开放获取的宣传力度,通过各种途径宣传开放获取对科研成果传播的重大意义,推广开放获取理念,鼓励学术界、出版界、图书情报界更广泛地参与开放获取。目前,2012年开始举办的每年一届的中国开放获取推介周可能是唯一持续的宣传活动,除此之外只有少许零星的研讨会。因此,亟须通过各种途径举办多样的开放获取宣传活动,真正实现“知识开放获取,学术走近大众”。
开放获取论文的出版经费是开放获取顺利实现的重要途径,如果仅由作者个人支付开放获取出版费用,会加大作者的经济压力,不利于开放获取的推进。2014年,中国政府明确表示,要支持建立公共资助的科学知识开放存取机制。开放获取论文的经费来源可以考虑这几个方面:一是专门设立开放获取出版基金,用于支付开放获取论文的出版费用;二是将科研项目经费的一部分用于开放获取论文出版,在某种意义上,开放获取出版费用等同于论文版面费;三是作者所在的机构或联盟设立专门开放获取通道,并与数据库等机构签订协议,按照开放获取论文的数量提供一定的折扣;四是出版机构可挂靠在大型出版商旗下实现商业化运营,获取的利益用于支付开放获取出版费用。
我国的开放获取平台并不多,科技期刊开放获取平台有中国科技期刊开放获取平台、国家科技学术期刊开放平台、中国科技期刊论文在线、开放获取一站式检索服务平台,社会科学期刊开放获取平台有国家哲学社会科学学术期刊数据库等,也有很多期刊通过刊物网站及微信公众号自建开放获取平台。与国外开放获取平台比较,我国开放获取平台还存在一些问题:开放获取比例不高,覆盖面不够,学科严重失衡,论文的时效性不强,不利于资源管理和共享。很多期刊仅把开放获取平台当成一种宣传杂志的手段,未真正认识到开放获取对期刊快速传播,提高影响力、竞争力所起的作用。因此,必须加强开放获取平台的建设,为开放获取提供更多高品质的平台。
目前,存在的开放获取模式有:由作者向期刊支付出版费用,通过期刊进行开放获取的金色OA,由作者将论文放至主页上或者委托机构知识库中进行开放获取的绿色OA,热心读者将所得文献传于网上供大家免费下载的黑色OA。这些模式都存在自身的缺点,如绿色OA一般存在禁锢期,即论文发表后的6~12个月才能公开自存储的论文,金色OA必须依赖作者或所在机构付费出版,黑色OA可能存在一定的侵权行为。如何解除禁锢期又不需要作者付费?商业机构的参与可能是双赢的举措。商业机构等与数据库、社交网站、个人主页合作并签订协议,通过广告、微商等获取一定的经济效益,用于支付开放获取的出版费用,同时缩短出版时滞。
掠夺性出版是一种以开放获取为基础获取利润的出版经营手段,其特征有:发文量巨大、同行评议不严谨。不关注论文质量、出版费用高昂。掠夺性出版是开放获取出版模式固有缺陷的反映,严重破坏了当前的学术环境,歪曲科研人员的学术态度,并助长了学术不端行为,造成了学术侵权现象,因此,必须严格整治掠夺性出版。科研管理机构要曝光这些期刊,并严格监督这些期刊的审稿制度,针对这类期刊建立专门的刊后审读制度。同时,科研人员在投稿和引用时也要提防掠夺性期刊,共同抵制掠夺性出版,净化学术出版环境。
总之,我国对开放获取的理论研究和实践探索正处在发展起步阶段,尤其是开放获取政策的制定与实施方面还存在一些问题,希望上述国际开放获取领域的相关研究可以丰富国内研究者的研究视角,为我国开放获取理论研究的实践推进提供参考。