姜 鑫
(黑龙江大学信息资源管理研究中心,黑龙江 哈尔滨 150080)
科学数据(Scientific Data),也称科研数据(Research Data),与科学论文一样也被视为重要的科研产出,既是科学研究不可或缺的主要组成部分,也是数字化科研时代的重要战略资源。伴随着科学数据的开放与共享、组织与分类、存储与发布、监管与服务、出版与引用等相关领域的实践进展,科学数据相关研究的各研究主题已经引起了国内外图书情报、信息科学和其他学科领域的研究关注。笔者已利用CNKI数据库通过词频分析法结合共词分析法对2005-2016年国内“科学数据”相关研究文献进行了研究主题演化分析[1],研究表明图书情报领域已逐渐成为国内“科学数据”相关研究的主要学科领域,本研究利用Web of Science数据库对2004-2018年国际图书情报领域“科学数据”相关研究文献进行词频分析和内容分析,以期对近十五年国际图情领域“科学数据”相关研究进展及未来研究动态进行评判,具体研究问题如下:
1)2004-2018年国际图情领域“科学数据”相关研究的发文量如何?主要刊载于哪些国际期刊?
2)国际图情领域“科学数据”相关研究主要涉及哪些主题领域?与我国图情领域相关研究涉及主题领域相比有何差异?
3)国际图情领域“科学数据”相关研究主要采用哪些研究方法?对我国图情领域相关研究有何借鉴与启示?
在Web of Science核心合集的基本检索界面中进行字段检索,检索字段选择为:Topic=“Scientific Data”OR“Research Data”;文献类型选择为:Document Types=“Article”OR“Proceedings Paper”OR“Review”;学科类别选择为:Categories=“INFORMATION SCIENCE LIBRARY SCIENCE”;来源数据库选择为:SCI-E和SSCI数据库;语种限定为:Languages=English;时间跨度设定为:Timespan=1999 to 2018;检索日期为:2018年8月21日,共计检索出252篇文献。由于“Research Data”的含义比较宽泛,检索结果中出现了较多不相关的文献,逐篇阅读后确定了116篇“科学数据”相关研究文献。图1展示了2004-2018年国际图情领域“科学数据”相关研究文献发文量的时间序列图。由图1可见,2004-2013年这十年间各年的发文量均比较少,2014年以后各年的发文量呈现出陡然增长的趋势,表明从2014年开始“科学数据”相关研究引起了较多的研究关注。
注:2018年的发文量截至2018年8月21日
表1整理了2004-2018年国际图情领域“科学数据”相关研究文献的主要来源期刊。由表1可见,国际图情领域“科学数据”相关研究文献主要发表于“Program:Electronic Library and Information Systems”、“Library Hi Tech”、“Journal of the Association for Information Science and Technology”、“Journal of Academic Librarianship”、“Journal of Documentation”、“Electronic Library”等英美两国的国际期刊。
表1 “科学数据”相关研究文献的主要来源期刊
表1(续)
本研究通过词频分析法和内容分析法揭示2014-2018年国际图情领域“科学数据”相关研究文献的研究主题领域和研究方法类型。
本研究首先通过词频分析法揭示“科学数据”相关研究以关键词为表征的研究主题领域。词频分析法是利用能够揭示或表达文献核心内容的关键词或主题词在某一学科领域的研究文献中出现的词频高低,来确定该学科领域的研究热点和发展动向的文献计量方法[2]。对作者关键词通过人工甄别进行规范化处理:去除揭示论文内容专指性不强、含义过于宽泛的关键词,如“Data”、“Research”、“Services”等;合并同义、近义关键词,如“Research Data”与“Scientific Data”合并为“Research Data”、“Academic Libraries”与“Research Libraries”合并为“Academic Libraries”。在上述116篇“科学数据”相关研究文献中,有85篇文献提供了作者关键词,在85篇文献中共计出现了257个关键词,关键词出现的总累计频次为487次,平均出现频次约为1.89次,从中选取词频≥3的高频关键词33个(见表2)。
表2 2014-2018年“科学数据”相关研究文献高频关键词表(词频≥3)
由表2可见,国际图情领域“科学数据”相关研究主要集中于由数据管理(Data Management)、数据共享(Data Sharing)、数据监管(Data Curation)、数据存储(Data Preservation)、数字保存(Digital Curation)和生命周期模型(Lifecycle)等关键词表征的“数据管理与共享”主题领域,其次是由数据知识库(Data Repository)、机构知识库(Institutional Repository)和数字资源库(Digital Repository)等关键词表征的“数据基础设施”主题领域,再次是由科学数据服务(Research Data Services)、研究支持(Research Support)和服务开发(Service Development)等关键词表征的“数据服务”主题领域。此外,由开放数据(Open Data)、开放科学(Open Science)和开放获取(Open Access)等关键词表征的“开放数据”主题领域,由数据引用(Data Citation)和引文分析(Citation Analysis)等关键词表征的“数据引用”主题领域也引起了较多的研究关注。
本研究通过内容分析法进一步揭示“科学数据”相关研究文献所涉及的研究主题领域和研究方法类型。内容分析法是对文献内容进行系统的定量分析的专门方法,其目的是弄清或测度文献中本质的事实或趋势[3],发端并兴起于传播学、政治学和社会学等社会科学领域[4],被列为从1900年至1965年62项“社会科学的重大进展”之一[5],美国未来学家约翰·奈比斯特的《大趋势——改变我们生活的十个新方向》是当代最具代表性的内容分析法应用成果之一[4]。内容分析法在图书情报领域也已获得较为广泛的应用,关注的问题涉及研究主题的分布[6-7]、研究理论的应用[8]和研究方法的使用[9-11]等。
2.2.1 主题分析
将上述116篇“科学数据”相关研究文献涉及的研究主题划分为12个主题类目,并将每一主题类目下的具体研究内容划分为二级类目,将每篇文献根据其研究主题划分至具体的二级类目(见表3)。由表3可见,国际图情领域“科学数据”相关研究主要集中于数据管理(Research Data Management,A类)和数据服务(Research Data Services,E类)两大主题领域,其次是数据基础设施(Research Data Infrastructure,H类)、数据共享(Data Sharing,C类)和开放数据(Open Data,B类)3个主题领域,再次是数据引用(Data Citation,G类)、数据素养(Data Literacy,K类)和数据政策(Data Policy,I类)3个主题领域,仅有零星文献涉及其余4个主题领域:数据重用(Data Reuse,D类)、数据出版(Data Publication,F类)、数据标准(Data Standards,J类)和数据权益(Data Rights and Interests,L类)。
表3 “科学数据”相关研究文献主题分析统计表
将上述116篇“科学数据”相关研究文献按照2004-2006年、2007-2009年、2010-2012年、2013-2015年、2016-2018年5个时段划分至12个主题类目(见表4)。由表4可见,2004-2006年、2007-2009年和2010-2012年3个时段的发文量都比较少,“数据管理”和“数据基础设施”两大主题领域受到较多研究关注,“数据共享”、“开放数据”、“数据服务”、“数据政策”、“数据标准”和“数据权益”6个主题领域也有相关研究。2013-2015年这一时段的发文量呈现出陡然增长的趋势,表明“科学数据”相关研究开始在国际图情领域引起较多研究关注,“数据服务”是这一时段最受关注的主题领域,其次是“数据管理”和“数据基础设施”两个主题领域,“数据引用”和“数据素养”是这一时段的两个新兴主题领域。2016-2018年这一时段的发文量呈现出大幅增长的趋势,表明“科学数据”相关研究开始受到更广泛的研究关注,“数据管理”是这一时段最受关注的主题领域,其次是“数据引用”、“数据共享”和“数据服务”3个主题领域,“数据重用”和“数据出版”是这一时段的两个新兴主题领域。
表4 “科学数据”相关研究文献主题时间序列分析统计表
表4(续)
2.2.2 研究方法分析
上述116篇“科学数据”相关研究文献中有87篇可归类为实证研究文献,将其所采用的实证研究方法分为两大主题类目:数据收集方法(Data Collection Method,C类)和数据分析方法(Data Analysis Method,A类),并将每一主题类目下的具体研究方法划分为二级类目,将数据收集方法主题类目划分为8个二级类目(C1类~C8类),将数据分析方法主题类目划分为15个二级类目(A1类~A15类),对上述87篇实证研究文献所采用的研究方法进行逐一统计并划分至具体的二级类目(见表5)。
表5 “科学数据”相关研究文献研究方法分析统计表
上述87篇实证研究文献中有73篇指出了所采用的数据收集方法,其中部分文献同时采用了多种数据收集方法,如问卷调查法经常结合文献调研法设计调查问卷,并结合抽样调查法确定问卷调查对象。由表5可见,问卷调查法是最常采用的数据收集方法,其次是网站调研法和访谈研究法,再次是抽样调查法和文献调研法。采用的抽样调查法既包括随机抽样、系统抽样和分层抽样等概率抽样方式,也包括判断抽样、方便抽样和滚雪球抽样等非概率抽样方式。网站调研法包括登录图书馆网站查询数据服务相关网页、检索Web of Science数据库下载引文数据、登录期刊网站查询期刊数据政策相关网页等。
上述87篇实证研究文献中有45篇指出了所采用的数据分析方法,其中部分文献同时采用了多种数据分析方法。由表5可见,案例研究法是最常采用的数据分析方法,其次是内容分析法和引文分析法。上述87篇实证研究文献广泛采用了各类统计分析方法,如回归分析法、相关分析法和方差分析法等统计分析方法,聚类分析法和因子分析法等多元统计分析方法。结构方程模型法主要用于探讨数据共享意愿和数据重用行为的影响因素。
本研究利用Web of Science数据库检索出发表于2004-2018年的116篇“科学数据”相关研究文献,通过词频分析法和内容分析法揭示了相关研究文献的研究主题领域和研究方法类型,可从以下3个方面概括国际图情领域相关研究的主要特点及其对我国的借鉴与启示:
1)从国外相关研究文献的主题分布特点来看,国外“科学数据”相关研究集中于“数据管理”(26.72%)、“数据服务”(18.10%)、“数据基础设施”(12.93%)和“数据共享”(9.48%)等偏重于实践的研究主题领域;“开放数据”(7.76%)、“数据引用”(6.03%)、“数据素养”(6.03%)、“数据政策”(5.17%)和“数据重用”(3.45%)5个主题领域也有一定数量的相关研究文献;仅有零星的研究文献涉及“数据出版”(1.72%)、“数据标准”(1.72%)和“数据权益”(0.86%)3个主题领域,表明国外相关研究更多关注应用研究相关主题领域,而对理论研究相关主题领域的研究关注比较有限,不同主题领域相关研究文献的数量分布很不均衡,部分研究主题领域未能在国际图情领域引起足够的研究关注。
2)从国外相关研究文献的研究方法特色来看,国外“科学数据”相关研究以实证研究为主(75%),最常采用的数据收集方法是问卷调查法、访谈研究法和网站调研法,最常采用的数据分析方法是案例研究法、内容分析法和引文分析法。国外相关研究从采用的研究方法来看具有以下两个特点:①广泛采用多种类型的研究方法进行实证研究,如Shen Y等(2013)结合网站调研法、访谈研究法、案例研究法、扎根研究法、内容分析法和文本分析法对约翰·霍普金斯大学数据管理服务(DMS)进行了调查分析[16],Marcial L H等结合抽样调查法、网站调研法、聚类分析法和回归分析法对选取的100个数据知识库(SDRs)的主要特征进行了比较分析[17];②比较注重借鉴、移植多学科方法进行创新性应用,如Mattern E等采用参与式设计结合视觉叙事法调查科研人员的研究过程及其相关数据需求以及潜在的图书馆数据服务建议[18]。
3)从对我国相关研究的借鉴与启示来看,与国外“科学数据”相关研究相比而言,国内相关研究偏重于理论研究,虽然也有一定数量的实证研究,但实证研究整体缺乏研究方法创新。国内相关研究最常采用的数据收集方法是问卷调查法和网站调研法,最常采用的数据分析方法是案例研究法。从国内同类主题领域相关研究的内容特点来看,“数据管理”、“数据服务”和“数据共享”等主题领域的相关研究偏重于国外最佳实践的案例分析、国外实践进展的调查分析、国外研究进展的分析评价等方面,针对国内实践进展的调查研究还比较有限;而“数据出版”、“数据政策”和“数据权益”等主题领域的国内研究成果比较丰富,与国外同类研究相比更加全面、系统。综上所述,国内相关研究应更多关注与国内实践进展相关的研究主题领域,并应注重多学科理论与方法的借鉴、移植与创新,丰富和充实本领域的研究方法以解决日趋复杂的现实问题。