卢祖丹 高 冕
(河海大学图书馆 南京 210098)
人类正进入数据驱动的时代,数据已成为全社会的基础和战略性资源[1]。在科学领域,科学进步和技术创新可通过科研数据的管理和交流取得显著进展[2]。因此,科研数据的管理、服务与共享等问题受到各国研究机构和学者的高度重视,相关的社会科学研究成果在政策制定与机构决策过程中发挥了重要作用,学术研究对政策制度及社会规范的影响也逐渐变得更为全面、直接和有力。
学界目前围绕科学数据研究状况已开展了相关探讨,从不同内容(如数据管理[3]、开放共享[4]等)、方法(如文献计量[5]、词频分析[6]等)、地域范围(国外[7]、国内[5])展开具体分析,但普遍存在的问题是未对科学数据与科研数据进行严格的区分,也鲜有研究对国内外科研数据研究进展进行全面的分析比较。本文在对科研数据内涵进行剖析的基础上,基于SSCI 与CSSCI 两个社科研究权威数据库,通过知识图谱软件CiteSpace 对国内外有关科研数据的研究成果进行科技文本挖掘及可视化分析,从发文趋势、科研合作、研究热点、研究主题和前沿趋势等方面开展定量分析比较和定性描述探索,力图呈现科研数据的社科领域研究整体图景,为理解和推动我国科研数据研究发展提供有益参考。
在学界相关研究中,“科研数据”与“科学数据”这两个概念通常是被混为一谈的,二者间的差异常常会被有意无意的回避或无视,在研究过程中使用“科学数据”概念代替“科研数据”概念的现象也时有发生,因此笔者认为有必要对二者的异同点进行清晰界定(见表1)。
毋庸置疑,二者在内涵、性质与特征等方面有高度的相似性。首先,科研数据和科学数据都强调其生产过程的科学性,即通过科学的观测、实验、社会调查、模拟仿真等过程或经由科学设备如网络系统、传感器、智能设备等生产或记录的数据,具有海量性、复杂性、多源性和异构性等特点[8]。其次,二者都被视为基础性和战略性资源,是一种新的生产要素,是大数据时代社会发展的关键要素[9]。再次,二者的技术经济特征相同,即具有非竞争性、易复制性、外部性和即时性[10],以及在数据开放前后排他性的变化[11]。最后,二者都面临开放共享的迫切需求以及权益配置不完善的困扰。
然而,二者之间也存在清晰的差异。首先,二者的用途差别较大,科研数据来自科研过程且归于科研过程,其开放和重用的意义在于推动学术交流、提高科研效率和促进全社会的科技进步;科学数据的用途则更为广泛,除用于研究之外,其商业化(市场化)利用也颇受重视,如基于网络服务器记录下的用户行为数据而进行个性化推荐即是一种商业用途。其次,科研数据是指科研活动中原始的、基础的数据[7],是从事科学研究的关键要素和学术记录的重要组成部分,是形成研究成果的原始资料和证据载体,从严格意义上来说科研数据是一种中间产品,而科学数据更多意义上是一种产成品,如在气温、降雨量、风速等观测数据基础上生产出的气象预报数据。最后,科学数据的生产是一个完整的闭环过程,即经过原始数据生产(采集)、数据集生产(汇聚性处理)和数据分析(分析性处理)三个阶段完成科学数据的生产[1],而科研数据的生产则止步于前两个阶段,旨在为后续多样化的科研探索提供真实完整的原始资料,其分析和应用依科研项目而定,并非科研数据本身考虑范围。总之,科研数据是一个相对于科学数据来说更小的概念范畴。
本文以科技文本挖掘及可视化的方法为基础,运用CiteSpace 引文空间分析软件绘制国内外科研数据相关研究的科学知识图谱,系统展示国内外社会科学领域在科研数据方面研究的发展现状、知识演化路径和热点趋势等。
为保证科技文献的分析质量与主题相关性,按如下步骤搜集及处理数据:首先,对检索的数据库进行限定,外文文献来自科睿唯安公司开发的Web of Science 核心合集中的SSCI 数据库,中文文献来自南京大学中国社会科学研究评价中心开发的中文社会科学引文索引(CSSCI)数据库,这两个数据库是国外及国内社会科学研究领域的最具代表性的数据库之一。其次,对数据检索过程进行规范,为保证所获文献数据与研究主题直接相关,将检索限定为标题或关键词包含特定词汇的文献;SSCI 数据库检索式为:TI=("research data" OR "scientific data" OR "academic data" ) OR AK=("research data" OR "scientific data" OR "academic data"),语种限定为英语,文献类型为论文、会议录论文、综述论文、在线发表等,搜索时间跨度为1989-2021;CSSCI数据库检索式为:篇名(词)=科研数据 或 篇名(词)=研究数据,时间跨度为1998-2021,两个数据库的检索日期为2022 年4 月19 日。最后,对文献进行相关性筛选与处理,通过逐条阅读检索记录以及CiteSpace 软件去重功能,最终英文文献数据原始记录409 条,实得389 条;中文文献数据原始记录224 条,实得222 条,总共611条文献数据,这批数据导入到CiteSpace 软件进行知识图谱分析。
研究领域的发文数量能够直接反映该主题的研究发展情况与热度变化趋势。图1 展示了社科领域科研数据研究成果的年代分布图。
图1 社科领域科研数据研究文献年代分布图
国外学者Wetzel J R 于1989 年发表在Journal of the Market Research Society 期刊上的论文Marketing research data from the Unites States Census Bureau[12]是SSCI 数据库内国外社科领域关于科研数据方面较早的研究成果。自此开始直到2010 年,国外科研数据方面的研究始终处于缓慢增长阶段,其中2004-2010 年略有增长,但年发文量皆未超过10篇。此后,2011年-2021年,国外社科领域对于科研数据的研究处于快速发展阶段,虽当中出现短暂起伏,但整体攀升趋势并未改变,到2021 年发文量为45 篇。由此可见,国外社科领域对科研数据方面的学术关注度正在逐年加强。
在CSSCI 数据库内,国内社科领域对科研数据方面较早的研究有2004 年戴苏芽发表于《中央民族大学学报》的论文《浅谈“中国民族研究数据库”的建设》[13],该文主张在民族研究方面建立具备科学的分类编排和便捷的检索系统的研究数据库。相比国外研究的缓慢增长期,国内则经历了更长时间的蛰伏,期间偶有成果面世,但从2011 年便进入快速增长期,目前峰值是2017 年的32 篇,近年来略有下降。需作解释的是,这里关注的是国内社科领域较具代表性的研究成果(由CSSCI 的行业位置决定),若放宽研究成果质量标准,通过中国知网搜索篇名为“科研数据”或“研究数据”的研究成果,可以发现这个领域的研究成果逐年增加,2021 年多达94 篇。由此可知,我国社科领域对科研数据的研究虽起步较晚,但目前已步入快速发展的轨道,研究热度逐年上升,与国际趋势相符。
采用CiteSpace 软件对科研数据社科研究成果的来源机构及作者进行分析,可了解科研数据方面的研究机构和高产作者的发文量和合作情况,明晰该领域的研究力量布局、核心作者群及交互强度。
表2 展示了发文量排名TOP10 的国内外研究机构。国际发文量前三的研究机构为欧洲研究型大学联盟(22)、英国的谢菲尔德大学(15)和宾夕法尼亚联盟高等教育体系(12),发文量相对于样本总量来说并不算多,此外就研究机构的度中心性指标来说,除杜克大学位居第一之外,剩余9 个研究机构均不在TOP10 行列,各机构的合作关系并不密切,这表明国外社科领域对科研数据的研究比较分散,且各自为政。与此同时,发文量前三的国内研究机构为中国科学院文献情报中心(27)、武汉大学(25)和江苏大学(17),前三位机构的合计发文量约占总量的1/3,就度中心性指标来说,前三位机构为中国科学院文献情报中心、中国科学院国家图书馆(发文量第8)和武汉大学,这说明国内关于科研数据的研究相对集中且机构间合作密切。
表2 社科领域科研数据研究机构分布
表3 展示了社科领域科研数据研究发文量排名TOP10 的国内外高产作者。国外排名前三的作者分别是Cox A M(谢菲尔德大学)、Bull S(牛津大学)和Parker M(牛津大学),就作者合作的度中心性指标来说,排名前三的是Bull S、Parker M 和Jao I(发文量第10),可见国外这些高产作者,在研究过程中较好的与他人开展了合作。国内排名前三的高产作者为刘桂锋(江苏大学)、顾立平(中国科学院文献情报中心)和司莉(武汉大学),且排名前三的作者发文总量约占总数的40%,而度中心性指标显示排名前三的作者也为顾立平、刘桂锋和司莉,这表明我国社科领域在科研数据方面的研究业已形成了核心作者群及较为稳定的合作关系。
表3 科研数据研究高产作者表
6 Pinfield S 6 6刘莉5 7 Jeng w 4 7张潇月5 8 Schopfel J 4 8周雷5 9 Vidal-infer A 4 9刘晶晶5 10 Jao I 3 10孟祥保5
CiteSpace 软件提供的文献共被引分析,通过反映两篇或多篇文献共同出现在某一研究领域其他施引文献的参考目录中的情况[14],以帮助研究者识别各项成果在结构上的重要性,直观地辨认出该研究领域的奠基性成果与核心文献[15]。经过Citespace 的运算,现将科研数据研究领域的经典文献列示如下。
表4 展示了SSCI 文献中排名TOP10 的经典文献,其中第一位的是马德里理工大学学者Wilkinson MD 于2016 年发表在期刊ScientificData上题名为Comment: The FAIR Guiding Principles for scientific data management and stewardship 的论文[16],该文主张为促进科研数据的重用,学术界、产业界、资助机构及学术出版商等利益相关者应联合起来制定一套简明且可测量的科研数据管理原则,即FAIR原则(Findable 可查找、Accessible 可访问、Interoperable 可互操作、Reusable 可重用)。通过文献共被引分析发现,该领域高共被引文献作者相对比较集中,如Borgman C L(加州大学洛杉矶分校)、Cox A M(谢菲尔德大学)和Tenopir C(田纳西大学),他们的著作构成了科研数据社科研究的奠基性成果,阅读这些经典文献可为研究者快速掌握该领域的研究基础和现状提供捷径。
表4 科研数据领域SSCI 经典文献表
表5 展示了CSSCI 文献中排名TOP10 的经典文献,可以看出这些为学界贡献经典文献的作者与高产作者有很大程度的重合,如司莉、顾立平、刘桂锋、刘霞等作者,研究内容涉及国外政策经验引介、国内个案分析、科研数据确权、管理服务现状及需求调查、数据共享影响因素、知识库与平台建设等,研究方向较为分散,反映了当前国内的主要研究方向。
表5 科研数据领域CSSCI 经典文献表
关键词高度凝练了文献的研究方向和主要内容,因而分析高频关键词信息可以界定该领域的研究热点问题[17]。表6 展示了中外文献中共现频次TOP20 的关键词。首先,“科研数据”成为中外文献中出现频次最多的关键词。此外,在中文文献中,“(科研)数据管理”、“(科研)数据服务”、“高校图书馆”、“数据共享”、“数据生命周期”、“数据政策”、“数据素养”、“联盟”、“知识库”、“影响因素”、“开放获取”等关键词的频频出现反映了国内该领域的研究热点。在外文文献中,(research)data management、data sharing、academic library、open access/data/science、(research)data service、behavior、data repository等也是关注度较多的热点关键词。由此可见国内外研究热点具有一定程度的相似性,比较聚焦于数据管理服务、开放共享、高校/学术图书馆、机构知识库等问题。
表6 中外文高频关键词
challenge(11)5数据共享(22)4 高校图书馆(26)(34)14数据治理(8)science open science(11)6 科研数据服务(20)academic library(22)15 科研数据知识库(7)experience(10)7 数据生命周期(13)information(19)16影响因素(7)research data service (10)8数据政策(12)open access(16)17科研人员(7)behavior(9)9数据素养(12)knowledge(16)18 数据再利用(7)data collection(9)10联盟(12)data curation(16)19 利益相关者(6)open data(14)20开放获取(5)data repository(9)
在关键词共现分析中,共现频次较高的关键词节点间的联系较为密切,由此产生的聚类能共同反映出某个研究主题,清晰展现文献之间的关系。这里利用CiteSpace 软件对中外文献进行关键词聚类图谱分析,其中外文聚类图谱Q=0.701,S=0.887 1,中文聚类图谱Q=0.658 2,S=0.892 4,表明聚类结构是显著且合理的。
通过对SSCI 文献进行关键词聚类图谱分析(见图2),采用LLR 算法提取聚类标签,形成了#0 research data management(88)、#1 information infrastructure(49)、#2 randomized controlled trials(41)、#3 dementia(26)、#4 low-income countries(23)、#5 informatics(17)、#7 scientific freedom(12)、#8 long-term follow-up(12)、#9 self-management(12)、#10 technology transfer(11)、#11 affective disorders(11)、#12 automated data collection(10)和#21 biobanks(5)共13 个聚类群(括号内为每个聚类包含的节点数)。运用内容分析法,并结合自动聚类标签视图与高频关键词统计,将外文文献的13 个聚类群进一步提炼为5 个研究主题范围,即国外关于科研数据的热门话题领域。具体来说:
图2 国外研究关键词聚类图谱
①数据管理服务的开展与软硬件设施的建设(包括#0、1),该主题关注如何开展科研数据的管理服务、建设基础设施、完善政策法规等方面以实现科研数据的有效利用。如Yoon A and Schultz T[18]通过对美国185 所高校图书馆的科研数据管理服务进行网络调查和内容分析,发现其四大工作领域为服务、信息、教育和网络,并对当前的管理实践和技术采用提出建议。
②数据需求与开放共享的障碍、影响因素和实践(包括#7、10、12),该主题基于科学自由、技术扩散与公共利益等对数据共享的现实需求,探讨科学界、学术期刊、资助机构、研究人员等利益相关者在科研数据开放共享过程的冲突及影响,并探讨有效的开放共享模式。如Fecher B et al.[19]通过系统回顾98 篇学术论文并实证调查了603 位二手科研数据使用者,从初始研究者视角开发出解释数据共享过程的概念模型。
③科研数据在特定研究领域如生物医学领域的分析应用与管理(包括#3、9、11、21),该主题以案例分析的方式探讨特定研究数据集(如生物医学、人文历史、地震工程等)的具体分析利用和管理共享。如Edelman LS et al.[20]以美国犹他州肿瘤护理研究数据与犹他州人口数据为例探索将临床研究数据与人口数据库联系起来的可能性,以充分利用临床数据并从事长期研究。
④公平伦理方面的思考与实践(包括#4),该主题探讨了如何在低收入国家或地区以及弱势群体(如妇女儿童)中共享一些诸如医疗卫生等方面的科研数据,使科研数据能够惠及更广泛的地区与群体,保障全社会的数据公平。如Park M and Bull S[21]对五个中低收入国家进行研究,探讨如何有效合理开展生物医学与公共卫生研究数据的共享实践,使得利益相关者的权益得到尊重。
⑤有关科研数据采集、分析等方面的模型、方法论探讨(包括#2、5、8),该主题关注科研数据采集、分析、利用过程中方法、模型等方面的新进展。如Wilcox AB, et al.[22]通过回顾5 个采用不同数据收集方式的现代临床案例研究,采用半结构化的电话访谈,探索从纸张到平板电脑等不同收集方法在处理工作流、操作和安全性等方面的具体差异及优缺点。
通过对CSSCI 文献进行关键词聚类图谱分析(见图3),国内学界共形成了#0 科研数据(34)、#1 数据管理(28)、#2 数据共享(24)、#3研究数据(19)、#4 数据政策(19)、#5 本体(17)、#6 战略规划(14)共7 个聚类群,并进一步提炼为5 个研究主题范围:
图3 国内研究关键词聚类图谱
①数据政策法规、机构功能及利益相关者规范的建设(包括#4),该主题关注如何通过政策法规、知识产权、机构功能及特定职能等方面的建设来规范科研数据的价值实现过程。如秦顺[23]基于DLC-SH 视角从宏观、中观和微观角度设计出一流高校图书馆科研数据管理服务的新框架。
②数据开放共享(包括#2、6),该主题从不同的利益主体、政策规划、机构设施等方面分析数据开发共享的影响因素、激励措施及服务举措。如刘桂锋等[24]采用扎根理论方法对科研数据共享的影响因素进行总结,将其概括为制度、技术、个人、组织和资源等因素。
③数据管理服务(包括#1),该主题从服务主体(如高校图书馆)、管理流程、平台建设、服务评价等角度关注科研数据管理服务活动的开展。如金贞燕等[25]通过分析国际上著名的数据管理运营机构DCC、ICPSR、DataONE、ANDS 和UKD的科研数据管理服务内容,提出普遍适用的科研数据管理服务内容体系基本框架。
④科研数据的分析应用及模型构建(包括#0、3),该主题关注科研数据的管理利用模型构建以及对特定研究数据集的具体应用分析。如宋秀芬等[26]剖析科研数据再利用性在数据监护人员、政策、经济、法律和技术5 个维度的影响因素,构建数据再利用五维度模型。
⑤对科研数据的本体构建、元数据模型及质量标准等方面的探讨(包括#5),该主题探讨在科研数据与机构库建设过程中各种数据标准与技术规范的建立及其影响。如刘桂锋等[27]引入5W1H 分析法构建面向上下文感知的科研数据元数据模型,以保障科研数据的可扩展性、可重用性及平台的互操作性。
此外,关键词聚类的时间线视图可以更为直观的反映科研数据研究在不同时段的热点及知识演进轨迹,体现各聚类间的关系与研究前沿趋势。根据时间线视图(图略),当前国外科研数据研究前沿问题包括大学图书馆、学术馆员、数据采集、数据素养、机器学习、数据服务、模型构建、开放科学、研究支持等方面,而国内的前沿问题则包括版权、权利管理、平台建设、开放共享、数据伦理、数据发布、数据馆员等方面。
本文在对科研数据的内涵进行归纳辨析基础上,利用CiteSpace 软件对科研数据社科研究领域的中外文献成果进行分析梳理,通过可视化图谱分析了该领域的发文趋势、科研合作、经典文献、研究进展、热点前沿等多方面情况。主要研究结论有:
①从历年发文量来看,国内外科研数据研究皆进入快速发展阶段,学术关注度逐年上升。
②从科研合作来看,国际上该领域的研究团体较为分散,而国内的研究团体相对集中,形成了核心作者群及较为稳定的合作关系。
③从领域经典文献来说,国外经典文献的主题和作者群相对集中,产生了具有学术影响力的业内权威,而国内经典文献所涉及的主题和作者群则相对分散。
④就研究热点来说,国内外在研究进程中所出现的热点问题具有一定程度的相似性,主要聚焦于数据管理服务、开放共享、高校/学术图书馆、机构知识库等问题;就研究前沿来说,当前国外科研数据研究前沿问题包括大学图书馆、学术馆员、数据采集、数据素养、机器学习、模型构建、开放科学、研究支持等方面,而国内的前沿问题则包括版权、权利管理、平台建设、开放共享、数据伦理、数据发布、数据馆员等方面。
此外,本文对科研数据与科学数据的区分是建立在作者现有认知基础之上,存在诸多局限,期待未来出现权威和深入的见解能够规范与指导我国科研数据领域的研究进一步开展。