张新兴,韩金凤
(1.广州大学图书馆,广东 广州 510006;2.广东技术师范大学图书馆,广东 广州 510665)
科学数据是支撑科技创新、经济发展、管理决策的基础性战略资源,其重要性不言而喻。随着大数据技术的发展和数据密集型科研范式的兴起,科学数据研究呈急速升温的态势。刘桂锋和李杰调研了WebofScience数据库核心集中的科学数据管理研究论文,将国外科学数据管理研究划分为萌芽阶段(20世纪90年代)、形成阶段(2000—2008年)、发展阶段(2009—2016年),并将图书情报学领域的科学数据管理研究热点归纳为科学数据管理理论研究、科学数据管理服务研究和科学数据管理案例研究[1]。本文利用信息计量学的方法,对我国科学数据研究的发展历程、成果分布、代表作者、研究热点演变等进行分析,旨在揭示我国科学数据研究现状,发现研究中存在的不足,以为后续研究提供参考。
中文社会科学引文索引(CSSCI)数据库收录了国内学术性强、编辑规范的500余种期刊。这些期刊基本囊括了我国各学科领域最高水平的研究成果。笔者于2020年4月5日,分别以“科学数据”“科研数据”“研究数据”“science data”“scientific data”“research data”为检索词,对CSSCI数据库进行篇名和关键词检索,时间范围限定为1998年至2019年,共获得1035条检索结果。笔者采用文献题录信息统计分析软件SATI[2]和知识图谱分析软件CiteSpace,对检索命中的论文进行统计和可视化分析:(1)采用SATI对论文题录信息进行科学计量。首先对检索结果进行去重,最终得到605条数据,然后以此为依据,进行来源期刊、研究机构、代表作者分析;(2)利用CiteSpace进行突现文献探测,为科学数据的研究热点演变提供参考。
我国的科学数据管理与共享实践日渐兴盛,国际科技数据委员会将我国科学数据管理与共享划分为3个发展阶段:(1)探索与起步阶段(2002-2005年):科技部发布科学数据共享计划,启动科学数据共享试点项目建设;(2)快速发展阶段(2006-2010年):建设数据共享环境,包括制定数据管理和共享的政策、标准,推进数据共享项目和平台建设;(3)统一管理下的规范化发展阶段(2011-):开展科学数据开放获取、评估与授权服务[3]。
我国的科学数据研究同科学数据管理与共享实践基本同步,可划分为3个阶段:(1)萌芽阶段(2000-2003年):大致对应科学数据管理与共享实践的探索与起步阶段,CSSCI数据库仅收录3篇相关论文,科学数据研究整体水平较低;(2)缓慢发展阶段(2004-2012年):大致对应科学数据管理与共享实践的快速发展阶段,CSSCI数据库共收录78篇相关论文,科学数据研究虽然受到了较多研究者的关注,但高质量的研究成果偏少;(3)高速发展阶段(2013-2019年):大致对应科学数据管理与共享实践的统一管理下的规范化发展阶段,CSSCI数据库收录的科学数据研究论文的数量有了突飞猛进的增长,达到524篇,科学数据研究的受关注度和成果质量都有了大幅提升。
图1 CSSCI数据库科学数据研究论文时间分布
CSSCI数据库收录的605篇科学数据研究论文,发表在68种期刊上。载文量在10篇及以上的期刊有17种(见表1),合计载文514篇,约占论文总数的85%。除《中国科技期刊研究》之外,其余16种期刊全部为图书情报学期刊,说明图书情报学期刊十分关注科学数据研究,成为推动该领域发展的重要平台。其中,《图书情报工作》刊载的科学数据研究论文数量最多,达到了109篇。《图书馆学研究》和《情报理论与实践》刊载的科学数据研究论文数量也都超过了50篇。
表1 刊载科学数据研究论文的主要期刊
续表
根据CSSCI数据库的学科分类,刊载科学数据研究论文的期刊共覆盖16个学科(见表2),说明科学数据研究是许多学科都要涉及的议题。图书馆·情报与文献学期刊发表的科学数据研究论文数量最多,达到了525篇,约占论文总数的87%。除《档案学通讯》和《档案学研究》刊载了3篇相关论文之外,其余的522篇论文全部发表在图书情报学期刊。管理学期刊发文28篇,新闻学与传播学期刊发文20篇,心理学的《心理科学进展》发文2篇,其他12个学科的期刊数和载文量的比例大约为1:1,即每种期刊仅发表1篇科学数据研究论文。可见,科学数据研究未受到其他学科应有的重视。
表2 刊载科学数据研究论文的期刊学科分类
续表
CSSCI数据库收录的科学数据研究论文由来自305个机构的作者完成,发文量大于、等于10篇的机构有24个(见表3)。高产机构全部来自高校和科学院系统,包括武汉大学信息管理学院等8个图书情报学院系,中国科学技术信息研究所等6个信息科学研究机构,中国科学院文献情报中心和北京大学图书馆等10个信息服务机构。值得注意的是,在24个高产机构中,高校图书馆和中国科学院系统的文献情报中心分别占据6席和4席。可见,科学数据管理服务作为信息服务机构今后的重要业务方向,引起了信息服务机构从业人员的高度关注。
表3 科学数据研究高产机构
CSSCI数据库收录的科学数据研究论文的804名作者中,发文量大于5篇的作者共有25人,其中6人的发文量大于10篇(见表4)。25位高产作者全部来自图书情报学领域,这也表明主要是图书馆学和情报学专业的研究者在进行科学数据研究。
表4 科学数据研究高产作者
利用CiteSpace的突发节点探测功能,定位科学数据研究领域的突现文献,即被引频次在时间维度出现突增的文献。截至2019年,科学数据研究领域共出现了10篇突现文献(见表5),每一篇突现文献的突现值都大于3,但是突现时间都较短,平均突现时间仅2.6年。这说明科学数据研究领域的各个研究热点在相应时间区间的受关注度都较高,但是研究热点的演变速度也较快。
表5 科学数据研究突现文献
我国于2002年正式启动科学数据共享工程,标志着国家层面科学数据共享工作的起步。科学数据共享工程的一项重要内容是科学数据共享标准体系建设,具体包括指导标准和通用标准,科学数据共享标准框架,各个领域的元数据标准、数据分类和编码标准建设[4]。
国内学者对于科学数据共享标准的研究从3个层面展开:(1)宏观层面,徐枫提出了由基础标准、公用标准、技术标准、学科领域标准组成的国家科学数据共享标准体系框架,并指出科学数据共享标准参考模型、地球科学数据共享参考模型、元数据标准规范、信息分发服务规范、数据中心和共享服务网建设规范是急需实施的科学数据共享标准项目[5];(2)中观层面,司莉和贾欢在科学数据平台标准及相关研究文献调研的基础上,构建了由价值鉴定标准、数据质量标准、元数据编写规范和元数据标准、分类编码标准、数据发布标准、引用标准组成的科学数据标准体系框架,并分析了各项标准的具体构成要素[6];(3)微观层面,刘峰和张晓林在对地理、生物、化学、物理等主要学科领域22种典型元数据标准统计分析的基础上,设计了一种通用科学数据元数据项标准,其中标识类元数据项8项,时空要素类元数据项4项,归档类元数据项8项,职责类元数据项5项,主题范围与派生类元数据项8项[7]。
科学数据共享标准体系包括三方面的标准:指导标准、通用标准、专用标准。其中通用标准又包括数据类标准、服务类标准、管理与建设类标准。已有研究侧重于普适性科学数据共享标准体系框架的构建,今后应加强对具体领域科学数据共享专用标准的研究,以及对数据发现、访问、表示、操作等服务类标准,质量管理规范、信息安全管理规范、共享效益评价规范、科学数据中心(网)建设规范等管理与建设类标准的研究。
2005年,国家科技基础条件平台专项计划启动实施,科学数据共享工作进入全面推进阶段。海量的科学数据积累和指数级增长的新增科学数据,对科学数据共享工作提出了更高的要求:具有服务意识的高水平人才队伍,具备数据采集、处理、分析、加工的技术能力,能够对公益性、基础性科学数据提供长期维护和共享服务。
科学数据共享与图书情报工作研究主题的文献主要聚焦两项内容:(1)科学数据共享与科技情报工作研究。武士华通过分析发现,科学数据具备情报的3个基本属性:知识性、传递性和效用性,同时科学数据共享与科技情报工作的流程、技术手段相似,因此提出利用情报学手段实现科学数据共享,发挥科技情报人员在科学数据共享工程中的桥梁作用[8];(2)科学数据共享与图书情报机构研究。魏东原和朱照宇分析了专业图书馆在科学数据共享中的作用:信息资源是科学数据共享平台建设的基础,人才资源是科学数据共享平台建设的保障,公益性促进科学数据共享平台的可持续发展[9]。孙继周鉴于E-Science环境下高校图书馆在科学数据管理和科研项目服务中的独特作用,将其定位为科学数据的过程监护机构、嵌入式管理机构和科学数据存档与教育机构[10]。杨国立和周鑫提出提高图书情报机构在数据服务市场中竞争力的方式:面向全方位的数据组织,实现科学数据的按需服务,搭建全范围的开放研究服务平台,开展服务营销,促进科学数据服务生态系统进化,设计全过程的服务管理,培育数据科学家[11]。
图书情报机构在提供科学数据管理与共享服务方面具有得天独厚的优势,具备提供科学数据全生命周期服务的能力,包括基于馆藏资源的科学数据开发服务,基于自建服务平台的科学数据存储、导航、检索服务,嵌入式科学数据管理咨询服务,科学数据分析与计算服务等。但是面对数量庞大、分布分散、异构的科学数据,图书情报机构亟须解决科学数据融合、实时分析、云服务等关键技术难题,以提高科学数据管理与服务的效率。
2011年,首批23个国家科技基础条件平台通过认定,各行业和各部门的科学数据共享工作加速推进。高校作为重要的科学数据产出机构,也开始积极探索科学数据管理与共享工作,高校科学数据管理亦成为研究热点。
高校科学数据管理研究涉及3个议题:(1)数据监护研究。杨鹤林分析了数据监护的定义和意义,从数据监护的内容、技术、战略实施、发展策略、合作模式等方面介绍了美国高校图书馆的数据监护研究进展[12]。宋秀芬等基于数据生命周期理论,提出了由数据收集、评价、组织、处理、描述、访问、再利用七个阶段组成的高校图书馆的数据监护流程管理框架[13];(2)高校科学数据管理体系研究。胡永生和刘颖在科研用户科学数据管理需求调研的基础上,提出了高校图书馆的科学数据管理对策,包括加强对科学数据管理的宣传,探索科学数据合作管理模式,邀请用户全程参与科学数据管理项目,培养科学数据管理人才[14]。陈大庆构建了由数据管理需求评估、政策与战略规划、经营规划与可持续发展、具体实施细节与机制组成的数据管理服务实施框架体系[15]。刘琼和刘桂锋以信息生态学理论为指导,构建了由服务储备、服务内容、服务渠道等三项核心要素组成的高校图书馆数据管理计划服务框架体系[16];(3)高校科学数据服务模式研究。崔宇红基于数据管理统一连续体的概念,提出研究型图书馆在科学数据管理中的作用将从选择、采集、组织、授权、保存数据和数据集,转向参与制定数据管理原型和架构、标准规范和政策[17]。钱鹏和郑建明构建了以基于机构知识库的科学数据平台为核心的高校科学数据组织与服务模型[18]。尹春晓基于协同理论和嵌入式服务理念,构建了包含政策环境层、技术支撑层、科学数据管理服务层和服务支撑层的高校科学数据管理嵌入式服务模式[19]。
高校科学数据管理是国内研究者最为关注的领域,在案例调研方面取得了大量研究成果。今后应加强高校科学数据管理规章制度和业务规范研究,探索校际科学数据共建共享合作机制,开展基于云计算的数据存储服务和基于关联数据的数据分析服务研究[20]。
科学数据的开放共享是实现数据驱动创新,发挥数据价值的重要前提。2010年前后,众多国际组织、欧美等国政府和研究机构陆续制定了科学数据开放共享政策,国内也随之掀起科学数据开放共享政策研究热潮。
科学数据开放共享政策研究包括政策内容研究和政策保障体系研究两大领域:(1)科学数据开放共享政策内容研究。刘细文和熊瑞调研了国外主要国家和机构制定的科学数据开放获取政策,发现其政策内容主要包括数据开放资助、数据质量管理、数据合法保护、数据保存、数据共享利用等5个方面[21]。尤霞光和盛小平通过调研发现,国际组织的科学数据开放共享政策主要包括OA重要性声明、利益相关者责任、数据质量、数据互操作、数据评估、知识产权保护等主题[22];(2)科学数据开放共享政策保障体系研究。卫军朝等人在调研国外科学数据开放政策的基础上,从系统性和整体性的角度构建了由科学数据开放的框架性政策、标准与范围政策、过程保障政策、安全保障政策组成的科学数据开放政策保障体系[23]。唐义等将科学数据共享政策法规体系划分为3个层次,其中宏观层次的科学数据共享政策法规包括国际组织发布的科学数据共享宣言、指南、原则,国家或地区制定的科学数据共享法律或政策;中观层次的科学数据共享政策法规包括科研资助机构制定的科学数据共享政策、指南;微观层次的科学数据共享政策法规包括期刊社和科研机构制定的科学数据共享政策[24]。
我国的科学数据开放共享尚处于起步阶段,亟待制定国家、行业、机构等多个层面的科学数据开放共享政策,以规范和推进科学数据开放共享活动。然而国内的科学数据开放共享政策研究基本处于介绍国外先进政策实例的阶段,对我国科学数据开放共享方式、管理机制、知识产权保护,以及政策框架和政策体系的研究有待深入[25]。
随着科学数据开放共享的广泛开展,如何有效保护科学数据管理服务各利益相关者的权益也被提上研究日程。科学数据管理服务涉及的利益相关者包括科学数据贡献者、科研团队与成员、政府行政机构、科研资助机构、数据出版方、图书馆界、网络运营服务商等[26]。
该主题的研究涉及科学数据权益理论研究和图书馆科学数据服务中的权益管理研究两个维度:(1)科学数据权益理论研究。顾立平从科学数据管理中的各方权益关系人、科学数据权益的管理层级、科学数据权益管理的使用权益与引用、科学数据的存储权益和采集、科学数据的传播权益与发布、科学数据的共享权益与政策等方面对科学数据权益问题进行了分析[27],并根据科学数据权益管理流程,建立了科学数据的权利与利益关系、形式、政策研究框架[28]。张闪闪等从科学数据内容重用的权益相关者、权益内容与转移、权益许可政策等3个方面,对科学数据内容重用中的权益问题进行了理论分析[29];(2)图书馆科学数据服务中的权益管理研究。邹中才等梳理了科学数据管理规划、存储处理、发布与重用等不同阶段,科学数据提供者、创建者、发布者、利用者等的相关权益,分析了图书馆在科学数据服务的不同阶段需要注意的权益管理问题[30]。
上述研究从理论层面对科学数据权益问题进行了深入探讨,具有极高的实践指导价值。如何科学计量不同的利益相关者在科学数据收集、组织、存储、提供利用中的贡献程度,如何在科学管理和科学评价中有效保障利益相关者的权益,是今后需要进一步研究的问题。
科学数据共享平台是提供科学数据服务的重要基础设施。“十一五”(2006—2010年)期间,科技部、财政部支持建设了14个科学数据共享平台。“十二五”(2011—2015年)期间,气象、地球系统、农业、林业、地震、人口健康等6家数据共享平台纳入国家科技平台体系[31]。在此背景下,科学数据共享平台研究成为学界的热点议题。
以科学数据共享平台为主题的研究文献较多,研究内容主要包括3个方面:(1)科学数据共享平台案例研究。朱玲等介绍了北京大学开放研究数据平台的建设机制、系统选型、元数据方案、唯一标识符方案、本地化功能开发、应用效果[32]。张计龙等介绍了复旦大学社会科学数据共享平台的数据管理、数据服务、数据交换、数据监护、共享与服务等功能[33]。袁红卫等对麻省理工学院科学数据管理与共享平台的数据组织与检索服务、数据管理服务、附加服务等进行了研究[34];(2)科学数据共享平台比较研究。刘兹恒和曾丽莹对国内高校的10个科学数据管理与共享平台进行了比较分析,并提出了平台发展建议:由图书馆主导,以学科服务平台或机构知识库为基础,丰富平台数据资源,优化平台功能设计[35]。卫军朝和张春芳对国内外十余个科学数据管理平台进行了比较研究,发现国外科学数据管理平台建设较快,并且已经开始服务于科学研究全过程,而国内科学数据管理平台较少,并且仅提供数据存储和发布服务[36]。崔旭等调研了国内外科学数据管理平台的建设情况,提出科学数据管理平台建设的对策,包括建立多元化的资金投入机制,加强异质机构之间的合作,建立数据管理价值链,拓展平台服务方式,高校图书馆积极与IT企业、科研机构合作[37];(3)科学数据共享平台评价研究。刘桂锋等基于国外代表性开放政府数据评估项目的评估框架和评估指标,结合科学数据开放平台的特点,构建了包括4个一级指标、25个二级指标、92个三级指标的科学数据开放平台评价指标体系[38]。周宇等根据数据监护平台的特征与功能需求,采用德尔斐法和层次分析法,构建了由7个一级指标、34个二级指标构成的数据监护平台评价指标体系[39]。
我国的科学数据共享平台建设相对滞后,但是相关研究成果丰硕,从平台建设实践介绍拓展到了平台评价研究。今后应加强科学数据管理平台开源软件的开发研究,助力打造具有国际影响力的科学数据管理类开源软件;加强科学数据管理平台的协同开发机制研究,探索多元化的经费投入和建设模式;开展科学数据管理平台联盟研究,促进科学数据平台建设的规范化和标准化,推动科学数据共建共享。
我国的科学数据研究目前正处于高速发展阶段。鉴于科学数据管理与共享涉及各个学科领域,今后应结合各个学科领域的科学数据评估和科学数据共享环境建设,以及具体学科领域科学数据实践的深入调查,开展综合研究,即由以图书情报学研究为主,向多学科融合研究拓展。
按照国际科技数据委员会对我国科学数据管理与共享发展阶段的划分,我国进入科学数据管理与共享实践的第三阶段——统一管理下的规范化发展阶段已将近10年时间,但是我国科学数据研究的关注点仍然主要聚焦于科学数据管理与共享实践的第二阶段——数据共享环境建设阶段的研究议题。因此,国内研究者应及时调整研究重心,更多关注与国内科学数据管理与共享实践进展紧密相关的研究主题,重点加强对以下问题的研究:(1)科学数据开放共享中的权益保障、机构协同;(2)科学数据质量评价、价值评估、共享效益评价;(3)科学数据共享中数据授权的机制、方式、技术等。科学数据研究应与时俱进,以充分发挥理论研究对实践活动的指导作用,促进我国科学数据管理与共享事业的发展。