国内外高校图书馆科研数据管理工具应用现状调查

2019-08-07 00:55刘昆雄秦顺孔鹏
新世纪图书馆 2019年6期
关键词:双一流高校图书馆

刘昆雄 秦顺 孔鹏

摘 要 数据科学时代,科研数据管理工具对推动科研工作发展、增强高校核心竞争力具有重要作用。论文基于DataONE数据生命周期模型,将科研数据管理工具分为数据管理计划、存储、分析、标识与引用工具,并对19所“双一流”和10所世界一流大学图书馆科研数据管理工具应用现状展开调研。验证了国内外高校图书馆科研数据管理工具开发应用具有片面性与完整性的巨大偏离、个性化与标准化并存、开源成为主要趋势的特点。据此提出高校图书馆应重视数据全生命周期的工具开发与应用,增强自主研发能力,注重标准化体系建设的措施。

关键词 双一流  世界一流大学  高校图书馆  科研数据管理工具

分类号 G321

DOI 10.16810/j.cnki.1672-514X.2019.06.013

Abstract In the era of data science, scientific research data management tools play an important role in promoting the development of scientific research and enhancing the core competitiveness of university. Based on the DataONE data life cycle model, the research data management tools are divided into data management planning, storage, analysis, identification and reference tools. Then it investigates the application of scientific research data management tools in 19 “Double First-class” and 10 World-class  university libraries. It is proved that the development and application of scientific research data management tools in university libraries at China and abroad have following characteristics: the huge deviation of one-sided and integrality, the coexistence of individualization and standardization, and the open source as the main trend of the development and application of the research data management tools in university libraries. Accordingly, it puts forward that university library should attach the importance of development and application of data life cycle tools, enhance the independent research and development capability, and pay attention to the construction of standardization system.

Keywords Double first-class. World-class university. University library. Scientific research data management tools.

0 引言

科研數据是科学数据的重要组成部分,同时也是推进科技创新的战略资源。为加强和规范科学数据管理,保障科学数据安全,提高开放共享水平,更好地支撑国家科技创新、经济社会发展和国家安全,我国于2018年3月17日公开发布实施《科学数据管理办法》[1]。其中,提出通过科学数据网络管理与共享利用平台的建设,推动科学数据采集、汇交、保存和共享利用,实现科学数据的最大化价值。目前,我国已建成系列科学数据管理与共享平台,但高校图书馆对科研数据管理工具[2]的应用关注仍在起步阶段。基于此,本文拟以部分“双一流”[3]和世界一流大学图书馆[4]为例,选取国内19所高校和世界排名前10的大学为调查对象,自2018年5月23日至2018年7月15日进入每所高校图书馆的科研支持页面,从数据管理计划工具、数据存储工具、数据分析工具、数据标识与引用工具4个方面,统计国内外高校图书馆科研数据管理工具的应用情况,并对国内外应用现状进行对比分析,探寻高校图书馆科研数据管理工具建设与应用的特点,提出我国高校图书馆优化科研数据管理工具应用的相关策略。

1 国内外高校图书馆科研数据管理工具应用现状

科研数据管理工具是实施科研数据管理的工具、平台或系统的总称。数字化科研(E-Research)环境下,科研数据管理工具成为辅助开展科研数据管理的重要基础和保障[2]。经调查发现,国内高校图书馆科研数据管理工具建设与应用处于起步阶段。如表1所示,19所“双一流”建设高校图书馆中有4所建立了科学数据共享平台,以采用开源软件二次研发、合作研发为主要途径。北京大学图书馆走自主研发路线,建立学科开放数据导航,并采用GIS地理信息系统进行地理信息数据采集与共享。此外,中国人民大学图书馆等17所高校馆采用Thomson Scientific开发的学科数据统计分析工具ESI(Essential  Science Indicators)进行学科态势追踪、学科竞争力分析,助力高校科研发展和建设一流学科。

2 国内外高校图书馆科研数据管理工具功能分析

基于DataONE数据生命周期模型[5],对科研数据管理计划、存储、分析、标识与引用4个类型的工具进行分类调查并揭示其具体功能。国内外高校图书馆的科研数据管理工具及其主要功能主要有以下几个方面。

2.1 数据管理计划工具

数据管理计划(Data Management Plan,DMP)是概要介绍研究过程及研究项目完成后数据处理方式的正式文件[6],数据管理计划工具即是为辅助制定数据管理计划的工具。在调查的10所世界一流大学图书馆中,DMPtool、DMPonline和UKDS应用较多,其中又以DMPtool应用最为普遍(见表3)。

(1)DMPTool由加利福尼亚大学数字图书馆开发,该工具创建数据管理计划分為三个部分:计划概述、计划细节、计划预览[7]。目前共计有235个机构,30 555个用户使用,发布了27 087个计划[8]。此外,还发布了5个参考模板以供科研人员参考使用:包括数字策展中心(Digital Curation Centre)、生物科学(NSF-BIO)、社会行为经济科学(NSF-SBE)、国家粮食和农业研究所(USDA-NIFA)和通用(NIH-GEN)。美国高校图书馆多使用DMPtool提供数据管理计划服务。

(2)DMPonline由数字管理中心(DCC)提供。目前共计有89个国家,203个组织,17 622为用户使用,共计发布了23 083个计划[9]。DMPonline提供定制的指导和示例,帮助研究人员编写数据管理计划。

(3)UKDS(UK Data Service)由ESRC资助开发,提供超过6000个用于研究和教学目的的数据集,并提供数据管理计划服务。英国的剑桥大学图书馆、牛津大学图书馆应用了DMPonline和UKDS开展数据管理计划服务。

2.2 数据存储工具

数据存储是数据开发利用的前提。在诸多的数据存储工具应用中,其中ICPSR、GIS、Dspace、Dataverse为英美等国世界一流高校应用较为多的数据存储工具(系统或平台),其主要功能见表4。而Dspace、Dataverse作为开源软件,被我国武汉大学、同济大学、复旦大学3所高校图书馆选择使用,合作或自主二次开发了系列科学数据管理与共享平台。

(1)ICPSR(Inter-University Consortium for Political and Social Research,国际大学政治和社会研究联合会) 搭建了ICPSR data平台,致力于为社会科学研究界提供数据存储和访问,涉及10 000多项研究,5 000 000个变量,72 000种出版物,服务于全球776个成员机构[10]。

(2)GIS(Geographic Information System,地理信息系统)的开发应用具有战略意义,受到国外各大高校的重视,在调研的29所国内外高校图书馆中,有8所参与了GIS的开发应用。GIS最早于Roger Tomlinson[11]的“A Geographic Information System for Regional Planning”一文中被提及,发展至今已涉及地理信息数据获取、存储、挖掘与分析等多个层次。北京大学图书馆提供GIS数据服务,构建了中国历史地名数据库、中国历史地理信息系统,具体采集内容及服务主要涉及公共领域的GIS空间数据、现有数据转换(如AutoCAD数据向ArcGIS数据转换)、对数字化卫星影像或数字正射影像(如Google earth)进行矢量化、在扫描纸质地图或下载电子地图的图片文件的基础上进行矢量化、通过地址或名称查找XY坐标,利用XY坐标文本文件创建GIS数据、野外调查(如GPS数据)[12]。

2.3 数据分析工具

步入大数据时代,催生了一门新的学科即数据科学。海量数据极富研究价值,需要开发相关的技术和工具,支撑从数据采集、数据管理到数据分析以及数据可视化整个数据处理周期[13]。目前,ESI、R、SPSS、Stata为较为普遍的科研数据分析工具(见表5)。

(1)R是用于统计分析、绘图的语言和操作环境,类似于S(Programming language) 语言和环境。R提供各种统计(线性和非线性建模,经典统计测试,时间序列分析,分类,聚类……)和图形技术,并且具有高度可扩展性,拥有类似LaTeX的文档格式。S语言通常是统计方法研究的首选工具,R则提供参与该活动的开源途径[14]。

(2)SPSS(IBM SPSS Statistics) 是由IBM公司开发的统计分析软件。具体功能有:描述性统计、双变量统计、数值结果的预测、识别组的预测(因子分析、聚类分析)、地理空间分析、R扩展(GUI) 等。

(3)Stata功能强大且与SPSS类似,功能涉及数据管理、时间序列、聚类分析等。Stata为11个学科提供数据分析预测模型,以公共政策学科为例,提供了因果推断、固定样本数据、多级混合效果模型、结构方程模型(SEM)、线性二元和计数回归、生存分析、边际效应和边际手段、贝叶斯分析等12种统计分析支持[15]。

2.4 数据标识与引用工具

3 国内外高校图书馆科研数据管理工具应用特点

经上述调查分析可以发现,国内外高校图书馆在科研数据管理工具应用情况上具有以下几个方面的特点。

3.1 应用的片面性与数据管理生命周期有巨大偏离

国内高校图书馆科研数据管理工具建设偏向科研数据管理与共享,往往服务于学科建设发展,在诸多领域仍处于开发和应用空白,具有一定的片面性;国外高校图书馆的科研数据管理工具建设则涉及科研数据管理生命全周期(计划—存储—分析—标识—引用),具有完整性。

3.2 科研数据管理工具建设的个性化与标准化并存

10所世界一流高校图书馆皆具有较强的研发能力,尤其在科研数据存储工具、系统和平台开发上,多为自主研发。如MIT和HP Labs联合开发的Dspace为武汉大学、同济大学认同,展开了二次研发;哥伦比亚大学自主开发了Academic Commons、CIESIN;国内外8所高校图书馆自主研发了GIS。此外,科研数据管理工具应用注重标准化,通过UUID、EZID、DROID等规范科学数据引用。

3.3 开源软件成为开发与应用的主要趋势

除了一些商业性质的科研数据管理工具,其余多为开源软件。诸多科研数据管理工具为基于GitHub平台和特定语言框架(JAVA、Python等) 开发,GitHub是一个开源开发平台,支持托管和审查代码,管理项目,并与数百万其他开发人员一起构建软件[17]。

4 对我国高校图书馆科研数据管理工具应用的启示

国内“双一流”大学要向世界一流大学层次靠拢,需要图书馆在助力科研方面作出详尽规划,特别是在科研数据管理工具建设与应用上積极借鉴国外先进经验。目前,我国高校图书馆在科研数据管理工具建设上存在开发和应用贫弱、不重视完整性、缺乏个性化和标准化等问题。针对国内高校图书馆科研数据管理工具应用现状和存在的问题,笔者提出以下建议。

4.1 重视数据全生命周期工具的开发与应用

国外科研数据管理工具开发和应用基本覆盖数据全生命周期,且功能强大,能融入科研工作的全周期之中。工具资源供给应成为国内高校图书馆服务的一大拓展领域。数据科学时代,科研数据管理工具的开发和应用应引起国内高校图书馆的重视,针对科研数据管理工具开发应用的片面性问题,需加强科研数据管理工具开发应用的战略规划,基于数据计划、收集、保证、描述、保存、发现、集成、分析、标识与引用的生命周期组织和提供科研数据管理工具相关服务,逐步填补服务空白。

4.2 增强自主研发能力

我国高校图书馆的自主研发能力普遍较弱,增强科研数据管理的自主研发能力至少需从两个方面努力:其一是建设一支高精尖研发队伍,并予以经费、研发软硬件设施支持。队伍人员可由图书馆技术部门研发人员、本校科研或技术研发人员、社会技术人员等组成,研发队伍具有优质研发能力和人员构成多元化的特征。其二是树立开放意识,加强馆际、国际合作。以开放的姿态学习他馆经验同样是提升自身能力的重要方式,国外科研数据管理工具开发多为开源形式,在保持个性化的同时积极吸收了前人成果,复旦大学、同济大学等高校图书馆极具开放意识,开展了馆际、国际合作,值得借鉴。

4.3 注重标准化体系建设

数据组织存储、共享交换、分析处理、标识与引用皆以标准化为运行条件,我国科技部、财政部先后在基础科学、农业、林业、海洋、气象、地震、地球系统科学、人口与健康8个领域支持建成了国家科技资源共享服务平台[18],编写了科学数据元数据标准、数据汇交管理办法、数据共享技术标准与规范、科学数据引用规范等标准化文档支撑科学数据管理与共享。为构建有序的科学数据使用环境,2017年12月29日国家质量监督检验检疫总局、国家标准化管理委员会发布了《GB/T 35294—2017信息技术 科学数据引用》[19]的国家标准,通过“通用科学数据引用格式”和“基于OID的科学数据引用方式”规范科学数据引用。高校图书馆在科研数据管理工具建设与应用过程中,应推动标准化体系建设,规范个性化开发,实现有序的科研数据开发利用。

参考文献:

国务院办公厅.关于印发科学数据管理办法的通知[EB/OL].[2018-05-20].http://www.gov.cn/zhengce/content/2018-04/02/content_5279272.htm.

马建玲,曹月珍.研究数据管理工具发展研究[J].图书馆学研究,2014(15):40-47.

教育部,财政部,国家发展改革委.关于公布世界一流大学和一流学科建设高校及建设学科名单的通知[EB/OL].[2018-05-23].http://www.moe.gov.cn/srcsite/A22/moe_843/201709/t20170921_314942.html.

Shanghai Ranking Consultancy. Academic ranking of world universities 2017[EB/OL].[2018-05-23].http://www.shanghairanking.com/ARWU2017.html.

DataONE. Data life cycle[EB/OL].[2018-07-10].https://www.dataone.org/data-life-cycle.

邓珞华.图书情报教学[M].长春:东北师范大学出版社,1983.

王凯,彭洁,屈宝强.国外数据管理计划服务工具的对比研究[J].情报杂志,2014,33(12):203-206.

University of California. DMPTool[EB/OL].[2018-07-12].https://dmptool.org/.

DDC. DMPonline[EB/OL].[2018-07-12].https://dmponline.dcc.ac.uk/.

ICPSR. ICPSR data[EB/OL].[2018-07-13].https://www.icpsr.umich.edu/icpsrweb/ICPSR/.

TOMLINSON R F. A geographic information system for regional planning[J].Journal of Geography (Chigaku Zasshi),1969,78(1):45-48.

北京大学.GIS数据服务[EB/OL].[2018-07-13].http://www.lib.pku.edu.cn/portal/cn/fw/sjfw/gis.

杨京,王效岳,白如江,等.大数据背景下数据科学分析工具现状及发展趋势[J].情报理论与实践,2015,38(3):134-137.

The R Foundation.What is R?[EB/OL].[2018-07-13].https://www.r-project.org/about.html.

StataCorp LLC. Features for public policy analysts[EB/OL].[2018-07-13].https://www.stata.com/disciplines/public-policy/.

MIT Libraries. Citation management and writing tools:Citation management tools[EB/OL].[2018-07-13].https://libguides.mit.edu/cite-write/citetools.

GitHub, Inc. Built for developers[EB/OL].[2018-07-14].https://github.com/.

冯华.科学数据,如何科学管理[N].人民日报,2018-04-08(002).

国家质量监督检验检疫总局,国家标准化管理委员会.信息技术 科学数据引用[EB/OL].[2018-07-14].http://c.gb688.cn/bzgk/gb/showGb?type=online&hcno=A495CA355BAF00D962AA8DD84C3B2C16.

猜你喜欢
双一流高校图书馆
“双一流”为“青椒”打造更大舞台
高校图书馆阅读推广案例分析
微信公众平台在高校图书馆信息服务中的应用研究
高校图书馆阅读推广活动研究
试论高校图书馆在网络环境冲击下的人文建设
高校图书馆阅读推广实践探讨
高校图书馆电子资源的宣传与推广
“双一流”后,高校改革何处去?
高校“双一流”能否打破身份制
“双一流”需 从去行政化做起