科学研究数据的出版与获取

2013-04-29 22:08杜伟张静
出版科学 2013年6期

杜伟 张静

[摘 要] 分析数据出版遇到的挑战,介绍用知识螺旋模型出版数据的简单过程,并探讨数据存储库如何采集高质量数据。

[关键词] 科学研究数据 数据出版 数据获取

[中图分类号] G237 [文献标识码] A [文章编号] 1009-5853 (2013) 06-0086-04

[Abstract] Analyze the issues faced by data publication,introduce the simple data publication process based on the knowledge spiral model,and expound how data repositories collect and store high-quality scientific research data.

[Key words] Research data Data publication Data acquiring

不仅 “大科学”有所谓的海量数据现象,所有学科都有产生大量原生数据和派生数据的趋势。在科学技术飞速发展的今天,科学研究数据的作用越来越大,在数据发挥核心作用的所有研究中,对数据可验证性的期望不断增加[1],而且为了进行进一步的研究,对现有数据集进行重组或重新利用的需求也在不断增加[2]。世界范围内的科学数据共享势在必行,要实现共享就要做好科学数据的出版工作。国内对此也有研究,王萍等提出基于网格技术的科学数据存储与共享[3]。但是,目前数据出版还处于发展阶段,数据文献的状况在各研究领域和各个学科有着很大差别。

1 数据出版中的问题

和传统的文字出版物相比,数据出版更具有挑战性。每当人们谈及学期论文或毕业论文时,考虑的几乎都是文字出版物的类型,比如期刊论文、书籍等,很少会想到数据。而数据出版作为新生事物,在以下诸多方面都面临着亟待解决的问题。

1.1 文件格式

文字出版物的格式,如TXT、HTML、RTF、Word、OpenOffice、PDF、LaTeX等,已经被全世界所有学科的研究人员广泛使用。

科学研究数据也有几种格式,如XML、电子表格、二进制格式等,要根据某一领域的需要选择所需要的格式。个别格式用标准工具不能打开,需要安装专门的分析和可视化软件。

1.2 内容特征

科学研究数据比纯文字研究论文的目的性更强。研究论文具有主观性特征,因为写论文的目的就是传播知识。为此,作者建立了具有逻辑性和引导性的结构,突出重要方面,解释数据,使用表格、数字和图片来进行具体陈述。

而数据文件往往直接或间接由计算机或仪器产生。一般情况下,对文件有严格的标准要求,并由计算机输出和进行优化处理。因此,数据文件客观而清晰,一般情况下不需要人工检查。

1.3 科学质量保障

文字性出版物的科学质量保障,一般以同行评审方式来实现。对一篇论文来说,编辑主要审阅作者的主张、逻辑性及对其他出版物的引用。同行评审即审阅人,其往往是同一领域的专家,要对主题有深刻理解。此外,由于论文是为了让读者阅读,所以要对其进行优化,并且还对页码有限制。

比较而言,数据是庞大的,而且数据存储方式不可能优化到使读者都容易接受的程度。所以,多数情况下,数据的科学质量保障不能做到完全使人满意,而且一般都要依赖于计算机的帮助。怎样对数据进行科学质量保障还不是很明确。此外,数据的科学质量保障在很大程度上还要看数据类型及其所属的研究领域。而除了原始数据本身,还需要对元数据进行审核。总之,科学数据的审阅人员必须具有相应的能力和软件工具使用技能才可能进行质量控制。由于上述困难,对数据质量的控制往往不是靠同行评审,而是靠作者自己。

1.4 版式质量保障和技术质量保障

文字性出版物的版式质量保障主要集中在处理文字、排版和结构方面。一般来说,这个过程审阅人不需要对内容有更深的理解。它是科学出版物质量保障的一小部分内容。

对于数据文件,应该称为技术质量保障。这个过程要对数据进行验证,确保数据从源头到目标位置的无差错传输。在此过程中,评审员要检查数据是否完整,是否有异常。

1.5 浏览和检索

研究论文直接包含检索词,而且有明确的元数据,分类和索引过程相对简单。数据库支持所有前面提到的文本文件格式。

如果数据文件格式不能被搜索引擎识别,或者数据本身非常大,那么数据文件的索引就必须限制在给定的元数据中,因此,数据文件的元数据是浏览和检索的关键。

1.6 存储地址

纯文字文献,即使是综合出版物也可以保存为单个文献,并存储在仓储中。因此,仓储可作为长期存放地址,直接满足用户获取论文的需求。

数据文件处理时,面对的往往是千兆字节或万兆字节的庞大数据文件。文件的大小带来存储空间、带宽、备份系统及成本方面的问题。通常情况下,文本库不能满足管理庞大数据文件的需要。数据文件允许链接到外部资源,但伴随着打不开链接及同步发展等问题[4]。

2 数据出版过程

2.1 知识获取

知识获取是全人类特别是研究人员不可或缺的。知识以隐性知识和显性知识两种形式存在。这两种形式通过社会化、内部化、外部化及其融合进行转化。就出版物而言,有内部化和外部化两个相关转化。内部化描述从显性知识到隐性知识的转化。外部化是用显性知识表达隐性知识的过程。对研究人员来说,可以把阅读出版物和观看演示从而接受各种信息并从中学习称为内部化。外部化指个人的信息传播,例如会议中的演示或出版学术论文等。

从公众角度来看,一些研究人员的内部化状态和其他研究人员的外部化状态可以相互产生作用。这种情况出现在某一研究人员的需求正好是其他研究人员提供的信息产品的场合。

Nonaka等强调知识创新的关键在于隐性知识的调用和转化,并提出著名的知识螺旋模型。知识的获取被比喻成旋转的螺旋。假设在每一个绕组中,研究人员首先处于内部化状态,在此状态下,他必须学习,如通过读书或听报告(和其他人员的外部化输出相对应);然后转移到外部化状态,在这种状态下,研究人员写文章或作演示[5]。

2.2 数据出版周期

Andreas Hense等根据上面提到的螺旋单绕组,得到一个简化的数据出版过程,即:内部化——搜索和浏览、审核和学习、实验;外部化——解释和注释数据、执行质量保障、出版和展示数据(如图1所示)[6]。

图1 数据出版周期

2.2.1 搜索和浏览

新的研究往往开始于对相关数据的检索和浏览。研究人员的出发点和工具取决于研究人员的研究领域和个人习惯。使用特定数据库,最明显的取舍标准是数据库收录条目的质量和数量,这直接决定数据库的质量。研究人员是否给数据存储库提交研究成果,取决于存储库是否有吸引力,而存储库是否有吸引力很明显取决于其质量,如功能、设计、性能、稳定性、易用性等,但同时也受使用参数、可接受性和社会声誉等因素的影响。

2.2.2 审核和学习

获取数据后,研究人员审核数据及处理数据,包括熟悉及学习数据的各种活动。这是内部化阶段的基本程序,因为在这一阶段有一个明显的隐性知识向显性知识转化的过程。

2.2.3 实 验

研究人员在此活动中,把新学到的知识应用于新的研究。这可以通过开展新型实验或从不同角度处理数据来完成。因此,研究人员可能会获得新数据,并展开新研究。

2.2.4 解释和注释数据

这项活动涉及数据公布的准备工作,因此是外部化阶段的首个活动。由于数据文件非常简单,研究人员需要对这些数据进行解释或注释,以吸引其他科研人员。这个工作可通过编写一个数据文件来完成,要强调有意义的部分。为了将来使用或者在存储库中能够检索,必须增加元数据。

2.2.5 执行质量保障

质量保障最简单的方式是由作者自己执行,但众所周知,作者很难发现自己的错误。更高级的方式是同行评审,一个或多个研究人员审查文章和数据,如果不能达到格式或科学的质量标准,可以拒绝接受。这种方法被多数存储库和科技期刊采用。对于要出版的数据文件来说,可以延伸为对数据及其元数据的质量控制。

2.2.6 出版和展示数据

数据文件及其元数据和附加文件的质量得到保证后,就要出版或者存储这些数据。“出版”指存储在一个公众共享并可长期利用的空间,并分配一个可长期使用的标识符号,如DOI或URN等。而“展示”指的是上传到搜索引擎或存储库目录中,并能够被检索。数据出版后想改变数据虽然说在技术上是可行的,但常用的做法是这些数据会被锁定(具有不变性),只能再发布新版本的修正数据。此项活动结束后,另一个研究人员可以开始新的数据出版周期,再次从“搜索”和“浏览”开始。

3 数据存储库如何采集高质量数据

数据存储库怎样才能获取高质量的研究数据?首先存储库要对研究人员有吸引力,包括在内部化和外部化阶段都应如此。只有存储库能吸引足够的研究人员提交高质量的研究数据,才会有越来越多的研究人员利用这些数据集。存储库是否有吸引力有赖于下面3个因素:声誉,如果一个存储库拥有研究数据质量高的声誉,其出版的数据将获得很高的知名度,对研究者来说就具有很高价值。可靠性,如果存储库的运营得到机构资助并有着悠久的传统,研究人员会相信它们的数据存储是安全和长期的。过程,如果提交数据的过程和质量保障过程有据可查,并且用户界面友好,并能降低数据提交者的工作量,研究人员就会产生信任。

根据前面提到的数据出版周期,高质量的数据采集主要发生在外部化阶段,所以下面主要介绍“解释和注释数据”“执行质量保障”“出版和展示数据”三个环节的工作。

3.1 解释和注释数据

首先要考虑研究人员是否愿意公开自己的研究数据。有些研究人员对数据公开的意义还不是很明确,但不久的将来,在以数据为中心的学科,对其研究人员的评价将不仅通过他们的文字出版物也要通过数据出版物以及相应的引文来进行[6]。

很多研究人员往往不知道在哪里可以永久存储数据,数据出版对他们来说是困难和昂贵的。著名的澳大利亚研究协作服务(Australian Research Collaboration Service, ARCS)项目提供了成功的案例。该项目旨在给澳大利亚研究人员提供数据存储、传输、访问和共享的工具和服务。其中 “数据组织” 服务提供免费的数据存储功能,数据还可以共享。这项服务旨在尽快把数据存储在“数据组织”中以优化协作,减少数据冗余,并避免滞后传输增加的步骤。“数据组织”还有一个显著特点即操作系统集成,并可在其他网站上进行数据备份[7]。太阳能、地球物理及相关的环境数据可存储在“世界数据中心系统”(World Data Center System,为WDC)。这些学科的研究人员可以进入该数据中心。中心分布在世界各地,提交的数据可长期存档[8]。

除了数据存储以外,还要用元数据对原始数据进行注释。为了避免出现错误,应尽可能早地捕获元数据,即在原始数据收割时就加入元数据。

3.2 执行质量保障

科学数据的质量保障有科学质量保障和技术质量保障之分。其中技术质量保障程序通过技术规范,如可接受的文件格式或具体的XML架构来执行。技术质量保障是一个系统化的程序。科学质量保障需要计算机支持,特别是批量或大量数据的处理。原始数据的质量保障一般主要靠作者自己。这个过程中作者可借助软件工具,例如检查数据工具、可视化数据工具及数据的异常提示工具等。

由德国研究基金会(German Research Foundation,DFG)资助的研究项目“环境数据公布”(Publication of Environmental Data),在实施过程中开发了独立的审查气象数据的软件包。该软件包根据用户参数对异常数据和其他偏差进行检测,然后经过分析撰写XML报告。这个报告和数据一起提交到可长期存放的存储库中,这就是保障科学质量的措施[9]。

核查元数据是科学质量保障的另一个重要组成部分。上述研究项目也涉及这个问题。一个基于万维网的软件从相关长期存放库中读取现有元数据,并以一系列主题分化的形式呈现元数据,用户可以逐步跟进,其功能类似于一个软件安装向导。

3.3 出版与展示数据

数据的出版过程即数据的存储和识别,数据的展示过程即在存储库储存后用搜索引擎可以查询。澳大利亚“国家数据服务”(Australian National Data Service,ANDS )旨在帮助研究人员发布、挖掘、访问和利用研究数据。有些特殊服务如“发布我的数据(Publish My Data)”服务,帮助研究员用元数据出版研究数据;“注册我的数据(Register My Data)”服务,协助研究人员和研究机构宣传他们的研究数据;“识别我的数据(Identify My Data)”服务,给研究人员的数据提供永久标识符[10-11]。

科学是无国界的。这也正是几个国家机构于2010年1月联合建立国际性的DataCite的原因。DataCite是一个不以盈利为目的的机构,如果组织注册研究数据集,就将分配到一个永久标识符。这将减少基础设施成本,更好地整合国家基础设施和先进的搜索功能,以改善研究人员的数据集意识。

4 小 结

科学数据出版在我国还是一个崭新的研究领域。我国科学数据出版和共享在实践中还存在许多问题。针对科学数据重复生成、投入大,科研单位轻视科学数据的出版和管理,科学数据流失严重,科学数据获取困难等问题,本文介绍了一个简单的数据出版过程,并指出数据存储库是科学数据存储和获取的一种重要方式。

注 释

[1]Steve Androulakis, Ashley M Buckle, Ian Atkinson, et al. Archer — e-research tools for research data management[J]. The International Journal of Digital Curation,2009(1):22-33

[2]Plale B, Gannon D, Alameda J. Active management of scientific data[J]. Internet Computing, IEEE, 2005,9(1):27-34

[3]王萍,赵丹阳,王玉超. 基于网格技术的科学数据存储与共享[J].图书情报工作,2011(13):63-66

[4]Andrew Treloar, David Groenewegen, Cathrine Harboe-Ree. The Data Curation Continuum: Managing Data Objects in Institutional Repositories[J/OL]. [ 2012-10-20]. http://www.dlib.org/dlib/september07/treloar/09treloar.html

[5]Nonaka Ikujiro, Toyama Ryoko, Noboru Konno. SECI, Ba and Leadership: a Unified Model of Dynamic Knowledge Creation[J].Long Range Planning,2000,33(1):5-34

[6]Andreas Hense, Florian Quadt. Acquiring High Quality Research Data[J/OL]. [ 2012-11-20].http://www.dlib.org/dlib/january11/hense/01hense.html

[7]ARCS. Data Services Overview[EB/OL]. [2012-12-01].http://www.arcs.org.au/index.php/services/data-services

[8]ICSU. World Data System[EB/OL]. [2012-03-01].http://www.icsu-wds.org/

[9]Andreas N Hense. Publication of Environmental Data[EB/OL]. [2012-12-08].http://misc.jisc.ac.uk/vre/projects/publication-environmental-data

[10]Adrian Burton, Andrew Treloar. Publish my data: A composition of services from ANDS and ARCS[C].In 2009 Fifth IEEE International Conference on e-Science. United Kingdom: Oxford, 2009 :164-170

[11]Stefanie Kethers, Xiaobin Shen, Andrew E, et al. Discovering Australia's Research Data[C/OL].[2012-10-01].http://andrew.treloar.net/research/publications/jcdl2010/jcdl158-kethers.pdf

(收稿日期:2013-03-23)