大数据时代的科学数据共享模式研究*

2014-06-12 01:18左建安
新世纪图书馆 2014年3期
关键词:科学

左建安 陈 雅

大数据时代的科学数据共享模式研究*

左建安 陈 雅

科学数据是科学研究的重要成果,也是科技发展的必然成果。论文指出大数据时代科学数据共享的四种模式:国家政策驱动、部门之间交换、企业发展带动以及国际组织参与。此外,对我国科学数据共享提出了相应的建议。

大数据科学数据共享模式公众需求数据开放

1 概述

1.1 大数据时代的信息特征分析

随着社交网络、电子商务以及移动通信的发展,一个大规模生产、分享和应用数据的时代正在开启。以“PB”(1024TB)为单位的大数据时代已经来临。“大数据”一词由英文“Big Data”翻译过来。麦肯锡全球研究所报告《大数据:创新、竞争和生产力的下一个前沿》对“大数据”的定义为:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。

大数据走近人们视野不久,但业界公认的大数据有四个“V”字开头的特征:Volume(容量),Variety(种类),Velocity(速度)和最重要的Value(价值)。Volume是指大数据巨大的数据量与数据完整性,数据量级已从TB发展至PB乃至ZB,可称海量、巨量乃至超量。Variety则意味着数据类型繁多,越来越多地表现为网页、图片、视频、图像等半结构化和非结构化数据信息。Velocity是指数据传递速度快时效高,更快地满足实时性需求。Value则是大数据的终极意义——满足人类的需求,在尽可能短的时间内发掘其价值[1]。

1.2 科学数据的概念分析

科学数据是人类社会从事科技活动所产生的原始观测数据、探测数据、试验数据、实验数据、调查数据、考察数据、遥感数据、统计数据、研究数据以及相关的元数据和按照某种需求系统加工的数据,具有科学价值和使用价值[2]。科学数据是信息时代一种特殊的社会资源,具有明显的潜在价值和可开发价值,并在应用过程中得以增值。很显然,大数据这一宽泛的概念包括科学数据,科学数据也是大数据的内容之一。

2 大数据时代科学数据的信息共享需求

2.1 国家战略需求

大数据时代的到来使得数据成为一种资产,正成为与物质资产和人力资本相提并论的重要生产要素。科学数据这一具有战略意义的资源,更是成为社会的重要资产。一个国家和企业的发展在很大程度上取决于其科技创新水平,而对科学数据进行系统的综合分析是实现科技进步与创新的重要方式。无论是资源、能源的开发,还是高新技术产业化,无不是在科学数据的积累与支持下,实现理论与技术创新的结果。特别是在以知识为基础的经济中,越来越多的以知识、信息和数据应用为主要目的信息管理、加工与发布的产业,在现代信息技术引领下正在拉动“数字经济”[3],也就是现在正在发生的“大数据经济”。长期以来,我国已经积累了较为丰富的科学数据资源,但大多数仍存在于资料堆或档案柜中,没有经过有效的整理和建库,数字化程度较低,很多数据库往往局限于本部门、本单位使用,甚至个人使用,造成了科技资源的巨大浪费。所以打破科学数据壁垒,实施科学数据共享,是国家发展战略的必然要求。

2.2 科学研究的要求

当前的科学是多学科交叉的科学,是围绕数据展开的全球研究,并将越来越依赖于数据。科学研究就是科学数据的生产过程,一些科学数据本身就是其重要的研究成果。科学数据资源既是研究的成果与积累,又是支持更为复杂的创新研究所不可替代的资源存量。尤其在大数据时代,科学数据量激增,科学研究越来越依赖于系统的、高可信度的基础科学数据分析。21世纪以来全球科技活动不断增强,一系列重大科学工程的兴起、复杂科学问题研究的提出、大型科学研究计划的产生,导致前所未有的国际合作局面的形成,也导致了全球范围内对科技信息资源交流、互通的客观需求。因此,实现科学数据的共享,科学家就可以不再受限于数据的来源、格式以及国界,也不必质疑科学技术对于数据处理与存储的能力,可以在全球海量的科学数据中发掘创新的潜力。

2.3 科学数据的公众化需求

大数据的时代,科学数据的需求不仅仅局限于政府、科研单位以及企业,社会公众也越来越需要科学数据。科学数据对于社会公众,不仅仅是提高自身的知识水平和科学素养的源泉,也是日常生活中不可或缺的重要信息资源。如今个人电脑、智能手机及其掌上智能设备的普及,互联网的应用和发展,使得公众对这些基本科学数据获取的需求更为强烈。例如人们出行需要全球定位系统的信息,关注个人健康需要医学信息。以前人们出行导航只是了解路线,而现在可以用交通大数据采集到的信息来预测未来城市几点到几点的整个通行情况,给出行者提供一个非常好的决策帮助。同样,在医疗健康领域,大规模复杂数据已经变得很普遍,通过对大量病人的各类数据进行挖掘分析,可以更有效地找出疾病成因,进而提供针对性的预防、诊断和治疗措施。尽管社会公众大多数是非专业人士,但可见在大数据时代,公众对科学数据的质量要求是越来越高,对科学数据的发布渠道、发布频率、表现形式等要求也会越来越高。

3 大数据时代的科学数据共享模式研究

科学数据按基本社会属性分类,可分为战略性科学数据、公益性科学数据以及商业性科学数据[4]。目前科学数据共享模式主要表现为国家制约的公益性无偿共享模式和市场制约的产业化运行模式。前者强调数据的公开和公益性共享,后者强调保护数据产权和商品性质。具体来讲,有以下四种模式。

3.1 国家政策驱动模式

借鉴国际科学数据共享经验,美国是典型的国家政策驱动模式。早在1991年6月美国总统事务办公厅就发布了“全球变化研究数据管理政策”,该政策的核心就是实行“完全与开放”的科学数据共享。美国政府在科学数据共享方面根据投资来源的不同,严格区分两种不同的数据共享机制。政府拥有、生产和政府资助生产的数据纳人到“完全与开放”的共享机制中,即除涉及危害国家安全、影响政府政务和公务员个人隐私的数据外,其他都必须公开。私营公司投资生产的数据纳入到“平等竞争”市场化共享机制中。在这两种不同共享机制中,美国联邦政府均起到主导作用,所不同的是采取的方式和管理的环节不同。两种机制互相补充,促进全社会对科学数据的获取、共享和广泛应用。对于国有科学数据,由国家统筹规划数据共享机制与体系,提供数据共享工作预算和保障,以及相关政策法规的制定、完善和监察。“完全与开放”的科学数据共享政策,使得一度曾各自为政,混乱的数据管理走向有序运作的轨道,科学家从得不到数据的抱怨走向数据共享,科学数据的开发水平和开发能力逐步提高,惠及了地球科学、生命科学、材料科学等各个领域,也极大地刺激了美国经济的发展。人类社会在大数据背景下,数据开放已成为潮流。2009年,Data.gov网络平台在美国正式上线,按原始、地理数据和数据工具三个门类开放数据,截至2012年11月,Data.gov共开放388 529项原始数据和地理数据,汇集了1 264个应用程序和软件工具、103个手机应用插件。欧盟开放数据战略(Open Data Strategy)于2010年11月由欧盟委员会首次提出,并于2011年11月底被欧盟数字议程采纳,基本概念是公共经费支持的信息应该得到最广泛的使用,其中科学数据的开放是其全面开放数据政策的重要组成部分[5]。

3.2 部门之间交换模式

科学数据的共享首先应该从生产科学数据的部门共享开始。为避免重复生产,科研单位内部之间以及各科研单位之间的科学数据,在不侵犯知识产权的情况下,第一步要努力做到共享。以数据和信息为基础的经济、社会和科学发展中,一般情况下没有哪一个部门能够总是拥有某项科研活动需要的所有数据产品,尤其对于广大的科学社区,其研究内容广泛,对开放共享有着强烈的需求,研究过程中往往需要来自多个数据生产部门的不同区域、不同时期、不同尺度、不同学科的数据资源[6],因此部门之间的数据交换显得急需和迫切。例如,地震工作部门各单位收集并存档的各种地震科学数据,其他部门或单位为保障重大工程的建设安全而专门建立和管理的专用地震监测台网和强震动监测设施所收集并存档的地震科学数据,均属于共享范围[7]。浙江省地理空间数据交换平台项目目前是全国首家省级地理空间数据交换平台,由浙江省政府和国家测绘地理信息局合作共建、省测绘与地理信息局承建。该平台实现了浙江全省地理空间信息资源在各部门的交换与共享,已为近30家省级部门、市县用户和企事业单位提供相关地理信息服务,支持了40个业务应用系统[8]。

3.3 企业发展带动模式

现代企业的发展离不开信息和数据的支持,而企业的发展也能促进信息和数据的传播与分享。一个企业的发展需要科学的方案,也需要科学数据来进行产品的进一步研发以及科技成果的转化。数据积累量、数据分析能力、数据驱动业务而非流程驱动业务的能力将是决定企业生死存亡的关键。数据的重要性使得企业必将收集和分析海量的各类型数据,并快速获取影响未来的信息。在这一过程中,企业就会做出有益于科学数据共享的决策与措施,例如由企业出资的科学合作项目的开发,有企业参与的科学资源共享平台的构建,以及企业自建商业性的科学数据库。只有学术和产业价值融合,才能真正发挥科学数据的应用价值。虽然学术界和产业界关注的价值点并不完全一致,但仍存在一些共性,发现和利用其中的共性,对解决科学数据共享中出现的问题很重要。跨界合作是积极且有意义的尝试,学术界可以致力于基础技术的研究,盈利模式的分析则由企业去完成。同时,学术界和产业界在某些交叉领域形成竞争也是一种良性的模式。一些大企业会对前沿技术和数据积累追踪最新的学术成果,甚至自己做学术研究,学术界也在积极推进产业化思考。

3.4 国际组织参与模式

随着人们对科学数据共享意识的提高,越来越多的国际组织参与进来,进行国际间的交流与合作,满足国际社会对科学数据共享的需求。在国际科学联合会(ICSU)的组织下,1957年成立了世界数据中心(World Data Center),开展地球科学、空间科学和环境科学领域数据的收集、整理、系统化、标准化及交流服务等活动。世界数据中心不仅在地球科学、空间科学和环境科学领域积极推进了数据管理和共享,还积极参与许多重大的国际科学计划,为人类科学事业的发展作出了贡献。国际科技数据委员会(Committee on Data for Science and Technology)成立于1966年,其宗旨是提高科学数据的质量,推动对科学数据的收集、交换、服务和共享。CODATA致力于提高对整个科技领域有重要变化的数据的质量、可靠性、管理与可访问性,向科学家和工程师提供对国际数据活动的访问,促进直接合作,并利用互联网初步构建了全球范围内的科学数据交换体系。CODATA通过建立标准格式促进数据交换、共享,并协调各国数据项目,定期召开国际数据学术会议,提高国际对科学数据共享的认识和深入探讨数据共享等学科方面的问题。

4 结语

以上这四种科学数据共享模式相互交叉和渗透,在大数据时代继续存在并向深远发展。应该说我国的科学数据资源十分丰富,近年来国家各有关部门相继成立了专门的信息中心,如国家基础地理信息中心、国家海洋信息中心、国土资源部信息中心、国家气象信息中心等等,这些信息中心成为政府部门向社会提供公益性、基础性服务的重要窗口。我国目前需要从政策法规、技术规范、组织管理各个层面保证科学数据共享工作的顺利进展。

首先,相较于欧美发达国家,我国政府对有关法规政策的发布还远远不够,应对大数据的挑战,政府必须出台更多关于科学数据共享和数据开放方面的法规政策。

其次,加大数据开放平台的建设。大数据时代开启“智慧城市”的建设,“智慧城市”是在城市化与信息化融合等背景下,综合利用物联网、云计算等信息技术手段,结合城市现有信息化基础,融合先进的城市运营服务理念,建立广泛覆盖和深度互联的城市信息网络,对城市的资源、环境、基础设施、产业等多方面要素进行全面感知,并整合构建协同共享的城市信息平台。“智慧城市”建设内容繁多,在数据开放平台的构建中离不开科学数据的支撑,也从中促进科学数据的共享。

最后,在国际科学数据共享的大环境中,积极参与国际合作与交流,借鉴国际上先进的共享模式与经验,只有这样才能提高我国科学数据共享水平,让科学数据真正走出封闭的实验室,走向社会,走向世界。

参考文献:

[1]赵国栋.大数据的定义和特征[EB/OL].[2013-10-11]. http://blog.sina.com.cn/s/blog_537e497a01019pi3.html.

[2]江洪,钟永恒.国际科学数据共享研究[J].现代情报,2008(11):56-58.

[3]黄鼎城,郭增艳.科学数据共享管理研究[M]北京:中国科学技术出版社,2002:36.

[4]黄鼎城,郭增艳.科学数据共享管理研究[M]北京:中国科学技术出版社,2002:130-140.

[5]欧盟委员会副主席Neelie Kroes:希望每个欧洲人都参与数字化[EB/OL].[2013-10-11].http://www.openaccess.net.cn/5f00653e83b753d652a86001/20125e74/ 46708/6b2776df59d454584f1a526f4e3b5e2dneelie-kr oes-5e0c671b6bcf4e2a6b276d324eba90fd53c24e0e-65705b575316.

[6]刘润达,赵辉,李大玲.科学数据共享平台之数据联盟模式初探[J].中国基础科学,2010(6):27-32.

[7]地震科学数据共享管理办法[EB/OL].[2013-10-11]. http://data.earthquake.cn/policy/gxbf.htm.

[8]浙江建成全国首家省级地理空间数据平台[EB/OL]. [2013-10-11].http://kjsb.zjol.com.cn/html/2013-02/22/ content_21927.htm.

左建安南京大学信息管理系2011级硕士研究生。江苏南京,210093。

陈雅南京大学信息管理系教授。江苏南京,210093。

The Analysis on the Sharing Mode of Scientific Data in the Era of Big Data

Zuo Jian'an,Chen Ya

Scientific data are the important achievements of scientific research and the inevitable results of the development of science and technology.Four sharing modes of scientific data in the era of Big Data are introduced by this paper,that is the national policy-driven,the exchange between sectors,the enterprise development and the participation of international organizations.Finally,some suggestions are given for the development of sharing scientific data in China.

Big Data.Scientific Data.Sharing mode.Public demand.Open data.

G250.73

2014-02-08编校:刘明)

*本文系2011年江苏高校哲学社会科学研究重点项目“江苏省‘十二五’时期数字文化产业之数字内容服务模式研究”(项目编号: 2011ZDIXM011)系列成果之一。

猜你喜欢
科学
点击科学
走进科学
走进科学
点击科学
点击科学
点击科学
走进科学
科学大爆炸
科学怪咖
科学汇