开放数据在英、美政府中的应用及启示

2012-04-29 06:19吴旻
图书与情报 2012年1期

摘 要:开放数据是一种理念与实践,按照用户特定的需求和相应的互联网协议、规则、框架对Web数据进行开发、加工、存储、组织等管理活动,以实现局域和全部Web空间的数据开放、互通、共享,受到了政府、企业和一些行业如图书馆的重视与应用。英、美政府对开放数据的应用实践走在了世界的前列,其与W3C相关协议保持数据相同、数据保持完整性与统一性、建立政府信息开放门户网站平台等做法均值得我国政府和一些开放数据应用行业的借鉴。

关键词:开放数据 关联数据 信息发现 信息组织

中图分类号:D523-39文献标识码: A 文章编号: 1003-6938(2012)01-0127-04

Open Data in the United Kingdom and the United States Government Application and Implications

Abstract Open Data is a philosophy and practice, in accordance with user-specific needs and the corresponding Internet protocol, rules, frameworks, development of Web data, processing, storage, organization and other management activities to achieve the local Web space of the data and all open exchange, shared by the government, business and the importance of some industries such as libraries and applications. Britain, the U.S. government practice of open data applications go in the forefront of the world, and its related agreements with the W3C to keep the same data, maintaining data integrity and unity, the establishment of an open portal platform to government information and other practices are worthy of our government and some open industry reference data applications.

Keywords open data; linked data; information discovery; information organization

随着信息技术的发展与社会信息的产生,对以指数级别增长的海量、异构、分布、无序、多元的数据如何进行合理的信息组织、信息挖掘与信息发现成为社会面临的挑战,于是,关联数据、元数据、语义网、本体、云计算等成为信息组织与信息发现的关键技术。开放数据(Open Data)作为一种理念与实践也受到了人们的关注,成为继开源软件之后学界研究的热点之一。本文在介绍开放数据的产生背景与概念、内涵基础上,重点对开放数据在英、美政府中的应用进行了介绍,最后对我国应用开放数据的借鉴意义进行了分析。

1 开放数据的产生背景

本世纪初全球掀起的开放获取(Open Access,OA)运动和机构知识库(Institutional repositories,IR)改变了人们学术信息交流方式,越来越多的数据被公开发布到互联网上,但正如Miller等所认为的那样,尽管大家关注比较多的是开源以及开放获取,但数据的公开发布目的也非常明显,即实现互操作[1]。其所蕴含的开放文化理念和发展模式也推动了人们的自由开放思维,但开源的局限也同时满足不了公众特别是科学研究的需求,因为开源仅仅包含软件、开源不要求开放格式、任何代码可以接收但不是任何数据可以接收,开放获取的这些局限性在科学交流研究中严重的阻碍了任何信息的公开与再使用,因此,那些被开放获取激发了开放思维的科研人员强烈要求有一种能够更广范围的数据公开与再使用,如对实验数据的开放与获取等,于是,开放数据便应运而生。

2 开放数据的概念与内涵

当前,人们对“开放数据”尚无统一的定义,但比较认可维基百科对其的定义,即:开放数据是一种哲学理念及实践,要求数据可以被任何人自由获取,没有来自版权、专利或其它机制限制[2]。但不同的组织、机构有不同的理解,如“开放数据中心联盟”(Open Data Center Alliance)将开放数据视之为公司IT基础设施、云计算的应用模式与解决方案[3];“开放数据运动”则采用RDF数据模型,在网络空间中将不同类型和来源的数据实体之间建立“RDF链接”,用特定的语义网浏览器或搜索引擎为用户在普通的HTML网页和结构化数据中导航,实现用户的便利关联获取,最终实现数据的交流与重用[4]。尽管对其的理解与定义不尽相同,但从公众的角度来看,所有的这些定义与理解则有一个共同的原则,即:按照用户特定的需求和一定的互联网协议、规则、框架,对Web数据进行存储和组织,而利用的数据或来自不同的数据源或是不同的数据类型,最终目标是实现信息在网络空间的开放、共享与重用,以寻求信息数据最大可能的无限获取与重用。

由此可以得知,开放数据只是一种哲学理念与实践,对象数据是包含所有事实、数据、信息乃至智慧和知识所组成的集合数据,有别于传统数据的单一元素性,也并不是人们直接可以获取和利用的数据信息。正如有学者所言:开放数据依赖于见证者而存在,不是我们接收或不接收的数据或其它,是我们给予、分享和接受的记忆[5]。因而它的内涵有别于我们传统理解的数据,且因公众可以自由获取,具有“开放”特性,因此,开放许可(Open License)便是其不可或缺的因素,一方面,能保证数据的再使用,另一方面保证了数据的增值可能,即从数据本身角度实现数据的增殖性应用,如与新的信息技术环境与互联网环境结合的语义网,或从数据受众与时间跨度的角度实现数据的再使用、重复获取、发布、共享、仓储等。

3 开放数据在英美政府中的应用

开放数据具有基于本身数据集和“开放性”两种增值方式,因而开放数据在信息组织与信息发现中的应用较为广泛,目前,主要集中在公共信息服务领域(政府)和商业应用领域。如在英(Data.gov.uk)[6]、美(Data.gov)[7]、加(Data.gc.ca)[8]、澳(Data.gov.au)[9]等政府信息公开及电子政务中的应用,在微软基于云计算的开放政府数据计划(Open Government Data Initiative,OGDI)[10]、国内的淘宝开放平台(Taobao Open Platform,TOP)[11]等企业中的应用。同时,由于开放数据源起于科学研究和学术创新的诉求,科研学术交流的应用与发展推动也较为典型。如旨在推进知识开放的非营利性组织开放知识联盟(Open Knowledge Foundation,OKF)[12]制定了“开放数据共享”系列许可,如《开放数据库许可》、《公共领域的贡献与许可》等,并举办“2010年开放政府数据营”交流活动。这些多领域的应用推动了开放数据的发展,但值得一提的是政府部门对开放数据的发展起到了极大的推动乃至主导作用,如2004年所有的经济合作与发展组织(OECD)成员国的科技部长签署了一个宣言,提倡所有的获公共资金支持得到的档案数据都应能被公众获取、共享[13]。究其政府推动的背景与原因,乃是信息社会环境下信息的方便获取与公民参与意识的加强,作为有责任和作为的政府,有义务向社会开放这些数据,减少政府与公众之间的信息不对称,增强互信和理解。于是,政府信息公开、向社会开放门户等理念与实践便应运而生,开放数据作为一种强调数据的再利用与开放的理念,便受到了西方一些发达国家的推动、重视与实践应用。本文便选取利用开放数据较为典型的英、美政府作为案例进行介绍。

3.1 美国

2009年1月21日美国第44届总统奥巴马上任以来,美国国内掀起了一股“数据民主化”浪潮,奥巴马签署的第一份备忘录就是《透明和开放的政府》(MEMORANDUM FOR THE HEADS OF EXECUTIVE DEPARTMENTS AND AGENCIES)[14],指出“政府应该是透明的、具有高参与水平的、合作协调的”,并责成起草《开放政府令》(Open Government Directive)。随后白宫建立了专门的“开放政府计划”[15](Open Government Initiatives)网站。2009年12月8日,联邦管理和预算局(OMB)局长Peter R. Orszag向白宫提交了《开放政府令》(Information Quality Act)[16]并获批准。以法案的形式联邦政府机构和执行部门支持信息开放,在线发布政府信息,并提高公众获取政府信息的质量,推进更加开放的政府建设,创造一种开放政府的文化并使其制度化。

在美国政府电子政务数据开放建设中有意义与且具影响力的另一个应用就是建立数据门户网站Data.gov。2009年5月21日,联邦CIO委员会开发、总务管理局主管的数据门户网站Data.gov上线,数十万项以前政府专用的数据被白宫推向了互联网。该网站以元数据集(DC)为标准,采用目录(catalogs)方式组织政府数据和其他应用型网络工具,提供类目、机构、关键词等搜索途径,资源主要有“原始数据”、“工具目录”和“地理数据目录”等三大类型,并为了保证与W3C的“Web可访问性倡议”(WAI)原则一致,网站还定期审查数据,如将政府数据转换成RDF格式、采用统一资源标识符(URI)。上线之初,11个机构提供了最早的76项数据集,但之后数据集迅猛上升(见表1)。作为全球第一个国家政府层面的数据门户网站,Data.gov极大地解决了以往分散在各个政府机构网站的数据不兼容问题,是美国政府乃至全球范围内开放数据实践的标志性成果。

3.2 英国

2010年1月21日,继美国政府数据网站Data.gov的步伐,由“万维网之父”Tim Berners-Lee和南安普顿大学Nigel Shadbolt教授负责创立的英国政府开放数据门户网站Data.gov.uk正式投入使用。正如Kenneth Cukier等人所言,Data.gov.uk不是第一家政府数据门户网站,但在英国应该是最早的,建立这个网站的目的,就是通过纳入大量政府数据的方式,使更多的人获得政府提供的数据[18]。Data.gov.uk创建之初包含了超过2500家来自全国各地的政府数据,如关于房价、设施和服务等,但现在已发展到包含了5600多个来自各政府部门的数据集,涉及健康、交通、环保、社区、商务、教育等众多领域。为了与关联数据的API等原则及协议一致,Data.gov.uk在数据组织方面使用了RDF、URI等格式或技术,因此其数据的关联与有效性较好。如前首相布朗在2009年12月7日的伦敦“smarter government”[19]集会上,声明将发布更多的政府数据,并用一站式网站呈现,网站建立后,英国政府也曾专门下拨了2万英镑的奖金,以鼓励人们使用政府公共数据信息[20]等。Data.gov.uk的建立与发展,使得英国政府向公众公开更多的政府信息与让各部门的信息能通过网络链接整合起来,对于改变公民个体和大公司以及政府的关系是有重要意义的。

4 对我国的借鉴与启示

(1)完整性与一致性是开放数据成功应用的基础。纵观开放数据在英美政府中的应用,其中一条都是特别强调的,即数据的完整性与信息组织的一致性,如英国政府为了保持与W3C的“Web可访问性倡议”(WAI)一致,在数据组织方面使用了RDF等格式;美国政府则一方面定期审查数据,将政府数据采用URI转换成RDF格式。另一方面则以法案的形式责成政府部门开放政务数据。这些措施保证了数据的格式统一性与完整性。英美政府对开放数据保持完整性与一致性的措施甚至以法案的形式约束,给了我国政府、行业(如图书馆)等在利用开放数据方面的一些启示:首先,开放数据的格式统一与数据系统完整性既需要技术视域的协议许可(如WAI协议、RDF格式等),也需要社会机制许可(如法律、规范、原则等),因此我国社会应抓紧建设相关的法律法规,建设开放数据在我国应用发展的社会机制;其次,完整性与一致性能保证开放数据的开放效果及长远发展。关联开放数据项目(Linking Open Data,LOD)在世界范围内的蓬勃发展与广泛应用让全社会意识到关联数据在未来的数据开放、数据重用、信息发现等方面会发挥很重要的作用,英美政府开放数据中的数据RDF格式转换则保证了可借力关联数据的发展,让政府信息被更广大的民众发现与重用获取,缓解政府与民众之间的信息不对称所引发的社会危机,增强互信与理解。

(2)行业应用中的门户网站平台建设至关重要。政府门户网站因具有普及率高及内容丰富等优势,因而在政府信息公开等领域通常应用较广,因此开放数据在英、美乃至在加拿大与澳大利亚政府中的应用无不都是基于门户网站平台的应用实践,民众和政府均可通过这个平台将需公开的信息进行发布与获取。因此,对图书馆来说,开放数据的应用也需建立其门户网站,如国家图书馆数字图书馆推广工程等,其实,在当前对开放数据进行应用的行业中已有一些图书馆,如德国国家图书馆[21]、大英图书馆[22]等,但无一例外的是这些图书馆也都是在其门户网站进行开放数据的发布与获取的,并力促所提供的开放数据被更多的用户(读者)下载与获取。

(3)“开放”的核心是更多的信息发现和信息利用。英、美政府政务信息的开放,其“开放”核心是政府数据的再利用与更大程度的获取,以缩小信息不对称距离,因此,这种开放的核心启示图书馆:①开放数据在图书馆的应用并不只是简单将所藏的资源进行RDF化,怎样提高这些数据的再利用程度与轻易获取程度才是图书馆开放数据的核心;②基于开放数据理念的图书馆信息组织将是未来图书馆应用开放数据的研究重点。开放数据的信息易被用户检索、获取与利用,但这是基于数据的统一格式与数据源的互相提供,因此,对图书馆来说,如何实现云计算下的资源海量共享存贮与开放数据理念下的数据搜索、获取与利用将是未来的学术研究与资源建设重点。

5 结语

开源软件、开放存取等已证明了其含有的巨大经济效益和深远社会效益,当前开放数据作为一种理念已得到了广泛的认可和蓬勃发展,政府、企业、图书馆等领域开展的实践证明了其广阔的应用空间。如何借鉴英美政府等开展利用开放数据的经验,建立开放许可环境,完善相关的协议、制度等,将是未来我国实践开展开放数据的建设前提,也是开放数据在我国成功应用的基础。

参考文献:

[1]MILLER P,STYLES R,HEATH T. Open data commons, a license for open data[EB/OL].[2011-10-27].http://events.linkeddata.org/ldow2008/papers/08-miller-styles-open-data-commons.pdf.

[2]Open data[EB/OL].[2011-10-27].http://en.wikipedia.org/wiki/Open_Data.

[3]Open Data Center Alliance. Defining a New Class of Data Center and Cloud Infrastructure Solutions[EB/OL].[2011-10-27].http://www.opendatacenteralliance.org/the

-alliance.

[4]W3C. Linking Open Data[EB/OL].[2011-10-27].http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData#FAQ.

[5]李佳佳.信息管理的新视角—开放数据[J].情报理论与实践,2010,(10):35-39.

[6]Data.gov.uk[EB/OL].[2011-10-27].http://data.gov.uk/.

[7]Data.gov[EB/OL].[2011-10-27].http://www.data.gov/.

[8]Open Data Pilot Project[EB/OL].[2011-10-27].http://www.data.gc.ca/default.asp?lang=En&n=F9B7A1E3-1.

[9]The Hon Gary Gray AO MP Special Minister of State[EB/OL].[2011-10-27].http://www.smos.gov.au/index.html.

[10]微软推“开放政府数据计划”直指云计算[EB/OL].[2011-10-27]. http://tech.sina.com.cn/it/2009-05-08/08293074155.shtml.

[11]淘宝网开放平台[EB/OL].[2011-10-27].http://my.open.taobao.com/about_top.htm.

[12]Open Knowledge Foundation[EB/OL].[2011-10-27].http://okfn.org/.

[13]OECD.Science, Technology and Innovation for the 21st Century. Meeting of the OECD Committee for Scientific and Technological Policy at Ministerial Level[EB/OL].[2011-10-27]. http://www.oecd.org/document/0,2340,en_2649_34487_25998799_1_1_1_1,00.html.

[14]The Memorandum for the Heads of Executive Departments and Agencies on Transparency and Open Government[EB/OL].[2011-10-27].http://www.whitehouse.gov/the_press_office/Transparency_and_Open_Go

vernment.

[15]Open Government Initiatives[EB/OL].[2011-10-27].http://www.whitehouse.gov/open/about/initiatives.

[16]Open Government Directive[EB/OL].[2011-10-27].http://www.whitehouse.gov/open/documents/open-gover

nment-directive.

[17]刘祖斌.政府数据门户网站及其数据集的建设研究[J].信息化建设,2011,(4):24-26.

[18]Kenneth Cukier. Data, data everywhere[EB/OL].[2011-10-27].http://www.economist.com/node/155574

43?story_id=15557443.

[19]Gordon Brown. Speech on Smarter Government[EB/OL].[2011-10-27].http://webarchive.nationalarchives.gov.uk/+/number10.gov.uk/news/speeches-and-transcri

pts/2009/12/speech-on-smarter-government-21633.

[20]英国政府将在互联网公开政府数据[EB/OL].[2011-10-27].http://tech.163.com/10/0121/12/5TI5TM1A000

915BF.html.

[21]German National Library.Linked data service of the German National Library [EB/OL].[2011-10-27].http://www.d-nb.de/eng/hilfe/service/linked_data_service.htm.

[22]The British Library. Free data service [EB/OL].[2011-10-27].http://www.bl.uk/bibliographic/datafree.html.

作者简介:吴旻(1978—),女,西北大学图书馆自动化部馆员,研究方向:信息处理网络应用。