余 红 刘 娟
(1.中国科学院文献情报中心 北京 100190;2.北京大学信息管理系 北京 100871)
张晓林等学者们〔1〕认为:开放数据是开放获取处于全面推广阶段的产物。可以说,开放数据其实是开放存取(Open Access)运动的一个衍生品。在布达佩斯开放获取计划(Budapest Open Access Initiative)中,开放存取是指“将科研成果在互联网上公开发布,允许公众免费阅读、下载、复制、分发、打印、查找,或者链接到文章的全文,抓取文章进行索引,以数据方式传递到软件中,或者用于任何其他合法目的的使用,而没有财政、法律或者技术方面的障碍,除开那些从互联网本身获得的信息。复制和分发中唯一的限制以及版权在这个领域中的唯一角色,应当是保持作品的完整性以及给作者正确承认和引用的权利。”〔2〕这项运动开展的如火如荼。但我们从它的主要表现形式:OA期刊和OA机构库中可以看出,开放存取更多的是对学术论文、图书、科研成果的开放,而对于更小粒度的“数据”的开放尚未得到重视。“它们大多是基于原文的,对于科学实验等原始数据仍然是不可重复使用的,对于出版商来说他们或者没有能力处理,只是作为全文文献的辅助信息印刷出来而已,并没有实现太多的增值。”〔3〕正如Miller等所认为的那样,尽管大家关注比较多的是开源以及开放获取,但数据的公开发布目的也非常明显,即实现互操作。〔4〕正是这一局限性激发了人们对于数据开放存取的呼吁,这种呼吁“不仅来自于期刊同行评审员和希望更加有效使用数据的人,还来自于那些希望深入评析科研结论的市民!”〔5〕开放数据便应运而生。
对于开放数据,目前尚无统一的定义。欧盟使用“政府数据开放”的视角加以定义:“开放数据是指公共机构产生、收集或支付的所有信息,包括地理信息数据、统计资料、气象资料,由政府资助的研究项目的数据,并包括数字图书,这些公共数据可以随时访问和咨询,也可以重新再利用。”〔6〕
开放数据手册采用Open Knowledge的定义:“开放数据是一类可以被任何人免费使用、再利用、再分发的数据——在其限制上,顶多是要求署名和使用类似的协议再分发。”〔7〕开放数据中心联盟(Open Data Center Alliance)从“公司”的角度认为它是公司IT基础设施、云计算的应用模式与解决方案。〔8〕学术出版和学术资源联盟(SPARC)从学术科研的角度认为,开放数据是科学数据的一种新型学术出版模式、理念。〔9〕
开放数据早已突破学术出版的范畴,应用领域广泛,从政府、企业到科研,从根本上说它就是一种信息资源共享模式。开放数据的对象是数据,信息粒度比开放存取和开源软件小。这里的数据是广义的,既包括地理信息数据、统计资料等一次信息,也包括文件资料、研究报告等二次或三次信息。数据必须具有一定的格式,便于机器理解与分析,才能实现数据的共享、存储和重用。这也是开放数据区别于开放存取的一个方面,开放存取所提供的文献格式往往是PDF格式,机器难以拆分并提取出一些有意义的数据或知识单元。〔10〕开放数据就旨在从数据发布之初,就保证以机器可理解的数据或知识单元的形式进行展现。
开放数据的核心是“开放”的理念。在开源软件(open source)中,“open”通常意味着“自由”(libre),开放存取(open access)运动使“open”的概念逐步向“免费”(gratis)扩展。〔11〕开放数据和这两项活动一样,都强调对一定信息对象向公众开放,使人们可以自由阅读、分享、发布和使用。
注重对数据的“重用”。“重用”是上述几个定义中都提到的概念,它代表的是对数据的使用、聚集、模拟、整合,从中体现数据的价值,实现“增值”,这有两层含义〔12〕:一方面是数据本身通过开放实现了二次加工,从一次信息变成二次或三次信息,决策价值增加,实现增值;另一方面,数据的开放相对于期刊、影视作品、书籍等资源的开放来说,更容易实现重用,分布在不同地域、时空范围内的用户可以对同一条数据进行多次共享和获取。所以从用户的角度来看,有更大的群体能够获取这些开放数据传达出来的价值,实现整个信息共享空间的增值。
与开放存取一样,开放数据的目的也是消除共享障碍,赋予用户的使用权利。数据该以何种形式开放,是否无条件共享,应该确立哪种许可机制就成了开放数据的基本问题。P.Miller等学者〔13〕认为,目前数据很少以一种直接被第三方使用的方式获取,随着数据进入到网络范围内,社会规范本身将不足以完全依赖,需要许可声明来使数据在任何情况下被使用的条目予以清晰化。
开放数据自提出之后,就在电子政务、生物、化学、医学、计算机、企业等领域应用。英、美、加、澳、欧盟、世界银行、国际货币基金组织等政府信息公开及电子政务的开放数据走在了实践的最前列。美国更是把开放数据确立为所有联邦政府部门必须遵守的基本政策,奥巴马还于5月份签署法令,要求所有新增政府数据都必须以电脑文件方式向公众开放。白宫管理预算办公室和科技政策办公室同时颁布了开放数据(Open Data)政策〔14〕。英国政府还资助了开放数据研究所(ODI)项目,旨在协同企业、创业公司、学术机构、政府和社会的力量共同探索和发掘政府公开数据(Open Data)的商业和社会价值。〔15〕
在科研领域,开放知识联盟(Open Knowledge Foundation,OKF)〔16〕制定了“开放数据共享”系列许可,如《开放数据库许可》、《公共领域的贡献与许可》等文件。医学、生物、化学、农业等实验数据的开放也成为各国关注的焦点。如欧洲药品管理局(The European Medicines Agency,EMA)于3月发起开放临床实验数据项目〔17〕,美国也已经要求确保药品安全的临床实验数据要以公共在线的方式提供,国家医学协会(NIH)的国家医学图书馆还建立了ClinicalTrials.gov站点,提供临床研究的基础数据。〔18〕开放知识基金会(Open Knowledge Foundation,OKF)也发起号召,推动All Trials Registered,All Results Reported项目的实施,建立了专门的数据开放站点http://www.alltrials.net/,目前获得了包括科学公共图书馆PloS、英国医学研究委员会(The Medical Research Council)等在内的7,000份签名认可。
此外,淘宝开放平台(Taobao Open Platform,TOP)等也是企业应用的代表。
开放数据从根本上说是一种信息资源共享的形式,不管是“开源软件”所传达出来的“自由”,还是“开放存取”所传达的“免费”,也不论开放的是软件、论文还是数据,或是哪个领域的数据,开放数据都是对信息资源的开放和共享。
从目的上看,开放数据最终是要实现信息资源共享的“5A”目标。前面提到,开放数据的核心是开放,根据Open Knowledge对“开放”的定义,信息资源只有满足11项条件才能算是真正的开放〔19〕,其中的无技术限制(Absence of Technological Restriction)、无个人或者群组歧视(No Discrimination Aga inst Persons or Groups)、无领域歧视(No Discrimination A-gainst Fields of Endeavor)、许可不是只针对特定的包(License Must Not Be Specific to a Package)四项条件与《图书馆合作与信息资源共享武汉宣言》中提到的5A理论相契合,开放数据与传统信息资源共享一样,致力于实现“使任何人在任何时候、任何地点,均可以获得任何图书馆的任何信息资源”〔20〕的最终目标。
从形式和对象上看,开放数据是信息资源共享理念和对象的双重进步。5A理论指出信息资源共享的主体、对象、时空应该是没有限制的,完全开放的,从这一点说,开放存取和开源软件是这种“无限制性”的理念的进步,而开放数据既是理念的进步,也是共享的信息资源对象范围的扩展。从图书馆的书刊资源、开源软件的软件资源、开放存取的科研成果资源,到开放数据低粒度、涵盖一次信息、二次信息、三次信息的扩展正是对5A理论的真正实践。所以说,在信息资源共享的大目标之下,开放数据是信息资源共享理念和对象的双重进步,有着比开放存取更加深远的意义。
从主体上看,各个图书馆之间进行开放数据的探索将是实践信息资源共享理念的重要方式。图书馆作为最大的信息资源收藏机构,理应成为信息资源共享的主体。除了传统的图书馆书刊、多媒体、电子资源的共建共享之外,图书馆也积极参与到开放存取的运动之中,作为开放理念更加深化,开放对象更加拓展的开放数据运动,图书馆也理所当然成为积极的响应者和主动的参与者。但是前面的分析显示,目前参与开放数据的图书馆大多是某个专业领域的附属图书馆,如国家医学图书馆,他们仅仅以响应者和支持者的身份参与,服务于科研机构、基金会、出版商和政府的信息资源共享,尚未把这一理念与图书馆信息资源共享实践相结合,图书馆需要加强对这一问题的重视和思考,更好地实践信息资源共享的目标。
(1)共享对象范围更广,粒度更小
传统信息资源共享以传统文献信息资源为对象,通过协调采购、联合编目、资料交换、通用借书证、馆际互借、文献复制等多种形式〔21〕实现共享。随着网络技术的发展,图书馆信息资源共享的对象逐步扩展,除了传统图书期刊之外,还包含了数字化的电子资源。
根据开放数据的理念,图书馆信息资源共享的对象将会更加宽泛,除了二次信息和三次信息之外,还有以数据为代表的一次信息。具体表现形式有:编目数据、科研统计数据、学科统计数据、文章/图书中的知识节点等。事实上,图书馆编目数据的共享应该是对开放数据最敏感的部分,国外也不乏这方面的实践案例。早在2010年,世界上首批科学图书馆之一的欧洲核研究中心(CERN)图书馆就已经将其所有的图书馆目录中的书目记录数据对外发布,〔22〕允许任何第三方机构和个人通过 http://cern.ch/bookdata自由下载和复用,并可以在“开放图书馆工程(Open Library Project)”为每本书提供的页面上增加图书目录、分类号和摘要等内容,进而改善数据。西班牙国家图书馆(The National Library of Spain)、德国国家图书馆、编目数据平台 biblios.net〔23〕也已经使用公共领域许可的工具发布书目信息,促进数据的共建共享。〔24〕
(2)共享的对象将突破馆藏限制
现有信息资源共享所针对的是现有的馆藏纸质资源和馆藏电子资源,虽然图书馆网站上还会设立外部资源的链接,但大都限于图书类电子商务网站,用户获取所需信息往往要受到馆藏限制。
在开放数据的理念下,图书馆可以突破本馆和本系统限制,实现馆藏资源与外部资源的互联,为用户搜索一切在互联网上开放、可重用的资源。OCLC的Perceptions of Libraries and Information Resources(2005)《图书馆与信息资源的理解2005》报告〔25〕显示,只有1%的用户把图书馆作为搜索信息的起点,84%的人都使用搜索引擎。图书馆要成为共享的主体,就必须成为信息资源的主体,扩充信息资源共享的对象,尽可能地补充这84%的资源量,才能提升用户对图书馆的认知。
(3)共享范围更广,突破图书馆系统限制
图书馆信息资源共享根据范围不同,大致划分为4种:区域性系统、全国性系统、区域性跨系统、全国性跨系统。〔26〕调查显示,参加系统内信息共享活动的图书馆占72%,参加跨系统的占28%。〔27〕可以看出,图书馆现有的信息资源共享大多是在系统内进行,包括同级图书馆之间、各级图书馆之间、高校图书馆系统之间、科研系统之间、总分馆之间,而跨级图书馆,乃至于图书馆与其他机构的共享几乎是没有。一方面,以图书馆、博物馆、档案馆为代表的信息收藏者之间的共享不充分,相同职能的机构之间互相分割,图书馆系统内CALIS、CASHL、NSTL三大系统也因为自身的资源和服务定位的差异“单打独斗”,造成了严重的资源浪费。信息共享的畅通性和开放性受到了来自不同系统规制和定位差异的制约。另一方面,信息发布者之间和用户之间的共享并没有集成在图书馆信息共享的服务范畴之中。
而开放数据并没有对共享的范围做出限制,信息资源共享只是一种“信息提供者”和“信息需求方”之间的一个简单的平衡关系。根据这一理念,信息共享的范围将更广,图书馆、博物馆、文化馆、政府、企业、信息提供商和服务商、用户都可以成为共享的主体,图书馆可以和系统之外的资源进行互换,信息流生产者、发布者、收藏者和用户能够形成一个完整的信息资源链条,不同的结点都可以进行资源的共享。加拿大国家图书馆与档案馆(Library and Archives Canada,http://www.collectionscanada.gc.ca/index - e.html)对信息资源的集成就是一个很好的例子。从根本上来说,在开放数据的推动下,共享的内容不仅有文化资源,还会有政府、科研,甚至是商业资源,保证它们在一个系统内流通会大大提高共享效率,也就必然要求不同领域的信息资源建设者联合起来,共同参与。
(4)降低共享成本,提高共享效率
现有信息共享方式更多地依赖人工专送、传真等方式,图书馆运输成本高,一次共享服务(如馆际互借)还需要支付一定的时间成本和物质成本,共享书刊的送达有时滞性,影响了共享服务的效率和读者满意度。
在开放数据环境下,各个系统、机构的信息资源均以相同格式存在于语义网中,网格中的各个结点都可以毫无障碍地与其他节点进行共享;另一方面,数据粒度的共享信息可重用性很高,一次共享意味着同时满足了多个用户的需求,资源共享大都可以通过互联网完成,减少了运输成本和时间成本,共享的效率会更高。
(5)需求驱动性更强,更加精准化
现有信息共享方式下,图书馆往往被动地向用户提供共享资源;在资源建设的时候,往往是馆员根据自己的判断,结合专业教职人员的建议进行采购。而开放数据环境下,图书馆的需求驱动性更强,用户的信息需求往往可以精准到某个学科某个机构某个时间的某个数据,在这个程度上能够大大减少图书馆的采购成本,同时也对馆员的信息检索和发现能力提出了更高的要求。
(6)帮助公共图书馆开展政府信息服务
2008年5月1日《中华人民共和国政府信息公开条例》(以下简称《条例》)正式实施,引起了我国图书馆界的重视,并作为2008年初“中国图书馆学会新年峰会”的一个议题〔28〕开放数据理念下,图书馆能够扩充并集成来自政府的开放资源,通过科学组织、加工整合和深度揭示向用户提供,并形成不同地区的政府开放资源的共建共享,进而帮助公共图书馆开展政府信息服务,履行社会职能。
传统共享方式可以通过最长借阅时限、高昂的复印费用、珍贵资料不与共享的方式来尽可能减少版权冲突。但是开放数据的共享粒度小,小到图书中的一个案例、一段引文,在开放的互联网共享环境之下,共享的数据更有可能发生版权侵犯。因此,完全无限制的、大范围的、跨系统的数据共享无法在短期之内实现,必须在建立一个可行的数据共享版权约束机制的前提下进行。尽管目前还没有针对开放数据的统一标准〔29〕,但国外在共享许可机制方面有较为丰富的实践经验。例如解决公共领域内数据或数据库许可问题的公共领域贡献与许可(Public Domain Dedication and License,PDDL),另一个是解决署名(Attribution)以及相同方式共享(Share Alike)问题的开放数据库许可(Open Database License,ODbL),该许可下针对数据库内容的有具体的数据库内容许可(Database Contents License,DbCL)〔30〕;对一般著作权保护的作品采用的4种创作共用许可:署名(Attribution)、相同方式共享(Share Alike)、非商业用途(Noncommercial)、非衍生作品(No Derivative Works)〔31〕。
笔者认为,针对图书馆购买了版权、只有使用权、外部免费资源、商业资源、政府资源等不同的资源类型应该采取不同的版权政策。外部免费资源和政府信息等有明确共享权限的资源版权限制小,操作起来很容易;对于只有使用权和商业性质的资源则需要确立一套可行的版权限制措施,尽可能减少版权纠纷。而在此之前,关键的困难在于如何评估共享的数据对象的权限和版权归属方式。如果读者需求的是文章中的一个数据,而原文是作者引用了其他作者的文章,在引文标注不清晰或根本没标注的情况下,图书馆也无法判别资源来源及使用权限。所以确定共享版权政策不仅是对图书馆的挑战,也是对学术研究人员学术规范性的挑战,二者共同参与协作才是最佳方式。
前面提到,开放数据环境下,图书馆共享信息资源的传输更多会通过网络实时进行,传输过程中的数据加密和安全也是重要的问题,尤其是涉及到国家安全和商业机密的数据更要谨慎。从需求提出、数据获取、数据传输、数据重用、返回过程中的每一个环节都需要进行控制。
需求提出环节的控制直接反映了图书馆对可共享资源范畴的界定,即共享的边界问题。数据获取阶段则是信息发布者基于对信息内容的评审的基础上进行,不管是政府还是企业,信息的开放和共享都是有界限的。这两个环节的控制至关重要,能够从根本上减少安全隐患。数据传输阶段则需要图书馆提供先进的信息加密技术保障。数据重用阶段,现有的图书馆信息资源共享往往通过借阅时限、费用来避免不合理的复用,但是开放数据环境之下读者之间的共享更加容易,也就越难控制,单纯的时间和费用限制已经不能满足需求,图书馆需要探索更加多样、严格的控制手段。
现有的图书馆单次共享资源数量较少,图书馆往往把共享资源存放在图书馆外借处,开放数据环境下,资源存储量以量级速度增长。在系统端,图书馆需要提供足够空间的存储设备;在用户端,图书馆是否有必要自己开放一个数据共享平台,与现有的数据堂 (http://www.datatang.com/)之类的科研共享平台在功能、定位、受众群体、资源下载和获取方式上作何区别,以及如何避免数据重复等问题都需要考虑。
虽然开放数据能够为图书馆信息资源共享带来极大的推动和影响,创新资源共享方式,提升资源共享效率,但真正接受并开展相应的实践活动却是一个漫长的过程,其中还有许多问题亟待探索解决思路。
1.张晓林等.科技信息开放获取的历史进程.图书情报工作,2009(7):63 -68,14
2.Open Society Institute.Budapest Open Access Initiative .Budapest,Hungary:Open Society Institute.〔2013 -06 -06〕.http://www.soros.org/openaccess/read.shtml
3,11.RUST P M.Open data in science .SerialsReviews,2008(1):52-64
4.MILLER P,STYLES R,HEATH T.Open data commons,a license for open data.〔2013 -06 -20〕.http://events.linkeddata.org/ldow2008/papers/08-miller-styles-open-data-commons.pdf
5.Geoffrey Boulton et al.Science as a public enterprise:the case for open dataScience as a public enterprise:the case for open data.The Lancet,2011(5):1633 -1635
6.European Commission.Digital agenda:commission’s open data strategy,questions&answers.〔2013 -07 -03〕.http://europa.eu/rapid/pressReleasesAction.do?reference=MEMO/11/891
7.Open data handbook.〔2013 - 07 - 03〕.http://opendatahandbook.org/zh_CN/what- is- open - data/index.html
8.Open Data Center Alliance.Defining a New Class of Data Center and Cloud infrastructure Solutions.〔2013 -03 -15〕.http://www.opendatacenteralliance.org/the- alliance
9.SPARC.Open Data.〔2013 - 03 - 15〕.http://www.arl.org/sparc/opendata/
10.Machine-readable Open Access scientific publishing .〔2013 -06-26〕.http://michaelnielsen.org/blog/machine-readable-openaccess-scientific-publishing/
12.李佳佳.信息管理的新视角:开放数据.情报理论与实践,2010(7):35-39
13.吴旻.开放数据在英、美政府中的应用及启示.图书与情报,2012(1):127-130
14.Kelly Burke for Intellectual Property Watch.Obama Administration Backs New Open Data Policy(2013-5-10).〔2013-06-24〕.http://www.ip-watch.org/2013/05/10/obama-administration-backs-new-open-data-policy/
15.Nerea Rial.Open Data Institute opens its doors in UK(2012 -12 -3).〔2013 -06 -26〕.http://www.neurope.eu/article/open - data-institute-opens-its-doors-uk
16.Open Knowledge Foundation.〔2013 - 05 - 27〕.http://okfn.org/
17.Daniel Cressey.Drug-company data vaults to be opened(2013-3 -27).〔2013 -06 -26〕.http://www.nature.com/news/drugcompany-data-vaults-to-be-opened-1.12679
18.What Information Can I Find on ClinicalTrials.gov?.〔2013 -06- 27〕.http://www.clinicaltrials.gov/ct2/about- site/background#WhatInformationCanIFind
19.Open Definition version1.1.〔2013 -06 -28〕.http://opendefinition.org/okd/
20.中国大学图书馆馆长论坛图书馆合作与信息资源共享武汉宣言.大学图书馆学报,2005(6):3-5
21.向英明,罗爱静.我国信息资源共建共享研究述评.中国图书馆学报,2005(5):76-81
22.CERN Library Publishes Its Book Catalog as Open Data.〔2013-06 - 29〕.http://newsbreaks.infotoday.com/Digest/CERN - Library-Publishes-Its-Book-Catalog-as-Open-Data-60894.asp
23.About?biblios.net.〔2013 -06 -25〕.http://biblios.net/faq
24.National Libraries and a Museum open up their data using CC0.〔2013 -06 -20〕.http://creativecommons.org/weblog/entry/31853
25.OCLC.Perceptions of Libraries and Information Resources(2005)-A Report to the OCLC Membership:Conclusion.〔2013-06-18〕.http://www.oclc.org/reports/2005perceptions.htm
26.高波.文献信息资源共建共享模式新论.中国图书馆学报,2002(6):24-27
27.高波,刘兹恒,于丽凤.网络环境下我国图书馆信息资源共建共享现状调查报告.中国图书馆学报,2001(4):48-52
28.中国图书馆学会2008新年峰会在济南召开.〔2013-06-29〕.http://www.lsc.org.cn/CN/News/2008 - 01/EnableSite_Read-News1120816921199980800.html
29.李佳佳.国外开放数据许可及相关机制研究.情报理论与实践,2010(8):20 -23,28
30.Open Database License(ODbL)v1.0.〔2013 - 06 - 25〕.http://opendatacommons.org/licenses/odbl/1.0/
31.About The Licenses.〔2013 - 06 - 25〕.http://creativecommons.org/licenses/