罗鹏程+崔海媛+聂华+朱玲+韦成府
摘要为了实现高校图书馆数字资源的持久标识,促进系统间互操作性的增强,本文对持久标识符进行了广泛深入调研,对当前应用最为广泛的4种持久标识符的原理和国内外应用情况进行了梳理,从费用、使用量、互操作、标识符与元数据四个方面对其做了全面地比较分析。结合北京大学图书馆的实际情况,介绍了持久标识符在开放研究数据平台、机构知识库、系统间互操作上的应用。
关键词持久标识符 数字对象标识符 句柄 图书馆资源 唯一标识符
1引言
在网络环境下,统一资源定位符(Uniform Re-source Locator,URL)容易改变,不能很好地用于资源的持久标识和引用。同一资源可能有多个副本,多种格式,从而拥有多个URL地址,通过URL无法将其识别为同一资源。持久标识符能够对资源进行持久地、唯一地标识,有助于资源的引用、识别、定位和长期保存,在数字出版、数字资源长期保存等领域得到了广泛研究和应用,已有多种持久标识符方案被提出并应用于实践。
在数字出版领域,持久标识符得到了非常广泛地应用。国外期刊论文数字对象标识符(DigitalObject Identifier,DOI)注册机构交叉引用公司(CrossRef)成立于2000年,已注册DOI数量超过8000万个;国内期刊论文DOI注册机构中文DOI成立于2007年,已注册DOI数量超过了2500万个。在科学引文索引(Web of Science)网络版、爱思唯尔引文数据库(Scopus)、谷歌学术等数据库中,均支持对DOI的检索;许多期刊的官网(如《自然》、《科学》)中也包含了DOI等持久标识符信息。
图书馆作为数字资源长期保存的重镇,也特别重视持久标识符的应用和推广。早在1996年,美国国会图书馆便在美国国家数字图书馆项目中使用句柄(Handle)为数字化资源赋予持久标识符。德国科技图书馆于2004年开始使用DOI为科学数据赋予持久标识符,并于2009年领导成立了数据引用组织(DataCite),专注于研究数据和科研产出的持久标识。法国国家图书馆于2006年实现了档案资源键(Archival Resource Key,ARK)持久标识符服务,用于馆藏数字文档和书目记录标识。大英图书馆作为DataCite创建者之一,面向英国高等教育機构,为数据提供DOI注册服务。美国加州数字图书馆于2009年实现了DOI和ARK持久标识符注册服务EZID(Easy-eye-dee),用于标识本馆数字资源,同时对外提供付费注册服务。中国国家图书馆参考Handle系统,保持与其兼容的基础上(在Handle中保留了108前缀)自行研发了中文数字对象标识符(Chinese Digital Object Identifier,CDOI)系统,面向国内公共图书馆提供资源的注册服务,并于2012年投入试运行。
当前,国内外高校图书馆对持久标识符的应用主要集中在机构知识库和研究数据管理中。如麻省理工学院机构知识库(Dspace@MIT),康奈尔大学机构知识库(eCommons),复旦大学社会科学数据平台使用Handle对资源持久标识,哈佛大学研究数据平台(Dataverse),密歇根大学政治与社会学研究校际联盟数据平台(Inter-university Consortium forPolitical and Social Research,ICPSR)使用DOI对资源持久标识。与各国国家图书馆相比,高校图书馆持久标识符的研究还比较匮乏,持久标识符的应用缺乏整体规划。随着高校图书馆数字化资源的不断积累,资源的长期保存变得越发重要,持久标识符系统作为长期保存的重要组件急需建立并完善。同时,高校科研产出管理的信息化程度在不断提高,其规范化程度也需要进一步加强。持久标识符作为资源的身份号码,有利于资源的持久引用、查找和定位,各异构的系统间可通过标识符识别、关联资源,提高系统间互操作性。文章将对比分析各持久标识符系统的发展、原理、应用、资费、互操作等,并结合北京大学图书馆的实际情况,介绍持久标识符的相关应用。
2发展概况
万维网出现之初,人们便意识到URL不具有稳定性,随着时间的推移常常成为死链。持久标识符基于中间解析系统实现资源的持久标识,当资源对应的URL改变时,仅需更新解析系统中的映射关系,用户仍可通过相同的标识符访问资源。从上世纪90年代中期开始,一些持久标识符方案陆续被设计、实现,主要包括:Handle(1994年)、PURL(1995年)、DOI(1998年)、ARK(2001年)。
(1)Handle。
Handle由美国国家研究创新机构(Corporationfor National Research Initiatives,CNRI)设计实现,最早用作CNRI数字对象架构中的一个组件,于1994年作为计算机科学技术报告项目的一部分提出并实现。2014年1月,CNRI和国际电信联盟共同发起,在瑞士日内瓦注册成立了新的Handle全球运营与管理组织——数字对象编号管理基金会(Digital Object Numbering Authority Foundation,DONA)。DONA由4个初始的多主管理员(Multi-ple Primary Administrators,MPA)组成:德国哥廷根科学数据分析与处理公司(Gesellschaft far wis-senschaftliche Datenverarbeitung mbH GOttingen,GWDG)、工信部电子科技情报研究所一中数创新公司一西恩多纳公司(ETIRI-CDI-CHC)联盟、美国CNRI、国际电信联盟。CNRI主要关注数字图书馆、政府和老用户的标识符应用,GWDG主要关注科学数据标识符分配,ETIR-CDI-CHC主要关注中国物联网和商业方面的应用。
(2)PURL。endprint
持久统一资源定位符(Persistent Uniform Re-source Locator,PURL)由联机计算机图书馆中心(Online Computer Library Center,OCLC)设计,于1995年在Apache HTTP服务器的基础上实现PURL功能,并于1996年应用于因特网编目项目18]。2007年,OCLC与Zepheira公司合作对PURL服务做了重新设计,发布了PURLZ-Serv-er-1.X版本。2011年三圆石公司(3 Round Stones)接管了PURL的开发工作,于2013年发布PURLZ-Server-1.6.4,此后该软件不再更新,而在三圆石公司开发的关联数据管理系统Callimachus中包含PURL的所有功能。PURL认为持久性并不是一个技术问题,而是一个机构的服务功能,因此PURL采用了URL的形式,但它比普通URL能得到更多持久性保障。
(3)DOI。
数字对象标识符(Digital Object Identifier,DOI)源于国际出版商协会、国际科学技术和医学出版商协会、美国出版商协会的联合倡议,由国际数字对象标识符基金会(International DOI Foundation,IDF)管理。1997年,DOI在法兰克福书展上发布,同年IDF正式注册成立。2000年,DOI首個注册代理机构CrossRef成立,致力于为学术出版物提供DOI注册服务。2010年DOI系统正式通过成为国际标准,并于2012年由ISO正式出版国际标准《ISO 26324信息和文档一数字对象标识符系统》(ISO 26324 Information and Documentation。——Dig——ital Obiect Identifier System)。DOI认为没有元数据,标识符的意义不大,为此DOI开发了相关数据模型存储元数据,并基于Handle系统实现了标识符解析功能。
(4)ARK。
档案资源键(Archival Resource Key,ARK)由美国国家医学图书馆约翰.昆茨(John Kunze)和罗杰斯(R.P.C Rogers)设计,于2001年发布了互联网草案draft-kunze-ark-00.txt。目前,加州数字图书馆负责ARK的维护和注册,最新草案为2013年发布的draft-kunze-ark-18.txt。用户可以根据ARK方案构建自己的标识符服务,也可以使用加州数字图书馆提供的EZID为资源分配标识符。ARK认为标识符的主要功能是将用户引入服务所在地,资源URL的失效是由服务提供者造成的,与URL本身无关。因此,ARK采用了可执行(Actionable)形式的标识符,它具有URL的形式,并可直接访问。
3国内外应用
Handle、PURL、DOI、ARK均起源于2000年前后,有多年的发展历史,在国内外有广泛的应用,有的甚至已经突破了数字资源标识的范围,并推广到物联网领域。
(1)Handle的应用。
Handle最初使用者主要包括美国国会图书馆、DSpace和DOI,2000年以后用户群体进一步扩大到科学数据、电影电视行业、物联网等领域。目前,Handle在数字图书馆与内容仓储、数字出版、非正式出版物、数字博物馆、远程教育、科学研究、数字权益管理、信息安全管理与隐私保护等领域得到大量应用,下面介绍近年来几个重要的Handle应用。
澳大利亚国家数据服务(Australian NationalData Service,ANDS)于2009年启动,由澳大利亚政府资助,基于Handle系统构建了持久标识符服务(Persistent Identifier Service,PIDS)。PIDS面向澳大利亚机构和个人免费提供标识符注册。包括两种服务模式:对于研究者个人,可以登录澳大利亚研究数据系统使用PIDS自服务工具创建持久标识符;对于机构,需要先注册,然后使用客户端实现自动注册。PIDS根据ANDS的需求对Handle客户端做了包装,提供了基于Tomcat的Web应用,并且开放源代码。
欧洲持久标识符联盟(European Persistent I-dentifier Consortium,ePIC)成立于2009年,基于Handle构建了持久标识符服务,面向欧洲研究社区,为成员机构提供注册服务。ePIC具有高可靠性,在欧洲拥有5个数据中心,相互备份对方持久标识符。当前,ePIC使用了30个Handle前缀,并已创建了3千万个标识符。此外,ePIC系统源代码开放,服务提供者可利用ePIC系统构建自己的持久标识符系统。
基于Handle的中国国家物联网标识公共服务是“国家物联网标识管理公共服务平台”项目的组成部分。该项目由国家发改委于2013年批复,由中科院计算机网络信息中心牵头,联合工信部电子科学技术情报研究所(ETIRI)、工信部电信研究院、中国物品编码中心建立物联网标识统一管理和公共服务平台。ETIRI联合北京中数创新技术有限公司(CDI)、北京西恩多纳信息技术有限公司(CHC)共同组成了"ETIRI-CDI-CHC"联合体,并成为DONA的多主管理员(Multiple Primary Administrators,MPA)。基于Handle构建了国家物联网标识公共服务,并将其应用于婴幼儿配方乳粉领域,现已经注册超过2.2亿个标识符。
(2)PURL的应用。
PURL的应用相对较少,目前主要包括联机计算机图书馆中心、美国国家生物医学本体中心、佛罗里达图书馆自动化中心、美国政府出版署等。澳大利亚国家图书馆曾经使用PURL提供持久标识符服务,不过现在该服务已停止运行,联机计算机图书馆中心的PURL服务目前也不能登录使用。与其他标识符相比,PURL软件开发不够活跃,2010年曾发布2.0Beta版,但是之后一直没有发布正式版。目前PURL软件的开发已经融入到了Callimachus系统,为关联数据提供URI标识。endprint
(3)DOI的应用。
DOI主要用于数字出版领域,目前有10个注册代理机构负责标识符的分配和应用服务,包括CrossRef、DataCite、中国科学技术信息研究所等。在CrossRef中注册期刊超过4.7万种,注册DOI数量超过8000万个,成为DOI最大的注册代理机构;在中国科学技术信息研究所中文DOI中,注册期刊超过6200种,注册DOI数量超过了2500万个,仅次于CrossRef。学术出版物一直以来是DOI最大的应用领域,然而随着开放获取运动的发展和开放数据理念的推广,数据集也逐渐成为DOI的重要应用领域。
DataCite面向数据进行DOI注册,成立于2009年,目前已有20多个正式会员(如德国科技图书馆、加州数字图书馆等)、约900个数据中心,注册DOI数量超过600万个、每月解析量超过700万,在数据集持久标识符领域有着巨大的影响力。Data-Cite信息基础设施为元数据仓储(Metadata Store)系统,用于标识符的分配和元数据的管理。除数据集注册外,DataCite还拥有数据仓储注册服务re3data.org,其中含有来自60多个国家的1700多个数据仓储。
(4)ARK的应用。
ARK已经在许多机构得到应用,加州数字图书馆ARK注册列表中包含了来自全球的400多家機构,如法国国家图书馆、美国西北数字档案馆、德国柏林犹太博物馆、哈佛大学、谷歌等。法国国家图书馆是ARK最重要的应用机构之一,下面以其为例,介绍ARK在法国国家图书馆的应用。
法国国家图书馆基于以下两方面的因素采用ARK:一是财务独立,ARK源自公共文化领域,其注册、应用均无需付费,而DOI源自商业领域,费用相对较高;二是技术独立,ARK标准没有强制使用特定厂商的服务,也不依赖于特定意图的全球软件基础设施,机构能以最简单的方式在本地实现,而Handle、PURL则依赖于特定的软件基础或外部服务。基于此,法国国家图书馆于2006年实施了ARK持久标识符方案,初始阶段将其用于数字化文档和编目记录的标识。之后领域得到进一步扩大,应用于data.bnf.fr的链接数据服务和可伸缩保存与归档仓储。此外,法国国家图书馆还积极参与ARK国际合作,与美国国家医学图书馆一起,为加州数字图书馆ARK注册列表提供备份服务。
4比较分析
表1对4种主要的持久标识符进行了对比。主要从费用、使用量、数据安全、互操作、标识符与元数据5个角度进行了对比。
(1)费用。
Handle的费用依据不同MPA而不同。CNRI每个Handle前缀一次性注册费用为50美元,并且每个前缀需要缴纳每年50美元的年费,提供免费软件运行本地解析服务,但不提供技术支持。ETIRI-CDI-CHC目前针对图书馆的收费标准大致为每年1.2万元人民币,并提供软件和技术服务。GWDG费用标准不明。PURL完全免费,可以使用已有PURL服务注册持久标识符,也可以使用PURL开源软件在本地运行PURL服务。ARK的注册不收取费用,可以使用加州数字图书馆的EZID服务,对于研究机构和非赢利性组织的年费为1500美元,每年最多可以创建维护100万个ARK。也可以依据ARK标准自行实现ARK服务,无需向任何机构缴纳费用,如法国国家图书馆。
DOI的费用依据其获取途径的不同而不同。作为IDF的会员,其收费标准为:DOI创立会员会费7万美元;一般会员会费3.5万美元;注册代理会员会费包含在运营费之中,按照费用分担模型计费;附属会员会费2000美元。从各个注册代理获取DOI的费用也有所不同,中文DOI以科研单位数据集注册为例,每年年费为500元人民币;数据集1~5000条时,每个DOI为0.5元人民币,多于5000则每个0.3元人民币。DataCite会员年费为8500欧元,可注册DOI数量没有限制。加州数字图书馆EZID对于研究机构和非赢利性组织的DOI注册年费为2500美元,每年最多可以创建维护100万个DOI。德国科技图书馆DataCite D01年费为150欧元,可注册0-500个DOI,超出500的DOI按量收费,501-5000每个0.20欧元,5001-5万每个0.15欧元,5万-10万每个0.10欧元,10万-100万每个0.06欧元,超出1百万每个0.03欧元。
从以上数据可以看出,DOI的费用相对较高,但一般情况下不需要维护本地服务系统;PURL完全免费,既可以使用第三方提供的服务,也可以维护本地服务系统;ARK既可以使用第三方提供的收费注册服务,也可以自行开发提供服务;Handle费用较为低廉,需要本地维护服务系统。
(2)使用量。
根据欧盟第7框架项目“科学网络记录持久获取联盟”(Alliance Permanent Access to the Recordsof Science in Europe Network,APARSEN)调查显示,DOI使用率占32%,Handle占28%,URN占25%,PURL占6%,ARK占4%。截至2016年12月,在re3data中注册的研究数据仓储中,DOI使用占21.9%,Handle占6.7%,URN占1.3%,PURL占1.0%,ARK占0.8%。
从这些数据可以看出,当前Handle及DOI使用量占据了优势地位。目前,DOI注册个数已经超过1.2亿,分配前缀1.6万个,每年的解析量超过50亿。截至2015年末,Handle分配的前缀数量达到1.9万个,每月代理解析量为2.47亿。
(3)数据安全。
DOI主要应用于数字出版领域,信息公开程度高,将元数据和标识符存放在注册代理机构不存在过多安全性考虑。然而,有些机构却包含了大量非公开出版物,或者不愿意将元数据信息公开,DOI无法满足他们的需求。此外,DOI管理机构IDF主要由欧美控制,出于国家层面数据安全性的考虑,一些机构也不愿意使用DOI,如中国国家图书馆。endprint