(国家图书馆 北京 100081)
在数字图书馆发展新时期和“大数据”时代背景下,需要将分散游离于各数字图书馆之间的资源及服务进行有效集成并协同,以提高数字图书馆海量文献数据的处理能力和服务能力。唯一标识符作为数字资源的条形码,〔1〕它采用机器可以识别的一串数字描述资源,对数字资源进行统一标识,贯穿于数字资源采集与加工、服务与保存等环节,将数字资源的生命周期的管理进一步简单化、标准化、规范化。
国外唯一标识符技术经过近二十年的发展,陆续出现了标识互联网资源的URI/URN/URL,〔2〕标识连续出版物、图书等文献的 SICI〔3〕/BICI〔4〕/PII〔5〕,标识数字对象的 DOI〔6〕等多种形式的标识不同载体的唯一标识符规范和应用。由于大多标识符方案和技术仅仅定义了标识符名称空间及标识符构成机制,尚未形成包含规范、应用、管理等完整的唯一标识符服务体系。基于HandleSystem技术〔7〕的DOI唯一标识符服务体系,在DOI国际标准〔8〕支撑下,形成了以命名、申请、授权、注册、解析、变更为功能核心,以全球注册中心、本地服务为主体框架的名称服务体系,目前在全球已有10个注册代理机构,在数字出版行业得到了广泛的应用。〔9〕
在国内,有些机构直接纳入到国外唯一标识符服务体系,开展中文数字资源的唯一标识符服务;〔10〕也有一些单位自主研发了唯一标识符的应用功能和命名规则。〔11〕唯一标识符技术在公共图书馆领域的应用与研究尚处起步阶段,随着图书馆数字资源种类和数量的不断增多,数字资源的网络服务愈发重要,正逐渐成为公共图书馆的主要服务内容,而数字资源在管理及服务上的问题也日益凸显。
唯一标识符规范、系统的建设是国家数字图书馆工程的重要内容,国家图书馆以推广工程为平台,利用已有的建设成果,联合全国各级公共图书馆共同探索和创新,构建涵盖唯一标识符的标准、应用和管理机制等环节的完整的唯一标识符体系,以实现对全国公共图书馆数字资源的统一标识和规范管理,促进跨区域跨平台的资源调用和系统集成。
( 1 )实用性
唯一标识符体系应选用高可靠性的存储、设计高效的查找策略、使用合理的通讯协议、设计满足用户需求的服务模型、采用高效灵活的分布式架构进行体系的规划和研究。确保各省、市图书馆可独立完成本地数字资源唯一标识符的注册和管理,可及时对数字对象的URL地址进行更新,避免资源链接的“死链”现象。
( 2 )稳定性
唯一标识符体系应面向互联网用户采用多链路方式提供高效、稳定的唯一标识符解析服务,服务终端与服务提供者之间通过建立简单、快捷的链接通道,保证服务的稳定性。在单个节点出现故障时,可以通过中心节点作为桥梁建立链接,不会影响整个体系,确保资源的及时、准确定位。
( 3 )扩展性
唯一标识符体系应具备软硬件层面的扩展能力,能够通过增加硬件设备和优化软件策略的方式来提高处理能力。在业务层面,应立足公共图书馆,具备向出版单位、研究机构、博物馆等全国其它有需要的单位提供公益性的唯一标识符注册和解析服务能力,促进跨系统、跨机构的资源链接和共享利用。
( 4 )兼容性
唯一标识符体系应能够实现图书馆多版本、多复本数字资源的注册和解析,只要提供与数字对象相关的元数据,各图书馆的应用系统就可以定位相应的资源,能够有效促进图书馆间的业务融合。此外,唯一标识符体系还应该兼容唯一标识符的相关国际标准,提供规范的解析接口,保证在业界的持续竞争力。
唯一标识符体系的建设首先要考虑公共图书馆数字资源的建设情况,制定出科学、规范、适用的唯一标识符命名规则、注册规则和解析规则,指导系统平台的建设。通过系统平台完成标识全国公共图书馆的所有数字资源,形成能够容纳国家图书馆、省级馆、市级馆的总分式唯一标识符体系,实现唯一标识符的统一规划和服务。同时,在国家图书馆的协调组织和各级公共图书馆的积极配合下,建立公共图书馆共同参与的多层管理体系,形成一套完善的运行和管理机制,保证各服务节点的协调工作和稳定运行。
为保证唯一标识符体系的安全、稳定,国家图书馆参照HANDLE系统的体系架构,采用分布式的服务框架,按照“国家-省-市”三层架构进行设计,既能保证每个服务节点的独立管理,系统高度自治,还能提高系统的可靠性,不会因为单个节点的故障导致服务的中断。如图1所示,最上层为顶层服务,由中心节点提供,管理n个分支服务节点,对各分支服务节点进行命名授权和管理。在顶层节点下,具有多个唯一标识符的二级服务节点,各服务节点可接收本地范围内注册机构的申请和审批,各注册机构即为实际提供唯一标识符注册服务的实体服务机构;二级节点下可继续发展三级服务节点,满足市级及以下图书馆的数字资源注册需求。顶层服务采用星型结构同步各子层图书馆的系统配置信息,通过分层模式逐层同步各省、市唯一标识符信息,保存各子层提交的注册数据,提供唯一标识符的查询功能,在其他节点出现故障时,直接提供解析服务,保证系统的稳定性。
图1 唯一标识符体系框架
唯一标识符体系以分级注册和统一解析的模式对外提供服务。各服务节点不仅负责本地区有唯一标识符注册需求的机构申请和管理,还要负责本地唯一标识符的解析服务。各注册机构为直接进行唯一标识符注册和管理的单位。
唯一标识符体系的构建应该以标准化和开放性为原则,从标准规范、技术平台、服务体系和管理体系四个方面进行建设。
公共图书馆数字资源唯一标识符标准规范的建设包括数据格式的标准化、资源种类的标准化、命名规则的标准化、注册数据的标准化等等。
根据文化部统计数据,2012年全国共有县级以上独立建制的公共图书馆3076个。〔12〕唯一标识符体系需要能够覆盖和服务所有的公共图书馆,还要保持不同图书馆数字资源之间的通用性、交互性以及不同应用系统之间的互操作,因此,研制唯一标识符标准规范是建设唯一标识符体系的重要前提。国家图书馆自2002年以来,一直跟踪国内外唯一标识符相关标准规范的前沿动态,并于2010年正式发布了《国家图书馆数字资源唯一标识符规范和应用指南》。〔13〕2012年参与了文化部行业标准“数字对象唯一标识符”规范的研制工作,同年国家图书馆也开展了公共图书馆唯一标识符命名规则的制定工作,采用“前缀/后缀”的方式进行命名,前缀和后缀各段采用英文半角“.”分隔,如“108.ndlc.2.1100009031010001/T1F24.003171449”。前缀包括四段,分别为国家区域代码、国家数字图书馆代码、服务节点代码以及注册机构代码;后缀为综合信息编号和系统内部标识号,主要体现了该资源的种类、文件格式等基本信息。
唯一标识符系统平台的建设是建立唯一标识符体系的基础。根据《国家图书馆数字资源唯一标识符规范和应用指南》,国家图书馆进行了唯一标识符系统的前期需求调研和应用调研,于2011年启动了“国家图书馆数字资源唯一标识符系统”项目,〔14〕系统主要用于数字资源唯一标识符的注册、管理和服务,它不仅是国家数字图书馆工程的一个核心配套子系统,也是推广工程软件平台建设的一项重要内容。唯一标识符系统按照数据层、应用层和服务层三层结构进行设计,如图2所示,数据层依托ORACLE数据库存储和管理唯一标识符的注册数据,并利用ORACLE全文检索技术提供高效的检索能力;应用层采用J2EE架构,简化并规范了应用系统的开发与部署,采用标准的WebService接口实现了异构平台间的互通,有力保证了唯一标识符系统与各省、市图书馆业务系统的整合;服务层面向用户提供唯一标识符的注册、解析、机构管理以及数据管理等服务。
图2 唯一标识符系统结构图
服务体系建设是唯一标识符体系的核心环节,主要定义了一套两层的服务模型,即注册服务层和解析服务层。
( 1 )注册服务
国家图书馆为唯一标识符体系的中心节点,各省、市图书馆原则上都需要搭建系统环境,省级图书馆为二级服务节点,市级图书馆为三级服务节点。各省、市图书馆根据数字资源建设情况,可以建立唯一标识符的注册中心,独立完成本地唯一标识符的注册和管理。
公共图书馆之外其它有唯一标识符注册需要的单位,利用相应服务节点软硬件平台,申请成为注册机构,各注册机构获得命名授权后方可进行授权范围内唯一标识符的注册。
( 2 )解析服务
唯一标识符体系面向全球提供中文数字资源的唯一标识符解析服务。唯一标识符解析包含正向和反向两种解析模式,正向解析是通过唯一标识符获取资源的URL地址,该服务面向包括互联网用户在内的所有用户开放;反向解析是通过查询注册数据的相应字段获取资源的URL地址,该服务仅面向注册机构的用户开放。
唯一标识符解析体系采用分层解析的策略,系统根据唯一标识符的命名规则,首先选择指定的服务节点进行解析,如果该服务节点存在异常,则利用中心节点进行二次解析。通过唯一标识符的解析体系,可以实现资源的稳定定位,一个数字化对象的标识符一经产生就永久不变,不随其所标识的数字化对象的存储地址等属性的变更而改变,保证数据在互联网上的稳定性。
管理体系建设是唯一标识符体系运行的重要保障。建立高效、稳定的管理体系不仅可以实现各级节点数据和机构的有序运行,还可以保障公共图书馆唯一标识符各服务节点的安全稳定。
国家图书馆作为唯一标识符体系中心节点的管理者,提供唯一标识符系统的整体运行策略、标准规范、协调管理、技术支持等保障服务,作为国内唯一标识符行业代表与国际相关机构沟通联系。管理对象主要为服务节点,负责服务节点的申请、审批和考核工作,并对其提供技术和业务等各方面的指导,保存服务节点成功注册的唯一标识符数据。
服务节点是唯一标识符体系的重要实施运作机构。服务节点对本节点命名授权下的注册机构进行管理,负责注册机构的申请、审核、技术支持和业务培训工作,为注册机构提供账号维护和唯一标识符的注册、解析、管理和修改等多种服务。各服务节点应配合中心节点完成体系运行的各项辅助工作,协调并处理与注册机构之间、注册机构与注册机构之间的各类数据协同的问题。
注册机构作为唯一标识符注册的实体,向相应的服务节点申请,待审批通过以后,注册机构获得服务节点分配的操作账号后,对唯一标识符进行数据注册、修改、删除等操作,并自动逐级同步至中心节点备案存档。
近十年来,国内学者一直在跟踪和研究唯一标识符技术,已经从理论研究逐渐过渡到应用层面。然而,在图书馆领域,专业技术人才的缺乏和经费支持力度不够,唯一标识符技术的前期研究仅在少数图书馆开展,其推广和应用缓慢。
国家图书馆依托数字图书馆推广工程,联合全国各级公共图书馆共同建立起推广工程唯一标识符体系,形成公共图书馆行业的唯一标识符标准规范,以指导行业唯一标识符数据、系统和管理的建设;研制出系统平台,实现了行业内唯一标识符申请、注册、解析等各流程的一整套系统平台应用,以及通过接口扩展兼容国内外平台,为公共图书馆数字资源的集中揭示和统一调度提供相应的应用支撑;制定出数据、系统、运行的配套管理机制,为唯一标识符在全国各地顺利开展应用服务提供行之有效的保障。唯一标识符体系的建成,将推动各地数字图书馆建设的进一步完善,促进全国公共图书馆服务水平的提升。同时,建设我国具有自主知识产权的唯一标识符体系,还可以摆脱公共文化服务领域对国外系统和平台的技术依赖,这对于保证我国公共文化信息安全也具有重要的战略意义。
2.R.Moats.URNSyntax.May 1997.http://www.ietf.org/rfc/rfc2141.txt
3.ANSI/NISO Z39.56-1996 Serial Item and Contribution Identifier.http://www.niso.org/apps/group_public/download.php/6514/Serial%20 Item%20and%20Contribution%20Identifier%20%28SICI%29.pdf
4.SICI and BICI: Identifiers for Serials and Books.https://www.google.com.hk/#newwindow=1&q=BICI+SICI&safe=strict
5.Publisher Item Identifier. http://www.ch.ic.ac.uk/ectoc/ectoc_pii.html
6.Digital Object Identifier System. http://www.doi.org
7.Handle System. http://www.handle.net/documentation.html
8.ISO 26324:2012.Information and documentation--Digital object identifier system.http://www.doi.org/ISO_Standard/sc9n475.pdf
9, 10.DOI: Registration Agencies. http://www.doi.org/registration_agencies.html
11.CALIS数字对象唯一标识符命名规范.〔2007-10-09〕http://lib.njtu.edu.cn/pub/bjtu/xswhjl/gnpx/P020071009509903283516.doc
12.全国第五次公共图书馆评估定级综述.〔2013-09-13〕 http://ceshi.mcprc.gov.cn/sjzz/shwhs_sjzz/shwhs_gzdt/201309/t20130923_391926.htm
13.孙坦等.国家图书馆数字资源唯一标识符规范和应用指南.北京:北京图书馆出版社,2010
14.童忠勇,李志尧,孙秀萍.国家数字图书馆数字资源唯一标识符系统的设计与实现. 图书馆学研究,2013(21):53-58