刘炜 夏翠娟
摘要:MARC格式被认为是目前制约图书馆数据开放利用的最大障碍,已经不适合当前的编目环境。基于书目控制的历史和当前背景及需求,通过剖析新的书目框架格式BIBFRAME的关联数据模型、需求与用例、工具与服务,分析其开放性、语义化、向后兼容性等特点,提出其在应用上将遇到技术门槛过高、与FRBR/RDA等已有标准的融合与冲突、与Shema.org的竞争与合作关系等问题。BIBFRAME不仅是MARC的替代品,还将为图书馆数据融入更广阔的互联网环境带来巨大的潜力和可能性。
关键词:MARC 书目框架 语义网 关联数据
书目数据是图书馆进行书目控制的重要基础,是揭示馆藏、开展服务的主要工具,也是传统图书馆对于知识进行组织和整序的最有价值的贡献。数字时代的书目数据虽然只是图书馆类型丰富的元数据中的一种,但它肩负着将纸媒带人数字时代的重任,同时又是出版物得以传播利用的重要桥梁,因此其重要性并没有降低。当前最大的问题是如何将书目数据开放成真正的万维网上的数据?这其实并不是系统实现问题,而是书目数据格式问题。由于语义技术的发展,人们才真正明白,MARC格式是当前制约图书馆数据开放利用的最大障碍,网络时代呼唤新的书目数据格式。
1 背景和历史
MARC格式设计于上世纪60年代末。当时计算资源极其匮乏,计算机速度慢,存储介质昂贵,以磁带这种顺序存取介质为主,因此MARC记录格式(即2709格式)被设计为不定长字段的紧凑型格式,以记录为单元,每条记录代表一个编目单位。MARC最初的设计目的是为了打印目录卡片,后来有条件的图书馆逐渐开放了检索终端,发展为后来的标准OPAC服务。由于磁带格式只能顺序检索而无法随机存取,因此在格式中设计了很多机器识别码、记录及字段子字段标识,以便能通过倒排索引而迅速定位检索。后来虽然随机存储介质(磁盘)和关系型数据库技术得到普及,但2709格式依然作为MARC记录的交换格式,图书馆的MARC记录虽然都可以通过万维网查询,但除了按照客户机/服务器时代研发的Z39.50标准开放API接口之外,基本没有其它互操作方式,MARC数据一直被牢牢地圈养在每个图书馆的OPAC范围内,缺乏方便地生成一个国家或地区的总书目或联合目录的技术和能力,更不用说开放给整个社会各相关行业使用。
当今的信息服务业有这样一个趋势:凡是互联网上不存在的,基本上是可以被忽略的。图书馆作为一种向大众传播知识的社会机构,如果遭到大众的忽略,就无法充分实现其职能,因而也无法实现其价值。自MARC产生到现在已经过去了半个世纪,随着技术的发展、信息大环境的改变,读者利用图书馆资源的对象和方式也发生了巨大的改变。MARC格式的种种局限在网络时代越来越成为一个绊脚石,越来越阻碍图书馆行业成为一个与其地位相称的网络存在:首先,互联网让计算机不再是简单的数据处理工具,而成为全球信息空间的一个个节点,书目控制不再局限于某一台机器、某一个系统、某一家机构,而需要在图书馆以外的网络空间进行传输和交换,MARC因其领域上的封闭性已无法满足这种需求。其次,图书馆要保存和处理的资源不仅限于传统的印本图书,还包括诸如电子文献、网页、图像、多媒体等复杂的资源类型,而MARC是为印本图书设计的,虽然曾在网络资源的描述上做过一定的努力(856字段),但效果并不理想。
都柏林核心元数据组织(DCMI)很早就看到了MARC对网络应用的不适应,从上世纪90年代中期开始发起了一轮新型元数据研发风暴,试图为MARC等传统的文献描述方式找到替代者。都柏林元数据核心集、术语词表、抽象模型及应用纲要等都是DCMI为网络时代书目控制做出的重要贡献。对于图书馆元数据,DCMI很早就提出一套名为“图书馆应用纲要”的元数据方案,试图实现类似MARC的描述功能,但这个方案只是一个属性元素集合,相对于MARC这种既包含丰富得多的属性元素集、又含有著录和语法编码规则的“复合型”标准来说,远不能满足实际需要,因而一直缺乏大型图书馆的支持而始终停留于草案阶段,未能成为DCMI的推荐规范。在数据编码方式上,MARC虽然号称“机读”,但是其各种内部格式只是被计算机读取,而无法被机器“理解”。DCMI尝试引入RDF/XML作为语义描述规范,但由于图书馆通行的编目规则(AACR2)是和MARC配套的,无法直接采用RDF编码,而且语义技术的实用化也有一个过程,当时还不足以支持大规模的应用,因此MARC的地位长期以来难以撼动。
国际图联1998年出版了《书目记录的功能需求》(FRBR)报告12],提出与书目描述相关的三类实体、属性及其相互之间的关系,指出传统的MARC无法满足报告中提出的这种层次化的、全网域的“查找、标识、搜索和获取(FISO)”四方面的需求。随着以兼容过去并实现FRBR为目标的RDA编目规则的出台,美国国会图书馆对MARC21进行了大量扩展,人们对MARC格式的不满达到了一个顶点。
呼吁以新的书目格式取代MARC的呼声早已有之,进入新千年之后更是不绝于耳。加州大学数字图书馆项目前经理、现任OCLC高级项目主管Roy Tennant在2002年公开喊出MARC Must Die(MARC必须死)。但它为什么还死不了呢?最主要的原因是一直没有一种能够满足网络时代书目数据功能需求的书目格式来取代它。
美国国会图书馆2006年12月成立了未来书目控制项目组,2008年1月提交最终报告On the Record,表明将书目控制向万维网推进的积极态度,引发巨大争论。OCLC领导了WaC的Schema书目扩展社区的研究工作,通过对一种由Google、Yahoo和微软等提出的Schema.org编码推荐规范进行扩展,在其WorldCat中尝试基于Schema.org的书目格式,实现基于FRBR的RDA编目数据的网络化。所有这些探索都指向一个目标:直接用万维网原生的技术——即以URI、HTTP、HTML/XML为代表的技术来处理和发布信息。