,
图书馆一直承载着保存和展示人类文化遗产、传承和推广思想智慧结晶、挖掘和开发信息资源、组织和参与社会教育等使命和职责。古往今来的图书馆以雄厚的知识和技术储备为前提,拥有使用最先进的科技手段以实现规模经济的悠久历史[1]和丰富的经验。图书馆是目录检索的发源地,从卡片编目发展到计算机时代的机读目录,图书资源得到有效分类和整理。
1966年,MARC(Machine-Readable Cataloging,机读编目格式标准)记录格式诞生于美国;1973年, MARCⅡ被ISO((International Organization for Standardization, 国际标准化组织)审定为国际通用标准。由于其规范性和通用性受到全世界推崇和应用,极大地提高了编目效率。
但随着时代的变迁,图书馆存储内容日趋丰富和多样,加之管理互联网数据的新需求,被定义为不定长字段的紧凑型格式只能提供给图书馆的OPAC服务的MARC结构,已经阻碍了元素分隔以及在关联数据环境中使用URL的能力,无法适应网络时代和图书馆2.0的要求。美国国会图书馆和OCLC(Online Computer Library Center,联机计算机图书馆中心)都宣布,将于2016年停止对MARC格式的支持[2],这就意味着MARC不得不退出书目控制的历史舞台。寻找MARC数据的后继者的任务迫在眉睫。
面对互联网信息空间的资源需求,英国国家图书馆、加拿大图书馆和档案馆、美国国会图书馆等联合发起,潜心制定和搭建了包括DCMI( Dublin Core Metadata Initiative,都柏林核心元数据)、MODS(Metadata Object Description Schema,元数据对象描述模型)、BIBO(Bibliographic ontology,书目本体)、语义网领域、巴黎原则、基于ONIX(Online Information Exchange,在线信息交换)标准的载体术语和RDA(Resource Description & Access, 资源描述与检索)标准在内的各类数据原则、书目标准和标准平台[3]。这些原则和标准,成为书目框架计划BIBFRAME(The Bibligraphic Framework Initiative)的理论基础,为构建MARC格式通往互联网世界的桥梁提供了支点。
BIBFRAME是美国国会图书馆和来自Zepheira的小组合作开发的,也被称为书目数据格式。作为目前MARC格式超越者的有力候选,意在取代MARC成为语义网应用中新一代书目数据编码格式。
为阐明BIBFRAME的体系结构,必须从RDA谈起。RDA是以AACR2(Anglo-American Cataloguing Rules,英美编目条例第二版)为基础,建立在IFLA(International Federation of Library Associations and Institutions ,国际图联)提出的FRBR(Functional Requirements of Bibliographic Records,书目记录的功能需求)和FRAD(Functional Requirements for Authority Data,规范数据的功能需求)概念模型以及ICP(International Cataloguing Principles,国际编目原则声明)基础之上的一种新的编目内容标准,它具体规定了文献编目工作的著录内容;而BIBFRAME实体包括作品、实例、规范和注释,相当于建立在RDA内容标准之上并与RDA标准兼容的书目数据格式[4]。
RDA和BIBFRAME都在刚刚起步阶段,其内涵和外延还处于不断变化的状态。BIBFRAME的提出,意在将图书馆的现存海量数据完美表现为关联WEB数据格式[5],并且能够定义和表达网络数据,使数字图书馆在工业革命4.0的物联网世界中得到生存和发展。
为避免成千上万的编目员重复描述相同的资源,达到“一次编制,无限通用”的设计宗旨,数据模型和格式必须保持相当长时间的稳定性,且数据格式在网络系统中具有可识别性。也就是说,BIBFRAME格式需要具备共享性、标准性、稳定性和低成本的设计属性。BIBFRAME格式被设计为融入和参与到更广泛信息社会中,也同时服务于其使用群体(图书馆以及类似存储机构)的明确需求,决定了归属性、唯一性和关联性是它的3个基本要素[6]。归属性明确区分概念性内容和它的物理表现(如作品和实例),唯一性致力于明确识别信息实体(如规范),关联性具备表达各实体间相互关系和相互作用的能力。
当用户使用百度、谷歌等搜索引擎或是微信、Facebook等社交网络查找信息时,图书馆的资源入口甚至是发现系统也被抛在脑后,图书馆无形中成为一个信息孤岛。而BIBFRAME模型就是为了打开图书馆通往互联网世界的一把钥匙,把传统编目数据融入网络元数据,通过图书馆的介入,帮助用户快速得到更准确更可靠的答案。
BIBFRAME的模型主要有以下几种[6]。
创作性作品(Creative Work):反映编目资源概念实质的资源,不同于FRBR/RDA中的作品,相当于其实体中的作品(Work)和内容表达(Expression)。
实例(Instance):反映作品的个例的物理载体表现的资源,相当于FRBR/RDA中的载体表现。一个作品可以对应多个实例,但一个实例只能对应一个作品,而且每个实例都可以用URI标识。
规范(Authority):反映关键规范概念的资源,这种关键概念定义了作品和实例所反映的关系,规范资源包括人物、地点、主题和机构等。提供一个轻量级的抽象层,使Web级的规范控制更为有效。
注释(Annotaion):提供更多关于BIBFRAME作品、实例或规范的描述信息,为作品提供评论、目录、摘要等信息,可以为实例提供封面、馆藏等信息,为名称规范提供作者的传记信息等。此外,还可以提供管理性元数据。
由美国国会图书馆和来自Zepheira的小组合作开发出一套运用RDF(Resource Description Framework,资源描述框架,一种用于描述Web资源的标记语言)编制的BIBFRAME词汇表[7]。此词汇表原来发布在美国国会图书馆的下属网址http://loc.gov/bibframe/vocab/ 中,后来又转移到 http://bibframe.org/vocab/的统一网址下。从现在进行中的BIBFRAME开发来看,不再像DCMI那样严格控制元素和术语的数量,而是根据实际需要,经过一定的内部讨论流程,随时发布和修订词汇表。
目前词汇的主要来源是MARC、FRBR、RDA、DC和VAR等相关业界的元数据规范,包括实体类、属性和资源类型取值。截至2014年12月,该网站发布相关词汇200余条,每个词表都用URI标识并赋予标签,并欢迎元数据工作者增加、修改和补充词汇。
BIBFRAME初步发布了以下12种创造性作品的资源类型:语言资料和地图(Language material,Cartography),数据集(Data set),乐谱、舞谱(Notated Music,Notated Movement),音频资料(Audio Dodument),静态图像(Still Image),动态图像(Moving Image),三维物体(Three Dimensional Object),软件与多媒体(Software & Multimedia),混合资料(Mixed Material)资源集合(Collection),手稿(Manuscript),触觉资料(Tactile)[8]。
BIBFRAME模型对资源类型的定义既具备科学性和严谨性,又具备实用性和兼容性,应用的时候可以任意组合,基本能够从概念层面覆盖现存的图书馆及相关存储机构的常用资源对象,比RDA中利用内容类型、载体类型和媒体类型三方面组合的定义方式更加简便易行,更加容易推广和实践。
自从2011年5月美国国会图书馆正式宣布与以语义技术起家 的Zepheira公司合作开发BIBFRAME以来,BIBFRAME书目数据新格式日渐清晰,可以预见到数字图书馆的崭新时代即将到来。由于BIBFRAME的内容涉及10余年来互联网和图书馆领域的多项前沿技术,而且中文资源近乎为零,研究门槛很高。
本文通过对BIBFRAME这种书目数据新格式的研究背景、体系结构、属性和内容的具体描述,为读者初步了解和掌握BIBFRAME书目格式打下良好的基础,也为图书馆员及其他数据工作者参与开发和实践BIBFRAME提供一些参考。