关联数据时代的BIBFRAME 2.0

2018-04-04 07:55:22朱美华
数字图书馆论坛 2018年3期
关键词:词表编目书目

朱美华

(中山大学图书馆,广州 510275)

1 BIBFRAME 2.0国内外研究现状

BIBFRAME(Bibliographic Framework)是美国国会图书馆(Library of Congress,LC)联合Zepheira公司共同研发的书目数据模型。2011年,LC与Zepheira联合发起“书目框架先导计划”。2012年11月,BIBFRAME草案(即BIBFRAME 1.0)发布。随后LC联合美国国立医学图书馆、大英图书馆、德国国家图书馆、联机计算机图书馆中心(Online Computer Library Center,OCLC)等多家机构对BIBFRAME的功能进行大量研究和测试,于2016年4月正式推出BIBFRAME 2.0。国外的BIBFRAME 2.0研究主要围绕以下六个方面展开。第一,BIBFRAM 2.0核心类模型的阐释与分析[1]。第二,MARC21书目数据和BIBFRAME 2.0模型与词表的映射[2]。第三,不同资源类型的MARC21格式与BIBFRAME的转换与映射。第四,BIBFRAME 2.0的相关比较研究。Zapounidou等[3]探索语义网环境下BIBFRAME、FRBR(Functional Requirements for Bibliographic Records)、FRBRoo(FRBR Object-Oriented)、BIBFRAME 2.0和EDM(Europeana Data Model)的概念模型的异同;Taniguchi[4]不仅通过实例测试BIBFRAME 2.0对RDA元数据格式的适用性,还将BIBFRAME 2.0域名限定政策与其他域名定义方法进行比较[1]。第五,BIBFRAME与关联数据的关系研究。McCallum[5]从关联数据技术和环境的角度介绍书目框架先导计划的酝酿发展与未来工作;Zepheira公司推出Libhub Initiative作为测试环境,积极探索BIBFRAME和关联数据的前景,提升图书馆在万维网上的可见度[6]。第六,与BIBFRAME有关的实验项目和研究项目进展汇报。

相比之下,国内针对BIBFRAME 2.0在比较研究、实证研究和相关性研究方面与国外较大差异。主要体现在四个方面。第一,BIBFRAME 2.0与BIBFRAME 1.0的比较研究,多侧重在核心类的演变与比较研究[7]及词表的变化与分析研究[8]。第二,BIBFRAME2.0与FRBR、RDA的关系研究。聚焦于BIBFRAME资源类型与RDA内容类型的对应及BIBFRAME 2.0核心类与FRBR第一组实体的映射[9-10]。第三,CNMARC格式与BIBFRAME 2.0的映射比较与转换测试。许磊[11]依据BIBFRAME 2.0的实体分层结构探索BIBFRAME 2.0词表与CNMARC的映射;上海图书馆率先开启CN M A RC格式与BIBFRAME的转换方案研究,将150万余条CNMARC格式的中文图书书目数据转换为基于BIBFRAME 2.0的RDF(Resource Description Framework)数据[12]。第四,基于BIBFRAME 2.0的相关探索。主要涉及语义联合目录模式建构和测试[13]、数字图书馆语义搜索框架的核心功能模块的建立[14]。

目前国内研究存在四方面不足。第一,BIBFRAME对关联数据技术的运用研究有待深入。已有成果主要体现在如何运用RDF三元组对数据建模,业界需要更多关注如何运用关联数据原则与技术实现BIBFRAME在语义网环境下的功能需求。第二,BIBFRAME在资源编目体系中的相关性研究不足。数字时代的资源编目体系由“编目原则(Statement of International Cataloguing Principles,ICP)—概念模型(IFLA Library Reference Model,IFLA-LRM)—著录标准(International Standard Bibliographic Description,ISBD)—编目规则(RDA)—书目框架(BIBFRAME)”层级分明而彼此关联的部分组成。在该体系中,任何一个环节的变化都将产生多米诺骨牌效应。2016年ICP的更新和IFLA-LRM模型的推出带来RDA的重大改变,进而影响BIBFRAME。因此,对BIBFRAME的研究需要在视野上扩展到相关环节。第三,BIBFRAME 2.0的微观研究有待深入。BIBFRAME作为取代MARC的书目格式,首先要实现从MARC向BIBFRAME的转换,然后用BIBFRAME创建数据。因此,不仅需要了解转换工具,加强MARC书目记录、题名规范等相关转换规则研究,还需要掌握BIBFRAME编辑器的应用。第四,BIBFRAME在国内本地化研究有待加强。我国以CNMARC为主导的多种元数据格式的并立和不同图书馆管理系统的并存注定BIBFRAME在中国的实施将面临诸多困难,因此本地化数据格式与BIBFRAME的映射、本地化关联数据的发布及技术开发将成为国内研究的重点。

2 BIBFRAME的时代背景

BIBFRAME是以RDF为基础的书目数据格式,其目标首先是支持现有巨量MARC数据向BIBFRAME格式转换,然后在BIBFRAME格式中创建新数据,保证转换数据和新建数据在万维网上实现交换、发布和共享。MARC无法满足数字时代资源编目的需求,是催生BIBFRAME的重要历史前提,而语义网和关联数据技术的进步为BIBFRAME提供技术支持。

2.1 关联数据时代MARC的力不从心

诞生于20世纪60年代的MARC,在手工编目时代—计算机编目时代—联合目录时代的历程里,为图书馆编目工作的标准化和规范化作出无可辩驳的贡献。MARC采用可变长控制字段和可变长数据字段建立书目数据,前者只有字段名和数据元素,后者包含字段名、指示符、子字段代码及数据元素,每一个字段、子字段、指示符都有对应的含义。MARC最初为纸质文献编目设计,在资源类型日益丰富且复杂的互联网时代,其封闭与僵化的局限性逐渐暴露。首先,MARC与编目规则牢固绑定,如MARC21遵循AACR编目条例,目前正处于从AACR2到RDA的过渡期,而我国的CNMARC则遵循ISBD;其次,MARC采用ISO 2709作为数据交换格式,要求每条书目记录必须遵循标准的记录结构,包含头标、目次区和可变长字段三个部分;最后,存放MARC数据的服务器不能通过HTTP直接访问,图书馆自动化系统集成OPAC功能模块,要通过自动化系统接口根据用户的检索条件,从系统中获取MARC数据,再采用HTTP协议以网页的形式展示。

近年来,MARC僵化的局限性和封闭性一直饱受诟病,严重阻碍图书馆与外部世界的联系和共享。Tennant[15]阐明其对MARC的质疑,并推荐XML作为书目信息的标准,偏向通过自动迁移现存记录到新标准格式。RDA编目标准实施以来,虽然MARC为适应RDA编目作出改变,但不能从根本上突出RDA所强调的关联数据实体–关系模型,制约人们对RDA的理解,无法良好适应数字时代人们对资源描述的需求,促使其被新的编码格式BIBFRAME替代。

2.2 语义网和关联数据及技术的发展

语义网概念是由Berners-Lee于1998年提出,指以一定的方式定义与链接网络数据,使其能在各种不同的应用场景中有效地实现数据的发现、自动化处理、集成与复用[16]。语义网的实现基于XML和RDF来完成。2006年,Berners-Lee[17]提出关联数据概念,强调关联数据的发布应符合四个原则:使用URIs作为事物标识名称;使用HTTP URIs便于访问;访问结果以标准的形式(RDF及其查询语言SPARQL)提供;尽可能提供相关的URIs,使人们可以发现更多事物。以上原则规定关联数据发布的基本方式为“命名+编码”。可见,关联数据是实现语义网的关键技术。简言之,关联数据采用W3C(World Wide Web Consortium)的语义网标准RDF模型对数据建模,利用URIs作为标识机制命名数据实体,强调数据的相互关联和利于人机理解的语境信息。

随着语义网和关联数据概念的提出,图书馆界开始积极探索数据的语义化,并以关联数据的形式发布。瑞典国家图书馆于2008年尝试将瑞典联合目录发布为关联数据;英国图书馆将国家书目从MARC21格式转换为关联数据RDF/XML格式,并通过Web提供数据集的下载;2012年,OCLC开始将WorldCat数以亿计的书目数据发布为关联数据[13]。2009年,LC先后实现对主题标引词表、名称规范档、国家代码、语种代码等可控词表的语义化描述,为BIBFRAME奠定前期基础。可见,“书目框架先导计划”与相关领域数据的成功语义化和关联化互为经验参照,相互促进、相互合作。2011年5月,LC宣布新的书目框架先导计划聚焦于网络环境、关联数据原则和机制,以及以RDF为基础的数据模型[18]。对BIBFRAME与OCLC关联数据模型的关系和兼容性的探索,一直是LC与OCLC合作的重要内容。BIBFRAME的目标是将丰富的图书馆元数据与语义网关联,以多源语义数据满足图书馆用户需求。语义网的关键原则是不仅用关联数据格式曝光数据,还能实现数据与其他语义配置数据的关联,允许外部机构利用图书馆丰富的元数据以提升服务,同样,图书馆也可以重复使用外部机构创建的元数据。可见,BIBFRAME关联性的实现必须以关联数据为基础。

RDF是关联数据最基本的模型,由“资源(subject)-属性(predicate)-属性值(object)”三个基本元素构成,称为三元组。在图1中,“Democracy and disagreement”对应三元组结构中的subject,“has subject”对应predicate,“Democracy”对应object,而资源“Democracy and disagreement”的其他属性也均可通过三元组形式表达。如著者属性可陈述为“Democracy and disagreement—has author—Gutmann, Amy”。

图1 RDF三元组结构描述示例

三元组模型是一种抽象的数据模型,须经过序列化。序列化后的BIBFRAME数据中所包含的资源实体及其关系可被机器读取和理解,从而实现图书馆数据的普遍关联,帮助用户通过网络发现更多有用的图书馆数据资源。

3 BIBFRAME 2.0的特征分析

3.1 采纳并简化FRBR的实体–关系模型

FRBR通过实体–关系模型对书目世界进行抽象提炼,归纳出三组实体。BIBFRAME 2.0模型在实体、实体属性、实体关系方面对FRBR第一组实体既有继承又有发展,图2展示的就是BIBFRAME 2.0模型及其与FRBR第一组实体的映射。

图2 BIBFRAME 2.0模型与FRBR第一组实体映射

与BIBFRAME 1.0相比,BIBFRAME 2.0的重要变化体现在将BIBFRAME 1.0的作品、实例、规范和注释4个核心类精简为作品、实例和单件3个,取消规范和注释核心类,新增单件核心类。作品实体位于BIBFRAME 2.0的最高层,属于内容层,对应FRBR第一组实体的作品和内容表达。作品实体能集中不同题名或不同语种的同一作品,具有施事者、主题和事件等属性。其中,施事者指个人、家庭或机构通过角色与作品或实例相关联;主题指表达作品的一个或多个概念,包括论题、地点、时间词、作品、施事者、事件等;事件指发生的事情,可以是作品内容的记录。作品间的关系可通过主题、施事者和事件等属性建立,使作品间形成整体与部分、继承与被继承、衍生等关系。位于该模型第二层的实例实体是载体层,对应FRBR第一组实体的载体表现,具有格式和出版者等属性。其中,格式指资源类型,BIBFRAME 2.0规定该格式可以描述文本、数据集、静态图像等11种作品资源类型;出版者可以是个人或机构。单件实体位于模型底层,对应FRBR第一组实体的单件,具有馆藏和条码等属性,记录某一具体单册的物理位置、虚拟地址、条码等馆藏信息。3个核心类实体间包含作品“有”实例,实例“有”单件的关系,这些关系在模型中通过有向箭头及关系说明语明确标识。

3.2 走向开放的BIBFRAME 2.0

“书目框架先导计划”的目标是支持语义网技术的标准和格式,向所有数据和内容供应商开放。因此,开放是BIBFRAME 2.0的必备特性。

(1)BIBFRANE 2.0取消规范核心类及创作者、作品题名、规范检索点等属性。在传统编目中,规范控制是图书馆书目控制的重要环节,用以集中同一责任者的不同著作和同一著作的不同版本,从而保障查询的准确率。尤其在RDA编目标准实施的初期,规范检索点的概念和创建规则进一步被强调,但是在2017年初的RDA更新中,取消所有按名称、题名顺序构建作品规范检索点的规定。在关联数据时代,图书馆及各机构要实现所有个人、团体、会议、主题等描述的一致性是不可能的,也没有必要,因为在关联数据中,规范检索点和其他名称一样可以通过统一资源标识符或国际资源标识符达到机器可操作的目的。BIBFRAME中的“规范”可以取自传统的图书馆规范,也可采用非图书馆规范,或者关联的是非规范来源。所以,BIBFRANE取消“规范”类,将规范数据发布为关联数据。此外,更新词表又取消创作者、作品题名和规范检索点等属性,使传统编目强调的规范检索点“创作者+作品首选题名”构成失去依据。

(2)BIBFRAME 2.0直接复用其他关联数据词表。BIBFRAME词表在发布之初,“没有复用任何其他词表,也没有标示与现有词表中类和属性间的等同或其他关系”[7]。其原因在于对外部命名空间的稳定性没有足够信心,因此自定义所有的类和属性,只采用本身的命名空间,关联数据提倡开放、关联、共享,BIBFRAME词表的封闭性不符合关联数据特性,也为实际工作增添重复劳动。2015年,Sanderson[19]在报告中提出关联数据的最佳实践途径是在建立自身词表时,采纳已有词表中的类和属性。BIBFRAME 2.0彻底改变了BIBFRAME 1.0的保守做法,直接复用其他成熟的关联数据词表,引入来自外部本体稳定的类和属性。

4 BIBFRAME在中国的前景探讨

在2015年美国图书馆学会年会上,来自LC的代表宣布美国国会图书馆计划在2020年底实施BIBFRAME[20]。本文认为BIBFRAME在中国的实施短期内不容乐观,主要基于以下因素的考量。

(1)BIBFRAME尚待完善。①BIBFRAME将随着资源编目体系相关环节的更新而变化。近年来,资源编目体系的更新都围绕数字时代、关联数据环境下用户群体和用户任务的变化,以及数据的互操作性、开放性和可访问性进行。2016年,IFLA推出IFLA-LRM模型,重新定义用户任务,实现对FR家族的整合。随后RDA指导委员会宣布采纳新模型,2017年4月启动“3R项目”,受RDA直接影响的BIBFRAME将发生变化。②BIBFRAME在测试过程中暴露出不少问题。2015年9月—2016年3月,BIBFRAME第一阶段的试点项目遭遇搜索BIBFRAME记录困难,不能在BIBFRAME中创建规范记录;加州大学洛杉矶分校图书馆在本馆连续性资源MARC数据向BIBFRAME格式转换过程中发现不能通过BIBFRAME充分利用关联数据环境提供的资源、BIBFRAME记录馆藏的方法需进一步测试等问题[20]。③BIBFRAME 2.0编辑器还未发布,BIBFRAME 1.0编辑器存在实体查询功能还不健全、在搜索查询中不能处理连字符等问题。随着BIBFRAME 2.0编辑器的发布,新一轮测试将成为BIBFRAME实证研究的重要途径,其成果将为BIBFRAME在中国本地化研究的开展提供借鉴。

(2)BIBFRAME的高技术门槛。为实现从MARC向BIBFRAME的转换并最终实现用BIBFRAME创建新数据,LC组织多项与BIBFRAME相关的技术开发。如BIBFRAME编辑器、MARC21向BIBFRAME 2.0的转换工具、MARCXML向BIBFRAME的转换软件等。同时,许多机构参与BIBFRAME的应用测试和技术研发。VTLS公司积极参与BIBFRAME研发,推出支持BIBFRAME的Open Skies图书馆服务平台;Adamich[6]介绍了Libhub Initiative,宣称其目标是“发布BIBFRAME资源,实现其在网络上检索,通过资源的交叉关联,提高用户在开放网络发现资源的可能性”。国外图书馆及系统商对BIBFRAME相关技术的开发,为我国提供有意义的借鉴。但是,技术开发必须立足本地化,一切技术都要充分考量我国现有的元数据格式、图书馆自动化管理系统等因素。另外,BIBFRAME在国外尚处于实验阶段,在国内,除个别同行对其应用进行探讨外,绝大多数业内人士对BIBFRAME还停留在“概念”阶段。如果没有专项资金支持,无论是图书馆还是系统开发商,都囿于人力和资金的缺乏,很难投入太大的热情进行研发。截至目前,国内大型图书馆系统商中仅Ex Libris宣布实现BIBFRAME路线图,即首先在BIBFRAME格式中实现从MARC到BIBFRAME的转换,随后支持BIBFRAME URIs,允许图书馆外的用户使用图书馆数据。

(3)CNMARC的现状。国际上通用的MARC格式是MARC21和UNIMARC。在我国,中文、日文及国内少数民族语言文献编目,采用以UNIMARC为基础的本地化格式CNMARC,其他语言文献编目采用MARC21。中文文献著录格式,除常见的CNMARC外,一些机构对古籍、拓片、家谱等特殊资源类型的描述采用DC等元数据格式。多种元数据格式的存在是书目数据BIBFRAME化必须要考虑的现实,MARC21和DC等元数据格式向BIBFRAME的转换有国外的经验可以参照,国内研究者需在本地技术支持下处理好这些数据格式的本地化内容与BIBFRAME的映射。CNMARC格式数据的转换,则完全靠自我探索,一定是建立在CNMARC格式与BIBFRAME深入的映射研究与成熟的转换测试之上。目前,国内针对CNMARC格式与BIBFRAME的映射研究尚未引起普遍重视。CNMARC要走向BIBFRAME,需完善现有通用词汇表并将之纳入BIBFRAME体系,将《中国图书馆分类法》《中国分类主题词表》、中文名称规范档等属性值词表发布为关联数据。关联数据的探索已在国内少数图书馆引起重视,如国家图书馆、上海图书馆、深圳大学图书馆。国家图书馆于2009年底启动“国家图书馆知识组织规范”项目,上海图书馆已将人名规范、地理名词等规范数据库发布为关联数据,深圳大学图书馆的NKOS研究室已将《中国图书馆分类法(第四版)》和《中国分类主题词表》的第一版和第二版发布为关联数据。在数字环境的驱动下,关联数据的研究与实践需在图书馆领域引起更大程度的重视。虽然LC没有宣布RDA会成为BIBFRAME的标准,但是在实际进程中,BIBFRAME受RDA的直接影响,吸纳了RDA的很多成果。RDA作为新的编目规则,目前在我国只应用于MARC21,且尚未全面覆盖。CNMARC何时采纳RDA规则,还未提上议程。全国信息与文献标准化技术委员会完成的《资源描述》国家标准的术语虽然与FRBR、ISBD统一版以及RDA国际标准的专业用语保持一致,但目前只是将FRBR模型中载体表现层的描述规则纳入其中,要全面实现遵循RDA的体系和框架仍有待时日。

5 结语

BIBFRAME是为满足关联数据时代的资源描述需求而诞生的,是被定位为取代MARC的新数据格式,发布以来一直是业界关注的重点。BIBFRAME展现的强大生命力是不可否认的,但同时需要对其保持理性的态度:首先,BIBFRAME诞生的最直接原因是传统的MARC格式在数字时代的局限性所致,但正因为MRAC长期以来对编目规则的坚守,才保证了数据的规范性,确保将来MARC数据向BIBRAME的顺利转换,因此,MARC的历史意义是不可抹杀的;其次,BIBFRAME尚处实验阶段,在未正式实施BIBFRAME前,MARC仍然是普遍通用的数据格式,因此,MARC现存的必要性是不可否认的,不能一味关注BIBFRAME而过早抛弃MARC;最后,在未来,BIBFRAME将在图书馆与外部世界的广泛联系中承担重要角色,它所展示的未来书目世界是一个全新的领域,广大编目员应该积极面对这一挑战,转变观念,全面掌握BIBFRAME及相关知识和技术,用专业知识帮助图书馆实现从孤立的发现环境走向关联开放数据的广阔世界,进而促进图书馆重新构建自己在整个社会信息基础结构中的地位。

[1]TANIGUCHI S. Is BIBFRAME 2.0 a suitable schema for exchanging and sharing diverse descriptive metadata about bibliographic resources?[J]. Cataloging & Classification Quarterly,2018,56(1):40-61.

[2]XU A,HESS K,AKERMAN L. From MARC to BIBFRAME 2.0:crosswalks[J]. Cataloging and Classification Quarterly,2017(11):1-27.

[3]ZAPOUNIDOU S,SFAKAKIS M,PAPATHEODOROU C.Representing and integrating bibliographic information into the semantic web:a comparison of four conceptual models[J].Journal of Information Science,2017,43(4):525-553.

[4]TANIGUCHI S. Examining BIBFRAME 2.0 from the viewpoint of RDA metadata schema[J]. Cataloging and Classification Quarterly,2017(6):1-26.

[5]MCCALLUM S H. BIBFRAME development[J]. JLIS It,2017,8(3):71-85.

[6]ADAMICH T. BIBFRAME,libhub,and linked data catalogs[J].Technicalities,2016,36(1):16-18.

[7]胡小菁. BIBFRAME核心类演变分析[J]. 中国图书馆学报,2016(3):20-26.

[8]辛苗. BIBFRAME 2.0词表变化分析[J/OL]. 图书馆杂志,(2017-09-29)[2018-02-03]. http://kns.cnki.net/kcms/detail/31.1108.G2.20170929.1009.004.html.

[9]宋丹辉. 新型书目框架BIBFRAME发展及演化研究——兼论对MARC及RDA的改进[J]. 现代情报,2017,37(1):51-56.

[10]朱美华. 浅议BIBFRAME 2.0的特征及其在中国的前景[C]//新媒体时代下信息组织方法的创新与发展——第五届全国文献编目工作研讨会论文集. 北京:国家图书馆出版社,2017:99-106.

[11]许磊. CNMARC与BIBFRAME映射即实现——以上海联编中文普通图书数据为例[C]//新媒体时代下信息组织方法的创新与发展——第五届全国文献编目工作研讨会论文集. 北京:国家图书馆出版社,2017:30-42.

[12]夏翠娟,许磊. 中文关联书目数据发布方案研究[J]. 数字图书馆论坛,2018(1):8-16.

[13]林泽斐. 语义联合目录:基于BIBFRAME 2.0的联合目录建构[J].知识管理论坛,2016(6):440-448.

[14]齐云飞,赵宇翔,朱庆华. 基于BIBFRAME的数字图书馆语义搜索框架研究[J]. 图书与情报,2017(1):74-81,26.

[15]TENNANT R. MARC exit strategies[J]. Library Journal,2002,127(19):27.

[16]阮光册. 基于URI+RDF实现关系数据库数据发布[J]. 图书情报工作,2013,57(1):119-123.

[17]BERNERS-LEE T. Linked data[EB/OL].(2006-07-27)[2018-01-03]. https://www.w3.org/DesignIssues/LinkedData.html.

[18]GUERRINI M,POSSEMATO T. From record management to data management:RDA and new application models BIBFRAME,RIMMF and OliSuite/WeCat[J]. Cataloging &Classification Quarterly,2016,54(3):179-199.

[19]SANDERSON R. Analysis of the BIBFRAME ontology for linked data best practices[R/OL].[2017-07-03]. https://docs.google.com/document/d /1dIy-FgQsH67Ay0T0O0ulhyRiKjpf_I0AVQ9v8FLmPNo.

[20]KELLEY S. Continuities:the smaller library staff’s perspective on BIBFRAME[J]. Technicalities,2016,36(6):9.

猜你喜欢
词表编目书目
推荐书目《初春之城》
都市人(2022年3期)2022-04-27 00:44:57
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
英语世界(2021年13期)2021-01-12 05:47:51
国家图书馆藏四种古籍编目志疑
天一阁文丛(2020年0期)2020-11-05 08:28:36
粤剧编目整理之回顾与展望
戏曲研究(2017年3期)2018-01-23 02:51:01
叙词表与其他词表的互操作标准
图书馆编目业务外包发展探讨
河南科技(2014年22期)2014-02-27 14:18:37
国外叙词表的应用与发展趋势探讨*
图书馆建设(2012年3期)2012-10-23 05:16:30
本刊邮购书目
常用联绵词表
对联(2011年20期)2011-09-19 06:24:36
图书在版编目(CIP)数据
全国新书目(2009年8期)2009-05-22 11:31:16