周小萍 唐 维
(辽宁大学图书馆,辽宁 沈阳 110036)
关联数据、本体以及RDF等技术在互联网领域的应用宣布语义互联时代的到来,同时改变着传统的信息资源组织方式。文档的网络在向数据的网络迈进,数据的价值越来越体现在数据本身与其他数据的关联程度。图书馆作为传统的信息资源收藏及提供机构,虽然拥有大量的结构化数据,典型的包括书目数据及规范数据,但是由于基于MARC格式的书目结构是单一的线性排列,彼此之间缺乏必要的关联,同时书目数据的交换与共享仍需通过相应的协议(典型的Z39.50)才能实现,难以适应当前的网络发展环境,其价值与功能也难以得到充分的体现。故图书馆界一直在努力探索,试图改变现有的资源描述环境。在资源的内容描述规则方面,经过多年探索,不断地对AACR2进行修订,于2010年6月正式发布了基于FRBR模型的RDA;在书目结构方面,美国国会图书馆分类法(LC)发布了基于关联数据的书目框架BIBFRAME,并已实现了MARC21数据向BIBFRAME的转换。基于RDA及新的书目框架BIBFRAME的书目数据不再是单一的线性结构,而是彼此之间互联的立体网状结构,这样的书目数据结构能够更好地融入互联网,同时为基于图书馆资源的知识发现与获取提供极大的便利。而MARC21与CNMARC虽同由MARC发展而来,但由于受文献特征差异性及制定者主观因素的影响,二者在字段的设置及功能的实现上还是存在一定的差别,故若要实现RDA的中文化及CNMARC的BIBFRAME转换存在一定的困难。笔者旨在对RDA中所描述的“关系”进行分析的基础上,构建CNMARC的关联书目数据模型,从而为中文书目数据的关联式发布打下基础。
“关系”在编目学中一直占有举足轻重之位,编目是进行各类信息资源组织的基础,而最终面向用户的信息检索又正是以信息组织为基础。书目间的关系可分为内部关系及外部关系,内部关系是指书目实体内部各要素之间的关联,外部关系是指书目与书目之间的关联。内部关系满足了信息检索的精确性限定检索需求,而外部关系满足了信息检索族性检索的需求。而在语义网的环境下,对书目“关系”有了更近一层的要求,需要实现与更多外部资源的关联,一是为了突破当前书目只能进行内部信息交换的局限,改变数据孤立的局面;二是通过与外部资源的关联引导用户发现更多潜在的有价值的资源。而RDA为以上三种关系的描述与建立提供了良好的途径。
《资源描述与检索》(Resource Description and Access,以下简称RDA)是为了适应当前的数字网络环境,满足当下信息用户的知识发现需求而制定的国际最新的资源描述规则。相对于AACR2,RDA展现给我们的是一种全新的世界观。与原有的基于平面线性的资源描述方式相比,RDA以FR家族为思想基础,注重对于资源实体及属性关系的揭示与表达,呈现出一种多维度的立体网状结构。前面我们提到RDA的理论基础为FR家族,包括FRBR《书目记录的功能需求》、FRAD《规范数据的功能需求》及FRSAD《主题规范数据的功能需求》,但由于RDA发布之初,FRSAD的的编制尚未完成,故RDA的基础框架主要基于FRBR及FRAD来实现。笔者主要基于FRBR的概念模型来对RDA之间的关系进行剖析。
RDA以FR家族为框架而构建,围绕“实体-属性-关系”模型展开。无论是FRBR、FRAD或是FRSAD,都是以实体、属性及关系3个方面来对书目资源从内容规则角度进行描述的。实体对应于所描述资源对象及其所包含的若干数据元素;属性指实体所具有的特征;关系则是FR模型的重要内容,由两部分组成,即被关联的实体和关系类型。RDA中定义了四种关系:
(1)资源与资源之间的关系,对应于FRBR第一组实体之间的关系;
(2)资源与相关个人、家族和团体间的关系,对应于FRBR第一组实体与第二组实体的相互关系,描述了资源与责任的关系;
(3)作品、内容表达、载体表现和单件间的关系,对应于FRBR第一组实体内部间的关系;
(4)资源与概念、实物、事件和地点间的关系,对应于FRBR第一组与第三组实体间的关系,描述了资源与主题的关系。
资源与资源间的关系主要指作品与作品之间的关系,“作品”作为一个抽象的概念,指的是智力或艺术创作的行为。JSC的前主席芭芭拉.B.蒂利特把作品家族的关系划分为3类:等同关系、衍生关系及描述关系;
FRBR第一组与第二组实体之间的关系指第二组实体对于第一组实体所承担的责任方式,既包含创作者、编译者、制造者,也包含拥有者及收藏者等个人或团体;
FRBR第一组实体内部间关系是从抽象到具体过程,作品通过内容表达来实现,内容表达通过载体表现来实现物化,载体表现通过单件来例证;
FRBR第一组与第三组实体间的关系为主题关系,第三组实体从内容角度对第一组实体从各个方面进行揭示。
图1展示了基于FRBR关系的RDA实体间关系
图1 RDA实体间关系
CNMARC对于资源的描述侧重于其全面性及规范性,而缺乏对于记录与记录间以及其内部构成元素间彼此关系的揭示。CNMARC对于系统内记录间关系的揭示主要通过“4XX”连接字段来实现。连接字段可以连接与在编文献实体有关的其他实体的记录,或是在不存在被关联的记录时,可以标识被关联文献实体本身。目前的CNMARC记录可以通过连接字段实现以下几种实体关系的连接:
(1)通过410字段实现丛编项与分丛编实体的连接;
(2)通过422字段实现补编或是增刊与其正编或是正刊之间的关联;
(3)通过423字段实现合订本与被合订作品的单独书目实体的连接;
(4)通过430/440字段实现实体之间的继承与被继承关系,主要用于连续出版物的更名,实现更名前后实体之间的连接;
(5)通过451字段实现同一载体不用版本之间实体的连接;
(6)通过452字段实现不同载体之间的实体之间的连接;
(7)通过461/462字段实现具有共同题名的总集及分集之间的连接;
(8)通过488字段实现与在编文献实体相关作品之间的连接。
而实现系统内记录与外部数据之间的关联,则可通过$2及$3子字段来实现。$2在6XX主题字段中用于实现与词表《汉语主题词表》的连接,而$3子字段出现在CNMARC的5XX、6XX及7XX等字段中,可以实现记录与其他规范档,包括主题规范档、人称规范档及地理名称规范档等的连接。不同于上述4XX字段对于实体的连接是发生于系统内部,这种连接发生于不同系统之间,虽一定程度上为实现本地书目数据与外部数据集的关联提供了基础,然而距离本地书目数据发布为关联数据还有一定距离,原因在于其目前还不符合与关联数据发布的4个基本原则,技术层面需要实现的方面还有很多。此外,目前CNMARC对于4XX字段及$3子字段的规定都是选择性使用,尤其对于$3子字段,由于国内尚未建立起相关规范档的数据集,启用的频率普遍偏低,这就导致了CNMARC对于书目数据关系描述的缺失。
构建基于RDA关系的CNMARC书目数据关联模型,首先需要基于RDA的内部及外部关系对CNMARC的各字段及子字段进行分析,在此基础之上对原有字段进行解构再与RDA中的元素进行映射,进而构建基于RDA关系的CNMARC书目数据关联模型。
CNMARC以ISBD规定的著录项目为基础,设置了10大功能区来对编目资源进行描述。ISBD制定之初主要针对的是印刷型文献,虽后来为了适应网络环境下日益丰富的文献载体形式进行了增补和修订,但其本质还是为描述印刷型文献,故其规定的著录项目主要围绕印刷型文献的外部特征来进行,从若干方面来进行全部揭示,较少考虑文献的内部特征及各特征之间的关联。而RDA在沿袭了ISBD的传统之上,更是革命性的提出基于“实体-属性-关系”模型来对文献进行系统性的关联揭示,突出了所描述的资源与其他资源以及其属性之间的关联。故若要实现RDA应用于CNMARC,必须从“实体-属性-关系”出发,对CNMARC结构中的各字段、子字段甚至标识符进行解构,进而构建基于RDA关系的中文关联书目数据模型,从而为实现RDA的中文化打下基础。
目前,国外RDA的官方网站(http://www.rdajsc.org/,http://www.rdatoolkit.org/)已经推出了基于RDA格式的MARC21数据转化工具。而同为MARC格式,CNMARC与MARC21尽管在内容方面基本一致,但是在资源描述对象的划分、字段及子字段的设置、字段标识符的取值等方面均存在差异,故若要通过CNMARC与MARC21的映射为基础,进而实现CNMARC数据的RDA格式转换,虽理论上存在可能性,具体实践起来还有诸多方面的问题需要考虑及解决,所以我们不妨直接进行RDA实体属性与CNMARC字段的映射,再以此为基础构建扩展的中文书目数据关联模型。
FRAD主要涉及规范数据的功能需求,参考现行最新的书目控制理论,我们可以通过建立各类规范档与书目记录进行关联,故笔者主要通过FRBR所涉及的的实体以及属性关系为基础来进行映射进而构造中文书目数据的扩展模型。
FRBR定义了三组11个实体,“作品”位于整个结构的最高层,是一个抽象的概念,该实体的范围很难确定,FRBR定义了作品间的三种关系;“内容表达”是“作品”的实现方式,位于结构的第二层,仍然是一个抽象的概念;“载体表现”是“内容表达”的具体物理表现形式,位于机构的第三层,我们现在的书目记录实际上就处于该层;“单件”是“载体表现”的单一样本,位于结构的最底层,对应于图书馆中的馆藏项;“个人”、“家族”及“团体”3个实体,可以作为作品的责任者,也可以作为作品的主题而存在;“概念”“物体”“事件”及“地点”作为 FRBR 的第三组实体,用来揭示作品所表达或涉及的主题,现将这RDA记录属性、记录关系及记录间关系与CNMARC相关字段进行映射。根据需要增加3个新字段:236内容表达、237媒介类型、238载体类型。个人/家族/团体之间关系的表述在MARC21中仅存在于规范记录;概念/实物/事件/地点之间的关系为FRSAD中实体之间的关系,尚待补充;故不将这两种关系作为笔者的研究对象。表1所示为映射后的结果:
表1 RDA记录属性与CNMARC常用字段映射
表2 RDA记录关系与CNMARC常用字段映射
基于RDA的属性关系及上述映射,同时参照关联数据发布的原理以及BIBFRAME的模型及词表,对于每个属性、取值均以URI的形式进行标识,构建了如图2的中文关联书目简化数据模型。
图2 作品层简化模型
图3 单件层简化模型
图4 载体表现层简化模型
图2是作品层的简化模型,主要描述作品的内容信息,包括题名及主题分类;图4是载体表现层的简化模型,主要对资源从其物理载体的角度进行揭示,描述了资源的载体形态、出版发行、责任说明以及识别等相关信息;图3是单件层的简化模型,主要揭示馆藏方面的信息,包括机构排架号及收藏机构。3个模型可以从作品层到载体表现层再到单件层建立起纵向的层级关系,上一层的字段属性可以被下级继承。同时对于相关作品的描述,RDA定义了7种关系,分别为等同关系、描述关系、整体/部分关系、附属关系、继承关系、衍生关系及共有特性关系,这样建立了作品及相关作品的横向关系。由此整个书目模型从纵向及横向两方面建立起关联,同时记录内部,通过URI对资源的属性进行标识,建立起了有机的网状联系,突破了以往MARC的单一线性结构,对数据的描述实现了内容与载体及单件明显的区分。
笔者选取本馆7条馆藏中文书目记录,如表3所示,从题名、著者及出版社3个属性进行书目内部关联,结果如图5所示:
表3 馆内书目记录
图5 基于本馆书目的关联后模型
图5可以看出书目1和书目2通过题名URI(example001/title)实现了关联,同样的方法书目1和书目3、书目2和书目5通过出版社的URI实现了关联,责任者方面可通过本馆建立的人称规范档实现数据的关联,也可通过引入外部成熟的人称规范档资源的URI来实现。
目前尽管英、美等RDA的编制国每年仍对RDA进行大量修订,但RDA的实施已进入实质性阶段。在国内,CALIS方面从2014年宣布开始实施RDA,实质上是对于西文书目记录在进行套录的时候采用RDA记录,而鼓励有条件的图书馆提交原编的RDA记录。而对于RDA的中文化,国内图书馆界很多专家学者进行了相关理论及实践方面的研究,但尚未进入实质性的应用阶段。笔者对CNMARC进行了解构,并以RDA所描述的“实体-关系”为基础,构建了CNMARC的关联书目数据模型,希望能以此推动RDA在国内中文化的进程,进而促进语义网及关联数据等技术在图书馆中的应用。
[1]罗翀.RDA全视角解读[M].北京:国家图书馆出版社,2015:14.
[2]罗翀,李菡.解析RDA中的关系描述[J].数字图书馆论坛,2014(6):55-62.
[3]周德明.RDA:从理论到实践[M].北京:海洋出版社,2014:101.
[4]王松林.从423字段看CNMARC书目格式中的数据关联[J].图书馆学刊,2013(2):1-4.
[5]胡小菁,张期民.《资源描述与检索》的中文化[M].北京:国家图书馆出版社,2015.
[6]贾君枝,白林林.关联数据中CNMARC到MARC21的映射实现[J].国家图书馆学刊,2015(4):80-93.