图书馆中文关联书目数据实现的初步研究

2016-11-22 03:45苏建华
高校图书馆工作 2016年5期
关键词:词汇表词表字段

●苏建华

(西南政法大学 重庆 401120)



【资源·共享】

图书馆中文关联书目数据实现的初步研究

●苏建华

(西南政法大学 重庆 401120)

用URI作为书目记录的名称,通过使用HTTP、URI将书目数据发布为关联数据是目前国外图书馆的发布关联数据的常用做法,这样不但可以定位到书目记录,而且可通过相关数据项的URI链接发现更多的书目数据对象,实现真正意义上的数据开放和共享。关联数据的运用可以促进图书馆加强数据资源整合、扩展图书馆服务平台和提升社会服务能力,图书馆应该抓住这一历史机遇,合理利用关联数据增强用户体验、提高资源的被发现率和扩大图书馆书目数据的社会化参与程度。参考文献10。

关联数据 图书馆书目 中文书目数据

目前图书馆关联数据主要应用于3个方面:图书馆记录集、词表和元数据元素集,国外图书馆的书目记录、名称规范档、分类表、词表及本体都已相继实现了数据关联化,美国国会图书馆、瑞典、德国、法国、匈牙利以及英国等国家图书馆都将本馆的书目数据发布为关联数据,建立了与其他资源的链接,实现了图书馆书目数据的开放与共享[1]。与国外相比,国内书目数据的关联化仅在文献介绍中可见,缺乏实践应用项目。因此,如何将中文书目资源转换发布为关联数据,已成为当前国内图书馆界亟需研究的重要课题。

1 关联书目数据的意义

书目数据的关联化,其实质是把书目数据发布为关联数据。书目关联数据化在数据层建立链接机制,通过URI关联相关信息来实现多类型知识内容的整合,用户检索查询书目信息时能够扩展链接到更多的责任者、丛编、主题、馆藏及国外图书馆的相关资源,实现了图书馆书目数据与外部数据相关数据的关联[2],增强了现有书目数据体系的社会化应用程度。

1.1 实现元数据的开放与共享

图书馆关联数据的本质就是书目数据中各个元素的互相关联,开放书目数据使用URI作为书目记录的名称,通过赋予个人名称、主题、丛编项等一个唯一的名称标识URI,建立跟个人名称规范、丛编项、主题规范等的关联链接,而个人名称、丛编、主题等的URI又提供其有关联意义数据项的URI链接,便于用户从一条书目记录能扩展检索到更多的相关信息[3],这种相互关联的数据使图书馆资源融入互联网知识网络成为可能。

1.2 提高图书馆资源被发现的机率

目前,图书馆书目数据主要应用于图书情报领域,社会化开放程度与认知程度较低,MARC的局限性使得书目数据无法实现扩展功能。书目数据扩展与关联技术的发展促使图书馆书目数据的开放著录和关联发布成为可能,例如,德国国家图书馆的书目关联数据责任者关联可以发现作者的出生年代、职业、出版作品等信息。可以说通过开放书目数据的发布,图书馆实现了与外部海量相关信息资源的聚合链接,增加了用户浏览网页资源发现图书馆资源的机率,使书目资源和网络资源的集成成为可能[4]。

1.3 提升图书馆书目数据的社会化程度

关联数据采用属性的描述方式使书目数据的分面显示成为可能,读者在检索时可以通过分面限定来提高检索命中率。另外,图书馆开放书目数据后,图书馆书目元数据与用户生成的社会类元数据更易于合并,合并后的数据不但能提供丰富完整的元数据描述,还能提供用户使用偏向的说明信息,如点击数、下载量、评价以及推荐等,这样图书馆就能基于数据分析各类资源的使用量和用户使用资源的方式,从而在引进资源时做出正确决策[5]。

2 图书馆关联书目数据的实现方法

2.1 现有典型案例介绍

关联数据是语义网的一个简单应用, 采用RDF三元组的主-谓-宾作为基本数据模型,用来在语义网中使用RDF和URI发布连接各类数据和信息。目前图书馆的数据主要有数据集、词汇表和元数据集三部分。数据集主要是MARC记录,词汇表主要是各种分类和主题词表,定义资源描述的规范化词汇;简单知识组织系统( SKOS) 、都柏林核心元素集(DC)、书目本体(BIBO)、朋友的朋友(FOAF) 等元数据集是资源描述的标准[6]。书目记录、用户使用资源的信息数据都是图书馆开放书目数据的基础,但长期以来图书馆书目数据描述都是严格按照各种受控词表进行的,因此国外图书馆的开放书目数据都是从公开各类型词汇表开始,例如,美国国会标题表、杜威十进分类法、虚拟国际规范文档(VIAF) 等。当今国外图书馆已投入应用的关联数据项目有英国国家书目(BNB)、OCLC 的 WorldCat、美国国会图书馆的 BIBFRAME 项目、欧洲数字图书馆 Europeana 项目、美国数字公共图书馆DPLA 项目。这些项目对图书馆关联数据的内容描述规则、本体模型及词表、数据模型及格式和数据消费方式等方面做出了探索和规定,构建了具有包容性和开放性的本体模型来整合多家文献收藏单位的资源,实现了资源之间的关联、重用与共享。上述案例中在国内影响较大的是BIBFRAME项目,该项目采用RDA、BIBFRAME词表、RDF/XML、JSON模型、数据转换工具以及SPARQL将MARCXML 格式的数据转换成 BIBFRAME数据。

2.2 图书馆关联书目数据的实现

图书馆关联数据发布实现流程中,涉及到数据模型的构建、词汇表的选择、MARC格式与RDF的映射等,最关键的一步是如何将MARC格式转化为RDF格式,基于此,本文借鉴上述典型案例的成功做法,归纳总结CNMARC格式转换为RDF格式的流程。

(1)建立数据转化模型。图书馆关联数据模型中所定义的类、属性已有成熟的词表可利用,图书馆发布关联数据时尽量要使用现有词表,因为词表重用可通过元数据的相互引用提高词表间的互操作,减少对本地元数据的管理负担,图书馆应使用多个通用词表和专用词表作为描述书目记录的命名空间,定义相应描述实体的类和属性。在进行RDF表达时,使用对应命名空间中的类或属性标签来描述对应信息。如同本体一样关联数据需明确实体及实体之间的关系,需对实体进行URI命名,确保实体的唯一性、可获取性。实体多指存在的事物与对象,不同领域实体的表现形式不一样,如FRBR模型将实体分为作品、责任者、主题3种类型,BIBFRAME模型中则分为作品、实例、规范、标注4种类型。图书馆发布关联数据时,可依照RDF和BIBFRAME模型建立数据模型,如大英图书馆将书目数据发布为关联数据时将资源实体分为书目资源(resource)、连续出版物(series )、主体( agent )、概念(concept)4种类型,分别建立了出版事件、责任者信息、主题信息和其他信息数据模型,各种模型下又分若干类(详见表1),针对每一类都有对应的具体字段值,并定义为实例,如出版事件URI是出版事件类的实例,实例与类、类与类之间都存在明确联系,然后使用SKOS 、Event、Foaf、Blt、RDFS、Dct、Geo、DDC、LCSH、ISBD以及各类规范档等描述实例之间的关系,最后通过部分URI与已经发布的其他数据集如GeoNames、LCSH、DeweyInfo以及VIAF建立关联[7]。

表1 大英图书馆书目关联数据模型类型表1

1 模型类型资源来源于《大英图书馆书目数据的关联化分析》一文。

2 父类和子类指一种包含关系,子类能够引用父类中的某些东西。

(2)建立映射表。确定书目数据的数据模型是图书馆建立关联数据的第一步,紧接着需要通过建立映射表将原有的书目数据转化为关联数据。确立映射表时需要明确书目元数据每一字段、子字段对应的RDF属性。转换过程中,为保证不同机构数据描述的一致性和规范性,应充分利用已发布的DC、BIBO、OWL(本体语言)等来表示各描述单元,用SKOS表示书目记录中的分类号、叙词之间的关系及其属性;用DC表示书目记录中的主题词、摘要、语言、责任者等;用FOAF表示书目数人名、机构名;用BIBO表示各种类型的文献,如期刊、报纸、连续出版物等。为了确保转换的准确性,现有词表找不到对应关系时应定义新的术语,而且要建立与其他词汇的联系,通过rdfs:subClass of或rdfs:subProperty of就能实现新术语与其他类和属性的关联[8]。

根据关联数据的原则,每一条书目数据都可看做一条资源,都应该用URI标识,CNMARC表示资源标识符的常用字段有:001控制号、010(ISBN)、011(ISSN),国外图书馆发布关联数据时采用的URI基本格式为。其中,baseUri为URI基地址(域名);type为记录类型(书目记录、规范记录)[9],ID为可以唯一识别记录的符号,国外常用001字段的控制号作为其ID,当然ISBN、ISSN标识符也可以作为备选项,但多将其作为属性来描述。例如,可将CNMARC字段中表示出版事件信息的260字段的$a子字段转化为Event:place,用于描述出版事件中的出版地信息;$b子字段转化为Event:agent,用于描述出版事件中的出版机构信息;$c子字段转化为Event:time,表示出版时间。将CNMARC中表示责任者信息的100字段、110字段、111字段、700字段、710字段和711字段的主要款目标目转化为Dct:creator:属性,附加款目标目用Dct:contributor表示,并通过rdf: type进一步明确个人名称和团体名称。

(3)RDF实现。书目记录通过3种关系关联存在:书目记录与词汇表、词汇表之间和主题表与分类表。词汇表对记录内容实施规范控制,如当前应用较多的名称规范档,对实体的各种名称进行控制,并同书目资源进行关联。图书馆可利用分类表、主题词表、人名表、地名表、机构名表以及大型机构发布的开放关联数据与外部书目数据建立可利用的关系,如OCLC的虚拟国际规范文档、美国国会标题词表、国会名称规范表、杜威十进分类法等,DC都提供了与这些词汇表关联的通道,CNMARC转换时可通过dc: subject、dc:creator、dc:contributor、dc:location、foaf:focus属性与这些词汇表号建立关联(关联项具有唯一的URI链接)[10],这样通过责任者关联可以发现作者的更多信息,例如其他作品、学术经历等信息,通过主题关联发现含有本主题词的出版物信息,进而通过搜索引擎发现书目记录,尽可能建立本地词汇表与外部规范文档的关联是发布CNMARC关联数据的 关键,尽可能为用户提供新的资源发现和访问服务渠道。最后需要指出的是:CNMARC与MARC21的记录结构类似, CNMARC元数据到RDF的转化可先将CNMARC转换为MARC21,然后再转换为RDF。

国外图书馆中的成功应用关联数据的做法为我国图书馆书目数据关联化提供了借鉴,本文仅从理论上探讨了CNMARC向RDF的映射,旨在抛砖引玉,吸引更多的同行关注国内书目数据的关联化进程,加快属性值词汇表的关联化进程的研究步伐,推动国内图书馆的书目数据实现网络化、国际化,使中文书目数据融入到语义网发展背景下,吸引更多用户群,真正提高资源利用效率。

[1] 贾君枝,赵 洁.DDC关联数据实现研究[J].中国图书馆学报,2014(4):76-82.

[2][8][10] 贾君枝.开放书目数据的实现与发展[J].晋图学刊,

2015(1):1-4.

[3] 张海玲.图书馆书目数据的关联数据化研究——以德国国家图书馆为例[J].2013(1):120-125.

[4] 贾君枝,白林林.关联数据中CNMARC到MARC21的映射实现[J]. 国家图书馆学刊,2015(4):80-93.

[5] 罗 铮,张赞梅,陈伟莉.高校图书馆应用关联数据的意义及注意事项[J].图书馆杂志,2012(5):51-53.

[6] 吴贝贝,夏翠娟.关联书目数据模型比较研究[J].图书馆杂志,2015(5):71-79.

[7] 张鹏图.大英图书馆书目数据的关联化分析[J].国家图书馆学刊,2015(4):103-112.

[9] 白林林,贾君枝.关联数据中CNMARC到RDF的映射实现[J]. 国家图书馆学刊,2015(4):94-101.

(宋小华 编发)

A Preliminary Study on the Realization of the Chinese Linked Bibliographic Data in the Library

Su Jianhua

(Southwest University of Political Science & Law, Chongqing, Sichuan 401120, China)

Exposing library bibliographic data as linked data means publishing bibliographic data is in form of linked data. People can locate the record through HTTP/URI by using URI as names for bibliographic records. What's more, it provides linkable URI of correlation data so that people can find more objects. Linked data can make library strengthen the integration of data resources, expansion of library service platform and enhancement of capacity of social services,the library should grasp this historic opportunity to enhance user's experience and library bibliography socialization. 10 refs.

Linked data. Library bibliography. Chinese bibliographical data.

G250.7

A

1003-7845(2016)05-0046-03

苏建华,副研究馆员,现在西南政法大学图书馆工作。

2015-12-23

猜你喜欢
词汇表词表字段
图书馆中文图书编目外包数据质量控制分析
Peritoneal dissemination of pancreatic cancer caused by endoscopic ultrasound-guided fine needle aspiration: A case report and literature review
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
叙词表与其他词表的互操作标准
CNMARC304字段和314字段责任附注方式解析
无正题名文献著录方法评述
关于CNMARC的3--字段改革的必要性与可行性研究
国外叙词表的应用与发展趋势探讨*
常用联绵词表
词汇表