李一秀
摘 要 关联数据作为语义网的轻量化实现方式在国际图书馆界如火如荼地展开,越来越多的图书馆机构将数据发布为关联数据。文章基于“文献资源描述和组织框架”详细梳理国家图书馆在语义化描述与组织方面的研究成果和实施情况,总结其资源描述、本体构建、关联开放网络构建等方面的探索现状,分析其当前存在的一些问题,并从多粒度信息组织、本体、质量管理等角度,提出相应的优化措施与建议。
关键词 国家图书馆 资源描述 资源组织 语义化 关联数据
Abstract As a lightweight implementation of Semantic Web, linked data is spreading rapidly in the international library community. Based on the Bibliographic Resource Description and Organizational Framework of the National Library of China, this paper reviews the research results and implementation of semantic description and organization in detail, summarizes the progress of resource description, ontology construction and linked open data application, and analyzes some existing problems. Meanwhile, some corresponding optimization measures and suggestions are put forward from the perspective of multi-granularity information organization, ontology and quality management.Keywords National Library of China. Resource description. Resource organization. Semantization. Linked data.
0 引言
進入21世纪以来,语义网技术和相关标准的出现正逐步影响着图书馆资源建设与服务。一方面,图书馆领域的编目规则和编目思想为适应知识服务的需要而积极调整。IFLA分别于2010年和2017年推出《资源描述与检索》(RDA)和《图书馆参考模型》(IFLA-LRM),基于概念建构实体、属性相互联系的多维度立体资源数据结构,并规范各类词表。美国国会图书馆积极投身关联数据化建设,牵头开发书目框架,对FR系列模型进行简化,为书目数据关联数据化设计关联书目数据模型。欧洲数字图书馆[1]推出欧洲数据模型,以模型组织数据,通过映射设计将欧洲各国的图书馆、档案馆等机构数据匹配到本体类和属性并进行关联数据发布。另一方面,随着语义网技术的日趋成熟,国内外越来越多的图书馆开展关联数据项目。从目前国际关联开放数据(LOD)项目开展情况看,国内外图书馆基于各自特色和需求推进关联数据应用,在构建知识数据集和开放共享方面不断深入。国外,OCLC[2]、大英图书馆、法国国家图书馆、美国国会图书馆,日本国立国会图书馆[3],韩国国家图书馆[4]等都陆续开展了开放数据项目。在国内,上海图书馆[5]基于关联数据开展了数字人文应用,借助开放数据平台将关联数据应用于图书馆人文信息资源语义描述,形成了丰富的理论研究和应用成果。根据2018年关联数据调查,进入排名前10的数据集有4项来自图书馆领域[6],由此可见,以关联数据为代表的语义网技术已经深入图书馆领域,成为当前图书馆转型的重要手段和方式。为了进一步推进语义化描述与组织的研究和探索,本文在梳理了国家图书馆在语义化描述与组织方面的研究成果和实施情况的基础上,总结其资源描述、本体构建、关联开放网络构建等方面的实践经验,最后分析其当前存在的一些问题,并从多粒度信息组织、本体、质量管理等角度,提出相应的优化措施与建议。
1 国家图书馆语义描述与组织现状
中国国家图书馆于2009年启动“国家图书知识组织标准规范”项目,探索运用语义网技术对图书馆传统馆藏数据进行语义化并以关联数据连接和发布,使图书馆的馆藏资源融合到更大的Web环境中,扩大图书馆数据价值。目前,项目的理论成果已经走向实践,国家图书馆在“数字图书馆文献资源描述和组织框架”(图1)下,完成了部分知识组织工具与数字馆藏元数据的语义化,并将全部数据以关联数据发布。
回顾国家图书馆在语义描述和组织上的发展历程,国家图书馆在标准化工作方面一直做出长期努力,在图书馆数据语义化研究方面扮演着重要角色。国家数字图书馆工程于2005年设计工程项目标准基本框架,启动国家数字图书馆工程标准规范体系研制工作,围绕数字内容创建、数字对象描述、组织管理、服务、长期保存五个环节研制了约三十余项标准。其中,核心元数据标准、专门元数据规范、管理元数据规范、长期保存元数据规范、元数据编码、元数据映射规范等元数据相关标准规范与数字资源知识组织规范共同构成了图书馆数字资源描述与组织的重要参考[8](见表1)。在“数字资源知识组织规范”中,提出依据数字图书馆文献资源描述和组织框架,按“元数据层-本体层-关联数据层”三个层次[7]对图书馆文献资源分别进行描述、组织和关联数据发布,以调整资源组织结构,满足知识层面的资源深度组织需要。
1.1 元数据方案及应用
描述元数据[9]方面,采用国家图书馆核心元素集(全部复用DC)作为各种资源类型元数据互操作的基础元素集,同时,支持增加元素或修饰词进行扩展以满足精确描述的需求。在扩展原则下,制定音频、视频等十四种专门元数据规范与著录规则,再根据资源内外部特征的不同揭示需要,选择不同元素项。专门元数据规范还规定了元素及其修饰词的取值范围,元素取值参照受控词表或其他规范档进行标记(如主题词),或遵循特定解析规则(如语种表示)。描述语言和语法结构上,采用XML Schema、RDFS等开放描述方法进行元数据内容和元数据规范定义描述,采用XML语言及其相关语法结构作为元数据编码及数据接口。针对图书馆不同的元数据类型,制定CNMARC、MARC21与国家图书馆元数据核心元素集映射转换指南,以支持不同格式元数据之间的互操作。
随着数字图书馆建设实践开展,以上标准规范在国家图书馆推广工程等大型工程元数据建设得到广泛应用。不同的元数据格式和结构经过清洗映射集成为以国家图书馆核心元素集为基础的元数据,并统一装入元数据仓储。
1.2 实体关系、属性分析与本体设计
为进一步提升数字资源在语义网环境下的组织与整合能力,国家图书馆面向关联数据环境研制基于元数据本体构建规范和应用指南以及《中国分类主题词表》语义描述规范[10]。基于元数据本体,图书馆不同格式、不同类型的文献元数据转换为统一的以RDF格式表示的语义元数据,实现文献资源语义化描述和组织。国家图书馆元数据本体分通用的核心元数据本体和适用于具体类型文献资源的专门元数据本体。通过元数据规范与元数据本体之间的映射关系,元数据项拆分和提取后的元数据项可以转换为本体模型中的类和属性关系,经过实体类资源判定、概念类资源判定、其他数据项判定,分别对各类型资源进行命名,实现RDF语义化描述。
在核心元数据本体中,分别包括文献资源类(nloc:DocumentResource)、代理类(nloc:Agent)、时间类(nloc:PeriodOfTime)、概念体系类(skos:ConceptScheme)、概念类(skos:Concept)五个核心实体类。对于本体的元数据属性主要根据元数据标准定义了描述各类文献资源的通用属性。“文献资源”类属性多数复用DC和DCMI元数据术语;“代理”类属性复用FOAF本体中的同类属性;“概念体系”类和“概念”类属性参照遵循核心模型中的定义。特定资源类型的文献资源根据具体资源特征需求,在已有属性基础上添加子属性,或重新定义新的属性,形成专门元数据本体。词表选取上,为了保持良好的互操作性和可扩展性,国家图书馆尽可能复用已有词表,核心元数据本体中复用了DC、SKOS词表、FOAF等术语词表,并在此基础上进行了适当扩展,作为原有词表的补充。
除了文献资源,传统知识工具也进行了语义化描述。SKOS是W3C发布的一种NKOS标识的语义描述规范,对促进受控词表在网络环境下使用具有重要意义,为本体构建提供了丰富的概念和语义关系。国际上已有LCSH、MeSH、OCLC的FAST等词表率先启用SKOS表示其数据元素,成功开展术语网络服务。在此背景下,国家图书馆于2009年启动“国家图书馆知识组织规范”项目,基于已有知识组织工具特点和发展需求,研制国家图书馆NKOS的构建方法和应用规范,对目前图书馆领域使用最广泛的知识组织工具《中国分类主题词表》采用SKOS语言描述其结构和内容。由于《中国分类主题词表》在结构和内容上的复杂性,项目基于SKOS做了相應扩展(skosxl:),比如对于“中分表”入口词,采用了skosxl:Label(入口词URI)、skosxl:prefLabel(首选标签)、skosxl:altLabel(非首选标签)、skosxl:literalForm(入口词)等进行相应表示。“中分表”本体类包含ConceptScheme(主题概念体系类)、OrderedCollection(主题概念集合类)、Classification(类目类)、Subject(主题词类)等。其中,skos:ConceptScheme(主题概念体系类)作为“中分表”整体的KOS,包含了所有主题词和主题词集合。skos:OrderedCollection(主题概念集合类)包括了人名主题概念、团体或会议名称主题概念、地理名称主题概念、统一题名主题概念、普通主题概念5种概念集合,分别对应MARC中200、210、215、250字段[10]。Classification(类目类)和Subject(主题词类)分别表示“中分表”类目和主题词相关信息,如“公共安全管理”类目,其描述如表2所示。
1.3 关联数据的数据网络构建
关联数据是推动“数据之网”的关键,通过多种知识单元之间的连接,增强和完善语义关联,并通过发布实现更广泛、更深层的关系揭示。目前,国家图书馆已经完成关联数据注册与服务系统构建,成功注册并发布了语义化的中分表、国家图书馆公开课、中日韩数字图书馆三个数据集,向用户提供查询、浏览、下载与接口服务。
注册时,首先对词汇规范进行注册,以方便数据集复用。其次,对数据集进行注册,选择系统中相应的词汇规范,对数据集的概念体系、概念集合、概念关系、属性体系等进行注册。此外,国家图书馆规定了一套命名域体系,对于不同类型的资源分别进行URI标识规范,包括数据集URI、本体URI、取值词表URI、规范词表URI、信息资源URI和非信息资源URI六种不同类型。不同类型资源有不同的命名要求,如数据集URI使用“data.nlc.cn+dataset+数据集标识”,规范词表URI使用“data.nlc.cn+thesaurus+词表标识”,本体词表URI使用“data.nlc.cn+ontology+类名或属性名称”,信息资源使用“data.nlc.cn+resource+数据集标识+资源类名+IRI”,非信息资源则使用“data.nlc.cn+dataset+数据集标识+资源类名+IRI”。所有数据集支持RDF/XML、RDF/JSON、N3、NTriple、Turtle格式下载。
系统支持一般检索、SPARQL查询,支持可视化展示,图2为“公共安全管理”知识图谱展示示例,图中直观展现概念与属性、概念之间的丰富关系。
2 当前存在的一些问题
从目前关联数据注册与服务系统语义链接来看,在服务效能上未能充分展示语义优势,制约着语义聚合效果。
2.1 资源描述方面,存在一定程度上不完善、不一致、不准确现象
国家图书馆数字馆藏元数据本体基于元数据规范构建,从元数据标准规范的元素中提取类与属性,是一种自下而上的构建方法。元数据方案在具体实施过程中,虽然在标准层面保障了项目建设的规范性,但数据结构和著录方式上还存在一定差异。对于著录项和元素取值,图书馆往往停留在单一、平面的记录层面,揭示角度比较单一,语义上描述不够全面、精确。据调查,对于元素项,题名、责任者、标识符、馆藏信息、主题是高频著录项目,其他元素项很少使用。元素取值方面,出于对编码体系了解、著录难度、成本等各方面考虑往往不使用编码体系取值,元数据元素值大多为自由词和文字值。基于以上原因,能够被结构化抽取出的实体概念和关系较少,不能充分发挥这些信息的关联作用,需要进一步根据不同的数据情况进行语义分析、映射和概念,以提取精准元素项来搭建关联。
2.2 现有本体可重用和动态扩展能力较差,无法深入地揭示完整的语义信息
国家图书馆的资源描述本体基于国家图书馆核心元数据制定(2012年),描述资源的元素只选择了自定义所需要的词汇(nloc:)及使用一些非圖书馆领域的本体词表,如FOAF等,利用这些本体和词表抽取书目元数据中代理、时间、概念等实体。这种选择的不足是可重用和动态扩展能力差,在描述资源的时候非图书馆领域的资源本体无法全面、深入地揭示完整的语义信息。
另一方面,对于具体资源的语义化描述也不够细化。不同资源有各自复杂的结构和语义条件,目前核心元数据本体有比较清晰的语义结构,但是对于具体资源仅给出了方向指导,缺乏详细的数据结构和术语词表作为实施参考。此外,核心元数据本体及专门元数据本体在制定时未面向各种馆藏资源类型进行数据实验,其适用性和可行性还有待在深入研究和大量实践中进一步探索和验证。
映射方面,缺乏支持多类型、多种格式的细化映射指南。图书馆普遍存在多种类型、多种格式的元数据,如MARC数据、DC数据以及存储在关系型数据库形式、EXCEL格式中的各种元数据。目前元数据本体基于国家图书馆核心元素集建立,对于其他形式的元数据如何在本体结构下进行语义化转换缺乏比较详细的规范和实例指导。如果将其他格式都先对应到国家图书馆核心元数据和专门元数据,再进行语义化转换,MARC或其他格式里的书目字段或信息数据可能会出现较多信息无法在国家图书馆核心集元数据和专门元数据里无法对应的情况,丢失数据信息。
2.3 缺乏有效的实体管理和身份标识管理
从目前的注册与发布平台看,发现存在不少URI别名现象,给数据处理和分析带来挑战,影响着数据链接质量。产生这一现象的主要原因是因为目前注册系统平台在功能上不支持数据生产、统一标识与转换,仅支持已经完成SKOS、RDF转换的数据进行注册及发布。但从数据集中可以看出,还存在一些其他问题造成别名现象,比如在不同数据集中,对于相同的实体使用不同的术语描述,对于相同的实体使用不同的URI标识,相同的实体在不同数据源中属性值互为冲突等等。以图2为例,“公共管理”等类目和主题词已经实现了语义化的处理,但公开课《美国公共图书馆的行政管理》 《我国农产品质量安全的现状特点、存在问题及其未来展望》 (分别有主题词“行政管理”和“安全管理”)因主题词使用的是字符串而非身份URI,系统在归并时容易产生遗漏。
3 发展建议
3.1 进一步增强数据的完整性和规范化
数据的完整性和规范化使之更容易被发现,要重视对资源内容特征的全面、细粒度揭示,在开放、可扩展原则下推进资源描述规则的规范化实施。对于元素值,应保障其著录正确,符合元数据元素项要求,尽量选择相关的受控词汇,使用URI链接;形式上采取更加包容的态度,鼓励去格式化的语义描述,构建以节点为核心的关联化组织。
3.2 进一步优化数据模型,细化语义化方案
借鉴近年国际正式发布的、已经获得广泛应用的图书馆领域成熟数据模型或框架作为底层基础框架,如BIBFRAME、RDA、EDM等,保障资源语义描述的完整性。同时,不断优化语义化方案,针对不同资源的复杂的结构和语义条件,细化具体资源的语义化流程,通过大量数据实验对概念模型进行语义验证,检验本体在实际应用中的可行性和有效性。具体资源和服务需求往往具有复杂性,需要经过不同数据实验,结合领域专家的知识经验和语义推理机制,检验元数据本体对元素的适用性,不断完善数据之间的语义逻辑关系。
3.3 严格实体管理,丰富数据多样性,构建更加完整的知识体系
进一步添加事件、机构等多类型实体规范库,统一实体管理,使用代表实体的标识符或URI汇集同一实体的各种名称形式,如各种变异形式、多语种标签等,同时,可以进一步关联多语言的外部链接数据集,使语义元数据富化。资源的周边数据,如用户评论、点击次数、借阅信息、收藏等表现用户兴趣的社会化数据也可以作为本体补充,共同成为知识库的有机组成部分。
3.4 增加本体发布,增强数据的可读性和可重用性
除SKOS外,目前已发布的数据集大多是实例数据,对其相应的本体并没有面向使用者发布,增加了数据的使用难度,使用者往往难以理解数据集的特征和结构,进而影响数据重用。陈涛[11]提出连同本体一起发布数据集的方法,并且在发布本体时,对其元数据也进行相应描述,标注其名称、描述、版本、版权等属性信息,以增加数据集的可读性。
3.5 加强质量评估
伴随数据集数量不断增加以及随之而来的更新需求,国际对于开放环境下的数据质量逐步重视。IFLA[12]和Europeana[13]近年都表现出对开放数据质量及可靠性的关注。2020年8月即将举行的第86届IFLA年会编目部围绕“元数据质量”,以“图书馆元数据及其他社区生产的数据集与服务集成后带来的收益与挑战”作为会议主题探讨数据共享环境下的数据质量、可靠性。Europeana于2015年和2018年分别完成“发布框架:内容”及“发布框架:元数据”,以改善资源内容质量和元数据质量。为适应新环境和新业态的发展和需求,需要重新界定开放环境下的“元数据质量”,逐步将其纳入常规管理工作,制定质量控制与管理框架,更好地发挥数据效能。