图书馆阅读行为数据元数据标准分析研究

2021-07-02 14:36:38马林聪
甘肃科技 2021年8期
关键词:图书馆标准用户

马林聪,杨 帆

(1.贵州财经大学信息学院,贵州 2.贵州财经大学图书馆)

在网络时代的高速发展之下,用户对于图书馆的诉求与图书馆服务模式已经向更加具备知识化、智慧化发展[1]。开放图书馆数据包含了馆藏数据和用户阅读行为数据,读者阅读行为数据,是指读者在进行阅读这一行为时,所产生的所有与之相关的数据。包括馆内借阅数据、到馆离馆时间数据、电子资源下载数据、查阅数据、搜索数据等。元数据标准规范的建立是为了保证图书馆进行数据共享的先决条件,在此过程中,数据标准对于落实我国的政策法规,指导阅读行为数据建设的承上启下的作用[2]。

国内图书馆领域研究人员在元数据标准方面已经具备了较多的研究成果,主要集中在对与科学数据和政府开放数据这两方面的元数据标准研究上,如司莉[3]对美国的开放政府数据网中的元数据标准(POD v1.1 与ISO19115-2)进行了介绍,包括其基本元素,语法信息等。赵蓉英和梁志森[4]以英国的Data.gov.uk 为研究主体,从文件结构层面、元素组成及制定规则等方面对其元数据标准的特点进行了系统地总结。黄如花和李楠[5]分析了澳大利亚的数据平台Data.gov.au,提出我国建立元数据标准,需要尽可能地发布更多种类型的数据格式。朱玲[6]则从内容结构视图的角度出发,对八种比较经典的元数据标准进行分析,包括其元素内容等方面。在元数据标准应用方面,张勇和蔡璐[7]阐述了元数据标准与实际应用对接中存在的问题,并提出解决思路。刘美杏[8]在基于国际规范化的元数据标准DC 和VRA Core 设计了一套关于古道文化遗产数据资源元数据标准。对于图书馆资源元数据规范,各图书馆大多数都以DC 元数据标准为基础,根据其馆内和地域特色,构建其特有的图书馆资源元数据规范标准,因此在数据资源交互流通方面存在了诸多限制。

本文以读者阅读行为数据为研究对象,分析其为满足图书馆用户阅读行为数据资源的统一利用,以实现异构数据的交互问题,为构建应用于图书馆用户阅读行为数据的通用元数据标准提供建议,提高图书馆资源的有效利用。

1 阅读行为数据功能性需求

图书馆中读者的阅读行为数据在持续性产生,图书馆服务职能的提升和智慧图书馆的发展需要依靠于能够对大量数据进行管理、分析和利用的业务系统。为了支持阅读行为数据的发现、获取、分析和再利用,对于构建元数据标准的需求,应该从以下三方面进行分析:

1.1 完整的生命管理周期需求

对阅读行为数据的生命周期进行管理是确保图书馆对用户阅读行为数据进行持续性分析的先决条件。支持元数据从收集、编目、加工到服务这一完整的生命管理周期之间,了解到是什么数据内容在持续作用,而什么数据信息在持续的信息运作中又发生了改变。张培风[9]提出了一条针对数据周期性管理的有效路径,从而实现数据的管理目标。元数据在一个完整的数据周期中,存在于多个业务系统和流程中,阻碍了对数据的统一管理。

1.2 面对不同对象的需求

图书馆服务的对象多种多样,因此读者的阅读行为数据所服务对象的侧重点也因服务对象而异。对于图书馆的用户而言,元数据是查找所需书籍、电子材料等所必需的信息数据。元数据通过对馆内资源的相关信息进行描述,比如图书的目录、索引号等,帮助用户对查找资料快速定位。对于图书馆管理人员而言,标准化的元数据帮助他们更好地对数据进行管理与维护。对于生产者而言,标准化的元数据有利于数据的生产和更新,不会因为用户个人或者机构的改变影响到数据的产生和管理。阅读行为数据的最大用户是读者。

1.3 数据标准规范的兼容需求

由于不同图书馆之间使用不同的业务系统,甚至于单个图书馆内部,都存在不同的元数据标准,例如门禁系统、借阅系统等生产自不同的厂家,对于业务的整合也有着诸多的限制。因此面对新时代关联网络的需求,需要将元数据进行规范化的处理,将不同系统、不同领域内的数据资源都关联到一起,做到灵活可扩展、规范且兼容。

2 阅读行为数据元数据标准方案

元数据是保证读者阅读行为数据获取和再利用的关键因素。如果图书馆之间都能够按照统一的元数据标准对数据进行规范,那么在任何地方都能够访问和理解其他多个地域或机构的图书馆数据,以供用户使用。

2.1 数据集内容描述元数据标准

2.1.1 CDLS 元数据标准

2002 年,CDLS 《中国数字图书馆标准规范》由多个机构联合发起制定,主要针对目标是我国数字图书馆的数字资源建设及相关问题[10]。CDLS 主要对数据内容和元数据标准两个方面进行描述。对于数据内容的描述主要包括内部的内容信息的描述和外部的内容信息。内部内容信息包括题名、描述和标识等;外部内容信息包含了从创建数据集,到发布数据集这一整个过程中涉及的所有属性元素,包括创建者、创建机构、创建时间、创建空间、权限管理等内容。

CDLS 元数据标准是以都柏林核心元数据为基础,复用了其中的15 个核心元素,CDLS 元数据标准的元素可划分为必要元素和非必要元素,必要元素又分为可变必要元素和不可变必要元素。不可变必要元素指的是必须要含有的属性元素,不可变动,例如题名(Title)、日期(Date)和创建者(Creator)。可变必要元素是指数据集满足某种条件的情况下必须包含的元素,如出版者(Publisher)和标识符(Identifier)[11]。根据领域内的特点,在原有的属性元素基础上进行适当的增添属性,如针对期刊论文和会议论文增加了“论文类型”元素;针对学位论文增加了“学位”元素等。

为了实现效率最高、最易实施的互操作,可在已有的国际元数据标准基础之上进行复用,以增强方案的普适性。除了基础的核心元素以外,CDLS 支持对元素进行扩展,包括横向扩展和纵向扩展。横向扩展是直接增加元素,纵向扩展是对已有的元素进行修饰或细化。在对元素进行扩展时,必须保证增添的扩展元素信息和已有的元素之间没有重复,否则增添失败,纵向扩展的优先级高于横向扩展。因此在对阅读行为数据进行元数据规范的制定时,根据需求采用实时更新扩展的原则。见表1。

表1 CDLS 核心元素列表

2.1.2 地理空间数据元数据标准

我国国家标准《地理信息 元数据》GB/T19710-2005 是以国际化标准组织ISO 发布的标准地理空间元数据ISO 19115 为基础,在原有标准中作了修订。ISO 19115 标准被国际上很多机构采纳使用。GB/T19710-2005 旨在将有关地理数据标识、质量、空间和时间模式、覆盖范围等特征进行描述,来促进数据信息的共享。

GB/T19710-2005 定义的全集数据集内容非常复杂,元数据总量和实体超过四百多个,但是在实际使用中通常只会用到其中一个。有时只需要很少量的数据元素,就可以对一个数据集进行描述。为了回答“某个数据集是否存在?”“数据集在何处?”等基本问题,只需要含有少量核心元数据元素来描述。GB/T19710-2005 共有22 个核心元素,见表2,其中还包含了这些核心元素的类别以及描述对象。共分为三类,必选元素、条件必选元素和可选元素。

表2 GB/T19710-2005 核心元素列表

由表2 分析可知,数据集的地理位置属性由空间表示类型、数据集地理位置、数据集空间分辨率几个方面来描述,此标准通过对地理坐标或地理标识符来确定位置。

2.1.3 数据目录词汇DCAT

DCAT(Data Catalog Vocabulary),是一种RDF 类型的词汇表,是政府开放数据元数据的推荐标准,由2014 年发布。DCAT 最大的特点是可以支持数据目录之间的相互操作。DCAT 包含了15 个基本元素,能够满足数据及的一些基本操作需求,帮助用户对数据进行查找、认识、下载和访问等。DCAT 中数据资源、数据目录和数据集之间的关系如图1 所示。

图1 数据资源、数据目录和数据集关系图

2.2 数据集格式描述元数据标准

基于传统的XML 异构交换数据是目前各系统之间和系统内部信息互通的重要手段,其特点主要是具有良好的数据存储格式、可扩展性高、自描述化强。但JSON 格式在解析速率、兼容性和数据传输开销等方面也存在明显的优势,阅读行为数据则采用两种数据格式对数据资源进行描述。

2.2.1 JSON 数据格式及语法结构

JSON (Java Script Object Notation)是一种轻量级的数据传输格式,无论是在传输效率、解析难度、扩展性,还是可读性上,都具有很大的优势。JSON 具有两种结构方式:(1)“名称/值”对的集合;(2)值的有序列表,被理解为矢量、列表、序列或数组。根据Tim Berners Lee 的5 星评价标准,JSON 属于最佳的元数据文件格式[13]。

JSON 结构实例如下所示:

该片段简单地对数据集的标题、id 代码、创建者等字段进行描述,可以清晰的看到在JSON 格式下的机器语言展示方式,通过“属性”:“值”的形式对元数据进行描述。

2.2.2 XML 数据格式及语法结构

我国国家标准《地理信息 元数据》GB/T19710-2005,是在ISO 19115 地理元数据规范的基础上进行修改并制定的,因此采用的数据格式也是基于ISO 19115,即XML 编码,被用来传输和存储数据。XML 也是W3C 的推荐标准,允许用户自定义标签。其语法特点主要包括:所有元素都必须有关闭标签;区分大小写;正确嵌套;必须包含根元素;属性值需加引号[14]。

元数据记录由单个或多个属性,以及关联数据组合而成。每一条数据内容都应该在一组标记的开始和结束之中,而每一个标记又需要在另一组标记下的开始和结束之间,形成了层层嵌套的复杂关系。其中每一条数据内容都是此描述资源的组成部分,属性可以重复,属性之间包含的是属性的值,每个值都是由文字字符串组成,并且编码方式相互关联。某一数据集的XML 结构如下所示:

上述结构展示的是XML 基本语法结构,在对数据集描述时,首先要进行声明,然后设立数据集的根节点,按顺序对每一个数据集的元数据信息进行描述。。

2.2.3 不同元数据标准之间的映射

映射机制是指利用特定的转换方式,对不同元数据标准的元素、语法进行转换。建立映射关系时,需要从结构、编码、应用等多个方面揭示映射关系。在结构方面,建立元素的对应关系;在编码方面,检查源元数据元素与其对应的目标元数据元素编码规则的匹配情况;在应用方面,检查必备性与可重复性的匹配情况。各领域的元数据标准是不同制定人员根据其自身数据特色所制定的标准,因此在语义上不可能完全一致,所以在匹配中会出现一对一、一对多或无对应关系的情况,造成部分信息丢失或产生歧义等问题,因此健全的映射机制是保证数据开放共享的重要因素。。

3 图书馆元数据标准构建启示

我国各图书馆目前缺乏统一的、通用的元数据标准,在已有的国际化通用元数据标准的基础上,根据实际需要,就图书馆如何构建统一的元数据标准作出如下建议:

3.1 阅读行为数据元数据类型分析

构建统一的用户阅读行为元数据规范,首先需要确定用户阅读行为数据的类型。当前图书馆读者阅读行为数据类型包括:出入馆记录,检索数据、外借书籍数据、归还时间数据、续借数据、读者馆内运动轨迹数据、电子资源浏览及下载数据、用户登录数据、读者反馈记录等,其中关键数据为用户的借阅数据。

3.2 元数据标准应广泛兼容

目前针对不同元数据标准之间的规范方式主要有以下两种:一是直接使用国际通用标准,如ISO 19115、CSDGM、DC都柏林核心、JSON、FGDC/CSDGM 等元数据标准,采用国际权威标准有助于保持持续兼容;其二是在国际通用元数据标准的基础上,根据用户阅读行为数据集的特征,来制定出符合大多数图书馆都适用的元数据标准。目前大多数图书馆都采用通用的国际化元数据标准,针对不同地域及特色产生的数据集,采用的元数据标准有些许的出入。一套完善的元数据标准,应该对其他地方性或领域的元数据标准具备兼容性,因此在构建时,可以针对其特色增添额外属性,以保证制定的标准可以被广泛使用。

3.3 元数据标准应包含内容及格式的描述

在对数据集描述时,在内容和格式上都需要进行规范,以实现用户和机器同时可读。所以在对数据集内容进行描述时,应结合现有的国际化标准与图书馆数据集特点,构建符合大多数图书馆数据及要求的元数据标准;在对数据集格式进行描述时,可以采用多种开放性格式,以满足多种数据的需求。表格类数据采用CSV 格式,即以纯文本形式存储表格数据;文本格式数据采用TXT 等;对于地理空间数据格式,可采用ISO19139、GEMINI、GB/T19710-2005 等标准。

基于以上描述,在对我国图书馆用户阅读行为数据进行统一化标准化时,应遵循以下思路:首先对图书馆用户阅读行为数据的边界进行界定,明确资源类型,针对不同类型的数据集进行描述,其次通过对数据集的分析,确定核心数据内容和格式,最后确定用户阅读行为数据的层次和元素属性,其中应细粒度的描述从数据集来源到数据发布期间所涉及的各类机构、时间、人等数据内容和特征,以增强对用户阅读行为数据的利用。

4 结语

图书馆用户阅读行为数据,是当代图书馆提升服务质量和多样化的重要来源。本文通过对阅读行为数据的数据类型和目标进行梳理的前提下,对符合其需要的元数据标准进行分析。目前我国各高校图书馆和公共图书馆对于读者的阅读行为数据基本采用“自治”的处理方法,各图书馆系统之间缺乏有效的数据互通,因此统一的元数据规范和数据格式可以有效促进数据链接和互操作,避免在数据交换过程中产生歧义,从而更好的利用用户阅读行为数据,以提升图书馆的服务能力。

猜你喜欢
图书馆标准用户
2022 年3 月实施的工程建设标准
忠诚的标准
当代陕西(2019年8期)2019-05-09 02:22:48
美还是丑?
图书馆
小太阳画报(2018年1期)2018-05-14 17:19:25
关注用户
商用汽车(2016年11期)2016-12-19 01:20:16
飞跃图书馆
关注用户
商用汽车(2016年6期)2016-06-29 09:18:54
关注用户
商用汽车(2016年4期)2016-05-09 01:23:12
一家之言:新标准将解决快递业“成长中的烦恼”
专用汽车(2016年4期)2016-03-01 04:13:43
如何获取一亿海外用户
创业家(2015年5期)2015-02-27 07:53:25