段苗莹
(陕西省图书馆 陕西 西安 710061)
浅谈图书馆元数据的应用
段苗莹
(陕西省图书馆 陕西 西安 710061)
当今社会信息化飞速发展,科技发展日新月异。社会环境给图书馆事业带来了巨大的冲击和全新的机遇,电子资源已逐步代替纸质书目成为新兴的阅读方式。本文简单介绍了元数据、对象数据、国家图书馆元数据标准、国家图书馆元数据仓储项目和文津检索平台等概念,在了解元数据与对象数据对应关系的基础上,结合国家图书馆2014年元数据标准规范,将陕西省图书馆自建电子资源等对象数据按国家图书馆元数据标准进行元数据标引,提交国家图书馆,并利用国家图书馆元数据仓储数据库和文津检索平台整合陕西省图书馆自建资源和购买的数据库资源,实现资源的一站式查询与获取。在数字化建设一日万里蓬勃发展的今天,力求为读者提供更快速更便利更全面的阅读体验。
元数据;对象数据;元数据标准;国家图书馆元数据标准;国家图书馆元数据仓储项目
(一)元数据
是与对象相关的数据,英文名为Metadata。在图书馆中元数据被定义为:一种面向某种特定应用的用于描述资源属性的机器可理解的信息,提供关于信息资源与图书馆书籍或数据的一种结构化的数据,是对信息资源的结构化的描述。用来刻画信息资源或
数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估、选择等功能。通过规范的语法结构和语义结构,使机器能够无二义地表现和获取信息。
简而言之它是关于数据的数据。是对对象数据进行定义和描述的数据。
(二)对象数据
相对于元数据而言,对象数据指的是被元数据描述形容定义的对象。在图书馆的信息化建设中,对象数据可以是完整的数据库,也可以是数据库中的数据、图书、论文、图片、歌曲、网页等。
(三)元数据与对象数据的关系
元数据与对象数据是描述与被描述的关系,元数据通过元素字段对对象数据的特征进行形象的表述和定义。
举一个简单的例子。一本书书名是《白鹿原》,作者是陈忠实,出版社是江苏文艺出版社。如果把这本书当作一个对象数据,正题名=《白鹿原》,责任者名称=陈忠实,出版者名称=江苏文艺出版社。此类信息就是该对象数据(这本书)的元数据描述。其中正题名,责任者名称,出版者名称就是元数据的元素字段。
当运用元数据完成对《白鹿原》这本书的定义和描述后,我们可以不通过对象数据,单凭元数据中的元素字段就可以大致了解这本书的基本情况。
数据的标准化和规范化是实现数据共享的重要基础和有力保障,为了更加便捷的整合各级图书馆所做出的缺乏统一标准的数据信息,制定统一的元数据标准规范对于取得数据的控制权有着重要的作用和意义。目前各国陆续提出符合自己国情的元数据标准。MARC(机器可读编目)元数据标准,DC(都柏林核心元数据)元数据标准都是世界知名和权威的元数据标准。
国家图书馆元数据标准。为了加强我国公共图书馆对数字资源的组织揭示能力,同时为了更好的整合利用分布于全国各级公
共图书馆的自建数字资源,实现数字资源的同知同享,共用共惠,中国国家图书馆参考世界知名元数据标准并根据图书馆的性质和特点制定出了自己的元数据标准。同时各基层图书馆按照国家图书馆元数据标准制作并提交馆内自建资源的元数据,共同开展元数据仓储的建设。
表1为国家图书馆2014年所提出的元数据标准,一共有23个顶级元数据元素,同时每个顶级元数据元素定义了一个或多个修饰词,包含了图像、古籍、图书、影音、数据库、网页等多种对象数字资源。因为资源类型的不同,有些修饰词可能仅用于某类数据资源。
根据国家图书馆元数据标准,按照规范的修饰词,各级图书馆就可对其自建数据库、电子文本等对象数据按部标引,做出符合国家图书馆标准的元数据来。
随着图书馆数字化和数字图书馆的建设发展,各级公共图书馆自建数字资源和购买的数据资源日益丰富,由于开发软件的不同和各资源开发商出于商业目的考虑等原因,不同资源的异构性和资源重合等问题也日趋严重。各自为政的数字资源建设和各数据资源没有统一检索模式的缺点也逐步暴露显现出来。多次检索多重查找费时费力,检索结果重复率高利用率低。针对这种情况,国家图书馆提出了元数据仓储项目。
国家图书馆元数据仓储项目基于TRSWCM7.0内容协作平台,通过TRSWCM系统的元数据模块定义制作出符合国家图书馆标准的元数据结构,创建元数据仓储数据库,将各省市地区公共图书馆提交的元数据加工,整合,剔除,优化后录入库中。同时搭配国家图书馆的新型检索系统“文津搜索系统平台”来检索调用库内元数据,实现各地方数字资源的统一检索,统一查看,统一揭示和统一服务。
元数据仓储项目利用数据库存储各级图书馆自建资源的元数据,为文津检索系统平台提供数据支持。读者通过关键词并利用文津检索系统前台检索功能可查找出与关键词对应的元数据,进而浏览相应的对象数据。通过一次查询即可高效,准确,全面的检索并查看各级图书馆自建和购买的数字资源。
由上文,各级图书馆的自建数字资源和购买资源先按照国家图书馆元数据标准进行元数据表述标引,再将标引制作完成的元数据提交到国家图书馆,导入国家图书馆元数据仓储数据库中,读者即可通过文津搜索平台浏览查看各级图书馆的数字资源。
本文以陕西省图书馆为例,简单介绍一下元数据标引的流程。
陕西省图书馆自建特色数据库“西安事变”从事变简介、人物志、大事记、纪念旧址、档案史料、历史图库、追忆广角、历史评价、研究论著、机构学者、今日报道、影视文艺等方面整合该事件的相关文献资料。重点通过人物、史料、研究论著、视频等栏目多方位、多层次地揭示“西安事变”的始末及其对近代中国历史产生的重大影响。
对“西安事变”可进行如下的元数据元素标引:
正题名=西安事变特色数据库
四库分类=史
摘要=从事变简介、人物志、大事记、纪念旧址、档案史料、历史图库、追忆广角、历史评价、研究论著、机构学者、今日报道、影视文艺等方面整合该事件的相关文献资料。重点通过人物、史料、研究论著、视频等栏目多方位、多层次地揭示“西安事变”的始末及其对近代中国历史产生的重大影响。
出版者名称=陕西省图书馆
出版地=西安
创建日期=2009-10-19(格式字段必须为YYYY-MM-DD)
发布日期=2010-09-11(格式字段必须为YYYY-MM-DD)
更新频率=不定期更新
内容形式=文本
媒体类型=电子
学科类型=人文与社会科学
运行环境=Windows系统
文字语种=chi
访问方式=互联网访问(取值字段填写内容:互联网访问;局域网访问)
适用对象=普通用户(取值字段填写内容为:普通用户;少年儿童;残障人士)
发布地址=http://www.snwh.gov.cn:8080/sxlib/xianshibian/index.htm
数据提交单位=陕西省图书馆
数据提交日期=2015-01-07(格式字段必须为YYYY-MM-DD)
CDOI=(此为唯一标识符字段,数据库必备字段,因“西安事变”现阶段没有做唯一标识符认证,所以未填写)
数据库中的图像字段为其元数据标引的必备字段,填写内容为其数据库发布页面。
至此我们完成了对“西安事变”数据库的元数据元素字段描述。
同理我们可以对其他类型数字资源进行元数据标引。利用WCM可导入EXCEL表格的功能,将多个数字资源的元数据标引放入EXCEL表中,并批量导入到WCM的元数据仓储库。如图1所示。
在数字图书馆蓬勃发展的今天,根据国家图书馆元数据标准整合加工各级图书馆的数字资源,建立元数据仓储数据库势在必行。国家图书馆元数据仓储和文津检索平台是数字图书馆推广工程的核心项目,各省市图书馆的元数据标引更是项目的核心组成部分。数据仓储目前尚处于起步阶段,但相信通过各级图书馆的不懈努力,仓储数据库内容会不断增加,成为数字图书馆事业成功的坚定基石和强力保障,为读者提供更加便利全面的阅读体验。
[1]郭瑞华.图书馆信息资源整合及元数据应用[J].图书情报工作,2006(10):100—103.
=西安事变;张学良;杨虎城;蒋介石;双十二事变(不同的关键词用分号隔开)
或