图像数字资源元数据仓储建设实践

2018-04-13 09:26丁文娟
新世纪图书馆 2018年3期

摘 要 基于南京图书馆图像数字资源建设与推广工程元数据仓储建设之间的转换关系,论文解读了元数据仓储图像数字资源的制作规范,通过映射关系,重点介绍两者的不同点并给予解决的办法,并对转换过程中的出现的一些特殊情况给出解决办法。论文旨在为今后的元数据仓储工作积累经验,为南京图书馆的图像数字资源建设提供一些可行性的改变和突破,使图像数字资源建设更加规范化、标准化。

关键词 图像数字资源 元数据仓储 数字资源建设 数字资源建设规范

分类号 G250.73

DOI 10.16810/j.cnki.1672-514X.2018.03.014

Abstract Based on the transformation relationship between the construction of image digital resources in Nanjing Library and the construction of metadata repository in the Digital Library Promotion Project, this paper interprets the production specification of the metadata repository in image digital resources. It introduces the differences between the two by the mapping relationship, and gives some solutions, as well as some special cases in the process of transformation. The aim is to accumulate experience for the construction of metadata repository in future, and provide some feasible changes and breakthroughs for the construction of digital image resources in Nanjing Library, so as to make the construction of digital image resources more further normalized and standardized.

Keywords Image digital resources. Metadata repository. Digital resources construction. Standard of digital resources construction.

元數据仓储是数字图书馆推广工程资源联建项目的首选数字资源整合方式。数字图书馆推广工程元数据仓储建设旨在收集整理国家图书馆,国内省、市级公共图书馆各种资源的元数据,通过元数据互操作在国家图书馆形成一个结构统一的元数据仓储,为公众提供对公共图书馆界各种资源集中检索与获取的一站式服务。完成国家图书馆、全国各级公共图书馆馆藏资源元数据的汇集、整合及有效管理,实现各馆各异构系统间的元数据交换与互通互用,全面提升数字图书馆精细化服务能力与服务水平[1]。

数字图书馆推广工程元数据仓储项目的收录对象是分布在全国各公共图书馆已发布的且拥有对象数据的本馆自建数字资源,主要包括八种类型:数据库、图书、连续性资源、文章、图像、音频、视频、网页。随着资源联建工作的深入,收录对象还可以细化出更多的类型,例如拓片、扇面、手稿等等。笔者以南京图书馆为例,重点介绍图像数字资源元数据仓储建设。

1 图像数字资源建设概述

随着现代信息技术和新媒体技术的广泛应用,图像数字资源因其直观、生动有趣、易于理解等特点,被广泛使用与传播。根据CNNIC《第35次中国互联网调查报告》 统计结果,在按多媒体形式分类的网页情况统计表中,以JPG和PDF形式的网页占比分别是31.5%和31.4%,两者合计占总比例的62.9%[2]。在各馆的自建数字资源中,图像数字资源所占比重也较大。例如南京图书馆已发布的29个自建数据库中,有15个图像数据库和5个图文资料库。在数字图书馆推广工程网络书香资源检索平台上,从八种类型资源检索数据总量可以看出,图像资源以69万多条的发布数据遥遥领先于音频和图书资源,后两者位居二三位,资源总量分别是29万多条和25万多条[4]。因此图像数字资源的元数据仓储建设在整个元数据仓储建设中占有很大的比重。

南京图书馆自2004年组建信息资源开发部数据库组以来,一直致力于馆藏文献数字化工作。2004年,南京图书馆申报并开始建设《中国近代文献图像数据库》 项目,先后建成中国近代文献图像数据库、抗日战争历史图片库、百年商标、红色记忆、江苏名人故居、馆藏民国连环画等多个特色专题数据库。按照元数据著录规范,已制作完成二十多万条数据。从2014年开始,南京图书馆每年从中国近代文献图像数据库和抗日战争历史图片库这两个自建专题数据库中选取一万条数据来制作元数据仓储项目。目前南京图书馆主要解决的问题就是图像数字资源与图像资源元数据仓储之间的转换关系。

2 南京图书馆图像数字资源与图像数字资源元数据仓储标准映射关系

元数据仓储项目针对不同的数据类型制订了不同的制作规范,各类型数据按照各自统一的规范制作元数据即可实现异构数据库系统的元数据互操作,从而方便形成一个集中、统一的检索服务平台。2015年出版发行的《公共图书馆元数据仓储编目规则》是元数据仓储制作的最新标准规范,此规则参考了DC元数据术语集、DC抽象模型和DC图书馆应用纲要,以及数字图书馆推广工程标准规范成果。南京图书馆自建数据库《中国近代文献图像数据库》元数据制作也是从DC元数据(都柏林核心元数据,Dublin Core Metadata)术语集中选取字段,集合本馆资源特点在建设过程中逐渐总结出的一套标准规范。作为图像数据类型,南京图书馆自建数据与元数据仓储项目之间可以通过映射关系实现互操作,其映射关系的对照如表1所示。

南京图书馆在对《中国近代文献图像数据库》图像数字资源进行建设之初无任何可参考、可借鉴的地方,是在数据库的建设实践中不断摸索出的一套规则。从两者的映射关系中可以看出,南京图书馆的图像资源建设标准的元素选取比较全面,涵盖了12个核心元素和一个资源类型核心元素。两者相同之处显而易见,两者最大的不同点在于元数据仓储项目增加了对图像资源属性的描述字段,例如文件大小、文件分辨率、颜色、格式等字段。下文侧重阐述两者在映射时的不同点和需要注意的地方。

3 图像资源字段中有关各条目语义的理解与区分

3.1 正题名及其他题名

南京图书馆自建元数据的“题名”项是描述图片的名称,是对图片内容的概括,基本可以和元数据仓储的“正题名”项直接转换。但是元数据仓储标准中还设置了一个“其他题名”项。主要用于著录其他语种的题名或用于限定、补充、解释正题名的题名信息。

3.2 主题词或关键词

元数据仓储标准里的“主题词或关键词”项是用于描述资源主题内容的受控或非受控的词汇。在标引时要求客观、细致、全面,并且根据资源的内容进行分析概况。词汇选择上要具有检索意义,以通用、常用为原则。选用主题词标引时应与主题概念相对应,并选用具有最小粒度的语义。选取数量不应超过十个。南京图书馆当初在制作元数据时,因为无可借鉴的实例,关于“关键词”项采用的是主题词和自由词相结合的方式,并总结出了一张关键词表,主要揭示图片的主体内容,数量不超过四个。因此在制作元数据仓储时,此字段与元数据仓储编目规则要求略有不符,需要标引人员针对每一张图片,根据图片所包含的内容尽量完整、全面的标引出相关主题词和关键词。举例如下。

例1:南京图书馆自建数据中对于孙中山发布的政令著录题名:孫中山頒佈剪除盜賊以利民生令;关键词:政令;孙中山。而在元数据仓储规范标准要求中著录的正题名:孫中山頒佈剪除盜賊以利民生令;关键词或主题词:孙中山;政令;民生;盗贼;社会治安。

例2:南京图书馆对国民政府中央银行发行壹元法币图像的著录题名:中央銀行發行的壹元法幣(寳鼎)背面;关键词:金融。而元數据仓储标规范准要求中著录的正题名:中央銀行發行的壹元法幣(寳鼎)背面;主题词或关键词:金融;錢幣;中央銀行;壹元;法幣。

从以上两个例子可以看出,南京图书馆制作的元数据关键词比较简单、概括,不能满足元数据仓储标准所要求的全面、细致、完整的标引需求,需要标引人员逐条加以人工标引。

3.3 编目分类

南京图书馆自建元数据“分类名”的制作主要根据原文献的专题来划分,主要包括政治、经济、军事、文化、科技、教育、体育、宗教、法律、人物、建筑、风俗、广告、医药卫生、历史地理这15个大类。另外下设了一个“子类”,分类名不超过两个,子类用于填写第一个分类名的下位词。分类时,首先需要将文字的分类名转换成标准的依据《中国图书馆分类法(第五版)》 的字母数字型的分类号;其次,标引人员需综合考虑分类名、子类及图片内容属性等多方面的因素,全面客观地选取分类号,并能与主题词或关键词字段相对应。

例:自建数据库著录

题名:邳縣城皇廟遺址

内容摘要:邳縣城皇廟遺址,1938年2月,邳縣抗日青年救國團在此成立。

分类名:全民抗战

子类:民众

元数据仓储标准:

正题名:邳縣城皇廟遺址

内容摘要:邳縣城皇廟遺址,1938年2月,邳縣抗日青年救國團在此成立。

主题词或关键词:古蹟;邳縣;城隍廟;抗日青年救國團

中图分类:K928.7;K265

3.4 责任者名称

元数据仓储标准项目里的“责任者名称”主要是专指照片的拍摄者、书画作品的书写者或者绘制者。这与南京图书馆自建元数据的“内容创建者”有所区别。南京图书馆自建数字资源时内容类型为“照片”,因此内容创建者字段大多录入照片的拍摄者,但是元数据仓储标准的内容形式是根据图片的内容属性来判断,而非简单判断为照片。例如吴道子画作《天王送子嗣》 的著录中,南京图书馆将之作为照片来制作,而元数据仓储标准中归入绘画类型,责任者名称项录入该画的绘制者。

例:自建数据库著录:

题名:《天王送子嗣》丰卷之一段(中國畫)

内容摘要:吳道子畫《天王送子嗣》丰卷之一段

内容创建者:延光堂照相館攝

内容类型:照片

元数据仓储项目标准:

正题名:《天王送子嗣》丰卷之一段 (中國畫)

责任者名称:吴道子

责任方式:绘

其他:延光堂照相馆攝

内容形式:图像(静态)

另外,南京图书馆元数据还设置了“其他责任者”字段,用于录入照片的赠送者或者寄送者。在建设元数据仓储项目时其他责任者字段的内容可以放在“附注”字段或其他字段,以作补充。

3.5 内容形式

南京图书馆自建元数据时规定了“内容类型”字段,近代文献图像数据库和抗日战争历史图库的数据都是照片形式,所以统一录入內容类型为照片。而在元数据仓储项目里设定了一个“内容形式”字段,规定将图片形式统一录为图像,根据图像内容中有无运动的状态,可以细分为图像(静态)和图像(动态)。此字段为必备字段,用于区分不同的资源类型。

3.6 创建日期和时间范围

元数据仓储项目要求如果能够确定图像内容具体的创作日期,则录入“创建日期”字段;如果根据图片内容只能判断出所反映的大致时间段,则需录入“时间范围”字段。而南京图书馆在录入作品日期字段时,往往是根据图片说明所反映的时间来录入,所以在制作元数据仓储时,需要根据具体情况来分别录入。

3.7 出自与所属数据库

元数据仓储项目里“出自”字段是指用于说明资源所属的的原始文献。比如一张图片是从哪种书里数字化而来。这与南京图书馆自建元数据的“图像出处”字段基本吻合。但是需要注意的一点是,“出自”不同于所属数据库或者丛编项。元数据仓储建设项目里的所属数据库是指对象数据所在的自建数据库名称。

例:正题名:廣州航空界慶祝第一架自造飛機“成功”號試飛成功

出自:良友第34期

所属数据库:中国近代文献图像数据库

4 南京图书馆建设元数据仓储时遇到的特殊情况

4.1 一条发布地址对应多张图片的情况

元数据仓储项目要求建设对象必须是已发布的有对象数据的本馆自建元数据。南京图书馆在已发布的近代文献图像数据库中呈现出一种现象:一个发布地址点击后出现两张图片,甚至多张图片。例:http://www2.jslib.org.cn/was5/web/detail?record=4&channelid;=56009。发布地址里出现了三张图片。由于每一张图片的文件大小和分辨率均不相同,所以需要分开录入,做成三条数据。三条数据中只有文件大小和分辨率字段是不同的,其他字段几乎相同。此为解决办法1。解决办法2是一个地址做成一条数据,但是在附注字段说明此条数据有三张图片,另外在文件大小和分辨率字段按照顺序分别填入三张图片的文件大小和分辨率,中间用半角分号隔开。此方法能够有效保持数据的完整性。

4.2 资源类型判定的问题

虽然南京图书馆自建的近代文献图像数据库和抗日战争历史图库都是图片形式。但是元数据仓储项目里的资源类型是根据图片的内在内容属性判定的,不能根据资源的外在形式来判断。例如毛泽东亲笔书写的手稿照片,从外在形式看,它是一张照片,是关于文本的照片;但是从它内在的内容属性看,它是一份手稿,是毛泽东亲笔书写的手稿,因此不能以图像类型来制作元数据仓储,必须按照手稿的形式制作元数据仓储。目前推广工程元数据仓储项目将不能归入原有八种类型(图书、期刊、论文、报纸、图片、音频、视频及网页采集数据)的元数据统一使用通用类型来制作,比如手稿、信札、拓片、扇面、印鉴、书影、法律作品等。因此对于图像数字资源,在制作元数据仓储时并不能全部按照图像资源类型来制作,需要标引人员根据资源内在内容属性逐条客观判断。不同的资源类型须使用不同的制作规范来制作。元数据仓储针对每一种资源类型都列出了不同的术语表,以方便元数据的制作。

5 对南京图书馆元数据仓储建设及自建数字资源的一些思考

南京图书馆自2004年申报《中国近代文献图像数据库》 自建项目以来,历经了十几年,已完成自建数据二十多万条,初具规模,成绩是显而易见的。但南京图书馆的自建资源库就像一个资源孤岛,没有和其他图书馆、其他文化机构形成互联互通。我们不得不思考,南京图书馆的这些数据是否与其他馆或者机构有重复的现象?这些数据能不能被其他机构所直接使用?随着大数据时代的到来,必须打破这种孤岛现象,坚持合作共建、合理共享的原则,实现数字资源建设与其他图书馆和机构的互联互通。结合元数据仓储项目建设中发现的一些问题,笔者建议南京图书馆自建资源可以从以下几个方面作出一些调整和改变。

5.1 资源选题

南京图书馆近代文献图像数据库主要是集中收录1911年至1949年之间的民国文献,随着图像资源建设的不断成熟,可以适当向前延伸,进一步挖掘本馆馆藏资源。同时,可以结合本地政治、经济、文化事业等发展情况并结合馆藏特色,建设专题资源库,并努力寻求与博物馆、档案馆及其他文化馆的合作,以保存与展示本地的政治、经济、文化等方面的建设发展情况。例如,第26屆世界大学生夏季运动会于2011年8月在中国深圳举行,深圳图书馆就以“大运足迹——第二十六届世界大学生夏季运动会媒体报道汇编”为主题制作了一个专题数据库。此外,深圳图书馆还制作了“中国国际高新技术成果交易会媒体报道专题数据库”和“深圳读书月媒体报道专题数据库”等。再如,辽宁省图书馆制作的“东北方志人物数据库、口述历史、地名数据库、地方建筑数据库”,这些内容都是取自于该馆馆藏特色文献《东北地方文献联合目录》 《东北方志人物传记资料索引》 《辽宁旧方志·奉天通志》 《东北乡土志丛编》 《辽宁省地名录》等。另外还要注意资源建设的连续性,尽量完整、全面的建设一批自建资源数据库。

5.2 资源建设遵循全国统一的标准与规范

随着十几年的图像数字资源建设发展,南京图书馆在制作图像数据库的实践中总结出了“近代图像标引关键词表”和“近代图像数据库分类表”的一些著录经验,但在现有标准规范基础上,南京图书馆的自建数据库的建设项目仍需要结合最新数字资源建设标准和其他国内外较成熟的标准规范,制定出一套更适用的更完善的标准规范。目前,全国图书馆标准化技术委员会最新制订的有关数字资源建设的国家标准有《图书馆馆藏资源数字化加工规范》 (第2部分:文本资源)、《图书馆馆藏资源数字化加工规范》 (第4部分:音频资源)、《图书馆馆藏资源数字化加工规范》 (第3部分:图像资源)、《图书馆馆藏资源数字化加工规范》 (第5部分:视频资源)[6]。南京图书馆可依据上述全国性的标准,并根据本馆的客观实际情况,对自建数据的著录项目做一些调整和改变。比如,在分类字段,可以依据《中国图书馆分类法(第五版)》 的标准来使用分类号,尽量不使用文字形式。在关键词字段,尽量选择比较成熟稳定的、具有生命力的概念,选用常用、惯用、通用词汇。可以增加主题词形式,尽量统一使用最新版的 “中国分类主题词表”里的主题词。

5.3 加强人才队伍建设

图书馆还应定期对数字资源编目人员进行系统培训,培训范围涵盖编目流程、著录规则和著录规范以及著录工具等方面,增强信息著录的规范化、标準化,确保数字资源的准确性和一致性。同时培训内容还应该包括数字资源项目本身的概况,要使编目人员不仅要知其然,还要知其所以然,这样才能增强数字资源制作者的主观能动性,提高数字资源制作者的参与感,从而提高工作热情和积极性,防止一成不变、消极怠工状态的出现。

5.4 利用现代技术手段,减少人工输入

数字资源创建过程中,尤其在著录环节,人工输入出错率较高,元数据的质量受到影响。可以选择创建模版,给出限定词等方法保证数据的准确性和一致性。对于能批量处理的字段,尽可能批量制作,以节省人力和时间,将有限的人力充分用来处理不能自动处理的环节,提高数字资源的质量。特別是中图分类和主题词字段,需要标引人员重点著录。另外也要抽调人员定期对制作的数字资源进行审查和抽样审查,及时发现错误,并进行整改,防止问题长期积累。

参考文献:

萨蕾.数字图书馆元数据基础[M].北京:中央编译出版社,2015:172.

梁蕙玮,萨蕾.数字图书馆推广工程面向数字资源整合的元数据仓储构建[J].国家图书馆学刊,2012(5):27-32.

CNNIC第35次中国互联网调查报告[EB/OL].[2017-04-15].

https://wenku.baidu.com/view/e59d309aff00bed5b9f31dc3.html?from=search.

数字图书馆推广工程网络书香资源检索平台[EB/OL].[2017-04-15].http://zyjs.ndlib.cn/nlibrary/index.html.

王国平.公共图书馆自建特色数据库的实践与思考:以南京图书馆《中国近代文献图像数据库》为例[J].河南图书馆学刊,2015,35(12):25-27.

全国图书馆标准化技术委员会[EB/OL].[2017-04-15].

http://www.nlc.cn/tbw/bzwyh_bzhxd.htm.

丁文娟 南京图书馆馆员。 江苏南京,210018。

(收稿日期:2017-05-10 编校:谢艳秋)