贝叶档案数字化建设中的元数据研究

2021-07-29 07:57鲁国轩中国人民大学信息资源管理学院
浙江档案 2021年3期
关键词:检索框架数据库

宋 欣 鲁国轩/中国人民大学信息资源管理学院

贝叶档案以棕榈叶为记录载体,其年代久远、载体材料特殊,具有独特的文献价值、历史文化价值和文物价值,是珍贵的世界文化遗产。由于自然老化、保存不善和人为破坏等原因,存世的贝叶档案数量十分稀少,亟待进行抢救性保护。贝叶档案数字化建设是贝叶档案抢救性保护的有效途径,元数据框架的确定则是数字化建设的前提和基础。本文首先阐述了贝叶档案元数据设计的必要性和可行性,其次分析了DC、EAD和CDWA等与贝叶档案相关的常用国际元数据标准,并将这3种元数据标准作为构建贝叶档案元数据框架的基础,最后按照分析贝叶档案信息资源特征、设置元数据的设计目标、遵循元数据设计原则的设计思路,构建面向贝叶档案数字化建设和信息资源利用的元数据设计方案。

1 贝叶档案元数据设计的意义

1.1 元数据设计的必要性

1.1.1 贝叶档案数字化建设的必要性

贝叶档案中记录了有关历史学、文学、天文学、艺术学、传统医学等方面的知识,具有较高的利用价值。但由于自然、人为等原因,保存至今的贝叶档案数量很少,且部分保存状况较差,随着时间的流逝,贝叶档案老化情况也不断加剧。因此,除对贝叶档案本体进行保护和修复外,还应利用数字化技术对内容进行抢救性保护,对非结构化的原始数据进行描述,使其转化为结构化数据,实现贝叶档案资源整合、管理和长期保存的目标[1],促进贝叶档案资源的开发和利用。

此外,我国贝叶档案的保存地点较为分散,对于集中利用造成了极大的障碍。目前,贝叶档案除在西藏档案馆、布达拉宫、西藏博物馆、罗布林卡、萨迦寺等西藏地区外,在北京的民族文化宫、杭州的灵隐寺、四川的万年寺等地也有分布[2],贝叶档案资源数字化是解决上述问题的最佳方法,且国外很多国家和地区都对贝叶档案进行了数字化。2003年,印度旅游与文化部成立了印度手稿国家使命项目,专门负责调查、记录和保存贝叶档案,将贝叶档案进行数字化并且使用开源软件DSpace作为在线数据库;老挝国家图书馆将贝叶档案的缩微胶片进行数字化,并开发了在线数据库供检索利用。

1.1.2 贝叶档案元数据设计的必要性

上述机构虽建立了贝叶档案数据库,但由于缺乏统一的元数据方案指导,导致形成多个异构的贝叶档案数据库,数据库之间缺乏关联,档案资源仍无法共享。泰国学者尼萨乔·查姆农斯里(Nisachol Chamnongei)调研了16个贝叶档案保存项目的元数据使用情况后发现,各项目组按照自身的需求对贝叶档案元数据框架进行设计,依据元数据框架建立的档案数据库之间资源缺乏关联性,形成了众多贝叶档案“信息孤岛”。当前,国内外尚未形成规范的贝叶档案元数据方案,异构的贝叶档案数据库信息资源无法共享、缺乏资源关联性,贝叶档案信息资源的利用存在障碍。因此,有必要设计一套具有互操作性、专指性、规范化的元数据方案。

1.2 元数据设计的可行性

1.2.1 以理论研究成果为支撑

目前,国外关于贝叶档案元数据标准的研究已经取得了一些成果。2001年以来,泰国运用技术手段对包括贝叶档案在内的古代文献进行数字化处理,专门创建了贝叶档案数据库。但实践发现,由于缺少对用户使用、服务系统等需求的考虑,该数据库的元数据设计存在缺陷,并未达到高效便捷利用的目的。因此,尼萨乔·查姆农斯里等人提出将FRBR模型作为概念模型应用于泰国贝叶档案数字化过程中的元数据开发环节,实现对贝叶档案中知识的描述和组织,使贝叶档案数据库具备支持访问、获取和管理的各种功能,由此为贝叶档案元数据设计提供了有效可行的方案[3]。2017年,尼萨乔·查姆农斯里对英国、美国、老挝、印度、泰国等国家和地区的16个贝叶档案保存项目开展了一项调查,发现使用频数最高的10个贝叶档案描述元素分别是标题/主题、脚本语言、分册编号/标识符、保存地点、页数、发现的日期和地点、尺寸、材料的类型、描述/摘要、护经板[4],并结合对贝叶档案用户需求和检索行为的研究,提出建立面向用户需求的贝叶档案元数据模式[5]。

1.2.2 以现有元数据标准为基础

EAD、DC、CDWA等与数字化建设相关的国际元数据框架已得到广泛应用,其设计思路为贝叶档案元数据设计提供了重要参考。EAD(档案元数据)可用于描述贝叶档案资源,DC(都柏林核心元数据)广泛用于描述网络信息资源,CDWA(艺术作品描述类目)可用于描述贝叶档案的物理形态等信息。由于贝叶档案兼具档案和文物的特征,同时其数字化版本又属于网络信息资源,因此上述三个元数据框架对贝叶档案元数据的设计均具有指导意义。此外,EAD、DC和CDWA是国际上通用的元数据标准,因此在此基础上构建的贝叶档案元数据方案具有较好的互操作性。

综上,在实践层面,国内外众多收藏机构将贝叶档案进行了数字化处理,并建设了贝叶档案数据库,但由于缺乏统一的贝叶档案元数据标准,异构数据库之间的资源无法共享和利用,各机构之间也无法开展合作,不能发挥贝叶档案数据库真正的价值和作用。在理论层面,国内外贝叶档案元数据的相关研究仍处于比较零散的状态,且没有形成统一的元数据标准,严重制约了贝叶档案数字化的发展。因此,制定规范化的贝叶档案元数据标准迫在眉睫。

2 相关国际元数据标准分析

2.1 EAD(档案元数据)

档案元数据(Encoding Archival Description)简称EAD,主要用于描述档案和手稿资源,包括文本文档、电子文档、可视材料和声音记录,同时还可广泛地应用于其他领域的科学文献资料的编目工作[6]。EAD高层元素由EAD头标、档案描述以及前置事项组成,其中EAD头标和前置事项提供检索信息,档案描述提供关于档案资源主体信息。贝叶档案元数据框架设计中可借鉴EAD头标的描述项,对贝叶档案的出处、来源、语言等进行描述;参考档案描述的描述项对贝叶档案的内容摘要、贝叶档案装具、物理位置、馆藏单位等信息进行描述。

2.2 DC(都柏林核心)

都柏林核心元数据(Dublin Core)简称DC[7],主要用于网络资源的著录、发现和组织。DC共有15个核心元素,简单易用、普适性强,但由于描述对象是所有网络资源,故欠缺针对性。因此,在选择DC元数据作为贝叶档案元数据设计的主干框架时,还需在此基础上注入更多针对贝叶档案信息资源特征的高质量、专指性强的元素[8]。

2.3 CDWA(艺术作品描述类目)

艺术作品描述类目(Categories for the Description of Works of Art)简称CDWA,旨在对艺术品物理形态及数字化影像资料进行描述和编目,支持对艺术品及其数字化资料的管理、检索和发现,提升信息之间的兼容性[9]。CDWA共有532个元数据项,元素丰富、结构复杂。其中,用于描述艺术品外部物理特征的元数据项,如测量数据(尺寸、形状、大小、比例)、材质与技术(材质、工艺)、外观描述(艺术品形状)等,可用于描述贝叶档案的形状、尺寸、材质等物理特征。

3 贝叶档案元数据框架设计

3.1 元数据设计目标

在设计贝叶档案元数据时,首先要明确的是元数据应具备的功能和要达到的目标。当前,贝叶档案信息资源检索和利用方面最大的困难是档案资源相对分散,资源间原有的体系和联系被打乱,难以组织和管理;即便是同一来源地区的贝叶档案,其本体被分散保存在不同机构当中,数字化版本被分散保存在各个异构数据库中。贝叶档案资源分散的现状导致贝叶档案资源共享困难、信息资源利用效率低。在贝叶档案实体无法集中的情况下,建立一套面向贝叶档案数字化建设和信息资源利用的元数据框架,保证其兼容性的同时突出贝叶档案的资源特征,最终建成具有贝叶档案特色的数据库,实现对贝叶档案资源的描述、定位、检索、保存和组织管理,支持多种检索方式和异构数据库间的互操作,提高贝叶档案资源检索的效率,实现跨库资源共享和开发利用。

3.2 贝叶档案资源特征分析

3.2.1 确定著录对象及资源类型

界定著录对象的范围是提高著录准确性和针对性的前提。以贝叶为记录载体的档案是贝叶档案元数据的著录对象。当前,贝叶档案主要的资源类型是贝叶档案本体和经数字化后形成的贝叶档案图片和视频等。

3.2.2 提炼贝叶档案资源属性

贝叶档案具有材质特殊、外观各异、尺寸不一、装帧各具特色、语种众多、书写方式多样等特点。为使贝叶档案元数据框架资源描述更全面、更具针对性,有必要对贝叶档案的资源属性进行分析和提取。贝叶档案资源属性可分为身份识别、内容属性、外部物理属性和保护属性4个部分[10]。

一是身份识别。主要用于对贝叶档案数字资源的定位和管理。参考EAD标识符对贝叶档案资源的标识符、资源类型、来源等进行身份识别号码的编制与设计,为检索提供唯一的识别号和代码,同时还能表明资源的类型、来源等信息。

二是内容属性。主要用于贝叶档案的资源描述和检索。“标识符”“题名”“时间”“地点”“相关人物”不仅能对贝叶档案信息进行描述;还能提高资源组织的效率,提供编号检索、题名检索和人物检索等多种检索方式,提高检索的效率和准确度。“文字”是笔者新增的自定义核心元素,用于描述贝叶档案所使用的“语种”“书写方式”“书写风格”“字迹颜色”,通过分析不同时期和地区流行的语种和书写风格就可以推断出贝叶档案产生的年代和地区;其中“字迹成分”也可用来推断贝叶档案的年代,还能为修复贝叶档案字迹提供依据。因此,“文字”这一新增元素对于判断贝叶档案的来源具有重要作用。“摘要”“格式”能够描述贝叶档案的主要内容信息和数字化后的电子形态,帮助用户快速高效地获得所需资源。

三是外部物理属性。用以描述资源实体的外观信息,如贝叶档案的材质、形状、尺寸、装帧形式、叶数、行数等。旨在通过对贝叶档案外部物理特征的描述,使利用者和档案工作者对贝叶档案有更加直观了解,突出贝叶档案外形的特点,并为其后续保存和修复提供依据。

四是保护属性。用以实现对贝叶档案实体的管理和保护。“护经夹板”是新增的自定义核心元素,这也是贝叶档案特有的元素,贝叶档案通常配有上下两个夹板来进行保护(护经夹板通常指的是贝叶档案上下的两个木板,类似于书籍的封面,起到保护内容的作用,还能防止档案边缘破损),不同的材质保护效果不同,例如樟木制成的夹板能够较好的防虫;可以根据夹板的“材质”和“尺寸”等信息,发现并更换保护效果不理想的夹板。“保存状态”是另一个自定义核心元素,通过“基本性能”(色差、酸度、含水率)、“病害类型”(残缺、破损、鼠啮、字迹褪色等)和“完残程度”(保存完好、轻度破损、中度破损、严重破损、特残破损)[11]这3个描述项,反映贝叶档案本体的保存状况和物理状态。一方面,能够使管理者全面掌握贝叶档案保存状况的信息,采取有效的分级保护措施来加以改善和治理;另一方面,能够使用户对贝叶档案保存状态有直观的了解。

3.3 已有元数据标准的选用

DC元数据作为贝叶档案元数据设计的主干框架,为元数据框架提供普适性的元素;EAD作为元数据设计的核心借鉴元素,提供更具针对性的元素,用于描述贝叶档案内容和管理方面的元素;CDWA作为辅助借鉴元素,提供具有贝叶档案特色的“外观物理属性”元素,突出贝叶档案的外观物理特征。

DC元数据具有广泛的适用性和兼容性,能够与其他类型元数据建立映射,是基础元数据的最佳选择。选用DC元数据中的“题名”来描述贝叶档案的标题和名称;“相关人物”来说明与贝叶档案有关联的人物,如原创作者、抄写或誊写者、译者等;“日期”用来描述贝叶档案的制作日期、发现/出土日期、收藏日期等重要的时间节点;“格式”用来描述贝叶档案数字化后的电子形态。

EAD档案元数据标准具有简洁、灵活和可扩展性的特点,能广泛支持文本和文字处理系统。贝叶档案与纸质档案一样具有档案编号、装具和馆藏单位等信息,本方案将复用EAD标准中的“标识符”“摘要”“装具”“馆藏单位”这4项核心元素项来描述贝叶档案的内容和馆藏等信息。

贝叶档案的载体为贝叶材质较为特殊,其外部物理特征极具特色,因此在元数据框架中应纳入贝叶档案的材质、装帧、尺寸等元素,突出贝叶档案的载体特点。本方案借鉴CDWA“外部物理特征”中的“材质”“装帧”“尺寸”等元素来描述贝叶档案的外部特征。

3.4 元数据框架设计

表1:贝叶档案元数据框架

元数据框架设计以贝叶档案资源特征为核心,借鉴EAD、DC、CDWA这3个元数据标准,运用分类和分层的思想,将元数据按照功能分为描述性元数据和管理型元数据,将元素分为核心元素、子元素和部分孙元素,层级清晰明确。最终设计的贝叶档案元数据框架,共有20个核心元素、18个描述性元数据、2个管理性元数据。

4 结语

设计统一规范的贝叶档案元数据框架是贝叶档案数字化建设、信息资源整合、利用、共享的基础性工作。目前,在国内贝叶档案研究领域还没有统一的、系统的、成熟的元数据标准。为实现贝叶档案信息资源的整合共享、组织检索、知识发现提供技术支持,本文遵循元数据设计的原则,借鉴国际上相关的成熟的元数据标准,结合贝叶档案自身的特点,制订出贝叶档案元数据核心框架元素。以期通过贝叶档案元数据标准的研究,实现贝叶档案在网络环境下的高效检索、跨平台资源共享和开发利用。但是由于贝叶档案内容涉及范围广、制式多样,本文提出的贝叶档案元数据框架还存在诸多不足,要全面且准确的描述贝叶档案的本质特征,仍需进一步深入探讨。

猜你喜欢
检索框架数据库
有机框架材料的后合成交换
框架
CNKI检索模式结合关键词选取在检索中的应用探讨
通过实际案例谈如何利用外文库检索提高检索效率
瑞典专利数据库的检索技巧
浅谈框架网页的学习
英国知识产权局商标数据库信息检索
数据库
数据库
数据库