可视化技术在馆藏文物资源信息组织与服务中的应用研究*

2021-08-28 06:21李迎迎孙玉琦
数字图书馆论坛 2021年6期
关键词:本体馆藏可视化

李迎迎 孙玉琦

(1. 淮阴师范学院经济与管理学院,淮安 223001;2. 中国科学院武汉文献情报中心,武汉 430071;3. 中国科学院大学经济与管理学院,北京 100190)

76.7万处不可移动文物、1.08亿件/套国有可移动文物,星散在广阔中华大地上、绵延于岁月长河中,这些不可再生、不可替代的宝贵资源,正为亿万中华儿女注入强大的精神动力[1]。由于文物资源种类繁多、浩如烟海,如何有计划、有组织、有目的地对文物资源进行保护、管理、组织和利用是亟待解决的问题。

文物资源具有唯一性、不可再生性、不可共享性,而文物信息资源是文物实体的数字化资源,包括文物的基础数据信息、图片、三维模型等,因此文物的信息资源是无限的、可再生的、可共享的[2],而且文物信息资源的开发利用在一定程度上可以替代文物实体,应用于文物的科学研究、知识共享、鉴赏等诸多方面。馆藏文物的信息化不仅是对文物的一种保护,同样更加有利于文物信息资源的传播,让用户突破时空限制,浏览、检索、获取文物知识,有利于我国传统文化的传播与共享。目前,已有多种数字化信息技术在文博事业中得到广泛应用[3],使得文物数字化保护、开发、组织、应用成为文博工作新的增长点。可视化技术是在已有多种数字化信息技术的基础上,将馆藏文物资源进行信息组织形成的数据、信息和知识进行再度提炼,形成从数据到知识的用户可交互的可视化环境。可视化技术在馆藏文物资源信息组织和服务中可以实现馆藏文物的信息实体虚拟化、信息资源数字化、信息传递网络化、信息利用共享化、信息提供智能化、信息展示多样化,同时满足用户多维馆藏文物知识需求。

馆藏文物是文物类型中所占比重较大的一种类型,大多数可移动文物都属于馆藏文物的类型[4],因此,本文以馆藏文物资源为研究对象,不仅包括馆藏文物的数字资源,同时还包括馆藏文物的真实信息,在此基础上着重探究馆藏文物资源信息组织与服务的路径,继而研究馆藏文物信息转化为馆藏文物可视化知识的全过程。

1 可视化技术在馆藏文物资源信息组织中的应用研究

在信息资源组织方法方面,包括资源的聚类、单一维度聚合、深度聚合、多维度聚合,以及多维度聚合的融合等。信息资源组织的工具也多种多样,包括主题词表、元数据、本体、关联数据、超网络、主题图、知识地图等。目前,国内外在馆藏文物资源信息组织方面,主要是利用元数据和本体技术进行组织,其次也有基于关联数据的研究,而且国内外的一些文博单位都设计了属于自己博物馆的专门元数据,同时也有CIDOC-CRM本体可供借鉴和利用。如Stasinopoulou等[5]提出了基于本体的文物领域的元数据集成与融合,基于EAD和DC元数据,实现元数据到CIDOC-CRM本体模型的映射。Kakali等[6]同样利用CIDOC-CRM本体实现了DC主题词表与CIDOC的映射。De Boer等[7]将关联数据引入文物领域,实现元数据和主题词向关联数据的转化。值得一提的是,Rinaldi等[8]提出了开发促进包容和跨文化对话的创新服务来改进文化遗产体验的设计,以促进跨文化交流和知识共享,而文物知识可视化则是较好的一种形式。高劲松等[9]提出了通过借助关联数据相关技术、利用SPARQL以及HTML对馆藏文物资源知识进行访问和查询。王超英[10]提出了基于本体的文物知识库构建方法,并对其涉及的关键技术进行了研究,构建了知识库扩充推理的框架和知识库扩展检索的模型,形成了满足用户需求的文物知识库。

目前,可视化技术在文博领域的应用研究相对较少。Ch'ng等[11]提出了数字化时代遗产的可视化问题,包括文本、内容、空间等信息,阐述了遗产数字化的重要性。宏观来讲,文博领域的可视化研究与国家政策挂钩,研究学者理应积极响应国家宏观政策,加大对文物资源信息可视化的研究;微观来讲,本文所讲的可视化技术在文博领域信息资源组织和服务中体现较强优势,不仅实现馆藏文物知识节点的可视化,同时将馆藏文物知识关联进行可视化,实现从馆藏文物数据到馆藏文物知识的完整转化,形成用户可交互的可视化环境。整体而言,可视化技术从文物的角度讲,一定程度上提高了文物的利用价值,同时对文物的数字化保存、组织、共享及传承具有重要的实践应用价值。从用户的角度来讲,不仅使用户在获取文物资源的过程中突破时空限制,同时通过可视化技术在资源检索过程中,额外获取文物知识。从文物组织管理机构角度来讲,可视化技术给组织管理人员提供了系统的方法思路,提出了文物资源信息组织和服务的管理方式,便于对资源的合理组织与整合。

2 馆藏文物资源信息组织与服务一般过程分析

可视化技术在馆藏文物资源信息组织与服务中应用的过程就是将馆藏文物信息转化为可视化知识的过程,从整体上可以分为信息准备、信息组织以及信息应用三大阶段,以及信息获取、信息预处理、元数据加工、本体组织、可视化表达五大环节,最终传递给用户可视化文物知识的完整过程,上级环节为下级环节奠定良好的基础和铺垫,并保证下级环节的完成和实现,具体过程如图1所示。

图1 馆藏文物资源信息组织与服务过程示意图

(1)待组织馆藏文物信息资源。信息准备阶段又细分为信息获取和信息预处理两个环节,经过信息获取和信息预处理之后的馆藏文物资源才能进行有效的信息分析,继而形成待组织的馆藏文物信息资源。待组织馆藏文物信息资源是进行馆藏文物信息资源组织的基础,根据可视化技术的需求,确保信息资源的纯净,避免信息垃圾的产生,提高信息组织的效率,为用户提供更好的服务体验。本研究中所获取的第一手馆藏文物信息资源即待组织馆藏文物信息资源,主要包括公共数字博物馆、高校数字博物馆以及研究院所数字博物馆等机构获取的馆藏文物实体数字化后的信息,继而将这些内容进行简单预处理之后形成的文物信息资源。由于文物信息的庞大、文物资源的异构及不定时更新等特点,使得待组织馆藏文物信息资源的获取及预处理存在较大困难和挑战,因此本文在实证研究环节只收集某一类特色馆藏文物资源进行研究。

(2)新生馆藏文物知识资源。信息组织阶段又细分为元数据加工和本体组织两个环节,本研究中针对馆藏文物信息资源所使用的工具特指元数据和本体,经过信息组织后的馆藏文物信息资源形成新生馆藏文物知识资源,在此基础上进行可视化表达。待组织馆藏文物信息资源不能满足用户知识资源的需求,也不能供用户检索、查询和使用,必须经过一定的知识节点架构和知识关联架构,也就是元数据加工和知识组织环节,从而形成信息与知识间的关联与映射。本研究中的元数据加工,主要是基于馆藏文物核心元数据标准对待组织馆藏文物信息资源进行基础描述,形成结构化的信息,这些结构化的信息资源已具备形成知识资源的雏形[12]。本体组织环节,主要是利用本体技术对经过元数据加工的信息资源的基本定义和关系形成概念化的明确说明,使其产生知识关联,形成知识库。新生知识资源主要就是经过元数据加工以及本体组织环节形成的,不再是单纯的数字资源,已经具备供用户进行知识获取的部分功能和特性,但必须通过下一环节将新生知识资源展示出来。

(3)再生馆藏文物知识资源。信息应用阶段主要是将信息和用户连接起来的中介和桥梁,通过可视化表达形成再生馆藏文物知识资源,使得馆藏文物信息以可视化知识地图的形式呈现在用户面前,便于用户对文物知识的检索、共享及利用。再生馆藏文物知识资源是借助于由待组织馆藏文物信息资源形成的新生馆藏文物知识资源的知识库,将其进行可视化地图展示,通过知识之间的关联模型构建馆藏文物知识网络,在此基础上,实现馆藏文物信息资源的知识推荐[13]。在本阶段主要利用的是知识地图这一关键技术,借助于元数据和本体所呈现的新生馆藏文物知识资源之间的关系以及链接,经过必要的归纳、演绎、推理形成再生知识资源,利用概念知识地图、空间知识地图等进行馆藏文物信息资源的可视化。

3 可视化技术在馆藏文物资源信息组织与服务中的应用路径

可视化技术在馆藏文物资源信息组织与服务中的应用是馆藏文物资源信息组织在新环境下的产物,是对传统资源信息组织的改进和发展,同时遵循信息资源组织的一般原则和规律,由于馆藏文物信息资源的特殊性、异构性等特点,形成了可视化技术在馆藏文物资源信息组织与服务的一些新特征,它的最终目标是为可视化技术在馆藏文物资源信息组织与服务提供一般的解决方案。

可视化技术在馆藏文物资源信息组织与服务中的应用路径(见图2),是在此前馆藏文物资源信息组织与服务过程基础上进行模块化设计,根据馆藏文物资源的特征,融合相关技术方法,最终形成可视化文物知识的过程。

图2 可视化技术在馆藏文物资源信息组织与服务中应用的路径结构图

①信息准备阶段,包括信息获取和信息预处理两个模块,涉及信息获取技术和信息预处理技术两大支撑技术。这一阶段处于框架的最底层,是对馆藏文物资源进行信息组织的信息准备阶段。②信息组织阶段,包括元数据加工和本体组织两个模块,本研究中主要应用元数据技术和本体技术两大支撑技术,完成对馆藏文物信息资源知识节点的描述和关联知识发现等目标,是可视化技术在馆藏文物资源信息组织与服务中应用的最重要的阶段。③信息应用阶段,包括馆藏文物资源信息可视化表达这一重要模块,本研究中主要应用知识地图这一支撑技术,这一阶段完成了对馆藏文物资源信息可视化,是将信息和知识与用户链接起来进行交互的桥梁。这三个阶段、五个模块、五大支撑技术相互串联、逐级递进,贯穿于馆藏文物资源信息组织与服务的整体过程,共同实现了馆藏文物资源信息的可视化呈现功能。

3.1 信息获取模块

信息获取模块处于框架的最底层,它的主要目的是收集馆藏文物数据和信息,包括数字化的文本数据、知识数据以及图片等信息,是可视化技术在馆藏文物资源信息组织与服务的基础保障,也是将馆藏文物信息加入整个过程的入口。针对不同类型的数据,采用具有针对性的信息获取技术,是该模块实现收集数据功能的基本途径。由于馆藏文物类型多样,收集的信息数据量也较大,本文主要通过数字博物馆已有的半结构化的馆藏文物数据和信息进行收集,通过数字博物馆的藏品数据库,收集馆藏文物已有的相关信息。

本研究中馆藏文物信息获取主要从国家数字博物馆、省级数字博物馆、市级数字博物馆以及高校数字博物馆中获取。目前我国的23个省、4个直辖市、2个特别行政区、5个自治区已基本拥有自己的数字博物馆。除此之外,获取途径还包括一些特殊的文博单位,例如故宫博物院、南京博物院以及敦煌研究院。值得一提的是,高校作为教育机构,一般没有数字博物馆,但很多高校有自己的实体博物馆,并在向文物实体的数字化方向转变。

3.2 信息预处理模块

信息预处理模块主要是针对收集的馆藏文物信息和数据进行基本的预处理,经过预处理之后的馆藏文物信息就可以进入信息组织阶段。这一模块是形成待组织馆藏文物信息资源的重要阶段,主要是通过信息分类、信息过滤、信息抽取等信息预处理技术完成,为下一步做好充分的准备。信息预处理主要是针对目标数据集中的信息数据结构不一致、无用信息、信息缺失等问题,采用相应的信息预处理技术进行处理,从而形成所需的馆藏文物资源信息。

3.2.1 信息分类

信息分类主要是利用已有的分类标准对馆藏文物信息资源进行大致分类,否则收集的数据将是杂乱、无法进行处理的,再将馆藏文物根据不同的属性划分到不同的类别中。如陈端志[14]在《博物馆学通论》中,将博物馆藏品分为历史、艺术、考古三大类。曾昭燏等[15]在《博物馆》中,针对博物馆藏品,按历史、艺术、科学、工艺四大类进行分类。何直刚[16]根据藏品的基本属性,分为六大类,即政治经济(附法律、军事)、文化艺术、礼仪宗教、生产工具、生活用具、其他(人类、动物骨架、化石等)。除此之外,还有很多的分类标准,但目前馆藏文物分类体系维度单一、粒度粗糙、类目设置不严谨等问题普遍存在[17]。本文在参考已有馆藏文物分类标准的基础上,根据国家文物局发布的《馆藏文物登录规范》[18]将馆藏文物分为35类,所收集的馆藏文物信息首先依据这35类进行大致划分,通过初步的信息分类,为后续信息处理做好准备。

3.2.2 信息过滤

信息过滤是在完成信息分类后的下一步骤,主要是完成对不必要的信息和不需要的信息进行删除、清洗等操作。一般情况下,由于文物的特殊性,很多资料无从查找,文物属性字段的内容有些是缺失的,而不必要信息存在的可能性不大。

3.2.3 信息抽取

由于信息的分散性、信息来源的异构性等特点的存在,馆藏文物信息抽取主要为元数据加工奠定基础,根据元数据加工的标准和要求,解决信息数据结构不一致的情况,从非结构化的文本中抽取相关信息,能够在元数据加工阶段快速找到和浏览有用信息。同时对不符合条件和要求的属性内容进行部分修改,以保持信息结构的基本一致性。

3.3 元数据加工模块

经过信息准备阶段获取处理的信息已经成为待组织的馆藏文物信息资源,接下来需要进入元数据加工模块。此处所提的元数据加工主要是针对馆藏文物信息资源知识节点进行表示,是本体组织模块的前提和基础,元数据加工模块和本体组织模块又共同构成馆藏文物信息资源组织的信息组织阶段,也是可视化技术在馆藏文物资源信息组织与服务中应用的最核心阶段。

元数据加工模块的关键支撑技术是元数据技术,本模块通过建立馆藏文物信息资源元数据标准从而描述馆藏文物知识地图的节点知识,以形成馆藏文物节点知识体系的模块。元数据主要是描述馆藏文物信息资源的微观结构,如文物名称、文物类型、馆藏机构等,元数据在进行馆藏文物信息资源描述的同时,不仅可以对馆藏文物进行知识发现,同时也是实现语义组织的基础,具有描述、标识、查找以及获取等功能。其中,元数据的描述功能是最基本也是最根本的功能,在元数据描述的基础上再借助本体实现语义层面的互联。

由于元数据标准的不一致,不同文物馆藏单位所采用的文物元数据标准不一致,在无法统一馆藏文物元数据标准的情况下,就会涉及元数据互操作的问题[19]。由于不同元数据标准的差异性,使得元数据标准之间不能彼此兼容,就降低了元数据之间的互操作,需要通过元数据的映射来解决元数据互操作的问题。

3.4 本体组织模块

经过元数据加工模块处理之后的数据知识是单个的知识节点,本体组织模块的主要目的是发现知识之间的关联,通过知识关联使馆藏文物信息资源贯穿在一起,形成结构化的知识体系。本体组织模块是元数据加工模块和可视化表达模块的中介,杂乱的知识节点很难以可视化的形式进行表达,通过知识关联将知识节点联系在一起,再以可视化的方式进行表达,本体组织模块在信息组织阶段占有举足轻重的地位和作用。

本体组织模块的主要支撑技术是本体技术,本体具有概念化(conceptualization)、明确性(explicit)、形式化(formal)、共享性(share)等特点[20],非常符合本研究的需要,馆藏文物资源信息组织的关键也在于实现具有共享特征的馆藏文物知识的规范化说明,这与本体的定义不谋而合[21]。本研究通过构建馆藏文物本体,实现馆藏文物知识的关联化,从中发现馆藏文物的关联知识,同时也为可视化表达奠定基础。本研究采用知识地图作为可视化表达的主要技术,而馆藏文物知识地图的构建也主要通过馆藏文物本体来实现,因此本体技术也使得元数据与知识地图之间产生了关联,对馆藏文物资源信息组织的研究起到极大的促进作用。

3.5 可视化表达模块

可视化表达模块是馆藏文物资源信息组织与服务的最后一个模块,是本研究所要实现的最终目标,主要是通过知识节点表示、知识关联表示并进行可视化输出来完成,本模块形成了再生馆藏文物知识资源。可视化表达模块是将数据与用户进行连接的桥梁,通过知识服务的形式达到馆藏文物信息资源知识共享、知识利用、知识创新等,是可视化技术在馆藏文物资源信息组织与服务的最终阶段,只有通过可视化表达模块,经过以上四大模块处理后的信息才能转化为知识供用户使用并进行知识发现。

本文中可视化表达模块的支撑技术是知识地图技术,知识地图的输出结果主要是经过整合之后的知识内容,并且以可视化的形式描述知识资源,知识地图不仅可以链接知识内容,也可以链接知识线索便于知识发现。本研究中馆藏文物知识通过知识地图这种可视化技术可以将杂乱的馆藏文物信息和知识形象生动地呈现在用户面前,包括知识节点的表示、知识关联的表示,用户可以通过馆藏文物知识地图准确地找到所需知识,为馆藏文物知识提供一种高效的知识导航工具。

4 实证研究——以青铜器为例

(1)信息准备阶段。青铜器是世界文明的一种象征,而中国的青铜器在世界青铜器中享有非常高的声誉。中国发展史上著名的青铜器时代包括夏、商、西周、春秋及战国早期,延续时间1 600余年,中国青铜器制作精美,极具艺术价值,代表着中国四千多年青铜发展的高超技术与文化。青铜器文物作为中国文物的典型代表,具有十分重要的研究意义和学术价值。因此,本文以青铜器为例进行实证研究。

本研究主要通过各个数字博物馆搜集典型的青铜器类馆藏文物的信息,在此基础上对信息进行一定的分类、过滤和抽取,最终收集到后母戊鼎、三羊铜罍、曾侯乙编钟、大禾人面纹方鼎、东汉铜车马、伏鸟双尾青铜虎、铃首曲柄青铜短剑等31个青铜器文物的一些基本信息。

(2)信息组织阶段。通过设计青铜器类馆藏文物的元数据以及本体构建实现馆藏文物信息资源组织的前期阶段,应用统一的元数据标准对馆藏文物进行著录,能够对不同来源、不同内容的馆藏文物进行有效揭示,同时还可以实现信息资源的整合。但元数据标准仅是对文物实体个体的描述,并没有建立起这一个领域的文物之间的关系,因此需要在元数据的基础上对青铜类馆藏文物进行本体的设计与开发,以建立青铜类馆藏文物之间的知识关联。本研究主要利用本体编辑工具Protégé实现,结合文物元数据信息,基于CIDOCCRM本体构建青铜器本体(见图3)。

图3 青铜器本体(部分)

(3)信息应用阶段。在信息应用阶段,本研究主要选用The Brain知识地图工具对馆藏文物信息资源进行知识可视化。The Brain可以无限制展现知识之间的关联,在一级类目下可以有多个子类目,甚至还可以存在跳跃类目。例如,在本研究中,根据每一个青铜器所收集的信息著录元数据后,该青铜器的数字图像以及所有元数据著录信息都可以以知识元素的方式呈现,便于用户对青铜器文物知识的精确查询,同时还可以知识地图可视化的形式呈现出来,便于用户通过视觉表征发现新知识,有助于对知识的再创造。除此之外,还可以以知识地图可视化的形式展示其不同层级上位类的实例及其知识关联,并以网状结构进行呈现,而非单纯的线性结构。因此,既可以呈现青铜器的各个类型以及各个青铜器类型之间的关联,也可以呈现青铜器类型与青铜器知识节点之间的关联,还可以看出青铜器知识节点与知识节点之间的关联,这就将所有的青铜器类型贯穿在一个网络中,用户可以一目了然,极大地增加了用户检索查询的便利性,缩短了用户的检索时间,提高了效率,充分体现了可视化技术在馆藏文物资源信息组织与服务中应用的作用和价值。

5 结语与展望

本文基于信息资源组织的一般过程,结合馆藏文物的资源特点,并从知识可视化的角度,在借鉴前人研究的基础上,构建可视化技术在馆藏文物资源信息组织与服务中应用的框架,并分析该框架的功能,从数字化和可视化的角度对馆藏文物信息资源组织进行了探索性的尝试。由于馆藏文物信息资源的多样性和异构性,基于可视化技术的馆藏文物信息资源的组织与服务工作还需融入新技术与新理念,将智能化技术与服务融入馆藏文物信息资源组织中,以期为整个文博事业的发展提供一定的借鉴,促进馆藏文物知识的创新及再利用,实现馆藏文物的文化知识传承。

猜你喜欢
本体馆藏可视化
基于CiteSpace的足三里穴研究可视化分析
思维可视化
馆藏几件残损《佚目》书画琐记
眼睛是“本体”
基于CGAL和OpenGL的海底地形三维可视化
博物馆的生存之道:馆藏能否变卖?
“融评”:党媒评论的可视化创新
知还印馆藏印选——古印篇
基于本体的机械产品工艺知识表示
介绍两件馆藏青铜器