基于关联数据的数字档案资源语义互联模型研究

2020-12-14 06:33
卷宗 2020年29期
关键词:档案学本体关联

程 娅

(武汉软件工程职业学院,湖北 武汉 430205)

数字档案资源的日渐丰富在一定程度上保证了数据的多样性,同时也阻碍了资源的组织与共享。为了优化数字档案资源的组织方式,相关专家已从多方面提出了资源整合的方法。关联数据作为实现语义互联的关键技术之一,不仅能实现同一领域的知识互联,也可以实现跨领域的知识互联,从而达到数据孤岛向互联数据空间的转变。

1 数字资源语义互联的方法

推进档案资源语义互联,可以实现数字档案资源系统与其他信息系统在语义层面进行整合,形成一个机器理解的语义档案资源共享网络。目前解决数字资源语义层面的互联问题主要有四种方法,分别是基于顶层本体的语义互联方法、基于桥本体的语义互联方法、基于知识地图的语义互联方法和基于关联数据的语义互联方法。

顶层本体为领域本体提供统一的语义互联术语和定义,可以实现全局本体与局部本体之间的映射。桥本体通过定义各种桥关系完成不同领域本体之间的概念关系映射,形成领域内的共享本体。知识地图通过知识链接实现知识之间的关联。关联数据采用RDF三元组的形式描述资源,语义网通过这种模式将Web上的数据链接起来,形成一个语义互联的网络。

通过分析四种语义互联方法后发现:顶层本体虽然可以实现全局本体与局部本体之间的映射,但要构建一个涵盖某领域所有知识的顶层本体并不实际。桥本体可以通过简单定义语义互联关系实现资源的语义互联,但实验表明桥本体概念间的语义关系很难形式化表达。知识地图受限于现有的数据推理与挖掘技术,难以挖掘潜在知识和隐性知识。关联数据因其完善的链接机制,不仅能对网上不同领域的数据资源进行互联,还支持用户在网络上的信息查询与资源共享。因此本文选择关联数据技术实现数字档案资源的语义互联。

2 基于关联数据的数字档案资源语义互联模型构建

关联数据使用URI标识Web上的各类资源,利用RDF模式描述并链接各种数据,并通过HTTP URI命名资源空间。基于关联数据的数字档案资源互联模型使资源都有唯一的标识和相关的资源链接,方便用户快速准确的获取所需资源。该模型有六个层次,如图1所示,下面将具体阐述各层次的主要功能。

图1 基于关联数据的档案馆数字资源语义互联模型

2.1 数据层

随着档案信息化工作的深入,各档案工作部门形成了诸多档案管理系统和各种特色档案数据库,构成了数字档案资源语义互联的数据基础,主要包括文本档案、音视频档案、XML档案和档案元数据等数字资源。

2.2 标识层

标识层需要两种技术支撑:Unicode和URI。Unicode以一种抽象的字符方式来处理资源,最多可容纳1114112个字符。URI用于标识某一数字资源名称的字符串。档案工作部门形成的各类数字资源都可以由唯一的URI进行定位,从而确保数据的一致性和准确性。

2.3 描述层

描述层主要利用本体技术对实体对象进行注释。该过程采用RDF描述资源,以XML语法结构组织信息,将元数据转换成具有语义的RDF格式,实现不同元数据的语义化描述和语义化互操作。

2.4 本体层

本体层在档案资源语义互联中尤其重要,它以XML与RDF技术为支撑,先通过RDF定义数字档案资源,再用本体定义语义关系。本体构建作为本体层的主要任务,需要领域专家和计算机专家在本体构建原则的指导下,通过便捷的本体开发工具加以实现。

2.5 逻辑层

由于本体层的实体对象特别是实例对象数量庞大,加之实体对象之间的关系复杂多变,可能会忽视对某些实体及其关系的描述,需要对本体进一步操作,完善数据之间的逻辑关系。该层主要是实现对本体的语义推理与语义映射。

2.6 应用层

将档案元数据本体发布到Web中,并提供对其开放的浏览与查询,是应用层的主要任务。档案工作者在构建与发布关联数据时,应针对数字档案资源的特点与实际需求,通过RDF数据模式实现数字档案资源的最优化发布。

3 基于关联数据的数字档案资源语义互联实现的关键措施

3.1 RDF元数据的构建

RDF作为一种元数据描述方法,可以表达Web上的任何事物。对档案部门而言,各种独立的资源通过RDF链接后,可以形成一个全面系统的知识网络。图2为RDF元数据的构建实例,描述了一个包括档案学理论、档案术语学、档案法规学和比较档案学的基础理论。RDF元数据在不断收集与标识过程中构建资源间的语义关系,实现整个档案馆数字资源的整合。

图2 基础理论RDF元数据构建实例

3.2 本体的设计与构建

本体构建是本体技术的基础,需要各领域专家遵循一定的构建原则,采用合适的技术与工具加以实现。Protégé作为一种本体编辑和知识获取工具,是当前使用最广泛的本体编辑工具之一。本文基于对档案学学科结构的梳理,在档案领域对档案学元数据本体进行定义。在档案学元数据本体构建过程中,将其分为三大类:档案学、档案和代表人物,具体细分方法见表1。在使用Protégé构建本体时,依据表1的细化分类,可以获得档案学元数据本体的类层级图,如图3所示。

表1 档案学元数据本体类表

4 结束语

数字档案资源语义互联的目的是为用户提供更好的服务,将关联数据应用于数字档案资源知识组织时,可以建立科学高效的知识组织与服务体系,推动档案行业向数字化、网络化、开放化转变,给档案工作带来全新的发展机遇。

图3 档案馆学元数据本体类层级图

猜你喜欢
档案学本体关联
Abstracts and Key Words
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
对姜夔自度曲音乐本体的现代解读
“一带一路”递进,关联民生更紧
奇趣搭配
关于档案学会工作的几点思考
智趣
历史主义是档案学不变的灵魂和宗旨
——《魂系历史主义——西方档案学支柱理论发展研究》述评
《我应该感到自豪才对》的本体性教学内容及启示
省档案学会六届二次常务理事会议在南京召开