基于多模态知识图谱的河姆渡文化资源库系统设计与实现

2025-01-17 00:00:00宋振英卢焕达李天杰王华健杨焕勇于欣
现代电子技术 2025年2期
关键词:数据融合资源管理

摘" 要: 以河姆渡遗址群考古报告为数据源,通过信息提取、实体链接等方法构建多模态知识图谱,并设计信息系统,实现了河姆渡文化遗产资源的数据管理和检索。参考学术论文及考古研究,设计一种河姆渡文化知识图谱的本体知识体系,并提出一种从考古报告中提取图像与知识图谱实体进行对齐的算法,实现了多模态文化资源与实体节点的精准匹配。在此基础上,开发了一个河姆渡文化资源库管理系统。该系统具有多模态检索、图谱化展示等功能,并为用户提供了交互式、可视化的数据浏览和分析工具,有助于用户更深入地理解和利用河姆渡文化遗产资源;也可为研究人员、文化机构和公众提供便捷的工具,以更好地探索和理解河姆渡文化,为文化遗产的管理、研究和教育提供了一种新的手段。

关键词: 多模态知识图谱; 河姆渡文化; 资源管理; 本体知识; 实体链接; 数据融合

中图分类号: TN911⁃34" " " " " " " " " " " " " " "文献标识码: A" " " " " " " " " nbsp; " 文章编号: 1004⁃373X(2025)02⁃0143⁃05

Design of Hemudu cultural resource library system based on multimodal knowledge graph and its implementation

SONG Zhenying1, LU Huanda2, LI Tianjie3, WANG Huajian2, YANG Huanyong2, YU Xin2

(1. School of Information Engineering, Dalian Ocean University, Dalian 116023, China;

2. School of Computer and Data Engineering, Ningbo Tech University, Ningbo 315100, China;

3. School of Computer Science and Technology, Zhejiang Sci⁃Tech University, Hangzhou 310018, China)

Abstract: By taking the archaeological report of the Hemudu site group as the data source, a multimodal knowledge graph is constructed by means of methods such as information extraction and entity linking, and an information system is designed to realize data management and retrieval of Hemudu cultural heritage resources. Based on academic papers and archaeological research, an ontology knowledge system for the Hemudu culture knowledge graph is designed, and an algorithm for aligning images and knowledge graph entities extracted from archaeological reports is proposed, achieving accurate matching of multimodal cultural resources and entity nodes. On this basis, Hemudu cultural resource library management system is developed, which has functions such as multimodal retrieval and graphical display. This system can provide users with interactive and visual data browsing and analysis tools to help users to better understand and utilize Hemudu cultural heritage resources, can provide convenient tools for researchers, cultural institutions and the public to better explore and understand the Hemudu culture, and can provide a new means for the management, research, and education of cultural heritage.

Keywords: multimodal knowledge graph; Hemudu culture; resource management; ontological knowledge; physical link; data fusion

文化遗产作为人类文明的珍贵财富,承载着丰富的历史、艺术和文化信息。河姆渡文化[1]作为文化遗产之一,是中国考古学中的一颗明珠,其主要分布在中国浙江省宁波市余姚市。该遗址起源于约7 000年前,被认为是世界上最早的聚落社会之一。河姆渡文化包括大量的遗址群,其中包括井头山遗址、田螺山遗址等。该遗址群发现了大量的遗迹遗物,这些文化遗产如何组织管理是一个亟待解决的问题[2]。

现有的文化遗产大多数是以考古报告作为主要记载手段,但是,考古报告内容严谨而详尽,对专业的读者很友好,但对于想要了解文化相关知识的普通大众就存在很多的弊端,如:

1) 多源数据无法建立关联,无法为读者建立全局性的视图;

2) 文本、图像等多模态无法语义链接,知识与图像等资源实体没有建立联系。

知识图谱[3]是解决这些问题的一个有效工具,通过将物质文化遗产数据的关系和属性进行链接,形成一个文本、图像等多源数据融合的全景知识视图。知识图谱作为知识组织与表示工具,已被广泛应用于文化遗产的相关研究,例如:文献[4]为意大利文化遗产构建了ArCo知识图谱,其是一个由本体和Linked Open Data数据集组成的意大利知识图谱,由数百万个三元组组成,为文化遗产数据管理领域的转变做出了贡献。文献[5]通过构建文物知识图谱,参照CIDOC CRM概念并参考模型标准规范化管理文物数据,应用BERT⁃BiLSTM⁃CRF模型实现文物实体抽取和知识图谱构建,最终在文物数字化系统中成功应用知识图谱,解决了企业在文物资源管理中的多源异构和复杂性问题,为实现语义搜索和智能推荐提供了有效手段。

然而当前在文化领域中,知识图谱的应用并没有很好地解决多模态数据关联的问题。因此本文以河姆渡文化资源为研究对象,通过实体链接算法将考古报告中的文本与图像进行语义对齐,进而构建一个基于多模态知识图谱的河姆渡文化资源库管理系统。这一工作为更全面理解和保护河姆渡文化遗产提供了有力的工具。

1" 相关工作

知识图谱构建技术备受人工智能领域关注,旨在从庞大数据中提取并组织知识,构建结构化知识网络,助力机器理解和推理复杂信息。当前研究涵盖信息抽取、实体链接、关系抽取和知识表示等关键步骤。其中:信息抽取利用自然语言处理技术从非结构化文本(如考古报告、文献等)中提取实体和关系信息;实体链接目的是将这些实体链接到已知实体库,确保知识一致性;关系抽取目的是在文本中识别和分类实体关系,构建知识图谱连接,通常依赖深度学习等技术。

在知识表示方面,研究者提出多种模型,如图神经网络(GNN),更好地捕捉实体和关系复杂语义信息,提升图谱质量,支持智能问答和推荐系统等应用。知识图谱在文物领域引起极大兴趣,尤其关注文化遗产的记录、保护和传承。然而,由于文化遗产数据分散在不同数据库和网站,资源碎片化,限制了数据链接和深入理解。

为解决这个问题,许多学者致力于文物知识图谱的研究。基于此,研究者整合文物领域多源信息(文本、图像、视频等),构建更丰富的知识图谱,为文物数字资源的组织和利用提供支持。例如,文献[6]采用基于本体的文物知识图谱构建方法,成功搭建文物本体和知识图谱,同时开发面向创意设计的语义检索框架和文物知识图谱集成平台,助力设计师文物知识辅助平台。文献[7]通过半监督学习和Tri⁃training模型实现自动文物关系抽取,构建以黄宾虹为中心的文物领域知识图谱,并且设计支持专题文物知识图谱构建与展示的系统,为高效组织和利用文物数字资源提供自动化方法。

2" 构建河姆渡文化多模态知识图谱的方法

2.1" 多模态知识图谱的定义

本文选用多模态知识图谱[8]作为数据存储的核心,多模态知识图谱定义有向图[G=ε,R,A,V,TR,TA],其中[ε]、[R]、[A]、[V]、[TR]、[TA]分别是实体、关系、属性、属性值、关系三元组和属性三元组的集合。当一个特定的知识符号与能够表达知识的文本之外的模态,比如图像、声音或视频相关联时,可以说这个符号是多模态的。这种定义强调了知识符号的多模态性,即通过关联不同感知模态的数据项,实现对知识的更全面和丰富的表示。

2.2" 本体构建

本文搜集河姆渡文化相关资料30余篇,并对其进行分析,参考文物保护领域的本体框架CIDOC CRM[9],抽取现有河姆渡文化领域的本体及相关的概念,并对这些概念进行层次划分。概念类关联关系图如图1所示。根据已经明确的概念确定其属性和关系,具体描述如表1、表2所示。

2.3" 面向考古报告的实体链接算法

考古报告是一类结构性很强的文本,通过观察考古报告发现,图像与对应文本描述一对一对齐是一个亟待解决的问题。对于这个问题的方法下面将详细进行介绍。总体框架图如图2所示。

2.3.1" 图文匹配

面向考古报告的一对一图文匹配示意图如图3所示。对考古报告以及知识图谱节点进行预处理,首先进行版面分析,利用ppstructure对考古报告进行处理,将图和文字分别输出,并将图像对应的文本描述进行关键词提取处理。知识图谱预处理包括对知识图谱节点、关系、属性等信息经过词嵌入技术转化为向量,实体链接是将提取出来的文本描述关键词与知识库中的实体应用相似度匹配算法进行匹配和链接,以实现实体之间的关联。一对一实体链接流程如图4所示。

2.3.2" 实体链接

1) 描述文本预处理。通过编写一段脚本去除特殊字符和括号,从而规范化文本,消除可能干扰相似度计算的非字母数字字符,突显出更重要的词汇信息。最后,将图3中的文本描述利用预处理方法分成了三部分:图一四、陶釜以及T508⑰:12。

2) 图谱节点预处理。使用词嵌入模型Word2Vec[10]将实体节点和关系进行向量化处理。

3) 为节点映射考古报告中的图做匹配。利用描述文本关键词与遍历知识图谱节点两个向量分别做相似度计算,得分高者为最佳匹配。

4) 相似度计算。利用余弦相似度的度量方法[11]来计算知识图谱节点向量与文字描述向量之间的相似度。这反映了节点和文字描述在语义上的相似程度。

[cosθ=i=1nAi·Bii=1nA2i·i=1nB2i]

式中:A代表描述文字关键词;B代表知识图谱实体;i表示向量A和B的元素数目;n表示向量的维度或长度。夹角越小,说明两个向量的相似度越高。

通过以上步骤,能够实现知识图谱节点和对应文字描述的一对一对齐,并可以基于相似度计算建立实体链接关系。这种对齐方法有助于将文本数据与知识图谱中的实体进行关联,提高实体链接的准确性。

3" 图数据库和关系数据库的融合设计

为了充分利用图数据库Neo4j[12]和关系数据库MySQL各自的优势,本文采用了一种融合设计[13],以实现对河姆渡文化资源的高效管理和查询。图数据库主要用于存储和查询文化资源之间的关联关系,而关系数据库则用于存储和查询结构化的属性信息。

3.1" 数据融合策略

在系统中,将文化资源的基本信息和元数据存储在关系数据库中,例如文物名称、年代、材质等;而文化资源之间的关联关系存储在图数据库中,如发现于同一遗址的文物、同一时期的文物等。这种分层存储的策略旨在充分利用图数据库的图结构特点,同时确保关系数据库用于存储大量结构化数据的优势得到充分发挥。

3.2" 数据融合实现

在实际的数据融合过程中,首先链接图数据库Neo4j,确保系统能够与其进行有效的交互;同时链接关系数据库MySQL,以便获取文化资源的基本信息。随后执行一个关系数据库查询,选择了属于河姆渡文化的文物,并获得这些文物的基本信息,如名称、描述和所属时代。

通过遍历关系数据库查询的结果集,将每个文物的基本信息插入到图数据库中。具体而言,使用Cypher查询语言在图数据库中创建一个节点,该节点包含文物的名称、描述和所属时代等属性。这样就实现了从关系数据库中提取基本信息,并将其融合到图数据库中的过程。

3.3" 用户界面设计及多模态知识图谱可视化

用户界面模块是系统的入口,提供用户友好的交互界面,以便用户能够方便地浏览、查询和管理河姆渡文化资源。用户界面展示如图5所示。知识图谱可视化模块是系统的关键组成部分,旨在以直观的方式呈现多模态知识图谱的结构和关联关系。知识图谱展示如图6所示。

4" 结" 语

多模态知识图谱的构建和河姆渡文化资源库管理系统的实现不仅仅是技术上的突破,更是对文化遗产的珍视和传承的表达。通过知识图谱节点和考古报告的图像链接技术,实现了多模态知识图谱的构建。河姆渡文化代表了中国古代的聚落社会,是极其重要的历史文化遗产,构建这一系统的目的就是能够更好地保护和传承这一宝贵的文化。同时,本文也鼓励将这一技术推广到其他文化遗产的管理和研究中,以实现跨文化、跨地域的知识共享,促进人类文明的交流和进步。

注:本文通讯作者为于欣。

参考文献

[1] 李娇俨,陈醉.河姆渡河姆渡,沧海桑田犹可见[N].浙江日报,2023⁃01⁃04(001).

[2] 陈沛佳,汤明霞,厉飞芹.乡村振兴背景下文化遗址的保护与开发研究:以河姆渡遗址为例[J].农村经济与科技,2022,33(4):173⁃175.

[3] 黄恒琪,于娟,廖晓,等.知识图谱研究综述[J].计算机系统应用,2019,28(6):1⁃12.

[4] CARRIERO V A, GANGEMI A, MANCINELLI M L, et al. Pattern⁃based design applied to cultural heritage knowledge graphs [J]. IOS press, 2021(2): 313⁃357.

[5] 李琳.基于知识图谱的文物数字化系统构建研究[D].北京:北京交通大学,2022.

[6] 林炀平.文物知识图谱构建与检索关键技术研究与实现[D].杭州:浙江大学,2017.

[7] 张娜.文物知识图谱构建关键技术研究与应用[D].杭州:浙江大学,2019.

[8] 陈烨,周刚,卢记仓.多模态知识图谱构建与应用研究综述[J].计算机应用研究,2021,38(12):3535⁃3543.

[9]" CROFTS N, DOERR M, GILL T, et al. Definition of the CIDOC conceptual reference model [EB/OL]. [2023⁃01⁃24]. https://www.mendeley.com/catalogue/871864a9⁃b5f3⁃3c39⁃b734⁃8b38d4081bb5/.

[10] 席宁丽,朱丽佳,王录通,等.一种Word2vec构建词向量模型的实现方法[J].电脑与信息技术,2023,31(1):43⁃46.

[11] 严李强,田博,梁炜恒,等.藏文文本相似度计算方法研究[J].高原科学研究,2021,5(3):70⁃77.

[12] 杨振,万为清.图数据库的研究和应用[J].电脑编程技巧与维护,2020(12):91⁃93.

[13] 鄂海红,韩鹏昊,宋美娜.关系型数据库向图数据库的转换方法[J].计算机科学,2021,48(10):140⁃144.

[14] 胡志强,潘鑫瑜,文思捷,等.结合多模态知识图谱与大语言模型的风机装配工艺问答系统[J].机械设计,2023,40(z2):20⁃26.

猜你喜欢
数据融合资源管理
人事档案管理在人力资源管理中的作用
人力资源管理促进企业绩效提升
重视社保在人力资源管理中地位和作用
活力(2019年19期)2020-01-06 07:35:46
在人力资源管理中绩效考核的应用
消费导刊(2018年10期)2018-08-20 02:57:14
GIS在森林资源管理中的应用
现代园艺(2018年2期)2018-03-15 08:01:03
从湖南卫视的成功看人力资源管理
消费导刊(2017年24期)2018-01-31 01:29:25
多传感器数据融合技术在机房监控系统中的应用
《可靠性工程》课程教学的几点思考
东方教育(2016年10期)2017-01-16 20:38:46
基于数据融合的家庭远程监护系统研究
融合K—T和K—L数据的洽川湿地水体提取
价值工程(2016年31期)2016-12-03 00:01:51