文物知识图谱构建关键技术研究与应用

2023-06-02 23:52牛魁明
计算机应用文摘 2023年10期
关键词:三元组知识图谱文物保护

牛魁明

关键词:文物保护;知识图谱;三元组;关联数据

1构建文物知识图谱的关键技术

1.1实体抽取技术

实体抽取技术又被称作实体识别技术。该技术指在原始语料中自动识别和获取命名实体。常见的实体抽取技术主要包括通过统计机器学习方法抽取实体、根据规范和字典抽取实体以及通过深度认知技术抽取实体。近年来,科学家尝试以国际微生物命名规范和国际微生物学字典为依据确定文件中的微生物命名,并建立以国际微生物名称标准为依据的实体识别方法。技术人员便可以通过改进条件获得明信片中的地址实体。部分技术人员通过微博文脚本在滑动窗口上创建预测标签,并通过深度认知技术完成实体识别。博物馆文物知识中涉及较多专用名词,名词命名规律并不具备规律,当文物名称在文本中出现时,很难利用机器学习识别文物正确名称。所以,为了保证抽取实体准确率,必须采用以词典和规则为基础的方法达成实体抽取目标。

1.2实体关系和属性抽取技术

实体关系和属性抽取技术通过三元组表示方法呈现,即通过“实体一关系一实体”的对象属性或“实体一属性一属性值”方式表达。其中,属性指的是数据属性,数据属性的属性值归于文本类型,而对象属性的属性值则归属于另一个实体。而依照信息的资源类型划分,三元组提取方法也可被划分为2种类型,即基于基础结构化信息和半结构化信息的三元组提取方法、基于非结构化信息的三元组提取方法。基础结构化或半结构化信息都具有一种较好的分布结构,大众能够很容易地在其中获取所需的三元组。而非结构化数据仅使用比较规则,属于自然语言的文本类型,由于中文句法和语言系统的复杂性特点导致三元组工作过程具有复杂特征。目前,常见提取技术分为基于深度学习的三元组提取、基于机器歇息的三元组提取以及基于模式匹配的三元组提取。

1.3实体链接技术

在知识融合的过程中,要对抽取的三元组进行有效处理,再将其融人自身知识图谱之中,包括实体消歧和链接2种方式。其中,实体消歧指的是把名字中具有歧义的成分映射到具体知识中,以避免同一个实体的一词多义现象。基本解决办法将候选实物与知识图谱中的实体指称一个特征向量,并对其展开聚馓花序,完成整个实物消歧过程。进行消歧作用时,将其连接在图上已出现的实物上,这称为实体连接。

2构建文物知识图谱的实际流程

知识图谱在实质上属于一种以图像为基本的语义网络内容,其主体部分就是节点和边。这里的节点主要指的是现实世界中实体内容,边指的是实体间的内在联系。知识图谱使实际世界中的所有实体之间形成了联系,主体结构由“实体一关系一实体”或“实体一属性一属性值”这类三元组所构成。以知识图谱为基础的搜索引擎,实现了从传统Web页面连接到实体连接之间的转换,能够直接为用户指明搜索主体,在语义方面服务用户获取检索意图。通过知识图谱检索方式,用户可以精准获取所需信息,具体流程如下。

2.1知识表示

半结构化数据中包括很多文物知识,知识图谱中的数据存储形式具备结构化特征。所以,文物知识图谱主要研究的内容是在结构化数据中获取文物结构化知识,整合与构建文物知识图谱,将其应用到文物知识推理中。而文物知识图谱的形成与应用过程蕴含的关键概念是文物人士表示。例如,国际万维网协会所制定的资源描述框架技术标准就是以三元组表示为依据。当前,知识信息表示技术仍然面临知识信息缺失和运算质量较低等情况。传统知识库的知识信息表示技术以一阶谓词为基准,构成了符号信息表示模式中的最后一类,可以有效拓展二阶逻辑信息表示功能。现代知识库图谱在语义描述领域的范围已大幅缩小,以事实的知识为基础特征。随着计算式知识发展和深度神经网络发展,向量数据表征方法也将日益受到大众关注。对于以向量数据为核心的表征目的可以有效表述的实体数据,如非结构化的数据。利用计算机学习、数据方法等手段的向量特点,可以把具体的文物关系抽象成数字的向量特征,为文物关系的发现奠定了坚实基础。

以向量为基础的知识可以被严格地区分为无知识表示与知识表示2个形式。其中,无学习数据表示方式中的最常用表示方式就是单独热表。这种描述方式把知识描述成只具有一个维度的非零向量。为区别不同知识,独热表示向量的向量维度更多。独热表示不能充分利用对象间语义相似度信息,会受到数据不足影响,计算效率无法得到提升。知识表示相对于独热表示而言,通过有效学习阶段能够有效使用对象间语义信息,减少知识表示向量维度。近年来,知识表示技术的出现使得研究人员逐渐从多维角度解决复杂建模问题,也逐渐构建了多个新模型,提升了表示性能。

2.2知识抽取

博物馆专家大多通过人工整理的方法建立了知识图谱数据,工作效率不能得到提升,自动化和数字化的特点还不够突出,无法形成大规模、标准化和系列化的数据系统。所以,便捷地获取和加工文物保护信息是形成知识图谱的关键环节。在文物知识获取过程中,所有文物数据都主要来自现存的博物馆数据库,而数据库中数据又多为结构化的网页信息和非结构化文本信息,其中包括图片、考古文献、历史资料,以及网络数据等。而通过人工获取数据信息并无法完成专业知识的积累,而必须借助数字化机器技术和深度学习技术实现。知识抽取方法主要分为文物特性抽取、关系提取、实物抽取和属性提取等。在知识提取基础上对专业知识加以总结,并综合了实物对齐、质量评价以及知识更新等内容,從而形成了较为完整的文物知识图谱。

2.3知识融合

除了数据描述与数据提取技能,数据图谱的形成还必须考虑多源数据整合、复杂推理方法等。知识整合主要指的是通过对齐多种数据信息,并对数据加以有效整合,以建立全局一致的信息标识并与知识关联。知识整合也是知识图谱建设中的重要环节,通过开展知识整合工作可充分体现更开放的信息意识和互联思想。比如,TransE使用了知识图谱中的三元组结构信息达成了表示学习目的。因此,整合这些异构多源数据,对于知识库的整合来说十分必要。基于本体描述中的知识库表示方式学习模式,以及在基于文本的知识库中的知识表示方式具有代表性特点。多源信息整合有助于提高信息表示效能,也有助于提高信息实体的表征特性。多源信息整合的数据图谱建设仍处在初期,成果数量很少,大量数据资料还不能得到考虑,仍具有相当广阔的研究空间。另外,以关系路径知识表示学习为基础,通过实体关系和关系路径的推理模式进行推理已经成为未来研究的重要方向。

2.4知识加工

通过数字化手段可以做到对文物保护资料与信息的合理调取与集成,也可以对文物保护信息进行有效的整理。比如,信息推理、内容创新和品质评价等工作。以上文物信息与文物保护资料的信息与数据规范并不统一,如果是依据统一标准对它加以识别,将容易造成重叠及错误数据现象的发生。因此,对抽取的文物保护信息进行多次比较、加工,删除统计重复的数据,留下最完整规范的信息流。

3构建文物知识图谱的具体方法

3.1藏品文物知识问答

天津大学软件工程专业学者杨伟强与山西博物馆技术工作人员建立合作关系,根据博物院的100多件具有特色的博物馆藏品所形成的信息图谱,提供基于信息表达的本体模式和标准规范,实现以图信息中数据的传递、信息保存与数据集成等最基本的信息功能。同时,提供馆藏文物查询和文物信息问答等人机交互功能,以提高文物陈列展示、资料分析和信息的辅助管理能力。由于文物基础仅有100件,文物基础类型比较有效,所以文物覆盖面也并不大。因此,大量文物的基础资料依旧采用自然语言的方式表达,在前期自然语言规范形式上会受到较大限制,可能会出现文物知识问答偏差的问题。问答偏差问题也是将来要攻克的主要知识问答弊端。

3.2文物知识图谱可视化展示

董其昌数字人文知识图谱中,以董其昌的书画作品及其一生经验为主要认知线索,具有重要的影像交游、文化、鉴藏、艺术发展的历史脉络。应用机器学习CNN模型与卷积网络的图像数据引擎,为董其昌的书画作品提供了数字化展示与网络化研究,并应用可视化方式为董其昌作品提供了“主体一表达一时代”的综合维度,建立了研究艺术元素和样本的系统[1]。同时,应用机器学习并构建社交媒体图示,能够更好地分析作者的交友圈,为其设计全方面立体化图景。利用Gephi和Python可视化方式展現董其昌作品年表,预留我国历史人物传记资料库和历史地图集这类数据库接口,能够为未来发展奠定基础。对文物知识图谱而言,其自身数据量和覆盖范围有限,大量工作均需要人工作业完成。实现知识图谱自动化导人和更新能够提升图谱的准确性与稳定性,知识图谱准确性的提升已经成为未来工作的重要研究方向。文物知识图谱范围内的知识研究可以保证博物馆中的文物获取新的活力,有利于博物馆更好地叙述背后故事,强化大众的文化素养。

3.3文物知识图谱辅助决策

以“发现·养心殿——主题数字体验展”展览为例,展览中的知识图谱打破了各个文物之间的壁垒,使得资源呈现出共享态势,通过文物角度观察到整个中国历史文化的发展。利用云计算、物联网、大数据和移动通信等新技术,实现博物馆智能管理、智慧服务和智慧保护3大功能,切实达成“智慧博物馆”建设目标,给文物赋予了新的生命力[2]。

4构建文物知识图谱的未来展望

4.1扩展现有知识表示方法

当前科技背景下,以本体工程原理为依据的知识表述和知识描述仍然是知识图谱形成的重要手段,而借助在RDFS和OWL中对知识元特征的明确界定,就可以形成知识图谱模式层次的合理构造。图谱研究的焦点仍然聚焦于材料属性、实物特征方面。文物描述中涵盖大量时间、空间和历史事件内容,使得我们对文物背后的历史认识理解水平提高之后,必然拓展已有的认识表达方式,对文物时序内容、事件知识和空间知识表示方法进行扩充[3]。知识图谱自身的关注重点逐渐被转移到位置事件、时序等知识上,更高效地描绘事件发展变化特征,为预测类应用形态提供必要支持。

4.2融合利用多源异质数据

国内各个地区的博物馆数字化资源库建设已经成为共识,数字化资源建设进程也得到推进,获得了一定成果[4]。数字化资源建设以大量结构化数据为基础,当前已经提供了较多的结构化数据,但文字、图片等非结构化资源的提取数量却仍然亟待增加。文物保护中的许多文物知识资料研究都是采用图文信息融合的方法进行,因为图片和文本信息都涉及文物资讯知识,所以针对文物保护信息材料知识具备的特征,对文物保护意识的探索就应以同时处理文本信息和影响信息的知识表示获取方式为依据,探索利用不同文字信息和图片特点的获得途径,提高命名实体辨识准确率和召回度,提高文物保护信息知识语言表达能力。

4.3构建聚合式文物元数据模型

研究当前国内外各个博物馆的网络架构和数字资源可以看出,大部分数据项目均属于独立开展形式,国内数据共享和管理模式没有形成。如果利用信息图谱方法,通过信息整合手段使不同领域数字化信息实现高效连接,就能产生以知识为主体的海量数据库信息,可以为全面的信息系统资源整合提供条件,使之获得足够的技术手段与资料基础[5]。若要更好地实现这一目标,则必须做到整合并明确不同行业、领域和企业的数据文物资源信息中的语义表达标准,并深入发掘其内涵关系,对数字文物资料内涵进行细粒度描述和去格式化语义描述。

在多重实践证实的前提下,为了确定目前现有文化遗产理论,需要建立与多域元数标准一致的语义实践框架模式。在维护这一框架的基础上,通过整合更多源数据应用程序概要,通过利用现有的成熟元数据基础元素和语料内容,迎合文化遗产范围内的其他类和属性标准化协议,通过共同构建聚合的元数据模型和实现对数据历史的语义管理,降低元数据开发的整体成本。

4.4提供泛在化文物知识图谱应用服务

通过文物大数据分析的信息化采集形成文物信息图像,并通过推挤分析技术发现不同文物具备的人文、历史、艺术、思想和信仰等内容,可以让群众对文物承载的历史发展脉络、社会演变过程有更加全面的了解。利用文物信息画纸挖掘文物保护资源中内容的有序化与信息间的相互关联,使用者可通过更加开放的软件开发接口,在移动通信设备以及APP、网站等系统应用中嵌入获取的信息数据集,为用户提供更加广泛的数字非物质文化遗产服务,从而确保了文物的信息资料被有效开放共享,进一步提高了文物资讯、商品、服务渠道等信息消费链条的设计效率,有效融合中华民族的优秀传统文化和现代公共文化服务体系。

5结束语

为适应文物保护与文物管理工作的需要,满足大众对文物保护认识的需求,应该在当前科技环境背景下引入新型手段。博物馆文物知识图谱系统应用了新的互联网信息技术,作为博物馆公教传递的新业务方式,通过建立与文物数据库间的信息联系,能够把文物知识与数据资讯加以高效集成,并利用计算机等智能语言及时反映有关文物保护活动的基本信息,从而有效地处理了文物资源保存、收集与展示过程中存在的各种问题。

猜你喜欢
三元组知识图谱文物保护
基于带噪声数据集的强鲁棒性隐含三元组质检算法*
丹江口库区加强文物保护(之一)
特征标三元组的本原诱导子
博物馆与近现代中国文物保护
关于余挠三元组的periodic-模
名胜古迹
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展