赵维维 段燕鸽 陈玮
摘 要:红色档案资源承载着红色历史的证据链条,蕴藏着我们党永葆本色的生命密码。知识图谱作为高效知识网络,可实现红色档案资源知识互联,为红色档案资源的深层次开发提供契机。本文在明确红色档案资源及数据来源的基础上,通过知识建模、知识采集、知识抽取、知识融合、知识存储与展现5个环节构建红色档案资源知识图谱,以期充分挖掘红色档案资源间的潜在关联,为资源深层次的开发与应用提供可视化知识显示。
关键词:红色档案资源;红色档案;知识图谱;本体构建
基金项目:2022年度河南省档案局档案科技项目《新时代文化传承与发展背景下河南红色档案资源协同开发利用研究》(批准号:2022—R—039)研究成果。
1 引言
红色档案资源承载着党的历史,蕴藏着党的初心使命,是党史学习教育最为生动的教科书。近年来,在数字人文研究的浪潮下,学界不断探讨红色档案资源的开发利用方法,主动引入数字人文方法。知识图谱作为代表性的数字技术之一,以结构化的形式描述客观世界中概念、实体及其关系的高效知识组织网络,使得实体之间关系以图的方式进行知识表示,可实现知识互联。知识图谱自提出后,已在智慧金融、智慧医疗、智慧政务等多个领域落地应用,并逐渐引起档案学者的关注。如赵雪芹将其与工程档案相结合开展研究[1],邓君将其引入口述历史档案资源研究[2],宋雪雁将其与档案文献研究相结合[3]。并未有学者将知识图谱引入到红色档案资源开发之中进行探討。加之在数字人文场域下,红色档案资源开发无法割弃计算机技术。 本研究将知识图谱与红色档案资源相结合,在明确红色档案资源定义及数据来源的基础上,通过知识建模、知识采集、知识抽取、知识融合、知识存储与展现构建红色档案资源知识图谱,以期充分挖掘红色档案资源间的潜在关联,支撑资源的深层次开发与多元化的利用需求。
2 红色档案资源知识图谱构建意义
2.1 红色档案资源的界定
学术界鲜少对红色档案资源的概念开展专门且深入的理论探讨,并存在将红色档案和红色档案资源作为同一概念进行使用的情况。如郭晓文指出红色档案资源包含革命和建设时期形成的且能够体现中国共产党和人民群众崇高革命精神的珍贵红色档案和多形态红色资源[4]。翟乐认为红色档案资源主要包括中共党史、 新中国史、改革开放史和社会主义发展史的档案资源[5]。陈艳红基于郑慧对红色档案的界定,提出红色档案资源是由党领导的机关、团体、企事业单位等在政治、经济、军事等活动中形成的历史记录[6]。 本文立足于“大档案”视角,并结合现有观点,主张红色档案资源定义为中国共产党领导机关、团体、企事业单位、人民群众等在革命、建设和改革时期形成的能够体现党和人民崇高精神的红色档案及红色资源。红色档案资源蕴含着党的初心使命和光荣传统,彰显党和人民的开拓精神和家国情怀[7],是见证党艰苦奋斗历程的第一手史料,能够对革命史实、党的历史发展、中国共产党人的精神谱系等进行立体化展现,可作为四史教育的生动教材。我们要把红色档案资源保管好、管理好、利用好,赓续红色血脉[8] 。
2.2 红色档案资源分布特点
2.2.1分布散落。红色档案资源的形成和保存方式使其呈现出散落分布的特点。红色档案资源形成于特定的地理空间,仅记录该区域的革命史实。我国地域广阔,党和人民在延安、大别山区、苏北老区、闽西地区、南京、上海等地都留下了革命遗址遗迹,这使得红色档案资源较为分散。更为重要的是,大部分红色档案资源在形成后便被保存于形成地区的博物馆、纪念馆、档案馆、图书馆、文物馆等单位以及国家档案馆,还有部分散落在企业、社会组织和个人手中,并未实现统一化收集,使得红色档案资源散落分布,形成“信息孤岛”。
2.2.2知识组织程度低。知识组织程度即知识的序化程度,可从显性和隐性两个方面进行考虑。从显性方面来看,不同地区和机构之间交流合作较少,并未形成统一的红色档案资源组织方式,难以实现成果整合。从隐性方面来看,红色档案资源的知识组织较少应用关联数据、知识图谱、数字地图等技术,缺乏语义互操作和统一的元数据著录标准[9],很难实现红色档案资源的细粒度表示及深层次的语义挖掘,使得红色档案资源内部信息的揭示程度不够。如何收集、组织和知识化开发红色档案资源,并支撑学术研究,是我们需要进一步解决的问题。
2.3 知识图谱在红色档案资源开发中应用的意义
知识图谱作为资源关联的技术方法,具有语义化、知识化、数据化等特点,能够描述红色档案资源实体及相互关系并将其构成网状结构,基于此可充分挖掘红色档案资源间潜在关联并实现红色档案资源的知识整合。 知识图谱的引入可揭示红色档案资源间隐含关系。知识图谱以有向图的方式清晰展现节点、节点关系及图谱整体特征,使得开发者可以依据红色档案资源知识图谱依次寻找相邻节点并发现关联信息,进而挖掘出资源间隐含的多维复杂关系并获得启发。知识图谱在语义层面上对实体、概念以及实体间的关联关系进行形式化的描述,能够揭示红色档案资源语义信息并以灵活的网系结构实现繁杂红色档案资源的知识聚合,便于开发者快速定位、发现并提取所需资源,并为红色档案资源进一步的知识发现提供可能途径。
3 红色档案资源知识图谱构建的数据来源
3.1 红色档案
红色档案是党和人民在革命和建设过程中形成的具有保存价值的原始记录[10],包含博物馆、档案馆、文化馆、纪念馆等机构收藏的以及社会遗留的纸质档案、音像档案和实物档案,应作为红色档案资源知识图谱的主要数据来源。
3.2 红色资源
红色资源指的是党领导人民在革命和建设过程中形成的具有保存价值的资源[11],包含历史纪念馆、革命纪念馆、陈列馆、党史馆、人物故居、革命遗址遗迹、烈士陵园、烈士纪念碑、革命歌曲、革命诗歌、文物、文献等物质形态的红色资源,党史事件、革命人物、重要会议、革命精神等非物质形态的红色资源。
4 红色档案资源知识图谱构建框架
4.1 知识建模
知识建模是构建红色档案资源知识图谱的逻辑架构,即红色档案资源本体构建。其作为构建红色档案资源知识图谱的基础,可明确红色档案资源的类、属性及其关系,并形成计算机可以直接理解和处理的语言。因七步法和 Protégé应用较为广泛,且 Protégé具有可视用户界面、开源用户代码等优点[12],故此本文选用斯坦福大学的“七步法”和 Protégé来构建红色档案资源本体。红色档案资源本体的构建,需先明确其范围和特点,并在查找可复用本体的基础上,列出本体的类和子类,继而定义类的对象属性和数据属性。
4.1.1界定核心概念。本体的构建需以明确红色档案资源的范围和特点为基础,继而参考复用本体词表对资源类、子类、类属性、子类属性的描述,如 FOAF 本体和 CIDOC CRM 概念参考模型,以提高本体的参考价值和可复用性,推进知识共享。围绕红色档案资源内容,基于机器学习从大量红色档案资源文本中抽取核心概念,并将其中具有概括性的核心概念作为本体的类,形成时间、地点、人物、事件、事物、资源 6 个类及其子类,如图 1 所示。其中,时间类复用 CIDOC CRM 的 E52,包含时间点和时间段两个子类,如人物的出生死亡时间点、事物的形成时间点、事件发生的时间段等;地点类包含收藏机构和地理位置 2 个子类, 即收藏红色档案资源的机构和红色档案资源内容所记载的地理位置信息;人物类复用 FOAF 本体的 Agent,分为个体、群体和组织机构 3 个子类[13];事件类依据红色档案资源内容进行定义,因红色档案资源记载的事件主要围绕革命、建设和改革展开,故此可划分为革命事件、建设事件、改革事件 3 个子类;事物类复用 CIDOC CRM 中的 E7 进行定义,指的是红色档案资源所描述的实物对象,包含自然物和人造物 2 个子类,即地形、山脉等自然物,党章、指南针、军用水壶等人造物;载体类借鉴 CIDOC CRM 中的 E55 进行定义,指的是红色档案资源所表达的物理表现,包含文本、图像、音频、视频和实物 5 个子类。
4.1.2添加属性。本体属性涵括对象属性(Object Property)和数据属性(Data Property),红色档案资源的对象属性包含人物与时间、人物与地点、人物与事 件、时间与事件等,创建对象属性可建立不同类之间的关系,便于红色档案资源知识图谱的关联检索和知识发现[14];红色档案资源的数据属性包含名称、曾用名、民族、性别、籍贯、职位等个体信息,机构名称、机构曾用名等组织机构信息,名称、地址、邮编等收藏机构信息,创建数据属性可消除实体的歧义性,如图 2 所示。
4.1.3绘制本体模型。在明确红色档案资源本体和属性后,运用 Protégé绘制本体模型,实现红色档案资源本体的可视化展示。如图 3 所示。
4.2 知识采集
知识采集,指的是对多源异构的数据源进行获取并统一存储。红色档案资源的来源分散和结构复杂多样的特性使得知识采集工作较为复杂。一是运用数字化转换设备和激光扫描设备,将博物馆、档案馆、纪念馆、革命遗址遗迹、烈士陵园等收藏的纸质档案资源、音像档案资源、实物档案资源进行数字化转换;二是利用八爪鱼、爬山虎等爬虫工具在网站上爬取相关红色资源;三是广泛征集社会遗存的红色档案资源并进行数字化。因数字化后的图像、实物档案资源仍为非结构化数据,不利于进一步的数据处理,故此将其转化为文本格式,以便于后续的知识抽取。
4.3 知识抽取
知识抽取对数据深层语义的理解及处理具有重要意义,指的是在知识采集基础上将非结构化数据和半结构化数据转化为结构化内容的过程,包含实体抽取、关系抽取和属性抽取 3 个部分。实体作为进一步抽取属性和关系的基础,其准确性和完整度至关重要。实体抽取旨在从红色档案资源文本中识别实体边界及其类型,提取红色档案资源的关联数据。关系作为知识图谱的重要组成部分,是实体及其属性的补全。关系抽取是从文本中抽取出两个或多个实体语义关系,如(人物,出生,时间)(人物,参与,事件)等,可解决实体语义链接问题[15]。实体和关系的抽取方法有阶段独立式抽取和联合抽取。因阶段独立式的抽取方法不可避免存在着误差传播、上下文语义关系利用不足等问题。故此,选用实体关系联合抽取的方法,即基于 BERT 的中文实体关系联合抽取模型,该模型包含头实体抽取和相应的尾实体与关系抽取,充分考虑了句子的整体信息,可解决误差传 播和上下文语义关系利用不足等问题[16]。
4.4 知识融合
知识融合,指的是集成不同结构的红色档案资源。在知识融合的过程中,需综合考虑概念层和数据层,通过本体匹配、实体对齐、知识冗余和矛盾消除等, 形成高质量的数据库。概念层的知识融合,是将红色档案资源本体模型与其他本体模型的类、属性进行融合;数据层的知识融合包含实体对齐、知识冗余与矛盾消除等。因知识抽取所形成的实体、关系和属性集合极大可能存在冗余信息、冲突信息等“噪声”,故需通过知识融合进行降噪处理。如异名字段的匹配与映射、 同名字段的异议与区分问题。红色档案资源中存在“多人同名”现象,我国史上两位将军名字均为方国南,其中一位参加长征、辽沈、平津等战役,为新中国的诞生做出重大贡献,另一位作为新中国军衔授予的重要人物,获得了一级解放勋章,可依据档案和史料进行区分,辨别人物实体差异。
4.5 知识存储与展现
现有的知识图谱主要采用 MarkLogic、gStore、Virtuoso、Stardog、Neo4j 等進行存储[17]。因 Neo4j 图数据库更加注重数据的关联关系,且具有架构灵活、高扩展、高性能等优点[18],故选用 Neo4j 图数据库存储红色档案资源知识图谱,应用Java语言和 Neo4j图数据库的 CREATE 语句创建图结构,运用 Browser 工具完成红色档案资源知识图谱的可视化展示。如图 4 所示,Neo4j 中不同颜色节点代表不同类型的实体,边则代表了实体的相关关系,可清晰呈现实体之间关系,实现实体与关系的高效搜索与遍历,也为后续的知识应用奠定基础。
结语
红色档案资源见证了党的峥嵘岁月,是深挖革命和建设年华、开展党史学习教育的生动教材。我们要为国守史,深入挖掘红色档案资源,承担起传承和弘扬红色精神的时代重任。红色档案资源知识图谱的构建为红色档案资源开发利用注入了 新视角与新路径,可助力红色档案资源的有效整合、深层次挖掘与多维知识发现,充分发挥红色档案资源存史资政育人的作用,推进红色基因传承与红色文化传播。
参考文献
[1]赵雪芹,杨一凡,于文静.基于Neo4j图数据库的工程档案知识图谱构建及应用[J].档案与建设,2022(5):48-51.
[2]邓君,王阮.口述历史档案资源知识图谱与多维知识发现研究[J].图书情报工作,2022,66(7):4-16.
[3]宋雪雁,张伟民,张祥青.基于档案文献的清代祭祀礼器知识图谱构建研究[J].图书情报工作,2022,66(3):140-151.
[4]郭晓文.赤峰市红色档案教育资源及其开发利用[J].赤峰学院学报(汉文哲学社会科学版),2021,42(12):40-43.
[5]翟乐,李金格.数字人文视阈下红色档案资源的遴选、组织与开发策略研究[J].情报科学,2021,39(12):174-178+186.
[6]陈艳红,陈晶晶.数字人文视域下档案馆红色档案资源开发的时代价值与路径选择[J].档案学研究,2022(3):68-75.
[7]王向女,姚婧.“互联网+”时代长三角地区红色档案资源开发与利用的新方向[J].档案与建设,2020(8):4-8.
[8]习近平.用好红色资源 赓续红色血脉 努力创造无愧于历史和人民的新业绩[J].中国人大,2021(19):6-9.
[9]翟乐,李金格.数字人文视阈下红色档案资源的遴选、组织与开发策略研究[J].情报科学,2021,39(12):174-178+186.
[10]周林兴,姜璐.红色档案资源开发中的叙事表达研究[J].档案学研究,2022(4):4-9.
[11]许徐琪.试析红色资源的时代价值与传承路径[J].浙江档案,2021(12):13-16.
[12]马翠嫦,曹树金.网络学术文档细粒度聚合本体构建研究[J].图书情报工作,2019,63(24):107-118.
[13]赵雪芹,李天娥,曾刚.面向数字人文图像资源的知识元本体构建及关联展示研究[J/OL].情报理论与实践:1-11[2022-08-27].http://kns.cnki.net/kcms/detail/11.1762.G3.20220411.1643.006.html.
[14]宋雪雁,张伟民,张祥青.基于档案文献的清代祭祀礼器知识图谱构建研究[J].图书情报工作,2022,66(3):140-151.
[15]徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(4):589-606.
[16]李代祎,李忠良,严丽.一种面向中文的实体关系联合抽取方法研究[J/OL].小型微型计算机系统:1-9[2022-08-30].http://kns.cnki.net/kcms/detail/21.1106.TP.20220727.1525.004.html.
[17]杭婷婷,馮钧,陆佳民.知识图谱构建技术:分类、调查和未来方向[J].计算机科学,2021,48(2):175-189.
[18]高劲松,张强,李帅珂.可移动文物的知识图谱构建及关联数据存储——以湖北省博物馆为例[J].现代情报,2022,42(4):88-98.
(作者单位:固始县档案馆 郑州航空工业管理学院)