中国革命历史档案知识图谱构建

2022-01-06 12:52王帅奇陈晓美孙治文
兰台世界 2021年12期
关键词:本体图谱检索

王帅奇 陈晓美 邓 君 孙治文

一、引言

《“十四五”全国档案事业发展规划》指出,“深入挖掘红色档案资源,充分发挥档案在理想信念教育中的重要作用,同时推动文件级目录向全国革命历史案资料目录中心整合汇集,逐步实现目录分类集中保管,为档案资源整合共享和开发利用提供必要基础条件”[1]1。档案馆存有海量珍贵的革命历史档案资源,但由于体制、政策、技术等囿限,整合共享现状并不理想。知识图谱则以其强大的语义处理和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础[2]589。知识图谱具有解决当前革命历史档案深度组织与开发利用中的信息孤岛等问题的潜力,这也为革命历史档案的开发利用提供了新的机遇。

革命历史档案,是指l949年10月1日中华人民共和国成立之前,由中国共产党及其所领导的军队、政权、企事业单位、社团等社会组织及个人所形成的归国家所有的档案[3]12。目前,各级档案馆对馆藏革命历史档案资源的开发取得了一定成果,如中央档案馆“红色档案”系列[4]1,以及各省级档案馆开展的系列专题活动,然而这些成果多以传统的文字、视频等形式为主。传统的知识组织形式无法全面深入地揭示革命历史档案的知识关联,目前革命历史档案开发利用在广度高度深度上均有不足,难以深层次满足用户的多样知识需求。基于此,本文设计并构建了革命历史档案知识图谱,将相关知识关联与聚合,为革命历史档案资源的深度开发利用提供理论与实践支撑。

二、文献回顾

1.历史档案资源开发利用研究。近几年来,国内学者逐步引入本体、关联数据、知识图谱等技术,从不同切入点对历史档案资源开发利用进行了理论研究与实证探索。李十子[5]1、董慧等[6]564分别以辛亥革命史和国共合作为研究对象,实现了本体推理。贾琼等[7]105从关联数据角度构建了历史档案资源聚合的理论指导框架和检索服务平台。武汉大学洪亮团队[8]24从知识服务驱动角度构建了唐诗本体模型,对多源异构的数据源采用知识抽取、知识融合、知识推理等技术自动构建唐诗知识图谱,实现了对大规模唐诗的语义化处理。陈涛等[9]34提出了将知识图谱应用于数字人文研究的系统框架,并结合关联数据和知识图谱构建了中国历代人物传记资料库(CBDB)关联数据平台。北大王军团队基于CBDB数据集,重点利用知识图谱对人物关系进行发掘,如宋代文人的学术师承关系[10]109。国外对于历史档案资源的研究范围甚广。欧洲合作数字档案基础设施(CENDARI)项目[11]61利用元数据和本体为第一次世界大战和中世纪历史创建了一个语义基础架构。Pramartha等[12]491构建了非遗本体,将其用于印度尼西亚巴厘岛土著文化,实现了在线资源的语义检索。Nassar[13]401基于语义网使用户能查询与第一次世界大战特定主题相关的事件,并探索特定事件空间和时间的演化。Hyvnen等[14]574基于关联数据对传记字典进行范式转换,通过数据链接和推理来丰富已有内容,根据传记文本集合和图书馆等外部数据源构建了知识图谱。WarSampo项目[15]1以第二次世界大战中芬兰的军事历史为例,以本体为基础构建知识图谱作为共享语义基础设施,重点在于实现关联开放数据服务。综上所述,国内外学者们对于历史档案资源开发利用在理论方法上积累了大量的成果,同时也说明了本体、关联数据、语义网、知识图谱等知识组织工具是历史档案资源开发的重要应用。

2.知识图谱应用研究。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关“属性—值”对,实体间通过关系相互联结,构成网状的知识结构[16]582。目前,知识图谱技术已经广泛应用于影视、公共事件管理、医药、金融等领域。王巍巍等[17]25构建了双语影视知识图谱(BMKG),建立了影视知识图谱共享平台。向军毅等[18]409构建了COVID-19物资知识图谱,对其进行了评估及可视化展示。付洋等[19]261基于高质量百科数据和医学文献构建心脏病本体,并结合自顶向下和自底向上的方法半自动化构建心脏病中文知识图谱。Loster等[20]1883将结构化和非结构化数据源集成到一个知识库中,并据此构建金融知识图谱。在图情界和数字人文领域,知识图谱也受到了学者的关注,如赵雪芹等[21]55构建了非遗档案资源知识图谱,并以“华县皮影”非遗档案为实证解析;雷洁等[22]8面向科研档案管理构建了知识图谱,并实现了知识导航、智能搜索以及知识推荐等应用;欧阳剑等[23]126运用知识图谱技术对中国历代存世典籍进行知识组织;陈玖瑜[24]1依托知识图谱技术,重点解析民国报纸的内容特征与外部特征;Wei[25]335创建了孔子、老子、墨子等百家思想流派的知识图谱,探讨知识图谱在数字人文知识组织中的应用。学者们还分别以革命文物[26]1、中共一大人物[27]1、红色文化资源[28]59等为研究载体,利用知识图谱技术从侧面探索革命历史档案的开发利用。

由此观知,国内外学者们在历史档案资源开发上的理论探索与技术应用均有了一定进展。研究领域从历史资源聚合逐渐到各具特点的细分领域,如唐诗、人物关系、非遗、世界大战等,从不同视角利用本体、语义网、知识图谱等进行了一定的研究,实现了历史档案资源的深度挖掘与高效利用。但目前较少学者将研究视角聚焦于革命历史档案深度开发,实现革命历史档案的关联与聚合。因此,本文突破革命历史档案传统开发模式,以知识图谱技术赋予革命历史档案开发新思维、新视域、新模式,以求推动大数据时代革命历史档案的数字转型和价值拓展,促进档案信息服务向知识服务延伸。

三、革命历史档案知识图谱构建

知识图谱通常由模式层和数据层两部分构成。知识图谱中的模式也称概念模型,实质是一个知识体系框架,决定了未来数据收集的范围,能够涵盖知识图谱所有的数据。目前,多采用本体为知识图谱建模,借助本体定义的规则和公理约束知识图谱的数据层。

革命历史档案知识图谱采用自顶向下的方法构建。首先,构建知识图谱的模式层,从最顶层概念开始;其次,细化概念和属性,形成结构良好的概念层次树;再进行数据采集和信息抽取,将具体的数据实例填充到所构建的模型之中,具体流程如图1(见下页)所示。

图1 知识图谱构建流程

1.革命历史档案知识图谱模式层构建。革命历史档案范围甚广,本研究涉及的革命历史档案是指我党我军在革命斗争时期所形成的著作、笔记、日记、讲话稿、照片、实物等。本研究对象以发生在革命历史时期的战争为例,采用本体描述知识图谱的模式层,刻画出一个概念体系。核心概念对应于本体的类,而概念的细节对应于本体类的具体属性。经过调研后,笔者发现目前尚未有革命历史档案的领域本体,现有战争领域本体[29]409因收集内容过于复杂,不适合于革命历史档案。故本研究部分复用了芬兰语义计算研究小组WWW1LOD项目中基于CIDOC-CRM构建的世界第一次大战历史本体[30]335,表示为带有前缀crm;同时根据我国革命历史的特殊情况自定义部分本体,表示为带有前缀rev。

(1)革命历史档案本体类的构建。知识图谱的概念模型是一个知识体系框架,同样,在某一知识领域中的关键概念也是领域本体的核心和基础,本体模型的根本目的在于为某一特定领域提供被广泛接受、认可和便于重用共享的概念体系[31]20。本研究中,选取革命历史时期战争为主要数据收集对象,结合军事领域相关学者对于战争要素的描述,经过专家咨询,考虑实际情况,提炼出具有代表性、概括性的核心概念作为本体的类。其中,关于所发生战斗的信息、具体参战部队和参战人员信息是最为核心的概念,是独立的类。时间与地点提供了从时空角度看待战役,也设为独立的类,最终形成5个大类,具体如表1。

表1 革命历史档案本体类及说明

(2)革命历史档案本体属性的构建。概念的细节在本体中通过类的具体属性予以描述。本体的属性分为数据属性和对象属性。数据属性是对类自身信息的补充和完善,进一步描述类的特征;对象属性用于建立两个类之间的语义关系。属性既是建立本体类之间关系的桥梁,也是描述与表达类和实例的性质、特征及其关系的关键,进一步明确了概念体系结构以及概念之间的语义关系。属性和类共同构成了本体的概念模型,从而实现知识单元的语义关联和知识表示。

①数据属性。本研究共构建了17个数据属性(见表2),用来对战役、部队、人员、时间和地点这五个类进行具体描述。

表2 革命历史档案本体类的数据属性及其说明

②对象属性。对象属性用于建立两个类之间丰富而又复杂的语义关系,促使知识单元从单维线性向网络化转变。例如,“部队”和“战役”之间拥有“参加”的关系。本研究的对象属性见表3。

表3 革命历史档案本体对象属性表

2.革命历史档案知识图谱数据层构建。革命历史档案本体的建立,意味着知识图谱建模工作的完成。在这一知识体系框架基础之上,进一步为其增加具体的数据实例,最终形成完整的革命历史档案知识图谱。知识图谱的基本组成单位是“实体—关系—实体”三元组,以及实体及其相关“属性—值”对,实体间通过关系相互联结,构成网状的知识结构。知识图谱数据层的结构由节点和边组成,每个数据节点表示一个“实体”,每条边为实体与实体之间的“关系”。其中,实体是对客观个体的抽象,一个人、一场战役、一支部队都可以看作一个实体,在图谱中以节点的形式表示;关系是实体与实体之间关系的抽象,在图谱中以边的形式表示,对应于本体模型中定义的对象属性;每个实体都有若干属性用于描述实体的特征,对应于本体模型中定义的数据属性。

在确定了知识图谱的节点、属性和关系之后,就可以根据已有的数据,结合Cypher语句去增加数据节点。先将所有实体和属性导入图数据库中生成节点和属性,再将规定好的关系导入图数据库中,使得众多的数据节点能够互相联系起来,具体的革命历史档案知识图谱可视化效果如图2所示。

图2 革命历史档案知识图谱可视化效果图

四、革命历史档案知识图谱实证研究

本研究以西路军西征这一特定历史时期发生的战役为例,进行革命历史档案知识图谱实证研究。首先,构建西路军西征历史档案知识图谱;然后,建立知识图谱系统。最终实现对相关人员、地点、部队及其关系进行检索展示,从而对这一历史知识进行语义关联。

1.数据采集与信息抽取。笔者以甘肃省档案馆开放的西路军西征历史档案为数据源,人工抽取了部分人物信息、战役信息等,存储于数据库,其中的数据片段如图3所示。

图3 部分数据示例

2.西路军西征历史档案知识图谱构建。结合采集整理的信息,笔者依据数据中“实体—属性—关系”对应关系将数据库中的数据转化为Neo4j图数据库中的节点、节点属性以及节点间的关系,用于生成西路军西征历史档案知识图谱。数据的新增、删除、更新、查询等操作,可基于Neo4j采用Cypher语言实现。以创建人员节点“董振堂”为例,构建的Cypher语句如图4所示。

图4 创建节点Cypher语句

3.西路军西征历史档案知识图谱系统。通过进一步开发知识图谱系统,可以帮助网络用户在客户端通过浏览器即可精准、直观地使用远程知识图谱获取信息。例如,根据网络用户的需求,从海量知识图谱中检索特定的人物、战役或某种关系的相关知识图谱片段,并在客户端以HTML网页进行解析展示。在开发过程中,西路军西征历史档案知识图谱系统前端采用Vue框架,后台采用Express框架,使用NodeJS语言进行编写,数据库选择MySQL及Neo4j。

(1)检索人物。检索人物模块主要实现根据用户键入的目标检索人物,对其三级以内的关系进行检索,主要包括籍贯、所属部队、所参加过的战役等信息,并以图谱的形式进行展现,如图5所示。

图5 检索人物模块示例图

例如,当前输入的目标人物关键词为“程世才”,系统输出有关“程世才”的特定知识图谱,清晰直观地展示出“程世才”出生于湖北省大悟县,隶属于西路军第30军,担任第30军军长,与李先念、李天焕、黄鹄显同属第30军战友,领导第30军参加过一条山战斗、古浪峡战役、永昌战役及倪家营子战斗,是西路军的重要领导之一。

(2)检索战役。检索战役模块主要实现根据用户键入的目标检索战役,对其三级以内的关系进行检索,主要包括战役起止时间、发生地点、参战双方部队以及主要涉及的人员等信息,检索到的结果如图6所示。

图6 检索战役模块示例图

以图6中检索的“倪家营子战斗”为例,战斗开始于1937年1月中旬,结束于1937年2月下旬,发生在今甘肃省张掖市临泽县,参战西路军部队为第9军、第30军,主要人员有程世才、李先念、孙玉清、陈海松等,参战国民党部队为国民党新编第二军,主要人员有马步芳、马步康等。

(3)检索关系。检索关系模块主要实现根据用户键入的两个查询实体,检索二者之间的关系,将两个实体通过其他多个实体联系起来,具体结果如图7所示。

图7 检索关系模块示例图

以图7中键入的两个人物“董振堂”“马步芳”为例,董振堂隶属于西路军第5军,并担任第5军军长,马步芳隶属于国民党新编第2军,担任新编第2军军长兼第100师师长,两人分别领导两支部队参与了血战高台这场战役,是战场上的直接对手。

五、总结与展望

随着信息技术的快速发展和信息用户需求的不断提高,传统的档案信息服务方式已经无法满足信息用户复杂多样的信息需求,利用新技术为档案资源知识组织赋能日益成为研究热点。我国革命历史档案资源蕴含着丰富的知识,是我国重要的人文资源和精神宝库,但是该领域内现有研究略显不足,缺乏对革命历史档案的深层次、系统性的开发利用。

本研究以西路军西征历史档案为例,在梳理相关文献基础上探索基于知识图谱的革命历史档案资源知识组织模式,重点研究了知识图谱概念模型和西征军西征知识图谱系统的构建,实现了档案资源精细化、可视化组织与利用。本研究揭示了知识单元间复杂交错的动态关系,促进该领域资源的数字转型,从而推动革命历史档案资源的价值拓展,为相关领域的学者开发革命历史档案资源提供理论和实践参考,从而更好地满足学者和用户对此类资源的信息需求。

本研究构建的革命历史档案知识图谱能揭示知识单元之间的语义关系,在理论与实证上证明了知识图谱技术对革命历史档案研究的可行性。在未来研究中,笔者利用知识图谱在革命历史档案中的深入研究将从两个方面进行:一是加入模型评价步骤,并采用半自动的本体构建方法,来完善档案本体模型;二是扩展相关革命历史档案的来源,充分利用青海省档案馆、宁夏回族自治区档案馆及相关市、县的档案管理机构、西路军相关纪念馆等更多来源,更完整、详细地构建该革命历史时期的革命历史档案知识图谱。

猜你喜欢
本体图谱检索
基于图对比注意力网络的知识图谱补全
眼睛是“本体”
绘一张成长图谱
瑞典专利数据库的检索技巧
在IEEE 数据库中检索的一点经验
一种基于Python的音乐检索方法的研究
一种基于社会选择的本体聚类与合并机制
图表
主动对接你思维的知识图谱
专题