张强 高颖 刘飞等
关键词:知识重组;红色历史人物;知识图谱;智能服务;GIS技术
DOI:10.3969/j.issn.1008-0821.2023.07.010
[中图分类号]G250;K928.6 [文献标识码]A [文章编号]1008-0821(2023)07-0096-13
中国共产党的百年奋斗史就是一部红色文化生成、发展、提炼的历史。利用好红色资源,对于学习党史、赓续精神血脉、传承红色基因至关重要。2021年2月1日,中共中央决定在全党开展党史学习教育,习近平总书记指出:在党史学习教育中,要充分运用红色资源,用好红色资源,传承红色基因,把红色江山世世代代传下去。在《关于实施中华优秀传统文化传承发展工程的意见》《关于实施革命文物保护利用工程(2018-2022年)的意见》等重要文件中,均对如何加强红色文化资源的数字化建设作出了重要指示,旨在通过数字化技术赋能红色文化资源的可持续性保护与创新性利用,真正让红色文化活起来,传下去。红色历史人物资源作为红色文化资源的重要组成部分,推动红色历史人物资源的数字化组织、存储、应用,对了解红色历史人物、开展党史学习教育、弘扬红色文化精神具有重要的理论意义和实践价值。
近年来,数字技术在人文领域得到了广泛应用,深刻改变了红色历史人物资源的数字化组织、存储、应用的方式和方法。知识图谱作为当前最为常见的一种知识表示、存储、推理、应用的技术手段,为数据从孤立转向关联提供了助力,在众多研究领域都得到了广泛应用。将其应用于红色历史人物资源上,一方面,为红色历史人物资源的知识关联与可视化呈现提供了可能;另一方面,为红色历史人物资源的智能服务与知识发现提供了新的方式,进一步提高了红色历史人物资源的知识服务效果。同时,GIS技术在人文科学中的应用愈加广泛,解决了传统人文科学研究中重“时”轻“地”的研究现状。红色历史人物的轨迹与我党的伟大革命斗争息息相关,将GIS技术应用于红色历史人物的资源上,可直观展现人物的人生轨迹,对了解红色人物的历史提供了新的视角。
为探究上述问题,本研究利用知识图谱技术,探究红色历史人物资源的数字化组织、存储与应用的方式和方法,以实现红色历史人物的知识关联。同时,引入GIS技术,以实现红色历史人物的轨迹展示。最后设计了红色历史人物智能服务的原型系统,为用户查询和信息交互提供便利。
1相关研究
聚焦本研究的研究问题和研究内容来看,相关的研究主要有领域知识图谱构建研究、时空轨迹研究、基于知识图谱的智能问答研究。
1.1数字人文领域知识图谱构建研究
知识图谱作为一种有效的知识组织和存储方法,在各领域都得到了广泛应用,当前的数字人文研究大多以项目制开展,因此,在知识图谱构建过程中主要采用自顶向下的构建方式,即先构建领域Sche-ma或本体模型,再导入实例数据。如针对口述档案资源,王阮等通过先构建口述记忆资源本体模式层,再以国家图书馆中东北抗日联军的老战士口述记忆资源来构建口述记忆资源的知识图谱,并进行了多维的知识发现研究。针对文物信息资源,高劲松等通过构建可移动文物的本体模型,并基于该本体构建了可移动文物的知识图谱,最终实现了可移动文物的关联数据发布。针对人物信息资源,杨海慈等基于中国历代人物传记资料库,通过构建宋代的学术师承本体来开发宋代学术师承的知识图谱,并集成了RelFinder可视化工具来检索和展示知识图谱中的实体关系。具体到本文的研究对象来看,红色历史人物是指参加过革命实践,并为革命做出过贡献的革命人物,且红色人物常常会与其他红色文化资源交叉融合。刘伟丽使用七步法构建中共一大人物的本体模型,利用人工处理的办法获取中共一大人物数据构建中共一大人物的知识图谱。张云中等通过构建红色历史人物的Schema和问答服务框架,并以老上大历史人物资源半自动化地搭建了红色历史人物的知识图谱。本研究所需构建的知识图谱涉及人物、事件、机构等多维度,上述研究为本研究中的知识图谱构建提供了研究思路和基础。
1.2时空轨迹研究
时空数据是包含时间、空间两种属性的数据,传统的人文研究多是基于时间维度而忽略了空间维度的信息。近年来,以GIS技术为代表的地理信息方法广泛介入到数字人文的研究中,为数字人文视角下的空间研究提供了极大助力。文学界一般称之为文学地理学,而在历史学中一般称之为历史地理信息,张玮等提出了一种基于文本关联与时空可视化结合来研究宋词的新视角,让人文学者可以从多维度的视角来探析宋词文本的语义信息。位通等以《朱熹年谱长编》为例,将时间和空间信息重组为一维信息,并基于GIS技术开发前端可视化平台,以便人文学者从时间、空间两个维度分析年谱信息。黃鹏程等以《晚晴簃诗汇》为例,探究了清代诗人的地理分布差异与时空维度的关系特性。汤萌等首先利用民国时期的测绘地图实现经纬度的信息匹配,后探究了民间文书内容在空间分布上的可视化路径。在开源平台的构建工作方面,主要有王兆鹏等开发的“唐宋文学编年地图”,其提供了对文学历史人物的时空一体化展示,可从整体上探究人物的时空轨迹,但并不支持用户的自定义使用。浙江大学学术地图平台有众多以用户自定义数据来制作的人物轨迹图,但仍然集中于全局展示上,无法展示具体的人物信息。可见,目前GIS引入数字人文领域的工作更多的是数据可视化,仍需要改进达到数据故事化的效果。
1.3基于知识图谱的智能问答研究
知识图谱自提出之日起就被作为提供智能搜索服务的知识库,基于知识图谱的智能问答是当前智能问答的主要研究领域。而根据知识库内容的不同,智能问答的方法可分为如下4类:①基于模板规则的问答方法,主要通过构造模板参数和模板库来返回用户的问题,如汽车领域的智能问答系统,该方法的缺点是需要大量的人工来构造问题模板和相应的答案,当问题与已有模板完全匹配时效果较好;②基于语义解析的问答方法,主要通过自然语言处理技术来解析问题文本,通过分词、词性标注、句法分析等提取文本中的实体或关系,通过查询返回目标实体或关系,如馆藏文物资源智能问答系统。该方法主要用在小规模数据集上,且问题的领域性强时效果较好;③基于深度学习的问答方法,该方法可利用循环神经网络(RNN)来捕捉路径信息,从而预测实体之间的隐藏关系,如中文医疗问答匹配系统。该方法需要标注大量的训练数据,主要用在具有大规模数据集上;④多种方法的融合,如融合模板匹配和深度学习的孔子世家谱的知识问答系统。上述基于不同知识库内容采用的问答方法,为本研究的智能问答服务提供了借鉴意义。
综上所述,目前在红色历史人物资源的相关研究主要集中于知识组织与存储,缺乏了知识服务功能,主要存在如下不足:一是红色历史人物资源来源广,结构复杂,目前的领域知识图谱构建的数据源多为结构化数据并采用人工方式导入,当数据集较多时无法胜任。二是在智能问答上,要么需要大量的人工构建模板,要么需要大量的真实问答数据集合,而针对红色历史人物这一特殊领域都较难适用。三是在智能服务方面,或是从知识图谱的静态关联展示人手,或是从时空维度的动态轨迹展示人手,鮮有将二者结合的思路,无法达到“动静结合”的效果。且大多仍停留在学术研究上,未能构建出智能服务的原型系统,无法直接供用户使用。基于此,本研究将结合上述研究的不足,力图解决相关问题。
2研究框架
在对红色历史人物资源重组梳理的基础上,参考了已有关于领域知识图谱构建的流程,本研究构建了如图1所示的红色历史人物知识重组与智能服务研究框架,主要包括本体考察、数据来源、知识抽取、知识融合、知识存储、知识服务6个部分。
2.1本体考察与数据来源
此部分主要是结合本研究的研究对象和内容来对目前学界已有的成熟本体进行考察,以便更好地选择复用本体模型。在此之前,还需要充分考虑领域专家意见,厘清相关的概念类和关系,避免产生歧义的类和关系,进而构建本研究的本体模型,以便有效地对红色历史人物进行知识表示。在本体考察层通过复用已有本体后,构建了红色历史人物的知识表示模型,还需要根据数据来源层的数据特点导入相应的案例数据并更新本体。本研究的数据来源主要包括各省市党史方志网、网络百科资源、纸质红色档案资源等。首先,将从网络上爬取的红色历史人物资源和人工抽取的纸质红色档案资源存入MySQL关系型数据库中,然后,将数据库中保存的数据格式转化为键值对形式的JSON数据,以便后续的知识抽取工作。同时,将爬取到的所有红色历史人物图片资源以人物名称命名保存在文件夹中,因图片资源无需像文本资源再经过抽取和融合步骤,故直接应用于后续的知识存储中。
2.2知识抽取
知识抽取是指从多源异构的数据中抽取出研究所需要的各类信息形成知识进行存储。根据前文所构建的本体模型所需求的信息,主要抽取出红色历史人物的属性信息、实体信息、关系信息。属性信息主要包括对人物、时间、空间、事件、机构等概念类的描述,实体信息则是某一实例的具体信息,如具体的人物姓名、军衔、出生时间、出生地点、参与战役等信息。关系抽取主要是以三元组的形式返回抽取到的节点名称和关系,本研究采用结合神经网络和语法规则的方式抽取文本中的关系,针对多源异构的数据分别采用恰当的方法,可以最大化地提取出三元组知识,为知识图谱数据层提供高质量的数据。
2.3知识融合
在获取到新知识后,还需要对其进行整合处理,以消除歧义和矛盾。主要包括共指消解和语义消歧两种,共指消解是指某些实体或关系可能会有多种表达方式,语义消歧是指某个特指的名称可能对应多个不同的实体或关系。如人物的姓名、别名、化名等不尽相同,但是所指的实体是一致的,也有可能不同的人物所用的化名是一样的。此外,在时间实体的表述上会存在共指现象,如“民国”二十八年和1939年实际为同一年。在关系的表述上同样也存在共指现象,如参与事件和参加事件的本质含义是一样的。本研究选择结合人工和文本相似度的方式来进行知识融合,人工的方式主要处理领域性较强的实体歧义,文本相似度用来处理常规类型的相似实体和关系。在文本相似度计算方法中,本着简洁易用的原则选择了基于余弦距离的相似度度量方法。
2.4知识存储
经过融合之后的知识实体需要先进行质量评估之后才能加入到知识库中,融合之后的实体、属性和关系用RDF框架来表示。RDF(Resource Descrip-tion Framework)在形式上表示为SPO(Subject Predi-cate Object)三元组,RDF由节点和边组成,节点表示实体或属性,边表示实体间或实体和属性之间的关系。RDF常用的序列化方式有:RDF/XML、N-Triples、Turtle、RDFa、JSON-LD等。本研究选择JSON-LD(JSON for Linking Data)以键值对的形式来存储RDF数据,再通过调用Python语言中用来连接Ne04J图数据库的Py2neo包,将JSON格式的三元组知识存入到图数据库Neo4J中,主要原因在于,基于JSON-LD格式的三元组知识在本研究构建的Web环境中兼容性和互操作性更好。同时CIS系统所识别的数据格式为CSV文件,还需要对JSON格式的文件利用Python语言中用于数据处理的Pandas包,将其转化为CSV格式的文件,再将其导入到GIS中,在底图基础上叠加数据层来生成人物的轨迹路线图。由此,就完成了静态的知识关联和动态的轨迹展示。
2.5知识服务
知识存储后的根本目标是为了更好地组织、管理和使用知识,因此,在完成知识存储的基础上还需要考虑如何服务用户。基于此,本研究构建了红色历史人物的智能服务系统,其包含两种智能服务的形式,一类是关于红色历史人物知识的检索和人物生平轨迹的检索;另一类是关于红色历史人物知识的智能问答。在知识检索系统上,主要通过名称匹配来返回相关的图谱知识和人物轨迹;而在智能问答系统上主要采用自然语言处理技术将问题语句进行分词和句法分析.通过识别问句中的实体和关系,再调用Py2neo库在图数据库Neo4j中查询目标实体并返回结果,同时,涉及人物实体的答案还会返回该人物的图片资源。
3实证研究
3.1本体考察与构建
红色历史人物这一特殊身份特征,决定了在构建人物本体时需要重点关注与红色和历史相关联的语义信息,如军衔、战役、军队等实体及其关系。为了更好地对红色历史人物知识进行全面简洁有效地表达,并充分考虑到知识服务与知识库构建的匹配程度,采用咨询专家意见和问卷调查结合的方式,确定红色历史人物的关键概念和关系。专家意见可以保证本研究所构建本体模型的全面性和准确性,而面对普通用户的问卷调查可以了解到关于红色历史人物知识的聚焦点,有利于后续知识服务的开展。根据以上需求,在本体构建时主要考察了相关领域较为知名的社会网络人物本体FOAF[23]、上图名人手稿档案库、国际文献工作委员会的概念参考模型CIDOCCRM。
根据对上述本体的考察和分析,在充分考虑复用已有本体的基础上,本研究复用了人物类(foaf:Person)、地点类(E53: Place)、事件类(crm:E-vent),同时采用了自定义thf( red historical figures)来作为本体命名空间,命名了时间类(thf:Time)、机构类(foaf:Organization)和资源类(thf: Resource),共计6个类别来满足红色歷史人物类别描述的需要。其中,时间类的描述还包括具体的某一点的时间点和只能宏观确定的某一时间段,因此,时间类(thf:Time)下设立了抽象时间类(TimeAbstract)和具体时间类(TimeSpecific)。最终构建的本体模型共有6大类,其中,人物类与时间类下又分为两个子类。
1)人物类
人物类(foaf:Person)是本研究的主体研究对象即红色历史人物本身,红色历史人物除了参与革命斗争的军人外,还有如“七一勋章”获得者马毛姐这样为红色革命作出突出贡献的人民群众。因此,人物类又分为军人类(thf: Soldier)与非军人类(thf:No-Soldier)两个子类,根据人物在本研究分析的地位将其作为本体构建的核心类,与其他五大类均存在对象属性关系,人物类与人物类也存在着诸如父母、子女、兄弟、同学、战友等对象关系。人物类主要的数据属性是描述了代表红色历史人物的核心信息,如:姓名、别名、化名等,其中,军人类相对于非军人类有特殊的数据属性,如军衔等。关于描述人物的时间、地点、事件、机构等信息,通过类与类间的对象关系与其余类下数据属性进行关联,以使得逻辑更为清晰。
2)时间类
时间类(thf:Time)指的是人物、机构、事件及资源具有的时间信息,子类包括抽象时间类(thf:TimeAbstract)和具体时间类(thf: TimeSpecific)。抽象时间类下的数据属性主要是无法具体到某年的时代信息,如20世纪30年代等,具体时间类下的数据属性一般为具体到年、月、日的精确时间信息,如1921年7月1日等。
3)地点类
地点类(E53:Place)与时间类相似,指的是人物、机构、事件等具有的空间信息均归于地点类下。与其余类之间通过对象属性关联,如人物的出生地点、事件的发生地点、机构的成立地点等,而类本身具有的数据属性主要是旧时地点名称、现代地点名称、经纬度信息等。
4)机构类
机构类(thf:lnstitution)是指红色历史人物在革命战斗期间所创建、组织或参加过的重要组织和军队。一般与人物类、时间类、地点类和事件类间形成对象属性关系,机构类之间也存在机构改编和下辖机构的对象关系。机构类的数据属性为组织名称和军队名称。
5)事件类
事件类(crm:Event)是指红色历史人物在革命战斗期间经历的重大事件,是构成人物相关知识的核心要素,与人物类、时间类、地点类之间均存在对象属性关系,如事件的发生时间、发生地点、结束时间等。事件类的数据属性为事件内容。
6)资源类
资源类(thf:Resource)是红色历史人物相关知识的资源类型,多源异构的数据源就决定了红色历史人物具有多种多样的形式化信息,用来表达人物类的资源信息。数据属性主要包括影像资源、图片资源、文本资源等。
概念类定义之后需要明确类与类之间的对象属性,以梳理出人物与人物、人物与时间、人物与地点、人物与事件、人物与机构、事件与时间、事件与地点、机构与时间的关系等。部分概念类的对象属性信息如表1所示。
类与类之间的对象属性从本体层定义了概念之间的关系,丰富了概念类在关系和特征方面的具体描述,而部分核心类除了具有类间的对象属性以外,还具有表达自身特征的数据属性,部分数据属性如表2所示。
最终,本研究构建的红色历史人物知识本体模型共有6个核心类、4个子类、24个对象属性和19个数据属性,设计出的红色历史人物的本体模型如图2所示。实线表示类与类之间的对象属性关系,虚线表示核心类与本身具有的数据属性关系。
3.2数据来源
本研究选取了1955—1965年被授予将军军衔的皖籍红色历史人物进行实证研究。主要原因在于,安徽省作为著名的中国红色革命策源地和人民军队的发源地,涌现了大量为中华人民共和国做出重大贡献的人物。而开国将军作为其中的典型代表,历史贡献卓越,且人物之间的关系较为丰富,背后的知识价值较高。因此,从历史地位和数据来源综合考虑,最终以团队搜集到的128名皖籍开国将军为研究对象以满足本研究的需求。利用自编Python爬虫程序分别爬取了安徽省及下属16个省辖市的党史方志网有关上述人物的内容,并以爬取的百度百科人物介绍资源和人工抽取红色纸质档案资源作为补充数据来源,同时,爬取了百度百科的人物图像作为人物的图片资源,以便后续原型系统中的人物呈现。爬取党史方志网的部分Python代码如图3所示。
3.3知识抽取与融合
3.3.1知识抽取
本研究主要基于句法规则和神经网络来进行知识抽取。知识图谱存储是以三元组的形式,因此,本研究主要是对属性和关系进行抽取,抽取时会一并将实体抽取出来。句法规则的三元组抽取,调用了哈工大语言云平台LTP(Language Technology Platform)进行句法规则抽取,形成XML文件后进行解析。神经网络的三元组抽取,调用了Jiagu自然语言处理工具,该工具提供了知识图谱的关系抽取功能,以BiLSTM模型为基础,通过大规模的中文语料库训练而成,其中大部分为百科语料。因此,百科资源主要用神经网络进行抽取,而党史方志网的资源主要通过句法规则来抽取。两种方法提取的结果示例分别如图4、图5所示。
3.3.2知识融合
经过知识抽取之后的部分实体和关系可能会存在歧义现象,如实体李克农和李峡公实为同一人,这样的实体类型无法通过常规的算法进行融合,即算法判断的相似性程度无法与实际情况匹配,因此,针对实体上存在的歧义,主要通过人工构建自定义的同义词词典来进行融合。而在关系名称上则选择了余弦相似度,并结合哈工大同义词词林(扩展版)来计算关系名称的近似程度,余弦相似度的计算公式如式(1)所示。
参考已有研究,一般认为相似度similarity取值超过0.8时就认为a、b两个关系名称属于同一关系,并予以统一替换。
3.4知识存储
本研究使用Neo4J图数据库来进行知识的存储,Neo4J作为一种图形式的存储模式,与传统的基于关系型数据库相比,具有更好的知识关联、知识查询与知识推理的能力。Neo4J数据库中由标签、节点、关系及节点属性4类要素组成,其中将类与标签、实例与节点、对象属性与关系、数据属性与节点属性一一对应,由此就完成了红色历史人物的本体模式层到图谱数据层的匹配映射。如人物类与时间类组成的对象属性:{洪学智,出生时间,1913年2月2日},标签分别为人物类与时间类,实例分别为“洪学智”与“1913年2月2日”,关系为“出生时间”。
本研究采用了Neo4J桌面版Neo4J(1.4.15),图数据库版本为4.4.5,JDK的依赖版本为jdk-11.0.14。经过知识融合步骤完成了三元组数据的整理后,利用Python语言的第三方包Py2neo调用Cypher语句来将三元组数据存储到图数据库Neo4J中。最终,本研究构建了由1855个节点和3523条边组成的知识图谱,如图6所示(为使图片美观,对部分节点进行了隐藏)。
在知识存储环节,还需要将JSON格式的数据文件转化为GIS可识别的CSV文件,CSV格式文件主要以逗号来分割实体信息,以表头充当本体中的类。GIS中需要经纬度信息才能生成点和路径,本研究在经纬度信息的确定上使用了百度地图的经纬度提取器。GIS底图则采用了中华人民共和国自然资源部提供的天地图(审图号:GS( 2022) 2124号),通过调用天地图的API接口并在底图层上叠加数据层来完成时空轨迹的存储与展示。
3.5知识服务
在多维度重组了红色历史人物的知识的基础上,本研究构建了红色历史人物智能服务的原型系统。本系统采用了B/S网络结构模式,在开发模式上使用了前后端分离技术。前端采用了经典的HTML、CSS、JavaScript来完成对网页端的页面布局、格式渲染和功能交互。后端采用了图数据库Neo4J和关系数据库MySQL,通过采用统一的接口调用后端数据库,为前端页面提供统一的JSON格式数据服务,前后端的交互上采用了目前流行的Flask Web框架,Flask框架具有轻量、简洁、灵活和易上手等特点,符合本研究的需求,整体的智能服务系统架构和前端功能展示如图7所示。
本系统提供了图谱展示、检索系统、问答系统三大功能。其中,图谱展示中包含关系上传和关系全貌两个子功能,检索系统中包含关系检索和轨迹检索两个子功能。
关系上传支持从前端页面上传用户自建的txt格式三元组数据,利用Py2neo库读取数据生成对应的知识图谱,极大方便了用户与系统的交互行为。关系全貌展示了128位红色历史人物的知识关系全貌图,通过在前端使用数据模块中的JSON数据,再调用Echarts插件中的力导向图来实现知识关系全貌图,与图6的后端使用图数据库Neo4J存储的效果相比,只是样式上有所不同,知识关联的本质是一样的。因此,本节主要介绍智能服务系统中的检索系统和问答系统。
3.5.1检索系统
检索系统提供了关系检索和轨迹检索两种方式,关系检索是指在前端页面直接输入某个历史人物,系统通过对输入的姓名使用Py2neo库在后端Neo4J图数据库中进行检索,将返回的相关节点和关系信息转为JSON格式数据,并在前端中利用Echarts插件的力导向图展示出来。这里以党的情报和保卫工作的卓越领导者与组织者,开国上将中唯一一位从未领兵打仗过的李克农上将为例,通过在关系检索系统中输入“李克农”后点击检索,页面返回如图8所示。
在前端展示中,针对人物的出生地点进行了不同颜色的区分,可以看出,李克农出生地点为合肥市,节点颜色为深红,同乡的将军包括开国少将戴正华和顾鸿。需要说明的是,李克农同志原出生地点为安徽省巢湖市居巢区,2011年,经国务院批准,安徽省人民政府宣布撤销地级巢湖市,原地级巢湖市所辖的居巢区划归合肥管辖。因此,本研究将李克农的出生地点认定为合肥市。又如李克农的战友胡底出生地点为六安,其节点颜色为淡红,另一战友钱壮飞出生地为浙江湖州,在本系统中不属于安徽省下辖市的统一以其他地点标注,颜色为灰色。同时,右下角提供了随机人物名称以供用户点击来检索其关系信息,方便用户进行检索。
而在轨迹检索方面,也是通过对输入名称的匹配,在后端调用相关人物的经纬度信息和事件信息,在天地图上进行叠加显示,并以时间顺序将所有地点进行串联,直观展示了人物的空间轨迹。图9展示了中国人民解放军现代后勤工作的开拓者,在世界军队历史上绝无仅有的两次被授予上将军衔的洪学智上将主要生平轨迹图。
由图9可知,洪学智将军自1913年2月出生于安徽省六安市金寨县,先后参加商南起义、红军长征、平津战役、朝鲜战争等事件。中华人民共和国成立之后,被调任到吉林省农业机械厅、重工业厅等单位任职。1977年后重回中央工作,历任国务院国防工业办公室主任、党组书记,1980年后任解放军原总后勤部部长兼政治委员,中共中央军委副秘书长、军委委员,2006年在北京逝世。
3.5.2问答系统
为了更好地服务用户,为用户的提问提供精准答案,本研究构建了前后端交互的知识问答系统,采用了基于语义解析的智能问答方式。首先,当用户在前端页面输入问题之后,系统会读取该文本数据,接着调用哈工大LTP语言云平台对问句文本进行语义解析,识别出问句文本中的实体词和关系词;其次,实体词通过自定义词典来解决实体歧义问题,关系词通过调用哈工大同义词词典来解决关系歧义问题,通过调用Py2neo包在后端检索匹配获取目标实体;最后,以JSON格式返回,通过Echarts插件进行图谱绘制,对涉及答案实体为人物的,还会返回相应人物的图片资源和简介资源。如用户在检索“赵瑛的丈夫是谁?”时,LTP语义解析出实体为“赵瑛”,关系为“丈夫”,此时实体没有歧义,而关系依据同义词词典,此时无论是“丈夫”还是“外子”会统一为关系“丈夫”,此时通过Py2neo库后端会返回实体“李克农”,并在前端展示出检索问题涉及的实体和关系,因实体为人物还会显示人物相应的图片和简介,结果如图10所示。
4结语
数字人文技术为传统人文知识的组织、关联和服务提供了新方法,如何有效地利用这些新技术为红色历史资源的组织、关联和服务是一项极具价值的研究课题。本研究借鉴了自顶向上的模型思想,以收集到的皖籍128名开国将军为对象,构建了红色历史人物的智能服务原型系统,设计了从多来源、多模态数据中,提取红色历史人物资源构建智能服务系统的通用框架,为相关领域的研究提供了新方法与新视角。在具体实施过程中,一方面,利用知识图谱技术实现了红色历史人物资源的知识组织和关联;另一方面,利用GIS技术实现了红色历史人物资源的动态轨迹展示,拓展了当前数字人文研究的新模式,也为红色历史人物资源“活起来”提供了新路径。
本研究构建的智能服务原型系统已初步具备了一体化的功能,可以为图书馆、博物馆、纪念馆等构建红色历史资源智慧型數据库提供借鉴,方便其开展党史学习、红色教育等活动。针对用户而言,既有直接检索人物关联信息的查询方式,也有根据问句进行智能回答的问答方式,降低了用户检索的难度,提高了人机交互的体验感。此外,本研究的方法具有一定的通用性和可移植性,针对不同的历史人物资源特征,只需要在知识本体建模上根据实际需求进行修改,即可进行原型系统的复用。下一步,本研究主要从两方面进行更进一步的研究,一是拓展红色历史人物的样本集和数据集,构建大规模数据集下训练的深度学习智能问答系统。二是探究多元化方式的智能服务,如采用微信小程序、智能服务APP等多渠道,多维度来开展多元化的服务,力图将研究成果落地扎根。