基于灾害风险普查知识库的台风灾害链知识图谱构建*

2024-01-18 06:43朱海铭林广发张明锋张润川曾念霖蔡文欣
灾害学 2024年1期
关键词:灾体三元组台风

朱海铭,林广发,2,3,张明锋,2,3,张润川,曾念霖,蔡文欣

(1.福建师范大学 地理科学学院,福建 福州 350007;2.福建省陆地灾害监测评估工程技术研究中心,福建 福州 350007;3.海西地理国情动态监测与应急保障研究中心,福建 福州 350007)

《“十四五”国家综合防灾减灾规划》[1]指出我国自然灾害易发频发,多灾种集聚和灾害链特征日益凸显,需要加强对灾害链的理论研究和预警监测能力。台风是具有典型的灾害链特征[2],其伴生、衍生的次生灾害往往导致巨大的人员财产损失并破坏自然与社会环境,如2021年的6号台风“烟花”导致河南 “7.20”特大暴雨灾害[3],引发的台风-暴雨-洪涝灾害链,导致河南省因灾死亡失踪398人,受灾人口1 478.6万人,直接经济损失1 200.6亿元[4]。

灾害链的概念最早由郭增建[5]提出,史培军[6]将灾害链进一步定义为由某一种致灾因子或生态环境变化引发的一系列灾害现象,是灾害系统复杂性的一种基本形式。关于灾害链在的表现形式根据研究目的和研究需要多种多样:文本[7-8]、树状图[9-10]、过程流程图[6,11]和基于灾害系统的三要素系统模式[12-13]、表[14-15]、数据库[16]。这些方法在反映灾害链方面有不同的优点,但难以客观反映灾害系统的复杂性和混沌性。近年来随着复杂网络的概念的提出和在灾害链领域中的应用,许多学者以复杂网络的方法构建灾害链,研究灾害事件的演化过程和灾害的综合风险分析[17-18]。地理知识图谱(Geographic Knowledge graph)的发展为灾害链的构建提供了一种全新的手段[19-21],知识图谱(Knowledge Graph)与地理大数据的结合,则使地理信息的分析得以纵深扩展[22-23]。

知识图谱是一种数据结构,本质上是一种结构化的知识表示形式,以符号形式描述物理世界中的概念、实体和事件及其相互关系[24],目前广泛应用于医学、经济学和管理学等领域[25-26]。知识图谱的基本组成单位是“实体-关系-实体”三元组和实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构[27]。不少研究以知识图谱的形式表达和分析灾害链或灾害事件[19,28-29],其中LIU等[30]将知识图谱的方式应用在台风灾害链的表达与构建中,提出以Web本体语言(Web Ontology Language)和五元组本体结构(Ontology = {Con,Prop,Rel,Rule,Ins})来表示台风灾害链,其中包含了台风实例、灾害事件本体模型、灾害暴露本体模型和应急响应本体模型等要素,该方法对分析台风灾害的演化过程及其对人类社会的影响有重要意义。但从灾害链角度而言[6],LIU等[30]构建的台风灾害链过于繁杂甚至超出灾害链的定义范畴,灾害事件本体模型和应急响应本体模型等要素并不应该包含在台风灾害链中,台风灾害链应只考虑孕灾环境、致灾因子和承灾体的之间的联系,这种方法称之为台风灾害事件链的表达与构建更为恰当。

总体上,目前对台风灾害链研究存在两个不足:①没有全面总结以往的台风灾害案例以构建一个完整的台风灾害链[29];②忽略了其中由台风灾害衍生但影响程度较小的次生灾害以及在构建台风灾害链时准确表达致灾因子节点和承灾体节点、不同承灾体节点之间的关系[31-32]。本文根据灾害链的定义及前人构建的台风灾害链模型,以全国首次自然灾害综合风险普查项目提供的大量技术规范为基础知识,补充已有的大量台风灾害知识、经验和事实案例,构建“节点-关系-节点” 三元组,用Neo4j图形数据库构建、存储台风灾害链知识图谱并进行可视化分析,为自然灾害学领域知识和知识图谱技术的结合提供一个方法案例。

1 台风灾害链知识图谱构建方法

1.1 知识图谱构建模式

知识图谱建立在语义网络的相关研究成果之上,是结构化的语义知识库。在基于知识图谱构建的台风灾害链中,三元组是基本元素,而构成三元组的实体和关系中,谓词能很好地反映两个实体之间的关系,包括时间关系、空间关系、因果关系等[33]。常见的谓词包括动词和形容词,其包含丰富的信息,能够反映论元的关系、状态和程度[34]。

知识图谱通过从现实世界产生的大数据中抽取已有概念、事件、实体和关系构建基础三元组结构,反映现实世界中的客观关系。知识图谱的构建目前有三种模式,①模式层的建立,这是一种自顶向下(top-down)的模式,先为知识图谱定义好概念实体及其属性、层级语义关系与约束规则等,构建准确、结构层次分明的概念体系架构,再将实体加入到知识库;②数据层的建立,这是一种自底而上(button-up)的模式,对数据库、文献报告、互联网泛文本等不同的置信度较高数据,利用自然语言处理技术(Natural Language Processing)抽取文本中的实体信息及语义关联,对不同来源知识进行对齐与融合,形成知识体系;③模式层与数据层相结合,即自顶而下和自底而上两种方式相结合,这也是目前知识图谱研究各领域的主要模式[19,35]。

本文利用现有与台风灾害链相关的规范文本资料、概念和术语,从中找寻实体与关系,结合本体论和语义学相关知识概念,梳理其概念体系与关系,构建三元组,自顶而下构建台风灾害链的知识图谱模式层,构建全面且普遍适用的台风灾害链。

1.2 数据来源

台风灾害相关领域的研究以及互联网的发展,为台风灾害积累了大量的互联网文本和文献资料数据。

本文构建台风灾害链知识图谱的资料数据来源于三个方面:①相关文献中已构建的台风灾害链及其相关灾害子链;②《自然灾害分类与代码:GB/T 28921-2012》[36]和《自然灾害承灾体分类与代码:GB/T 32572-2016》[37],对筛选其中的自然灾害和承灾体作为实体,并对其含义进行解读;③全国第一次自然灾害综合风险普查提供的调查技术规范和各灾种风险评估技术规范;④已有台风灾害案例库,解析出台风灾害链的灾害节点及其之间的关系。

2 台风灾害链知识图谱表达与图数据库构建

2.1 致灾因子和承灾体节点构建

台风灾害链主要发生及影响我国陆域的广大南部和中东部地区及少部分东北部地区,以及台湾和海南等岛屿[38],在这些区域范围内部分致灾因子并不与台风致灾因子有时空的交集和成因关系,如沙尘暴、海冰和寒潮等致灾因子,因此仅考虑以上范围内可能会由台风致灾因子导致的致灾因子。根据收集的台风灾害事件案例,从《自然灾害分类与代码:GB/T 28921-2012》[36]中筛选出共25种作为台风的次生致灾因子(表1)。

表1 自然灾害节点表(据文献[36])

《自然灾害承灾体分类与代码:GB/T 32572-2016》[37]将自然灾害承灾体分三类:人、财产和资源与环境,其中在财产类别中存在少数承灾体概念重复,根据概念含义梳理出34种承灾体作为台风灾害链上的承灾体节点(表2)。

表2 自然灾害承灾体节点表(据文献[37])

2.2 节点关系构建

本文以“实体-关系-实体”三元组为基础构建台风灾害链网络,其中的实体为自然灾害致灾因子和自然灾害承灾体两种,两两组合得到4种三元组:致灾因子-关系-致灾因子、致灾因子-关系-承灾体、承灾体-关系-致灾因子和承灾体-关系-承灾体。

灾害系统动力学是灾害形成“机理”与灾害形成“过程”共同耦合而成的一种复杂的系统动力学过程[39],致灾因子时空变化的动态演化以“机理”和“过程”展现,可以构建台风灾害链之间“致灾因子-致灾因子”和“承灾体-致灾因子”之间的关系。台风灾害链每个致灾因子的发生都有其时间和空间分布,根据事件发生的时刻、时段和时段的前内后三部分等概念共分出13种时态拓扑关系,根据事件之间发生的交叠情况共分出8种空间拓扑关系[40]。

地理知识图谱的实体存在时间、位置、属性、关系、状态和变化六个核心方面[41],灾害链的原生灾害导致次生灾害发生定义了原生灾害的发生时间早于次生灾害,从13种时态拓扑关系中选择8种存在原生灾害先发生的时态关系。两种致灾因子之间存在多种时态发生的可能,本文从灾害瞬时破坏力和社会应急能力出发考虑,认为当两种自然灾害事件或承灾体引发灾害事件发生时,二者发生时刻和持续时间的瞬发破坏力对社会应急能力和承灾体暴露性造成极大的挑战;当二者并发的破坏力也会对社会应急能力和承灾体暴露性造成巨大的挑战,且并发的时间越长挑战越大;当二者发生时间相接也会对社会应急能力和承灾体暴露性造成较大的挑战;当二者发生的时间间隔越长,对社会应急能力和承灾体暴露性造成的挑战也就相对越小。本文对时态拓扑关系依据两种自然灾害之间的发生时刻和持续时间关系对8种时态拓扑关系进行重要性排序,即:equal>starts=started>contain>finished>overlays>meets>before,构建时态拓扑关系表(表3)。当两种自然灾害事件有多可能时态发生时,依据时态拓扑关系重要性选择。

表3 时态拓扑关系表

致灾因子作为一种地理现象或空间对象,可以从文本数据中提取出致灾因子的地理空间信息[42],在知识图谱中表现出实体之间的空间关系[43];致灾因子的地理边界在灾中是动态变化和模糊的[44],无法确定其确切边界位置,但可以确定其大致范围。本文在不考虑相切的空间拓扑关系的情况下,选择5种空间关系{ Disjoint、Overlaps、Contains、Equal、Inside }作为空间拓扑关系(表4)。

表4 空间拓扑关系表

根据8种时态拓扑关系和5种空间拓扑关系之间两两组合,构建出共40种灾害节点之间的时空关系(表5)。

在台风灾害链中,承灾体受灾的形式有两种:①致灾因子直接导致承灾体受损;②一种承灾体受灾间接导致另一种与其有灾害链关系的承灾体也受灾,如泥石流灾害可以直接导致人员伤亡,也可以通过冲毁房屋间接导致房屋内的人员伤亡。本文收集了有关台风灾害的微博、新闻报道等文本数据,以自然语言处理技术的分词技术提取出其中的263个动词,再参考《自然灾害灾情统计 第1部分:基本指标》[45]和《自然灾害灾情统计 第2部分:扩展指标》[46]两份灾情统计指标文件,结合《自然灾害承灾体分类与代码(GB/T 32572-2016)》[37]中提取的8类承灾体,从中总结出描述各承灾体类别受灾的关系谓词(表6)。

表6 描述承灾体受灾关系词表

2.3 三元组基本链构建

台风灾害链知识图谱依托已有台风灾害案例和形式逻辑构建,具体体现在三元组的构建中。三元组有两种类型:“实体-关系-实体”和“实体-属性-属性值”,本文构建台风灾害链时仅从形式逻辑上使用“实体-关系-实体”表达台风灾害链的三元组。

以表1中的致灾因子和表2中的承灾体作为三元组的实体,以表3中的时空拓扑关系和表4中的关系词作为三元组的关系,依据现实台风灾害事件内在逻辑和案例,构建了台风灾害链关系表的“致灾因子-关系-致灾因子”三元组100个(表7)、“致灾因子-关系-承灾体”三元组512个、“承灾体-关系-致灾因子”三元组50个以及“承灾体-关系-承灾体”三元组125个,共787个三元组。

表7 致灾因子-承灾体的灾害链关系表(部分)

2.4 台风灾害链图数据库构建

利用Neo4j图数据库将787个三元组以实体联结和显示,得到完整的台风灾害链知识图谱。本文对台风灾害链网络的分类基于参与台风灾害链的致灾因子的类别划分成6类,即:台风-气象灾害链(图1a)、台风-水文灾害链(图1b)、台风-地质灾害链(图1c)、台风-生物灾害链(图1d)、台风-海洋灾害链(图1e)和台风-生态环境灾害链(图1f),根据不同致灾因子种类及对应分布空间内的承灾体分布做出台风灾害链子链类图(以下展示部分灾害链)。

图1 台风灾害链注:A={所有承灾体};B=A-土地资源-矿产资源;C=A-土地资源-矿产资源-水资源-生物资源;D=A-土地资源-矿产资源-水资源;E=A-矿产资源-水资源-生物资源;F=A-矿产资源-生物资源;G=A-矿产资源-生物资源;H=A-渔业设施、设备-渔业产品-土地资源-矿产资源-水资源;I={所有致灾因子}-台风-大风。

3 结论与讨论

本文以灾害系统论为理论基础,利用灾害普查知识库、互联网历史台风灾害案例库和论文文献资料为数据基础,确定台风灾害链的致灾因子和承灾体,以时空拓扑关系和描述承灾体受灾的谓词来描述致灾因子和承灾体的四种三元组关系,构建台风灾害链知识图谱,将知识图谱以Neo4j图形数据库进行可视化,共构建了59个节点、49种关系和787个三元组。

本文所构建的台风灾害链知识图谱因其独特的三元组基本链结构而具有着以下优势和特点:

1)根据三元组的节点,快速连接起节点的前后三元组,并依据新构建的三元组链的首尾节点连续不断地连接起节点的前后三元组,从而构建出一个全面的台风灾害链网络。

2)当台风灾害发生时,通过社交媒体等数据源快速收集、分析致灾因子节点和承灾体节点特征词,构建基本三元组表,能快速建立该场台风灾害事件的台风灾害链网络,为提前和及时的应急管理提供理论依据。

3)基于Neo4j图数据库构建了台风灾害链网络并将其可视化,以更为具体形象的方式展示了台风灾害链网络。相较于其他灾害链的表现形式,该种方法更为直观地反映台风灾害链的每种次生灾害及承灾体之间的关系;每个节点在网络中仅出现一次,极大减少在表达上的冗余。

4)台风灾害链知识图谱具备知识图谱和网络结构的特点,为进一步的台风灾害网络分析和知识推理奠定了基础,也为台风灾害链综合风险评估奠定了基础。

5)基于我国境内及周边海域范围的台风相关数据所构建的台风灾害链知识图谱对我国境内和周边海域具有普遍的适用性。

台风灾害链知识图谱作为一种表达灾害链的方法,为灾害链的研究提供一种新的方法和视角。但台风灾害链知识图谱依旧有以下局限:

1)前期准备的工作量大并且时间长。三元组的构建包含了实体数据和实体关系的收集和确定,涉及到大量领域和行业的专业知识,当对致灾因子和承灾体的划分更加细致,则对实体关系的数量增加越多,对实体关系的确认越加困难。

2)构建时存在逻辑判断问题。台风灾害链网络不仅存在三元组间的逻辑判断,也存在三元组构建的网络间的逻辑判断。通过Neo4j构建的台风灾害链知识图谱是基于实体将三元组首尾相连,以此构建出台风灾害链网络,但这种基于形式逻辑的算法机制带来了无法保证台风灾害链网络中每一条台风灾害链都是事实存在的。

3)后期应用有人员成本。正如在上面一条局限所言,台风灾害链知识图谱可能在构建中存在逻辑判断问题,无法适用于非相关专业背景的人,在使用台风灾害链知识图谱时依然需要专业知识背景来进行判断,这无疑增加了台风灾害链知识图谱应用的成本。这需要应用知识推理技术,研发集成软件,为非专业用户提供便捷的功能接口。

综上,台风灾害链知识图谱有快速检索致灾因子,辨析上下级致灾因子之间的关系的优点,可为自然灾害综合风险普查数据提供了一种全新的利用方式,将普查大数据应用在台风灾害防灾救灾减灾和知识服务等领域。在台风灾害链知识图谱的基础上,结合互联网大数据,运用自然语言处理(NLP)及机器学习等多算法,加入“实体-属性-属性值”三元组对灾害知识加以补充,可以构建关于台风灾害及其相关知识领域和灾害事件的网状知识结构。台风灾害链知识图谱可以进一步研究台风灾害链的成灾机制和断链减灾机理,为实际生产生活和防灾减灾救灾提供依据,宣传台风安全知识提供帮助。

猜你喜欢
灾体三元组台风
基于带噪声数据集的强鲁棒性隐含三元组质检算法*
我国海洋生态灾害承灾体脆弱性评估
台风过韩
特征标三元组的本原诱导子
承灾体调查总体情况介绍
台风来了
关于余挠三元组的periodic-模
台风爱捣乱
潮州市湘桥区洪涝灾害承灾体易损性及其变化
潖江蓄洪区洪灾承灾体脆弱性分析*