城市内涝事理图谱构建方法及应用

2020-12-26 02:42王云峰朱跃龙
关键词:事理内涝贝叶斯

冯 钧,王云峰,邬 炜,朱跃龙

(河海大学计算机与信息学院,江苏 南京 211100)

城市内涝受到自然环境和工程的影响变化频繁,实时分析城市内涝的成因有助于为城市内涝灾害决策和应急响应机制提供帮助。当前水利领域的知识和数据日趋丰富,利用事理图谱在关联知识和演化推理的强大能力,构建城市内涝事理图谱,并以此作为城市内涝实时成因分析的基础。

城市内涝事理图谱的构建主要包含因果关系抽取和事件抽取。因果关系抽取是从语料中抽取因果关系句,通常采用模板匹配方法[1-5]。例如,Radinsky等[2]通过因果模板匹配的方法从新闻标题中自动抽取因果对。事件抽取是从关系句中抽取事件,在领域中通常使用机器学习方法[6-9]。例如,余辉等[9]在双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)上用条件随机场(conditional random field,CRF)抽取中文临床指南中的治疗事件。根据城市内涝事理领域特点,因果关系抽取采用基于模板匹配的方法、事件抽取采用基于机器学习的方法。

传统的内涝成因分析一般构建物理水文模型[10]或通过统计分析系统性成因[11-12]。例如,李芮等[10]构建城市排涝模型,对不同工程和自然条件进行模拟并总结影响效果。以上方法对内涝成因一般规律进行总结,但难以应用于实时分析,目前多采用贝叶斯网络进行实时成因分析[13-14],但贝叶斯网络方法缺乏空间可扩展性。例如,Li等[13]基于本体簇建立贝叶斯网络并用于地震突发事件的演化分析和决策支持。

实时性、空间可扩展性是城市内涝决策的需求,同时也是难点。因此提出从水利文本中构建事理图谱,再利用事理图谱对不同时空场景下内涝事件的成因进行分析,最终能够确定内涝成因。

1 方 法 介 绍

1.1 总体框架

首先构建城市内涝事理图谱,随后在事理图谱上开展成因分析应用,总体框架如图1所示。

图1 总体框架Fig.1 Proposed framework

a. 事理图谱构建包含因果关系抽取和事件抽取。首先从水利领域语料中抽取出包含因果关系的句子,然后从因果关系句中抽取出结构化的事件信息,融合手工构建的规则形成城市内涝事理图谱。

b. 成因分析应用包含场景生成和成因推理。首先将事理图谱和前期已构建的水利知识图谱作为输入生成场景,再使用场景生成贝叶斯网络用于成因推理,最终输出内涝成因文本和演化路径。

1.2 事理图谱构建

设计一种基于模式匹配和深度神经网络的事理图谱构建方法,旨在利用规则模板库抽取中文因果事件句,基于投票机制的深度神经网络融合方法抽取因果句中的事件,从而构建领域事理图谱并进行简单应用。事理图谱构建流程如图2所示。

图2 事理图谱构建流程Fig.2 Flow chart of event logic graph construction

1.2.1 因果关系抽取

提出一种基于领域因果关系模板库的因果关系抽取方法。结合基于句法结构的核函数和基于语义特征的BERT模型计算语义相似度,抽取因果关系连接词,从而构建领域因果关系模板库。基于Bootstrapping思想,根据模板库制定规则,抽取出更多语料中的因果关系句。

1.2.1.1 模板获取

由于包含相同因果关系连接词的句子通常结构类似,因此对句子进行句法分析(syntactic parsing, SP)得到句法结构树。使用两个句法树之间的公共子树数目衡量它们之间的相似度,通过比较相似度抽取与语料库中句法结构相似的句子。但仅用这种方法会造成候选句中存在结构相似但语义不同的问题,因此再利用BERT模型表达句子的语义特征,获得一批句法结构和语义特性相似的因果关系实例句。

1.2.1.2 模板泛化

为了充分利用因果关系实例的协同过滤能力,需要将前面抽取得到的模板进行泛化。城市内涝更关注因果连接词的位置,因此选择K-means算法做聚类,计算基于句法结构的卷积树核相似性。

1.2.2 事件抽取

首先,基于触发词聚类方法,结合水文领域特性构建事件框架;其次,根据预先定义的事件框架,结合事件触发词和领域特征词构造规则,定位事件触发词并识别事件类型;然后,利用触发词与词性的特征,提出了基于Attention机制的双向LSTM结合CRF模型的事件元素抽取方法,并采用投票机制融合;最后,借助同义词词典实现事件实例中同义词的融合,实现事件抽取。

a. 事件框架的构建。事件类型的定义包括触发词的聚类及事件类型的定义。首先选取句子中的核心谓词组成候选触发词集合,并按照系动词、助动词等做细化过滤;然后,基于HowNet做词义相似度计算,并对候选触发词进行聚类。人工调整聚类后的结果,形成触发词-事件类型对照表。

b. 事件类型识别。主要任务是定位触发词和识别事件类型。在系统中对含有触发词的句子进行预处理,如词性标注、分词、句法分析等,抽取事件触发词并识别事件类型。

d. 事件融合。考虑到利用触发词-事件类型表抽取出的事件实例存在较多冗余,利用同义词词典将表达同一个事实的数据进行合并,实现事件融合。

1.2.3 融合

将抽取的因果关系与事件相互结合,形成事理图谱。事理图谱的节点表示抽象事件,边表示事件间的因果关系,抽象事件包含事件类型和事件元素。

为了将事理图谱应用于成因分析,考虑到领域的特殊性,对自动生成的事理图谱进行人工筛选处理,并对事理图谱的节点进行拓展定义。将事件元素拓展为对象实例化规则、属性实例化规则和状态实例化规则,三者均为产生式规则。对象实例化用于指导对象实例化,即通过事件元素实例(后文使用对象表示事件元素的实例)找到其他对象。属性实例化规则用于提取对象的某个属性。状态实例化规则抽取每个属性的监测数据并映射为预定义的状态。

1.3 成因分析应用

1.3.1 场景生成

借助事理图谱的关联能力和定义的规则自动生成以内涝点为中心的对象因果关系图谱,并融入对象属性形成对象属性因果关系图谱,最后将各属性的状态进行实例化形成内涝点分析场景,这称为场景生成。包括对象实例化、属性实例化和状态实例化3个步骤。

a. 对象实例化。使用内涝事理图谱的节点间关系,以及事理图谱中定义的规则,从已构建的水利知识图谱中获取对象,形成对象因果关系图谱,这称为对象实例化。对象实例化采用反向遍历,直至终止条件。

将事理图谱看作非确定型自动机,将水利知识图谱看作自动机可接受语言。自动机接受根据当前对象和实例化规则产生的对象集合。对象实例化如图3(a)所示,定义了从当前事理节点Vi的对象Ii寻找相邻事理节点Vj的对象Ij的产生式规则,记作Λr(Ii,Ij)InstanceOf(Ij,Vj)。

图3 内涝场景生成流程Fig.3 Flow chart of waterlogging scene generation

c. 状态实例化。对对象属性因果关系图谱的属性状态进行实例化以形成内涝点分析场景,称为状态实例化。离散贝叶斯网络的构建需要考虑时序数据范围和状态离散化。从场次事件结果出发,反向计算确定时序数据范围。随后将属性状态划分为离散状态。

将事件发生时刻记为te,将场景开始时刻记为ts,时序数据长度设为d=te-ts,2个对象Ii、Ij间的影响时间记为Δti,j。如图3(c)所示,对于Ii的任意状态qi,*进行实例化,若已知其后置实例Ij的时序数据范围为(tj,tj+d),则Ii的时序数据范围为(tj-Δti,j,tj-Δti,j+d)。对图谱中属性u的时序数据值,首先使用映射规则f表示为场景特征q的连续值,再根据离散化规则g将该值进行离散化,状态实例化可记为q=g(f(u))。

1.3.2 成因推理

成因推理用于预测场景中对象的未知状态并根据干涉得到的因果效应的强弱判断主要成因。因为成因分析具有不确定性,且内涝点分析场景结构为有向图,因此采用离散动态贝叶斯网络算法用于成因推理。将内涝点分析场景作为贝叶斯网络的输入,对贝叶斯网络进行训练并以此进行成因分析。

1.3.2.1 贝叶斯网络参数训练

离散动态贝叶斯网络由离散静态贝叶斯网络发展而来。离散静态贝叶斯网络是一种表示因果关系的有向无环图模型,节点的状态采用离散化的表示方法。离散动态贝叶斯网络结合贝叶斯网络和马尔可夫过程对动态数据进行建模[15]。针对城市内涝事理图谱成因分析应用的离散动态贝叶斯网络(以下简称为贝叶斯网络)需要满足3个假设。

假设1(马尔可夫性):贝叶斯网络节点在下一时刻仅影响自身和当前时刻直接相连的节点。

假设2(结构不变性):贝叶斯网络在任意时刻的结构均保持不变。

假设3(稳态性):属性节点的状态转移概率分布不随时间的变化而变化。

定义贝叶斯网络的节点V为对象属性因果关系图谱的属性,弧E为属性间的因果关系。根据假设1,任意时刻节点连接的节点集合保持不变,且相邻时刻节点自身连接。根据假设2,任意时刻的贝叶斯网络结构保持稳定。因果演化规律不应受时间影响,因此根据假设3,任意相邻时间的状态转移概率参数是共享不变的。贝叶斯网络的结构如图4(a)所示,其中s表示一个完整的场景。

将内涝点分析场景按时间分割时序数据,形成时间片并连接,形成贝叶斯网络的结构。贝叶斯网络的参数训练方法如下:训练贝叶斯网络的状态转移概率参数P(即共享的状态转移概率分布),设场景s的时间长度为d,贝叶斯网络的最大时间窗口为n,则对于任意场景s,抽取d-n个样本,采用EM算法进行训练。由于城市内涝应用中,自动监测站点数据无法保证完整性,因此采用EM算法能计算未观测到的变量的期望值,从而求得贝叶斯网络的参数。训练过程如图4(b)所示。

图4 离散动态贝叶斯网络Fig.4 Discrete dynamic Bayesian network

1.3.2.2 成因分析

成因分析方法用于分析场景中对象对结果的影响程度,如图5所示。为了分析各个对象的因果效应,需要对每个对象分别采取干涉的方法,即将对象Ii的若干状态集合{xi}改变为预设的缺省状态,并移除指向此状态的弧,更新Ii的所有子节点状态和其他未观测的节点状态,并得到干涉情况下的结果预测值。记真实场次发生结果为Yreal,记干涉后的场次发生结果为Ytreat,则因果效应可记为Ei=Ytreat-Yreal。

图5 成因分析方法Fig.5 Cause analysis method

其中,采用贝叶斯网络更新对象状态的方法如下:设分析场景s的时间范围为(0,1,…,d-1),贝叶斯网络的最大时间窗口为n。对(max(d-n,0),…,d-1)各时间片的xi状态进行调整,随后更新每个时刻各个节点的状态,直到d-1时刻更新结束,并将d-1时刻的结果作为结果预测值。

对所有节点均进行因果效应分析后,对因果效应Ei进行排序,得到主要成因。

2 试 验 设 计

东门商业街地处深圳市罗湖区中心地段,地理范围为114°06′55.5″E~114°07′19.9″E、22°32′33.9″N~22°32′52.5″N,面积达17.6万m2,地理位置如图6所示。深圳易出现短时强降雨的现象,受此影响,东门商业街易发生内涝。由于东门商业街周边交通密集、商业较为发达,内涝将造成较大经济损失。因此以东门商业街作为研究区域。

图6 研究区域示意图Fig.6 Schematic diagram of study area

2.1 数据集

2.1.1 事理图谱构建数据集

试验数据共441篇文档,其中323篇来源于《水科学进展》《水文》《水利信息化》等相关学术期刊论文,57篇来源于《中国水利网》《太湖流域管理局》等相关网站新闻文本,61篇来源于《中国水旱灾害公报》、深圳三防工作手册、深圳市台风暴雨综述等相关工作报告。平均每篇文档的长度为415字,标签数目为6个,每个标签下平均文档数目为72篇。首先对收集到的数据集做降噪处理,仅保留文本。然后进行文本分句、分词、词性标注等操作,将文档组织成需要的输入格式。使用jieba工具进行分词,LTP工具对文本进行词性标注。

2.1.2 成因分析应用数据集

水利知识图谱的基础数据来自深圳智慧水务大数据中心的水务大数据基础库,对象空间拓扑数据来自深圳市广汇源环境水务有限公司,监测数据来自深圳智慧水务一期工程综合监测管理平台。实例化规则由专家经验指导构建。

为了分析东门商业街的内涝事件,以东门商业街为中心,沿布吉河构建水利知识图谱,涉及的对象分为流域对象、管网对象、水利工程和市政对象。构建的水利知识图谱示例如图7所示。

图7 水利知识图谱示意图Fig.7 Schematic diagram of hydraulic knowledge graph

2.2 试验步骤

2.2.1 事理图谱构建

a. 因果关系抽取。将提出的基于领域因果关系模板库的因果关系抽取方法与采用一般因果关系模板库和基于句法结构扩展的模板库进行对比试验。其中一般因果关系模板库使用通用的连接词进行模板匹配;基于句法结构扩展的模板库根据相似性抽取因果关系。

b. 事件抽取。针对事件类型识别与事件元素识别两步工作,分别设计事件类型识别试验与事件元素识别试验。

2.2.2 成因分析应用

东门商业街内涝事件的成因分析主要考虑实时监测值和外部因素成因。以用户选择的内涝点处的内涝事件为输入,包含内涝发生时间、内涝点淹没深度、淹没流速、淹没历时。通过成因分析,系统将返回此内涝事件的主要成因。

2.2.2.1 场景生成

事理图谱的形成需要以2.2.1节构建的事理图谱为原始输入,专家经验指导手工调整,形成有关成因分析的子图,再为不同的事件节点增加实例化规则。

构建深圳河流域城市内涝事理图谱抽象结构如图8所示,其中事理图谱的接受态使用双层圆圈表示。(a)从内涝节点出发,反向实例化直至接受态;(b)当完成对象实例化后,需要正向遍历完成各个对象的属性实例化;(c)当完成对象因果关系图谱的属性实例化后,需要对这些属性的状态进行反向实例化,确定状态的时序数据范围,再进行特征提取;(d)生成内涝场景。

图8 城市内涝事理图谱Fig.8 Event logic graph for urban waterlogging

2.2.2.2 成因推理

使用内涝场景生成贝叶斯网络。以事件发生时间为起点,向前搜索内涝场景直至场景中的对象发生变化为止,将这些场景用于贝叶斯网络的参数训练。

将贝叶斯网络用于成因分析。首先进行独立的重复干涉试验,将每个对象的状态分别采用干涉方法设置为缺省状态。对于东门商业街内涝事件来说,提取晴天场景中的对象状态作为缺省状态。再更新其他节点状态,并得到预测结果,将预测结果与实测结果之差作为此对象对内涝事件的因果效应。随后将因果效应进行排序并输出成因和关联对象。

3 试 验 结 果

3.1 事理图谱构建结果

3.1.1 因果关系抽取结果

由表1可知,领域因果关系模板库方法在准确率、召回率和F1方面都有所提升。这说明本文提出的方法筛选出新的因果关系连接词并进行泛化,对模板可信度有较好的平衡。

表1 因果关系抽取试验结果Table 1 Experimental results of causality extraction

3.1.2 事件抽取结果

针对事件类型识别与事件元素识别工作,分别设计事件类型识别试验与事件元素识别试验,试验结果如表2所示。

表2 事件类型与事件元素试验结果Table 2 Experimental results of event type extraction and event element extraction

事件类型识别部分,由于本文提出的方法抽取规则制定的比较详细,因此召回率降低,但是抽取的大部分事件类型都是正确的,准确率大幅度上升,非常适用于内涝应用场景。

事件元素识别部分,基于Attention机制的双向LSTM结合CRF模型在3种抽取方法中效果最好。基于投票机制融合3种方法后,能充分利用各个算法模型的优势,试验结果得到小幅度的提升。

3.2 成因分析应用结果

选取2018年8月29日深圳特大暴雨导致的东门商业街内东门中路内涝点内涝灾害事件作为验证。根据分析报告和现场调研,东门商业街的内涝成因主要是降雨过大、管道设计标准偏低、雨水口堵塞。东门商业街的排涝水力联系概化图如图9所示。

图9 研究区域水力联系概化Fig.9 Generalized diagram of hydraulic connection in study area

试验得到的演化机理和成因如图10所示,主要分为降雨过大、落叶导致的雨水篦子堵塞和管网老旧导致排水能力不足3类成因,基本符合真实场景下内涝事件的发生机理。在与真实情况的对比中,发现罗雨泵站的6台泵机中有1台未工作,但未构成主要的内涝成因。根据现场调研,了解到东门商业街土地硬化面积随时间变化较快,因此区域汇水面积增长较快,老旧管道设计标准难以满足排水需求,造成了管道排水能力不足。所以,罗雨泵站未工作的泵机未对管道排水造成太大影响。这表明试验得到的成因与真实的成因相符。

图10 成因分析应用试验结果Fig.10 Experiment result of causal analysis application

4 结 论

a. 为了分析变化的时空场景下的内涝成因,提出了一种构建城市内涝事理图谱,并在事理图谱上开展成因分析应用的框架。

b. 提出事理图谱构建方法,利用句法结构和语义特征抽取中文城市内涝语料库中的因果关系句,使用基于投票机制的深度神经网络融合方法从因果关系句中抽取因果事件,形成事理图谱。

c. 提出成因分析方法,利用事理图谱自动构建内涝场景,通过构建的场景自动形成贝叶斯网络用于成因分析。分析结果表明,提出的事理图谱构建方法能准确捕获领域文本中描述的事理,提出的成因分析方法能在变化的时空场景下实时分析内涝成因。

猜你喜欢
事理内涝贝叶斯
海绵城市内涝防治系统的功能探析
构建城市水文监测系统对解决城市内涝问题的探索
《城市暴雨内涝仿真模拟技术及其应用》
阐释现象 揭示事理——说明文写作六步曲
基于贝叶斯定理的证据推理研究
基于贝叶斯解释回应被告人讲述的故事
语 丝
农业农村部派出工作组深入东北三省 全力推进科学抗内涝保秋粮丰收
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究