多源异构数据应急知识图谱构建与应用研究

2020-03-27 01:25李泽荃曹家琳
华北科技学院学报 2020年6期
关键词:本体图谱语义

李泽荃,祁 慧,曹家琳

(华北科技学院 经济管理学院,北京 东燕郊 065201)

0 引言

突发事件的应急响应及智能辅助决策需要知识库的支持。在当前的大数据背景下,应急领域数据丰富但知识相对缺乏;而没有应急知识的凝练,决策者很难对真实的危机状况做出准确判断。因此,为进行突发事件的快速应急响应,必须实现“数据—信息—知识—智慧”的智能转化,构建面向多应急主体的应急知识服务体系。

面向突发事件的应急管理主要有预防准备、监测监控、预测预警、救援处置和恢复重建等关键环节。包括突发事件的实时风险信息数据在内,应急响应的各个环节往往会涌现海量、多源、异构数据信息[1]。这里的多源指数据来源多样化,如遥感影像、摄像头、互联网、手机信令、GPS追踪等;异构指数据结构上的差异性,包括以表格数据为代表的结构化数据,以视频、图像、语音、文本为代表的非结构化数据和以地理信息、IoT为代表的时空数据。而且这些信息呈现出几何级数增长趋势,同时需要进行实时处理、临场抉择。

在大数据、人工智能等技术的推动下,需要利用机器学习、知识图谱、云计算等方法实现对多源异构时空数据的挖掘,为应急辅助决策的智能化提供技术支撑。在人工智能领域,对于机器认知计算,知识表示、知识融合、知识图谱等技术成为重要手段,目前已经在语义搜索、机器翻译、自然语言问答、基于知识的数据挖掘与决策等领域得到了广泛应用[2]。

本文将知识图谱技术与应急管理领域的知识工程相结合,提出基于多源异构数据的应急知识图谱构建方法。本文首先对知识表示技术以及领域知识图谱的研究现状进行了分析;然后,提出了应急知识图谱构建的技术体系和完整流程;最后,讨论了应急知识图谱的应用方向及未来展望。

1 相关研究

1.1 知识表示

简单地说‘知识’是人类通过观察、学习和思考客观世界的各种现象而总结出的所有概念、事实、规则等的集合[3-4]。人类以往的经验知识得以保留再利用归功于知识表示技术和方法的进步。知识表示是将现有的知识表示为计算机可以存储和处理的模式,即对领域知识的事实和关系的一种模型化。当前已经有众多知识表示技术,如一阶谓词逻辑表示法[5]、产生式规则表示法[6-7]、框架表示法[8-9]、脚本表示法[10]、描述逻辑表示法[11]、语义网络表示法[12-13]、基于本体的表示方法[14-16]和基于贝叶斯网络的表示方法[17]等。

1.2 应急知识表示

应急领域中的事实、概念和规则大部分体现在应急案例和应急预案中,因而当前针对应急知识表示主要围绕突发事件案例、情景和预案等方面开展相关研究。突发事件本身的发展演变及应对过程构成了事件案例,而对于案例的知识表示,众多学者提出各类方法。张英菊等[18]提出了一种基于应急概念树—突发事件本体模型—事件元模型的三层架构的通用应急案例表示方法。张贤坤等[19]在扩展ABC本体模型的基础上建立了基于CBR的应急案例本体模型,定义了具体的概念、实体和关系,并给出了案例的形式化描述。黄超等人[20]另辟蹊径,依据信息来源的不同分别提出了结构化信息和非结构化信息的表示方法,整个案例最终被表示成包含定量化数据和抽取文本的半结构化形式。于峰等[21-22]借鉴生物基因图谱的相关研究,提出了基于基因图谱的案例表示方法,实现了复杂应急案例结构的系统性表达。对于突发事件情景的知识表示,戎军涛等人[23]运用本体论的思想与方法构建了政府危机预警情景和响应情景模型。王宁等[24]以知识元的形式抽取了领域内突发事件应急管理的共性知识,并建立了应急管理案例的情景化表示及存储模式。陈祖琴等[25]将突发事件情景拆分为若干情景点,标注后形成情景链,并从案例中提炼与情景对应的响应策略,形成突发事件应对策略库。在应急预案的知识表示方面,赵婷[26]利用框架表示法对应急预案进行了表示。谷岩[27]同样采用基于框架表示法的结构化技术对静态预案进行了表示,并基于关系模型设计了预案库的结构和索引。蒋白桦等[28]以本体论为基础,提出应急预案的静态和动态元模型方法,并采用多视图的形式进行描述。张莹等[29]采用上层本体和应用层本体两层结构模型实现了对地震预案的数字化表示和知识的形式化描述。

1.3 领域知识图谱

随着大数据时代的来临,知识图谱成为知识表示最重要的一种方式。知识图谱本质上是一种语义网络,用于揭示具有属性的实体之间的相互关系,其中网络的节点表示实体或概念,而网络的边表示实体/概念之间的语义关系[30]。有关知识图谱的发展历程请见文献[31]。当前,通用知识图谱比较有代表性的有:YAGO[32]、DBpedia[33]、Probase[34]等;国内有Zhishi.me[35]、CN-DBpedia[36]、百度的“知心”和搜狗的“知立方”等。

相比于通用知识图谱已经有一套相对完整的技术体系,领域知识图谱的构建还处在早期阶段。阮彤等人[37]提出数据驱动的增量式知识图谱构建方法,并通过中医药、海洋和企业三个用例进行了应用示范。彭乾慧[38]提出了一个面向领域知识图谱的自动化构建方法,并开发了辅助构建领域知识图谱的WAKA-KG框架。杨玉基等人[39]提出了一种领域本体构建、众包半自动语义标注、外源数据补全和信息抽取“四步法”的领域知识图谱构建方法,以解决自动化和人工参与的平衡问题。蒋秉川等人[40]研究了地理知识图谱的关键技术和构建流程。或许,对于领域知识图谱的构建,还缺少统一的自动化构建方法。随着技术的进步,医药和安防行业的知识图谱近两年开始进入人们的视野,如IBM Waston Health、明略数据的公安知识图谱、上海曙光医院的中医药知识图谱[41]等。

2 应急知识图谱构建

2.1 应急知识图谱的内涵

应急知识图谱是应急领域相关知识的延伸和拓展,是结构化的应急语义知识库。在知识图谱中,通过形式化地描述应急领域的概念、实体、属性及其相互关系,以网状的结构进行知识的描述。

应急知识图谱可以用三元组的形式来表示,即G=,形成由节点和边组成的有向图。其中节点表示应急相关概念、相关实体和属性值;边表示概念与概念、概念与实体、实体与实体、实体与属性以及属性与属性值之间的关系,如图1所示。从逻辑上来看,应急知识图谱包括数据层和模式层两个层次。数据层主要是由一系列的实体、属性等事实性知识组成;而模式层构建在数据层之上,以概念的形式存在,主要表达的是数据层中实体的类以及概念之间的关系。

基于领域知识所具有的层次结构,在构建知识图谱时常采用自顶向下和自底向上相结合的方式。自顶向下的方式指通过本体编辑器预先构建领域知识图谱的模式层,自底向上的方式指在模式图的基础上利用多种抽取技术获得数据源中的实体、属性和关系,并将其融合到知识图谱中。

图1 知识图谱的定义示例(rdfs: subClassOf表示概念之间的语义关系;rdfs: type表示数据图中的实体与所属概念间的关系)

2.2 本体构建

从上面描述可以看出,模式层的搭建就是进行领域本体的构建。本体是概念化的明确的规范说明[42],即对实体进行建模而抽象出的模式信息,包含了领域内的概念、属性及概念之间的关系。目前,本体在语义网、知识图谱及人工智能等领域起着重要作用。本体的建模元语可以描述事物的基本特征和演化规律,可以形式化地表示为:

O={C,P,R}

(1)

其中,O为本体元语集合;C为概念集合,表示术语的核心内涵;P为概念属性集合,表示为概念相关特征;R为概念间关系集合,描述概念之间各类型的关系。可以看出,本体利用统一的体系来描述事物的概念和术语,可以进行领域知识的梳理,进而实现共享和重用。

在应急领域,本体学习的首要任务是概念的梳理。针对应急管理的特点,结合文献[43]提出的概念分类方法,将概念分为通用概念和过程概念两类,详见表1。“通用概念”包括时间、自然环境、基础设施、个体、组织和社会关系;“过程概念”包括活动、交互、事件和干预。

表1 应急知识中的本体及概念

概念之间的关系同样是本体构建的重要内容。应急管理领域本体模型的二元关系可以抽象为空间关系、结构关系、逻辑关系和过程关系,具体情况见表2。

2.3 知识图谱构建

从狭义上看,知识图谱的构建就是进行数据层的填充。应急管理领域数据主要来源于结构化数据、半结构化数据和非结构化数据,表现出极复杂的多源异构性特征。因而,从知识来源出发,主要通过知识抽取、知识融合和知识推理三个步骤来构建知识图谱。知识图谱的构建过程如图2所示。

2.3.1 知识抽取

知识抽取阶段主要从多源异构数据中获取知识单元,包括应急知识实体、实体属性以及实体关系。结构化数据具有固定格式和显示结构,一般储存于关系型数据库,如危险化学品生产企业的隐患排查记录;抽取方法是通过建立数据库中概念与知识图谱中本体的对应关系,以实现从数据库中自动获取实体、属性及关系。针对各类百科数据中的半结构化知识,如百度百科中的自然灾害信息,一般采用基于封装器的方法进行抽取。非结构化数据是无结构的纯文本模式,属于难以抽取的知识,一般采用监督学习的抽取方法,即通过已知的实体对未知文本进行自动标注。需要注意的是,在应急领域实体抽取过程中存在的最棘手的问题是实体统一,即来源不同的数据在有些写法上不太统一,但又指向同一个实体。对于此问题,通常预先定义一些基本规则来处理。

2.3.2 知识融合

知识抽取阶段的任务仅仅是将实体、属性及关系从不同的数据源抽取出来,形成一个个孤立的图谱。为了将这些孤立的图谱集成到一起,就需要进行数据整合、消歧、加工、验证等,实现知识的完美融合。知识融合阶段主要进行实体匹配和模式对齐。

实体匹配主要将具有不同标识但表示真实世界中同一对象的实体进行语义消歧,标识为全局唯一的实体。应急领域中知识来源的多样性导致了同名、多名指代等问题,例如在百度百科中的“致灾因子”就是日常我们提到的“灾害源”。目前,实体匹配一般采用无监督学习的聚类方法,其关键的问题在于相似度函数的选取。对于语义消歧,目前还缺乏应急领域的语义词典,大多数情况下主要采用人工领域专家的判断。

模式对齐主要指的是进行实体属性和属性值的融合。来源于不同数据源的实体,其属性存在不同的语言表达形式,如“年龄”与“年纪”为同义词等。因此,在进行实体属性整合时,可以考虑的特征有同义词、近义词、属性两端的实体类型等。目前,模式对齐一般采用有监督学习的方法,主要通过事先进行人工标注。

2.3.3 知识推理

推理的意义在于从知识图谱中挖掘隐含知识,即在没有人工过多参与的情况下,采用基于图或逻辑的方法对问题进行语义求解。知识推理包括对实体关系的推理和对实体属性的推理两个部分,前者是对实体间潜在的关系进行推断和理解,后者则是对实体的属性值进行推理和更新。

知识推理的实现可以利用可扩展的规则引擎。针对实体间的关系,可以通过定义链式规则来实现,如人的不安全行为是导致安全生产事故发生的重要原因,不遵守操作规程、技术素质差等都属于人的不安全行为,当生产事故发生时存在不遵守操作规程等行为,可以推理出不遵守操作规程是导致事故发生的直接原因。针对实体属性,可以通过定义计算规则来实现,如知识图谱中包括台风的移动速度,可以通过推理获得台风到达陆地的时间。

另外,基于统计的推理也是知识推理的主要方法,其是利用机器学习技术通过统计规律从图谱中获得新的知识。目前,主要有基于描述逻辑的推理[42]、基于概率图的推理[43]和基于表示学习的推理[44]等方法。

3 应急知识图谱应用

按照知识图谱服务的对象,可将应急知识图谱的应用分为两个层面,即面向人的和面向智能系统的。面向人的应用主要是为人类提供更便捷、准确的知识服务,如智能检索、智能辅助决策分析等;面向智能系统的应用主要是使机器系统具备像人一样的认知能力,如智能问答平台。下面简要概括常用的应用方向:

3.1 智能检索

以往的搜索引擎搜索结果以网页链接的方式展现,而基于应急知识图谱的搜索通常以知识卡片的形式呈现,是应急知识的形式化表达,如图3所示。知识图谱可将灾害实体、天气状况、响应措施等要素进行关联,实现应急知识的语义搜索和查询,在同一页面进行可视化呈现。

3.2 智能决策支持

突发事件的应急响应更需要计算机的智能决策支持。基于应急领域的知识图谱,可通过分类、聚类等机器学习算法,以及最短路径、链路预测、中心性分析等复杂网络分析技术,实现突发事件、承灾载体和应急管理三要素的关联分析和挖掘,实现临机决策支持。

3.3 智能问答

随着人工智能技术的进步,深度学习的应用已经使机器获得了类似于人类的感知能力,但若要使机器具备人类的认知能力,实现自然语言的交互,与人进行交流,则必须要有相关知识库的支撑。由于应急知识图谱具有结构化的特征,相比于传统的文本资料、关系型数据库,具有更强大的语义表达和理解能力,是实现应急管理领域智能问答的知识库基础。

图3 应急知识卡片示例

3.4 智能舆情监控

互联网技术的进步给社会化媒体的发展提供了较多便利,人们可以通过微博等平台发表自己的看法。或许,对于一些突发事件,反向的观点将误导政府和大众,为应急救援的开展带来阻碍。因此,有效地对大规模实时数据进行过滤、监控舆论走向是应急响应的关键所在。基于知识图谱的监控系统可以对文本信息进行语义标注,挖掘有价值信息,揭示信息之间关联关系,实现对大众媒体的舆论分析。

4 结论

(1) 本文重点对知识表示方法、领域知识图谱构建技术的发展状况进行了讨论,提出了基于多源异构数据的应急知识图谱构建技术体系和详细构建流程,并阐述了未来几年应急知识图谱可能的应用方向。

(2) 从整体来看,关于应急知识图谱的研究工作还处于探索阶段,特别是应急管理领域相关知识的梳理以及应急领域本体的抽象还不够成熟,仍然有大量的工作需要攻克。

猜你喜欢
本体图谱语义
真实场景水下语义分割方法及数据集
基于图对比注意力网络的知识图谱补全
基于MFI4OR标准的本体融合模型研究
眼睛是“本体”
绘一张成长图谱
图表
主动对接你思维的知识图谱
“吃+NP”的语义生成机制研究
情感形容词‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的语义分析
汉语依凭介词的语义范畴