水利综合知识图谱构建研究

2021-09-09 02:39赵红莉蒋云钟毛文山
水利学报 2021年8期
关键词:水网图谱水利

段 浩,韩 昆,赵红莉,蒋云钟,李 豪,毛文山

(中国水利水电科学研究院,北京 100038)

1 研究背景

知识图谱(Knowledge Graph)是一种通用语义知识形式化描述框架[1],Google 公司于2012年首次提出这一概念,用于提高信息资源的搜索能力。这项技术主要是利用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,为人们提供了一种高效地组织、管理和分析海量数据的方法[2],从而更加便捷地获取知识。

随着社会服务智能化需求的提升,知识图谱技术正得到快速发展,按知识图谱的构建过程又可分为知识抽取、知识融合、知识应用等内容。知识抽取是从海量数据中获取有效信息的过程,包括对实体、关系及属性的抽取,其中实体抽取的方法主要包括基于规则[3]、机器学习和面向海量数据的抽取;关系的抽取包括基于模板、监督学习和无监督学习的抽取方法[4]等;知识融合主要是对从多源数据抽取的知识进行处理,可包括实体的融合及跨域图谱的融合[5-6]等。

与此同时,面向特定领域的知识图谱应用逐步发展,被用来组织、分析和挖掘领域内的知识。起初,学者们多使用通用知识图谱技术进行专业文献的计量学分析[7-9],以获得相关专业知识结构框架及研究脉络,分析研究热点及未来发展方向。随后多个专业领域开展了专业知识图谱构建技术与应用的研究,如余建明等[10]、刘津等[11]和李智星等[12]运用知识图谱技术研究了电力领域专业术语关系以及电网企业运营指标关系,提出了电力行业的面向智能调控领域知识图谱构建方法;吴雪峰等[13]构建了煤矿巷道支护领域知识图谱,为巷道的智能化管理提供支撑;车金立等[14]则将知识图谱技术引入到军事装备领域,支撑实现该领域的知识问答;沈柳等[1]、奥德玛等[15]以及孙郑煜等[16]在医药领域进行了知识图谱技术应用的尝试;昝红英等[17]通过构建中文医学知识图谱研究了机器标注准确率较低的问题。这些研究进一步显示出知识图谱在支撑行业智能化管理方面的优越性,推动了知识图谱在各个行业的快速发展。

水利知识涵盖范围广,涉及河流、湖泊、水库等多种管理对象,同时包括水旱灾害防御、水资源管理、水土保持等多种业务,知识的来源既有结构化数据如水利业务数据,也有半结构化、非结构化数据如水利学科知识文本、互联网数据等。基于这些多源数据,众多学者[18-20]从不同专业角度开发了信息服务平台,进行水利数据的组织管理和信息服务。2019年12月水利部发布了最新版的全国水利一张图[21],力图实现水利信息资源的业内整合共享、水利业务协同和智能应用。学者们也对知识图谱在水利领域的应用进行了探索,并将其引入专业文献的计量学分析,如陈思源等[22]、金菊良等[23]研究了我国水资源专业知识的知识图谱分析;毛文山等[7]分析了水生态水环境专业知识的图谱构建;李致庆等[9]则利用知识图谱技术研究了我国节水灌溉技术的发展;刘晓君等[24]对再生水问题的发展态势与研究热点进行了分析。同时,学者们也在尝试使用知识图谱技术整合水利信息资源[2,25],以期实现智能数据检索,构建智能问答系统;王新龙等[26]则通过研究知识图谱的智能关联技术,准确锁定排污企业,完成水污染的精确溯源。

上述水利领域的知识应用研究,针对部分数据源、在部分领域已得到较好的应用,但还难以实现对整个水利行业知识的有效组织。水利领域的知识既包括科学研究中形成的认知类知识(如水循环理论、方法等),同时还包括行业建设管理中的事实类知识(如客观存在的河流、湖泊、工程等),单纯对认知类知识进行提炼和总结,或仅对结构化业务数据进行分析,难以形成对水利综合知识的认知。此外,多源异构水利数据间的融合仍存在技术瓶颈,客观上也制约着水利知识的整合。为实现水利知识的有效组织,提供全面、高效的水利知识服务,本文在前人研究的基础上,分析整合各类水利业务数据与学科知识数据,通过多源异构水利数据的融合,实现不同类型水利知识的关联,构建面向水利综合的知识图谱,为支撑水资源智能化管理和提供水利知识服务奠定基础。

2 水利知识体系描述

2.1 水利知识组成 知识是人类从各个途径中获得的经过提升总结与凝练的对世界的系统认识。世界经合组织(OECD)在《以知识为基础的经济》(1996)报告中将知识分为4 大类:(a)知道是什么(Know-what),主要是叙述事实方面的知识;(b)知道为什么(Know-why),主要是自然原理和规律方面的知识;(c)知道怎么做(Know- how),主要是指对某些事物的技能和能力;(d)知道是何人(Know-who),涉及谁知道和谁知道如何做某些事的知识。按照知识描述的内容是否是客观存在的实体对象,可以将知识归为两类:事实类知识和认知类知识,事实类知识回答是什么、是谁,认知类知识回答为什么、怎么做。

水利综合知识体系应包括事实类知识和认知类知识(表1)。水利事实类知识包括各类涉水对象及其属性与关系,具有实体性、显性和动态性等特征,其描述的对象可分为自然对象、工程对象和社会对象三类。其中,自然对象包括水利研究的河流、湖泊、流域等天然实体;工程对象包括人类建造的各类水利水电工程,如大坝、水库、水电站等;社会对象包括水利管理机构、研究机构、取用排水的机构及相关自然人等。水利认知类知识包括水利领域的概念、原理、规律、方法等,也可称之为水利学科知识,具有抽象性、普适性、被认同等特征,通常以各类文献为载体,用文字和符号来表达。认知类知识主要以水利领域主题词表及其不同分类领域为基础,通过水利各学科领域具有上下位关系的主题词来形成对水利综合知识的描述框架。

表1 水利知识部分概念和属性

2.2 水利知识关系描述 基于上述水利知识分类,我们对不同水利对象进行细化描述,定义水利知识关系的描述体系(见图1),主要包括基于事实类知识构建的水网图谱和以水利学科知识为基础的学科图谱两部分。在水网图谱中,自然对象间的关系包括水系与流域的隶属关系,不同级别水系的层级关系,湖泊与流域的隶属关系等。工程对象与自然对象的关系包括水利工程与流域的隶属关系、与河流的空间位置关系。社会对象之间的关系包括人与机构的任职关系,机构对区域的管辖关系等;在三类水网对象的关系方面,包含自然对象、工程对象与地区的位置关系,机构与自然对象和工程对象间的管理关系;人与自然对象和工程对象间的研究关系等。

图1 水利综合知识图谱描述体系

在水利学科图谱中,包括概念词条的上下位关系和以原理、规律、方法等表述的概念关联关系。概念词条关系是按照主题词的上下位关系进行组织建立的水利学科分类、细分研究领域、具体概念词条的层级关系。如水利学科可分为水文学、水资源学、水力学、水工建筑物等不同研究方向;而水资源学按照具体的研究内容又可分为水资源规划、水资源配置、水资源调度等研究领域;对于各细分领域的具体词条,再按照上下位关系进行组织,如地表水资源作为上位词,其下位词包括河流水资源、湖泊水资源、融雪水资源等。各概念之间还可以通过水利学科的原理、规律和方法发生关联,如水量平衡原理包含对降水、入渗、产流、蒸发等多种水循环要素的分析,当其中某一种要素无观测数据时,可根据该原理进行推求;各要素间也可以通过规律、方法发生关联,如根据地区人口、产值与地区用水量相关的规律,可将人口、产值与用水量等概念联系起来。

在涉水对象与水利学科知识之间存在事实类和认知类知识的关联。基于学科知识的领域分类,可以建立涉水对象的所属学科领域关系,如对于工程对象中大坝的实例(如“三峡大坝”),可以与水资源管理领域中的词条“坝”建立关联,基于此方法可构建涉水对象与学科知识间的对应关系。同时为实现水利综合知识的构建,还需解决多源异构水利数据间的融合问题,主要包括水利实体的融合、属性的融合及重名实体的消歧等。如多种数据同时描述了某个流域的水资源量信息,需通过属性融合来判断各数据来源的可信度,得到该流域合理的、可信度最高的水资源量数据。通过对多源异构水利数据的融合,使水网图谱和学科图谱有机融合,从而构建出水利综合知识图谱。

3 水利知识图谱构建

3.1 水利综合知识图谱构建框架 知识图谱可分为面向全领域的通用图谱(如WorldNet、FreeBase等)及面向各学科领域的垂直图谱(或行业图谱)两类。面向水利学科领域的知识图谱应属于垂直知识图谱,具有较强的领域特色,在数据采集上同时融合结构化的行业监测数据和非结构化、半结构化的百科数据、互联网数据等。本文基于水利专业知识定义各类水利对象与学科知识间的关系体系(图1),以结构化的高质量水利行业数据为基础抽取水利实体对象,并在此基础上从数据层、技术层和应用层等角度提出水利综合知识图谱构建方案(图2),主要内容包括:

图2 水利专业知识图谱构建方案

(1)数据层:对源数据进行采集和分类处理,包括结构化的水利行业关系型数据库导出数据、半结构化的网页数据、非结构化的文本数据等,作为水利实体和关系抽取的数据基础。

(2)技术层:通过自然言语处理、机器学习等技术从文本数据或图像数据中抽取相关实体,并将抽取的实体按照自然对象、工程对象和社会对象的维度进行划分,通过预定义的水网实体关系模型,抽取不同实体间的关系;基于水利学科分类及词条概念间的关系进行百科图谱的构建;在此基础上进行多源实体及跨域图谱的融合,包括本体对齐、以多源实体为基础的语义关联及属性合并、水利知识模型的综合等内容;最终将图谱表示成结构化形式并使用图数据库存储,本研究采用图数据库中应用较为普及的Neo4j数据库[27],数据的存储包含节点和关系两种基本类型,节点通过定义的关系连接,形成关系网络结构。

(3)应用层:基于构建的知识图谱首先可提供可视化展示与关联查询等应用,考虑到在水利综合知识图谱展示中存在大量的知识维度,本研究依据力导向图原理,基于图数据库和D3.js(Data-Driv⁃en Document)技术实现水利知识图谱的可视化展示,提高图谱的展示效率,同时也便于对不同水利对象进行聚类;此外,随着水利实体的扩充和实体关系的丰富,还可提供基于图谱的知识问答、水利事件的成因溯源等知识应用。

3.2 水利综合知识图谱关键技术

(1)水利实体识别。在知识图谱中,独立存在的事物(对象或概念)被称为实体,并由“实体-关系-实体”三元组的形式构成知识图谱的基本单元。对于结构化的水利实体,可基于数据表将关系型数据直接转换为三元组。在对非结构化文本进行水利实体识别时,需要将实体识别转化为序列标注问题进行研究。因此选择双向长短期记忆神经网络(Bi-directional Long Shot-Term Memory Neural Network,BiLSTM)与条件随机场(Condi⁃tional Random Fields,CRF)相结合的方法来识别水利实体(图3),并在分词处理时选择基于字词向量相结合的方法。BiLSTM 模型具有强大的非线性拟合及序列建模能力,能够捕捉较长的上下文信息。CRF 是常用于标注问题的统计学习模型,尤其在数据规模较小时具备较好的识别效果。将BiLSTM与CRF结合用于命名实体识别,可充分综合各自的优点,利用BiLSTM模型挖掘文本中的特征信息,再将结果输入CRF模型进行序列标注。该方法由Lample等[28]提出,并在多种测试数据集上取得了比统计模型更优的效果[29]。

图3 水利实体识别模型示意

本研究中,水利实体的识别语料主要是非结构化的水网对象描述信息。首先基于语料样本制定了标注集,对样本序列中每个元素按照水利特征定义标签,并基于此对预处理后的非结构化的水利文本进行标注,确定文本中词的边界,为实体识别确定分类特征。然后利用BiLSTM模型进行训练,通过保存整句的前后文信息来提取句子特征,将文本中前后向的隐藏态结果进行结合。最后将BiL⁃STM的模型输出传递给CRF作为输入,形成BiLSTM-CRF结构,利用上下文信息进行序列标注。在模型训练中使用了基于字词向量结合的方法,使用自动获取的词典来匹配句子,对输入字符序列和所有潜在词汇进行编码。

(2)水利实体关系抽取。关系抽取的目标是从非结构化的文本数据中,提取出实体之间的关系,本研究采用基于模式匹配和共现网络分析相结合的方法对水利实体间的关系进行抽取。

模式匹配法是运用语言学知识,根据水利实体特征构建基于语词、词性或语义的实体关系模式,再将水利实体文本与模式进行匹配的关系抽取方法。在抽取过程中,首先根据水利语料样本构建实体间关系的表达方式,如为了表达河流与地区间的“流经”关系,可构建出[河流名称]流经[地区名称]的关系模式;在利用预处理后的其他文本进行实体关系抽取时,可基于该模式匹配“黄河流经河南省”并从中抽取出自然对象“黄河”与社会对象“河南省”之间的流经关系。水利实体间的关系模板示例如图4所示。

图4 水利实体关系模板

基于共现网络分析的方法,是通过构建共现矩阵来确定实体间的关系,其基本假定是关系紧密的实体会在文本的多个片段中同时出现。首先基于统计的方法抽取各水利实体在文本中出现的次数,然后分析不同实体在文本中共现的比例,当两个实体共同出现的比例大于某个阈值时,认为这两个实体间存在某种关系。实体间的关系可基于实体的类型进行定义,如河流和地区之间是流经的关系,机构与河流之间的管辖的关系等(图5)。

图5 水利实体的关系共现矩阵示意

在本研究中,采用共现网络分析方法与模式匹配方法联合提取实体间的关系。首先基于共现网络分析法统计水利文本中多个实体共现的频率,并通过实验来给定频率的阈值。然后采用模式匹配法,对共现网络的分析结果添加关系,包括流经地区、管理机构、所在河流等。

(3)多源水利知识融合。

①水利实体融合。水利知识的融合主要是将不同数据源对同一实体或概念的描述统一起来,使异构的图谱相互沟通[29],可分为实体的融合、数据属性的融合、重名实体的消歧等多个层面。实体的融合,是针对不同数据源对同一实体缺乏统一标识的问题,通过融合来构建不同数据源中实体的语义关联。属性的融合是解决不同数据源中同一实体属性的一致性问题。重名实体的消歧,是对水利对象中具有同名异意、异名同意、同名多源等特征的实体(如地名、水库名等)的融合,主要基于实体结构和实体的属性特征进行匹配。在处理水利实体的消歧时,将所有数据节点投影到一个全局的统一表征空间,针对每个候选集合分别构造一个局部表征函数,以此来度量两个实体节点之间的相似度。然后基于相似度对节点进行聚类,并根据聚类结果对候选集合进行拆分,从而得到最终的数据融合结果。

以实体的融合为例,如从百科词条中抽取到“水利部黄河水利委员会”实体,从行业数据库导入的机构数据含有“黄委会”实体,这两个实体名称是对同一实体的描述,但因数据来源不同,需要对二者进行融合。首先通过编辑距离指标来计算两个字符串的相似度,然后根据两个实体的属性信息分析相关属性的相似度,最后基于两个实体的图谱关系(如上下级机构关系)计算图谱结构相似度。通过对上述三种相似度进行综合分析,若大于设定阈值,则将两个实体进行融合。

②图谱跨域融合,即对水网图谱与水利学科图谱进行融合,包括水利原理或规律与水网实体的融合、概念词条与水网实体之间的知识融合等。技术上先采用实体对齐技术匹配实体字符的局部特征,然后再使用全局特征匹配两个图谱中的相关实体。在学者融合方面主要是对新增学者与库中已有专家的匹配与更新,通过学者的属性信息判断是否与库中专家重复,对重复学者解决属性的一致性问题。在主题词与水网实体的融合方面,通过建立主题词与水网实体的联系来实现,如构建“学科领域—研究人员—任职机构—研究对象”等关系,实现学科主题词与水网对象中具体的人、机构、河流等对象的关联。

以水网对象“黄河”与百科词条“水土保持”的跨域融合为例进行说明。在进行跨域融合时,首先基于平台收录的数据查找二者的共现关系,包括在论文、专家研究领域的描述等文本中的共现;然后根据二者的共现情况进行融合,若存在共现关系,且共现的载体(如论文)是已建图谱中的实体,则将二者通过共现的中间实体建立关联;若共现的载体不在已有的图谱中,则根据共现网络分析的方法来确定是否建立二者的关系。

以上基于多源数据进行的水利知识融合,需对从异构数据中抽取的知识图谱元数据进行语义集成。在本研究中,语义集成采用了基于贝叶斯决策理论提出的最小风险映射模型(Risk Minimization based Ontology Mapping,RiMOM)[30],将决策行为定义为两类本体(包括概念、关系、实例等)中不同元素的所有可能映射,分析水利本体间映射的风险最小决策行为,其主要流程包括候选映射选择、多策略的映射发现、多策略合并以及映射发现机制,映射发现过程迭代运行直到不能再发现新的映射为止,最终得到两类本体中元素间的映射关系。

4 图谱构建实例及应用

4.1 图谱抽取成果 以全国河流水系编码数据、行政区划数据、重要水利工程管理数据等关系型数据库为基础,基于本文方案构建水利综合知识图谱。并基于水利百科、论文及新闻数据对图谱的实体及关系数据进行补充。抽取的实体类型包括流域、水系、河流、湖泊、水电站、水库、大坝、机构、人员、文献、水利术语等,构建的实体关系包括水系-河流(所在水系)、河流-行政区域(所在地区)、文献-水利术语(研究领域)等,累计抽取水利实体超过136万个(表2),构建实体关系超过300万条(表3)。因不同实体对象的粒度不同,基于实体抽取的关系与实体的数量上存在一定差异。

表2 水利专业知识图谱实体统计

表3 水利专业知识图谱关系统计

关于实体识别准确性的评价,采用F值来评估图谱构建中对实体标注成果的一致性[31],其计算表达式为:

式中:P为准确率,是识别正确实体数与识别实体数之比;R为召回率,定义为识别正确实体数与总实体数之比。F值越大,表明标注的一致性越好。

按照知识图谱构建中语料分割的常用方法[32],将实体识别语料按8∶1∶1的比例生成训练集、验证集和测试集,对9类实体数据进行了标注测试,各类实体F值的统计结果如表4所示。测试结果表明,抽取的水利实体对象的标注准确率均在80%以上,可以认为语料的一致性是可信赖的[33],实体识别的结果具有较高准确性。

表4 各类实体类型标注准确率

4.2 水网图谱结果展示 由于水网对象数量较多,本文以北京地区的各类水利水网对象进行图谱的展示(图6)。北京市地处海河流域,海河流域同时又流经天津、河北等省市,由此关联了流域与行政区两类实体;北京地区有北海、团城湖等湖泊类对象,还有潮白河、怀河等河流对象,由此将行政区与湖泊、河流对象相关联;这些河流和湖泊,在海河流域中又分属于不同的水系,如北海属于海河流域的北三河水系,这样就构建了水利自然对象间不同层级的相关关系;其他数据同理。通过图谱形式的检索和查询,可实现基于对象关联关系的信息检索和推荐[2]。与常见的区域水系图相比,图谱的表现形式能更简洁地展现水网对象间的关联,便于从宏观层面把握水利对象的总体特征,同时能支持特定对象间关系的快速检索和查询。

图6 北京地区水网关系图谱示例

4.3 水利专业知识图谱应用

4.3.1 不同水利实体间关系查询 查询两个实体之间的关系时,系统会自动在知识图谱中查找实体关联路径,并将路径中相关的实体及关系信息进行可视化展示。如本例查询葛洲坝水库与长江的关系,查询结果显示可通过建立“葛洲坝水库(工程对象)—长江干流水系—水利部长江流域委员会(社会对象)—长江(自然对象)”的关系脉络,实现不同水利对象间的数据关联。其中既包括了葛洲坝水库与长江的关系,还同步展示了该水库所属水系包括的其他下级支流以及相关的管理机构。

图7 查询水网实体间相关关系

4.3.2 水网对象与学科知识间关系查询 水利学科图谱与水网图谱间的关系查询,可以水利文献为媒介建立关系。如水资源专业可分为水资源调度、水资源配置等若干个研究方向,每个研究方向有相应的水利核心主题词。本研究建设了涵盖水利主要研究领域的行业主题词表,在对某个主题词进行检索后,可以同步查询与该词条相关的其他词条间的层级关系,形成对该领域知识体系的有效组织。基于主题词搜索相关的水利文献,可以构建“水利主题词(学科知识)—文献—作者(水利研究人员)—机构(水利管理/科研机构)”的关系。图8展示了在学科图谱中查找关键词“水资源”,关联出“地下水资源”这一细分领域,该领域中发表的论文包括“《商丘市地下水资源现状与对策》”,由该论文又关联出作者是“倪昆”,该作者任职于“河南省国土资源科学研究院”,由此实现了水网图谱与学科图谱间的关联。

图8 查询水网对象与学科知识对象间的关系

在水利学科的原理、规律和方法与水网对象的关联上,基于对水利实体及属性数据的采集和分析,后续可实现基于水利学科原理的知识推理。例如在系统收录了“海河流域”这一天然对象并赋以了“多年平均降水量”和“多年平均径流量”属性后,当用户检索“海河流域多年平均蒸发量是多少”时,可以基于水文学的水量平衡原理定义流域多年蒸发量的获取规则,利用降水量减去径流量,即可得到流域多年的平均蒸发量,并将结果反馈给用户,由此实现基于水量平衡原理与水网对象的关联。

5 结论与展望

知识图谱作为人工智能与计算机发展的产物,是知识可视化和知识挖掘与发现的重要手段。在水利管理中,随着信息化水平的不断提高,将多源异构数据进行融合与关联,形成知识挖掘与发现的能力,对实现水利行业的智能化管理有着重要意义。本文基于对水利知识组成及关系的梳理与分析,提出了水利综合知识体系的描述方法;设计了水利综合知识图谱构建的概念框架;以水利行业关系型数据库、互联网数据与百科知识等为数据源,提出了水利综合知识图谱构建的关键技术体系;研发了针对非结构化文本的水利实体识别和关系抽取、多源水利实体的融合等关键技术,基于本文提出的框架和技术进行了水利综合知识图谱建设实践,形成了具有一定数据规模的知识图谱,可提供水利知识的跨域查询与检索服务。

本文以建立水利物理世界中的事实类知识与认知类的水利学科知识统一的综合性关联知识图谱为整体思路,重点实现了水利综合知识图谱实体属性和关系的建模、抽取,实现了部分知识的融合。但在知识融合、挖掘与衍生上,还有很多值得探索的问题。在未来工作中,还需要进一步完善知识抽取的算法,扩大知识图谱的覆盖范围;研发知识融合、知识发现的新技术,融合水利相关的专业模型等,打造以知识图谱为核心的水利行业知识引擎;在此基础上进一步将知识图谱与水利行业的数据治理相融合,开展面向图像、视频、传感器等智能终端的知识工程探索,扩展多模态的知识图谱表示,基于事实类与认知类知识与水利大数据的融合开展水资源智能化监测、分析、预警和调控等具体的应用产品建设,提高水利智能化管理水平。

猜你喜欢
水网图谱水利
水网藻生长及铀对其生长影响的模型构建
中医药知识图谱应用现状分析及痴呆痰瘀互结证知识图谱构建探索
基于水环境的污染控制研究
绘一张成长图谱
代表议案编织安全“水网”
为夺取双胜利提供坚实水利保障(Ⅱ)
为夺取双胜利提供坚实水利保障(Ⅰ)
水利工会
水利监督
●山西加快推进县域小水网配套建设