基于叙词表的油藏构造知识图谱

2020-04-23 13:36满,褚冰,肖
吉林大学学报(信息科学版) 2020年1期
关键词:词表油藏本体

袁 满,褚 冰,肖 垚

(东北石油大学 计算机与信息技术学院,黑龙江 大庆 163318)

0 引 言

在石油领域,随着油气田向纵深方向开发,人们对油藏构造的认识更加深刻。在对油藏构造的认知过程中,积累了越来越丰富的构造知识,这是指导油田实施油田精准开发的重要依据。然而,由于历史原因,这些知识以多种数据类型的形式分布存储在不同的机构部门,导致“知识孤岛”现象泛滥,严重阻碍其在不同专业与部门间共享。为此,多年来,石油领域一直在努力整合这些“知识孤岛”,但碍于缺乏标准和科学的整合手段,一直没有很好地解决这一难题。知识图谱技术的正式提出,为油藏构造知识的整合提供了一种科学手段。

知识图谱源于多学科领域,其融合了应用数学、图形学和信息科学等学科。20世纪80年代即出现了把人类的常识编码建成知识库的理念。随后,这个想法以著名的Cyc项目而得到实现,该项目名源自英文单词“百科全书”(encyclopedia),这就是最早的知识图谱。近年来,“语义网”的提出快速推动了知识图谱的发展,进而知识图谱被应用到各个领域。此外,在知识管理和共享等方面,也存在知识图谱的研究。国外关于知识图谱的应用研究比国内超前且研究范围更加宽泛。Jose等[1]认为可通过知识图谱进行知识推理,从而发现新的知识,进而可利用知识图谱做决策。知识图谱提供了一种更好的组织、管理和理解互联网信息的能力,可用于语义搜索、智能问答和个性化推荐等,在社交和电子商务等领域实现其价值[2]。知识图谱的快速应用,可进一步解决常用的知识表示在可视化、检索和推理等方面尚未实现简单直观的问题。知识图谱可简单直观获取和解析数据间存在的内在关联关系,挖掘隐藏在大数据深层次的规律和知识。知识图谱由本体构成的模式层和数据构成的实例层两部分构成。笔者重点针对如何将石油主题词表中的油藏构造叙词精准地转换成知识图谱的模式层,即油藏构造本体,并阐述当下相关领域的研究进展。

在地质及相关领域,谭永杰[3]指出,地质数据在不断积累的过程中,信息技术的应用有效地提供了地质信息服务;朱月琴等[4]提到,地质数据具有海量和种类繁多等特点,是名副其实的“大数据”;周树理等[5]构建了石油勘探开发领域本体三维模型,将石油勘探开发本体分为主题域、知识域和本体域;张莹等[6]分析了地理本体的特征和构建方法,区分了地理本体的空间特征与属性特征并分别对其构建,对解决地理信息建模、语义互操作、空间数据重用、知识共享和数据挖掘等问题有重要意义;李媛媛等[7]借助本体在其他领域的构建方法,利用勘探开发领域业务模型的统一标准的数据资源,提出此领域的业务过程本体的构建方法。

本体构建是一件耗时费力的工作。在本体构建方法上,国内外研究最多的当属本体工程和词表资源转换。本体工程存在工作量大的明显缺点,而叙词表较其他词表具有更加清晰的语义结构。叙词表是一种规范化的词表,本体是对概念的形式化说明,两者都通过词汇描述某一领域的概念[8]。目前已经有十余种叙词表被成功转化为相应的领域本体[9],可为领域本体中概念、关系及实例的创建提供指导[10],因而得到广泛的关注和研究。联合国粮农组织(FAO:Food and Agriculture Organization of the United Nations)的项目小组利用RDFS(Resource Description Framework Schema)将Agrovoc叙词表转化为农业本体[11];Qin等[12]为教育资料网关(GEM:Gateway to Educational Materials)中的受控词表转换成本体的原理和原则框架提供解决方案;SWAD Europe的研究小组对各种叙词表进行分类,提出了基于RDFS语言的本体组织体系SKOS(Simple Knowledge Organization System)[13]。文献[11]详细探讨了将叙词表词汇及词间关系转化为本体论数据库格式KAON,实现叙词表向本体转化;文献[14]详细分析了传统的叙词表和本体的概念及其应用特点,阐明了二者的区别与联系主要表现在逻辑表达形式和组织结构等方面;文献[15]提出了基于《海洋主题词表》的构建方法,构建海洋领域本体,以有效解决协调和信息共享问题,促进海洋信息管理的发展;曾新红[16]在借鉴国外相关研究成果的基础上,提出用OWL(Ontology Web Language)表示《中国分类主题词表》的具体方案,并就词表中存在的大量复合概念的深层语义揭示提出了解决意见;此后,由叙词向本体OWL的快速转化算法[17]被应用于各个领域。

叙词表在转化为本体时,主要方式为手动抽取数据构建及利用快速转化算法进行半自动构建。在将叙词表转化为本体OWL的传统方法上,对于叙词和叙词词间关系的映射,将“Y”、“D”指引项直接映射为等价类,或将“S”、“F”、“C”指引项直接映射为属性,都会增加检索过程的工作量。而在实际应用过程中,有些叙词,既可作为一个类,亦可作为另一个类的属性;另外,表示属性的叙词,还可划分为对象属性类型和数据属性类型两种。在映射过程中,若不考虑这些问题,会造成数据冗余或叙词概念粒度划分较粗。当前,地质知识普遍借助本体进行表示,但对标准采用不足或采用的标准存在差异,所构建的本体很容易导致在数据共享上存在困难。而且,针对不同领域的叙词表不能直接应用现有方法且在行业内缺乏明确的标准。针对以上问题,笔者通过对叙词表中叙词及词间关系的充分研究,在将叙词表转化为本体时,先对叙词及词间关系添加标注和明确的说明,进而标准化叙词表向本体转化的过程,提出了基于叙词表构建油藏构造知识图谱的流程、预标注、映射规则及其转换算法等。最后,笔者依据所提方法构建油藏构造知识图谱,结果验证了该方法的可行性。

1 知识图谱构建流程

在传统叙词表向本体OWL映射,进行知识图谱展示时,对其无法实现自动区分对象属性和数据属性类型叙词的问题,笔者对叙词表进行前期处理后再进行映射,具体流程如图1所示。

图1 知识图谱构建流程

通过对叙词表的加参标注处理,区分叙词表中叙词类型,生成新标注叙词表作为输入文件。当标注叙词表再向本体映射时,通过笔者提出的新映射算法,就可将叙词自动转化为对应的表示类的叙词、对象属性类型叙词及数据属性类型叙词等,从而生成新的领域本体,进而进行可视化展示等。

1.1 标注叙词表定义

在将叙词表转换成本体前,对各叙词进行加参标注以区分数据属性和对象属性类型叙词等。虽增加了构建成本,但在实际应用时,特别对不了解本领域的使用者,可快速清楚各叙词含义。笔者提出如下四元组TK表示标注叙词表结构。

定义1 标注叙词表TK=〈TK-Table1,TK-Table2,TK-Table3,TK-Table4〉

定义2 叙词类型表TK-Table1=〈ID,DC,PropertyID〉

定义3 词间关系表TK-Table2=〈ID,DCi,TR〉

定义4 叙词“C”关系表TK-Table3=〈ID,IDC,DC,CID〉

定义5 “C”关系表TK-Table4=〈CID,CE,CN〉

其中ID为叙词的标识符;IDC为与ID指代叙词具有“C”关系的叙词标识符;DC为叙词,即经过规范化处理,以基本概念为基础表达信息内容的词和词组;DCi为与叙词DC进行对比的叙词;TR为相关项种类,即叙词词间关系,如“Y、D、S、F、Z、C”等;CID为“C”关系类型的标识符;CE为“C”关系英文名;CN为“C”关系中文名;PropertyID为标注标识,用以区分叙词类型,即表示该叙词是表示对象属性类型、数据属性类型或非属性类型叙词的标识符,具体返回结果分别为10,01,00。其中01表示对象属性类型,10表示数据属性类型,00表示非属性类型。

表1 叙词类型表TK-Table1

根据上述定义,结合油藏构造相关叙词,各表的具体示例如表1~表4所示。

表2 词间关系表TK-Table2

表3 叙词“C”关系表TK-Table3

表4 “C”关系表TK-Table4

1.2 本体定义

根据前面提出的标注叙词表TK,笔者提出六元组TO表示本体:

定义6 本体TO=〈C,P,I,R,F,A〉

其中C为类;P为属性,包括对象属性PO和数据属性PD;I为类的实例;R为关系,即领域内概念间的交互作用;F为函数,即一类特殊的关系;A为公理。

1.3 标注叙词表向本体映射形式化描述

依据定义1和定义2,再结合文献[18],给出定义1和定义2中元素对应映射的形式化描述如下。

定义7 类映射。当PropertyID为00时,集合DC中元素DCi与集合C中元素Ci相对应,记为f(DCi)→Ci;

定义8 对象属性类型叙词映射。当PropertyID为01时,集合DC中元素DCi与集合P中元素POi相对应,记为f(DCi)→POi;

定义9 数据属性类型叙词映射。当PropertyID为10时,集合DC中元素DCi与集合P中元素PDi相对应,记为f(DCi)→PDi;

定义10 关系映射。集合TR中元素TRi与集合R中元素Ri相对应,记为f(TRi)→Ri。

2 标注叙词表向本体OWL映射

在将叙词表中叙词向本体中的类映射前,需根据实际应用需求,确定本体中的类。因此,笔者在映射过程中,主要选取油藏构造领域的相关词汇。实现叙词表到本体的映射主要包括:1)叙词表中叙词及其指代的非叙词映射为本体中的类;2)叙词表中叙词词间关系映射为本体类间关系。

2.1 叙词向本体OWL类映射

在本体构建过程中,叙词和非叙词在本体OWL中均视为类。在映射时,主要采用“〈owl:Class〉”标签表示这些叙词。例如,油藏构造本体中的几个类:“带”、“油气田”、“油气藏”和“油藏储量”等,通过OWL表示为

〈owl:Class rdf:ID=“带”〉〈/owl〉

〈owl:Class rdf:ID=“油气田”〉〈/owl〉

〈owl:Class rdf:ID=“油气藏”〉〈/owl〉

〈owl:Class rdf:ID=“油藏储量”〉〈/owl〉

2.2 叙词关系向OWL映射

OWL已定义了Part-of、Kind-of、Attribute-of和Instance-of 4种基本语义关系。其中Part-of表达概念之间整体和局部的关系;Kind-of表达概念之间的继承关系;Attribute-of表达一个概念是另一概念的属性;Instance-of表达概念和概念的实例关系。然而,实际上,概念间存在的关系远不止这4种。因此,在将叙词表转换为本体时,需明确这些关系。在将叙词转换本体过程中,除上述4种基本关系外,还存在等同关系、属分关系和相关关系。

1)等同关系映射。“Y(用)”、“D(代)”项表示等同关系,该关系表示在概念上相同或相近的一组叙词,在叙词表中一般表示一组正式主题词和其对应的非正式主题词,包括单向等同和双向等同两种等级关系。

在叙词表中,存在大量含义相同或相近的叙词,这些词在映射到本体OWL时视为等价类,用〈owl:equivalentClass〉标签描述,如:

〈owl:Class rdf:about=“#油气聚集带”〉

〈owl:equivalentClass rdf:resource=“#油气富集区”〉

〈owl:Class〉

2)属分关系映射。“S(属)”、“F(分)”和“Z(族)”项表示叙词间的等级关系,主要体现为上下位关系,即揭示叙词的上位类和下位类。由于叙词表中各叙词根据其专业范畴划分,其中存在表示实例的叙词,因此该关系中包含实例关系,此外还有整体-部分关系和类属关系。

属分关系主要用〈owl:subClassOf〉标签描述,如:

〈owl:Class rdf:about=“气藏”〉

〈rdfs:subClassOf〉

〈owl:Class rdf:about=“油气藏”/〉

〈rdfs:subClassOf〉

〈/owl:Class〉

3)相关关系映射。“C(参)”项表示相关关系,主要指叙词间存在语义关联的词间关系。包括矛盾关系、互补关系、动作关系和因果关系等。

2.3 叙词向本体OWL转化算法

依据1.3节给出的映射和本节的结合具体序列化语言OWL的映射,给出叙词表向OWL本体转换的算法,从而实现标注叙词表向本体OWL自动转化。其中输入为TK,输出为标注叙词表的本体TO。通过此算法可实现知识图谱模式层的自动构建。

叙词向本体OWL转换算法

输入:声明本体的一个顶层类“Thing”;

Read:TK-Table1

Do

Get一个叙词元组from TK-Table1;

While

If TK.PropertyID=00

叙词映射为本体的一个类;

If TK.PropertyID=01

叙词映射对应类的对象属性;

If TK.PropertyID=10

叙词映射对应类的数据属性;

Until TK-Table1最后一行;

Read:TK-Table2

Do

Get一个叙词元组 from TK-Table2;

While

If TK.TR=“C”

Read数据from TK-Table3和TK-Table4

If TK.TR=“Y‖D”

Return对应叙词的同义属性;

If TK.TR=“Z、S、F”

Return类;

Until TK-Table2最后一行;

Print叙词表的本体OWL文件。

3 知识图谱验证

《石油汉语主题词表》总计收录主题词10 405条,其中正式叙词8 858条,非正式叙词1 547条,包含了除炼油外的石油天然气工业的各个专业范畴。原型系统选用了该叙词表中油藏构造部分的叙词进行油藏构造知识图谱的构建,笔者主要选取油气田、油气藏和带为例构建知识图谱。其中油气田包括油田和气田;油气藏包括油藏和气藏;带包括冻土带、沉降带、油气聚集带和隆起带。依据笔者给出的构建流程,首先对该专业涉及的叙词表进行标注,并将标注的叙词逐一存储到关系表中;然后依据第2.3节给出的转换算法形成OWL本体文件;最后基于上述过程生成的OWL本体文件,油藏构造知识图谱的示例如图2所示。

图2 油藏构造知识图谱

由图2可见,油藏和油田之间有相关关系,这里是因果关系,即若是油田,则存在油藏。而油田有具体实例“大庆油田”与“青海油田”,因此可推理出:“大庆油田”与“青海油田”有油藏。由图2中亦可获知两者的面积及产量等信息。

4 结 语

笔者针对将叙词表转化为本体时存在的不足,提出了对叙词表预处理的细粒度标注,并给出了叙词表向本体映射的规则,基于这些规则与OWL给出了叙词向OWL本体自动化转换的算法。该算法通过对叙词表的前期处理,将叙词及词间关系进行分类标注,克服了传统的手工或半自动将叙词转化为本体时,对叙词概念粒度划分较粗或干脆不对叙词进行类型划分标注等问题,实现了标准化的构建流程。最后,以石油主题词表中油藏构造部分的叙词为例,利用所提算法构建了油藏构造知识图谱,表明了所提方法的可行性。该方法亦可用于其他领域的叙词表转化为领域知识图谱中,其优势在于所构建的知识图谱具有标准化特征,为领域知识的科学组织、语义集成以及知识发现等研究奠定了良好的基础。

猜你喜欢
词表油藏本体
编制受控词表的著作权侵权风险及其应对策略
页岩油藏提高采收率技术及展望
复杂断块油藏三维地质模型的多级定量评价
眼睛是“本体”
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
近十年国内外专业学术词表建立文献综述*
基于本体的机械产品工艺知识表示
潜山裂缝型油藏井网模式优化及开发实践:以渤海海域JZ25-1S油藏为例
青海探明单个油藏储量最大整装油气田
专题