测井处理解释领域知识图谱构建方法研究

2022-12-11 13:33:54尚福华徐凡钧曹茂俊
计算机技术与发展 2022年12期
关键词:结构化测井图谱

尚福华,徐凡钧,曹茂俊

(东北石油大学 计算机与信息技术学院,黑龙江 大庆 163318)

0 引 言

测井数据处理与综合解释,包括以地层评价为主线的测井资料定性解释和定量分析处理评价基本方式和过程,贯穿于油田勘探开发的全过程[1]。测井处理解释模型是指测井信息与地质信息之间的客观关系。在理解了理论分析、实验研究和数据统计之后,将其关系抽象成便于人们理解的图像[2]。当前,通过测井处理解释对地下地质特征的分析解析和还原能力,在很大程度上依赖测井解释专家的经验、技能能力和判断,但是,有这样经验的专家需要很长时间才能形成,而且形成后往往有损失的可能性,所以测井资料处理与解释自动化智能化是当前测井处理解释领域探索的主要目标之一。因此,怎样对测井处理解释领域庞大的知识加以表示,从而有助于在知识库中迅速获取目标知识,并实现领域知识的共享与重用,是测井处理解释遇到的重要难点[3]。

知识图谱实质上是语义网络的知识库,是通过将各种不同类型的信息联络在一块所获得的一种关系网络。知识图谱中的实体概念事件是节点,以实体概念之间的相互关联关系是边,通过运用数据挖掘、知识推理等技术提取知识之间潜在的语义关系,解释客观世界中的实体概念事件及其相关性[4]。与传统信息服务知识库在语义层面相关性不足的弊端相比,这种新型语义网络的特点为测井处理与解释信息之间潜在关联的获取和利用提供了新的发展方向。

知识图谱的构建应该尽可能覆盖测井处理解释的综合领域知识。知识图谱构建周期的第一步就是知识体系的构建,它主要是利用数据实体上层知识系统的统一表示来描述模式层数据,这也是整个知识图谱系统最核心的建设过程,其建立直接影响着整个知识图谱的数据结构以及知识图谱的使用方向,因此需要保证知识体系构建的准确性[5]。目前国内外都已经开展了知识图谱的研发工作,各大搜索引擎企业也都纷纷推出了商用的知识图谱,比如,谷歌公司的知识图谱、百度公司的“知心”、搜狗的“知立方”等。知识图谱可以通过图形化的方式显示知识和相关领域的知识,生动地表达知识体系的内容,将大量复杂的百科知识通过知识引擎的结构化表示,真正表达出知识之间的语义信息,将原本的孤岛知识实体及其相互关系表现为知识,客观地反映了人们对世界的认知和思维方式[6]。此外,它还可以帮助人们从零散的知识中发现领域规律和发展趋势,为领域数据挖掘提供强有力的支持,帮助人们掌握该领域的一般规律。近年来,知识图谱在许多领域得到了广泛的应用,如文献领域知识图的构建、基于构建的领域知识图谱的人工智能领域分析、文献作者分析和研究热点等。可以看出,人工智能领域正受到越来越多的关注,研究人员和分析人员可以掌握该领域的研究热点和发展情况[7]。基于大量医疗领域知识图谱构建也能够很好地解决由于大量医学专业术语给医疗文本信息自动分析造成极大的麻烦的问题[8]。文中测井处理解释领域知识图谱的形成过程,是指根据预定的地质任务,利用电子计算机对测井资源进行自动数据处理,并对综合地质、录井与开发文档资料进行综合解释分析,完成地层的划分、有用矿物资源的评价与油气储集层和勘探开发过程中遇到的其他地质任务和工程问题[9]。

目前关于测井处理解释领域的知识图谱构建的研究颇少,因此,该文以测井处理解释为核心,结合测井解释领域知识特点,重点研究分析测井处理解释业务流程,并以知识图谱的构建为主体,利用知识抽取、知识融合和知识推理等方式,将测井解释领域分散、隐形、不规范状态的大量解释知识、经验进行梳理,构建了测井处理解释领域知识图谱。对目前测井解释领域知识过于分散,难以继承、共享和充分利用的问题,可以有效地解决,提高了测井解释知识的利用率和共享程度,降低了非测井专业操作人员的理解难度,提升了测井专业解释人员的解释效率。该文以地层评价为例,阐述了其在构建领域知识图谱中的应用[10]。

1 测井处理解释知识概述

1.1 知识组成

测井处理解释知识主要分为三部分内容:专用术语、区域知识和通用知识。专用术语是指解释知识库中知识不同属性项的名称,同时列出不同属性项中所包含的内容。区域知识是结合地区特点研究、总结出来的区域性解释知识,对本区域的测井解释和有相同地质特点的区域有指导意义[11]。区域测井解释知识往往与特定地质条件相关,但是有些测井解释知识不受区域影响、具有通用性,如阿尔奇公式、环境校正图版、典型储层的测井解释图例等等,这些知识在测井解释工作中经常用到,因此在解释知识库中这部分内容也需要整理入库。如表1所示,第一层的区域知识可以进一步划分为层次结构,测井知识以及相关地质知识。

通用知识可分为测井的常用概念、常用方法、解释模型、解释图版以及典型图例等基础知识,并且通过进一步的属性确认可以进一步确定解释方法,典型图例等相关的属性以及内容。如表2所示,该表具体划分了通用知识的相关概念具体内容。

测井处理解释知识实体应包括区域知识(表1)以及通用知识(表2)。测井处理解释知识按照层次化结构可以划分成区域知识和通用知识[12]。区域知识模型是管理区块、小层、层段等知识,管理每一层的概念和子层概念以及相关基础知识。通用知识概念模型是管理那些与特定地质条件没有关系的基础知识概念和相关数据表,有解释模型、解释图版、环境校正图版以及响应特征表等[13]。

测井处理解释知识就是采用符合处理解释知识的表示方式,对测井处理解释参数、解释模型、解释图版等问题,在计算机中存储、使用和管理的知识集合。这些知识包括区块分层系存储储层特征、“四性”关系、解释模型、识别保准、典型图例等区域知识,并存储典型储层测井相应特征、环境校正图版、解释模型等通用知识[14]。

表1 区域知识划分描述

表2 通用知识划分描述

续表2

1.2 知识关系描述

进行测井处理解释的必要组成部分是测井处理解释的知识关系,基于测井知识的关系,涉及对测井数据和信息的处理和解释过程,如陈述性知识以及处理解释过程中的管理和决策过程中的程序性知识,如逻辑、使用符合测井解释的知识在计算机中的存储、使用和管理。测井储集层划分(见图1),主要分为非储集层划分、储集层评价以及解释结果输出,其中非储集层划分为测井信息以及地质信息,储集层划分为非储集层判别、油水过渡带判别等[15]。

图1 测井处理解释储集层关系分类

测井处理解释领域知识与测井处理解释对象之间存在着多种关联关系。可以基于测井处理解释领域知识的分类建立储集层中的关系,如对于储集层中的非储集层划分中就包含测井信息以及地质信息。通过储层集的知识来构建测井知识图谱,可以将知识图谱构建的更加完善。

2 测井处理解释知识图谱构建

2.1 知识图谱构建方法概述

2.1.1 构建逻辑

知识图谱的概念模型和逻辑基础是模式层,模式层对数据层施加规范性约束。本体的概念通常被用作知识图谱的模式层,知识图谱的数据层受到本体定义的规范和公理的约束。由于知识图谱的数据层就是本体的一个实例,也可以将知识图谱看作是一个实例化的本体。假设不需要进行推理,那么整个知识图谱(自下向上建立)可以只有数据层,没有模式层。在知识图谱的模式层中,节点代表着本体概念,边则代表概念之间的关联关系。

在数据层,事实的存储以三元组“实体,关系,实体”或“实体,属性,属性值”的形式保存,从而形成了一个图形知识库,其中,知识图谱的基础组成部分是实体,即指人的具体姓名、地名、时间、日期和组织机构名等。而关系则是在模式层中定义的关系的一个例子,代表各实体相互之间的语义关系。属性是指对实体的描述以及实体与属性值之间的映射关联。也可以看成是实体和实体的“hasvalue”之间存储的属性值,它也可转换为“实体,关系,实体”的三元组进行存储。

综上,从逻辑结构上,人们一般将知识图谱划分为数据层和模式层两种层次结构。模式层:在数据层上,是知识图谱的基础,保留着已经提炼过的各种知识,人们常常使用本体库来管理这一层(本体库可以理解为面向对象里的“类”这样一个概念,本体库就储存着知识图谱的类)。数据层:保留真实的各种数据信息。

2.1.2 构建方式

知识图谱的构建技术,主要有自顶向下和自底向上两个方法。其中自顶向下构建方法是指利用于百科类网页等结构化数据源的高质量数据中抽取本体和模式等数据,再加入到知识库中。而自底向上构建,实际上就是借助相关技术,获取资源,从大量公开收集置信度较高的数据,对知识库中数据进行丰富扩充。

自顶向下的方法首先界定好知识图谱本体和数据模式,然后再向基础知识库添加实体。而这种构建方法都必须要依赖于现有的结构化知识库作为其基础知识库。自底向上的方法就是构建顶层的本体模式,从一些开放的链接数据中提取较高可信度的概念实体,然后对知识库中数据知识扩充。目前,大多采用自底向上的方法进行搭建知识图谱,当中最典型的案例便是谷歌公司的Knowledge Vault和微软的Satori知识库。

自顶向下的方法能够表达概念之间的层次关系,它适用于数据量较小的知识图谱构建,但其依赖手工、对模式层的更新有一定影响。与自顶向下方法相比,自底向上法支持在数据量大的情况下构建知识图谱能够达到快速更新的效果,但其具有知识噪音大和精确度不高的缺点;混合方法灵活性强。

混合方式是指通过将自顶向下与自底向上相结合后,在知识抽取的基础上,可以总结形成模式层,然后对模式层进行更新,将新获取的知识和数据加以进行迭代更新归纳汇总,将实体填充到新更新的模式层中。如百度公司的知识图谱就是通过混合方法构建所得,利用了内外部的大量用户数据。

2.2 测井综合解释构建框架

为解决复杂业务问题构建的领域知识图谱,需要以业务知识为基础,否则,很难将领域知识图应用到实际问题求解中。自顶向下的模式设计与自底向上的知识抽取相结合是构建领域知识图谱的重要方法。复杂的领域场景涉及广泛的知识维度,需要来自各个业务方向的专家参与领域模型的制定。

该文采用自顶向下和自底向上相结合的方法构造测井处理解释领域的知识图谱。根据上述实体结构设计模式层,自上向下设计各个实体的层次结构、属性和语义关联关系,指导知识抽取算法的设计。基于不同类型的信息,从数据层自下而上提取实体信息及其语义关联。根据模式层的结构设计,构建一个记录知识实体关联的知识网络。通过知识融合等手段来消除冗余,运用知识推理算法,形成综合化的测井处理解释知识图谱,并以Neo4j图数据库的形式存储。

如图2所示,知识图谱是基于知识的语义信息经过一系列知识抽取、知识融合、知识加工和知识更新等技术手段,从原有外部知识库以及结构化数据、半结构化数据和非结构化数据中提取知识,对知识图谱的有效性进行保障,逐渐完善知识图谱。

(1)数据层。

收集测井处理解释领域数据和对源数据分类处理,需要处理的数据包括测井基础信息数据库导出的结构化数据、石油行业颁布的行业标准、半结构化的网页数据、相关规范和词典等,作为知识实体和关系抽取的基础数据来源。

(2)构建技术层。

通过预定义的模式层,从文本数据与图像数据中利用自然语言处理和深度学习等技术对相关实体及关系进行归类,抽取出相关实体。在此基础上进行测井处理解释领域知识图谱的构建;最后,存储工具选择使用图数据库,将知识图谱表示成结构化形式保存。该文使用较为普及的Neo4j数据库,Neo4j基于属性图模型进行存储,因为属性图模型能够很好地利用属性表达节点和关系丰富的信息属性。

(3)应用领域层。

在构建的知识图谱的基础上,可提供可视化的显示和相关联查询等应用。考虑到测井处理解释知识图谱展示过程中存在大量的知识维度,本研究以图数据库为基础,实现测井处理解释知识图谱的可视化展示,此外,随着测井处理解释领域知识实体以及关系的丰富和扩展,未来还可以提供知识推荐和知识问答等基于知识图谱的知识系统应用。

图2 测井处理解释构建框架

2.3 知识获取

2.3.1 知识结构

知识图谱是对物理世界的一种符号表达,它的通用表示方法有一种是三元组,即G∈(E,R,S),主要形式包括实体、关系、实体和概念、属性、属性值等,集合用SCE×R×E来表示,其中知识图谱中的实体集用E={e1,e2,…,e|E}表示,共有不同实体|E|种;关系的集合用R={r1,r2,…,r|R}表示,共有不同关系|R|种;三元组的知识图谱中的最基本元素是实体,每个实体都有全局唯一的标识ID来确定,不相同的实体间含不相同的关系,每个实体用属性、属性值对来描述其内在特征,这种关系可以用来连接两个概念实体,描述它们之间的内在关系。概念主要指集合、类别、事物属性、对象属性,比如人物、地理等;属性主要指对象可能存在的属性、特征、特点以及参数,例如性别、年龄、身高、出生日期等;属性值主要指对象指定属性的值,例如男性、15岁、160 cm、1993年02月02日等。

2.3.2 实体抽取

知识抽取是自然语言处理的一个重要分支,其研究价值也得到越来越多的认可和重视。知识的来源可以分为结构化知识、半结构化知识和非结构化知识。其中较为关键的就是从非结构化的数据中抽取知识,有一定的困难。根据提取的知识类别,知识抽取可以区分为实体、关系和事件的抽取。抽取方法主要有二类,分别是基于规则和基于学习的抽取。其中基于规则的方法目前己经趋于成熟,是准确度最高的一种方法,涉及规则的编写,需要大量的人工工作。机器学习的方法目前已经很普遍了,但也需要标注大量的数据,在准确度上有一定的瓶颈。近期基于神经网络的方法已经脱离了领域知识和标注数据,准确度上有所提高。

测井解释领域本体构建数据来源主要包括三部分:

(1)测井基础信息数据库。目前的测井解释软件无论是基于文件系统还是基于数据库,都存储了从测井数据中获取的基本信息,例如曲线数据、参数表等。测井处理解释领域的知识来源之一就是这些基本信息。

(2)测井行业所指定的技术标准、技术规范和词典。该文分别参考了包括《测井原始资料质量要求》、《碎屑岩油气储层精细描述方法》、《测井解释报告编写规范》、《石油测井专业词汇》和《裸眼井单井测井数据处理流程》。

(3)测井处理解释领域专家。该文以测井处理解释专家的指导意见为引领,保障知识图谱的建模和开发的质量。

针对异构多源的测井处理解释数据,设计了差异化的测井处理解释实体识别方法。其中,对于结构化数据,如测井基础信息数据库,参照模式层,制定文本中数据字段到相应的实体及关系转换规则,构造测井处理解释知识三元组。对于非结构化数据《测井原始资料质量要求》、《碎屑岩油气储层精细描述方法》等,需要将其文本转化为文本序列形式,然后使用基于BERT预训练模型的长短期记忆网络(BiLSTM)结合条件随机场模型(CRF)的序列标注算法对测井处理解释知识实体进行识别,其模型结构如图3所示。

图3 实体抽取模型

BERT[16]模型是通过对海量数据训练所建立的,并具备了泛化能力较强的特征。此模型主要是通过双向的Transformer编码器完成的,表示在所有层中共同依赖于左右两边上下文信息,Transformer[17]与传统的LSTM结构相比能够更加深入地表示词的上下文。得益于BERT强大的特征提取能力,可以有效地提取语料特征,获取相应的字向量。随后通过BiLSTM[18]层对训练语料进一步提取上下文语义信息,并通过注意力机制[19]来捕捉文本中重要的信息。CRF层利用概率模型预测并输出测井处理解释知识实体序列标签的最优表达式,从而完成自动序列标注测井处理解释领域语料库。同时,针对测井处理解释领域专业性强的特殊性,该文将石油测井专业词汇等专业词库导入辅助模型训练,提高测井处理解释相关实体数据识别的精确度。

2.3.3 关系抽取

关系抽取的工作目标是提取实体之间的关联关系,从大量非结构化的文本数据信息中,本测井处理解释领域的研究包括层次关系抽取和非层次关系抽取两部分。关系抽取的关键部分就是如何在测井解释领域发现和抽取关系特征,要解决这个问题应该从业务流程出发,剖析每个过程所涉及到的概念,并从中抽取出对应的概念和关系。从语义上来说,概念之间的基本关系大致可以分为四类:总体-部分关系、分类关系、实例与概念关系以及属性关系。不过在实际建模过程中,这些类别远不止这些,需要按照领域的具体内容情况来判断确定。

在实际抽取过程中,第一步是构建实体之间关系的表达方式,测井处理解释语料库样本,例如为表述测井参数与地质参数之间的关系,可构建出[岩石骨架]以及[孔隙、流体]的关系模式;岩石骨架以及孔隙、流体模式实体间的关系模板示例如图4所示。

图4 处理解释关系模板示例

2.4 知识融合

知识融合的目标是统一同一实体或同一概念在不同数据源中的表示,并将同质和异构的图谱映射联系起来,可以分为实体、属性融合以及重名实体的消歧等多个层次。所谓实体的融合,就是针对不同数据源不能统一识别同一实体的问题,利用融合技术来建立不同数据源中实体的语义关联。重名实体的消歧,是对测井处理解释知识中具有同名多源、同名异义和异名同义等特征的实体的融合。属性的融合是针对一致性问题,在不同数据源中同一个实体属性不一致。

在测井处理解释知识图谱构建过程中,不同数据源中同一测井处理解释知识实体的名称、类别和描述各不相同,必须消除各种测井处理和解释知识实体的模糊性以及具有相同意义的实体的知识融合。该文综合衡量数据融合对象在名称、属性和层次类别上的相似性,判断它们是否为同一实体,并通过设置相似度阈值来判断该实体是否需要融合。

2.5 知识存储及表示

对各种实体概念以及实体概念之间的关系明确之后,就需要对知识加以存储,形成知识图谱。该文主要使用了Neo4j的图形数据库作为存储体系。Neo4j是一个由Java语言设计开发的开源Native高性能图数据库系统,底层采用图形数据结构加以保存,而图模型则是由节点、有向边和属性构成的;节点上包含属性,属性可以以任何键值对的形式存在;每个边都具有一个方向、一个标签、一个起始节点和一个终止节点;就像节点一样,边也是有属性的。大幅度提升了数据检索的性能。

根据Neo4j图数据库,该文的测井处理解释领域知识图谱将通过以下机制统一地表示从测井处理解释领域相关数据中提炼出的知识:图中各个节点对应着一个测井处理解释知识实体对象;图中的各条有向边代表实体与实体之间的语义关联关系;每个测井处理解释知识实体中的键值对与实体所对应的节点属性一一对应;每个节点或边都有全局标识符进行唯一标识,其部分可视化展示如图5、图6所示。

图5 知识图谱展示

图6 实体关系示例

利用Protégé完成测井处理解释本体的构建,Protégé[20]是斯坦福大学开源的领域本体构建开发工具,提供构建本体中的实例、概念类、关系和属性,同时对特定的领域本体描述语言进行隐藏,使用者仅需要从概念层面上完成对领域本体模型的构建。

3 结束语

分析了测井解释领域知识的痛点问题,提出了基于测井解释知识图谱的构建方案,从知识图谱的起源与发展、定义以及构建技术流程做了充分阐述。采用自顶向下的知识图谱构建方法,经过模式设计、数据获取、知识加工及知识存储等技术构建了测井解释知识图谱,用以解决目前测井解释领域知识过于分散,难以共享充分利用的问题,有效提高了测井解释知识的利用率和共享程度。

该研究仍然有很多不足与待实现部分,如数据来源大部分为结构化数据,而对于文本数据信息的提取较为有限,因此,未来将进一步提高文本信息的利用效果、知识关联和知识定位性能,测井解释知识图谱的表达能力,完成基于测井处理解释数据的知识挖掘与推理和语义检索,提高测井解释知识图谱的性能和使用价值。

猜你喜欢
结构化测井图谱
本期广告索引
测井技术(2022年3期)2022-11-25 21:41:51
促进知识结构化的主题式复习初探
八扇区水泥胶结测井仪刻度及测井数据处理
中国煤层气(2021年5期)2021-03-02 05:53:12
绘一张成长图谱
结构化面试方法在研究生复试中的应用
计算机教育(2020年5期)2020-07-24 08:53:00
补肾强身片UPLC指纹图谱
中成药(2017年3期)2017-05-17 06:09:01
主动对接你思维的知识图谱
基于测井响应评价煤岩结构特征
中国煤层气(2015年4期)2015-08-22 03:28:01
基于图模型的通用半结构化数据检索
计算机工程(2015年8期)2015-07-03 12:20:35
中石油首个全国测井行业标准发布