基于多网络融合的缺失测井数据复原方法

2021-10-15 12:48路成辉曹志民
计算机应用与软件 2021年10期
关键词:信任度测井交叉

韩 建 路成辉 曹志民,2,3* 马 跃

1(东北石油大学电子科学学院 黑龙江 大庆 163318) 2(大庆油田博士后工作站 黑龙江 大庆 163318) 3(东北石油大学博士后流动站 黑龙江 大庆 163318)

0 引 言

测井数据在油气储存和油气资源评价中具有十分重要的作用。然而由于人为、仪器故障等原因,实际应用中经常出现部分井段测井数据失真或缺失的情况,甚至出于成本考虑而放弃获取整套测井数据。因为重新测井往往需要很高的成本,所以采用一种稳定的数据合成方法变得尤为重要[1]。

近年来,随着机器学习和深度学习方法在工业和科学工程领域广泛应用,不少研究者提出采用机器学习和深度学习方法来实现测井曲线复原。例如,利用线性回归、支持向量机、模糊逻辑模型和人工神经网络等方法来估计地质参数[2-3]、判别岩性[4-5]、确定地层界线[6-7]和复原地质数据[8-11]等。传统线性模型简单易理解并且容易扩展,但是表达能力有限,对模型表达能力有巨大作用的组合特征通常需要人工不断地探索。传统的一些人工神经网络构造的是一种点对点的映射关系,忽略测井曲线特征之间的反演特性,即某些特征可由其他某个特征或某几个特征推演得到。深度神经网络在给定足够多隐藏层或者隐藏单元的情况下,同时凭借Embedding向量以及非线性激活函数,能够学习高阶的特征组合,能在特定平滑假设下以有限的精度逼近任意函数,故在许多领域获得较大成功[12-14]。但受限于地质储层结构复杂和非均质性较强,单一模型无法同时满足有限度的特征交叉和高度的非线性表征能力,在测井数据复原方面表现不佳。

本文以缺失测井数据复原为研究对象,提出一种融合深度特征学习网络和交叉网络对缺失测井数据复原模型。该模型由两个网络组成,其中的交叉网络由多个层组成,它以自动方式显式地应用特征交叉信息,每一层基于现有的层产生高阶交互,因此能有效地学习特征之间高度非线性的相互作用关系,同时再利用残差思想构造深层网络,降低模型复杂度。另一网络先通过构造的树模型进行特征选择,将树模型得到的稀疏向量通过嵌入层转成稠密向量,作为神经网络的输入。通过网络的联合提高模型的非线性表达能力,有效地捕获特征之间的相互作用关系,并减少人工筛选特征的不合理性。在真实数据集上的应用效果表明,本文模型在现有相关评价指标方面相较于单一模型(DNN、交叉网络、GBDT)获得较好表现。

1 数据介绍

为提高模型适用范围,收集和筛选的实验数据来自大庆油田勘探开发研究院相关专业人员进行多次标定后取平均,共有220段完整测井数据(132 448条记录数据),数据集中包括2个地质层(地质层由相关软件和专业人员共同确定),其中A地质层144段测井数据,B地质层76段测井数据。测井数据中全部包括8个属性,如:声波时差(AC)、自然电位(SP)、自然伽马(GR)、密度(DEN)和深侧向电阻率(LLD)等。图1为部分输入变量和目标变量的散点图矩阵,可以看到原始数据中存在异常值,特征之间存在较强的非线性关系且离散。

图1 部分输入变量和目标变量的散点图矩阵

考虑到DEN测井对揭示储层特征十分重要,且在某些情况下经常存在断层甚至无法测量的情况,因此选择DEN作为目标测井,其范围为1.41~2.69,其他属性作为自变量对DEN进行预测。为避免网络模型受到不同输入数据尺度的影响,需要一个特征空间生成阶段,即将输入数据转换到与目标测井尺度相同的范围,输入特征转化过程如下:

F={log10(AC),log10(26+LLS),log10(GR),

(1)

训练数据集中,A地质层122段测井数据,B地质层58段测井数据;验证数据集中,A地质层12段测井数据,B地质层10段测井数据;测试数据集中,A地质层10段测井数据,B地质层8段测井数据。

2 模型框架

模型框架主要包括两个部分:交叉网络(Cross Network,CN)和深度特征学习网络(Deep Feature Learning Network,DFN)。交叉网络是由多层交叉层组成,使用多层交叉层对输入向量进行特征交叉,目的是增加特征之间的交互力度,每一交叉层的基本操作是将原始输入向量与先前层向量进行交互,并加入偏置和先前层向量。CN能够有效地学习特定阶数的特征组合,特征组合的最高阶数取决于网络层数。而CN小规模的参数限制了模型的表达能力,为获得高度非线性的组合特征,加入DFN模型,为解决人工进行特征筛选的不合理性,引入梯度提升决策树(Gradient Boosting Decision Tree,GBDT)先对特征进行筛选,具体结构如图2所示。

2.1 深度特征学习网络

深度特征学习网络先由GBDT进行特征筛选,通过嵌入层将GBDT得到的稀疏向量压缩到低维稠密向量,再通过多层感知机网络较强的拟合能力进行模型训练,详细结构如下。

(1) 特征筛选层:模型采用GBDT进行特征筛选。GBDT作为一种常用的树模型,可对原始特征进行特征划分、特征组合和特征选择,并得到高阶特征属性和非线性映射。通过原始输入数据训练GBDT模型,然后利用GBDT模型学习到的树来构造新特征,构造的新特征向量取值yi∈{0,1},向量的每个元素对应于GBDT模型中树的叶子节点。当一个样本点通过某棵树最终落在这棵树的一个叶子节点上,在新特征向量中这个叶子节点对应的元素值为1,而这棵树的其他叶子节点对应的元素值为0。

(2) 嵌入层:嵌入层将稀疏向量压缩到低维稠密向量。由于GBDT的输出是一个高维稀疏数据,在进入多层感知机网络前,引入一个嵌入层来完成将输入向量压缩到低维稠密向量:

xembed,i=wembed,ixi

(2)

式中:xembed,i为嵌入层输出向量,wembed,i为第i个稀疏数据权重,将嵌入向量与连续特征向量叠加起来形成一个向量x0作为神经网络的输入:

(3)

(3) 多层感知机是一个全连接的前馈神经网络,通过反向梯度下降算法进行权重的更新。每个深度层具有如下公式:

hl+1=f(Wlhl+bl)

(4)

式中:hl∈Rnl,hl+1∈Rnl+1分别是第l层和第l+1层隐藏层;Wl∈Rnl+1×nl,bl∈Rnl+1是第l深度层的参数;f(·)是ReLU激活函数。

2.2 交叉网络

交叉网络的核心思想是以一种高效的方式进行显示的特征组合,每一层的神经元数量都相同,且等于输入向量的维度,每个层具有以下公式:

(5)

2.3 模型融合

两个网络模型最后的输出向量进行拼接,输入给一个全连接层做线性回归。得到融合模型的输出:

f=([xL1,hL2]wo)

(6)

式中:xL1∈Rd,hL2∈Rm分别是交叉网络和深度特征学习网络的输出;wo∈R(d+m)是融合层权重向量。

损失函数是均方误差加一个正则化项:

(7)

式中:fi是式(6)的输出;yi是真实值;N是输入样本的总数;λ是L2正则化系数。

通过最小化loss,在融合的模型训练过程中采用梯度反向传播的方式对模型中权重和偏置参数进行更新。需要说明的是在深度特征学习网络中通过GBDT进行特征筛选层是一个单独的网络,不参与模型的联合训练。

3 实验与结果分析

3.1 实验环境和超参数设置

本文实验环境操作系统为Windows 10,深度学习框架为tensorflow1.14.0,集成学习框架为lightGBM。交叉网络中交叉层数为6,神经网络结构中全连接层为4层,每层神经元个数为50,Batch size设置为128,Droupout设为0.3,激活函数采用ReLU,学习率设为0.01,采用adam优化方法,实验中epoch值设为50。GBDT中max_depth设为6,max_features为0.9,learning_rate为0.05,n_estimators为100。

3.2 评价指标

本文采用三个指标评价模型的性能,描述如下:

(1) 皮尔逊相关系数:

(8)

(2) 均方误差:

(9)

(3) 信任度。为可视化各模型在测井分段实验复原效果,提出信任度的定义,信任度越高表示该模型在该分段测井数据中表现越好。信任度定义如下:

(10)

各模型的整体信任度定义为:

(11)

式中:N为样本数。

3.3 测井生成实验和分析

本文采用深度神经网络(DNN)、交叉网络模型(CN)、GBDT模型和本文方法(CN-DFN)来生成测井数据。图4-图7展示的是不同模型在其中一个测试数据集(A1)上的预测结果与真实数据对比图,在每个模型的下面为每一个预测数据的信任度,图中方框为各学习器信任度较高区域。表1为不同模型在部分测试数据集上的相关系数、均方误差和信任度。通过实验可以发现单纯的深度神经网络模型在合成测井曲线上预测结果不佳,主要是因为深度学习需要足够多的学习样本,对数据较敏感,而油田地质结构的复杂性增加了模型学习的难度。Gradient Boosting和CN在合成测井曲线上有较好的表现,原因是GBDT拟合的是上一棵树的残差,随着树的增加,残差越来越小,最终结果由多棵树累加得到,通过迭代式学习对数据学习较充分,而CN显式地生成所有的交叉特征,可有效地学习特征之间高度非线性的相互作用关系,与地质属性中特征之间存在强交互有关。而本文方法在测试集上得到多块信任度较高区域,是由于经过GBDT的特征选择,得到对预测结果较重要的特征,将得到的特征通过神经网络拟合,同时结合交叉网络显式生成特定交叉特征的优点,挖掘出潜在的特征交叉信息,可在一定程度上提高数据复原的效果。

图4 GBDT在测试数据集(A1)上的信任度和预测值

图6 DNN在测试数据集(A1)上的信任度和预测值

图7 CN-DFN在测试数据集(A1)上的信任度和预测值

表1 各模型在部分测试数据集上的结果

4 结 语

本文模型不需要对输入数据进行复杂的特征筛选和转换过程就可在合成测井曲线上面得到一定程度的提升,其原因可归为以下两点:

(1) 交叉网络可获得较好的损失函数且优于具有相同结构的单一DNN模型,对于这种具有超参数的模型,这种提升减轻了模型初始化的随机性效应。利用交叉网络来进行特征交叉,显式地学习到更多交叉特征组合,并通过残差思想构造深层网络,降低模型学习的随机性和时间复杂度。

(2) 通过构造的树模型进行特征选择,可有效降低人工进行特征筛选的不合理性,通过嵌入层,将稀疏向量压缩到低维稠密向量,降低模型计算复杂度,同时融合神经网络较强的非线性表达能力,可使模型学习到更多隐含信息。

猜你喜欢
信任度测井交叉
一种基于组分补偿的二维核磁共振测井数据高精度处理方法
资源勘查工程专业《地球物理测井与解释》课程的教学改革
我国测井评价技术应用中常见地质问题分析
“六法”巧解分式方程
全球民调:中国民众对政府信任度最高
连数
连一连
连星星
2014,如何获得信任
自然电位测井曲线干扰问题分析