陈 雁,焦世祥,程 超,黄 成,蒋裕强
(西南石油大学,四川 成都 610500)
东河塘油田是塔里木盆地的第1个高产高丰度的海相砂岩油田,东河塘地区石炭系砂岩存在大量隔夹层,且多数隔夹层厚度在0.5 m 以下[1-2]。不同类型隔夹层的形成条件多样、分布规律复杂,给油气田的二次开发带来了极大的困难[3-6]。基于测井资料的隔夹层识别常采用地质统计学法、交会图法和蜘蛛网图模式法等[7-10]。由于测井资料受垂向分辨率和薄层效应的影响,且地下地质情况复杂,具有较强的非均质性,测井曲线的交会图难以对隔夹层进行准确有效的识别。随着人工智能技术的普及,越来越多地质专家尝试使用机器学习方法、神经网络技术来解决地质问题[11-14]。但东河塘油田岩心标定的隔夹层样本较少,且隔夹层各类别样本数量差距较大,导致常规机器学习算法分类效果不理想[15-16]。文中提出的基于异常检测思想计算异常得分,通过异常得分对隔夹层进行分类的方法能在一定程度上解决该问题,并结合半监督学习方法,研究如何利用未标记样本提升模型性能,以此降低样本分布不均衡及小样本问题对模型的影响。该研究能使隔夹层的识别变得更加快速、智能与精确,其结果也能为勘探人员精细刻画地下流体的分布提供一定的依据。
自编码器的目标是学习一种对数据集的压缩且分布式的表示方法(编码思想)。自编码器由深度神经网络组成的编码器与解码器2个部分组成,使自编码器能够处理类似异或问题的非线性数据[17]。
图1为自编码器示意图。由图1可知,自编码器的编码器(Encoder)是将输入向量 X=(x1,x2,…,xd)T变换为潜变量 Z=(z1,z2,…,zd')T的定性映射函数,为典型的非线性仿射映射:
图1 自编码器示意图Fig.1 Schematic diagram of the self-encoder
式中:X为d维的输入向量;Z为d'维的潜变量;E为编码器函数;θ为参数集,θ={W,b};W为d×d'维的权重矩阵;b为d'维的偏置向量;σ为激活函数。
解码器(Decoder)是将潜变量的结果Z反向映射到输入空间的 d维重构向量的映射函数,仍是典型的仿射映射。
式中:D 为解码器函数;θ'={W',b'};W'为 d'×d 维的权重矩阵;b'是d维的偏置向量。
自编码器的目的是让潜变量Z尽可能地复现输入向量X,因此,通过训练,自编码器尝试去学习方程:
训练好的自编码器有能力通过潜变量重构与输入数据X同分布的向量。如果一个样本与训练数据集样本特征之间相关性和分布不同,会使重构之后的向量与输入向量之间有较大的差异[18-21]。两者之间的差异性可以用输入数据和重构数据之间的均方根误差(root mean squared error,RMSE)衡量,均方根误差根据下面方程定义:
式中:n为样本总数。
自编码器通常用于异常检测或降维[22-23],而对于该模型用于分类任务的研究还较少。现假设新样本属于某类别的可能性由新样本计算得到的分数Spoint与现有类别样本集的得分中心点和得分区间有关,其具体的关系是:①由新样本计算得到的Spoint与计算欧式距离,该距离越大就越可能属于某类别;②某类别的越大,则新样本属于该类别的概率越大。基于以上观点,设计距离得分公式为:
基于式(5)得到的4个距离得分,通过softmax函数进行归一化转换,得到该样本归为某个类别的概率,转换公式为:
式中:pi为新样本所属类别的概率置信度。
通过对式(8)的求解可得到新样本属于4类隔夹层的概率置信度。
为避免因隔夹层样本与砂体样本采样不合理导致模型的泛化性降低,在使用改进自编码器方法对隔夹层进行识别的基础上,参考半监督方法的自训练思想,利用新样本对参数进行更新,因此,随着样本数量逐渐增加,会降低原始训练数据对模型参数的影响,模型的泛化性更强,实现模型的自适应与智能化。更新的参数为的更新方式为每个类别根据已经计算的得分总值与已经投入计算的样本数Counti求得均值,而得到新的,得分边界的更新则是根据新样本的重构误差来更新最大或最小边界值。参照拒绝采样的方法,假设只有当新样本属于某类别的概率大于某阈值时,该样本会落在该类别的置信区间,此时才使用新样本对模型参数进行更新。此次研究设置概率阈值α为0.85。
以哈德逊油田东河塘砂岩段为研究对象,从目标层位的测井数据中提取能表征隔夹层信息的深度值、GR、AC、CNL、DEN 等 10维特征作为模型的输入向量。训练模型使用60%的数据集,余下的20%作为模型调参的验证集,最后的20%作为评估模型泛化能力的测试集。
2.2.1 构造交叉特征
为了更好地探索特征与标签之间的非线性关系,对选取的特征进行有机组合,组合成高阶特征。以特征个数为3、度为2的多项式组合为例,具体的组合公式为:
式中:xi为原始数据集中某一维特征。
2.2.2 特征归一化
在神经网络的反向传播过程中,参数的更新依赖于每轮迭代所计算出的梯度,而梯度的值与输入参数有关,如果输入过大会使得梯度较大,给参数更新带来新的数值问题,甚至出现梯度爆炸的情况,导致模型无法进行训练、调优。为解决神经网络中的数值问题以及训练过程中面临的初始化和梯度问题,需要对输入数据进行归一化或者标准化。由于有效的测井数据较为稳定,不存在极端的最大和最小值,因此,使用线性归一化中的0~1归一化。归一化公式如下:
式中:x'为归一化之后的值;x表示归一化之前的值;Xmax、Xmin为该列特征中的最大、最小值。
通过式(9)对原始数据构建多项式特征,使得10维特征升至66维。为探讨不同神经网络层数对模型结果的影响,构建3个不同层数的模型作为对比模型,层数分别为5、7、9层。将这3个模型分别命名为AE5、AE7、AE9。AE5模型的节点数分别为 66、32、8、32、66;AE7 模型的节点数分别为66、32、16、8、16、32、66;AE9 模型的节点数分别为66、64、32、16、8、16、32、64、66。自编码器本身的网络结构为对称型,因此,左右两边的网络层数是对称的。编码器与解码器中间层的激活函数采用Sigmoid函数以防止梯度爆炸,头尾部分的激活函数采用ReLU函数来避免过拟合以及防止重构误差太小。损失函数为输入向量与重构向量的均方根误差。
训练过程中设置学习率为1×10-4,训练批尺寸 (batch size)为100,即每次训练随机从训练数据集中抽取100组样本作为训练数据。损失函数值的下降情况如图2所示,3种网络模型在迭代1 500次左右基本达到收敛,但AE7在后续的迭代过程中继续收敛,迭代到3 500次时模型基本收敛,而AE5在迭代到1 800次时基本达到收敛,虽然后续迭代过程中也存在阶段性收敛,但最终的重构误差较其他2种结构模型高。AE9模型的收敛速度与收敛时的重构误差处于其他2种网络模型之间,考虑到实际的算力条件,模型的迭代次数设置为4 000次较为合适。
图2 损失函数值曲线Fig.2 Loss function value curve
为了验证文中方法的效果,采用传统机器学习方法、集成学习方法、3种不同网络结构的自编码器及增加更新算法的模型作为对比模型。机器学习方法采用寻求特征空间中最大间隔超平面的SVM(Support Vector Machine,径向基函数)算法;集成学习方法基于Boosting方法,提升方向是梯度方向的决策树集成算法GBDT(Gradient Boosting Decision Tree,梯度提升树)算法;3种网络结构的自编码器模型分别是AE5、AE7、AE9模型。
表1为不同算法对隔夹层进行识别的效果评估情况。通过计算不同算法对应的各类别准确率、精确度、F1_score可以发现:SVM、GBDT以及自编码器模型均达到了70.00%以上的准确率,文中提出的模型中的最优模型更是达到了85.00%以上。虽然GBDT这种通过改变样本权重,学习多个基预测器的集成方法的准确率接近80.00%,但与SVM算法一样,各类的准确率相差悬殊,并不均衡,导致F1_score偏低。由几个不同网络结构的神经网络算法可以发现:神经网络的网络层数并不是越深越好,过深的网络可能会导致梯度消失,表现为准确率下降,采取合适的隐藏层数及神经元个数才能使神经网络模型取得最优结果。采用半监督思想的更新算法比一般模型更优,说明该方法在提高算法准确率上有一定的作用。
表1 不同算法对隔夹层进行识别的效果评估
为测试模型的泛化能力,将未参与模型训练的测试集作为AE7模型的输入,计算得到该数据集下模型的整体准确率为 83.60%,精确度为80.70%,F1_score为82.10%。实验表明:模型的效果在测试集上有一定的下降,说明在训练集上模型有一定程度的过拟合,但下降程度较小。
图3为最优模型在测试集上的识别效果,左侧为原始测井曲线特征,主要包括自然伽马、阵列感应电阻率曲线、常规的中子密度测井曲线以及部分交叉特征,右边的测井道主要包括岩心解释结果与最优模型AE7的解释结果。由右侧测井道的解释结论可知,AE7模型的结果基本符合岩心标定的隔夹层类型,且能较为准确地识别出SVM和GBDT算法都难以识别的钙质与物性隔夹层,只是小部分砂体与隔夹层过渡段的测井数据在识别上存在困难。通过模型的隔夹层类型识别结果与岩心隔夹层描述对比分析可看出,对于厚度小于0.3 m的隔夹层依旧有很好的识别效果。实验表明提出的方法精度高、泛化性强,其结果可以辅助测井解释人员对隔夹层进行精细划分,重构地下认识体系,进而为老油田的二次开发提供技术思路。
图3 最优模型的隔夹层识别效果Fig.3 Identification effect of optimal model for interlayers
使用最优模型AE7对该井其他未取心井段进行隔夹层识别,结果显示:5 764.38~5 766.44 m、5 805.53~5 807.13 m、5 848.88~5 850.48 m 为泥质隔夹层,自然伽马较高,深感应电阻率值高,孔隙度和渗透率极低,自然电位回返较大。5 786.55~5 788.00 m、5 821.83~5 823.43 m、5 839.97~5 842.86 m、5 858.06~5 859.55 m为物性隔夹层,自然伽马高,自然电位回返幅度小或回返不明显,深感应电阻率小于2 Ω·m,孔隙度和渗透率较低。5 743.73~5 744.30 m、5 778.02~5 778.63 m、5 792.80~5 793.49 m为钙质隔夹层,自然伽马较低,孔隙度、渗透率较低,密度较高、声波时差较低、中子较低。
(1)针对东河塘油田砂岩隔夹层薄,不同隔夹层发育极不平衡的问题,提出了基于异常检测的隔夹层识别方法,该方法还结合未标注数据提高了模型效果,实验表明该方法在一定程度上能解决小样本且样本不均衡的问题。
(2)融合了半监督思想与异常检测方法的自编码模型,在隔夹层识别上准确率可达83.00%以上,与常规机器学习方法相比效果显著,证明提出的基于自编码器的半监督隔夹层识别方法有效,为下一步分析隔夹层的地下空间分布情况和重构地下认识体系提供决策依据。
(3)随着信息技术、大数据、云平台等互联网技术的飞速发展,数字化油田已经基本建设完毕,而智能化油田目前还处于探索阶段,基于深度学习和半监督方法提出的隔夹层智能识别方法能在一定程度上推动智能化油田的建设。