利用土壤地球化学数据和BP神经网络预测松嫩平原油气资源

2023-01-17 03:47朱建新戴慧敏刘国栋宋运红杜守营
地质与资源 2022年6期
关键词:油气田油气神经网络

刘 凯,朱建新,戴慧敏,刘国栋,许 江,宋运红,杜守营

1.中国地质调查局 沈阳地质调查中心,辽宁 沈阳 110034;2.中国地质调查局 黑土地演化与生态效应重点实验室,辽宁 沈阳 110034;3.辽宁省物测勘查院有限责任公司,辽宁 沈阳 110031;4.沈阳市鹏德环境科技有限公司,辽宁 沈阳 110034

0 前言

20世纪80年代以来,众多学者利用土壤中常量、微量等全量元素特征对油气资源进行预测,并取得了一系列成果[1].近年来,地质数据量的爆发式增长为油气资源预测带来了新的机遇.截至2018年,中国地质调查局已在中国平原区完成区域多目标地球化学调查250×104km2以上[2],获得了海量的高精度土壤地球化学数据.这些数据中蕴含着丰富的基础地质、生态地质、矿产地质等信息,覆盖了中国中东部大型、中小型含油盆地,为利用该数据进行油气资源前景预测提供了可能[3-4].但正是由于样本数量庞大,元素种类多,且地表土壤元素特征与深层油气资源的关系复杂,数据的处理方法显得尤为关键.

近年来,大数据方法在地学中的应用得到了快速发展,尤其在矿产资源预测方面表现出明显优势[5-6].陈坤等[7]以1∶25万水系沉积物数据为基础,利用神经网络模型对湖南白马山-龙山地区金矿成矿远景进行了预测,并划定了4个成矿远景区.也有众多学者将神经网络应用于油气资源预测,取得了较好的预测效果[8-12].

利用大数据计算方法进行矿产资源预测是勘查地球化学的发展趋势,但目前仍处于起步探索阶段[13].本文基于东北地区松嫩平原多目标地球化学调查数据,尝试利用BP神经网络的模式识别技术,通过训练学习获得土壤元素特征与油气田空间位置之间的判别模型,并利用模型进行油气资源前景预测.

1 研究区概况

松嫩平原是东北三大平原之一,行政区跨黑龙江、吉林两省和内蒙古自治区一小部分,北自黑龙江省嫩江县,南至吉林省长岭县南部的松辽分水岭,西侧以大兴安岭低山丘陵区与山前倾斜平原分界线为界,东侧边界至小兴安岭-长白山西缘山麓台地,总体呈南北长、东西窄的椭圆形(图1).松嫩平原内油气资源丰富,北部为大庆油田探区,面积为11.6×104km2,南部为吉林油田探区,面积6.9×104km2[14].

图1 松嫩平原多目标地球化学数据范围及油气开采区分布图Fig.1 Distribution map of multi-target geochemical data and oil-gas fields in Songnen Plain

2 数据及处理

2.1 数据来源

本次研究采用的土壤地球化学数据全部来源于多目标区域地球化学调查,样品采集及测试分析方法参考《多目标区域地球化学调查规范(1∶250000)》[15]和文献[3].多目标区域地球化学调查采用双层网格采样方式,分别采集了表层(0~20 cm)和深层(150~200 cm)土壤样品.本研究采用的数据为松嫩平原深层土壤样本,样本密度为1个/16 km2.每个样品属性包括54个元素或氧化物含量,具体指标为Ag、Au、As、B、Ba、Be、Bi、Br、Cd、Cr、Cl、Co、Ce、Cu、F、Ga、Ge、Hg、I、La、Li、Mn、Mo、N、Ni、Nb、P、Pb、Rb、S、Sb、Sc、Se、Sn、Sr、Th、Ti、Tl、U、V、W、Y、Zn、Zr、SiO2、Al2O3、TFe2O3、K2O、Na2O、CaO、MgO、TC、Corg、pH.

2.2 数据预处理

本次研究共使用松嫩平原土壤样本11 291个,样本在地图上均匀分布,每个样本可代表4 km×4 km的网格范围.由于土壤属性在空间上存在连续性和变异性,因此将土壤样本的空间坐标X、Y值也作为两个属性赋予样本属性中.同时在样本属性中增加含油性字段,将样本点与油气田分布图在ArcGIS中进行空间叠加,若样本落在油气田范围内,则定义该字段为1,否则定义为0.经统计,油气田内样本数量为972个,油气田外样本数量为10 319个.经处理后,该数据属性中共含有56个字段作为自变量,含油性字段为因变量,为下一步建立模型做准备.

3 BP神经网络预测

3.1 BP神经网络建立

BP(Back Propagation)神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络,是最常用且有效的人工神经网络之一,具有高度非线性映射能力.BP神经网络通常具有3层或3层以上的神经元,包括输入层、中间层(隐层)和输出层,上下层实现全连接,而每层神经元之间无连接.当一对学习样本提供给网络后,神经元的激活值从输入层经各中间层向输出层传播,在输出层的各神经元获得网络的输入响应.接下来,按照减少目标输出与实际输出之间的误差方向,从输出层反向经过各中间层回到输入层,从而逐层修正各连接权值,这种算法称为“误差反向传播算法”.随着误差逆向传播修正不断进行,网络对输入模式响应的正确率也不断上升.

本研究利用Matlab 2018b软件实现神经网络模型的建立、训练和仿真,建立的网络结构如图2.Lippmannn等[16]研究发现,3层神经网络(只含有1个隐层)可以解决任意复杂的分类问题,隐层过多会造成误差方向传播过程计算过于复杂,并容易陷入局部最小误差.因此本次研究采用3层神经网络结构,输入层神经元数量为样本的地球化学指标等属性,共56个.因为判别目标为两类,分别为0(油气田外)和1(油气田内),因此输出层神经元为2个,传递函数为S型的对数函数(logsig).隐层神经元数量没有明确通用的公式,一般根据经验及多次试验结果来确定.隐层神经元个数太少会造成网络的学习容量有限,个数太多会造成输入过多的无关细节,造成模型的泛化能力较弱.使用传递函数为S型的正切函数(tansig).设置最大训练步数为1000,训练的目标误差为0.01,训练方法为梯度下降动量BP算法,该算法的优点是运行收敛速度较快.

图2 本研究采用的BP神经网络结构Fig.2 The BP neural network structure adopted in this study

3.2 网络模型训练

网络模型的训练仅需要少量典型样本即可.本次研究利用Rand函数随机从油气田内和油气田外的样本中各抽取500个加载入模型中,并将样本的70%作为训练样本,15%作为检验样本,15%作为测试样本.这样可以防止网络模型学习过程中发生“过拟合”现象,并可评价网络模型的性能和泛化能力.为了消除训练过程中的随机性对判别结果的影响,对网络进行20次训练,并将20次训练得到的网络输出取平均值.

3.3 网络模型检验

训练后,利用交叉熵(CE)、混淆矩阵图和误差柱状图来评价网络的准确性.CE能够刻画两个概率分布之间的距离,是分类问题中使用比较广的一种损失函数,CE越低表明两者间的误差越小.而判断BP神经网络推广能力的好坏,不仅要关注测试样本CE大小,还要看检验样本的CE是否接近于训练样本,检验样本CE明显低于训练样本则可能出现了过拟合现象.如图3,本模型在第41次训练时,CE达到稳定值0.235,测试样本CE接近于训练样本和检验样本,且变化趋势较为一致,说明该BP神经网络模型泛化能力较好.

图3 BP神经网络性能评价图Fig.3 BP neural network performance evaluation

混淆矩阵是通过每个目标输入值与模型的实际输出值进行比较,以验证模型的模式识别和分类效果.它分为训练混淆矩阵、验证混淆矩阵、测试混淆矩阵和总混淆矩阵.从图4来看,训练数据的准确率为92.6%,验证数据的准确率为90.0%,测试数据的准确率为88.7%,总准确率为91.6%,说明分类效果比较理想.

图4 混淆矩阵图Fig.4 The confusion matrix diagram

BP神经网络的误差柱状图可以直观看到网络模型训练的误差分布状况.图5显示,该BP神经网络训练样本、检验样本和测试样本的误差大部分接近于零误差线(Zero Error),可用来进行模式识别和分类.

图5 预测误差柱状图Fig.5 The error prediction histogram

3.4 网络模型预测

将训练获得的神经网络模型保存成代码,并将松嫩平原全部数据输入模型,得到各样本的含油概率预测结果,统计结果见表1.为了更直观反映预测情况,利用样本的含油概率(大于0.5)绘制样本含油气概率预测图(图6).图中所示,油气概率大于90%的区域与已有油气田范围吻合度较好,说明了模型的可行性.同时,在油气田外围局部地区也显示出了较好的油气概率.其中松原市东部油气概率普遍大于90%,长岭县周围油气资源概率大于60%的区域较集中,有资料显示两个区域内目前已有油气田开采[17-19],反映出该模型的准确性,也预示该区具有很好的油气资源前景.预测结果显示,农安县西南部、齐齐哈尔市东部等油气开采空白区显示出较高的油气资源概率,可作为油气资源勘查的依据.

图6 松嫩平原含油气概率预测图Fig.6 Prediction map of hydrocarbon-bearing probability in Songnen Plain

表1 样本含油气概率预测结果统计表Table 1 Prediction results for the hydrocarbon-bearing probability of samples

4 结论

当前,地质调查正不断获取到海量的地学数据,随着数据量的增加、数据类型的多元化、解决问题的复杂化,传统的统计方法已显得力不从心,神经网络等大数据算法在矿产资源预测、生态风险评价等地学领域正发挥越来越重要的作用[20-21].

本次研究基于多目标区域地球化学数据,利用BP神经网络对松嫩平原油气资源进行预测,结果显示预测区与油田开采区吻合度较高,并在农安县西南部、齐齐哈尔市东部等油气开采空白区显示出较高的油气资源概率,可为划定油气资源远景区提供依据.同时,该BP神经网络模型可在大比例尺油气勘查区推广应用.

猜你喜欢
油气田油气神经网络
油气田工程造价控制要点及其管理模式
《非常规油气》第二届青年编委征集通知
《中国海上油气》2021年征订启
神经网络抑制无线通信干扰探究
基于神经网络的中小学生情感分析
大数据统计在碳酸盐岩油气田开发中的应用
油气体制改革迷局
春晓油气田勘探开发的历史
基于神经网络的拉矫机控制模型建立
我国产量最高的油气田长庆油田