胜利油田勘探开发大数据及人工智能技术应用进展

2022-02-25 06:01杨勇

油气地质与采收率 2022年1期

杨勇

（中国石化胜利油田分公司，山东东营 257001）

胜利油田作为中国东部陆上老油田的典型代表之一，目前整体进入高勘探程度、特高含水开发阶段，探明未动用储量以低渗透、稠油等低品位储量为主，动用难度大，开发成本较高，剩余油与油藏流场更加复杂，传统的开发技术在兼顾大幅度提高采收率与降本增效方面面临严峻挑战。2014 年以来，国际油价断崖式下跌，对石油企业低成本效益开发的要求日益提高，为实现低油价新常态下的可持续发展，石油企业迫切需要大力实施技术创新，重塑业务流程，实现勘探开发业务整体转型升级，将更多的油气资源经济有效地开采出来。实践表明，大数据及人工智能技术是解决石油勘探开发一系列难题的有效途径，为勘探开发领域带来了颠覆性变革［1］。近年来，各大石油公司与IT 公司在智能应用领域开展合作，形成了壳牌+微软、埃克森美孚+微软、荷兰皇家壳牌+微软、雪佛龙+微软、斯伦贝谢+微软、哈里伯顿+微软、道达尔+谷歌、贝克休斯+英伟达、中国石油+华为、中国石化+阿里巴巴、中国海油+阿里巴巴等联合战略攻关团队，在油气勘探开发大数据平台建设、数据共享生态环境打造、数据处理及解释质量提升等方面作了诸多有益探索［2］，显现了油气行业中大数据及人工智能技术巨大的发展潜力。

胜利油田经历了60 年的勘探开发，积累了地震、地质、开发动态、实验分析、采油工程等多源、多尺度的海量数据资源，同时，随着信息化建设水平的提高，在源头数据实时采集、存储，以及高效计算处理的软硬件设备方面具备了强大的基础支撑能力。目前，胜利油田数据中心共存储86 个油气田、4 152个区块/单元、8 965口探井、67 241口开发井的数据，数据总量共7.6 亿条、5 TB，每天新增数据30万余条，为151个应用提供数据服务，也为开展勘探开发大数据及人工智能技术研究提供了有利条件。近年来，在胜利油田围绕勘探开发大数据及人工智能技术的落地应用，按照“全面调研、重点攻关、定点突破”的思路，开展了多个应用场景的攻关探索，在地质智能表征、油藏智能预测与调控等场景应用研发方面取得了一系列进展。笔者系统总结胜利油田勘探开发大数据及人工智能技术研究进展，分析该技术领域面临的挑战，提出下一步的发展方向，以期为大数据及人工智能技术与油田勘探开发业务的深度融合、助力油田高效勘探与效益开发提供借鉴与参考。

1 大数据技术在油气勘探中的应用

目前，油气勘探目标日趋精细，物探采集数据量越来越大，对地球物理资料处理、解释的效率及精度提出了更高的要求。人工解释无法快速认识数据包含的特征信息，也无法获得高质量、高分辨率的精细解释结果，地震解释走向自动化和智能化已成为必然趋势。作为一种端到端的数据分析手段，大数据及人工智能技术可更有效挖掘深层次的数据特征，对提高预测精度及工作效率、降低勘探成本都有极大的帮助。2019 年，与大数据及人工智能技术相关的研究论文在国际勘探地球物理学家学会（Society of Exploration Geophysicists，SEG）年会收录论文的占比达到14%［3］，2020年提高至近18%，表明大数据及人工智能技术是关注度最高、增长速度最快的研究方向，已成为目前油气勘探领域最有力的技术创新“助推器”。

胜利油田的研究人员一直在积极探索大数据及人工智能技术在油气勘探领域中的应用研究，针对探区内断裂系统复杂、储层类型复杂等地质特点，改进创新了断层检测、层位提取、岩性识别、测井解释等多个油气智能建模关键工作节点的技术，取得了一些阶段性应用成果和经验认识。

1.1 三维断层自动检测

断层、岩性变化、噪声干扰都会导致地震反射同相轴的不连续性，常规的相干［4］、方差［5］、曲率［6］和断层似然性［7］等地震属性分析方法无法对断层进行有效识别。虽然可利用平滑滤波［8］、蚂蚁追踪［9-10］等方法对其进行后续处理以增加断点连续性和检测准确率，但流程复杂、关键参数选取困难，导致解释主观性强、可靠性低、效率低等问题。利用深度神经网络结构可建立断层与地震数据之间端到端的映射关系，在提升断层解释效率及检测精度方面取得了一定的进展［11］，但在如何有针对性地建立断层样本数据、如何充分利用已有解释成果方面的研究相对较少，限制了断层自动检测网络模型解释精度的进一步提升。为此，首先开展实际断层样本数据的典型特征解剖，详细梳理断层实际解释成果，根据花状、阶梯状、“Y”字形等不同断层组合样式，分别建立实际断层样本库；其次，有针对性地建立胜利探区断层正演样本数据，统计分析断层倾角、断面方位角、断距、断层切割关系、地层倾角、地层曲率、地层速度、地震子波、信噪比等构造要素及地球物理参数，构建了适用于胜利探区的三维断层模型及地震正演数据1 000 余组，进一步丰富断层样本数据；最后，改进联合实际解释和正演模拟样本数据的断层自动检测网络模型，进一步提升复杂构造背景下的断层自动检测精度。在胜利东部探区的东辛、牛庄等地区开展了应用测试，结果表明，相比本征相干等常规方法（图1），基于深度学习的自动检测结果断点清晰连续，和专家解释的断层结果吻合度高，且计算效率可提升10 倍以上，证实了三维断层自动检测技术的研究潜力及应用前景。

图1 断层检测结果对比Fig.1 Comparison of fault detection results

1.2 三维层位自动提取

层位解释是地质建模的关键步骤。常规层位提取技术需依赖人工干预，存在工作量巨大、解释结果不精细等问题。目前自动或半自动构造提取方法通常基于相位追踪［12-13］、倾角引导［14-15］和波形分类［16］来逐一提取地震数据中的层位信息。此类方法主要基于局部数据分析，在噪声较大或者地质构造复杂时面临较大困难。为此，部分研究人员引入相对地质年代体［17-18］进行层位提取，将识别目标由单一层位转换为所有层位信息。借鉴该思路，为提升网络泛化能力，实现了融合已知构造约束的层位自动提取多任务网络模型（图2）。首先，结合探区构造特征，利用地质模型正演和地球物理正演生成模式丰富的相对地质年代体样本库；其次，建立可同时输出断层与相对地质年代体的构造自动解释网络模型；再次，改进损失函数，融入匹配已知层位约束方程，增强深度学习网络模型泛化能力；最后，不断测试调优，获得最终层位自动提取网络模型。利用该网络模型可快速预测出地震数据对应的相对地质年代体，并利用井震标定，提取得到高精度的层位自动解释结果。

图2 融合已知构造约束的层位自动提取多任务网络模型Fig.2 Multi-task network model for automatic horizon extraction integrating known structural restraints

1.3 砂体岩性自动识别

砂体识别描述是贯穿油气田勘探开发全过程的一项重要工作。地震反演作为砂体预测的常规技术得到广泛应用［19-20］，但不论是叠后反演还是叠前反演，受限于地震的纵向分辨率，井间预测结果分辨率较低、可靠性较弱，准确率有待进一步提高。机器学习方法从井点出发，充分挖掘地震属性与测井岩性敏感曲线之间的数据关系［21-23］，最大限度地发挥地震属性的利用效率，预测结果的纵向分辨率高于确定性反演，井间可靠性优于地质统计学反演。但是井点数据较少，需要有针对性地进行属性特征优选及机器学习超参数优化，不断提升砂体预测精度。为此，提出了基于机器学习方法和地震属性特征双优选的砂体岩性识别方法。从地质认识出发，明确砂岩发育段的地震反射特征，提取大量跟砂体特征相关的属性数据，分析属性之间的线性相关性，剔除相关性较强的属性，并通过机器学习方法展开输入属性对砂体岩性的重要程度分析（图3），判断每一种输入属性对于目标的重要程度，数值越大，重要程度越高，将重要程度较低的属性剔除；然后，针对研究区具体情况，将优选出的属性集及岩性敏感测井曲线作为样本，尝试多种不同机器学习方法，从众多机器学习方法中进行优选；最后，使用K 折交叉验证法进行超参数优化，找到模型泛化性能最优的超参数，获得偏差和方差都低的评估结果。该方法在胜利油田实际工区应用取得较好效果。

图3 输入属性对砂体岩性的重要程度分析结果Fig.3 Analysis results of input attribute importance for sand body lithology

1.4 测井自动解释及曲线自动生成

测井岩性自动识别常规测井曲线岩性识别方法主要包括交会图［24］、统计学方法［25-26］等。但随着岩性识别目标越来越复杂，识别结果越来越精细、多解性越来越强，亟需寻找可以进一步挖掘岩性测井响应特征的技术手段，以提升测井岩性识别精度及效率。为此，将知识图谱、深度学习技术相结合，建立了测井岩性的自动识别技术流程（图4）。首先，建立测井领域知识图谱，提取邻井同层知识特征。根据岩性识别业务需求，基于石油技术词典、测井领域文献、测井专业书籍、地质勘探书籍、地质开发书籍等测井领域资料构建测井知识体系分类、测井本体模型，进行命名实体识别、关系抽取、知识融合，建立测井知识图谱，并通过知识表征技术，实现了邻井同层的知识特征提取；其次，通过卷积神经网络和长短期记忆神经网络，实现了测井曲线的数据特征提取；最后，经由注意力机制将两类特征相融合，建立了深度神经网络与知识图谱联合的测井岩性识别模型，实现了测井资料的岩性自动识别。根据上述研究思路，在胜利油田孤东七区西开展测试应用，对该区块40 口井进行测试验证，整体准确率为96.3%。

图4 联合知识驱动与数据驱动的测井岩性自动识别技术流程Fig.4 Technical roadmap of automatic logging lithology identification driven by knowledge and data

测井小层自动划分老油田开发井数多、纵向层系发育，地层对比人工解释工作量大、多解性强。为反映测井曲线在深度方向的结构特征，摒弃了常规机器学习方法中“点对点”的技术思路，重新设计了一种基于数据驱动和循环滑动时窗的小层划分方法。通过优选将对地质分层敏感的测井曲线作为特征参数，采取“窗口对点”的循环滑动时窗方法进行样本采集。同时，通过大量测试，优选了随机森林作为核心方法，并通过超参数调优，得到最终的小层自动划分网络模型。实际应用测试中，“点对点”的方法预测精度为75%，改进后的“窗口对点”划分精度达到89%。

测井横波速度曲线生成叠前AVO 分析及反演需要高精度的横波速度资料［27-28］，但受成本较高的影响，实测横波测井资料较少。通常可采用经验公式法［29］和岩石物理建模法［30］进行横波速度的估算。其中，经验公式法简单易用，但估算精度不高，且受区域限制；而岩石物理建模法虽然估算精度较高，但是流程复杂、参数繁多，操作难度大。为此，利用深度全连接网络，建立其他测井曲线与横波速度曲线之间的重构模型。收集济阳坳陷10 口井的实测横波速度测井数据及常规测井曲线序列（GR，SP，AC，CNL等）开展应用测试，随机抽取8口井作为训练数据，2 口井作为验证。测试结果表明，与经验公式法、岩石物理建模法、多元回归方法等常规方法相比，深度学习方法可获得更高精度的横波速度预测结果。

2 大数据技术在油气开发中的应用

目前大数据及人工智能技术与油气开发业务正处于深度融合发展阶段，其强大的数据分析及学习能力让传统开发工作流程的转型升级具有了新的突破点，尤其是对于油藏类型多样、开发历史较长的油田，已积累丰富的数据资源，利用大数据及人工智能技术可实现开发经验的快速总结与应用。中外专家对其在油气田开发领域中的应用开展了大量的探索和研究［31-32］，主要包括智能钻完井、油藏描述及高效建模方法、流体高压物性预测、油藏智能代理模型等方向。笔者团队重点对开发实验数据挖掘与应用、开发动态数据高效分析（注采响应分析、生产指标预测）、方案智能决策和优化等方面开展深入研究，并取得了阶段性进展。

2.1 注采井间响应关系识别

在油藏开发动态分析中，注采井间响应关系的识别及连通关系的定量预测，是一项用时较长且难以定量化的工作，其结果直接决定了局部剩余油判断的准确性。虽然油藏工程方法已经建立多种物理解析模型［33］，例如电容电阻模型、飞行时间模型，但考虑因素较少造成适应性较弱，矿场推广应用难度较大。

胜利油田以陆相沉积油藏为主，含油小层多且储层物性变化快，加之生产时间较长、经过较多轮次的层系组合调整，注采井间响应关系分析更加困难，需要综合考虑储层平面物性变化、纵向连通程度、井网井距、生产历史、工作制度等因素。依靠人工对井组注入量、动液面、采液量随时间增减关系对比的定性识别方法依然是最主要的工作模式。

近年来随着机器学习方法的进步，胜利油田积极探索基于神经网络的注采井组动态响应模型建立方法，通过对注采井组历史生产数据的学习，定量分析神经网络模型输出节点对输入节点的敏感性，以表征注采井间的连通程度。常规神经网络仅能够将油水井时间序列动态数据作为输入样本，输入数据之间平行非关联（图5），难以考虑注水井与多口采油井之间的空间位置关系，图神经网络（GNN）将整个图结构关系作为输入、输出（图6），该技术在社交网络、知识图、推荐系统等各个领域得到越来越广泛的应用［34-35］。

图5 常规神经网络模型Fig.5 Conventional neural network model

图6 图神经网络模型结构Fig.6 Structure of graph neural network model

引入GNN 方法将井点作为图的顶点，连通关系表述为边（图7），该方法在根据图节点之间的依赖关系进行建模方面具有强大功能，使得与图分析相关的研究具有独特优势。应用图注意力机制与渗流物理过程信息相结合的方法［36］，建立了适用于井网注采平衡训练的图神经网络模型，实现了预测区块不同开发时间下的注采井动态量化预测，2021 年平均预测精度已达82%。

图7 注采井间响应关系结构Fig.7 Structure of inter-well injection-production response relationship

2.2 生产指标预测

对单井初期产油量、递减率、累积产油量等开发指标的预测，是油气田开发方案制订和优化的重要环节［37-38］。传统方法通过数值模拟和油藏工程方法来预测，但存在数值模拟方法成本高、周期较长，油藏工程模型准确度低等问题。利用模式识别挖掘实时生产数据中反映的生产信息，建立油藏或单井代理模型替代数值模拟计算或传统的产能分析方法，可实现剩余油分布和生产指标的快速准确预测。

例如，基于深度学习方法构建多层卷积神经网络，实现剩余油分布的快速准确预测［39-40］；基于长短期记忆神经网络（LSTM）构建产能预测时序模型，利用历史生产数据来预测油井未来的产油量；基于人工神经网络构建井底压力预测模型，输入生产井中监测的井底温度、井筒直径、溶解气油比、油气密度、油气黏度和油气水产量等数据，进行训练后可准确计算直井多相渗流状态下的井底流压。

对目前常见机器学习方法、深度学习方法开展开发指标应用测试，结果表明各类方法在训练集上普遍具有较高精度的拟合能力（平均误差为9%～15%），然而测试集的预测精度普遍较低，特别是随着预测时间越长偏离程度越大。面对这样的结果，应重点思考以下问题：第一，训练一个适合各类油藏各种阶段各种指标的通用预测模型，还是应该一个油藏或一类油藏训练一个模型；第二，单井之间、井组之间、油藏之间的差异如何全面准确反映在样本上，依据油藏工程思路构建样本的特征是否充足，油井开关制度、关井周期、周围井的干扰等更多传统方法难以量化的因素如何进入样本；第三，基于数值模拟的正演样本和实际动态数据应该如何融合应用。

对胜利油田典型单元开发数据的时序特征进行聚类分析，提出数据集应该首先根据渗透率、储层厚度、原油黏度三参数进行分类；其次将开发动态数据根据措施时间进行分段，分别对无措施、有措施进行建模分析预测，避免了多种因素同时考虑，机器学习模型复杂程度高、训练速度慢的缺陷。编写动静态数据融合模块，实现了钻井、地质、开发动态、措施等多源数据的自动汇总，形成了单井产量预测所需的数据整合方法流程。

实现了样本数据的辅助清洗、转换，形成了样本预处理基本流程。针对无措施、有措施2 种不同预测场景，设计了有、无措施数据的自动分割方法，构建了单井产量预测所需的样本库。通过对数据指标的反复循环分析（单变量、多变量、数据转换等），抽取出有用特征。初步形成了无人为预先假设条件的单井指标预测的特征提取流程和方法。目前采用BP 神经网络（BPNN）和循环神经网络（如LSTM）方法构建叠加模型（图8），静态特征向量输入到BP 模型中，动态序列输入到LSTM 模型中，然后用全连接层拼装在一起形成叠加模型，这种网络结构可以提取动态时间序列数据前后变化的自相关特征，综合静态特征、时序数据动态趋势特征进行指标预测，提高拟合、预测精度。

图8 BPNN+LSTM网络模型Fig.8 BPNN+LSTM network model

2.3 开发方案智能决策和优化

开发方案决策包括层系组合、井位优选、注采量调整，该类工作依赖于数值模拟计算的常规历史拟合和生产优化方法，求解难度大、计算耗时长、难以快速收敛。近年来，基于代理模型辅助历史拟合和生产优化的方法受到了广泛的关注和研究，使用代理模型替换数值模拟的复杂计算可大幅提高计算效率从而加速优化，满足油田现场的实时生产优化需求［41-44］。

该类方法首先利用人工智能技术建立油藏生产指标预测模型，再结合优化目标和优化方法实现快速历史拟合和生产优化。通过神经网络和主成分分析相结合的历史拟合方法，可根据数值模拟生成的数据训练得到能直接预测历史拟合函数值的神经网络模型（图9），结合优化方法实现油藏模型参数的自动寻优；基于人工神经网络和遗传算法的生产优化方法，可以在历史生产数据训练后的人工神经网络模型基础上，利用遗传算法实现油藏注采参数的优化；基于代理模型的水平井完井策略优化方法，可建立以地质数据和水平井完井数据为输入的代理模型，通过优化方法对完井策略进行优化，实现水平井以最大产能生产。2021 年，笔者团队已初步实现了井位、措施等优化系统的搭建，对非均质油藏开展了优化测试及应用研究。

图9 基于代理模型的油藏调控优化模型Fig.9 Optimized reservoir control model based on agent model

2.4 开发实验数据挖掘与应用

开发实验数据的挖掘是大数据及人工智能技术比较容易实现的应用领域，因为实验类数据保存相对规范，最接近商业大数据格式，预测效果是否准确主要取决于数据的数量和质量，其研究起步较早。GULER 等用机器学习的方法，将岩石的参数输入ANN 网络中，得到不同岩石含水饱和度下的水油相对渗透率［45］；AL-FATTAH 等利用ANN 模型进行了碳酸盐岩储层相对渗透率的预测，并得到了较好的曲线拟合结果［46］。在非常规领域通过机器学习可实现岩心实验数据到测井跨尺度建模预测，以及缺失曲线、坏井眼等影响因素下的曲线智能重构［47-49］。

笔者团队目前正在开展相对渗透率曲线、流体高压物性的预测研究。利用大数据技术可建立常规岩心数据、测井数据与相对渗透率曲线的预测模型，并通过地层流体的组分预测流体密度、黏度等特征参数，为精细反映三维地质体内油水渗流差异提供支撑。研究表明，相对渗透率曲线的形态预测不仅需要考虑孔隙度、渗透率、流体黏度等参数，还需要考虑井位的空间坐标及深度等地质信息，测试集的预测精度才能获得较大幅度的提高。通常一口取心井上可获取多个层段的相对渗透率曲线，所以相对渗透率数据的基本特征是“平面集中、纵向分散”，将相同地质层位的岩心作为一类特殊样本，增加该类样本的权重可大幅度提高测试应用的预测精度。目前正在积极探索基于测井曲线的预测方法，直接将岩心对应的测井数据作为基本输入信息，进一步提高模型的预测精度。地层流体高压物性预测方面，整理清洗井口脱气原油的组分数据和地层原油的饱和压力、原油密度等高压物性实验数据，形成地面井流物-地层流体高压物性参数的机器学习样本集，创建包含回归决策树、支持向量机、XGBoost、神经网络等多模型机器学习预测方法，实现了高压物性参数的智能预测。

3 大数据技术面临的挑战与下步发展方向

为进一步挖掘勘探开发数据潜力，提升油气勘探大数据及人工智能技术应用水平，将重点从以下3个方面开展持续攻关。

加强油气勘探开发领域的大数据及人工智能核心算法攻关实现高质量勘探开发智能化应用的前提在于核心算法的创新与突破。研发适合勘探开发的复杂多模态多任务网络是解决该问题的有效途径。勘探开发是石油工业上游的核心业务，具有高技术、高密度特点，其业务链长、涉及环节多、上下联系紧密。创建的智能方法框架（模型）应可以融合勘探开发相关的多专业数据及多领域知识，通过多模态、多任务的模式表征行业中复杂的数据关系，从而满足行业不同场景的应用需求，获得高精度、高迁移能力的智能预测模型。

加快油气勘探开发智能应用样本数据标准及数据库建立大量的应用经验表明，大数据及人工智能技术突破的基础在于高质量、大规模的数据资源。首先，需要围绕勘探开发核心目标，分析勘探开发、地质工程等不同应用场景的研究需求，结合油藏实际特征，建立勘探开发智能应用所需的样本数据标准。其次，根据样本数据标准，依托油田信息化、数字化建设基础，严格把控重力、磁力、电法、地震、测井、岩心、录井、开发动态等勘探开发观测数据及其成果解释数据的质量，实现分区块、分油藏类型的实际样本数据库构建。同时，深入开展地质模型、地球物理及油藏物理机理研究，逐步实现从静态地质模型到动态演化的地质模型模拟、从简化方程到完备方程的地球物理数据模拟、从简单数据趋势预测到数值模拟与机器学习结合、从单一概率到混合分布的噪声模拟，获得大量的、符合实际情况的勘探开发物理模拟数据，进一步丰富勘探开发样本库。

促进油气勘探开发大数据及人工智能技术应用平台建设油气勘探开发专业性强，对数据管理、计算、成图等有着特殊的要求。现有工作的开展往往需要依托不同的专业软件系统，存在数据不统一、流程一体化改造难等问题。而大数据及人工智能技术采用端到端的学习模式，可对各类数据信息进行有效融合，并将其统一至同一个研究目标，便于勘探开发业务流程的一体化重塑。为此，需对标中外一流大数据及人工智能应用平台，充分借鉴成熟发展经验，不断夯实扩充分布式存储、高性能计算、可视化环境等软硬件基础，优化集成各类数据接口、专业数据处理、机器学习等算法模块，开发创新勘探开发智能一体化工作流程搭建、智能预测模型发布、智能应用综合评价等核心应用，打造适用于油气勘探开发的大数据及人工智能技术应用平台，为油田数字化转型提供技术支撑。

4 结束语

大数据及人工智能技术已在各行各业展示了巨大的应用潜力，也在油气勘探开发领域步入了融合发展阶段。近年来，在胜利油田多个勘探开发智能应用场景进行了有益的探索研究，并在断层自动检测、层位自动提取、砂体自动预测、测井自动解释、开发实验数据挖掘与应用、开发动态数据高效分析（注采井间响应分析、生产指标预测）、方案智能决策和优化等方面取得了进展。研究成果表明，大数据及人工智能技术可为纷繁复杂的勘探开发数据及应用需求提供新的高质量及高效分析手段，发展潜力巨大。

实现勘探开发数据智能应用的进一步突破，还面临着勘探开发专业与大数据及人工智能技术融合不足、勘探开发数据库不完备、平台建设滞后等问题。面临上述挑战，有必要开展技术深化研究、基础数据规范化管理、算法模块及平台持续开发等方面的工作。

挑战与机遇共存，围绕油气勘探开发的精细化需求，不断加强勘探开发大数据及人工智能技术攻关，将会有助于催生出一系列高效、实用化的油田数据智能分析新技术，打造出一批学科交叉、研究能力过硬的创新团队，为油田的数字化、智能化转型及高质量发展提供新的动能。