油气资源开发的大数据智能平台及应用分析

2021-02-26 01:46:14宋洪庆都书一周园春王宇赫王九龙

工程科学学报 2021年2期

宋洪庆，都书一，周园春，王宇赫，王九龙

1) 北京科技大学土木与资源工程学院，北京 100083 2) 大数据分析与计算技术国家地方联合工程实验室，北京 100190 3) 中国科学院计算机网络信息中心，北京 100190 4) 中国石油大学（华东）石油工程学院，青岛 266555

✉通信作者，E-mail：songhongqing@ustb.edu.cn

随着油田工业勘探、开发技术的飞速发展以及自动化与信息化程度的不断提高，石油工业已经迈入了数字化与智能化的时代. 随之而来的，其数据量也从MB 级迅速突破至TB 级甚至PB 级，呈现了指数倍的增长[1]. 以中国石油天然气集团公司为例，经过“十五”～“十二五”，已有约70 个大型信息系统完成了建设并上线运行，其中，仅“勘探与生产技术数据管理系统”就管理着约1500 TB 的数据[2]，当然这也只是油田数据的冰山一角. 那么，如何有效的存储、管理并利用这些数据成为了开发人员、信息人员和研究人员极为关注的问题. 《Nature》在2008 年推出了“Big Data”专刊[3]，《Science》在2011 年2 月推出专刊“Dealing with Data”[4]，主要围绕科学研究中大数据的问题展开讨论，分析了大数据产生、处理流程以及对科学研究的重要性，标志着大数据时代的来临. 因此，结合大数据技术打造智能化数字化油田已经成为各国下一步的发展方向.

除了对海量的油田数据进行存储和管理，更重要的是如何对这些数据进行深度的挖掘与分析，从而能够更好的完善及优化油田开发方案，推动石油工业的迅速发展. 人工智能技术可以对油藏数据进行深层次的剖析与解读，极大的提升了油田的开发效率和经济效益，其对于油田工业的重要性已经不言而喻. 自步入21 世纪以来，随着机器学习和深度学习崛起[5]，人工智能已经渗透到油田的各个领域中，其应用范围已经从上游的勘探、开发、生产贯穿至下游的销售及运营，很大程度上加速了油田智能化的进程. 未来的石油工业，旨在形成以大数据技术为根基，人工智能算法为武器，集数据的收集与存储、清洗与融合、挖掘与分析、可视化及应用于一体的油气大数据智能平台.

1 石油工业大数据发展及现状

在2012 年1 月召开的达沃斯世界经济论坛中，以大数据为相关主题发布了报告“Big data，big impact: New possibilities for international development”，深入的讨论了怎样利用大数据技术提高全球经济效益. 同年5 月，联合国在名为“Global Pulse”的项目中发布了一个有关大数据的报告，名为“Big data for development：Challenges & opportunities”，对应用大数据技术处理发展中国家面对数据洪流的问题进行初步解读. 大数据技术的崛起已然势不可挡，并逐步在各个领域展开了应用并取得了极佳的效果. 因此，将大数据技术应用到石油工业领域已经成为必然的结果. 据美国石油工程协会（SPE-OnePetro）数据库显示，自2000 年开始，大数据及人工智能在石油工业领域的研究呈现井喷式增长[6]，截止2020 年6 月，公开发表的相关会议及研究论文已经超过了10000 篇. 如图1所示，就机器学习和油气工业相结合的论文而言，近5 年发表论文的比重已经占了总数量的60%以上. 当然，油气大数据的发展并不限于学术研究领域，全球各大石油公司也纷纷致力于和顶级IT 企业合作[7]，联手发展适用于石油工业的大数据分析技术，打造数字化智能化油田，从而孕育全新的油气革命.

图 1 SPE-one petro（美国石油工程师协会）数据库中机器学习相关文章增长图Fig.1 Graph depicting the increase in the number of machine learning-related articles in SPE-OnePetro

2018 年4 月，道达尔与信息技术巨头谷歌强强联手，针对石油勘探开发中地质数据缺失或误差较大的难题，利用模糊逻辑技术能够对“不完备”数据进行处理的特性，基于地震数据并整合了自然语言处理技术构建了更加精细的地质模型，率先将大数据技术应用于地质数据处理. 2018 年9 月，壳牌牵手微软在石油领域智能化方向展开合作，Shell Geodesic 在两家巨头的研发下应运而生，它能够利用机器学习及控制算法来更为逼真的展现油气层钻井图像，针对在致密岩层钻井过程可能引发的突发情况提供有效的决策建议. 2019 年1 月，英国BP 公司投资500 万英镑助力人工智能初创公司Belmont Technology，开发了一个融合物理、地质、历史和油藏信息的地球科学云平台，为BP提供独特的“地下资产图谱”. 同年2 月，埃克森美孚与微软建立合作关系，投资约10 亿美元用于机器学习算法研究，通过人工智能优化油气井性能及分析钻完井数据. 雪佛龙已经和微软及斯伦贝谢在2019 年9 月达成了三方协议，旨在利用云计算及人工智能技术加快油气工业的数字化转型.

而现如今国际三大油服巨头，贝克休斯、斯伦贝谢、哈里伯顿正紧锣密鼓的向数字化智能化油田进军[8]. 2017 年7 月，贝克休斯与通用电气完成并购重组，依托其独创的Predix 平台，迅速打造全世界第一家全领域数字化油气工业公司. 贝克休斯的大数据平台是侧重于独立的数字化板块建设以及对全产业链的覆盖. 借助通用电气推出的第一个面向工业的互联网平台Predix 平台所开发的油田数字化板块，与其上游、中游、下游及工业板块并列为贝克休斯五大业务板块，集地质建模、油藏模拟、力学分析和可视化于一体，可用于油藏各类数据的采集以及通过人工智能算法优化采收方案等. 而斯伦贝谢主要涉及上游勘探开发生产领域，并强调的是油藏数据、管理系统及硬件设施的有效组合，进而实现了更高水准的油田一体化建设. 2017 年9 月，斯伦贝谢主要针对油气上游领域推出了名为DELFI 的勘探开发认知环境作为基础的的数字化平台，将硬件设施、软件开发、数字化技术和油藏专业知识有机结合，致力于勘探与开发、建井、非常规完井和生产管理四个专业领域一体化建设，打破在实践应用中地球物理学、地质学、油藏工程学、钻井与采油工业学之间的专业壁垒，从而实现各学科的相互融合. 如图2 所示为国内外油气大数据智能平台构建实例，在2018 年10 月，由美国《世界石油》杂志于休斯顿举行的“世界石油奖”的颁奖活动中，哈里伯顿凭借Voice of the Oilfield[9]摘得了“最佳数字化转型奖”. 该产品是哈里伯顿通过实际应用检验的智能油气建设解决方案，依托工业物联网组件与边缘计算设备对数据进行实时收集，基于云平台和大数据分析技术进行油田的智能诊断、分析及预测等，可以实现对于井口、油田及资产管理的闭环管理模式.

当然，国内也已经展开了油田智能化的建设工作. 对于上游勘探开发而言，北京科技大学联合中国石油大学（华东）及中国科学院计算机网络信息中心等机构，搭建面向油气资源开发的大数据智能平台，可实现对油田海量数据的快速弹性可扩展，基于分布式计算引擎Spark 开发π-flow 数据处理系统，可以利用不同深度学习算法对油气数据进行流水线式处理及分析，通过油气一体化管控大屏完成对油气田开发的实时监测、预警及展示，能够有效的对油田的开发方案进行评价与指导，见图2. 除此之外，在2018 年11 月，中石油整合了大庆油田、辽河油田等多家石油子公司的现场数据，建立了油气资源的数据湖，打造了旗下第一个智能油气平台“梦想云”，并通过搭建协同的研究环境，支撑上游业务的数字化、智能化转型，初步实现了勘探开发、生产管理及协同研究的一体化. 对于中下游而言，2019 年12 月，国家石油天然气管网集团有限公司成立，旨在依托大数据及物联网等技术，对油气储运管线进行数字化建设和智能升级，全面打造覆盖全国的“智慧管网”.2020 年7 月15 日召开的华为全球油气峰会表明，华为正致力成为油气数字化转型的忠实伙伴，利用5G 网络、大数据及云计算等技术解决中石油大庆油田计算性能及数据存储等问题，并且在测井油气藏识别、地震波识别、故障诊断等五个场景实现AI 应用分析. 2020 年8 月21 日，首家油气数据科学分实验室在中国科学院计算机网络信息中心成立，中国工程院韩大匡院士指出，国内油气行业的数字化智能化发展目前还处于起步阶段，要充分利用大数据及人工智能手段实现“智慧油田”战略目标，完成从现如今的“跟跑”到“并跑”甚至未来“领跑”世界的转变. 国内外数字化转型发展历程如图3 所示. 总的来说，目前我国油气工业虽然还处在数字化转型的初级阶段，但是各大石油以及天然气公司积极开展对“智慧油田”的建设，并携手诸如华为等数据科技企业，使得油气行业上中下游的数字化以及智能化发展迅速，相信在不久的未来可以孕育出全新的油气工业生态圈.

图 2 国内外油气大数据智能平台构建实例图Fig.2 Construction and example of the intelligent platform for domestic and foreign oil and gas big data

图 3 国内外油气工业数字化转型发展历程Fig.3 Development process of the digital transformation of the oil and gas industry at home and abroad

2 油气大数据“6V”属性特点分析

对于大数据特性的描述比较具有代表性的是3V 定义[10]：即规模性（Volume），多样性（Variety）和高速性（Velocity）. 国际数据公司（IDC）在此基础上添加了第4V 的特性，价值型（Value）. IBM 则认为真实性（Veracity）也是大数据技术的必然要素[11].对于石油工业而言，还有一些学者认为除了上述5V 的特性，还应该具有多变性（Variability）[12].

如图4 所示[13]，为石油工业大数据的“6V”特性. 石油工业的“Volume”主要体现在其庞大的数据量，就石油上游而言，已经构建了9 大类数据资产库，涵盖了600 多个油气藏，7000 余个地震工区，开发了近45 万口井，管理超过108 万个测井文件，累计存储量达1.7 PB 以上[14]. 而这个庞大的数据体包括了勘探、测井录井及生产等各个领域，既有结构化数据如地震反演、生产数据等，还包括半结构化数据如地震解释、钻井报告等，以及非结构化数据像测井曲线、岩心图片等，因而具有“Variety”特性. 现如今，这些油田数据的获取大多是基于物联网的井下或地面传感器等边缘监测设备，在保证了数据的“Veracity”特性的同时，可以实现对数据的实时传输，突出了油气数据的“Velocity”. 另外，由于储层地质结构的复杂性以及油田现场人为操作等不确定因素，都会令勘探、开发、生产领域相关数据产生“Variability”，如油田生产过程中的产量、压力等数据. 而油气数据最为重要的就是它的“Value”，如在油田勘探中，可以利用地震数据预测地质空间结构从而确定地下油气藏所在；在油田开发领域，通过测井录井数据来预测储层物性参数节约生产时间；在油田生产中，利用生产数据完善开发方案进而提高采油效率等. 由这些物联网下的实时监测、物理模拟和实验分析等数据组成了油田具有大数据“6V”特性的多元异构数据体. 因此，我们需要基于油气数据的“真实性”，通过大数据技术将这些具有“规模性”、“多样性”、“高速性”的数据存储及融合，利用人工智能探究其“多变性”原因，挖掘数据间规律最终发挥油气数据真正的“价值”.

图 4 油田工业大数据“6V”特性[13]Fig.4 Oilfield industry big data “6V” features[13]

3 油气资源开发的大数据智能平台框架构建

3.1 油气资源大数据智能平台总体框架

为了完成石油工业数据一体化建设，打造涵盖上游的勘探及开发，中游的运输与存储，下游的分配和销售于一体的大数据智能化平台，构建的主要流程及总体框架如图5 所示. 首先可以依托石油工业各大巨头公司，研究所及勘探院的数据库，将不同领域下不同存储方式的特征数据，按照结构化数据、半结构化数据、非结构化数据来进行收集存储，打造一个统一的数据资源池，这也是整个智能化油气大数据平台的基石. 然后，基于数据资源池，我们需要将这些不同领域的数据进行数据清理、提取与融合，加强不同领域下数据的关联性，提升数据质量与可信度，从而打破石油工业存在的“数据孤岛”现象. 接着，我们以人工智能算法为武器，通过机器学习、深度学习、统计学分析等数据挖掘手段，深层次的剖析解读数据中的潜在规律和隐含的特征，从而给予油田工业更多的建议与决策支持. 最后，这些利用人工智能算法获取的分析结果需要通过可视化等简洁的方式展现给终端的用户，使终端客户群如政府机构、研究人员、销售部门等可以按照自己的需求方便快捷的获取相关数据，真正的发挥出石油工业大数据平台的优势与潜能.

3.2 数据的收集与存储

随着勘探开发技术的不断更新，石油工业产生的数据不但体量极为庞大，更具有多源异构的特性. 首先，由于石油在勘探和开发中会涉及多个领域的共同作用，如地震勘探、测井录井、油田开发等，因此不同研究领域的数据体有他们各自的数据特征与存储格式. 例如，对于地震勘探数据，由美国勘探地球物理学会（SEG）推荐的SEDG、SEDY 存储格式，以及科罗拉多矿院CWP（Center for Wave Phenomena）实验室开发的一套开源地球物理数据处理系统中SU 格式（Seismic Unix）；对于测井录井数据，主要是常见的测井曲线图片以及相关的解释性文本文件；对于油田开发数据，主要包含油井产量、压力等结构化数据等. 其次，油藏数据还具有多尺度的特性，从宏观尺度上通过数值模拟[15]进行地质建模，再到介观层次的格子玻尔兹曼方法的运用[16]，甚至微观层次的分子动力学研究[17]，这些技术手段都在油田领域有着广泛的应用空间. 大数据智能平台的真正价值就是可以高效的提取与挖掘这些通过物理模拟、现场监测及实验分析等手段收集来的油气数据体[18].

图 5 油气大数据智能平台基本流程与总体框架Fig.5 Basic process and overall framework of oil and gas big data intelligent platform

那么，油气工业如此庞大的多源异构数据需要用什么来进行高效的存储呢，分布式框架的鼻祖Hadoop 的出现[19]是大数据技术得以广泛使用的关键. Hadoop 主要由三个模块构成：HDFS，YARN[20]以及MapReduce[21]. HDFS 即为分布式文件系统，其最大的优势是可以整合在分布式架构下每一台计算机的硬盘资源，无论是存储还是计算都可以视为在一个硬盘下使用，极大的加快了数据的存储的效率；YARN 是分布式资源管理系统，主要是对于HDFS 进行统一的集群管理及调度，提高了资源利用率；MapReduce 是一个基于数据批处理模式的计算框架，通过简单的编程就可以完成分布式程序的计算，适合PB 级以上海量数据的离线处理，具有很高的容错性及良好的扩展性.

虽然MapReduce 具有强大的离线处理能力，但由于是基于批处理模式以及计算过程是在硬盘上进行，因此不擅长数据的实时计算. 于是Spark[22]和Storm[23]开始登上大数据的舞台，他们的运算过程均是基于内存而非硬盘，同时运用的是数据流处理模式，能够极大的提高了数据的吞吐和处理速度. 他们的区别在于Spark 是准实时而Storm 是完全实时（延迟度为秒级），Spark 的运行模式是先收集一段数据然后进行统一处理，而Storm 则是来一条数据就处理一条数据，这种不同的数据处理机制也决定了应用场景的不同. 但是无论是Spark 还是Storm 计算框架在大数据技术中均需要依托HDFS 进行.

因此，单一的架构一定无法满足石油工业的计算要求，混合架构才是当今大数据油田的核心架构，既能满足油田多源异构数据体的分布式存储，又可以对数据进行离线计算和实时处理. 如图6 所示，集Hadoop、Spark 和Storm 计算框架[24]的优势于一体，才能充分挖掘油田数据的巨大潜能，打造真正油气大数据分析平台.

3.3 数据的清洗与融合

“数据孤岛”现象[25]一直是困扰石油工业智能化的核心问题. 其主要原因是石油工业涵盖了多个业务领域，包括物探、钻井、录井、测井、试采、生产等. 而这些不同的部门根据各自数据的特点建设自己的数据库，使得数据孤立存储；而且，对于相同属性的数据，不同部门站在各自研究领域的角度进行分析，会产生不同的理解，加大了跨领域数据合作的难度. 同时，企业的管理体制以及数据标准的不统一都会在无形中引发“数据孤岛”现象，所带来的这负面影响主要是效率低下以及资源浪费.

图 6 油气大数据智能平台Hadoop、Spark 及Storm 混合存储计算架构Fig.6 Oil and gas big data intelligent platform with Hadoop, Spark, and Storm hybrid storage computing architecture

因此，利用大数据技术将不同部门的存储数据进行清洗和融合显得尤为重要. 如图7 所示，首先以各石油公司、研究机构现有的专业数据库为基础，通过油气工业大数据平台按照结构化、半结构化、非结构化数据进行统一的整合与存储，建立基础的数据共享资源池. 然后基于完整性约束[26]、修复规则[27]、统计理论[28]及人机结合[29]等方法，对油藏数据进行清洗，解决数据中的缺失、冗余、冲突等质量问题. 接着需要依靠各专业领域的专家根据数据中参数涉及专业频率，明确参数权重，分析相关参数逻辑关系，确定参数转化公式等，建立统一参数围度及加强数据间的逻辑关联，实现油气工业各领域之间的数据融合，从而打破“数据孤岛”现象.

图 7 油气工业多源异构数据体的清洗融合Fig.7 Cleaning and fusion of multi-source data in the oil and gas industry

3.4 数据的挖掘与分析

石油工业数据的存储和融合至关重要，但更重要的是如何通过人工智能的算法去进行数据的挖掘与分析. 随着机器学习和深度学习的飞速发展，人工智能已经在各领域已经展现了其强大的预测、分析、决策及指导能力，逐步开始引领工业4.0 变革. 因此，近年来许多机器学习和深度学习算法也已经逐步融入到石油工业智能化的研究中，无论是在石油工业上游的勘探与开发，还是在中游的运输及提炼，乃至下游的销售都产生了积极的影响，大大提高了研究效率及经济效益.

机器学习是企图从大量的历史数据中捕获其变化特征、分析内在联系从而挖掘数据间的隐含规律的算法统称. 如图8 所示，应用在石油工业的主要算法有：支撑向量机（SVM），模糊逻辑（FZ），遗传算法（GA），随机森林（RF），粒子群优化算法（PSO）以及广泛应用的人工神经网络（ANN）等. 基于RF 算法，Aliyuda 等[30]建立了对采收率和油井产量的预测模型，预测结果与实际的输出极为匹配. Ahmadi和Bahadori[31]利用最小二乘支撑向量机（LSSVM）方法准确预测在油井开发过程中水气的突破时间，并通过GA 进行算法优化. 同时，支撑向量回归方法也被应用于非均质储层的渗透率预测[32]以及裂缝预测中[33]，都表现出了优越的性能. El-Sebakhy[34]提出了一种神经模糊推理系统来评估原油系统中的压力-体积-温度特性. Patel 等[35]应用遗传算法很好的解决了油田通过循环蒸汽来采油问题. GA 算法也适用于特低渗透油藏井排距设计[36]. 而PSO 算法则被多次应用于油田井位的优化等[37-38]. 另外，Ahmadi等[39]也利用混合了PSO 算法的人工神经网络预测储层物性. 由此可以看到，机器学习方法的互相结合在油田开发及生产方面会有更广阔的的应用空间.

图 8 油气行业常用人工智能算法Fig.8 Artificial intelligence algorithms commonly used in the oil and gas industry

人工神经网络是受人类大脑的生物学习过程启发从而创造出的一种机器学习算法，其内部具有与人类神经元类似的高度关联的节点，可以学习数据中的非线性映射特征从而建立预测、函数逼近、算法优化等. 由于此类算法极为适合在数据关系模糊、数据不完善等不确定性条件时去挖掘数据潜在规律进行分析，因此在石油工业领域已经广泛运用并有着极佳的预测效果. 早在20 世纪90 年代，人工神经网络就被运用在油田沉积微相的识别[40]、采油井产量[41]和自喷井井底流压的预测[42]、水淹层测井的评价[43]等. Negash 和Yaw[44]整合了油管压力、温度，套管压力，注水压力及注水量等参数，利用带有外部输入的自回归网络（NARX），准确的预测生产井的油、气、水产量.

随着深度学习的发展，国内外大量学者也开始着手致力于深度学习算法与石油工业相结合的研究. 其主要应用的深度学习算法包括反向传播神经网络（BPNN），卷积神经网络（CNN），循环神经网络（RNN），深度置信网络（DBN），生成对抗网络（GAN）以及混合神经网络模型. 基于BPNN，Carpenter[45]根据超过200000 地质数据点以及800多口井的特征数据，构建了一个基于地质驱动和深度学习的多级水力压裂水平井最终采收率的预测模型. Korjani 等[46]将目标井方向、角度、位置、深度与电阻率结合，运用此方法去生成了位于加利福尼亚某油田中特定位置的测井数据. You 等[47]基于BP 神经网络并结合了粒子群优化算法，完成了对毛细管压力曲线的重构和预测. 王安辉等[48]通过深度学习网络考虑了压力及孔隙度等因素，预测岩石的压缩系数. Wang 等[49]改进了深度神经网络对致密油气藏产量进行预测. 利用CNN，李道伦等[50]基于卷积神经网络根据实测压力及对应导数数据，准确预测油藏参数，例如流度比、储容比等，进而实现了对径向复合油藏自动试井的解释. Zhu 等[51]基于小波分解法为每个测井点构造多层图像，进而利用深层卷积神经网络完成了对测井的岩性解释. Huang 等[52]提出了一个可扩展的地震分析大数据平台，根据地震体数据，基于深度学习模型中CNN 对地质断层进行检测和识别. 同时CNN 还可用于油田故障诊断及检测等[53-54].对于RNN 而言，张东晓等[55]考虑了测井信息随深度的变化趋势，同时兼顾了不同测井曲线的内在联系，通过RNN 提出了一种人工生成测井曲线的方法，并在实际验证中取得了良好的效果. Tian 和Horne[56]基于永久井下压力计数据，将循环神经网络用于油藏模型识别和生产预测. 该方法在致密油气藏的产量预测方面也有着很好的效果. 除了上述三类主要的深度学习模型，还有一些深度网络模型也已经开始试探性的结合石油工业领域.Liu 等[57]通过深度置信网络（DBN）基于多个地震属性预测储层中砂体厚度，相比于BPNN 与支撑向量机，具有更好的预测效果. Cao 等[58]采用了五层DBN 用于识别了川西盆地气藏. 生成对抗网络（GAN）主要应用于地质勘探，Carpenter[59]提出一种利用GAN 对地震图像的重构的方法. 同时，GAN 也可用于超高分辨率地震反演[60]以及对地震分辨率进行增强[61].

当然，每个深度神经网络都有自己的优势以及本身的一些局限性，因此许多学者对于特定的应用背景，将不同的深度学习算法相互混合[62]，从而可以更好的对数据特征进行提取以及对神经网络进行优化. Xu 等[63]首先利用GAN 网络对不平衡的故障数据进行增强，然后再通过长短时记忆网络（LSTM）学习数据在时间维度上的相关性并对管道状态进行分类，从而预测管道是否发生泄漏. Alakeely 和Horne[64]将RNN 与CNN 的组合模型应用到了传统油藏模拟任务中. Lei 等[65]基于RNN 与CNN，建立了卷积循环网络模型并成功应用于地震相的波形分类. 除此之外，还有一些学者将神经网络与传统的机器学习算法相结合.Anifowose 和Abdulraheem[66]提出了一种结合功能网络、模糊逻辑和支持向量机杂交的网络模型，用于确定储层渗透率和孔隙度这两种重要参数.Amiri 等[67]利用独立分量分析（ICA）优化了BP 神经网络，进而可以对致密砂岩含水饱和度进行有效估计. Saemi 等[68]开发了一种基于遗传算法的神经网络模型，通过该模型来寻求测井数据与岩心渗透率可能存在的关联.

4 油气资源开发智能方法应用

油藏大数据平台的构建使石油工业能够打破“数据孤岛”等问题，将勘探、钻井、完井、生产等各领域数据提取融合，打造了一个数据质量好、关联性强、可信度高的油藏数据资源池. 当然，数据资源是石油工业的基石，如果把它比作我们手中的“武器”，那么人工智能就是决定这把“武器”能够发挥多大威力的关键所在. 众所周知，自21 世纪以来，机器学习和深度学习有着迅猛的发展，而且已经逐步与石油工业相结合，解决了许多复杂的石油工程问题，成为国内外学者们的研究热点.机器学习之所以能够受到石油工业研究人员的青睐，主要因为受限于现在的科技水准与设备，人们并不能准确的掌握地下的储层特性以及地质参数与动态数据之间存在的非线性关系，搞清这些非线性关系进而求出相关参数的解析解需要科技手段的提升和大量研究者们的探索，而机器学习的出现恰好能够解决石油工业面临的这种问题. 以深度学习[69]为例，它可以利用多层的网络结构自主捕获并学习输入变量与输出参数之间的非线性映射特征，并自主学习数据特征来建立数据之间的关系模型. 相比于一些常规的机器学习方法，在对大量数据进行处理过程中，深度学习会展现更为强大的对于数据特征的学习能力，表现出更完美的预测性能等. 本章结合几个实例，介绍下常用的深度学习方法及在油藏工业各领域的应用.

4.1 储层物性参数智能预测

油田的开发中储层的物性参数极为重要，如孔隙度、渗透率等. Wu 等[70]利用深度卷积神经网络识别数字岩心，同时将孔隙度和比表面积作为物理延伸放入该网络中预测岩心渗透率. Alqahtani 等[71]通过卷积神经网络学习高分辨率数字岩石图片的孔隙特征，从而对孔隙度、平均孔径等作出准确预测.

如图9 所示为基于数字岩石图片预测物性参数基本流程. 利用高分辨率数字成像技术获取数字岩石或岩心照片作为深度学习模型的输入数据，通过格子玻尔兹曼及分水岭等算法基于数字图片获取岩心渗透率及孔隙度等参数作为输出数据，每个岩心图片以及其对应的物性参数为一组样本数据. 收集大量样本数据构成样本数据集，并按照一定比例划分为训练集和测试集. 利用训练集的数据通过反向传播算法训练卷积神经网络，训练好的CNN 模型可以通过数字岩心照片直接得到对应的物性参数，基于测试集对训练好的最优模型进行测试. 从测试集结果可以看到，预测值与真实值的散点分布图主要在Y=X 直线附近，说明卷积神经网络利用数字岩心图片对相应物性参数的预测是有效且可靠的.

4.2 井间连通性智能评价

图 9 基于卷积神经网络的储层物性预测流程Fig.9 Reservoir property prediction process based on convolutional neural network

受限于储层地质条件的复杂性以及现如今科技水平的局限性，我们无法根据地质结构对井间的连通性作出准确评价. Du 等[72]将油藏数值模拟与深度学习相结合，通过深度神经网络建立了油田现场较易获取的动态生产数据与储层平均渗透率之间的关联，并基于平均渗透率来表征井间连通性. 首先通过数值模拟技术，基于不同的储层条件下利用有限差分方法得到对应的产油量、含水率以及井底流压等信息，如图10 所示，并分别利用深度BP 神经网络以及卷积神经网络根据动态生产数据对储层的区域渗透率进行反演，同时该模型还结合了“dropout”技术以及“Adam”优化算法以解决神经网络的过拟合等问题，经验证，该网络对于渗透率预测的平均相对误差可以低至12.37%，预测结果中横轴为参考的渗透率真实值，纵轴Trained-K 为深度学习网络的的渗透率，理想状态下，当预测值与真实值相等时其散点分布应该集中于x=y 这条直线上，其预测结果基本都集中在理想状态的直线周围，有良好的预测效果.

图 10 基于深度BP 神经网络的储层连通性预测[72]Fig.10 Reservoir connectivity prediction based on deep BP neural network[72]

4.3 剩余油饱和度智能预测

无论是卷积神经网络还是其他深度学习网络，在进行预测时输入与输出参数之间是相互独立的，换句话说，他们的输出结果只考虑了当前的输入，并不考虑其他时刻的输入情况，没有序列上的关联. 因此，递归神经网络应运而生，它内部存在一个允许信息逐步传递的循环网络结构，在对当前步的计算中，其输出结果不仅与当前步的输入有关，还依赖于上一步的输出，就如同有了对过去数据的记忆能力[73]. 油藏领域中，有许多与时间序列有关的参数，比如产量、压力、饱和度等会随时间变化. 如图11 和12 所示，Zhang 等[74]利用RNN 的变种网络LSTM 深度学习模型，去学习储层压力场、含水饱和度场以及产量的历史变化数据，预测未来的剩余油饱和度分布，并与数值模拟预测结果进行对比可以对油田的二次开发进行有效指导. 图11 为基于LSTM 神经网络的产量与剩余油分布预测流程，包含了由遗忘门、输入门和输出门组成的LSTM 神经网络的单元结构，其中tanh 和σ 为网络中相应的激活函数. 图12 为含水饱和度及压力场的预测效果对比图，图中黑色圆点为井位及相对应的井号.

5 总结与展望

自2014 年以来，将大数据、机器学习、人工智能融入到油气工业领域的相关研究呈现爆发式增长，国际石油公司和油服巨头们加速了对数字化智能化油田的建设. 打造面向油气资源开发的大数据智能平台，其总体框架应先以Hadoop、Spark和Storm 大数据存储与计算的混合架构为基石，建设集油田勘探、开发、生产数据于一体的油气数据资源池，然后通过数据清洗与融合提升数据质量、加强数据关联，进而打破“数据孤岛”现象，再利用研究的人工智能算法深度剖析油气数据间的隐含特征，并依托于可视化技术，通过PC 端、管控大屏、手机移动APP 等多维平台实现智能监测、预警与展示，直观的服务于油气行业不同受众群体，真正挖掘石油工业数据的巨大潜能，孕育全新的油气革命. 最后阐述了近年来广受各国研究学者关注的深度学习方法在油气工业领域的应用实例.

图 11 基于LSTM 神经网络的产量与剩余油分布预测流程Fig.11 Prediction process of production data and remaining oil distribution based on LSTM neural network

图 12 基于LSTM 神经网络的剩余油饱和度分布预测效果Fig.12 Prediction effect of remaining oil distribution based on LSTM neural network

当然，依托大数据智能平台建立油气行业新的生态圈所面临的核心问题是如何将“数据资源”转化为“数据资产”，充分利用数据资源服务于社会，主要面临以下三个问题. 一是如何基于油气行业数据的特性建立统一的数据标准体系，在面向不同石油公司或者研究机构时，增强数据资源池的可扩展性及包容性，这就要求油气行业以及计算机领域的专家们深度结合，完成油气工业数字化转型. 二是如何利用大数据、人工智能等技术进行数据挖掘以及优化分析，我们需要彻底打通上游、中游及下游数据壁垒，通过知识图谱、数字孪生、深度学习等智能算法与技术，以实际应用场景为导向，更好的完成油气勘探开发以及输运调度，从而节约经济成本避免资源浪费，实现油气工业智能化飞跃. 三是如何保证数据安全，油气数据极为重要且敏感，因此油气大数据智能平台需要牢靠的数据安全保证体制，同时上中下游的各个企业以及用户要奠定坚实的“信任”基础，这就需要油气区块链的搭建，依托智能合约建立可靠的合作机制，保证油气交易以及数据的使用具有公开透明可溯源等特征.

未来，建设全新的油气工业智能生态系统，需要石油公司与科研院所通力合作，以数据资源为基础、大数据平台算力为支撑、人工智能算法为核心，面向油气行业生产需求，结合边缘计算的实时处理与云计算的大数据分析能力，融合物理模拟与数据挖掘等手段，实现服务功能模块化，最终形成集油气行业多源异构数据的收集存储、清洗融合、挖掘分析、可视化服务于一体的全新智能油气生态圈，实现降本增效、产业升级.

致谢

感谢中国工程院油气领域专家韩大匡院士对本文指导及建议.