基于随机森林算法的陆相沉积烃源岩定量地震刻画：以东海盆地长江坳陷为例

2021-02-23 00:36赵峦啸刘金水姚云霞钟锴麻纪强邹采枫陈远远付晓伟朱晓军朱伟林耿建华

地球物理学报 2021年2期

赵峦啸，刘金水，姚云霞，钟锴，麻纪强，邹采枫，陈远远，付晓伟，朱晓军，朱伟林，耿建华*

1 同济大学海洋地质国家重点实验室，上海 200092 2 同济大学海洋资源研究中心，上海 200092 3 中海石油(中国)有限公司上海分公司，上海 200000

0 引言

传统的烃源岩评价主要基于钻井岩芯的地球化学或测井数据分析，这些方法往往不能对烃源岩的空间展布和非均质性做有效刻画(王贵文等，2002；闫磊等，2019；朱光有和金强，2002).而空间高分辨率反射地震数据为烃源岩空间展布刻画提供了可能，它对确定有效烃源岩的生烃规模、优质烃源岩的空间展布、刻画烃源岩的横向非均质性都具有重要意义，从而为盆地坳陷潜在资源量评估、勘探开发有利区块的优选奠定基础(母国妍等，2010；刘震等，2007).

富有机质泥页岩的地震岩石物理响应机理对揭示地震资料是否蕴含丰富的烃源岩信息具有重要的意义.很多学者都对非均质有机质泥岩(烃源岩)地震响应的岩石物理基础做过详细的研究(Breiman，1996；Vernik and Liu，1997；Carcione，2000; Sone and Zoback，2013；Carcione and Avseth,2015; Zhao et al.，2018，2020；邓继新等，2018)，一般来说高有机质含量会造成富含有机质烃源岩的纵波速度、密度和纵横波速度比的降低.Zhao等(2016)和Suwannasri等(2018)对不同成熟度下有机质泥页岩的弹性特征演化做了详细的研究.Zhu等(2011)、Sayers(2013)，Carcione(2001)从岩石物理的角度对烃源岩的地震属性和AVO(振幅随偏移距变化而变化)响应特征做了系统的分析.这些工作为揭示烃源岩的地震响应特征、利用地震资料定量刻画烃源岩的分布特征奠定了物理基础.

现有的烃源岩地震评价技术主要基于地震相或地震反射特征来定性评价烃源岩的厚度和分布规模(曹强等，2008).顾礼敬等指出深湖相沉积的烃源岩呈现低频率、强连续、高振幅的地震反射特征(顾礼敬等，2011).在定量刻画方面，则主要通过地震属性或叠后波阻抗与有机质含量的线性或简单非线性关系预测有机质含量的空间分布(Ogiesoba and Hammes，2014；张寒和朱光有，2007). Løseth等(2011)首次指出北海(North Sea)的烃源岩在叠前地震上显示出明显的IV类AVO特征，也就是负反射振幅强度随着偏移距的增加而降低，同时他们还指出利用叠后反演波阻抗与有机质含量的非线性关系可以预测有机质含量.黄艳辉等(2013)以烃源岩镜质体成熟度Ro与孔隙度之间的乘方关系为基础，并利用从地震数据中预测的地层速度对琼东南盆地乐东—陵水凹陷的烃源岩成熟度进行定量预测；徐新德等(2013)联合地化、测井、地震数据利用地震反演和多地震属性对优质烃源岩的平面展布进行预测.Bredesen等(2015)提出利用岩石物理模型约束来区分含气砂岩和烃源岩，并利用岩石物理反演对有机质含量及其不确定性进行评估.刘志斌等(2016)以渤海湾盆地辽西凹陷为例综合利用地震反演以及波阻抗和有机质含量的拟合关系对优质烃源岩进行预测；del Monte等(2018)也提出了富含有机质的突尼斯Tanezzuft烃源岩呈现典型的IV类AVO反射特征，并提出一种指示烃源岩质量的“甜点”地震属性.

需要指出的是，这些技术主要用于海相或是深湖相沉积的烃源岩，因为其应用主要依赖两个条件，一方面烃源岩要有连续的强反射特征，另外一方面烃源岩的叠后波阻抗和有机质含量之间满足较好的线性或简单非线性关系(Løseth et al.，2011).然而，陆相沉积环境下的浅湖或半深湖相的烃源岩横向变化快，有机质泥页岩与砂岩频繁互层，烃源岩厚度变化大，因而地震相分析很难对烃源岩进行准确描述(傅恒等，1996).此外，由于陆相沉积环境下地震弹性-岩性-有机质含量映射关系非常模糊，弹性参数或地震属性与烃源岩评价参数(有机质含量)之间是一种非常复杂的映射关系，只利用线性或简单非线性拟合关系很难对其地震岩石物理特征进行全面准确描述.

针对这些挑战，可以采用机器学习去解耦陆相沉积环境下地震弹性与岩性和有机质含量非常复杂的非线性映射关系.目前多种机器学习算法都被应用于基于地震或测井数据的岩性、储层参数、烃源岩和地质特征预测(Cracknell and Reading，2013，2014；Xie et al.，2018；陶倩倩等，2015；季少聪等，2018；宋建国等，2016；张东晓等，2018; Zhou et al., 2020)，如支持向量机、模糊逻辑、深度神经网络等.针对小样本的机器学习训练和预测，集成学习算法被证明在预测准确率和泛化性能方面具有明显的优势.随机森林算法基于集成学习的思想对传统的决策树方法进行优化，其本质上是一个整合了多个弱分类器的强分类器(Breiman，1996，2001).它有效提升了决策树的泛化性能，能够很好地处理具有高维特征的输入样本，并可评估各个特征在分类和参数预测等问题上的重要性，也不需要进行大量的参数调试工作，具有较高的准确率和迁移学习能力.

本文在机器学习框架下，充分利用带有标签的测井数据和叠前地震反演结果，采取了先预测岩性再预测总有机碳含量的“两步走”策略，通过将泥岩地层首先筛选出来，再从泥岩地层中预测优质烃源岩，从而降低了陆相沉积盆地烃源岩定量地震刻画的不确定性.利用随机森林算法对测井数据、钻井数据标定的岩性、地球化学分析标定的烃源岩评价参数(总有机碳含量wOTC)进行机器学习训练,并生成用于表征“弹性-岩性”和“弹性-总有机碳含量”映射关系的机器学习网络.再将该机器学习网络与叠前地震弹性参数反演结果结合，进而预测烃源岩的宏观空间分布和品质特征.此外，本文还提出了一种基于随机森林算法对岩性预测不确定性进行定量表征的策略，从而可以为油气盆地烃源岩的风险评价提供技术支撑.

1 地质背景

东海新生代陆架盆地为大型断陷盆地，表现为多个沉积沉降中心，依据裂陷期地层的发育特征，可将其划分为西部坳陷带和东部坳陷带，两大沉降带.其中，西部坳陷带裂陷期为晚白垩世至古新世，渐新世开始裂陷中心向东迁移至东部坳陷带.长江坳陷位于东海新生代陆架盆地东北部，属于其西部坳陷带，主要发育上白垩统-古新统美人峰组、始新统长江组及中新世以来的区域沉降地层(刘金水等，2003).其中，美人峰组为裂陷期沉积，地层厚度最大且受控盆断裂控制局限分布于断陷盆地内部，并向断层下降盘方向显著增厚，主要发育陆相湖盆沉积，为本区主力烃源岩层.钻井揭示，美人峰组地层主要表现为黑色和灰黑色泥岩与砂岩的频繁互层，缺乏中国东部其他典型陆相盆地厚层且稳定的深湖相泥岩沉积.总体而言，本区裂陷期，沉积环境变化较大，湖相沉积不稳定，砂泥岩频繁互层.

长江凹陷美人峰1井在美人峰组中见多个油气显示层, 岩芯的芳香味浓厚，含较高的氯仿沥青“A”含量，表明该区具有一定的生油气潜力(赵艳秋，2003).美人峰组烃源岩的沉积环境主要受古盐度和古气候控制，表现为温暖潮湿的弱氧化淡水环境，有机质类型以III型为主，含少量II型.其主力烃源岩为美人峰组底部，有大量陆源有机质输入，水体盐度相对较高，有机质的保存条件较好，有机质的丰度较高，且有机质已经进入低成熟-成熟阶段.

2 随机森林算法

2.1 方法原理

Breiman(2001)提出的随机森林(Random Forest，简称RF)是一种以决策树为基础构建Bagging框架的集成算法(图1)，其具体步骤可以描述为

(1)对于每一棵决策树，将具有M个属性的N个训练样本数据进行N次随机且有放回的bootstrap抽样方法，从而构建得到训练集P；其中，部分数据在N次抽样之后始终未被抽取，不成为训练集样本，称为袋外数据；

(2)针对训练集样本生成相应的CART(Classification And Regression Tree)决策树T.RF从M个属性集合中随机抽取m(m

(3)重复步骤(1)到步骤(2)共n次，得到训练集P1,P2,…,Pn，相应生成的决策树T1,T2,…,Tn构成随机森林模型；

(4)待预测的样本根据已生成的随机森林模型得到预测结果.对于分类树，随机森林基于每棵树的分类结果，采用多数表决的手段得到目标样本的最终类别；对于回归树，目标样本的预测值则是所有树的预测值的平均值；

(5)将生成的随机森林模型应用于Q个验证集数据得到决策结果R1,R2,…,Rn，并根据步骤(4)得到验证集预测结果O，将其与验证集标签L比较从而对模型泛化能力进行评估，进而进行参数调优并获得最佳随机森林模型；

(6)最后，将H个预测集样本输入最佳随机森林模型中得到最终结果F.

对于分类和回归问题，随机森林采用不同的原则进行节点分裂.在分类树中，采用Gini指数(李航，2012)为计算原则.Gini指数定义为

(1)

其中，Gini(p)为当前节点的Gini指数，pk为节点数据集中第k类样本的比例，当前节点上共有K种类别.由式(1)易知，Gini指数越小表示类别分布越不均匀，集合的纯度越高，集合中被选中的样本被分错的概率越小.

在寻找最佳的分裂特征和阈值时，评判标准为

a*(t)=min[wleft*Gini(pleft)+wright*Gini(pright)],

(2)

其中，a*为当前节点的最优分裂特征，t为分裂阈值，Gini(pleft)、Gini(pright)、wleft、wright分别为节点划分后，左叶子节点与右叶子节点的基尼指数与样本权重.式(2)即表示在m个候选属性构成的集合中，寻找属性a和阈值t使得划分后叶子节点相比父节点的Gini指数最大程度降低.

在回归树中，采用最小均方差为评判标准：

(3)

其中，c是划分区域R内样本点的均值:

cm=ave(yi|xi∈Rm),

(4)

其中，R1(a,t)={x|xa≤t}和R2(a,t)={x|xa>t}是被属性a和阈值t划分后的两个区域(李航，2012).式(3)表示遍历候选属性集合A中的所有特征并对固定的特征扫描所有取值，寻找最优的切分特征a和最优的切分点t，使其满足R1和R2内样本的均方差最小，同时R1和R2的均方差之和最小.

数据集的泛化误差由偏差、方差和噪声构成.由上述步骤可见，随机森林算法在样本扰动的基础上，进一步在决策树的训练过程中引入特征随机，增加了决策树的多样性，因而随机森林集成模型与决策树子模型的偏差和方差具有如下关系：

(5)

(6)

即随机森林模型因决策树之间的差异使得方差降低，从而提高了泛化能力.

相比于其他机器学习方法，随机森林具有原理简单、易于使用即参数较少的特点.在scikit-learn的随机森林库中，该算法的参数主要包括bagging框架参数中的决策树棵数(n_estimators)，决策树参数中的最大特征数(max_features).决策树棵数太少容易欠拟合，增多则能提升模型预测准确率但同时会增加计算量，并且当其增大到一定的数量后，模型性能提升会很小.最大特征数太少影响模型的预测效果，太多则会降低模型泛化效果，增加计算耗时.此外，步骤(4)中描述的参数调优除了选择其他数据作为验证集外，随机森林算法还可以直接对bootstrap重采样方法中产生的袋外数据进行预测，这为测试模型的泛化能力提供了便捷.

2.2 不确定性表征

随机森林算法还能够返回每棵决策树对每种类别的投票结果.如果某种类别得到了大多数选票，那么就能认为此时的预测是相对可靠的；相反地如果每种类别得到的票数都差不多，那么此时的预测就是比较有风险的.可以用variance来衡量这种不确定性(Cracknell and Reading，2014)，如式(7)所示.

图1 (a) 随机森林算法的训练及验证过程； (b) 随机森林算法的预测过程Fig.1 (a) Training and verification process of random forest; (b) Prediction process of random forest

(7)

其中C指类别的个数，pc指某个样本属于类别c的概率，定义为

(8)

其中T指决策树棵数，Tc指投票给类别c的决策树棵数.在后续的烃源岩地震刻画流程中，可以用公式(7)和(8)对砂泥岩岩性预测的不确定性进行表征.

3 机器学习框架下的烃源岩定量地震刻画工作流程

基于机器学习的烃源岩定量地震刻画的主要工作流程如下(如图2所示)：

(1)构建用于砂泥岩区分和烃源岩质量评价(总有机碳含量)的学习样本：从钻井或录井获取岩性标签(砂岩和泥岩)、从测井数据中获取用于砂泥岩区分和烃源岩评价的弹性特征(如纵横波速度、密度、纵横波阻抗等)，基于ΔlogR方法从测井数据中获取用于机器学习的总有机碳含量(Passey et al.，1990)，并与地球化学测试数据进行标定；

(2)针对经过钻井和录井标定的岩性数据和经过地球化学测试标定的总有机碳含量测井数据，利用相关机器学习算法(随机森林)分别获得表征砂泥岩岩性与弹性特征映射关系的机器学习网络1和表征烃源岩评价参数(有机质含量)与弹性特征的机器学习网络2；

(3)针对叠前地震数据进行叠前弹性参数同时反演(Buland and Omre，2003；Zhao et al.，2014)，获得纵波速度、横波速度、密度、纵横波阻抗等相关弹性参数；

(4)将叠前地震反演弹性参数结果与机器学习网络1(分类问题)相结合，获得勘探区的砂泥岩岩性区分空间分布；

(5)在步骤(4)获得泥岩空间分布的基础上将叠前地震反演弹性参数结果与机器学习网络2(回归问题)相结合，获得勘探区泥岩部分的总有机碳含量和有效烃源岩空间分布.

4 随机森林算法学习样本准备

为获得表征砂泥岩岩性与弹性特征映射关系的机器学习网络1和表征烃源岩评价参数(总有机碳含量)与弹性特征的机器学习网络2，在训练模型之前有必要对钻井或录井数据及测井数据进行预处理，以得到机器学习可以识别的岩性标签及用于机器学习训练的总有机碳含量样本数据.

东海盆地长江坳陷为典型的低勘探区域，该研究区只有一口探井MRF-1井.图3a为地层划分结果，从上到下依次为长江组、MFR-6段、MFR-5段、MFR-4段、MFR-3段、MFR-2段、MFR-1段；图3b是根据勘探区MRF-1井钻井和录井标定的砂泥岩岩性，其中白色是砂岩，黑色是泥岩.由于随机森林算法更易于对数字进行识别操作，对于岩性文本标签“砂岩”和“泥岩”，将其编码转化为数字标签“0”和“1”.美人峰1井的岩性特征显示，美人峰组由下至上岩性变化大、差异显著，整体上可分为六个段(第一段：3639～3906 m；第二段：3448.5～3639 m；第三段： 3118.5～3448.5 m；第四段：2718～3118.5 m；第五段：2350～2718 m；第六段：12.5～2350 m)：第一段至第四段主要为灰色-黑色泥岩、粉砂质泥岩夹灰色砂质岩；第五段主要为灰色泥岩与浅灰色砂质岩互层；第六段岩性具二分性，上部以杂色泥岩夹砂质岩为主，下部以粗颗粒砂砾岩为主.针对岩芯的地球化学测试仅能够获取极少量的总有机碳含量数据样本，这将限制机器学习对有机质含量与弹性特征关系的学习网络构建，造成模型可信度不高及预测准确率低的结果.Passey在1990年提出的适用于有机质泥页岩的ΔlogR测井评价方法，能够计算出不同成熟度条件下的总有机碳含量，是一种相对较成熟的方法，目前在烃源岩评价中已得到广泛应用.

ΔlogR法经验公式为(Passey et al.，1990)

wTOC=10(2.297-0.1688Ro)ΔlgR.

(9)

根据声波时差和电阻率叠加计算ΔlgR的代数方程是

(10)

式中,ΔlgR为实测曲线间距在对数电阻率坐标上的读数；wTOC为总有机碳含量(%)；R为测井实测的电阻率；Δt为测井实测声波时差；Rbaseline为非生油岩对应的电阻率 Δtbaseline为非生油岩对应的声波时差.

针对MRF-1井泥岩段的测井数据，基于该方法可以得到具有更多样本的总有机碳含量测井数据.需要指出的是，在实际使用的时候我们考虑了地层压实效应对声波时差基线的选择，如图3e所示，美人峰四、五、六段和美人峰一、二、三段的声波时差基线有明显的区别.我们分别选择了2.79×10-4s·m-1和2.30×10-4s·m-1作为该口井美人峰四、五、六段和美人峰一、二、三段的声波时差基线.图3h为根据ΔlogR法预测得到的总有机碳含量，其中紫色的圆点为根据地球化学方法实测得到的总有机碳含量.可以看到基于ΔlogR法预测的总有机碳含量与地球化学实测(热解法)的数据有较好的对应关系，能够较好的刻画泥岩中总有机碳含量纵向上变化趋势.这些经过标定的数据为砂泥岩岩性-弹性特征和总有机碳含量-弹性特征的随机森林学习提供了训练样本.

图3 MRF-1井的测井数据从(a)—(h)依次为地层划分结果、录井标定的岩性、GR、孔隙度、纵波速度、电阻率、密度，根据ΔlogR法预测的总有机碳含量(wTOC).3b的岩性标签中：白色是砂岩，黑色是泥岩；3h的预测总有机碳含量曲线中紫色的圆点为根据地球化学方法实测得到的总有机碳含量标定结果.Fig.3 MRF-1 well logging data(a) to (h) in turn for stratigraphic classification, lithology, GR, porosity, P-wave velocity, resistivity, density, the predicted total organic content based on the ΔlogR method. For the lithological profile in 3b, the white and black color represent the sandstone and shale respectively. The scattered purple dots in 3h are the calibration results based on the Rock-Eval analysis.

5 针对测井数据的随机森林算法测试和网络构建

5.1 考虑压实效应的岩性预测测试

由于MRF-1井测井数据的弹性特征只有纵波速度和密度，图4显示了MRF-1井不同岩性(砂岩和泥岩)纵波速度和密度的交会图.可以较为清楚的看到，如果不分地质层段(图4a)，MFR-1井砂岩和泥岩的纵波速度和密度重合度很高，岩性预测准确率较低.图4b则显示了不同地质层段的纵波速度和密度交会图，可以清楚地看到压实效应对弹性特征的影响：随着深度的增加，由于砂岩的孔隙度在逐渐降低(图3d)，其密度和纵波速度都有明显的增加趋势，而泥岩的弹性特征则分布在一个相对稳定的区间.这样考虑压实效应并通过地质层段的局部约束，有利于降低砂泥岩区分的不确定性.所以，根据对该研究区砂泥岩地震岩石物理特征的分析，拟采取对不同深度段沉积地层的岩性采取分段训练分段预测的思路，可以有效去除压实效应对岩性-弹性特征的影响.

为了检验随机森林算法在“小样本”数据中网络映射能力，如图5和图6所示，这里将随机森林算法与其他四种机器学习算法(模糊逻辑(Bosch et al.，2013)，概率神经网络(Kotsiantis，2007)，支持向量机(Cracknell and Reading，2014)，基于Google TensorFlow 的深度神经网络(Schmidhuber， 2015)的岩性预测效果进行了比较.每一种机器学习算法基于纵波速度和密度两个弹性参数与砂泥岩岩性的学习样本建立机器学习网络1，进而采取分段训练分段预测的方法对MRF-1井砂泥岩进行岩性预测的结果.其中白色、红色、黄色、紫红色分别代表长江组、美人峰五-六段、美人峰三-四段、美人峰一-二段的砂岩，黑色、蓝色、绿色、青色分别代表长江组、美人峰五-六段、美人峰三-四段、美人峰一-二段的泥岩.五种机器学习算法用于岩性预测的关键调节参数如表1所示，这些调节参数都根据每一种机器学习算法最优表现搜寻得到.表2展现了随机森林算法与其他几种机器学习算法在岩性预测准确率上的比较，其中每一段地层随机选取80%的数据训练，100%的数据进行检测.随机森林的岩性预测准确率达到了95.1%，其岩性预测准确率明显高于其他几种机器学习算法(模糊逻辑，概率密度神经网络，支持向量机，深度神经网络)，这也一定程度验证了随机森林算法比其他算法更适合陆相弹性-岩性映射关系模糊条件下的岩性预测问题.图5c为根据公式(7)和(8)计算得到的岩性预测不确定性，不难看出大部分岩性预测的不确定性都低于0.3，也证明机器学习算法对MRF-1井岩性与对应弹性特征关系有较好的表达能力.该训练网络也为后续利用叠前弹性参数反演结果进行砂泥岩空间分布预测奠定了基础.另外，如果不采取分段训练预测的话，岩性预测的准确率会相应的降低到93.63%，这也一定程度上说明了基于岩石物理分析和地质引导的机器学习模型有利于得到更加准确的岩性预测结果.需要指出的是，这里利用纵波速度和密度两个弹性参数而没有利用纵波阻抗进行岩性预测，也是因为前者的弹性参数组合在机器学习测试中能够给出更高的岩性预测准确率.

5.2 总有机碳含量预测测试

图7是基于随机森林算法建立纵波阻抗与总有机碳含量的机器学习网络2，采取分段训练分段预测的方法对MRF-1井总有机碳含量进行预测的结果，其中上段(a)代表MRF-1井总有机碳含量比较低的地层(美人峰四、五、六段，1700～3100 m)，下段(b)代表MRF-1井中总有机碳含量比较高的地层(美人峰一、二、三段，3100～3800 m).黑线为经过地球化学数据标定的总有机碳含量，红线为利用机器学习预测的总有机碳含量.需要指出的是，这里只针对泥岩段的数据进行训练和测试.上段和下段地层都选取80%的数据训练，100%的数据测试.如图7所示，利用随机森林算法预测的总有机碳含量与利用测井数据计算并标定的总有机碳含量有非常好的匹配关系，说明该机器学习网络可以有效刻画总有机碳含量在纵向上的空间变化.图7的第三和第四栏分别为基于传统的纵波阻抗和总有机碳含量的线性和非线性拟合关系预测的结果.表3为利用随机森林学习算法与传统的线性和非线性回归关系预测得到的总有机碳含量与实测总有机碳含量的相关系数对比，可以很清楚的看到随机森林算法比传统的基于弹性特征-总有机碳含量的线性和非线性回归关系在预测准确率方面有明显的提高.这也进一步证明，对于陆相烃源岩地层，弹性特征与总有机碳含量之间非常复杂的映射关系很难用传统的线性和简单非线性关系进行预测.

图4 MRF-1井 (a) 所有地质层段混合在一起的砂泥岩纵波速度和密度交会图； (b)不同地质层段的砂泥岩纵波速度-密度交会图及压实效应对弹性特征的影响Fig.4 (a) Crossplot of P-wave velocity and density of sandstone and shale for all the geological strata in MRF-1 well; (b) Crossplots of P-wave velocity and density of sandstone and shale separated by different geological strata.

图5 基于随机森林算法采取分段训练分段预测的方法对MRF-1井砂泥岩的岩性预测结果(a) 真实岩性； (b) 预测岩性； (c) 不确定性(概率).Fig.5 Lithofacies prediction results based on random forest algorithm (The training and prediction are performed at each geological section separately)

表1 不同机器学习算法进行砂泥岩岩性预测相关参数Table 1 Parameterization of different machine learning algorithms for sand and mudstone lithology prediction

表2 各种机器学习算法对MRF-1井岩性预测准确率对比Table 2 Comparison of the prediction accuracy of various machine learning algorithms for the lithology prediction of MRF-1 well

表3 不同算法对MRF-1井TOC预测相关系数对比Table 3 Comparison of correlation coefficients for TOC prediction at MRF-1 well based on different algorithms

图6 基于(a)模糊逻辑; (b)概率神经网络; (c)支持向量机; (d)深度神经网络，采取分段训练分段预测的方法对MRF-1井砂泥岩岩性预测的结果Fig.6 Lithofacies prediction results based on (a) fuzzy logic, (b) probabilistic neural network, (c) support vector machine, and (d) deep neural network. The training and prediction are performed at each geological strata separately

图7 利用不同的方法进行测井数据总有机碳含量预测的结果对比(a) 美人峰四、五、六段； (b) 美人峰一、二、三段. 第二栏为基于随机森林算法的预测结果，第三栏和第四栏分别为基于线性和非线性拟合关系的预测结果.黑线为基于ΔlgR预测的总有机碳含量，红线为利用机器学习预测的总有机碳含量.Fig.7 Comparison of TOC prediction using different methodsThe second column is the prediction results based on the random forest algorithm, and the third and fourth columns are the prediction results based on the linear and non-linear fitting relationships, respectively. The black and red lines represent and actual TOC and predicted TOC, respectively.

图8 研究工区内某条地震侧线的叠前弹性参数AVO同时反演结果(a) 纵波速度； (b) 密度.Fig.8 Simultaneous AVO inversion results o of a prestack seismic line in the study area (a) P-wave velocity； (b) Density.

图9 基于随机森林算法得到的砂泥岩岩性地震预测结果(a)和岩性预测的不确定性概率结果(b)Fig.9 (a) Seismic lithofacies prediction results of sandstone and shale, and (b) uncertainty probability results of lithofacies prediction based on random forest algorithm

图10 基于随机森林算法得到的总有机碳含量地震预测结果Fig.10 Seismic prediction results of TOC based on random forest algorithm

6 烃源岩的定量地震预测

6.1 叠前地震反演

图8是针对研究工区内某条过MRF-1井地震测线，利用常用的商业软件得到的叠前弹性参数(纵

波速度和密度)AVO反演结果.其中叠前角道集经过了较好的保幅处理，低频模型是基于MRF-1井的测井数据并利用地层格架引导的弹性参数建模的方法得到.不难看出，在CDP号2400左右处，叠前弹性参数反演结果获得的纵波速度和密度与实际测井数据显示有较好的对应关系，这也一定程度上证明了叠前地震反演能够较好地对地下弹性参数进行有效表征.同时，地震反演结果对断陷盆地内部的结构和断裂特征也进行了较好的刻画.整体来说，沉积盆地的纵波速度和密度都随着深度的增加而增高，但在目标区美人峰六段到美人峰一段内部仍然有一些低速异常.正如图1的工作流程所示，叠前地震反演结果为基于机器学习的砂泥岩和总有机碳含量地震预测提供了叠前弹性参数分布.

6.2 砂泥岩岩性地震预测

如图9a所示，得到叠前地震弹性参数反演结果后，可以联合测井数据生成的机器学习网络预测砂泥岩岩性的空间分布.过MRF-1井段的砂泥岩地震岩性预测结果与实际经过录井标定的砂泥岩岩性分布显示有较好的对应关系，很多细节都有较好的刻画.整体来说，长江组地层以砂岩分布为主，美人峰五段和六段砂泥岩互层，而美人峰一段和美人峰二段的泥岩分布最为集中，这都与实际录井的岩性分布吻合较好.图9b为岩性预测对应的不确定性分布，相对来说，美人峰一、二段到美人峰五、六段的不确定性低一些，而长江组顶部、美人峰三、四段以及缺乏测井数据的盆地底部不确定性较高.这些不确定性也是由地震反演结果和随机森林映射网络共同决定的.岩性预测不确定性的刻画对于盆地烃源岩潜力的风险评价也有重要的参考意义，如果不确定很高，则说明利用现有的地震和测井数据进行烃源岩评价的风险较高，反之则说明现有方法的可靠性较高.

值得注意的是，地震预测的砂泥岩岩性分布也与该陆相沉积盆地的沉积相结果较为一致，即从美人峰六段、美人峰五段、美人峰四段的砂泥岩互层浅湖相/半深湖相逐渐过渡为美人峰三段、美人峰二段、美人峰一段的泥岩为主的半深湖/深湖相.此外，需要指出的是，MFR-1井的测井数据并没有全部涵盖地震解释的层位，包括美人峰一段的部分地层以及石门潭组的地层，因此这两个部分的岩性预测仍然依赖的是其上段地层的弹性特征和岩性的映射关系，其不确定性也会高一些.随机森林方法预测的石门潭组的地层主要为砂岩，这与裂谷初期以河流为主的沉积体系一致，也与同时期具有相似构造背景和演化历史的丽水凹陷岩性一致.

6.3 有效烃源岩地震预测

图10为将基于测井数据得到纵波阻抗与总有机碳含量的随机森林映射关系(机器学习网络2)应用于叠前地震反演结果得到的总有机碳含量空间分布预测的结果.注意这里我们只显示了预测为泥岩部分的总有机碳含量预测结果.整体上，可以看到过MRF-1井段的总有机碳含量地震预测结果与经过地球化学标定的通过测井数据计算得到的总有机碳含量有较好的对应关系：总有机碳含量整体呈现由美人峰六、五段到美人峰四段缓慢下降，而在美人峰三、二、一段又增高的趋势，并且总有机碳含量在测井曲线上的几个局部高点(图3h)在地震上都能得到较好的刻画.但在一些层段的局部区域，地震预测的结果与测井数据计算得到的总有机碳含量不可避免的存在一些偏差，这应该与基于Passey方法得到的总有机碳含量和地震反演结果的不确定性都有关系.

7 讨论

对于联合测井和地震数据进行机器学习框架下的地质特征刻画来说，一般希望研究区内所包括的井位越多越好，这样可以提供更多的不同空间位置和地质特征的测井数据进行训练和预测，从而有效提高机器学习模型的泛化能力和迁移能力.而在本文中，研究工区内只有一口测井数据，故这里呈现的是一个“非典型”的机器学习框架下烃源岩地震预测的例子.毫无疑问，由于井数量的限制一定程度上制约了随机森林训练模型的泛化能力，但现有研究对于推进少井区烃源岩的定量地震刻画仍然有重要的启示意义：

(1)烃源岩的地震评价及其后续的潜在盆地资源评估很多都是针对少井或无井的低勘探区应用，现有研究证明了即使只有一口井，在机器学习框架下如果最大程度地利用现有资料，仍然可以有效的融合地质约束、钻井录井、测井数据、烃源岩地球化学评价、叠前地震数据等对烃源岩的空间展布进行有效刻画.需要强调的是，本文的重点是推荐在机器学习框架下如何整合多类别地学信息进行烃源岩定量地震预测的工作流程，为烃源岩的定量地震刻画提供新的思路，具体的应用效果与井位数量和地震数据品质都密切相关.并且本文提出的随机森林算法进行砂泥岩岩性预测不确定性刻画的思路，对于低勘探区盆地烃源岩风险评价具有一定的推广价值.

(2)在机器学习的有监督学习算法中，集成学习的最大优势就是组合多个弱监督模型来得到一个更好更全面的强监督模型，从而改进预测效果并提高预测准确率.随机森林算法作为最广泛应用的一种集成学习算法，它本质上利用的装袋的思想(Bagging)，通过有放回的抽样方法，改善了泛化误差(Breiman，1996，2001).同时，随机森林算法随机选取输入特征，也大大提高了模型的泛化能力，这些都在一定程度上弥补了只有一口井数据带来的模型泛化能力和迁移学习能力不足的弊病.所以对低勘探区陆相烃源岩的烃源岩预测，集成学习框架下的随机森林算法相较于其他机器学习模型(如人工神经网络、支持向量机等)有更大的优势.

深度学习通过增强模型结构的深度和复杂程度在图片识别、语音处理等方面显示出了巨大的应用潜力，但对于本文中呈现的地学“小样本”数据来说，很多机器学习算法往往有更好的表现，而深度学习很难发挥其优势从而充分的对数据特征进行表征，这主要还是受样本数量限制.图4、图5和表1的不同机器学习算法在陆相沉积地层岩性预测准确率的比较也一定程度上验证了这一点认识.

此外，需要指出的是，由于MFR-1井缺乏横波速度测井数据，本文中主要利用的是纵波速度和密度的弹性特征进行岩性预测，其他沉积盆地的训练样本中如含有横波速度，利用叠前地震数据进行岩性预测时可以充分发挥纵横波速度比对岩性比较敏感的特征，从而有望进一步提高岩性预测的准确率.对于缺乏横波速度的训练样本，下一步也可以考虑结合岩石物理建模来补充横波速度，并开展“模型驱动”+“数据驱动”结合的策略进行岩性和有效烃源岩的定量预测.

8 结论

针对陆相沉积盆地烃源岩地震弹性-岩性-总有机碳含量映射关系模糊不清的特点，在机器学习框架下，提出了综合利用地质约束、钻井录井、测井、地球化学和地震数据进行烃源岩的定量地震刻画的工作流程.整体来说，采取了先预测岩性再预测总有机碳含量的“两步走”策略，通过将泥岩地层首先筛选出来再进行有效烃源岩预测，可以进一步提高烃源岩定量地震刻画的可靠性.本文提出的利用随机森林算法对砂泥岩岩性预测不确定性刻画的策略，对于盆地烃源岩地震预测的风险评估也形成一定技术支撑.

由于沉积地层压实效应对岩性-弹性关系明显的控制作用，在地层格架约束下，采取地质导向下分段训练分段预测的思路，基于随机森林算法的岩性预测效果在过井段的准确率上优于其他机器学习算法；相比较于纵波阻抗与总有机碳含量的线性和非线性关系，随机森林算法有助于更好地解耦陆相(湖相)烃源岩品质(总有机碳含量)和空间分布与地球物理响应之间的复杂非线性映射关系, 并提高预测准确率.与常规阻抗转化方法相比，预测精度明显提升，总有机碳含量空间展布更为合理.