陈 跃,王丽雅,李国富,张 林,杨 甫,马卓远,高 正
(1.西安科技大学地质与环境学院,陕西西安710054;2.煤与煤层气共采技术国家重点实验室,山西晋城048000;3.陕西煤层气开发利用有限公司,陕西西安710065;4.自然资源部煤炭资源勘查与综合利用重点实验室,陕西西安710021)
目前,中国煤层气商业开发多集中于中、高煤阶储层,但低煤阶煤层气资源量丰富,具有非常大的开发潜力[1-2]。煤层气的选区是煤层气勘探开发的根本,将会直接影响到煤层气的勘探开发效率,而开发选区评价指标及方法的恰当性、合理性以及客观性,将会关系到评价结果的精确性[3-5]。因此,应将研究区内煤层气资源的基本特点作为煤层气开发选区评价的基点,开展综合地质的研究与评价。
诸多学者针对煤层气开发选区预测采用了多种研究方法。王金等[6]根据寿阳区块煤层气相关资料,提出“避水采气法”,为甄选煤层气排采井位,提升单井产能提供了依据;XU 等[7]从煤层厚度、含气量、水文地质条件、顶底板岩性和埋深等方面,综合分析了煤层气开发选区;陈晓智等[3]、姚艳斌等[8]、邵龙义等[9-11]、FU等[12]运用多层次模糊评判法建立了相关煤层气地质选区的评价体系;刘人和等[13]、张小东等[14]、王鹏等[15]、LIU 等[16]依据模糊综合评价的理论,建立评判体系对煤层气开发选区做出了预测;刘灵童等[17]、白利娜等[18]基于灰色关联理论,对煤层气有利井区进行了优选;张嘉睿等[19]使用熵权法(Entropy Method)明确各影响因素的权重,通过K均值聚类法对评价结果进行划分,运用MapGIS 圈定不同类型开发前景分区;罗金辉等[20]在建立组合权重向量时,所采用的方法是灰色关联分析和层次分析法,经过多层次多目标模糊优选模型对研究区进行甄选排序,最终对煤层气选区做出了评价预测。但以上评价方法一定程度上均具有主观因素和经验因素,因此,为了评价结果的客观性,有必要引入机器学习中训练样本式算法,排除人为主观因素[21-25]。以大佛寺井田为例,运用随机森林算法预测大佛寺井田煤层气后续的开发选区,以期为该区后续开发、井位部署提供一定的理论参考依据。
随机森林(Random Forest)是采用决策树作为弱分类器,可以看作是装袋算法(Bagging)集成学习的一个拓展。随机森林以决策树为基本模型,通过构造不同的训练数据集以及不同的特征空间来产生一系列具有差异性的决策树模型,最后的决策一般用投票或取平均值来得到。随机森林首先使用自助法(Bootstrap)重采样技术,从原始训练样本集T中有放回地重复随机抽取n个样本(一般为三分之二)生成新的训练样本集合;每一个独立抽取的训练样本用于训练一棵树,每一个棵树都有着一致的分布;剩下没有被抽取的数据集被称为袋外数据(OOB),基于自助样本集生成的n个决策树组成森林。随机森林模型具有以下优越性:①训练速度快,易于应用在大规模数据分析中;②因为使用的是集成算法,此模型的精度一般会高于大多数单一算法;③因为引入了随机性,模型会不易造成过度拟合;④能够在不用特征选择的情况下处理高纬度数据,有着较强的数据集适应能力,并且数据集不需要规范化处理[26]。
当建立每一棵分类与回归树的时候,每个节点分裂过程依靠计算分裂后的样本“纯度”来完成,基尼系数被用于分类与回归树来评定这种所谓的“纯度”,基尼系数越小则代表样本的纯度越高,树划分的效果越好。假设样本集T中包含k个类别,那么样本集的基尼系数则展现为:
式中:pi是T中包含i类的概率。
若将T划分为两个子集T1和T2,则划分后的基尼系数可以表示为:
鄂尔多斯盆地煤层气资源量丰富,可采储量2.80×1012m3,盆地内的黄陇煤田属于典型的低煤阶储层。自2010年至今,彬长矿区大佛寺煤矿建成了日产气量30×104m3的煤层气开发工程,取得较好成绩[27-28]。研究区内主要褶皱有安化向斜、祁家背斜、师家店向斜等,褶皱宽缓,延伸较远(图1),目前部署的井位主要集中在中东部,延安组4号煤为井田内的主采煤层,煤层中节理、裂隙发育程度高,煤层具有变质程度低、厚度大、含气量较好、渗透性好的特点,利于开采。但随着煤层气资源持续开发,有必要对井田内其他可开发区域进行研究[29]。
图1 鄂尔多斯盆地大佛寺井田4号煤层底板等高线及构造示意图Fig.1 Schematic diagram of contour and structure of No.4 coal seam floor of Dafosi minefield in Ordos Basin
截至2020年,大佛寺井田共有27口直井,6口多分支水平井,1口U型井,共计34口煤层气井。
不同开发阶段的煤层气井,对于产气量的影响因素均有一定程度的差异,因此,煤层气开发选区所选评价指标也不同,且指标应具有全面性、客观性、代表性及工程意义。对于开发初期,评价指标应该首先反映煤层的生气潜力、储集性能和保存条件,具体包括煤层厚度、含气量、灰分含量、顶板岩性及厚度等指标。在此原则下,结合该井田煤层气资源的特征,依照已施工的煤层气井钻孔资料及相关数据,优选出影响煤层气开发潜力和产能的主要影响因素,选取资源条件(含气量、灰分、煤层净厚度)、赋存条件(构造位置、顶板厚度)、开发条件(渗透率、储层压力、埋深)作为评价指标,此外,本区的断层较少,主要为褶皱,为了定量研究褶皱对煤层气开发的影响,对定性指标(构造位置),分别赋值量化,翼部为0.7,向斜轴部0.8,背斜轴部1,建立研究区4 号煤煤层气开发前景评价指标体系[30](表1)。
表1 鄂尔多斯盆地大佛寺井田4号煤层评价指标参数Table 1 Evaluation index parameters of No.4 coal seam in Dafosi minefield of Ordos Basin
采用ArcGIS软件提取各评价因子图层(图2),用以检验因子间的关联性,并利用Pearson 关联系数(PCC)来分析各因子之间的关联程度,得到各因子间关联系数。
图2 鄂尔多斯盆地大佛寺井田评价因子Fig.2 Conditioning factor of Dafosi mine field in Ordos Basin
假设有开发选区评价因子样本数据集(Xi,Yj)=(x1,y1),(x2,y2),...,(xn,yn),则含气量、储层压力和渗透率等8个评价因子间相关系数的计算公式为:
式中:λPCC为Pearson 关联系数;xi、yj分别为Xi、Yj的变量值分别为Xi、Yj的平均值。
关联系数结果表明(表2)λPCC值越大,说明因子的相关性越强:当0 ≤|λPCC|≤0.4 时,因子不相关或弱相关;当|λPCC|>0.6 时,因子强相关。且所有因子间相关系数的绝对值均小于0.4,构造部位接近的因子系数也接近0.4,因此,研究选取的各因子可以认为是相互独立的,在后期训练中不会出现过渡拟合。
表2 开发选区评价因子关联系数Table 2 Factor correlation coefficient
由大佛寺煤层气井稳产阶段生产数据产气量可知,大佛寺井田煤层气井产气量差异较大。为区别高产和低产井,以稳产阶段1 200 m3/d 为界限,大于1 200 m3/d 为高产井,小于1 200 m3/d 为低产井。研究选用的煤层气井共计32口,其中高产和低产(非高产)井各16口。具体操作过程如下:首先运用ArcGIS将研究区分为30 m×30 m大小的栅格单元,全区共计划分为79 142 个像元,将基本栅格单元认定为评估单元,为使煤层气开发选区评价研究能够有充足的数据支持,在提取研究区各评价因子的属性值时,使用ArcGIS 栅格转点工具,建立区域属性数据库;然后,随机选取11 处高产井(约为总煤层气井数的70 %)与相同数量的非高产井属性数据作为训练样本集,余下的5 处高产井(大约是总煤层气井数的30%)与数量一致的非高产井点组成测试样本集;最后,基于MATLAB 软件平台,运用随机森林算法,随机森林计算过程中涵盖着2 个关键的参数,分别为ntree(森林中决策树的数量)和mtry(每次随机抽取的变量个数),研究中将ntree 和mtry 的值分别设为500 和3,得到模型的预测准确率为70%(图3),预测结果良好。因此,认为该模型可靠,可用于下一步评价全区。
图3 测试集预测结果对比Fig.3 Comparison of test set prediction results
将属性数据库导入训练好的模型之中,可以得到煤层气开发选区指数,区间为[0,0.948]。采用自然间断点法将其等级划分为5 类:Ⅰ类为极有利区,区间为[0.678,0.948];Ⅱ类为高有利区,区间为[0.51,0.678];Ⅲ类为中有利区[0.386,0.51];Ⅳ类为不利区,区间为[0.268,0.386];Ⅴ类为极不利区,区间为[0.03,0.268]。生成的煤层气开发选区预测结果如图4 所示,其中,极有利区面积、高有利区面积、中有利区面积、不利区面积、极不利区面积占全区的比例依次为4.53%、9.35%、32.02%、39.79%、14.31%。
图4 鄂尔多斯盆地大佛寺井田有利区预测结果Fig.4 Forecast results of favorable areas in Dafosi minefield of Ordos Basin
通过ROC 曲线对模型的性能进行检验,一般用成功率曲线与预测率曲线下面积(AUC)作为评定标准。成功率曲线是基于训练样本数据绘制而成,可有效地考察评价模型的分类能力。预测率曲线则是基于验证样本绘制而成,可对模型的预测能力进行评定。当AUC=1 时,预测的结果与高产井的实际分布完全一致;当AUC 值越接近于1,则检测方法精确性就会越高。将研究区按煤层气开发选区指数由高到低分为16 等份,通过计算参与训练的70%及参与预测的30 %的煤层气井在此范围内的累积百分比值,绘制基于随机森林评价模型下成功率曲线和预测率曲线,得到其成功率曲线(图5)。结果显示:随机森林模型的成功率曲线AUC 值为0.961,说明预测结果成功率非常高,采用随机森林模型预测煤层气开发选区在数学理论上具有较高的精度。
图5 AUC检验结果Fig.5 AUC inspection results
以大佛寺井田作为研究区,利用多源数据、ArcGIS 以及随机森林算法对区内煤层气开发选区预测,可以得到以下结论:
1)根据PCC相关分析,研究选取的8个参数(含气量、灰分、煤层净厚度、构造位置、顶板厚度、渗透率、储层压力、埋深)相互独立,可用于模型建立。
2)通过分析所得到的有利区分布图可知,高—极高有利区占整个研究区域的13.88%,主要分布在井田的中部。从预测分析结果的整体空间布局看来,井田的东南部不适于后续部署井位,而井田的西部存在高有利区分布,后续开发部署井位可着重考虑。
3)由ROC 曲线可得,随机森林模型的成功率曲线的AUC 值为0.961,随机森林算法展现了优秀的机能,在后续的研究工作中使用机器学习算法对井田内煤层气开发选区进行综合预测,可规避传统算法中的人为主观因素。