郭大立, 唐乙芳, 李曙光, 张天翔, 康芸玮
(1.西南石油大学理学院, 成都 610500; 2.中联煤层气国家工程研究中心有限责任公司, 北京 100095;3.中石油煤层气有限责任公司, 北京 100028)
中国致密气资源丰富[1],为了有效开发致密气资源,需要对致密气井进行增产改造,合理的压裂设计对压裂改造是至关重要的,开展致密气压裂施工参数优化方法的研究意义重大[2]。国内外学者对压裂施工参数优化做了大量研究。整体上压裂施工参数优化方法有3种:①基于数学模型或理论公式,采用离散元方法、变粒径和变排量技术等方法对压裂施工参数进行优化[3-4];②软件模拟技术,利用三维压裂软件FracproPT、Meryer软件和有限元软件ABAQUS等软件对压裂施工进行模拟[5-6],从而优化压裂施工参数;③机器学习,基于支持向量机、人工BP(back propagation)神经网络、大数据人工智能计算等方法建立了压裂施工参数优化模型[7-9]。姚锋盛等[10]利用压裂软件FracproPT对压裂施工液量、排量、加砂量等参数进行模拟分析,从而优化二次加砂压裂施工参数;龚训等[11]提出了针对不同区域特征的分带压裂法,并利用压裂软件PT对不同区块的压裂施工参数进行优化,从而得到不同区域的压裂施工参数。李铁军等[12]利用随机森林与交叉验证相结合的方法筛选出影响日产气量的地质工程主控因素,提出了熵值法的逼近理想排序法的综合评价方法的工程主控因素的最优区间确定方法;李凌川等[13]通过岩心实验和理论计算分析储层和天然裂缝等相关特征,应用数值模拟技术优化了压裂施工参数。
由于现场常用的压裂施工参数设计方案,基本上是根据储层的物性、岩性、岩石力学性质等影响参数,通过现场已有的压裂软件和数值模拟技术,从而计算得到压裂施工参数,但这些方法缺乏对其他致密气井储层施工经验的学习和借鉴,及只对压裂施工参数优化出了最优区间,没有优化出精准的施工参数值,结果不够精准[14-15]。而有些学者利用机器学习方法建立施工参数优化模型时,并没有讨论参数个数和模型参数配置对模型的影响,导致所优化得到的最优压裂施工参数不够精准[16-17]。因此,在现场压裂设计中对施工参数精准设计成为压裂施工的关键问题。
为了解决压裂施工方案精准设计的问题,合理设计压裂施工参数,达到致密气井增产的目的。在大数据和机器学习的驱动下,充分运用了大数据的特点。为了提高模型的泛化能力,讨论了模型的参数设置。现基于X区块97口井的测井数据,首先利用灰色关联分析筛选主控因素。再次讨论致密气井影响参数个数对BP神经网络模型的影响,并引入交叉验证对样本量不足时对模型的处理。最后基于反演思想,建立粒子群算法(particle swarm optimization,PSO)日产气量最优化模型,从而反算出最优压裂施工参数。为现场压裂施工方案精准设计提供一种新的方法。
在大数据和机器学习背景下,以数据为导向建立了致密气井压裂参数优化反演模型。建立反演模型过程中主要涉及的理论基础有灰色关联度分析、BP神经网络及粒子群算法。
在多元统计分析学中,应用于数据降维处理的方法主要有主成分分析、因子分析和灰色关联度分析等方法,这些方法都是多因素统计分析法。从数学意义上看,这些方法都是降维处理技术。基于数据的特征,主要使用灰色关联分析方法,该方法通过计算出的灰色关联度值来描述比较数列与参考数列之间的关系强弱,将得到的关联度值进行排序,从而达到对数据降维处理的目的。使得消除冗余的信息,更全面地提取出数据集的信息。高维数据作为BP神经网络的输入参数,将增加模型空间和时间复杂度,不利于模型的训练。由于各因素与平均日产气量间存在复杂的非线性,不能简单地通过一元线性模型判断两者之间的关联性。需通过计算各因素与平均日产气量间的关联度,并将各因素的关联度进行排序。
由于原始数据存在缺失、量纲、异常等问题,所以对数据进行灰色关联度分析时,需对原始数据进行预处理[18]。预测模型会受到数据量纲的影响,使得预测模型的预测结果不准确,即需要对数据进行归一化处理,归一化处理方法主要有平均数方差法和极差归一化法[19],本文中采用极差归一化。用于归一化处理的样本有97个,每个样本共有16个自变量,1个因变量,构成一个97×17阶的数据矩阵。
1.1.1 极差归一化
设p维向量X=(X1,X2,…,Xp)的原始矩阵为
(1)
式(1)中:n为样本数,n=97;p为每个样本变量数,p=17。
将原始矩阵X进行极差归一化后的矩阵为
(2)
i=1,2,…,n;j=1,2,…,p
(3)
1.1.2 计算灰色关联度
依次计算出16个参数的比较数列与参考数列(平均日产气量)间的绝对差值。
(4)
式(4)中:ρ为分辨系数,取值范围为(0,1)。若ρ越小,关联系数间差异越小,区分能力就越弱,一般ρ取0.5。
关联度为
(5)
在粒子群算法优化中,需建立自变量与因变量之间的映射关系为目标函数。本文中由于各因素与平均日产气量间存在高度复杂的非线性关系,用单一的多元线性关系并不能准确表示它们之间的关系,所以需建立BP神经网络[20]模型作为粒子群算法的目标函数。如图1所示,BP神经网络是解决不确定的控制系统、数据间存在高度复杂的非线性的一种方法,并且是一种分布式多线程并行处理信息的数学方法。BP神经网络主要由输入层、隐含层和输出层构成。位于输入层和输出层之间的是隐含层,它像是一个黑盒,是没有与外界数据有直接接触的一个神经元,对输入、输出间关系有较大影响,确定隐含层结点数对模型有无泛化能力至关重要。通过灰色关联度排序,只能确定各因素与平均日产气量间的强弱,并不能确定参数个数对BP神经网络模型拟合和预测误差的影响,即讨论参数个数对模型的影响是非常有必要的。BP神经网络模型训练过程中涉及多个参数,而参数的设置缺乏理论指导。精准的参数设置会使得模型的泛化能力更好,即讨论参数的设置对模型来说是至关重要的。
图1 BP神经网络结构Fig.1 BP neural network structure
当最优解为局部极大值时,可通过调节能力常量ω大小跳出局部解,从而找到全局最优解。第i个粒子的速度更新公式为
(6)
式(6)中:ω为能力常量,控制前一时刻速度对当前时刻速度的影响,为非负数;c1为调节粒子朝着自身最优方向的步长;c2为调节粒子朝着全局最优方向的步长;r1、r2为相互独立的伪随机数,服从[0,1]上的均匀分布。
第i个粒子的位置更新公式为
xi(t+1)=vi(t)+vi(t+1)
(7)
将每一个xi代入目标函数中算出一个适应值,将t+1时刻适应值与t时刻最优值进行比较。如果t+1时刻适应值大于t时刻最优值,则最优位置进行更新,否则不进行更新。
粒子i的当前最优位置为
(8)
最终搜索到每个粒子的全局最优解,从而反演出压裂施工参数最优值。
X区块位于鄂尔多斯盆地,基本构造格局为“一隆一凹两斜坡”,即一隆指的是中部的桃园背斜带,一凹指的是蒲县凹陷带,两斜坡主要指的是西部斜坡带和东部明珠斜坡带。收集、整理及初步分析了位于X区块致密气2013—2018年地质、压裂、排采等资料230 G,样本量达到170井次以上,其中只有97口井的测井数据是完整的,即样本量为97口井。
如图2~图4所示,平均日产量都是随着液量、施工排量和支撑剂量的增大而增大,对于产量而言施工排量和加砂量越大越好(大排量、大砂量),更容易形成复杂缝网,从而增加日产量,但压裂施工参数存在最优区间。根据压裂施工数据分析,针对不同的压裂液,压裂施工参数设计量是不同的。当压裂液是滑溜水时,液量设计为1 000~1 500 m3,支撑剂量设计为70~100 m3,施工排量设计为8~15 m3/min;压裂液是胍胶时,液量设计为100~500 m3,支撑剂量设计为20~40 m3,施工排量设计为2~6 m3/min,此时压裂施工效果较好,为后续压裂施工参数的精准设计提供了最优优化区间。
图2 液量与平均日产量图Fig.2 Diagram of liquid volume and average daily output
图3 支撑剂量与平均日产量图Fig.3 Support dose and average daily production diagram
致密气井压裂效果主要受致密气层地质因素和压裂施工参数的影响。初选出测井(电阻率、密度、声波时差、孔隙度、含气饱和度、层厚、自然伽马)、岩石力学(静态杨氏模量、泊松比、最小水平主应力、上隔层应力差、下隔层应力差)和压裂施工(液量、支撑剂量、平均砂比、施工排量、前置液百分比)共17个参数。其中测井和岩石力学参数是不可控参数,而压裂施工参数是可控参数。通过灰色关联度分析只知道各参数间的排序结果,如图5所示,从中优选出几个参数是不确定的,需考虑参数个数对BP神经网络模型拟合和预测精度的影响,由此来确定优选影响参数的个数。
图5 灰色关联度分析结果Fig.5 Grey relational analysis result
在利用机器学习进行模型训练时,为保证训练模型的泛化能力,往往是需要一定的训练样本量。如果训练样本量过少将会导致模型泛化能力弱。本文中由于样本量不充足,为了充分利用数据集对模型效果进行测试。在搭建预测模型时,需要将数据集分为训练集和测试集两个数据集,训练集的目的就是搭建模型和测试模型的拟合精度,而测试集的目的就是测试模型的预测精度。本文中为了提高模型的拟合和预测精度,在对模型进行训练时,将数据集随机分为k个包,测试集是随机选取其中一个包,训练集是剩余k-1个包,并将训练集进行训练。
由于样本量不足,为了充分利用数据,在训练模型时使用10重交叉验证。即将数据集随机分成10个包,每次训练时,测试集是从10个包中随机选取一个包,训练集是剩余的9个包,这样组成一组数据集。反复进行10次,组成10组数据集,将每组的数据集代入BP神经网络进行训练,如图6所示,求每组数据集中测试数据的误差平均值就是该模型准确率。本文中总样本有97口井,将90口井随机分成9个包,每个包中有10口井,剩余的7口井组成一个包,总共将数据分为了10个包,该方法在样本量低于50时就不适用。通过构建一个包含1层隐含层的BP神经网络,其隐含层结点数为9个节点。讨论不可控参数个数对模型拟合和预测误差的影响,如表1所示,参数个数对拟合和预测误差的影响是无规律的。在综合考虑拟合和预测误差下,优选10个参数(不可控参数:层厚、电阻率、泊松比、最小水平主应力、隔层应力差、孔隙度;可控参数:液量、支撑剂量、平均砂比、施工排量、前置液百分比),作为模型的输入参数。本文搭建的模型中,输入层到隐含层的神经元传递函数采用tansigmoid型函数,隐含层到输出层的神经元传递函数选择输出任意取值的pureline型线性神经元。将训练好的BP神经网络模型进行保存,为后续压裂施工参数优化做好铺垫。
表1 参数个数对BP神经网络模型拟合和预测精度影响结果
tansig函数为
(9)
式(9)中:n为变量。
BP神经网络模型为
(10)
式(10)中:y′为输出层计算结果;xi为输入层样本,即影响平均日产气量各因素;i为输入层节点数,i=1,2,…,10;j为隐含层节点数,
由于粒子群算法是一种简单易实现的方法,同时具有收敛速度快、解质量高、鲁棒性好等特征,因此从出现至今,被迅速应用到许多科学和工程领域。将BP神经网络训练好的模型,作为粒子群算法的目标函数。BP神经网络模型的输入参数中有可控参数和不可控参数,通过粒子群算法寻找目标函数(平均日产气量)的最大值,从而反演出可控参数的值,即压裂施工参数(液量、支撑剂量、平均砂比、施工排量)。
图6 BP神经网络训练流程Fig.6 BP neural network training process
基于海量的压裂施工数据,以大数据为导向建立粒子群算法的压裂施工参数优化新方法。通过建立的BP神经网络模型为目标函数,目标函数中共有10个变量,其中不可控变量有6个,可控变量有4个。在进行以平均日产气量为目标函数优化过程中,每个样本的不可控变量值不变,通过优化目标函数最大值,从而反演出可控变量的值。目标函数的约束条件为4个可控变量的最优区间,及平均日产量与可控变量的多元线性回归函数,其R2=0.987 5。通过调节粒子群算法中的参数,确定最优目标值下的c1和c2参数的值,确定c1=1.494 4和c2=1.237 6,及进化次数max gen=200和种群规模sizepop=300。
目标函数(最大值)为
(11)
式(11)中:xi(i=1,2,…,6)是不可控变量,为固定值;xi(i=7,8,9,10)是可控变量,为目标函数的自变量。
约束条件为
(12)
以产量和经济效益为目标,系统精准优化压裂设计方案及施工参数(施工排量、用液量、加砂量等)提出优化的液体方案、支撑剂方案。应用于X区块的97口致密气井,BP神经网络模型准确率为86.52%。对7口井进行压裂施工参数优化后,每口井所有层的总平均增产率为5.57%。其中7口井的具体压裂施工参数优化方案,如表2所示,优化前后压裂施工参数对比图,如图7~图10所示。优化的7口井,如表3所示,每口井所有层的平均总增产率为5.57%,每口井所有层的平均日增产量为50 m3以上。现场可以根据计算出的压裂施工参数值合理地配制压裂液,不造成压裂液的浪费,从而节约了压裂施工成本。在进行压裂施工方案设计时,可以参考多种方法的结果,使得压裂施工方案设计的更加合理。该方法从过去现场压裂施工数据出发,充分地结合了机器学习。该方法与现有方法相比,投入的经济成本低和操作方便,产生的回报高等优点。表明该方法对现场压裂施工设计具有一定的指导作用,提高了整个X区块的经济效益。
表2 7口井压裂施工参数优化结果
图7 液量优化前后对比图Fig.7 Comparison chart before and after liquid volume optimization
图8 支撑剂量优化前后对比图Fig.8 Comparison chart before and after support dose optimization
图9 平均砂比优化前后对比图Fig.9 Comparison chart of average sand ratio before and after
图10 施工排量优化前后对比图Fig.10 Comparison chart before and after operation displacement optimization
表3 7口井所有层的总增产气量
(1)在进行BP神经网络模型训练时,为了充分利用样本数据集,使用10重交叉验证,最终构建了一个含有9个节点的隐含层的10重交叉验证-BP神经网络模型。
(2)输入参数个数将影响BP神经网络模型的拟合和预测精度,恰当的输入参数个数将提高模型的精度。讨论了不同参数个数对BP神经网络模型拟合和预测精度的影响,最终确定了10个输入参数(6个不可控参数:层厚、电阻率、泊松比、最小水平主应力、隔层应力差、孔隙度;4个可控参数:液量、支撑剂量、平均砂比、施工排量)。以及讨论了模型参数对模型精度的影响。
(3)应用于X区块的97口致密气井,BP神经网络模型准确率为86.52%。对7口井进行压裂施工参数优化后,每口井所有层的总平均增产率为5.57%。