蒲先渤,李泽群,尹 飞,范 杰,曹鲁刚,智 亮
(中国地质调查局廊坊自然资源综合调查中心,河北 廊坊 065000)
岩石的可钻性指岩石抵抗破碎的能力[1],在地质钻探设计中,提前预知岩石的可钻性等级,能够合理的选择钻探工艺、方法和技术,提高钻进效率,减少卡钻、烧钻、孔壁坍塌等安全事故的发生[2],为钻探施工设计提供合理的参数性能。目前岩石可钻性的分析方法主要以取样后室内实验法[3]为主,以取样岩石的物理性质、力学性质、化学性质为基础信息量,可直接反映岩石的可钻性等级,为后续此工作区附近的钻探施工提供地质信息数据参考[4]。机器学习算法也被应用于预测岩石可钻性等级[5-8],但是,单一的机器学习算法预测的岩石可钻性等级不够精准,相关系数不强,不能很好地应用于可钻性等级预测。
本文从岩石可钻性等级的基础因素考虑,以地球物理勘探数据、岩性特征、物理性质3 个方面筛选5 个影响因素,用主成分分析法(PCA)消除影响因素之间的相关性[9],解决影响因素之间的非线性关系。结合BP 神经网络算法的优点[10-13]:(1)非线性映射能力,实现输入层至输出层的三层映射功能,解决系统内部机制的复杂性运算。(2)学习能力,能够学习并运算系统内的“算法规则”,提供合理的参数数据。(3)容错能力,局部数据的突变性不能影响系统内的整体运算。LM 算法[14-17]解决BP 神经网络的缺点:(1)设置阈值,防止BP 神经网络算法陷入局部极值。(2)用梯度下降法和高斯牛顿法解决BP神经网络收敛速度慢、过度学习的问题。通过以上3 种方式结合,形成PCA-LM-BP 岩石可钻性等级预测模型。
根据岩石可钻性的影响因素,用主成分分析法(PCA)消除影响因素之间的相关性,建立新的预测样本数据,具体运算步骤如下:
式中:m——样本个数;n——变量个数。
为了更好的用于主成分分析法,将原数据进行标准化处理,标准化公式如下:
计算相关系数矩阵如下所示,其中相关系数矩阵R的表达式为:
在式(5)中,X*为标准化处理原数据后的矩阵,根据相关系数矩阵R,计算标准化数据矩阵的特征值λ,|λ-R|=0,求出特征值,最终得到主成分的贡献率,公式如下:
一般认为选择新的主成分个数主要有2 种方法,第一种方法为当第m个主成分的累积贡献率达到85%时,可以用m个主成分代替预测可钻性等级影响因素的个数;第二种方法为选择主成分特征值>1 的个数,用来代替预测可钻性等级影响因素的个数。本文从工程实例中共选取22 个钻孔数据进行分析,5 个影响因素为钻孔深度、纵深时差Δt、密度ρ、电阻率Rt、泥质含量Vsh,预测岩石的可钻性等级。
LM 算法收敛速度快,在系统运算中,忽略二阶以上的导数项,转化为线性二乘问题,因此,具备提高BP 神经网络模型的运行效率,增加容错率,有效提升岩石可钻性分析的预测精准率。
BP 神经网络具有良好的自适应性,自组织性,及很强的学习、联想、容错和抗干扰能力,并且具有高度的非线性映射能力,因此被应用于此次可钻性分析的预测模型的建立。本文采用的BP 神经网络模型采用了多层次结构,包括输入层、隐含层和输出层。输入层节点为主成分个数,隐含层公式如式(7)所示,输出层节点为岩石的可钻性等级,共计1 节点。预测模型整体系统采用激励函数(传递函数)处理后,对于隐含层的激励函数,采用Sigmoid 函数进行系统运算。
隐含层节点数的确立计算公式为[19]:
式中:ni——输入层节点数;no——输出层节点数;a——常数,取值范围为1~10。
通过试触法确立隐含层节点数。
根据工程实例[20]研究发现岩石可钻性与地层岩性、物理性质、电性、流体特性密切相关,即与声波时差、地层密度、电阻率、泥质含量、深度影响因素相关联,因此建立数据样本,以试验区22 组数据作为基础数据样本,随机选择其中17 组数据作为预测模型建立的训练样本见表1,其余5 组数据作为预测模型建立的测试样本见表2,将所有数据进行归一化处理,以便于更好地应用于分析测试,可钻性极值Kd作为期望值输出于预测模型的系统中,期望值越接近于1,代表该处地层可钻性越强,期望值越接近于0,代表该处地层可钻性越弱。
表1 试验区训练样本归一化Table 1 Normalization of training samples in the test area
将整体数据(包括训练样本和测试样本)进行主成分分析,得到岩石可钻性影响因素之间的相关系数矩阵见表3。两种影响因素的相关系数越接近1,代表两种影响因素之间的相关性越强。如果将相关性强的两种因素直接用于建立预测模型,影响因素之间会发生共线性现象,导致预测结果不够合理。
表3 相关系数矩阵Table 3 Correlation coefficient matrix
经过主成分分析法(PCA)得到5 个主成分见表4。一般认为,建立预测模型所需主成分的个数有2种方法,一种方法为主成分的累计贡献率>85%,另一种方法为主成分的特征值>1。根据以上2 种方法的共性,本文选择3 个主成分(3 个主成分的累计贡献率85.937%>85%,第三个主成分>1),从而满足预测模型的建立。
表4 主成分特征值及贡献率Table 4 Principal component eigenvalue and contribution rate
建立新的主成分中,每种影响因子的公因子方差比见表5。在公因子方差比列表中,可得知影响岩石可钻性等级因素中泥质含量Vsh、纵深时差Δt、电阻率Rt,信息提取较为充分,密度ρ影响因素有18.7%的信息并未提取,深度影响因素有20.8%的信息未提取。
表5 公因子方差比Table 5 Variance ratio of common factors
根据因子得分系数矩阵(见表6),用3 个主成分(F1、F2、F3)代替5 个影响因素,每个主成分的线性表达为λj是第j个变尺度变量的方差(即特征值),uj是第j个变尺度变量(即主成分)。F的第j个主成分计算方程为:
表6 因子分析Table 6 Factor analysis
在因子得分系数矩阵中,每个影响因素的系数为:
根据主成分分析法,用3 个无相关性的主成分代替原数据样本的5 种影响因素,从而有效地降低了影响因素之间的相关性,减少了数据运行量,提高了建立预测模型的效率。
本文采用MatLAB 软件编写LM 算法和BP 神经网络算法,用LM 算法设置了运行BP 神经网络的基本程序设置,其中,运行的最大迭代次数为10000,运行的学习目标为1e-6,运行的初始学习效率为0.02。输入层节点数为3 个(新主成分的个数),隐含层个数和隐含层节点数通过试触法选择了1 个隐含层和10 个隐含层节点数。BP 神经网络预测模型的结构设计见图1。
图1 BP 神经网络模型结构Fig.1 Model structure of BP neural network
BP 神经网络预测模型建立中,运行的最大迭代次数、学习目标、学习效率3 项中有一项达到设置的阈值,即训练终止。预测过程数据见图2。
图2 BP 神经网络预测过程Fig.2 Prediction process diagram of BP neural network
预测结果见图3。图3(a)为BP 神经网络训练样本共计17 组数据的原始值和预测值对比,图3(b)为BP 神经网络测试样本共计5 组数据的原始值和预测值对比。由于预测模型的建立中每组数据实测值的特性(实测值精确度高,非固定的范围数值),因此,训练样本中差异性较大,但预测样本相关性强。
图3 训练样本与测试样本的预测结果与实际结果对比Fig.3 Comparison between predicted results and actual results of training samples and test samples
PCA-LM-BP 预测模型的原始值和预测值相关值R见图4,相关系数为0.96091,相关值R代表了预测模型中原始值和预测值的精准度。
图4 原始值与预测值的相关系数曲线Fig.4 Correlation coefficient curve between original value and predicted value
基于PCA-LM-BP 建立的预测模型和LM-BP预测模型中的5 个预测研究样本实测值与室内实验法测出的实测值进行分析对比(见表7),可以得知,主成分分析法可有效提升建模效率,相关性强的影响因素会降低预测模型的精度率,消除因素之间的相关性会提高预测模型的精度率。
表7 预测样本实测值与实验法实测值的分析对比Table 7 Analysis and comparison table between predicted sample measured values and experimental method measured values
将归一化后的可钻性等级预测值的实测值(0~1)还原于岩石的可钻性等级(1~12),则PCA-LMBP 预测模型对岩石可钻性等级与室内实验法测出的岩石可钻性等级对比见表8。
表8 可钻性等级预测对比表Table 8 Comparison table for drill ability level prediction
(1)提前预测可钻性等级能够有效为工程开展提供技术支撑,可钻性等级受众多因素影响,本文选用了主成分分析法解释了各影响因素之间的关系。
(2)主成分分析法用小于影响因素个数的主成分替代影响因素的个数进行预测,建立预测模型,结果更加精准,提取了3 个主成分,携带的信息量为85.937%,满足建立预测模型的需要,消除影响因子之间的相关性,用小于影响因素个数的主成分来建立预测模型,运行效率提高,为大数据建立预测模型提供了思路。
(3)单一的机器学习算法对数据样本的提前预测相关性不强,本文采用了PCA-LM-BP 建立预测模型,与室内实验法测出的可钻性等级实测值进行了结果对比,相关值高,预测时间短,预测结果精准。为岩石的可钻性等级的预测提供了一个实用、有效的方法。