高光谱结合随机森林的岩性识别方法研究

2024-03-26 04:12彭奕博焦龙李栋沈瑞华钟汉斌熊迅宇
石油工业技术监督 2024年3期
关键词:岩样岩性预处理

彭奕博,焦龙,李栋,沈瑞华,钟汉斌,熊迅宇

西安石油大学化学化工学院(陕西 西安 710065)

0 引言

岩性识别是储层描述、地层评价、石油钻井等应用领域的重要研究内容[1-2],准确、高效地识别岩性具有很大的实用价值[3]。岩性识别问题一直以来是国内外研究的热点,目前传统的岩性识别和分类方法主要分为两种:一是通过薄片鉴定或手标本鉴定的方法,还包括重磁技术、地震技术等其他辅助识别手段,在工程中可以快速提供初步的识别结果[4-5],这些方法存在准确率低、识别效率低等问题;二是通过元素测试和矿物测试的方法,其中扫描电子显微镜、X 荧光技术和红外光谱等是目前比较常用的手段[6],但这些方法难以同时满足高效率和高精度的要求[7-8]。因此,建立一种快速有效的岩性识别方法有着重要的意义。

高光谱是一种将成像技术与光谱技术相结合的无损检测技术,具有图谱合一、分辨率高、信息量大等特点[9],在环境监测[10]、食品安全[11]、农业生产[12]以及地质遥感[13-14]等领域取得了广泛的应用。高光谱技术可以对选定波长的样品进行成像,能够准确反映出所测样品的物理和化学信息[15]。由于高光谱数据波段数量多、信息量大以及相似度极高,所以会存在数据冗余的问题,因此在进行分析时往往需要与计算机技术相结合,从而达到更好的效果[16]。随着计算机技术的快速发展,采用高光谱结合机器学习的方法可以有效地进行地物识别和分类[17]。Su等[18]将高光谱图像特征与神经网络技术相结合,实现了对不同矿物种类的识别;Chen等[19]采用标准正态变换、一阶微分的方法对高光谱数据进行预处理,建立了基于卷积神经网络(CNN)的煤岩分类模型,识别准确率达到94.60%。因此可以推测利用高光谱技术结合机器学习算法实现岩性识别是可行的。

本文将高光谱技术与随机森林(random forest,简称RF)和偏最小二乘判别分析(partial least square-discriminant analysis,称简PLS-DA)方法相结合。首先,采集3类岩石的高光谱,然后利用标准正态变换、多元散射校正、SG 平滑滤波和一阶微分对数据进行预处理,最后分别将预处理前后的岩石光谱数据作为输入变量结合随机森林算法和偏最小二乘判别分析,试图建立一种快速有效的岩性识别方法。

1 实验与方法

1.1 岩石样本

研究采用的样本由四川盆地川南开采区提供,选取3类岩石样本共360个,均为灰色且外观相似,其中火山岩、砂岩和石灰岩各120个,代表性岩石样本如图1所示。

图1 代表性岩石样本

1.2 光谱采集实验

高光谱采集实验如图2所示,包括FieldSpec4型便携式地物高光谱仪(ASD公司,美国)、样品台、采样探测器和计算机。可以采集到350~2 500 nm 波长范围内的光谱,每个光谱数据的采集时间为0.2 s,光谱分辨率为10 nm。

图2 高光谱实验示意图

在进行光谱采集实验之前,需提前预热光谱仪20 min,并通过标准白板校准独立光源的光谱。将岩石样品水平放置在样品台上用于收集光谱图像,样品台板采用纯黑色氧化铝制成,不反射任何光线,可大大减少反射光对岩石光谱成像的干扰。此外为了提高光谱的稳定性,以3 次平行测定所得光谱的算数平均值作为样品的原始光谱数据。3类岩石样本共采集360个原始光谱数据。

1.3 软件及计算

研究所用的高光谱数据均由高光谱仪配置的ViewSpecPro 软件得到,数据处理及建模均由Matlab2019b 完成。全部计算在配置了Intel(R)Core(TM)i7-12700HCPU的个人计算机中进行。

1.4 预处理方法

标准正态变换(standard normal variate,简称SNV)是一种常用的光谱预处理方法,主要用于消除岩样由粒径大小不均、表面散射变化等因素对光谱实际反射率的影响[20]。其原理是将原始光谱数据转换为标准正态分布的变量。需要注意的是,SNV 方法适用于光谱数据的整体预处理,而不适合于单个样本的预处理。

SG平滑滤波(Savizkg-Golag,简称SG)是一种基于多项式拟合的平滑算法,其原理是利用多项式拟合来平滑数据。具体来说,SG平滑滤波将原始数据看作是一个多项式函数的离散采样,然后通过对这个多项式函数进行拟合,得到一个平滑后的曲线。其最大的特点在于滤除噪音的同时可以确保信号的形状、宽度不变,同时可以用于消除设备操作过程中的随机噪声,提高信噪比[21]。在SG 平滑滤波中,多项式的阶数和窗口大小是两个重要的参数,它们决定了平滑的程度和平滑后曲线的形状。研究中设置的阶数为2,平滑窗口为21。

多元散射校正(multiplicative scatter correction,MSC)是一种常用于光谱数据预处理的算法之一,可以有效地消除由于散射水平不同带来的光谱差异,从而消除由于在光谱测量过程中散射水平的不同带来的光谱差异,增强光谱与数据之间的相关性。

一阶微分(first-order differentiation,FD)能够通过导数的方法来观察光谱的变化率,在一定程度上可以消除基线平移、平缓背景干扰的影响。

1.5 岩性识别模型

随机森林是一种监督式学习算法,适用于分类和回归问题。随机森林是在决策树的基础上构建的,它是由许多决策树组成的集成模型。它的核心思路是,当训练数据被输入模型时,随机森林并不是用整个训练数据集建立一个大的决策树,而是采用不同的子集和特征属性建立多个小的决策树,然后将它们合并成一个更强大的模型。随机森林通过对多个决策树的结果进行组合,可以增强模型的学习效果。

偏最小二乘判别分析是一种数据降维及分类算法。PLS-DA是基于偏最小二乘回归算法的基础上,通过引入类别信息,进行数据分类技术。PLSDA不仅可以用于解决高维数据处理中维度灾难问题,在分类和预测问题中也表现优秀,尤其适用于小样本、高维数据的建模问题。

1.6 模型评价指标

混淆矩阵作为评价模型结果的一种方法,可用于评价模型的分类性能。表1为分类任务的混淆矩阵,每一列代表了预测值,每一行代表了真实值。通过混淆矩阵可以计算分类器的准确率(Accuracy)、精密度(Precision)、回收率(Recall)和F1值等指标。

表1 混淆矩阵

在模型分类效果的评价中,通常采用F1值和准确率两个评价指标[22-23]。F1值是精密度和回收率的调和平均数,如果只考虑精密度或者回收率都不能作为评价一个模型好坏的指标,所以使用F1值来兼顾两者。如表1 所示,TP表示正确地把正样本预测为正;FN表示错误地把正样本预测为负;FP表示错误地把负样本预测为正;TN表示正确地把负样本预测为负。基于表1 获得的TP、TN、FP和FN,分类任务的准确率、精密度、回收率和F1 值可分别表示为式(1)~(4):

2 结果与讨论

2.1 原始光谱曲线

岩样反射高光谱曲线在特征上的差异是判别岩样的直接根据[24]。不同岩样物质组成属性的差异性影响了高光谱曲线的特征,表现为岩样在不同波段的特征吸收谷。

3 类岩样的全波段高光谱反射率曲线如图3 所示。从图3中可以看出,3类岩石样品的高光谱曲线趋势大致相同,说明不同岩样内部的矿物组成种类大体相似。但光谱吸收位置和吸收形态的不同,表明其化学成分含量存在差异,这可能是受到地表风化、岩石结构和表面颜色等外在因素的影响[25]。通过分析可以看出,3 类岩样高光谱特征曲线波形复杂,难以通过吸收特征直接进行岩性的准确识别,因此,需要通过随机森林与高光谱数据相结合建立分类模型对岩性进行识别。

图3 岩样的高光谱反射率曲线

2.2 数据预处理及模型建立

在光谱采集的过程中,通常会存在光谱散射、基线旋转和基线平移等问题[26]。为了减少这些因素对岩性识别准确率、精密度和回收率的影响,有必要对岩石样本的原始光谱进行预处理。

采取随机抽样的方法,将360 个样品的光谱按照4∶1∶1 的比例划分训练集、验证集和测试集。训练集用来训练模型,验证集用来选择最佳模型参数,测试集用来测试模型的分类效果。

在随机森林模型中,通过调整决策树的数目从而使模型达到最佳的分类效果[27]。以10~100 作为决策数目选择范围,将岩石原始光谱和预处理后的数据作为输入变量,以岩性作为输出变量,采用随机森林算法和偏最小二乘判别分析建立了岩性识别模型。

不同预处理方法结合随机森林和偏最小二乘判别分析的模型识别准确率结果见表2。从表2 可以看出,基于原始光谱建立的RF和PLS-DA模型已经取得了较好的识别效果,验证集识别准确率均达到了85.00%以上;相较于原始光谱,数据预处理对模型识别准确率有着不同程度的影响,因此选择合适的预处理方法可以有效提高模型的识别效果。另外,RF模型的平均识别准确率高于PLS-DA模型的平均识别准确率,其中SG-RF模型的识别效果最佳,验证集的识别准确率达到89.17%。因此,选择SG-RF模型作为最佳的岩性识别模型。

表2 不同预处理方法结合分类模型的识别准确率%

2.3 模型评价

为了更好地评价模型的识别能力,将测试集准确率和F1值作为模型的综合评价指标,表3为不同预处理方法建立的RF模型测试集分类准确率及对应的F1值。结果表明,经SG处理后建立的RF模型识别准确度最高,测试集识别准确率达到了93.33%。

表3 不同模型岩样对应的F1值

此外,火山岩、砂岩和石灰岩在每个模型中对应的F1 值见表3,F1 值越高,代表模型对该类岩石识别效果越佳。从表3 可以看出,经4 种数据预处理后可有效提高模型对各类岩性的识别能力。其中,SG-RF模型对每类岩石样品都取得了最佳的识别效果,对石灰岩和火山岩的识别能力最好,对应的F1 值均达到了90.00%以上。以上结果表明,经SG预处理后建立的随机森林模型,具有很高的识别能力和稳定性。因此,将SG-RF模型作为最佳的岩性识别模型。

3 结论

研究中建立的岩石高光谱分类方法,可以实现对不同岩性的有效识别。通过采集岩石样本的高光谱数据,分别采用4 种方法对岩样的原始光谱进行预处理,并结合随机森林和偏最小二乘判别分析算法建立岩性识别模型。研究结果表明,基于SG平滑滤波预处理后建立的随机森林模型识别效果最佳,测试集准确率达到了93.33%,同时对各类岩石对应的F1值也最高。由此可见,高光谱结合随机森林方法应用于岩性识别具有良好的可行性,且结果准确可靠,方法快速简便,这为岩石定性分类研究提供了一种新的方法。

猜你喜欢
岩样岩性预处理
裂隙几何特征对岩体力学特性的模拟试验研究
预制裂纹砂岩样力学特性与能量演化规律研究
一种识别薄岩性气藏的地震反射特征分析
频繁动力扰动对围压卸载中高储能岩体的动力学影响*
基于预处理MUSIC算法的分布式阵列DOA估计
K 近邻分类法在岩屑数字图像岩性分析中的应用
浅谈PLC在预处理生产线自动化改造中的应用
络合萃取法预处理H酸废水
基于自适应预处理的改进CPF-GMRES算法
基于磁性液体的岩样总体积测试方法