机器学习在岩性智能识别中的应用研究进展*

2022-08-22 03:47仝容超
化工矿物与加工 2022年8期
关键词:岩性光谱岩石

仝容超

(西安石油大学 化学化工学院,陕西 西安 710065)

0 引言

岩性识别是遥感地质应用的重要组成部分,在油气勘探和矿产资源调查中发挥着重要作用[1]。图像分类技术起源于20世纪20年代,随着计算机科学的发展和智能时代的到来,图像的智能分类已被成功应用于环境、地质和矿产等领域[2]。传统的岩性识别是通过对岩屑或岩心样品进行分析[3],该方法存在分析成本高、实用性差等缺点。随着图像处理技术和机器学习技术的快速发展,使得高光谱等岩性智能识别方法成为可能[4]。以采集到的岩石样本图像为研究对象,采用图像数据处理技术和机器学习算法对其进行岩性的智能识别分类已成为该领域的研究热点。

随着机器学习算法由浅层学习到深度学习的发展,其在人工智能背景下所取得的成效日益显著[5]。近十年里,学者们提出的具有代表性的岩石图像分类算法有:支持向量机(SVM)、随机森林(RF)、极限学习机(ELM)、概率神经网络(PNN)和反向传播神经网络(BPNN)等单一分类模型。为了提高分类的准确度,实践应用中也会采用改进的分类模型及与其他分类模型结合的组合分类器。深度学习作为机器学习的延伸部分也被广泛应用于岩石图像分类的相关研究中,具有代表性的图像分类算法有:卷积神经网络(CNN)、区域卷积神经网络(R-CNN)和完全卷积神经网络(CCN)等。

本文通过查阅近十年来与岩性识别相关的文献,对其中的岩样图像采集方式、数据处理方法、所用机器学习理论和图像分类方法等进行了归纳和分析;通过分析相关研究的实验方法和分类模型,以期为解决不同类型的岩石识别方法提供理论依据;同时,指出机器学习在岩性识别领域中存在的问题与挑战,并对其发展方向进行了展望。

1 岩石图像获取方式

1.1 RGB图像

RGB图像的获取可以通过智能手机、数码相机、无人机遥感影像等方式采集。图像的获取地点是自然环境下的山地、盆地等岩石覆盖区以及实验室。自然环境下采集的图像更能真实地反映地质岩石的特性;实验室环境下采集岩样图像时需补充现场光线、调整室内亮度,尽可能拍摄出岩样的真实颜色。

随着机器学习和图像分类技术的兴起和RGB图像获取方式的简便性和多样性,机器学习结合RGB图像的岩性识别已成为该领域的研究热点。目前RGB图像在岩性识别领域的应用研究有:岩石薄片图像分类、岩屑图像识别、岩石铸体薄片识别、岩石矿物成分分析等。

1.2 高光谱图像

岩石高光谱图像可以通过便携式光谱分析仪、无人机高光谱遥感、航空高光谱遥感等方式采集[6]。高光谱图像获取地点有实地和实验室两种。自然环境下采集的高光谱图像受外界因素影响较大,实验室内采集的高光谱图像则需要配备专业的卤素光源模拟自然光。高光谱采集成像设备主要包括高光谱成像仪、光源、计算机及其相关软件等,光谱设备主要包括:便携式光谱辐射仪(ASD FieldSpec)、机载多用成像光谱仪(DAISA)和反射式成像光谱仪(ROSIS-10)等。

不同岩石类型的物理结构和化学特性存在差异是利用高光谱图像进行岩性识别、分类和信息提取的依据,目前机器学习结合光谱图像的岩性识别应用研究有:玄武岩、伟晶岩脉等的信息提取,砂砾岩、花岗岩等岩石的分类。

2 机器学习算法与RGB图像相结合的岩性识别研究进展

基于RGB图像技术进行岩石分类,是一种图像获取方式简单、形式多样的识别方法。该方法要早于光谱图像技术。以岩样RGB图像为研究对象的岩性智能分类算法主要有决策树(DT)、支持向量机、人工神经网络(ANN)、概率神经网络和卷积神经网络等。

机器学习算法与RGB图像结合进行分类的研究中最成功的模型是SVM。YANG等[7]提出的SVM算法是传统图像分类算法中的代表,其将矢量量化推广到稀疏编码来表征图像,大大降低了SVM的训练复杂度和测试复杂度,该方法在2010年和2011年的ImageNet图像分类大赛中获得第一名[8]。刘烨等[9]将机器学习运用于岩石铸体薄片图像分类中,通过铸体薄片图像提取特征参数,运用SVM方法对铸体薄片图像进行分类,准确率高达95%。RAMIL等[10]利用数字图像的RGB数据获得的石英、钾长石、斜长石和黑云母等矿物颗粒的自然颜色,分析了传统的三层感知器的性能,再使用优化的ANN模型对研究的矿物进行识别,结果表明,该模型对花岗岩类型的主要矿物成分的正确识别率高达90%,但是其仅能对花岗岩各组分进行识别,适用性较差。PATEL等[11]提出了一种基于计算机视觉的岩石分类算法,采用PNN建立了基于实验室尺度的视觉模型,实验结果表明,该模型能够很好地对石灰岩进行分类,总体分类误差低于6%,但其适用性和可移植性尚有待考证。

机器学习算法与RGB图像相结合的岩性识别研究中使用最多的分类模型是深度网络模型,其中卷积神经网络在深度网络图像分类中应用最广。与传统浅层机器学习网络模型相比,深度网络模型具有特征的自动提取、端到端的识别方式和半监督训练方式等优势,为地质研究和工程应用提供了可靠手段。胡启成等[12]采用双线性卷积神经网络(BCNN)岩性识别模型对地质图像开展了岩性识别,实验结果表明,图像识别岩性的测试准确率约为90%,该研究为地质图像数据的分析提供了理论依据。李燕[13]在VGG、ResNet和DenseNet的图像识别岩石种类研究中,使用移动设备拍摄了流纹岩、凝灰岩和玄武岩等25类新鲜岩石的剖面图像,通过对比分析发现,DenseNet网络作为模型特征提取器获得了岩石新鲜剖面数据集上的最佳识别效果,在验证模型分类准确性的同时为建立岩石新鲜剖面图像数据集作出了贡献。程国建等[14]研究了基于卷积神经网络深度学习的岩石薄片分类方法,对鄂尔多斯盆地铸体薄片的图像进行了分类,实验结果表明,该模型的分类准确度达到了98.5%,为大视域高分辨率岩石图像的获取提供了重要参考。虽然深度网络模型在多样本训练中具有明显优势,但模型在更为庞大的图像数据集上的训练需要花费大量时间,甚至需要配备更为专业的数据运行设备。

研究发现,利用迁移学习可以很好地解决样本训练问题,并且可以获得更为准确的预测结果,以Google卷积神经网络Inception-V3模型为例,图1展示了岩石图像分类的迁移学习数据流向,通过迁移学习的方法直接引入特征提取模型,极大降低了时间成本,便于后续分类任务的进行。

图1 岩性识别迁移学习模型构建

许振浩等[15]建立了基于残差神经网络的岩石图像深度学习迁移模型,通过残差网络提取抽象岩石特征,对岩石图像识别的准确率达到90%,部分结果超过了95%。FAN等[16]将基于ShuffleNet的轻量级卷积神经网络应用于深度学习并结合迁移学习方法,建立了岩石图像的识别模型,研究结果表明,识别模型的准确性对PC机校验数据集的校验值为97.65%。张野等[17]运用深度迁移学习原理建立了一种基于深度卷积神经网络的岩石图像自动识别与分类模型,对花岗岩、千枚岩、角砾岩三类岩石图像进行了自动识别与分类,结果验证了模型具有良好的学习能力和识别能力。冯雅兴等[18]采用AlexNet孪生卷积神经网络提取岩石图像的全局信息和局部纹理信息并将其融合以构建统一描述子,利用迁移学习进一步提高了岩性识别的准确率。

综上所述,基于RGB图像进行岩性智能识别的优势有:①以岩样显微图像和岩石新鲜剖面图像为代表的图像数据可以直观反映岩样的基本属性,如颜色、亮度和局部纹理等,便于区分,易于理解;②图像采集方式普适性强、成本较低且易于获取。该方法的困难在于:图像数据的分析基于晶体光学和物理特征,需要强大的专业背景和扎实的技术基础;图像数据不能准确反映岩样的化学组成,需要结合其他定性定量的分析作参考进行辅助研究。

3 机器学习算法与高光谱图像相结合的岩性识别研究进展

高光谱图像技术是将成像技术与光谱技术结合的多维信息获取技术。高光谱图像数据包含光谱和图像信息,光谱信息可以反映岩石的结构、成分、含量等属性,图像信息则能反映岩石的形态、纹理和颜色等外观特征。高光谱图像的分辨率高、信息丰富多样,因此光谱技术在岩性识别领域具有独特优势。基于机器学习的高光谱岩性识别的研究文献来源于CNKI以及SCI、Springer等数据库,输入相关关键词检索后发现,以高光谱图像为输入对象的论文中使用的机器学习分类算法主要有:支持向量机、极限学习机、随机森林和深度学习等。

相比基于RGB图像数据的岩性智能识别方法,基于高光谱图像数据的岩性智能识别方法存在数据特征维数高和样本数量少的特点。学者们致力于开发适用于小样本、高维特征的分类器,最具代表性的分类器是支持向量机分类器[19]。SVM是一种监督机器学习算法,与其他机器学习算法相比,SVM使用结构风险最小化原则寻求最优决策超平面,同时引入核函数将训练矢量映射到高维空间,具有使不同类别的分离距离最大化的优点。可结合高光谱图像分类特性来进一步提升SVM的性能(见表1)。

表1 SVM在高光谱图像分类中的改进

CAMPS-VALLS等[20]阐述了不同核方法的主要特点,分析了其在高光谱领域的特性,提出了混合核SVM的方法,将混合核和SVM分类器结合进行高光谱图像的分类,并在嘈杂环境、高输入维数和有限的训练集背景下验证了SVM分类器的准确性。MOSER等[21]提出了一种将马尔可夫最小能量准则与SVM相结合的分类方法,实现了参数自动化估计,在高光谱和多光谱高分辨率图像上进行了评估实验,验证了该方法的可行性。TAN等[22]提出了一种高效的半监督SVM分类算法用于高光谱图像的分类,针对小样本学习,该方法可以找到与已标记样本最相似的未标记样本,并将待选择的未标记样本候选集放大到相应的图像片段,该方法在非常有限的标记训练样本下优于完全监督SVM和没有光谱空间集成的半监督SVM。PATRA 等[23]提出了一种基于自组织映射(SOM)神经网络和SVM分类器的迭代主动学习方法,该方法的优势是可以识别不确定和不同的样本,并将其纳入训练集,通过模拟图像和真实的多光谱和高光谱遥感图像验证了该方法的有效性。虽然与其他分类器结合的SVM模型解决了传统SVM图像在多分类问题上的困难,但面对大规模训练样本时仍表现出难以处理、算法局限的缺点。

基于人工神经网络和深度学习的算法广泛应用于多样本的高光谱图像分类研究中。LIU 等[24]基于TASI热红外高光谱技术,在模型训练过程中,从每类高光谱图像数据中提取10%的像素作为训练样本,并建立了RF、SVM和CNN等9种分类模型进行岩性分类,其中3D-CNN模型发挥了深度网络模型优势,其总体精度最高比SVM模型提高了10.02%。王建刚[25]使用航空高光谱遥感技术搭建神经网络模型进行了岩性识别,将高光谱遥感技术运用到以砂砾岩、花岗岩和大理岩等为代表的地层矿物组分分析中,提出的深度神经网络(DNN)模型对27块研究区共计8 449个像素点展开了训练和测试,最终预测精度达到了87.14%。OKADA等[26]采用深度学习中的卷积神经网络模型对黄铜矿、方铅矿和赤铁矿等5种矿物类型进行了自动识别,精度达到了91.10%。王海宇[27]选择FCN网络和U-Net网络两种深度学习语义分割模型,开展了岩矿信息自动提取对比实验,结果显示,提取准确率分别为98.37%和95.35%。以上研究证明了将深度网络应用于高光谱遥感影像领域、多样本和多数据信息准确分类中的可行性。

另外,极限学习机、随机森林等分类算法在某些领域也表现出了各自的优势。杨云[28]利用特征信息、光谱遥感和地形数据,构建了极限学习机和支持向量机模型,对研究区内不同岩石进行了岩性分类,研究结果表明,极限学习机模型总体分类精度和Kappa系数分别为88.12%和0.853 4,而被广泛应用的支持向量机模型总体精度和Kappa系数分别为86.58%和0.826 8,可见基于极限学习机的分类模型更优。王子烨[29]构建了基于随机森林测度学习的岩性识别模型,将淡色花岗岩的识别率提高到了87.80%。牟多铎[30]建立了基于极限学习机和支持向量机的高光谱遥感图像监督分类模型,对两类机器学习模型进行了综合对比实验,结果表明,在两个研究区内,极限学习机模型在分类时间和精度方面均优于机器向量机模型。

综上所述,基于高光谱图像进行岩性智能识别的优势有:①高光谱具有超高的分辨率,可以量化毫米级别岩样的矿物组成;②高光谱对岩样中的分子震荡敏感,可以提供分子的化学组成和结构信息;③对比RGB图像的岩性智能识别方法,光学图像信息不能捕捉的不透明矿物信息可以很好地被高光谱分析出来。该方法的困难在于:高光谱图像容易受外界环境影响而引入噪声和其他干扰信息,对测试环境和测试方法要求较高;针对难免产生的噪声和干扰信息需要对高光谱数据进行数据降维和特征提取,对数据的处理要求较高。

4 存在的问题及建议

4.1 存在的问题

岩性识别是资源勘探领域的重要组成部分,也是矿产分布研究的重点。本文主要综述了机器学习在岩性识别中的应用进展,从岩石RGB图像的智能识别和高光谱图像的智能识别两个方面进行了分析,并总结了各种研究方法的优缺点。虽然机器学习算法在岩性识别领域具有较大的应用潜力,但仍然存在一些问题:

a.岩石图像训练样本少的问题。无论是基于RGB图像的岩性识别,还是基于高光谱图像的岩性识别,训练样本的数量不足将会直接影响岩性识别模型的运行效率和精度,再加之岩石高光谱图像获取成本高、难度大等原因进一步缩减了符合研究标准的样本数量。如何在兼顾运行速度的同时增加训练样本,将是机器学习在岩性识别中需要深入探讨的问题。

b.岩石图像特征提取问题。对图像数据进行特征提取,不仅便于后续工作的开展,还有利于提升分类模型的精度,因此岩石图像特征提取模型的构建和岩石图像分类模型的构建同等重要。如何将先进的深度学习算法运用于岩石图像特征提取中,也是值得进一步研究的方向。

c.机器学习算法问题。如何选择或开发一种适合特定领域的智能分类算法,对算法进行改进甚至将多种算法融合,以进一步提高岩石图像识别的分类效果,是今后需要重点解决的问题。

4.2 建议

针对上述问题,对未来机器学习在岩性智能识别中的应用研究提出如下建议:

a.针对岩石图像训练样本少的问题:一方面,可以寻求更多图像采集的方法,就高光谱图像数据而言,越来越多的光谱设备制造商着力于研发便携式光谱分析仪,以及可以搭载智能手机的便携式光谱成像仪,随着设备的更新换代,光谱图像的采集方式也趋向于便捷化、多样化和智能化;另一方面,建议强化图像数据采集的管理,随着图像采集方式方法的多样化,人为或环境因素给图像数据带来的干扰也会增多,强化数据采集管理可以极大提升数据的质量,减少不必要的数据损失。另外,强化迁移学习方法的使用,可以解决小样本训练的弊端。

b.针对岩石图像特征提取问题:岩性的智能识别是一个融合图像处理、信息提取和计算机科学等于一体的研究课题,充分发挥上述方法在图像特征提取上的优势,可以极大推动岩性智能识别技术的发展。

c.针对机器学习算法的问题:就图像分类问题而言,集成学习器可以将传统的机器学习分类器融合为一个强化分类器,从而实现分类的优化。集成学习器可以发挥不同机器学习分类器的优势,这也是未来的一个重要发展方向。

5 结语

本文总结了RGB图像和光谱图像的获取方式,归纳了二者结合机器学习在岩性智能识别中的应用研究现状,对比分析了不同机器学习在岩石图像智能识别领域的优势与不足,指出了当前机器学习在岩性智能识别中存在的问题,并提出了针对性的建议。岩性识别数据正以指数形式增长,研究岩性智能识别方法可以挖掘海量数据蕴藏的巨大潜力;同时,随着机器学习的快速发展和地质、矿产领域对数据获取与管理的重视,岩性智能识别将迎来新的发展时代。

猜你喜欢
岩性光谱岩石
基于三维Saab变换的高光谱图像压缩方法
基于3D-CNN的高光谱遥感图像分类算法
第五章 岩石小专家
第五章 岩石小专家
基于数据挖掘技术的碎屑岩岩性识别方法及应用
高光谱遥感成像技术的发展与展望
3深源岩石
一种叫做煤炭的岩石
基于石灰石岩性的超近距管沟爆破试验研究
黔中地区土壤酶活性对岩性的响应