基于改进的SKnet 和Bi-GRU 的岩石薄片图像矿物识别

2023-02-08 12:54吴晓红滕奇志何海波

智能计算机与应用 2023年1期

刘勇，吴晓红，滕奇志，何海波

（1 四川大学电子信息学院，成都 610065；2 成都西图科技有限公司，成都 610065）

0 引言

传统的岩石薄片图像分析鉴定依赖于专家在光学显微镜下对岩石的目视观察，存在很多局限性。首先，薄片鉴定需要在多个角度反复观察单偏光图像和正交偏光图像，大量岩石样本的识别工作需要耗费一定的人力资源和时间成本；其次，人工鉴定因人而异，不能保证准确、量化的结果；第三，传统的鉴定依赖实物送样和人工观察，但薄片样品长时间存放可能会变黄、脱胶，影响鉴定结果，最终导致资产损失。

近年来，在矿物颗粒分类识别方面，国内外学者开展了大量的研究工作，也取得了一定的应用成果。2013 年，Mariusz Mlynarczuk［1］等人基于最近邻算法等4 种模式识别方法，在4 种颜色特征空间中对白云石、石灰岩、花岗岩等矿物进行了颗粒识别；2014年，杨宗瑞［2］结合矿物颗粒的亮度均值、颜色、纹理特征以及灰度共生矩阵熵信息，采用随机森林分类器识别多种矿物颗粒；2015 年，Akkaş E 等人［3］使用SEM-EDS 光谱仪获取矿物颗粒的特征，再利用决策树算法对橄榄石等十种矿物颗粒进行分类；2016年，闵涛［4］针对矿物正交偏光序列图的颜色、纹理等特征，采用机器学习模型，再结合复杂的权值投票机制，完成矿物颗粒识别任务。

随着计算机硬件能力的迅速提升和深度学习技术的飞速发展，基于神经网络的深度学习分类方法也相继出现。2012 年，Krizhevsky A 等人［5］提出AlexNet，在图像分类领域取得突破性进展；自此，用于分类的各种卷积神经网络层出不穷，包括VGGNet、ResNet、MobileNet、InceptionResnet 等。2018 年，彭志伟［6］选用CaffeNet 作为识别分类网络模型，并提出一种基于颜色和纹理的序列图像筛选算法，实现了矿物颗粒偏光序列图像下的分类识别；2019 年，T.Nanjo，S.Tanaka［7］等人提出了一种基于深度神经网络的碳酸盐岩岩性识别图像分析技术；2020 年Y Xu［8］等人利用卷积神经网络ResNet-18对变质岩、火成岩、沉积岩（包括碎屑岩和碳酸盐）的薄片图像进行自动分类；2021 年，朱磊［9］提出了一种基于序列图分类的矿物颗粒识别方法，针对矿物颗粒偏光序列图像分类效果相对较好，但未充分利用岩石颗粒在不同正交偏光角度下的消光性信息，斜长石矿物颗粒存在一定的误识别情况。

综上，充分利用矿物颗粒在多个正交偏光角度下的丰富信息是矿物颗粒分类工作中十分值得探究的内容。在不同正交偏光角度下，矿物颗粒的干涉、纹理及消光特征表现不同，如图1 所示。石英颗粒表面整体较为光滑；碱性长石表面纹理特征丰富，没有规律，整体表现出一种“不干净”的状态；斜长石颗粒在特定角度会呈现聚片双晶现象；岩屑颗粒在偏光序列图中几乎没有消光变化，表面有零星分布的碎屑，没有规律。本文在对岩石矿物颗粒偏光序列图像进行消光位校正处理的前提下，提出了基于改进的SKnet 和双向GRU 模型的岩石矿物颗粒分类方法，将进行了消光位校正对齐处理后的矿物颗粒偏光序列图像送入改进的SKnet 特征提取模块进行特征提取，再通过双向GRU 门控单元捕获序列图的前后关联特性，最终完成对常见的石英、斜长石、碱性长石、岩屑4 类矿物颗粒的分类识别。该网络在矿物颗粒偏光序列图识别分类上取得了较好的效果。

图1 4 类岩石矿物偏光序列图Fig.1 Polarization sequence images of four types of rock minerals

1 岩石颗粒偏光序列图提取及消光位校正

1.1 岩石薄片正交偏光序列图像采集

在进行岩石矿物颗粒识别工作前需采集一定量的岩石薄片序列图，便于后续分割提取岩石颗粒序列图，制作实验所用训练集、测试集。将岩石样本磨制到足够“薄”，一般的标准薄片厚度为30 μm，将薄片制作成玻片放置光学显微镜下，即可观察分析岩石薄片中的矿物。本文采用最新的薄片图像采集系统，在载物台不动的情况下，自动旋转上下偏振片来获取不同角度的正交偏光图像，从而实现序列图像的对齐分析，更有利于后续图像的智能识别，图像采集工作中设置的正交偏光旋转角度为15°，每一组采集9 张图片。在正交偏光角度下采集的岩石薄片序列图像如图2 所示。

图2 岩石薄片偏光序列图像Fig.2 Polarized light sequence images of rock slices

1.2 岩石矿物颗粒提取及消光位校正

在不同角度正交偏光镜下，由于非均质岩石薄片除垂直光轴以外的切片，光率体为椭圆，在偏振片的旋转过程中，光率体椭圆长、短半径与上偏振片、下偏振片有4 次平行的机会，平行下偏振片的偏光不能透过上偏振片，视域呈黑暗，说明该矿物颗粒处于消光位，并且岩石矿物颗粒的消光性在载物台旋转的过程中呈现以90°为周期的变化规律。在实际图像采集过程中，由于颗粒自身的一些光学特性，实际处于消光位的矿物颗粒表现为周期内的亮度最低值，并且不同矿物颗粒的消光位可能处于不同角度，分割提取的岩石颗粒偏光序列图第一张图像并不一定处于消光位，为了更好的利用后续双向GRU 循环卷积神经网络的特性，需要保证不同矿物颗粒正交偏光序列图像相同序号位置处的消光程序尽可能接近，因此需要从岩石薄片偏光序列图中提取出岩石颗粒序列图，然后对岩石颗粒序列图做消光位校正处理，步骤如下：

（1）对采集获取的岩石薄片偏光序列图像，一次读入以15°为间隔的9 张正交偏光序列图，利用实例分割或者交互式分割方法，提取其中的岩石矿物颗粒偏光序列图像，如图3 所示。

图3 利用分割方法得到的矿物颗粒序列图Fig.3 Mineral grain sequence map obtained by segmentation method

（2）对每一组提取出来偏光序列图像，找到序列图中处于消光位的颗粒图像，并以该图像为基准对序列图重新排序。

①把原来的9 张矿物颗粒RGB 序列图记为rgb＝｛r1，r2，r3，r4，r5，r6，r7，r8，r9｝，根据RGB 值与灰度值之间的转换关系，将其转换为9 张灰度序列图，记为gray ＝｛g1，g2，g3，g4，g5，g6，g7，g8，g9｝；

②在9 张灰度序列图中，计算每张图像的灰度值总和，并记录灰度值总和最低的图像序号，如第四张图g4；

③将原矿物颗粒RGB 序列图中第四张（序号r4）之前的图添加到序列图末端，结果为rgb ＝｛r4，r5，r6，r7，r8，r9，r1，r2，r3｝，此时偏光序列图消光位校正工作已完成。

2 结合改进的SKnet 与Bi-GRU 的矿物颗粒识别算法

针对采集处理后的岩石矿物颗粒偏光序列图像，岩石颗粒成分的识别不仅需要考虑单个图像中的纹理、亮度等特征，还需要结合不同正交偏光角度下的图像之间的关联信息。本文将二维序列图像类比于视频分类的方式进行岩石矿物颗粒成分识别，提出一种基于卷积神经网络（Convolutional Neural Network，CNN）和循环神经网络（Recurrent Neural Network，RNN）的岩石矿物颗粒识别网络，CNN 采用改进的SKnet 进行特征提取，同时利用双向门控循环单元（Bidirectional Gated Recurrent Unit，Bi-GRU）提取岩石矿物颗粒偏光序列图像的前后关联特征，完成识别任务，其框架如图4 所示。

图4 结合改进的SKnet 与Bi-GRU 的矿物颗粒识别框架Fig.4 Combining improved SKnet with Bi-GRU for mineral particle identification framework

整体输入为岩石矿物颗粒正交偏光序列图像，通过改进的SKnet 特征提取模块对每一张偏光序列图像提取特征；将提取出来的特征送入后续双向GRU 循环神经网络模块进行序列维度的信息建模；最后，利用全连接层得到最终的分类识别结果。本文采用交叉熵作为损失函数，计算公式为

其中，p（xij）表示第i个样本的真实标签为j，q（xij) 表示第i个样本预测为第j个标签值的概率，共有n个标签值，m个样本。

2.1 加入空间特征融合的SKnet 特征提取模块

SKnet 网络由多个SK（Selective Kernel）单元堆叠而成，通过SK 卷积以非线性的方法聚合来自不同卷积核大小的特征，进而实现动态调整感受野的尺寸，便于对岩石颗粒多尺度信息的提取［10］。基础的SK 卷积由分离、融合和选择等操作组成。本文在基础的SK 卷积中添加了空间维度上的特征融合和选择，利用软注意力机制使模型关注到更多重要的区域，从而提升岩石薄片图像矿物识别分类的性能。本文改进的SK 卷积的内部结构图如图5 所示。

图5 改进的SK 卷积内部结构图Fig.5 Improved SK convolution internal structure diagram

首先是分离操作，对于输入的特征图，默认情况下进行两次转换两个变换对应的卷积核的尺寸分别为3×3和5×5，并且都是由卷积、Relu 激活函数、BatchNorm批处理等操作组成。通道特征融合操作，融合的基本思路是设计一个门控装置控制流入下一个卷积层中不同分支的信息流。sc表示s的第c个元素内容，通过在U的H × W维度上进行压缩计算得到，其计算过程为

通过全连接层产生一个紧凑的特征图像用于精确及调整的选择，这部分也进行了降维处理，式（3）：

其中，δ表示ReLU 激活函数；B表示批规范化；W∈RdxC。

为了验证W中d的作用，采用了一个衰减比r控制d的值，来探究d对于模型效率的影响为

其中，C表示通道数，L为d的最小值。

在压缩特征描述符z的引导下，采用跨通道的软注意机制自适应选择不同空间尺度的信息，ac和bc分别为软注意力矢量，通过对各个核的注意权值分别得到，式（5）：

其中，A，B∈RC×d，Ac∈R1×d表示A的第c行，Bc∈R1×d表示B的第c行。

使用空间注意力融合操作来关注图像哪些区域特征更有意义。不同于简单的像素级相加来整合多分支特征，引入自适应分支特征融合，实现不同特征的高效融合，具体为不同分支的特征乘上相应的可学习权重并相加得到新的融合特征。自适应权重的学习过程为通过连接不同分支的特征图进行1×1 大小的卷积操作，改变特征图的通道数，得到与分支特征图相同尺寸、通道数为2 的特征图，2 个通道上的特征图分别表示为Aij和Bij，然后通过softmax 函数对其进行处理，分别得到不同分支特征的融合比例矩阵为

针对于两个分支特征图中同一位置的像素点，经过特征融合策略得到最终输出特征图像V，为

本文使用的特征提取模块总体结构如图6 所示，包含多个层级，每个层级内部由多个SK 单元连接而成，每个层级内包含的SK 单元的数量分别为3、4、6、3。通常情况下，在每一个层级中多个SK 单元的连接方式是简单的相加组合，不同的SK 单元之间并没有共享信息，简单堆叠的方式无法有效地提取想要的特征。因此，本文借鉴Xu Ma［11］等人在2021 年提出的深度连接注意力网络模式，在堆叠的相邻SK 单元之间建立连接关系，使多个单元间能够进行信息交流，提高了网络的学习能力。具体的多个SK 单元的连接结构如图7 所示，由于相互连接的两个特征在空间、通道等方面维度有所不同，所以分别采用最大池化层和全连接层来实现特征间空间维度和通道维度的匹配。

图6 特征提取模块整体架构Fig.6 The overall architecture of the feature extraction module

图7 改进的SK 单元互连结构图Fig.7 Improved SK cell interconnect structure diagram

2.2 用于时间序列预测的双向GRU 门控循环单元

岩石矿物颗粒成分的识别需要结合正交偏光序列图像中每一张图像的特征以及序列图像的变化信息才能准确的识别矿物颗粒种类。本文采用双向门控循环单元（Gated Recurrent Unit，GRU），利用SKnet 提取的序列图特征信息送入GRU 循环卷积神经网络，充分的利用岩石矿物颗粒序列图像的相关信息。GRU 是基于门机制的，原理类似于长短期记忆（LSTM），依靠历史信息在当前点做出相应的预测。LSTM 的门机制主要通过输入门、遗忘门、输出门来控制记忆单元的信息，解决信息的长依赖问题。GRU 模型改进了LSTM 的门机制结构，比LSTM 更加简洁，训练效率相对较高。GRU 也是典型的RNN 架构，通过结合序列样本中当前样本的信息和上一个样本的隐状态，计算当前样本的隐状态并向下继续传递。GRU 的内部结构如图8 所示。

图8 GRU 内部结构图Fig.8 GRU internal structure diagram

GRU 有两个门，一个是重置门，另一个是更新门。更新门控的计算公式为

其中，ω（z）和uz为权重矩阵；xt是经过线性变换后时间步长的向量输入；ht-1保存了上一个经过线性变换后时间步长的信息。

将变换后的信息汇总并输入激活函数，最终的结果在0 到1 之间变换。更新门决定了历史信息在传递时的比例，复制过去的信息，以减少梯度消失的风险。重置门控的计算公式为

重置门的计算方法与更新门相同，只是改变了用于线性变换的参数ω（r）和ur。复位门计算非聚焦信息的比例，这些信息稍后会被过滤掉。GRU 结构中还包含一个候选的隐藏层ht，计算公式为

其中，ω和u为权重矩阵。

候选隐藏层可以理解为当前的记忆内容。控制过滤后的信息在隐藏层的比例，将这个信息与隐藏层当前时刻的信息相加，得到隐藏层的最终输出信息ht，也是当前时刻的最终记忆状态，计算公式为

可以发现，该模块通过应用注意力机制使得zt与1-zt是互相制约与影响的，对于前一个序列样本的输出遗忘的越多，当前得到的候选状态过滤掉的信息就越少，反之同理。直接丢弃与模型分类无关的信息，可以在一定程度上解决模型接收到的信息过多的问题，提高模型分类的效率。

单向GRU 的状态是从前到后单向传输的，也就是序列图前面的样本无法考虑后面样本序列对前面样本的影响，很容易忽略后面的序列图的影响，双向GRU 是单向GRU 的一种变体，其输出依赖于向前和向后状态的双重作用，克服了单向GRU 的局限，从而提升基于正交偏光序列图像的岩石薄片矿物识别网络的性能。

3 实验结果与分析

3.1 数据集

本文利用课题组铸体粒度图像处理软件中的交互式分割方法，从大量岩石薄片正交偏光序列图像中提取出不同类别矿物颗粒偏光序列图像，以一组偏光序列图像对应一类矿物颗粒标签的方式，构建矿物颗粒分类识别的原始数据集。该数据集包含4类矿物颗粒偏光序列图，分别为石英、碱性长石、斜长石、岩屑。在实际数据采集过程中，通常情况下，岩石薄片图像中斜长石颗粒含量相对较少，其余3种矿物颗粒数量相对较多。为了防止样本数量的不均衡影响最终识别效果，本文根据4 种岩石矿物颗粒样本数量占比，使用图像几何变换、仿射变换等方法对数据集进行了进一步的扩充，建立最终数据集。通过数据增广，石英、碱性长石、斜长石、岩屑4 类矿物颗粒的偏光序列图像的数量均达到每类2 000组，按照8 ∶1 ∶1 的比例划分为训练集、验证集和测试集，最终构成的数据集分布情况见表1。

表1 矿物颗粒识别数据集Tab.1 Mineral particle identification dataset 个

3.2 实验环境

实验中模型训练使用NVIDIA RTX2080Ti GPU，显存为32 G，CPU 为Intel（R）Core（TM）i7-9700。实验环境基于Ubuntu20.04 系统，使用CUDA 9.0 加速运算平台，深度学习的框架使用Pytorch-1.2.0。

在送入网络训练之前对岩石矿物颗粒正交偏光序列图像进行消光位校正处理，然后将图像数据调整为224×224，再进行归一化操作，批处理大小设置为8，初始学习率设置为0.001，训练迭代次数为400，使用随机梯度下降优化器，并且采用poly 策略调整学习率。

3.3 评价指标

本文使用混淆矩阵展示所提出的基于改进的SKnet 和Bi-GRU 的岩石薄片图像矿物识别方法对4 类岩石矿物颗粒的预测结果，同时反映影响模型预测准确性的样本分布情况。此外，为了评估本文提出的方法面向不同岩石矿物偏光序列图像在识别性能上的差异，采用识别率作为分类网络的评价指标。识别率反映了每一类矿物颗粒正确分类的数量占该类矿物颗粒实际总数量的比例，识别率越高，表明正确分类的数量越多，公式为

其中，ni为第i类矿物中正确分类的数量，Ni为第i类矿物颗粒实际总数量。

3.4 结果分析

根据本文提出的方法，利用矿物颗粒序列图像预测和真实类别的识别结果，建立混淆矩阵见表2。表2 中每一行代表该类别的判别结果的数量，识别正确的数量除以该类别实际总数即为该类别的召回率。每一列为其他类别识别为当前类别的数量，识别正确的数量除以列内数量总和即为该类别的精确率。可以看出本文提出的分类模型准确率和召回率都达到90%以上，说明利用本文提出的分类方法，石英、碱性长石、斜长石、岩屑这4 类矿物可以被有效的区分开。

表2 基于本文分类方法的混淆矩阵Tab.2 Confusion matrix based on the classification method in this paper

为表明本文所采用的岩石矿物颗粒识别方法的有效性，将本文提出的方法与现有的一些矿物颗粒识别算法进行了对比，对比结果见表3。

表3 本文提出的方法与其他方法的实验结果对比Tab.3 The method proposed in this paper is compared with the experimental results of other methods %

由表3 可以发现，利用传统机器学习方法实现矿物颗粒分类，总体识别率较低；使用CaffeNet 或SKnet 再结合一定的图像筛选方法进行识别分类，针对石英、碱性长石、岩屑颗粒识别率相对较好，但是斜长石颗粒识别率较低，由于矿物颗粒自身特征的复杂性，单张图像很难将矿物颗粒特征完全表征出来，在某些情况下斜长石颗粒容易被误识别为碱性长石或者岩屑颗粒；基于SKnet 结合单向GRU 的分类方法总体来说识别率较前几种方法已有明显提升；本文提出的分类方法，更充分的利用了岩石矿物颗粒正交偏光图像的消光特征，改进的SKnet 以及双向GRU 门控单元更好的利用了序列图像的前后关联信息，对于4 种岩石矿物颗粒的识别率都达到了95%以上，相比于已有的算法有明显的提升。

为了测试本文分类方法中岩石矿物颗粒偏光图像消光位校正处理以及网络模型各模块对最终的识别效果产生的影响，基于本文提出的网络结构，分别进行了使用消光位校正和不使用消光位校正操作的对比实验测试，使用改进的SKnet 网络模型和基础SKnet 网络模型的对比实验测试以及使用单向GRU门控单元和双向GRU 门控单元对比实验测试，测试结果见表4。

表4 是否进行矿物颗粒偏光序列图像消光位校正实验结果对比Tab.4 Whether to carry out the comparison of the experimental results of the extinction position correction of the polarized sequence images of mineral particles %

由表4 可以发现，对矿物颗粒偏光序列图像进行消光位校正，4 类岩石矿物颗粒的最终识别率都得到了一定的提升，经过消光位校正后，输入到双向GRU 门控单元的序列图像特征保持了很好的一致性，更有利于网络学习序列前后图像的自身特征信息以及关联信息。

使用基础的SKnet 替换本文提出的改进的SKnet 后，对4 种岩石矿物颗粒的识别率都产生了一定的影响，说明本文利用特征融合优化后的SKnet 特征提取模块，更有效地提取出想要的特征信息，进一步降低了误识别的概率。双向GRU 门控单元可以更好的学习岩石矿物颗粒偏光序列图的序列信息，碱性长石、斜长石、岩屑矿物颗粒的识别率都得到了提升。

4 结束语

为了更有效地完成岩石薄片偏光序列图的颗粒成分的分析工作，本文提出了一种结合改进的SKnet 和双向GRU 的岩石薄片正交偏光序列图像矿物颗粒分类方法。首先，利用已有分割方法，从岩石薄片正交偏光序列图像中提取出石英、碱性长石、斜长石、岩屑4 类岩石矿物颗粒图像，对提取出的矿物颗粒序列图做消光位校正处理，将消光位校正后的序列图作为输入数据进行训练；其次，利用改进的SKnet 网络结合具有记忆的双向GRU 循环神经网络，加强对矿物颗粒序列图中序列特征的提取。本文的方法在已有的数据集上表现良好，最终4 类岩石矿物颗粒的识别率都达到95%以上，总体的识别率为97.25%，优于已有的岩石矿物颗粒识别分类方法。但本文只针对岩石薄片中相对较多的4 种岩石矿物颗粒进行了分类识别，在实际石油地质开采工作中，岩石矿物颗粒的种类十分丰富，在后续的工作中可以继续探索更多岩石矿物颗粒类别下的识别分类方法。