来自大别山深成侵入岩图像深度迁移学习的可解释性研究

2023-12-01 06:23陈忠良袁峰李晓晖郑超杰
地质论评 2023年6期
关键词:网络结构岩石可视化

陈忠良,袁峰,李晓晖,郑超杰

1)安徽省地质调查院,合肥,230001; 2)合肥工业大学资源与环境工程学院,合肥,230009

内容提要:岩石图像识别是以深度学习为代表的感知智能在地质领域的典型应用场景。已有研究显示网络结构简单的深度卷积神经网络能够在岩石图像上取得比复杂网络结构高的分类准确率。这与ImageNet数据集上网络结构越深越好的趋势相悖。如何解释这一现象?深成侵入岩为显晶质,自形—半自形粒状结构,块状构造,其分类的依据是其矿物成分及相对含量。大别山地区岩浆活动广泛,中生代深成侵入岩广泛出露。岩石类型包括超镁铁质岩类、辉长岩类、闪长岩类、正长岩类、二长岩类和花岗岩类,基本覆盖IUGS推荐的深成侵入岩分类方案中的岩石类型。选取大别山地区中生代深成岩图像开展不同网络结构预训练模型迁移学习对比试验,能够专注于深度学习对矿物成分特征的学习解释,降低构造因素的影响。借助局部可理解的模型解释技术和特征图可视化技术,分别从全连接层分类决策区域可视化和卷积隐层可视化两方面对深度学习模型开展可解释性研究。结果表明简单网络结构的卷积神经网络能够提取不同矿物所表现出的颜色特征以及不同矿物组合所表现出的纹理特征。AlexNet模型的削减试验进一步证明:对于岩石图像深度学习,网络结构并不总是越深越好。

岩石是天然产出的矿物或类似矿物物质组成的固体集合体,是地球和类地行星的重要组成部分(路凤香等,2002)。自从1815年世界上第一幅地质图诞生以来,岩性识别,即如何刻画、认识地表和地下岩性分布,一直是地质填图的基础问题(刘凤山和胡道功,2009),是地质研究的重要内容(许振浩等,2022)。然而,岩性识别需要系统的岩石学知识和丰富的实际样品鉴定经验。一般地质调查人员、地学爱好者或者非地学专业人员很难具备系统而全面的岩性识别能力。随着以深度学习为代表的人工智能技术在图像识别、语音分析(周永章等,2018,2021)和自然语言处理(陈忠良等,2022)等领域取得突破,图像智能识别也应用到岩石识别(徐述腾和周永章,2018)和古生物化石识别(安玉钏等,2022)。在岩矿薄片和岩石图像识别方面,不同学者已开展相关研究,并取得了成果。张野等(2018)通过拍照、岩石数据库和网络搜索等不同方式共采集到571张花岗岩、千枚岩、角砾岩岩石图像。基于Inception-v3 预训练模型开展岩石图像迁移学习,实现了花岗岩、千枚岩和角砾岩3种岩石80%以上分类准确率。白林等(2018)通过网上搜集和实物拍照方式收集了15种约15000张岩石图像。岩石类型涵盖4类侵入岩(花岗岩、闪长岩、辉长岩、橄榄岩)、3类火山岩(流纹岩、安山岩、玄武岩),3类沉积岩(砂岩、灰岩、白云岩)和5类变质岩(大理岩、石英岩、蛇纹岩、板岩、千枚岩)。采用Inception-v3网络结构重新学习,实现了63%的分类准确率。Zhu Yueqin等(2019)对12种约12000张岩石图像数据集,分别采用Inception V3和Xception两种网络结构进行了重新学习试验对比,后者测试集准确率较前者提高9%达到86%。冯雅兴等(2019)基于AlexNet孪生卷积神经网络对24种近2525张岩石图像开展迁移学习,实现了测试集89.4%的分类准确率。试验结果同时显示网络层数较深的ResNet在岩石数据集上并没有取得最好的结果,而相对简单的VGG19网络结构精度相对较高,且更简单的AlexNet比VGG19分类精度提高了4%。Ran Xiangjin等(2019)同样通过在6类2290张无人机野外露头照片上开展不同网络结构的微调试验,得出网络结构简单的深度卷积神经网络岩石分类器能够取得更高的测试集准确率(97.96%)。来自好奇号火星探测器上的桅杆相机采集的4类火星岩石图像所开展的自动识别分类试验,同样证明网络结构简单的VGG16能够取得100%的测试集准确率(Li Jialun et al.,2020)。在地质云科普版岩石矿物智能识别工具开发过程中,使用小部分岩矿样本图像对主要深度学习模型进行测试训练,实验发现ResNet50 模型准确率最高(任伟等,2021)。

不同学者相对比较一致的试验结果显示网络结构简单的卷积神经网络在岩石图像分类上能够取得更高的测试集准确率。这与ImageNet数据集上所表现出的随着网络结构变得越来越深,Top-5的错误率也越来越低的趋势相悖(He kaiming et al.,2016)。是什么原因造成了不同深度卷积神经网络在岩石图像数据集上这一有悖深度学习发展进程的现象呢?

自然界的岩石可以划分为火成岩、沉积岩和变质岩。火成岩又可进一步划分为火山岩和侵入岩。不同于依据化学成分按照TAS方案分类的火山岩,深成侵入岩全部由结晶的矿物组成,矿物含量容易在野外露头、标本中测量,按照矿物分类已被普遍接受。本文依据IUGS推荐的深成侵入岩分类方案,构建大别山地区深成侵入岩的岩石图像数据集。数据集中各类岩石类别均经过了岩矿薄片鉴定,数据集可靠性高。选取大别山地区中生代侵入岩图像开展不同网络结构预训练模型迁移学习对比试验。借助特征图反卷积(Deconvnet)可视化技术和局部可理解的模型解释技术(LIME)可以对模型特征提取能力开展可解释性研究。由于深成侵入岩分类方案主要依据矿物成分及含量划分岩石类型,能够最大程度地降低构造因素对卷积神经网络特征提取能力可解释性分析的影响。

1 数据来源

大别造山带位于中国东部,北以晓天磨子潭断裂与华北陆块相接,南东以郯庐断裂与扬子陆块相连。岩浆侵入活动在区内表现得相当强烈,造山带范围内大部分被深成相侵入岩所占(图1)。区内各个岩体不同学者均已开展了岩相学、同位素地球化学等方面的研究。其中,超镁铁质岩—辉长岩类主要分布在祝家铺(Jahn et al.,1999;刘庆等,2005)、小河口(李曙光等,1999)、椒子岩和道士冲等岩体。岩石类型有辉石岩—角闪石岩未分、辉长岩。花岗岩类主要分布在天堂寨、白马尖(管运才和吴海权,1997)、主簿源、古碑(赵新福等,2007)和西汤池(周泰禧等,1992)等岩体。出露的岩石类型有正长花岗岩、二长花岗岩和花岗闪长岩。闪长岩—正长岩类主要在古碑、山七(彭智等,2018)和银沙畈(王波华等,2007)等岩体出露。岩石类型有闪长岩、石英闪长岩、正长岩、石英二长闪长岩、石英二长岩。似长石过碱性侵入岩类在响洪甸岩体(周伟伟等,2014)有出露,岩石类型以霞石正长岩为主。本次显晶质侵入岩图像均采集自野外实地的露头和手标本。采集设备为数码相机(LUMIX LX10)和手机(iPhone 6S Plus),图像传感器均为互补式金属氧化物半导体(CMOS)。分辨率大小分别为5472×3648和4032×3024。表1为本次在各岩体内采集的大别造山带内典型的显晶质侵入岩图像列表。表中对各采集点岩石的类型、主要物质成分、结构和构造均进行了描述。所有采集点在采集岩石图像的同时,还采集了岩石薄片,并进行了制片和薄片鉴定。本次共采集岩石类型10种,岩石图像2909张,分为训练集图像2413张。测试集图像496张。

表1 大别山东段典型中生代显晶质侵入岩类型及其岩石图像采集点信息

图1 大别山东段侵入岩分布略图及岩石图像采集位置

2 试验设计

2.1 过拟合问题

深度学习过程中训练的模型通常易于过拟合,即在训练集上表现很好,但在测试集上的泛化能力很差。产生过拟合的原因包括:① 观察值与真实值存在偏差;② 数据太少,导致无法描述问题的真实分布。为了防止过拟合,需要用到一些方法和技术,如:数据增强、Dropout正则化和批量正则化(Mutasa et al.,2020)以及早停法(Lauer et al.,2006)。数据增强是采用水平翻转、左右翻转、旋转、缩放、裁剪等方法,对图像进行处理以增大样本量。本次训练集岩石图像经数据增强处理后达到120650张。考虑到不同方法训练精度比较的需要,测试集图像未做数据增强。在卷积神经网络中(图2),Dropout正则化是在网络训练时随机丢掉一些神经元的技术,在早期卷积神经网络的全连接层后较多采用(图2a)。批量正则化则是将卷积神经网络的每层之间加上将神经元的权重调成标准正态分布的正则化层(图2c—e)。早停法是在模型对训练数据集迭代收敛之前停止迭代来防止过拟合。

图2 典型卷积神经网络结构示意图

利用已有的源领域模型和少量的目标领域样本训练出泛化能力更好的目标领域模型的迁移学习参数迁移方法也可以用来解决过拟合问题(张雪松等,2019)。参数迁移在解决模型过拟合问题时,前提条件是目标领域需要训练的模型和源领域中已有的模型体系结构一致且训练算法相同,利用目标领域小规模的训练样本对已有的源领域模型进行参数微调。Tajbakhsh等(2016)通过实验表明,在医学影像领域采用参数迁移方法微调一个预训练的源领域卷积神经网络模型要比重新训练模型更好。不同学者也采用迁移学习开展了岩石手标本图像(张野等,2018;冯雅兴等,2019;Li Jialun et al.,2020)的自动识别分类。本次试验同样将采用参数迁移方法微调ImageNet预训练的卷积神经网络模型。

2.2 计算资源与试验设计

实验均在配置有Quadro RTX 6000显卡的工作站上完成。机器学习平台采用Tensorflow-gpu 1.13.1。深度学习模型的设计、调试、评估采用Keras-gpu 2.3.1。目前,一些经典卷积神经网络,如AlexNet(Krizhevsky et al.,2017)、VGGNet(Simonyan and Zisserman,2015)、GoogLeNet(Szegedy et al.,2015)、ResNet(He et al.,2016)和Xception(Chollet,2017)等,不同学者已开展岩石图像分类试验。Zhu Yueqin等(2019)分别对GoogLeNet的Inception-V3和同属Google出品的Xception开展了比较学习,后者比前者的测试集准确率高9%,达到86%。据此得出网络层数越深精度较好。而不同学者的试验结果却很不相同。冯雅兴等(2019)分别对AlexNet、VGG19、Inception-V2、ResNet50等模型开展了比较试验。结果显示网络层数较深的ResNet50模型在24种包含沉积岩、火山岩和侵入岩的岩石图像数据集上并没有取得最好的结果,而相对简单的VGG19结构模型精度相对较高,且更简单的AlexNet模型比VGG19模型识别精度提高了4%,达到41%。以上不同模型的迁移学习结果同样显示采用相对简单的VGG19和AlexNet模型精度较好,分别为78%和79%。迁移学习能够取得比从零开始训练更高的精度是由于文中2525张岩石图像与千万级的ImageNet数据集相比数量较少。VGG16、Inception-V3和ResNet50结构模型在4类火星岩石图像数据集上的迁移学习比较试验同样显示结构简单的前者精度较高,且迁移学习表现同样优于从零开始训练(Li Jialun et al.,2020)。本次分别在模型结构简单和复杂的两端分别选择两个模型,共4个模型(AlexNet、VGG16、ResNet50和Xception)开展比较试验。

模型训练参数中,损失函数选择交叉熵,编译优化器选择Adam自适应优化器。早停法采用“No-improvement-in-n”策略,n即迭代的次数。在训练的过程中,记录到目前为止最好的测试集准确率,当连续n次迭代没达到最佳准确率时,则可以认为准确率不会再提高,此时便可停止迭代。迁移学习训练阶段容忍的迭代次数设置为10。从零重新训练策略下则采用了更大的容忍迭代次数20。

3 结果与讨论

3.1 不同网络结构模型的训练结果

图3为不同网络结构预训练模型侵入岩图像训练曲线图。预训练模型以ImageNet数据集预训练参数作为初始化参数。由图可见不同结构的卷积神经网络在侵入岩图像训练集上均实现了收敛。表2为不同结构的卷积神经网络模型的测试集top1准确率。测试数据集均未采用数据增强技术。卷积层较少(AlexNet卷积层个数为5,VGG16卷积层个数为13个)网络结构简单的AlexNet和VGG16模型均实现了较高的top1准确率。而网络结构复杂的ResNet50模型的top1准确率则较前两者降低6个百分点。网络结构更加复杂的Xception模型则表现更差。试验结果再次显示网络结构简单的卷积神经网络能够取得更高的岩石图像分类准确率。

表2 不同结构模型测试集准确率

图3 不同网络结构预训练模型侵入岩图像训练曲线图

3.2 可视化分析

如何理解不同结构的卷积神经网络在ImageNet数据集和侵入岩岩石图像数据集的表现差异呢?通常人们认为深度学习的模型是个“黑盒”,非常难以用让人类容易了解的方法来呈现模型到底学习到什么。但对于卷积神经网络,由于其本来就是视觉概念的陈述,学习到的特征可以采用可视化的技术方法进行呈现(Yosinski et al.,2015)。目前,不同学者提出了多种可视化卷积神经网络的方法(成科扬等,2020)。典型卷积神经网络主要由卷积层、池化层和全连接层组成。下面将分别从全连接层分类器的局部可解性可视化和卷积层特征图的反卷积可视化分析入手分析前述不同结构的卷积神经网络模型在侵入岩图像数据集上到底学习到了什么。

3.2.1局部可理解的模型解释

局部可理解的模型解释技术(LIME)是一种代理模型方法,它具备与模型无关的特性,能够识别出对卷积神经网络图像分类结果影响最大的区域。该方法首先通过探测输入扰动获得深度模型的响应反馈数据,然后凭此数据构建局部线性模型,并将该模型用作特定输入值深度模型的简化代理(Ribeiro et al.,2016)。图4为不同结构的卷积神经网络对10类侵入岩中代表性岩石图像预测分类的LIME解释结果。表中分别识别出了影响各卷积神经网络预测分类结果最大的输入区域,其中绿色标识区域为正反馈区域,红色为负反馈区域。LIME设定对3个预测概率最高的标签进行可视化解释。Xception模型由于分类准确率低未列出。表中原始待解释图像为随机选择,其中ResNet50模型对石英闪长岩和花岗闪长岩选定的待解释图像所作出的3个最高预测标签均属识别错误。在其他8个侵入岩类别中,标定的影响各卷积神经网络预测分类结果最大的输入区域基本包含了各类型侵入岩需要包含的矿物种类。如AlexNet对辉长岩的预测解释,圈定的为暗色矿物为主含少部分斜长石的区域。中间大片斜长石为主的区域,各模型均未圈定。这与表1列出的辉长岩物质成分主要为基性斜长石、辉石和橄榄石相一致。正长花岗岩和二长花岗岩解释图像的圈定区域同样包含了石英、碱性长石和斜长石。正长岩解释图像的圈定区域均主要为碱性长石。通过LIME局部可理解的模型可视化解释,基本说明影响分类器预测的重要区域与该类岩石需要包含的主要物质成分相一致,间接说明该类侵入岩图像的物质成分特征被有效提取。

3.2.2特征图可视化

特征图可视化技术是利用反卷积(Deconvnet)的思想实现卷积层特征可视化来帮助理解卷积神经网络学习到的特征。反卷积可视化以各层得到的特征图作为输入,进行反卷积,得到反卷积结果,用以验证显示各层提取到的特征图(Zeiler and Fergus,2014)。各类侵入岩图像均首先计算出该图像在选定卷积层特征图的最大激活值(最大激活值和相应的特征图的序号均作记录)。参与制图的为该类型岩石图像在选定卷积层激活值最大的3张原始图像。特征图可视化的参数为原始图像、卷积层名称和图像在该卷积层最大激活值特征图的序号。

图5为AlexNet模型不同卷积层(共5层)特征图反卷积可视化结果。AlexNet模型第一层反卷积可视化结果显示学习到的特征为方向和边缘;第二层学习到的特征基本上是不同矿物所展现的颜色和轮廓等特征,如图中第二层左边第3行(闪长岩)、第4行(石英闪长岩)、第5行(石英二长闪长岩)和右边第4行(花岗闪长岩)基本提取的为暗色矿物(黑云母、角闪石)的分布特征;第三层学习到的特征仍然具有全局特性,多数为点状分布,可能为特征矿物或颜色的相对分布特征;第四层和第五层变得复杂,学习到的可能是类似网格状的纹理特征。不同的是第五层的特征更加显示局部性。通过分析侵入岩中的花岗岩和变质岩中的板岩,Zhu Yueqin et al.(2019)也发现卷积神经网络对花岗岩中的透明石英和颗粒和肉红色钾长石的特征提取表现良好。

3.3 卷积与全连接层削减实验

AlexNet模型由5个卷积层和3个全连接层组成(图2a),通过前述特征图可视化说明了不同的卷积层提取的为不同的特征。对于网络结构深浅可能对岩石图像起到的作用不同于ImageNet数据集的问题,可以考虑精简卷积神经网络层层数进行试验对比(Zeiler and Fergus,2014)。通过删除部分卷积层或全连接层可以进一步理解不同层在特征提取中起的作用。

表3为削减部分卷积层和简化全连接层的削减试验结果。简化全连接层可以提高分类精度,不影响网络对岩石图像特征的提取能力。删除第五层,分类精度仍然较高,对侵入岩岩石图像的特征提取能力影响较小。这与侵入岩块状构造,无明显局部关键特征的知识依据相符合。删除第四层和第五层后,图像分类精度明显降低,说明第四层学习到的纹理特征,是分类器判别的重要依据。由于岩石图像基本为块状构造,物质成分较均匀,通过削减试验,证明AlexNet模型第五层提取的具有局部特性的特征对模型分类准确率基本无影响。

表3 AlexNet模型卷积与全连接层削减试验结果

4 结论

(1)通过不同网络结构卷积神经网络的对比训练和AlexNet模型的削减试验,说明结构简单的卷积神经网络能够取得与复杂结构网络相当的侵入岩图像分类准确率。对于岩石图像网络结构并不总是越深越好。

(2)借助特征图可视化,证实AlexNet模型的前四层能够有效提取侵入岩矿物成分特征。其中,第一层学习到方向和边缘特征,第二层学习到不同矿物所展现的颜色和轮廓特征,第三层学习到特征矿物或颜色的相对分布特征,第四层学习到的类似网格状的纹理特征。

(3)可视化技术能够帮助了解卷积神经网络究竟是如何成功识别岩石图像类别的,并对其过程进行解释。

对于卷积神经网络可解释性算法是否也能够帮助调整岩石图像深度学习模型或找出提升模型性能的方向,将是后续研究的内容之一。同时,岩石图像类型也将扩大到浅成侵入岩、沉积岩、变质岩和火山岩。

致谢:感谢审稿专家周永章教授提出的宝贵修改意见。感谢安徽省地质调查院周存亭正高级工程师、黄蒙高级工程师、李朋飞高级工程师在区域地质背景分析和岩石图像采集过程中的大力帮助。感谢合肥工业大学资源与环境工程学院石永红教授在薄片鉴定过程中提供的指导。

猜你喜欢
网络结构岩石可视化
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
第五章 岩石小专家
3深源岩石
一种叫做煤炭的岩石
基于CGAL和OpenGL的海底地形三维可视化
海藻与岩石之间
“融评”:党媒评论的可视化创新
基于互信息的贝叶斯网络结构学习
知识网络结构维对于创新绩效的作用机制——远程创新搜寻的中介作用