基于复杂纹理特征融合的材料图像分割方法

2024-01-22 06:04韩越兴陈侨川
计算机工程与设计 2024年1期
关键词:集上纹理卷积

韩越兴,杨 珅,陈侨川,王 冰

(1.上海大学 计算机工程与科学学院,上海 200444;2.之江实验室,浙江 杭州 311100)

0 引 言

材料基因工程掀起了新材料研发的革命,而准确对材料微观结构分割与识别能够为材料基因工程提供数据基础。与通用的数据集,例如COCO[1]、CityScapes[2]等数据集相比,材料图像数据集存在以下特点:①小样本特点,由于制备成本等因素,获取的数据集较少;②具有复杂的纹理,相的边界模糊。③材料图像中相的分布不平衡,不同数据集的数量相差较大。

材料图像分割方法分为两类,分别是基于非学习的图像处理算法和基于机器学习和深度学习方法[3]。基于非学习的图像处理算法主要是将传统的图像处理算法应用于材料图像算法,但只适用于对比度明显的简单纹理的材料图像。基于机器学习方法和深度学习方法需要大量的训练数据和人工标注来建立模型,泛化性能较差,因此其方法在材料图像处理方面遇到了很多困难。

在材料图像中,相内像素具有高度相似性,蕴藏丰富的纹理信息,因此如果能够深度挖掘每相像素丰富的高低层语义特征信息并融合,就能够精确识别分割各相。针对各相纹理相似的材料图像,本文提出一种基于复杂纹理特征融合的材料图像分割方法,使用FCN[4]作为基础网络,在编码阶段,使用VGG16作为本文的骨干网络,融合高低层语义信息;在解码阶段,对恢复每层特征图施加注意力机制(Attention block),保留关键的特征,设计和添加的3种模块深度挖掘纹理特征,使用较少的样本实现对材料图像各相的精确分割,为解决材料图像分割中的小样本问题提供新思路。同时,本文采用并改进Dice loss以优化分割结果来解决数据分布不均衡问题。

1 相关工作

针对材料图像微观结构识别与分割方法的相关研究可分为两类。第一类是基于非学习的图像处理算法,即将传统的图像处理算法应用于材料图像。李等[4]使用阈值法检测单板穿孔缺陷,但阈值方法仅在具有高对比度的材料图像中表现良好。Zhao等[5]通过构建马尔可夫随机场对材料图像分割,分割结果一定程度上有提升;Lopez等[6]在材料图像中使用形态滤波方法,在简单的材料图像上表现良好。Chen等[7]和Liu等[8]改进分水岭算法以适应材料图像,但容易产生过分割的问题。Han等[9]提出了一种方法来自动获得EBSD花样(菊池带)和交点的位置,可以量化地描述菊池带的信息并可以检测出更多准确的菊池带和交点。Lin等[10]利用CNL(control the number of landmarks)方法、改进的霍夫变换方法、GMS(grid-based motion statistics)方法完成钙钛矿晶膜的荧光防伪标签识别。Wang等[11]提出一种基于数学形态学方法识别热障涂层形貌特征并计算形貌特征参数。总的来说,基于非学习的材料图像处理算法执行效率较高,但存在一些缺陷,如易产生过分割或欠分割的问题,容易从材料图像上提取虚假边缘,使用范围有限。因此基于非学习的图像处理算法只适用于纹理简单的材料图像或应用于图像处理预处理步骤。

第二类是基于机器学习和深度学习的材料图像分割算法。Han等[12]提出了一种混合多类算法的方法来分割金相图像。在文献[13]中,Wang等提出了一种基于图像处理和机器学习方法的重叠纳米颗粒自动分割技术。Liu等[14]开发了一种方便可靠的基于人工智能的认证策略,可以对具有不同清晰度、亮度、旋转度、放大度的不可克隆的花状图案进行快速认证。Sheng等[15]针对热电化合物,提出两种机器学习图像分割策略:应用全连接的神经网络批量分割背散射电子图像中的不同相,同时使用K-Means算法在热电化合物图像中寻找可能被忽略的化合物。Lai等[16]针对材料图像中一定数量的低分辨率相同材质陶瓷图像,利用聚类算法识别和分割边界。柯岩等[17]提出一种基于Transformer的复合材料多源图像实时实例分割网络Trans-Yolact,用来对复合材料缺陷进行检测、分类、分割。机器学习模型需要预定义特征,具有一定的主观性,但其算法的适用范围有限;同时,深度学习模型有效训练需要大量的训练样本。这些限制了目前机器学习和深度学习算法在材料图像分割任务的应用。

2 方 法

2.1 模型框架

如图1所示,本文的网络包括两个阶段:编码阶段和解码阶段。在编码阶段,首先使用骨干网络VGG16(VGG block)作为卷积层;其次,将每层的特征图放入本文改进的级联的特征融合模块(CFF block),目的是融合高低层语义信息;然后,将融合的特征图放入多尺度学习模块(multi-scale block)进一步提取纹理特征。在解码阶段,对恢复每层特征图施加注意力机制(Attention block),本文结合空间注意力机制和通道注意力机制对特征图附加权重,减少特征图的维数,保留关键的特征图。

图1 改进的FCN架构

2.2 级联的特征融合模块

融合高层和低层的特征是提高分割性能的一个重要方法。低层特征具有高分辨率,包含位置与细节信息,但包含的语义信息较少,噪声较多;高层特征则相反,有较强的语义感知能力,但对细节的感知能力较差。因此,将高层特征与低层特征融合能够使得网络深度挖掘复杂的纹理特征,从而提高分割效果。

本文提出一种级联的特征融合模块。如图2所示,F1,F2是不同层输出的特征图,分辨率分别为C1×H1×W1和C2×H2×W2, 其中F2的分辨率是F1的2倍,首先,使用上采样方法——Sub-pixel卷积[18]将F1上采样至与F2同样大小,并保留关键纹理信息;其次,使用3×3的空洞卷积细化上采样后的特征图,空洞卷积只需要较小的卷积核就能实现相同的感受野(常规卷积需要7×7),进一步减少了计算量。然后,使用1×1的卷积将F2的通道数与F1的通道数统一,使用两个批量归一化层(batch norm)处理这两种特征图;最后对处理后的两种特征图进行逐元素相加,使用批量归一化层(ReLU)处理,最终输出的融合的特征图表示为F3, 大小为C3×H2×W2, 有

图2 级联的特征融合模块

F3=F(F1,F2)

(1)

其中,F(·) 表示级联的特征融合模块。

2.3 多尺度学习模块

本文将级联的特征融合模块(CFF block)输出的特征图放入多尺度学习模块(multi-scale block)进一步提取高低层语义信息。如图3所示,本文的多尺度学习模块包含两种不同的多尺度学习模块——密集的空洞卷积模块(DAC block)[20]及金字塔池化模块(PSP block)[19]。密集的空洞卷积模块基于InceptionV3架构,包含有3种不同扩张率的空洞卷积,扩张率分别是1、3和5,有4个级联的分支,每个分支的感受野分别是3、7、9和19,具有大的感受野的卷积可以提取和生成更多抽象特征,而具有小的感受野的卷积可以提取更多细节的特征,通过结合不同感受野的空洞卷积,密集的空洞卷积模块捕获了不同粒度的信息。本文将密集的空洞卷积模块输出的特征图放入金字塔池化模块进一步细化特征图,目的是获取不同层级的上下文语义信息。首先,使用平均池化层(average-pooling)将输入的特征图下采样至原特征图的1/16、1/8、1/4、1/2,使用大小1×1的卷积将特征图的通道数减少为原来的1/4;其次,将4种不同的层级的特征图上采样至与输入特征图同样大小;然后,将输出的4种层级的特征图与输入特征图做合并,即将融合得到的全局特征与原始特征图连接起来,输出特征图F′3。 特征合并的过程其实就是融合目标的细节特征(浅层特征)和全局特征(深层特征),也就是捕获上下文信息的过程

图3 多尺度学习模块

F′3=P(DA(F3))

(2)

其中,DA(·) 表示密集的空洞卷积模块,P(·) 表示金字塔池化模块。

2.4 注意力机制模块

本文采用空间与通道混合注意力机制,目的对特征图附加权重,保留关键特征图,减少计算参数量。如图4(a)所示,首先,对特征图施加通道注意力机制,Fl是上一层的特征图,Fg为下一层的特征图,大小为Fl的1/2,对Fl进行下采样至与Fg同样大小;其次,对Fl和Fg分别使用线性变换Wl,Wg, 线性变换是指对输入张量使用大小为1×1×1的通道卷积;然后,将Fl和Fg拼接,经过leaky ReLU操作、线性变化Ψ、sigmoid操作和重采样(resampler)生成注意力系数α。最后,F′l表示对Fl施加注意力系数后的特征图

图4 注意力机制模块

F′l=αFl

(3)

通过通道注意力机制,每张特征图都获得了相应的权重,接着本文使用空间注意力机制,获取每张特征图的重要区域。如图4(b)所示,首先,由通道注意力机制输出的特征图F′l经过一系列的卷积操作得到特征图l, 卷积操作包括一个1×1卷积和两个3×3卷积;然后,由softmax算子在空间值上生成像素级注意力图L∈RH*W,H表示特征图l的高度,W表示特征图l的宽度

Li=eli,i=[1,2,3…,H*W]

(4)

其中,li表示特征图l中像素i的像素值。

将注意力图L与输入的特征图F′l进行元素级乘法得到特征图F″l

F″l=LF′l

(5)

2.5 改进的Dice loss

(6)

其中,β为超参数,控制Dice损失权重。

3 实 验

3.1 数据集、实施细节与评估指标

如图5所示,本文在4种数据集上评估所提方法,3种碳钢数据集和钛合金(TiAl)数据集。其中碳钢数据集来源于公开的大型碳钢数据库UHCSDB(ultra high carbon steel micrograph database)[21],本文从数据库选择了3种碳钢数据集,分别表示为Carbon steel F、Carbon steel G和Carbon steel H。4种数据训练集均为两张,Carbon steel F的测试集为4张,其余的数据测试集均为3张。

图5 数据集介绍

本网络的实验服务器配有一块Intel至强 E5-2620 V4、2.10 GHz的CPU和128 G的内存,3块Nvidia Tesla K80显卡。训练网络模型时设置迭代次数epoch为100,通常迭代次数epoch不大于75网络参数即可收敛至最优值附近,采用Adam一阶优化算法优化网络参数,基于训练数据迭代地更新神经网络权重;设置权重衰减系数,以减轻模型过拟合的问题;为了进一步得到更加优秀的网络性能,设置学习率为0.01,采用动态减小学习率的方案来进一步逼近网络参数最优值,当一定epoch内损失值不再下降,将学习率lr乘上衰减因子以减小学习率。损失函数超参数β取2。

平均交并比(mIoU)和平均Dice(mDice)是常用的语义分割结果评估指标,它能真实的反映预测的分割效果与真实分割结果的差异性,具体定义如下:图像中共k类(包括背景),真正例(TP)表示像素实际类别为正例,模型预测为正例的个数;真反例(TN)表示像素类别实际为反例,模型预测为正例的个数;假反例(FN)表示像素实际类别为正例,模型预测为负例的个数;假正例(FP)表示像素实际类别为负例,模型预测为负例的个数。第i类像素的交并比(IoU)[26]的定义为

(7)

平均交并比(mIoU)即为每类IoU的平均值

(8)

第i类像素的Dice[25]的定义为

(9)

平均Dice(mDice)即为每类Dice的平均值

(10)

3.2 对比实验

本文在4种数据集上评估本文的提出的方法(our method)并和其它经典的分割方法比较,包括CENet[20]、UNet[21]、UNet++[22]、UNet+++[23]、Attention-UNet[24]和FCN[4],评价标准使用常用的语义分割度量方法—平均交并比(mIoU)。图6展示了测试结果,表1展示了结果的平均mIoU和平均Dice。在4种数据集上,本文的方法均取得最好的结果,平均mIoU均在0.75以上,平均mDice均在0.85以上,泛化能力较强。在TiAl数据集上的mIoU和mDice平均值分别为0.750和0.853,Carbon steel F、Carbon steel G、Carbon steel H数据集都来自碳钢数据库,但由于纹理复杂程度不同,分割难度不同,Carbon steel F数据集两相的纹理区分度较为明显,本文的提出的方法在Carbon steel F测试集上的mIoU和mDice平均值分别为0.952和0.975,Carbon steel G和Carbon steel H两相的纹理较为相似,对纹理特征信息的粒度大小和全局信息要求较高。本文的方法在Carbon steel G数据集上的mIoU和mDice平均值分别为0.861和0.922,Carbon steel H的mIoU和mDice平均值分别为0.814和0.891。与经典的语义分割网络相比(UNet、UNet++、UNet+++、FCN),例如从TiAl数据集中的图像E3可以看出,如方框所示区域,在经典的语义分割网络下,出现过分割现象,而使用本文的方法该区域的分割结果几乎与真实标注一致。这是因为图像E3的两相的纹理复杂,本文方法施加特征融合模块融合高低层语义信息,多尺度学习模块进一步挖掘纹理信息,注意力机制保留重要纹理信息,而经典的语义分割网络未能进一步提取纹理信息,导致未能明显区分两相,尤其是UNet、UNet++几乎未成功的分割两相。Attention-UNet与CENet都改进了UNet网络结构,Attention-UNet施加了注意力机制,CENet施加了上下文信息提取模块,与这两种网络相比,例如从Carbon steel H数据集中的图像H1可以看出,在这两种网络下,方框所示区域出现欠分割现象,而使用本文的方法较完整的识别该区域。这是因为图像H1两种相纹理特征相似,本文方法施加的3种模块使得决策更加全面,而其它两种网络只单独使用注意力机制或上下文信息模块,导致最终做决策较为片面,分割效果不佳。

表1 本文的方法和其它方法在测试数据集上的mIoU/mDice

图6 本文的方法和其它方法在测试数据集上的结果

总的来说,本文提出的方法抓住材料图像同相内的像素具有高度相似性的特点,施加的3种模块深度挖掘纹理特征,仅使用少量样本训练生成的模型在测试集上均取得最优的结果,为解决材料图像中因小样本问题未能充分训练模型的缺陷提供新思路。

3.3 消融实验

3.3.1 验证CE-Dice loss性能

为了进一步验证CE-Dice损失的性能,还评估了本文提出的方法和其它深度学习网络(UNet、Attention-UNet、CENet、FCN)使用CE损失、Dice损失和CE-Dice损失的结果。图7和表2显示CE-Dice loss对一些网络的性能有明显的提升。特别的,在图像E2上,通过使用CE-Dice损失,FCN的性能提升了近3%,提升效果明显。在Carbon steel F数据集上,提升幅度较小,这是因为Carbon steel F数据集分布相对较为均衡,相区分度明显,不需要使用CE-Dice。在Carbon steel G数据集上,本文提出的方法性能提升了近7%,提升效果明显。在Carbon steel H数据集上,本方法提升效果也很明显。通过结合CE损失和Dice loss损失的优势,优化网络训练过程。

表2 CE、Dice和CE-Dice在数据集上的平均mIoU/mDice

图7 本文的方法和其它网络使用CE损失、Dice损失、CE-Dice损失的结果

3.3.2 验证模块的性能

图8和表3展示了网络分别不使用这些模块和仅使用这些模块的结果。在TiAl数据集上,使用3种模块的平均mIoU为0.750,平均Dice为0.853,而其它情况最优平均mIoU为0.747,平均mDice为0.851,特别的,在图像E2上,使用3种模块性能提升了13%。在Carbon steel F数据集上,使用3种模块的平均mIoU为0.952,平均mDice为0.975,而其它情况最优平均mIoU为0.951,平均mDice为0.974(不使用特征融合模块)。在Carbon steel H数据集上,使用3种模块的平均 mIoU为0.814,平均mDice为0.891,而其它情况最优平均 mIoU为0.763,平均mDice为0.853(不使用特征融合模块),特别的,在图像H1上,使用3种模块性能提升了5%,提升幅度最大。在Carbon steel G数据集上,仅使用注意力机制模块就达到最优,这是因为下采样阶段的模块包含卷积与池化过程,导致丢失一些信息,对Carbon steel G的分割结果影响较大。从每个模块的重要性的角度来说,在TiAl数据集上,特征融合模块对分割结果的影响最大,这是因为TiAl数据集纹理信息丰富,特征融合模块能够深度挖掘高层和低层语义信息并融合,决策更全面,进而区分各相。在Carbon steel F数据集上,特征融合模块对分割结果的影响最大,这是因为Carbon steel F数据集边界较为清晰,纹理区分度明显,特征融合保留纹理特征并融合了高层与低层语义特征。在Carbon steel G数据集上,注意力机制能够保留关键纹理特征,去除冗余特征。在Carbon steel H 数据集上,多尺度学习制模块对分割结果的影响最大,这是因为Carbon steel H数据集的两相纹理较为相似,通过多尺度学习模块提取的每的特征能够独特地表示各相,进而区分各相。

表3 验证模块的有效性

图8 验证模块有效性。(a)原图;(b)真实标注;(c)不使用特征融合模块;(d)只使用特征融合模块;(e)不使用多尺度学习模块;(f)只使用多尺度学习模块;(g)不使用注意力机制模块;(h)只使用注意力机制模块;(i)共同使用3种模块

4 结束语

本文提出了一种用于具有复杂纹理图像的分割方法,具有如下特点:首先,本方法提出的特征融合模块融合高层与低层语义特征,多尺度学习模块,注意力机制模块,优化了资源配置,使用较少的样本实现对材料图像各相的精确分割,为解决材料图像分割中的小样本问题提供新思路;其次,本方法针对材料图像中数据分布不平衡,提出了一种改进的Dice损失,结合CE损失的优势,优化训练过程,进一步提升分割结果。

后续将进一步研究材料图像中的小样本问题,并针对大量低分辨率、重叠与被遮挡等低质量的材料图像,将专家领域知识引入深度学习领域。也可以将基于多模态学习技术应用于材料图像领域,结合文字、图像等多种信息,重建高质量的样本,从而扩充样本数量。

猜你喜欢
集上纹理卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
Cookie-Cutter集上的Gibbs测度
基于BM3D的复杂纹理区域图像去噪
链完备偏序集上广义向量均衡问题解映射的保序性
从滤波器理解卷积
使用纹理叠加添加艺术画特效
基于傅里叶域卷积表示的目标跟踪算法
复扇形指标集上的分布混沌
TEXTURE ON TEXTURE质地上的纹理
消除凹凸纹理有妙招!