基于注意力的轻量级工业产品缺陷检测网络

2023-11-18 03:33周鸣乐万洪林
计算机工程 2023年11期
关键词:集上主干特征提取

李 刚,邵 瑞,周鸣乐,李 敏,万洪林

(1.齐鲁工业大学(山东省科学院)山东省计算中心(国家超级计算济南中心),济南 250014;2.山东省基础科学研究中心(计算机科学)山东省计算机网络重点实验室,济南 250014;3.山东师范大学 物理与电子科学学院,济南 250358)

0 概述

工业领域的表面缺陷检测对提高工业产品(如印制电路板、带钢等)质量、维护生产安全具有重要意义。由于工业产品表面缺陷复杂多样、形状各异、缺陷检测场景和硬件配置不同,因此对工业产品表面缺陷检测提出较高要求。

目前将深度学习技术应用到工业领域的检测与分割任务中成为一项主流。文献[1]构建一种二阶段的工业目标检测网络。文献[2]关注全局上下文语义信息,用于带钢的表面缺陷检测。文献[3-4]设计基于深度学习的表面缺陷检测方法。通用的目标检测器分为一阶段、二阶段和无锚3 类。文献[5-6]提出一阶段的通用目标检测器。文献[7-8]对一阶段目标检测器进行优化。文献[9-10]提出二阶段的通用目标检测器。文献[11]提出无锚的通用目标检测器。上述通用的目标检测器主要在自然场景下进行训练,往往不能直接移植到工业场景中。在工业表面缺陷检测方面,文献[12]对轨道缺陷进行无监督检测,文献[13]搭建的网络充分利用金字塔池化模块、多信息集成的上下文信息以及利用注意力机制优化提取丰富的轨道缺陷检测信息,取得较优的检测效果。文献[14]提出利用三重图推理网络进行金属表面缺陷分割任务。文献[15]基于YOLOv3 构建一种轻量级网络,提升绝缘子的定位及缺陷检测效果。文献[16]利用卷积神经网络(Convolutional Neural Network,CNN)对晶圆缺陷进行分类,并通过改进的Faster R-CNN 进行缺陷检测。研究人员提出可任意插入使用的注意力方法。文献[17]提出经典的SENet,它可以被任意地插入到分类网络中,从而在增强分类网络特征提取效果的同时不增加过多参数量。文献[18]提出通道和空间注意力机制(CBAM),同时关注通道和空间上不同维度的特征信息,现在已被广泛应用到各种分类或检测网络中,取得较优的应用效果。文献[19]提出坐标注意力,它可以被任意地插入到分类或检测模型中,不仅能捕获跨通道信息,还能捕获方向感知和位置感知信息,有助于模型更加精准地定位和识别感兴趣目标。文献[20]提出GAM Attention,能够在减少信息弥散的情况下放大跨维度的特征交互。

上述工业领域的缺陷检测方法都具有较优的检测性能且满足轻量化的需求,但难以满足在低性能GPU 上的精度需求。此外,上述检测方法都是根据单一工业缺陷数据进行检测,并没有对模型满足工业领域不同检测任务的需求进行研究。本文针对工业场景下对于缺陷检测精度和速度的双重要求,提出一种轻量级目标检测网络。该网络分为主干网络、多尺度特征聚合网络、残差增强网络和注意力增强网络4 个部分。本文网络不再采用以高参数量、高训练成本为代价换取检测精度的Transformer[21],而是考 虑了工 业检测场景,将轻量且即插即用的注意力机制融入到检测器中,同时将不同深浅语义的信息在多尺度特征聚合网络中进行特征融合。最后,为了加强深层语义特征的表示能力,将全局特征与局部特征进行信息交互。

1 网络结构

本文提出的工业领域表面缺陷检测网络分为主干网络、多尺度特征聚合网络、残差增强网络和注意力增强网络4 个部分,其结构如图1 所示。主要创新点包括:1)使用轻量化的残差结构作为主干网络,并采用注意力机制对残差块进行特征提取的增强;2)使用特征金字塔网络聚合多尺度特征图,使得模型的特征具有多尺度语义信息;3)设计基于残差模块和注意力增强模块的融合网络,并对特征提取进行加强,从而达到更优的表面缺陷检测效果。

图1 工业产品表面缺陷检测网络结构Fig.1 Structure of industrial product surface defect detection network

1.1 主干网络

本文将主干网络设计为5 个特征提取部分,使用步长为2 的3×3 卷积进行降采样。令输入单个特征提取部分的特征图表示为F,在经过单个特征提取部分后生成的特征图表示为F'。F'的生成过程如下:

其中:S为SiLU 激活函数;B为批标准化;Conv23表示步长为2 的3×3 卷 积;Conv11表示步长为1 的1×1 卷积;Conv13表示步长为1的3×3卷积;CCL为空间注意力层;CCDL为坐标注意力层。CCL可以看成1 个轻量计算单元,用于实现通道注意力。通道注意力表达式如下:

其中:MaxPool 为全局最大池化;AvgPool 为全局平均池化;Concat 为以通道维度进行特征图拼接操作。MMLP表达式如下:

其中:W0为通道数2C/r,r为缩减率;W1为通道数C。最后,将MC和输入特征图F做乘法操作,得到最终生成的特征。

此外,本文为每个特征提取部分引入坐标注意力层(CDL)来进一步提高网络的特征表示能力。在结构方面,CDL 由坐标注意力组成,将通道注意力分解为2 个一维特征编码过程,分别沿2 个空间方向聚合特征。坐标注意力的表达式如下:

其中:W1表示通道数为C的1×1 卷积;h_att 为在高度方向上的注意力;w_att 为在宽度方向上的注意力。h_att 和w_att 表达式如下:

其中:SSplit为拆分操作;AvgPoolh为沿高度方向进行压缩的全局平均池化;AvgPoolw为沿宽度方向进行压缩的全局平均池化。它们将特征图F压缩为F∈RC×1×W和F∈RC×H×1大小。MMLP表达式如下:

其中:W0表示通道数为C/r的1×1 卷积,r为缩减率;BN 为批标准化。将Mh和Mw与输入特征图F同时做乘法操作得到最终生成的特征。

本文所提的主干网络服务于工业表面缺陷检测网络,仅由5个特征提取部分组成,无须构建全连接层。本文所提主干网络的单个特征提取部分结构如图2所示。

图2 单个特征提取部分的结构Fig.2 Structure of the individual feature extraction section

1.2 多尺度特征聚合网络

本文提出的多尺度特征聚合网络使用3个特征聚合组,其结构如图3所示。第1个特征聚合组直接使用主干网络的特征,后2个聚合则与FPN等不同,它们不是聚合来自上一层的特征聚合组,而是聚合来自更深层次的语义特征,即经过残差注意力和注意力增强提取后的信息。

图3 多尺度特征聚合网络结构Fig.3 Structure of multi-scale feature aggregation network

对于输入图像F,将主干网络最后3 个特征提取部分的输出特征表示为:

将多尺度特征聚合网络的输出、残差增强网络和注意力增强网络的输出分别表示为:

多尺度特征聚合网络中M5 的表达式如下:

其中:Conv1 为1×1 卷积;Conv3 为3×3 卷积;Pool 为SPPF 模块;B5 表示来自主干网络中特征提取部分5的输出。

多尺度特征聚合网络中M4 的表达式如下:

其中:B4 表示来自主干网络中特征提取部分4 的输出;A5 表示来自注意力增强网络中注意力模块1 的输出;up 为上采样操作。

多尺度特征聚合网络M3 的表达式如下:

其中:B3表示来自主干网络中特征提取部分3的输出;A4表示来自注意力增强网络中注意力模块2的输出。

1.3 残差增强网络

本文在多尺度特征聚合网络后接入残差增强网络,使得多尺度特征聚合网络能够聚合更深层次语义的特征信息。该网络由3 个残差模块组成,单个残差模块结构如图4 所示。

图4 单个残差模块结构Fig.4 Structure of a single residual module

与主干网络不同,残差增强网络中的每个残差模块不需要降采样,只采用2 个卷积组,分别是1×1和3×3。每个残差模块都设计相同的注意力残差边,用于实现注意力的空间关注。令输入单个残差模块的特征图表示为F,单个残差模块的表达式如下:

其 中:ConvBlock3×3和ConvBlock1×1分别为3×3 卷 积组和1×1 卷积组;RResAttention表示将输入的特征图F∈RC×H×W分别经过全局最大池化和全局平均池化,得到2 个F1∈R1×H×W大小的特征图。之后,将这2 个特征图进行相加操作,经过1 个3×3 卷积生成具有信息关注能力的残差边,其表达式如下:

其 中:Conv3×3表示步长为1、填充为1 的3×3 卷 积;MaxPool 为全局最大池化;AvgPool 为全局平均池化。

每到秋粮上市的季节,一些心怀鬼胎的骗子和商贩也开始活跃起来。由于称粮设备的更新换代,现在,坑农骗局也有了新的花样。地磅被遥控、炮车被改装、水分测试仪造假等。面对这些称粮时的高技术骗局,该怎么办呢?

1.4 注意力增强网络

本文为充分利用更深层次的语义信息,从而提升轻量级工业表面缺陷检测网络的特征提取能力,设计注意力增强网络。该网络非常简便,可以即插即用。注意力增强网络包括全局语义信息和局部语义信息2 部分。注意力增强网络将两者进行融合,由3 个注意力增强模块组成,其单个注意力增强模块结构如图5 所示。

图5 单个注意力增强模块结构Fig.5 Structure of single attention enhancement module

单个注意力增强模块的表达式如下:

MMLP3表达式如下:

其中:Conv1C表示通道数为C的1×1 卷积;Conv1C/r表示通道数为C/r的1×1 卷积;r为缩减率。MMLP2表达式如下:

1.5 损失函数

本文提出的损失函数分为边界框回归损失、置信度损失和分类损失,采用GIoU 计算边界框回归损失,其表达式如下:

其中:IIoU表示交并比;A和B分别表示预测框和真实框;C表示包围A和B的最小包围框。

本文采用二元交叉熵损失函数计算置信度损失和分类损失,表达式如下:

其中:N为总量;x为样本;y为标签。

其中:r为常数,当其为0 时,Focal Loss 与BCELogits Loss 一致。t可表示为:

2 实验与结果分析

2.1 数据集

本文的 实验数 据集包 括NRSD-MN[22]、NEUDET[23]和PCBData[24]。NRSD-MN 数据集包含4 101 张轨道表面缺陷图像,其中包括3 936 张人造轨道表面缺陷图像和165 张自然轨道表面缺陷图像。本文选择4 101 张图像作为训练集和测试集,并与最先进的算法进行比较,以2 971 张图像作为训练集,1 130 张图像作为测试集。NEU-DET 数据集是1 个缺陷分类数据集。热轧钢板的缺陷包括裂纹、夹杂、斑块、麻点表面、轧入氧化皮和划痕6 种类型。NEU-DET 数据集在每种缺陷类型上均有300 张图像,共有1 800 张图像。本文选取1 260 张图片作为训练集,540 张作为测试集。PCBData 数据集包含1 500 张PCB 图像,涵盖6 种类型的PCB 缺陷,每张图像分辨率为640×640 像素。本文选取其中1 230 张图像作为训练集,270 张图像作为测试集。

2.2 实验参数

本文实验均是在Windows 10操作系统、PyTorch 1.11的环境 下实现。在NRSD-MN、NEU-DET 和PCBData 数据集上的全部对比实验选用2 种硬件配置:高性能硬件配置为CPU Intel®CoreTMi9-10900K,内存64 GB,GPU NVIDIA GeForce RTX 3080;低性能硬件 配置为CPU Intel®CoreTMi7-11800H,内 存16 GB,NVIDIA GeForce RTX 3060 Laptop GPU,CUDA 核心仅为高性能硬件配置的1/3。超参数设置:训练图像大小为640×640 像素,batch_size 大小为8,所有模型均训练300 个epoch 以及均不使用预训练权重,初始学习率设置为0.01,优化器采用SGD。

2.3 评估指标

本文对模型性能优劣的评价指标为精准度(P)、召回率(R)、F1 值(F1)、mAP@0.5(mAP@0.5 表 示IoU 阈值在0.5 上的mAP)、GFLOPS。精准度和召回率的表达式如下:

2.4 对比实验

本文评估该模型在工业表面缺陷数据集NRSDMN、NEU-DET 和PCBData 上的缺陷检测性能,并与其他目标检测模型进行比较。表1~表3 所示为不同模型在高性能硬件配置(GPU NVIDIA GeForce RTX 3080)下的实验结果,加粗表示最优数据。

表1 高性能配置下不同模型在NRSD-MN 数据集上的实验结果Table 1 Experimental results among different models on the NRSD-MN dataset under high performance configuration

表4~表6 所示为不同模型在低性能硬件配置(NVIDIA GeForce RTX 3060 Laptop GPU)下的实验结果。

2.5 结果分析

从高性能配置实验环境下本文模型在NRSD-MN数据集上的实验结果可以看出:本文模型的参数量是YOLOv7-tiny[25]的38%,但是在F1和mAP@0.5 这2 个评价指标上分别提高4.13 和2.21 个百分点,相比高于本文模型4倍参数量的YOLOv3-tiny,在2个指标上分别提高4.52 和3.50 个百分点。此外,本文复现了文献[26]的研究成果,为保证参数量相当,本文将其研究成果采用低参数量的YOLOv5s进行复现。

从表1 可以看出,本文模型在P、R、F1、mAP@0.5、GFLOPS 这5 个指标上均优于YOLOv3-tiny、YOLOv4-tiny、YOLOv5s、YOLOv7-tiny 和FDDM-s。同时,本文模型在NEU-DET 和PCBData数据集上具有较优的泛化能力(如表2和表3所示),说明本文模型适用于工业领域的轻量级工业表面缺陷检测。从表4~表6可以看出,本文模型在参数量和GFLOPS 最低的基础上取得较优的mAP@0.5结果。

表2 高性能配置下不同模型在NEU-DET 数据集上的实验结果Table 2 Experimental results among different models on the NEU-DET dataset under high performance configuration

表3 高性能配置下不同模型在PCBData 数据集上的实验结果Table 3 Experimental results among different models on the PCBData dataset under high performance configuration

表4 低性能配置下不同模型在NRSD-MN数据集上的实验结果Table 4 Experimental results among different models on the NRSD-MN dataset under low performance configuration

表5 低性能配置下不同模型在NEU-DET数据集上的实验结果Table 5 Experimental results among different models on the NEU-DET dataset under low performance configuration

表6 低性能配置下不同模型在PCBData数据集上的实验结果Table 6 Experimental results among different models on the PCBData dataset under low performance configuration

YOLOv5s 和本文模型在不同数据集上的检测结果分别如图6~图8 所示。从图6~图8 可以看出,YOLOv5s 有漏检和误检现象,本文所提模型的检测效果优于YOLOv5s。

图6 不同模型在NRSD-MN 数据集上的检测结果对比Fig.6 Comparison of detection results among different models on the NRSD-MN dataset

图7 不同模型在NEU-DET 数据集上的检测结果对比Fig.7 Comparison of detection results among different models on the NEU-DET dataset

2.6 消融实验

在消融实验中,本文将主干网络(不添加注意力)简称为R,将主干网络(包含CL 和CDL 结构)简称为R+CC,将多尺度特征聚合网络简称为MF,将残差增强网络简称为RA,将注意力增强网络简称为CN。

本文在3 个数据集上均进行消融实验,结果如表7~表9 所示。从表7 可以看出,以R+CC+MF+RA+CN(本文模型)为基线,在减少主干网络中的注意力机 制CC 后,R+MF+RA+CN 网络的F1、mAP@0.5 分别减少1.09 和0.6 个百分点。在去除注意力增强网络CN 后,R+MF+RA 网络与R+MF+RA+CN 网络相比在F1、mAP@0.5 指标上分别减少1.75 和1.6 个百分点。在继续减少残差增强网络RA 后,R+MF 网络与R+MF+RA 网络相比在F1、mAP@0.5 指标上分别减少2.25 和1.2 个百分点,充分证明本文所提主干网络中注意力机制、注意力增强网络和残差增强网络有助于改进本文模型性能。从表8 和表9 可以看出,本文模型分别在NEU-DET 和PCBData 数据集上的消融实验结果也很好地证明这一点。

表8 在NEU-DET 数据集上的消融实验结果Table 8 Results of ablation experiments on the NEU-DET dataset %

表9 在PCBData 数据集上的消融实验结果Table 9 Results of ablation experiments on the PCBData dataset %

3 结束语

针对工业产品表面缺陷,本文提出一种基于全过程注意力增强的网络结构。将轻量化的残差结构作为主干网络,采用注意力机制对残差块进行特征提取的增强,构建特征提取能力强的提取模块,并对提取模块结构进行堆叠形成主干网络。同时,使用特征金字塔网络聚合多尺度、多深浅语义的特征图,使得模型的特征具有多尺度信息。在此基础上,通过对残差模块和注意力增强模块进行组合,增强对多尺度特征聚合网络输出的特征图特征的提取,从而达到更优的表面缺陷检测目的。在数据集上验证本文模型及每个模块的有效性,实验结果表明,本文模型具有较优的检测性能。下一步将面向工业产品中的微小缺陷和伪装目标检测,设计轻量级优化方法,实现可满足实时性和准确性要求的轻量级微小缺陷检测网络。

猜你喜欢
集上主干特征提取
抓主干,简化简单句
Cookie-Cutter集上的Gibbs测度
链完备偏序集上广义向量均衡问题解映射的保序性
基于Daubechies(dbN)的飞行器音频特征提取
复扇形指标集上的分布混沌
左主干闭塞的心电图表现
Bagging RCSP脑电特征提取算法
整合内容 构建高效课堂——开展非线性主干循环活动型单元教学模式
全国主干公路网交通安全监控信息共享平台构建研究
基于MED和循环域解调的多故障特征提取