叶旭芳 陈梅 李晖 曹阳 王喜宾
摘 要:
復杂纹理瓷砖表面存在较多的低可视度小目标缺陷与严重的复杂纹理背景干扰,使应用目标检测方法时易出现较高的误检率和漏检率。为提升复杂纹理瓷砖表面缺陷检测效率,提出了基于通道与空间联合注意力的复杂纹理瓷砖表面缺陷检测方案。首先通过建模深浅层特征通道间关系设计了一种选择性特征融合方法,以提升模型对小目标缺陷的特征表达;其次,提出了通道与空间联合注意力模块,通过通道注意力和空间注意力来筛选关键特征通道和抑制纹理区域,使模型着重于学习缺陷特征以增强模型辨别缺陷与纹理的能力;最后,在复杂纹理瓷砖表面缺陷数据上进行了实验验证。实验结果表明,相较于AFF(attentional feature fusion)和CBAM(convolutional block attention module)方法,选择性特征融合方法和通道与空间联合注意力模块使模型检测性能分别提高了5.3 AP、6.32 AP。最终,实验证明了该方案分别优于现有的瓷砖检测方法YOLOv5和纹理织物缺陷检测AFAM方法1.32 AP、2.12 AP。
关键词:表面缺陷检测;注意力机制;特征融合;目标检测
中图分类号:TP391.41 文献标志码:A 文章编号:1001-3695(2024)03-046-0944-07doi: 10.19734/j.issn.1001-3695.2023.06.0303
Channel and spatial joint attention based defect detection method in complex texture ceramic tile
Ye Xufang1,2a, Chen Mei1,2a, Li Hui1,2a, Cao Yang2b, Wang Xibin3
(1.State Key Laboratory of Public Big Data, Guiyang 550000, China; 2.a.School of Computer Science & Technology, b.School of Mecha-nical Engineering, Guizhou University, Guiyang 550000, China; 3.School of Data Science, Guizhou Institute of Technology, Guiyang 550000, China)
Abstract:
In the complex texture of the tile surface, there are more low-visibility small defects, and the interference from the complex textured background is serious. This results high false detection and false alarm rate using traditional object detection methods. To enhance the efficiency of defect detection, this paper proposed a defect detection approach on complex textured tile surfaces based on the joint attention mechanisms of channels and spatial. Firstly, to enhance the feature expression of small defects, it proposed a selective feature fusion method by modeling the relationship between deep and shallow feature channels. Secondly, it designed a joint channel and spatial attention module that selected key feature channels and suppressed texture regions through channel and spatial attention, enabling the model to focus on learning defect features and enhancing its ability to discriminate between defects and texture. Finally, it validated the approach on a dataset of complexly textured cera-mic tile surface defects. The experimental results demonstrate that compared to the AFF and CBAM methods, the selective feature fusion method and channel & spatial joint attention achieved improvements of 5.3 AP and 6.32 AP, respectively. In addition, this paper compared the overall approach with the existing tile detection method YOLOv5 and texture fabric defect detection method AFAM. The results show that it outperforms these methods, with respective improvements of 1.32 AP and 2.12 AP.
Key words:surface defect detection; attention mechanism; feature fusion; object detection
0 引言
工业品表面缺陷与其功能缺陷密切相关。通过检测表面缺陷筛选不合格产品,是保证生产线产品质量稳定的可靠方法之一。瓷砖生产行业得益于产业自动化的发展,生产环节均已实现自动化,但质检环节仍大量依赖人工目视检查[1]。人工质检效率低。限制了瓷砖生产速度,且目视检测缺陷重度依赖质检者经验,导致总体质检水平不稳定,尤其是工人在高强度光照下长时间工作容易疲劳,准确性大幅度下降。当前瓷砖表面缺陷质检效率低已成为阻碍瓷砖生产效率提升的主要问题[2]。
由于人工检测表面缺陷效率低,学者们提出基于传统机器视觉的自动化检测方法[3]。传统机器视觉的主要思路是对表面缺陷进行特征表征,并根据不同类别缺陷的形态差异,如边缘、颜色、纹理等,来对表征方法不断进行调整。张军等人[4]根据背景与图案的灰度差分离花纹背景与缺陷,但是仅适用于简单规整图案花纹。Hou等人[5]通过分析织物图像包含的周期性纹理频谱,提出了一种二维指数分析方法来分解纹理,进而检测织物表面缺陷,但是依赖于织物表面图案简单且重复的特性。上述基于传统计算机视觉的检测方法都在缺陷区域清晰、纹理背景存在形态规律的图像数据上进行人工优化设计,不能实现无规律形态缺陷的检出[6]。
为解决传统计算机视觉的缺陷检测方法存在的新形态缺陷检测泛化性差的问题[7~11],研究者在工业表面缺陷检测领域引入了深度学习方法。基于深度学习的目标检测算法可以同时预测目标类别与位置坐标,非常符合工业表面缺陷检测场景下需要同时获得缺陷类别与所在区域位置的需求,已经成为了工业品表面缺陷检测方法的主要方向[12]。
然而,在复杂纹理瓷砖表面缺陷检测领域中,表面缺陷的检测难度远大于常规工业品。主要体现于存在大量可视度低的难检测小尺寸缺陷和复杂纹理背景干扰严重两个方面[6]。而現有基于YOLOv5瓷砖表面缺陷检测算法[2],只考虑背景与缺陷对比度较高的瓷砖数据集,并未考虑复杂纹理瓷砖中的检测性能。因此,接下来,从小尺寸缺陷检测和复杂纹理干扰抑制两个方面探讨目标检测方法在工业品表面缺陷检测领域的研究工作。
首先,针对可视度低、检测难的小尺寸缺陷,研究者主要通过融合浅层空间特征与深层语义特征、增加目标上下文特征信息等方法,来改善小目标的特征表示,从而提升小目标检测性能[13],以减少小尺寸缺陷上的漏检情况。例如特征金字塔网络(feature pyramid network,FPN)通过将骨干网络各个stage特征图从上至下融合,融合深层语义与浅层特征空间信息,为小目标生成更强的特征表征[14]。Dai等人[15]认为特征的初始融合方式极大地决定了融合后特征的语义表达,FPN的性能瓶颈是简单地融合深浅层特征,所以提出具有双卷积分支的注意力特征融合AFF(attentional feature fusion,AFF)方法,通过注意力机制来动态地融合深浅层特征。
当融合不同层特征时,由于尺度和语义的差异,简单融合势必会减弱特征的表达能力[16]。而AFF方法忽略了深浅层特征在尺度和语义上的不一致性,导致根据简单融合后的初始特征计算而来的特征融合权重,无法准确地表达浅层和深层特征中的关键特征分布。因此,基于融合前特征计算融合权重,能更好地捕捉特征之间的关联性,从而提高表面缺陷检测的性能。
注意力机制抑制纹理干扰的本质是基于特征输入的动态权重调整机制,通过权重抑制图像中的不相关区域,突出重要区域[17]。注意力机制主要有通道注意力和空间注意力两类。通道注意力关注目标是什么,适合分类任务,通过调整特征通道权重能让模型关注包含更多关键信息的特征通道[18~20],例如SENet[21]。而空间注意力关注目标在哪里,通过调整特征空间上关键位置特征权重,聚合关键的位置特征,适合密集型预测任务,如目标检测与语义分割[17]。SENet通过两层线性层建模全局特征通道间的关系,以捕捉关键的特征通道。由于需要对所有特征通道间关系进行建模,SENet计算量偏大,所以在通道关系建模前缩减特征通道数为原有的1/16以减少计算量,导致存在一定的信息损失情况[19]。为了进一步抑制不重要特征,CBAM(convolutional block attention module)方法[22]以通道注意力SENet为基础,增加了全局最大池化操作以丰富通道特征中的目标形态信息,并引入了卷积作为空间注意力机制以筛选关键位置区域特征。
注意力机制在表面缺陷检测中的作用是捕捉特征中的依赖关系,并将检测重点集中在相互间具有重要依赖关系的特征上[12]。然而,Wang等人[23]指出,工业品表面的纹理区域往往比缺陷占据更大的特征图区域,而SENet、CBAM的全局通道关系建模方式中,计算的权重偏向于具有较大显著性的目标,并且随着全局通道特征建模过程,影响到所有特征通道,导致缺陷特征被背景纹理噪声特征淹没。
为解决不显著缺陷被背景纹理淹没的问题,Wang等人[23]在CBAM基础上提出了自适应融合注意力方法(adaptively fused attention module,AFAM)。AFAM方法通过并行化通道与空间注意力分支、多次合并横向信息到空间注意力中,以提升模型对低显著性缺陷的关注,抑制织物表面复杂背景图案对检测带来的干扰。AFAM方法增加缺陷特征信息的方式,无法真正解决全局通道间关系建模过程中,显著性背景特征导致的干扰问题。
总体而言,CBAM和AFAM方法中的全局通道间关系建模容易导致高权重的显著性背景特征干扰低显著性的缺陷特征。在复杂纹理瓷砖表面,纹理比缺陷更为显著,因此采用全局特征通道间关系建模并不能有效地突出缺陷检测。此外,复杂纹理瓷砖表面的纹理和划伤缺陷都相对细长,因此需要采用具有较大感受野的注意力方法来进行长距离依赖建模。然而,CBAM和AFAM方法中的空间注意力都属于感受野较狭窄的卷积网络,不适合进行长距离依赖建模。因此,对于复杂纹理瓷砖表面的缺陷检测,应建模特征通道间的局部依赖关系,并使用更适合处理长距离依赖的空间注意力方法。
从复杂纹理瓷砖表面缺陷检测领域中,小尺寸缺陷难以检测和复杂纹理背景干扰严重两个问题出发,对现有的小目标检测方法AFF和干扰抑制方法CBAM进行进一步改进,以提高复杂纹理瓷砖表面缺陷检测的性能。其主要贡献有:a)通过建模深浅层特征通道间的关系,提出了选择性特征融合方法,以增强模型的小尺寸缺陷特征表达能力;b)为了提升不显著缺陷的检出率并降低纹理背景干扰,提出了通道与空间联合注意力模块(channel & spatial joint attention module,CSAM);c)基于易受纹理背景干扰的纹理瓷砖缺陷图像数据,以AFF和CBAM方法为基准,分别验证了提出的选择性特征融合方法和CSAM的有效性。其次,以瓷砖表面缺陷检测算法YOLOv5和AFAM方法为基准,验证了整体检测方案的有效性。
1 基础知识
1.1 损失函数
focal loss[24]损失函数通过调整各个难易样本在模型学习过程的权重,使模型充分学习困难样本特征,进而获得了性能提升。下面给出focal loss定义:
3 实验
为验证选择性特征融合方法与CSAM模块方法在复杂纹理瓷砖表面缺陷检测中的有效性,实验在RetinaNet[24]上采用消融实验法比较了同类工作,并在基于PyTorch的mmdetection框架上完成了所有实验。所有实验方案均采用相同的实验配置,相关实验数据均已给出。实验平台为Ubuntu 18.04 LTS,使用NVIDIA RTX A6000 GPU进行计算加速。
3.1 数据集
复杂纹理瓷砖数据集来源于阿里云天池[27],实验中仅使用易受纹理背景干扰的缺陷图像数据,数据图像共2 346张,包含7 298条bbox标注数据,如表1所示。
为扩增训练数据并降低原始高分辨率瓷砖图像训练过程中的高显存需求,同时避免影响缺陷区域的可视度,对图像进行了数据随机裁剪与重采样处理。首先将圖像按长宽比例缩放图像到1 600像素,并根据缺陷位置随机裁剪出长宽为1 200像素的区域作为最终训练的样本;再对训练数据进行三倍重采样以增加缺陷裁剪区域的样本数量;最后对裁剪出的样本使用随机图像变换策略对图像进行预处理,以避免过拟合问题。实验中,随机图像变换策略包含图像质量压缩、随机图像平滑、中值滤波平滑、图像锐化与图像颜色通道重排、图像随机旋转与随机亮度调整、随机颜色调整与自适应直方图均衡化、随机图像饱和度与高斯噪声、使用emboss滤波器提取轮廓并叠加到原图。上述图像预处理工作开展基于mmdetection与albumenta-tion[28]库。
3.2 评价指标
实验采取平均精准度(average precision,AP)衡量检测模型性能,并根据召回率(recall)指标衡量模型在降低缺陷漏检方面的表现。AP指标由准确率(precision,Ppre)、召回率(recall,Rrecall)计算而来,表示召回率为横坐标、准确率为纵坐标绘制的曲线下方面积,各类别AP均值为mAP,定义为
AP=∫10Ppre(Rrecall)dRrecall(23)
其中:Tp为正确分类的缺陷锚框数量;Fp为纹理背景被分类为缺陷锚框的数量;FN为缺陷被错误分类的个数。
3.3 消融实验
为验证检测方法中各个部分设计的有效性,使用纹理瓷砖数据中15%图像作为验证集,分别对各个模块进行评估。在RetinaNet[24]检测网络上设计了消融实验方案与其一一对应,主要包含以下三个部分。首先,以PVTv2网络和PVTv2+AFF方法为基准,验证了选择性特征融合方法的有效性;其次,以PVTv2、PVTv2+SENet和PVTv2+ CBAM作为基准,评估了CSAM模块的有效性,并对其进行了可视化分析,将CSAM方法添加到RetinaNet、YOLOv5与FCOS[29]三种目标检测算法中,评估了CSAM模块的适用性;最后,将选择性特征融合以及CSAM进行整合,以现有瓷砖缺陷检测方法YOLOv5[2]以及纹理织物缺陷检测方法AFAM作为基准,评估整体方案的有效性。
3.3.1 选择性特征融合方法
为验证选择性特征融合方法对提升小尺寸缺陷目标检测性能的有效性,进行了如图7所示的实验。通过图7的对比实验可知,在检测性能mAP指标上,相较于初始PVTv2网络以及基准PVTv2+AFF方法,使用选择性特征融合方法增强小目标表达后,分别提升了3.18 AP、5.3 AP的检测性能。进一步分析,选择性特征融合方法带来的主要性能提升集中在白点、深色块两类点块状小尺寸缺陷。白点和深色缺陷是小尺寸目标缺陷,选择性特征融合方法对该两类缺陷检测性能的提升(相对初始PVTv2网络分别提升了6.9 AP,14.1 AP),证明了选择性特征融合方法能抑制可视度低的小尺寸缺陷漏检率高的问题。
3.3.2 CSAM模块
为证明纹理抑制方法CSAM的有效性,在复杂纹理瓷砖数据集上进行了如表2所示的实验。由表2可知,在ResNet101+CBAM网络上进行复杂纹理表面缺陷检测,mAP为57.95%,网络改为PVTv2,mAP提升至60.2%。在PVTv2的基础上,采用CSAM模块进行纹理背景抑制,检测性能mAP有2.4 AP的提升,而相对于SENet、CBAM注意力方法,分别提升了3.14 AP、6.32 AP。这说明通道间建模的局部方式比全局方式(SENet、CBAM)更适用于纹理抑制场景,能避免全局通道间关系建模方式中存在的不显著缺陷特征被更显著的纹理背景干扰的问题。
接下来,验证CSAM模块在各目标检测算法的适用性。目标检测算法根据是否指定预测锚框尺寸分为Anchor Base和Anchor Free两类[30]。实验选择Anchor Base算法RetinaNet、YOLOv5,以及Anchor Free算法FCOS[29],并将CSAM模块添加到这三种目标检测算法,通过比较各个算法的性能提升幅度,评估CSAM模块的适用性,实验结果如图8所示。
为进一步观察注意力机制对模型关注区域的影响,使用Layer-CAM[31]可视化模型检测缺陷中的关键区域,如图9所示。通过关键区域的特征权重可视化对比可以看出,ResNet101[32]+CBAM方案在复杂纹理背景干扰下,仅突出完整划伤缺陷的左侧部分,且未检出左下方的低可视度小尺寸划伤目标。PVTv2方案相较于ResNet101[32]+CBAM方案,重点关注区域更为狭长,学习到了细长的划伤缺陷存在的位置依赖关系。在PVTv2方案添加通道注意力部分后,其关注区域左移,与划伤缺陷主体更为接近,在复杂纹理背景中进一步学习到划伤缺陷的关键主体位置。而PVTv2方案添加空间注意力部分后,检测出了其他方案没有检测到的左下角低可视度小尺寸划伤缺陷,表明能更充分地学习特征细节信息。对模型关键区域的可视化证明了CSAM模块局部通道建模策略和长距关系建模设计在抑制无关纹理区域的有效性。
3.3.3 整体方案
本节将选择性特征融合方法以及通道與空间联合注意力CSAM模块整合到PVTv2中,并验证其在瓷砖表面缺陷检测场景下的有效性。实验选择了现有的瓷砖缺陷检测方法YOLOv5[2]、Wang等人[23]提出的在织物表面缺陷检测中提出的AFAM注意力方法,在复杂纹理瓷砖数据中的性能表现作为基准。实验结果如表3所示。实验结果表明,相对于ResNet101、YOLOv5和PVTv2+AFAM,整体方案分别提升了6.64 AP、1.32 AP、2.12 AP。这表明整体方案在检测复杂纹理瓷砖表面缺陷上拥有更优的性能,证明了其有效性。
接下来,对整体方案的计算量与参数量进行比较分析。设置图像输入尺寸为1200×1200像素,计算了整体方案与现有方案的计算量与参数量,如表4所示。整体方案的计算量为265.16 G,高于YOLOv5与PVTv2+AFAM方法,运算速度更慢。参数量为23.02 M,高于PVTv2+AFAM方法的22.6 M,低于YOLOv5方法的76.77 M,因此显存占用高于PVTv2+AFAM,低于YOLOv5方法。结果表明,整体检测方案的运算速度慢于大部分现有方案,参数量仅多于原始PVTv2网络、PVTv2+AFAM方法。
4 结束语
针对复杂纹理瓷砖表面缺陷检测场景,目标检测方法面临小目标缺陷多以及复杂纹理背景干扰严重的挑战,提出了基于注意力机制的复杂纹理瓷砖缺陷检测方法。首先通过深浅层特征通道间的关系建模来选择特征融合区域,提高模型在小目标缺陷的特征表达;其次,通过通道注意力和空间注意力来筛选关键特征通道和抑制纹理区域,使模型着重于缺陷特征学习以增强模型辨别缺陷与纹理的能力;最后,在易受纹理背景干扰的复杂纹理瓷砖缺陷图像数据中验证了复杂纹理瓷砖检测整体方案的有效性。实验结果表明,选择性特征融合方法和通道与空间联合注意力方法相较于AFF和CBAM方法分别提高了5.3 AP和6.32 AP。此外,整体方法与瓷砖检测方法YOLOv5和纹理织物缺陷检测方法AFAM相比,整体方案优于这些方法,分别提高了1.32 AP和2.12 AP。后续可以考虑将纹理干扰下的瓷砖缺陷检测算法优化工作应用于其他种类的纹理工业品进行表面缺陷检测,如织物、合成木板。
参考文献:
[1]欧阳周,张怀亮,唐子暘,等. 复杂纹理瓷砖表面缺陷检测算法研究 [J]. 西北工业大学学报,2022,40(2): 414-421. (Ouyang Zhou,Zhang Huailiang,Tang Ziyang,et al. Research on defect detection algorithm of complex texture ceramic tiles based on visual attention mechanism[J]. Journal of Northwestern Polytechnical University,2022,40(2): 414-421.)
[2]王淑青,顿伟超,黄剑锋,等. 基于YOLOv5的瓷砖表面缺陷检测[J]. 包装工程,2022,43(9): 217-224. (Wang Shuqing,Dun Weichao,Huang Jianfeng,et al. Ceramic tile surface defect detection based on YOLOv5[J]. Packing Engineering,2022,43(9): 217-224.)
[3]权小霞,李军华,汪宇玲. 基于局部方差加权信息熵的瓷砖表面缺陷检测[J]. 中国陶瓷,2019,55(10): 46-55. (Quan Xiaoxia,Li Junhua,Wang Yuling. Tile surface defect detection based on local variance weighted information entropy[J]. China Ceramics,2019,55(10): 46-55.)
[4]张军,张海云,赵玉刚,等. 基于形态学和小波变换的瓷砖缺陷边缘检测[J]. 计算机仿真,2019,36(1): 462-465,474. (Zhang Jun,Zhang Haiyun,Zhao Yugang,et al. Tile defects detection based on morphology and wavelet transformation[J]. Computer Simulation,2019,36(1): 462-465,474.)
[5]Hou Yuan,Cuyt A,Lee W S,et al. Decomposing textures using exponential analysis[C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2021: 1920-1924.
[6]Luo Dongliang,Cai Yuxuan,Yang Zihao,et al. Survey on industrial defect detection with deep learning[J]. Scientia Sinica Informations,2022,52(6): 1002-1039.
[7]赵朗月,吴一全. 基于机器视觉的表面缺陷检测方法研究进展[J]. 仪器仪表学报,2022,43(1): 198-219. (Zhao Langyue,Wu Yiquan. Research progress of surface defect detection methods based on machine vision[J]. Chinese Journal of Scientific Instrument,2022,43(1): 198-219.)
[8]Liang Qiaokang,Zhu Wei,Sun Wei,et al. In-line inspection solution for codes on complex backgrounds for the plastic container industry[J]. Measurement,2019,148: 106965.
[9]Deitsch S,Christlein V,Berger S,et al. Automatic classification of defective photovoltaic module cells in electroluminescence images[J]. Sol Energy,2019,185: 455-468.
[10]Zhang Zhifen,Wen Guangrui,Chen Shanben.Weld image deep learning-based on-line defects detection using convolutional neural networks for Al alloy in robotic arc welding[J]. Journal of Manufacturing Processes,2019,45: 208-216.
[11]Ma Liyong,Xie Wei,Zhang Yong. Blister defect detection based on convolutional neural network for polymer lithium-ion battery[J]. Applied Science,2019,9(6): 1085.
[12]王一鳴,杜慧敏,张霞,等. 视觉注意力网络在工件表面缺陷检测中的应用[J]. 计算机辅助设计与图形学学报,2019,31(9): 1528-1534. (Wang Yiming,Du Huiming,Zhang Xia,et al. Application of visual attention network in workpiece surface defect detection[J]. Journal of Computer-Aided Design & Computer Graphics,2019,31(9): 1528-1534.)
[13]Liang Yingjie,Han Yueying,Jiang Feng. Deep learning-based small object detection: a survey[C]// Proc of the 8th International Confe-rence on Computing and Artificial Intelligence. New York: ACM Press,2022: 432-438.
[14]Chen Junying,Liu Shipeng,Zhao Liang,et al. Small object detection combining attention mechanism and a novel FPN[J]. Journal of Intelligent & Fuzzy Systems,2022,42(4): 3691-3703.
[15]Dai Yimian,Gieseke F,Oehmcke S,et al. Attentional feature fusion[C]// Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway,NJ: IEEE Press,2021: 3560-3569.
[16]Guo Chaoxu,Fan Bin,Zhang Qian,et al. AugFPN: improving multi-scale feature learning for object detection[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 12595-12604.
[17]Guo Menghao,Xu Tianxing,Liu Jiangjiang,et al. Attention mechanisms in computer vision: a survey[J]. Computational Visual Media,2022,8(3): 331-368.
[18]Qin Zequn,Zhang Pengyi,Wu Fei,et al. FcaNet: frequency channel attention networks[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2021: 783-792.
[19]Wang Qilong,Wu Banggu,Zhu Pengfei,et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 11534-11542.
[20]Lee H,Kim H,Nam H,et al. SRM: a style-based recalibration mo-dule for convolutional neural networks[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 1854-1862.
[21]Zhong Xian,Gong Oubo,Huang Wenxin,et al. Squeeze and excitation wide residual networks in image classification[C]// Proc of IEEE International Conference on Image Processing. Piscataway,NJ: IEEE Press,2019: 395-399.
[22]Woo S,Park J,Lee J,et al. CBAM: convolutional block attention module[C]// Proc of European Conference on Computer Vision. Berlin: Springer-Verlag,2018:3-19.
[23]Wang Jin,Yang Jingru,Lu Guodong,et al. Adaptively fused attention module for the fabric defect detection[J]. Advanced Intelligent Systems,2023,5(2): 2200151.
[24]Lin T Y,Goyal P,Girshick R,et al. Focal loss for dense object detection[C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2017: 2999-3007.
[25]Wang Wenhai,Xie Enze,Li Xiang,et al. PVTv2: improved baselines with pyramid vision transformer[J]. Computational Visual Media,2022,8(3): 415-424.
[26]Shen Zhuoran,Zhang Mingyuan,Zhao Haiyu,et al. Efficient attention: attention with linear complexities[C]// Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway,NJ: IEEE Press,2021: 3531-3539.
[27]天池. 瓷磚瑕疵检测数据集 [EB/OL]. (2021-09-09). https://tianchi.aliyun.com/dataset/110088. (Tianchi. Tile defect detection data set [EB/OL]. (2021-09-09). https://tianchi.aliyun.com/dataset/ 110088.)
[28]Buslaev A,Iglovikov V,Khvedchaenya E,et al. Albumentations: fast and flexible image augmentations[J]. Information,2020,11(2):125.
[29]Tian Zhi,Shen Chunhua,Chen Hao,et al. FCOS: a simple and strong anchor-free object detector[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2020,44(4): 1922-1933.
[30]Zou Zhengxia,Chen Keyan,Shi Zhenwei,et al. Object detection in 20 years: a survey[J]. Proceedings of the IEEE,2023,111(3):257-276.
[31]Jiang Pengtao,Zhang Changbin,Hou Qibin,et al. Layer-CAM: exploring hierarchical class activation maps for localization[J]. IEEE Trans on Image Processing,2021,30: 5875-5888.
[32]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 770-778.