基于改进卷积网络的铸件视觉检测

2024-10-25 00:00:00颜梦玫杨冬平

机械制造与自动化 2024年5期

摘要：为实现对铸件各种不同缺陷的自动诊断，设计一种视觉检测系统对铸造产品进行外观检测。利用多头自注意力模块对图像识别网络的下采样过程进行增强，使得经典图像分类网络能够获得全局特征信息，以提升模型对铸件体外观上细小裂纹和大范围毛刺的识别能力。实验结果表明：改进得到的卷积网络对铸件缺陷具有较高的识别准确率，能够较准确地判断铸件缺陷类型。

关键词：缺陷检测；图像识别；卷积神经网络；深度学习；自注意力机制

中图分类号：TP391.4" 文献标志码：A" 文章编号：1671-5276（2024）05-0229-05

Casting Visual Detection Based on improved Convolutional Network

Abstract：For automatical diagnosing different defects in castings， a visual inspection system is designed to inspect the appearance of casting products. The multi-head self-attention module is used to enhance the downsampling process of the image recognition network， enabling the classic image classification network to obtain global feature information and promote the model's ability to identify small cracks and large-scale burrs on the appearance of castings. The experimental results show that the improved convolutional network has a higher recognition accuracy for casting defects， and can more accurately determine the type of casting defects.

Keywords：defect detection；image recognition；convolutional neural network；deep learning；self-attention mechanism

0 引言

铸件是用各种铸造方法获得的金属或者合金材料成型零件，常用作机械、建筑、航空航天和汽车等领域的主要零部件。由于铸件的特殊成型方式，在制造过程中常出现气孔、裂纹和夹渣等质量问题。这些问题不仅影响机械零件的性能，还可能导致它的使用寿命大大缩短。为及时发现铸件的缺陷，基于X射线的无损检测［1］广泛应用于铸件检测中，能够准确诊断铸件内部缺陷。但是由于X射线的无损检测效率较低、成本较高，通常会采用外观检查等人工方式进行初步筛选。为了高效、准确地筛选出有缺陷的铸件，可通过图像分类网络对所有铸件进行分类，实现对气孔、细小裂纹和毛刺等缺陷的初步筛选。相比人工外观检查等低效的筛选方式，图像检测系统［2］能够更加高效、准确地检测铸件的外观缺陷。

随着计算机视觉技术和深度学习方法的快速发展，通过图像数据对物体进行准确分类已成为可能。2012年ILSVRC图像分类大赛中，深度卷积结构实现的AlexNet［3］一举夺冠，2014年GoogLeNet［4］实现了74.8%的top-1准确率，并且VGGNet［5］也实现了相同的精度。此外，ResNet［6］提出的残差连接使得训练这些极深的网络更加容易，表现也更好。

近几年来，研究者们利用不同的改进方法来提升图像分类网络的准确率。Transformer［7］是一种与卷积结构不同的模型，最开始用于解决自然语言处理（NLP）任务，因其表现出的卓越性能而迅速成为主流架构。ViT［8］是视觉任务中应用Transformer结构的先驱，它通过直接堆叠的方式，在不重叠图像块上运行Transformer块来实现图像识别的卓越性能。BoTNet［9］则将Transformer引入卷积结构中，提出带有MHSA层的ResNet瓶颈结构的Transformer块。Conformer［10］是CNN和Transformer并行的混合网络，通过特征耦合模块对每个阶段的局部特征和全局特征之间进行信息交互，使得Conformer同时兼具两者的优势。在分类任务中，Conformer以更小的参数取得更高的准确率。

基于此，本文对Conformer结构中的Transformer分支进行简化和改进，提出增强型Transformer（enhance transformer， ET）架构，并将其插入到ResNet和其他深度卷积网络中，实现对网络性能的增强以及网络准确率的提升。

本文主要工作有：

1）使用深度卷积网络对铸件的外观缺陷进行识别，搜集铸件图像数据集，对孔状缺陷、毛刺和细小裂纹等图像进行分类处理；细化缺陷数据类别，使得缺陷诊断网络能够更加准确地判断缺陷种类，以便后期对铸造方法进行分析和改进；

2）为提升深度卷积网络对细小裂纹的识别准确率，将Conformer中的方法加以简化和改进，提出增强Transformer结构，将该结构插入ResNet的下采样模块中能够显著提升准确率；并对此方法进行对比试验，以找到最佳融合方式。

1 缺陷诊断模型

视觉诊断系统能够自动地对铸件进行外观缺陷检测，检测的精度由图像分类网络的准确率决定。通过比对大量缺陷图片发现，铸件毛刺特征和细小裂纹表现出的尺寸相差较大，这要求图像分类网络能够捕捉到图像中的全局特征和局部特征。因此，将能够捕捉全局特征的Transformer结构对深度卷积结构进行增强，使得网络模型的局部特征和全局特征都能进行信息交互。

如图1所示，在一般的深度卷积结构中插入一个Transformer模块，与卷积计算分支组成并行的结构，使得网络模型能够利用卷积实现局部特征交互，也能通过Transformer进行全局特征信息交互。实验结果表明：增强Transformer放在下采样层的前面会获得更好的表现。因为这种方法还能增强特征信息，使得网络在下采样过程中保留更多的特征信息。

详细计算过程如图2所示。在第3个Stage和第4个Stage中间加上一个Transformer模块。从第4个Stage开始，进行特征图下采样，Transformer模块通过捕捉全局特征后合并信息流实现对特征信息进行增强。

将第3个Stage最后一个3×3卷积的输出特征图分别经过主干卷积层和增强Transformer结构。该特征图X首先经过一个1×1卷积层，再进行重组，变成一个B×C×H×W尺寸的特征图X。特征图X依次经过多头自注意力层（multi head self-attention， MHSA）、layer normalization（LN）层和多层感知机（multi layer perceptron， MLP），计算过程如式（1）所示。

XT=MLP（LN（MHSA（X）））（1）

多头自注意力层中的特征图X分别生成query、key和value，再经过计算得到同维度的输出结果，计算过程如式（2）所示。这个过程中，特征图上的全局特征会进行信息交互，并对感兴趣的特征进行加权，从而捕捉到特征图上的全局关键信息。

Attention（Q，K，V）=softmax（QKT）V（2）

特征图XT重新变形重组为B×C×H×W的特征图，再经过一个3×3卷积层后和主干特征图相加。这个卷积层的作用是将特征图XT的维度变为和主干特征图的维度一致。整个计算过程可以由式（3）表示，其中C（·）表示卷积操作，Xl和Xl－1分别表示当前卷积层的输出特征图和前一个卷积层的输出特征图，Y表示双分支的合并结果。

Y=XT+C1×1（Xl+C1×1（Xl－1））（3）

通过这种双分支的方式，网络模型在第4个Stage能够感受到图片上的局部特征和全局特征，因此对大范围的毛刺和小尺寸的裂纹都能有较好的识别效果。并且，增强Transformer结构只在低分辨率阶段与卷积进行融合，不会导致计算速度大幅下降。实验结果表明：增强Transformer带来准确率提升的同时，并没有大幅度降低吞吐率，这种方法可以为图像缺陷诊断系统带来更好的检测性能。

2 实验

2.1 实验设置

实验中每个网络均使用SGD优化器进行训练，优化器的weight decay和momentum分别设置为0.000 1和0.9。在训练过程中，Batchsize设置为128，初始学习率固定为0.1，随着实验进行，学习率逐渐衰退。

在各种网络的训练过程中，对所有训练图像运用相同的数据增强方法。这里用到的数据增强方法为随机裁剪和随机水平翻转。所有实验代码基于pytorch框架实现，训练和测试过程在多张NVIDIA GeForce RTX 3090上采用并行计算完成。

2.2 对比实验

1）诊断模型对比实验

为了让诊断模型能够准确判断出铸件缺陷的类型，以便后期能针对性地加以改进，需制作包含不同类型缺陷的训练数据集。从各相关数据集中挑选各种不良铸造轴承图片，将其铸造缺陷类别主要分为孔状缺陷、毛刺和细微划痕等3类，加上正常铸件类别组成一共4个类别的数据集。其中，每个类别的训练图片为190张，验证图片都是10张，另外准备少量跨域场景图片对诊断模型进行泛化能力测试。

采用2.1节中的实验参数设置，将ResNet、VGG、ResNeXt［11］、DenseNet［12］等主流分类网络和这里的ResNet（ET）在铸件诊断训练数据集上进行训练和验证，其中BoT为CNN和Transformer结合网络，主要特点为精度和计算速度表现都较好，实验结果如表1所示。相比ResNet和VGG等分类网络，具有ET结构的ResNet网络实现了更高的准确率和更快的计算速度，表明ET结构可以作为缺陷检测系统的增强方法，能使模型准确、快速地对铸件缺陷类型进行分类判断。

此外，为了验证本文方法对细小划痕缺陷识别的增强效果，随机选择包含细小划痕的铸件图片进行验证和分析。将缺陷铸件图片输入改进诊断模型计算，并得到计算时的热力图，如图3所示。图3（a）为原图，图3（b）是网络发现毛刺和细小气孔缺陷区域的热力图，这正说明它依赖于这些特征进行缺陷分类。

2）公开数据集对比实验

为进一步验证改进方法对分类网络的有效性，让ResNet、VGG、ResNeXt、DenseNet等分类网络和ResNet（ET）分别在公开分类数据集上进行对比实验。实验数据集主要包括：CIFAR［13］和Tiny-ImageNet。训练参数与2.1节中的一致，为了让分类网络适应小分辨率数据的尺寸，将深度卷积模型都进行相同的修改，将下采样次数由原本的5次减少为3次。

实验结果如表2所示，提出的ResNet-50（ET）在CIFAR10、CIFAR100和Tiny-ImageNet上分别比ResNet-50高0.52个百分点、0.85个百分点和0.02个百分点。并且在一系列公开数据集中，ResNet-101（ET）也比ResNet-101表现出更高的准确率。此外，DenseNet在CIFAR10和CIFAR100两个数据集上的表现都稍优于ResNet（ET），但是在Tiny-ImageNet数据集上的准确率表现较差，并且从表1可以看出它的计算速度较慢。

改进方法能够提升分类网络的准确率，但是也会引入更多参数量和计算量，因此只在第4个Stage使用改进方法。为了对比改进方法在网络不同层插入带来的改变，将改进方法分别插入ResNet-50第4个Stage的第1、第2、第3个Bottleneck中，并在CIFAR100和Tiny-ImageNet上训练和验证。实验结果如表3所示。增强Transformer的位置放在下采样Bottleneck的前面能得到较好的准确率，并且插入位置越靠近顶部，模型的准确率会越低。

3 结语

通过在ResNet下采样过程中添加增强Transformer得到改进模型，利用图像识别对铸件外观缺陷检测。实验表明改进后的图像识别模型能够更精确地对缺陷图像进行分类。在深度卷积结构中插入Transformer模块，使得网络可以进行局部或全局特征信息交互，从而增强特征信息，对大范围毛刺和细小划痕缺陷都能准确识别。ResNet（ET）不仅能够在图像识别任务中获得较高的准确率，同时它的计算速度并未下降，ResNet（ET）相比同类型的网络架构表现出更好的泛化性能。

参考文献：

［1］张国宝，杨为，赵恒阳，等. 基于X射线三维成像技术的在役GIS盆式绝缘子缺陷检测［J］. 高压电器，2022，58（10）：230-236.

［2］周祺智，马万太. 基于局部分类的铝合金低倍组织图像分割［J］. 机械制造与自动化，2022，51（4）：129-132.

［3］ KRIZHEVSKY A，SUTSKEVER I，HINTON G E. ImageNet classification with deep convolutional neural networks［J］. Communications of the ACM，2017，60（6）：84-90.

［4］ SZEGEDY C，LIU W，JIA Y Q，et al. Going deeper with convolutions［C］//2015 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Boston，MA，USA： IEEE，2015：1-9.

［5］ SIMONYAN K，ZISSERMAN A. Very deep convolutional networks for large-scale image recognition［EB/OL］. （2015-04-10）［2022-10-20］. http：//arxiv. org/abs/1409.1556.

［6］ HE K M，ZHANG X Y，REN S Q，et al. Deep residual learning for image recognition［C］//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Las Vegas，NV，USA： IEEE，2016：770-778.

［7］ VASWANI A，SHAZEER N，PARMAR N，et al. Attention is all You need［EB/OL］. （2017-06-12）［2022-10-20］. https：//arxiv.org/abs/1706.03762.

［8］ DOSOVITSKIY A，BEYER L，KOLESNIKOV A，et al. An image is worth 16x16 words：transformers for image recognition at scale［EB/OL］. （2020-10-22）［2022-10-20］. https：//arxiv.org/abs/2010.11929.

［9］ SRINIVAS A，LIN T Y，PARMAR N，et al. Bottleneck transformers for visual recognition［C］//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Nashville，TN，USA： IEEE，2021：16514-16524.

［10］ PENG Z L，HUANG W，GU S Z，et al. Conformer：local features coupling global representations for visual recognition［C］//2021 IEEE/CVF International Conference on Computer Vision （ICCV）. Montreal，QC，Canada： IEEE，2022：357-366.

［11］ XIE S N，GIRSHICK R，DOLLR P，et al. Aggregated residual transformations for deep neural networks［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Honolulu，HI，USA： IEEE，2017：5987-5995.

［12］ HUANG G，LIU Z，VAN DER MAATEN L，et al. Densely connected convolutional networks［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Honolulu，HI，USA： IEEE，2017：2261-2269.

［13］ KRIZHEVSKY A. Learning multiple layers of features from tiny images［R］.Toronto， Canada： University of Toronto，2009.