张勇
摘要:提出了一种基于机器视觉的带钢焊缝检测与定位技术,在原CenterNet算法的基础上增加旋转角度的回归实现了旋转目标检测,并根据网络的输入参数制作合适的数据集。为了进一步提高模型的精度和鲁棒性,分别引入了可变形卷积和金字塔分割注意力模块,多组实验结果对比表明,该方法能在精确率、召回率、F值和检测速度上得到提升,满足实际检测的需求。
关键词:卷积神经网络;实例标准化;特征提取;算法
冷轧连退生产线的原材料为带钢卷,为保持生产的连续性,需将前一个带钢卷的尾部与后一个带钢卷的头部焊接起来,从而得到连续的带钢材料。为了避免焊缝焊接质量问题引起的带钢撕裂或者断带事故的发生[1],需要对焊接质量进行检测,文中分析了带钢焊缝焊接质量的自动检测系统中应用旋转目标检测算法对月牙边焊缝的识别和定位算法及评判标准,并进行了实验分析。
1算法分析
1.1 CenterNet
CenterNet網络的输出为3个部分,依靠边缘特征信息获取的检测目标中心点的预测热力图,匹配角点获取预测宽高模块(Object Size)回归目标的宽和高,Offsets 模块回归中心点偏移量[3-4]。
1.2金字塔分割注意力
为了在不增加模型复杂度的前提下解决主流注意力目前存在的问题,金字塔分割注意力(PSA Module)机制以通道注意力机制为基础[5-6],通过使用不同大小的卷积核来获取多尺度的特征图。输入特征图通过四个不同大小卷积核的卷积操作将特征图切分为4个部分,接着对含有不同尺度特征的特征图进行拼接,定义如式(1)所示。
其中,ki 为卷积核的大小,第i个卷积核的大小ki=2×i +1;Gi 为分组卷积的组数,其中 G1=1、G2=4、G3=8、G4=16;X 为输入特征图;xi 为多尺度预处理的特征图;Cat 为concat算子;F 为拼接后的多尺度预处理的特征图。
金字塔分割注意力机制中的通道注意力使用在分割后的多尺度预处理的特征图之上,对 x1、x2、x3和 x4分别使用SE_Weight模块获取不同尺度特征图的注意力权重,定义如式(2)所示。
xi_ se=SEWeight(xi),i=1, 2, 3, 4 (2)
其中,xi _ se 代表第i组注意力权重,对不同尺度特征图分别获取注意力权重信息旨在能够融合不同组数上不同尺度的注意力信息;为了能实现注意力信息的交互并在不破坏原始通道注意力向量的前提下融合交叉维度向量,不同尺度特征图的注意力向量以拼接的方式获取多尺度注意力权重向量,定义如式(3)所示。
Z=Cat([x1_ se, x2_ se, x3_ se, x4_ se]) (3)
其中,Cat 为concat算子;Z 为多尺度注意力权重向量。
直接拼接的多尺度注意力权重向量不满足所有权重之和为1,通过使用Softmax对多尺度注意力权重进行全局归一化实现了局部与全局通道注意力的交互,定义如式(4)所示。
att=Softmax(Z) (4)
其中,att代表注意力交互后的多尺度通道注意力权重。
在获取多尺度预处理的特征图 F 和重新校准的多尺度通道注意力权重att后,将两者按对应元素进行点乘操作,输出含有多尺度特征信息注意力的特征图,定义如式(5)所示。
Y=F?att (5)
其中,?代表按通道方式的乘法;注意力交互后的多尺度通道权重。Y 代表得到的含有多尺度特征信息注意力的特征图。
1.3定位算法
1.3.1 R-Center Net
通过使用改进的 R-CenterNet算法对月牙边焊缝进行旋转目标检测,R-CenterNet相较于CenterNet在经过上采样获取高分辨率特征图后的 head 部分,增加了一路特征图来回归矩形框的旋转角度信息。增加的这一路特征图的构建方法与宽高图的获取方法相同,不同点为获取含有旋转因子角度图的卷积层仅需要1个输出通道。
1.3.2损失函数
R-CenterNet算法的损失函数为热力图的中心点预测损失函数、宽高图的尺寸预测损失函数、中心点修正图的中心点偏置损失函数和角度图的损失函数之和,定义如式(6)所示。
L=λhm×Lhm×λwh×Lwh×λoff×Loff×λang×Lang (6)
其中,λhm、λwh、λoff 和λang分别为各损失函数的权重因子,根据检测目标特点进行设计,本章实验使用的值λhm=1、λwh=0.1、λoff=0.1、λang=0.1。热力图损失函数Lhm使用 Focal Loss 进行计算,定义如式(7)所示。宽高图、中心点修正图和角度图的损失函数使用普通 L1loss 进行计算,分别如式(8)(9)(10)所示:
其中,N 为图像中关键点的个数;α和β为超参数,本章依次设置为2和4;Yxyc代表热力图的标注值,在Yxyc1时,易检测目标预测值Yxyc则会接近1,(1-Yxyc)α的值会很小,返回的损失值Lhm就会很小,起到轻微矫正模型的作用。对于越不明显检测样本的预测值Yxyc越接近于0,(1-Yxyc)α的值越大,起到增加该目标权重的作用。在其他情况下,预测值Yxyc与损失值成正比,(Yxyc)α用来惩罚 loss,也会越大,真实值Yxyc与损失值成反比,(1?Yxyc)β能够减轻惩罚力度。
其中,sk为检测目标宽高的标注值;Spk为网络输出的宽高预测值。
其中,ok 为检测目标中心点标注值与代表该区域特征点的差值;Opk为网络输出的中心点偏置测值值。
其中,ak为检测目标旋转角度的标注值;Apk为网络输出的旋转角度预测值。
2实验与分析
2.1实验环境
实验服务器的硬件配置分别为15.5 GiB 内存,Intel Core i7-6800K 中央处理器,NVIDIA GTX1080Ti 图形处理器。软件配置分别为 Ubuntu16.04,Python3.7编程语言,PyTorch深度学习框架。
2.2数据采集及评估
从生产现象采集了1200张月牙边无规律位置的样本图像,随机选取1000张作为训练集,返回损失更新模型权重,100张作为验证集,计算训练模型的損失但不返回,仅用来判断当前模型性能并判断是否保存当前模型,其余100张作为测试集,通过输出模型的评价指标来检测模型的泛化能力。
从生产线上切割下来的月牙边被机械臂随机的放置在定位相机的视觉区域内,其中采集图像的尺寸为3648×3648。数据集使用 labelImg2进行标注,图2对应的标注信息如表1所示,其中 cx 和 cy 分别代表标注中心点横纵坐标,w 和 h 分别代表标注框的宽和高,单位均为像素值。angle 代表标注框相对于垂直向上顺时针的旋转角度,单位为弧度制。
焊缝定位实验的算法网络,采用4个评价指标来评估模型的性能,分别为:精确率(P)、召回率(R)、F 值(F)和检测速度(S)。
其中精确率的定义如式(11)所示。
其中,num 为所有测试集预测出来的样本框中与标注框作交并比后其数值大于预设阈值的样本数目,即可认为该样本为预测为真且正确预测,用Tp来表示;Fp代表预测为真实际为假的样本数,Tp和Fp的和即为所有预测为真的样本数all_pre_num。召回率的定义如式(12)所示。
其中,Fn代表实际为真预测为假的样本数,Tp和Fp的和为实际情况中为真的样本数,即测试集所有标签的总数目all_lab_num。F 值的定义如式(13)所示。
其中,P 为精确率,R 为召回率,在 P 和 R 出现矛盾的时候综合考虑两者,该值越大说明模型性能越好。检测速度的定义如式(14)所示。
其中,num_image为测试集的图片数量,time 为检测测试集图片的总时间。
2.3实验结果分析
通过实验对比不同骨干网络下 R-CenterNet的性能,设计了不同骨干网络的3组对比方案进行验证。验证实金字塔分割注意力的有效性,实验的不同方案所使用结构如表2所示。
表3所有方案使用相同的参数:①初始学习率设置为0.000125,总训练步数为50步,从第20步开始每隔10步将初始学习率乘以0.1;②优化器采用 Adam ,权重衰减设置为0.0001;③训练集和验证集的批量均设置为4,训练集进行随机打乱处理,验证集不进行打乱处理。
在获取最优模型后通过测试集对模型进行评估,设置所有实验方案的中心点置信度阈值为0.3、预测框与标注框的重合度阈值为0.3,所得的输出精确率(P)、召回率(R)、F 值(F)和检测速度(S)如表3所示。
由表3方案1与方案2的数据可知,增加网络深度不能提高本章实验的模型精度,反而会减少一定的检测速度。将骨干网络更换为DLANet后,精确率、召回率和 F 值分别上升了1.01、1.00和1.00个百分点,单张图片的检测时间减少了6.4 ms秒。方案4证明了在提取特征时使用金字塔分割注意力均能较明显的提高检测结果的 F 值。金字塔分割注意力使该模型的精确率增加了1.01个百分点,召回率提高了1.00个百分点,说明该模块主要增强的是模型精确率。
3结束语
本文通过对比试验证明基于DLANet骨干网络的算法检测速度更快、检测精度更高。同时证明了金字塔分割注意力能够增强模型的泛化能力,实验结果表面旋转目标检测算法能够对满足月牙边焊缝的识别和定位要求。
参考文献:
[1]赵宗楠,刘文亮,欧家.搭接滚压焊机传动侧焊缝开裂原因分析[J].南方金属,2022(1):6-9.
[2]余琼,贾建,唐万象.连退机组在线全自动带钢焊缝感应退火装置研究与开发[J].冶金动力,2020(6):71-74.
[3]邵光梅.基于深度卷积网络的板带钢表面缺陷类别检测[D].马鞍山:安徽工业大学,2019.
[4] TULBURE A A, DULF E H. A review on modern defect detection models using DCNNs – Deep convolutional neural networks[J].Journal of Advanced Research, 2022,35:33-48.
[5] JIANG Y, ZHU X, WANG X, et al. R2CNN: Rotational region CNN for orientation robust scene text detection[J]. arXiv preprint arXiv:1706.09579, 2017.
[6]王明阳,王江涛,刘琛.基于关键点的遥感图像旋转目标检测[J].电子测量与仪器学报,2021,35(6):102-108.