白雄飞, 龚水成, 李雪松,, 许 博, 杨晓力, 王明彦
(1. 上海交通大学 机械与动力工程学院, 上海 200240; 2. 上汽大众汽车有限公司, 上海 201805; 3. 湖南华研实验室有限公司, 湖南 湘潭 411000)
在工业生产过程中,焊接工艺被广泛运用,是工业制造过程的重要一环[1].由于焊接操作不当及焊件本身材料特性等原因,焊缝表面及内部可能会产生一定的缺陷,焊缝内部缺陷包括气孔、裂纹、焊穿及未熔合等[2],这些缺陷会严重影响焊接部位的疲劳强度和使用寿命[3],进而降低产品的整体质量,带来较大的安全隐患,因此需要对焊接部位进行严格的质量检测.焊缝内部缺陷常用的检测方法有射线探测法[4],为了更精准地了解焊缝内部缺陷情况,可以对焊缝横截面处的金相组织进行缺陷检测[5].许多场景都需要对焊缝进行缺陷分类,但目前对金相组织图片进行自动化缺陷分类的研究较少,而对焊缝X射线图片进行缺陷分类的研究已有一定基础[6-8],这些缺陷分类方法也可较好地应用于金相组织图片分类.
传统焊缝缺陷分类通常由人工完成,劳动强度大、效率低且易因视觉疲劳造成一定的误检[9].随着机器学习及计算机视觉技术的快速发展, 基于机器学习的计算机视觉技术已被广泛运用于焊缝缺陷分类,极大提高了缺陷分类的效率及准确度.罗爱民等[10]将二叉树与支持向量机(SVM)结合,对6类且每类含130张图片的焊缝X射线图像进行分类,最终每类的分类准确度均在87%以上;Duan等[6]利用机器学习之自适应增强(AdaBoost)对5类焊缝X射线图像缺陷进行分类,取得了85.5%的分类准确度和91.66%的真阳性率(True Positive Rate);刘欢等[11]提出了CC-ResNet对焊缝X射线图像进行缺陷分类,将ResNet每一层卷积变为两个不同尺度的卷积,将结果在深度方向进行拼接,充分利用多尺度信息,取得了98.52%的平均召回率及95.23%的平均准确度;谷静等[12]提出了SINet模型,将Inception模块和SE模块进行组合,以提高网络对特征的提取及组合能力,最终得到了96.77%的分类准确度.上述论文中的训练数据均较多且不平衡程度较低,模型能有足够的数据学习相应的缺陷特征.
深度学习训练需要数量较大且较平衡的数据[13-15],对于样本数量较少的数据,容易使模型对数据产生过拟合,从而大大降低模型的泛化性能[16],故通常需要进行数据增强.李钧正等[14]通过梯度惩罚生成对抗网络(WGAN-GP)模型极大地扩充了钢板表面缺陷样本的数量,使缺陷分类准确度达到95%;马玲等[17]通过深度卷积生成对抗网络(DCGAN)生成了液晶显示器(LCD)表面缺陷样本数据,并使用迁移学习的方法提高了缺陷分类精度.针对分辨率较低的缺陷图片,用生成式模型可取得一定效果,但对分辨率较高的图片,很难生成高质量图片.
因焊缝金相组织图像数据中缺陷样本数量很少、图片分辨率较高且缺陷较为复杂,故很难通过生成对抗网络(GAN)模型进行数据扩充.针对这些问题,使用泊松融合的方法合成新的缺陷样本,从而达到数据增强的目的.同时,在ResNet18分类网络模型的基础上进行改进,提出ResNet18_PRO网络模型.具体安排如下:首先,具体介绍泊松融合的相关原理;其次,介绍ResNet18网络模型结构及ResNet18_PRO的相关设计,在此基础上阐述相关实验,包括缺陷样本合成实验及缺陷分类实验,并对实验结果进行相应分析,以此验证该数据增强方法对分类效果的提升作用,通过对ResNet18_PRO网络模型进行消融实验,分析网络各改进部分对分类效果的影响以验证各改进部分的有效性;最后,将ResNet18_PRO网络模型运用于其他工业缺陷数据集,以验证该模型的鲁棒性.
图1 泊松融合原理图
t*|∂S=t|∂S
(1)
(tx-gx)2+(ty-gy)2
(2)
式(2)的最优解t必须满足相应的欧拉-拉格朗日方程[19]:
(3)
得到最优解t满足的条件[18]为
Δt=Δg,t*|∂S=t|∂S
(4)
由式(4)可知,要使S区域纹理信息与g中的纹理信息保持一致,两者的散度需要保持相等.图像f在(x,y)位置处的散度Δf(x,y)的计算公式为
Δf(x,y)=f(x-1,y)+f(x+1,y)+
f(x,y-1)+f(x,y+1)-4f(x,y)
(5)
缺陷融合具体步骤如下.
(1) 求解梯度场:求解目标图像和源图像的梯度场.
(2) 重建梯度场:用源图像梯度场对目标图像在融合位置处的梯度场进行置换,得到重建的梯度场.
(3) 重建散度场:对重建的梯度场进行求导,得到相应的散度场.
(4) 构建拉普拉斯方程:根据式(5)在融合区域用待求的像素值计算散度,与散度场中的值建立等式关系,同时令融合边界上的像素值直接等于目标区域在边界上的像素值,构建拉普拉斯方程.
(5) 对融合区域进行插值:求解拉普拉斯方程,并将方程的解赋值到融合区域的相应位置,得到融合图像.
ResNet网络由He等[20]于2015年提出,主要利用残差结构解决因网络过深导致网络难以训练的问题.残差结构是利用捷径(shortcut)连接使神经网络学习对应的残差函数F(x)=G(x)-x,有效缓解因网络太深造成的梯度消失问题,如图2所示.
图2 残差结构
ResNet网络根据深度不同有多种结构,如ResNet18、ResNet50、ResNet152等.由于金相组织数据集规模较小,故选用ResNet18网络模型,具体结构如图3所示,图中FC为全连接层.该模型主要由4个层结构(Layer)组成, 每个层结构包含两个残差块(Block),层与层之间的过渡需使用下采样操作以降低特征图尺寸,如红色虚线所示,该下采样过程有一定的信息损失,因此提出可学习的双池化结构(LDPS)以减少该过程的信息损失.同时,使用改进的空间金字塔池化结构提高网络对多尺度特征信息的整合能力.
图3 ResNet18模型结构图
如图3中的红色虚线所示,每个层之间都需要对上一层输出的特征进行下采样以降低特征图尺寸,具体结构如图4(a)所示.Shortcut连接部分通过核尺寸(kernel size)为1×1的卷积并设置卷积步长(stride)为2来达到下采样目的,此过程中会损失较多细节信息,一定程度上会影响分类效果.为减少下采样过程中的信息损失,提出了LDPS.将原下采样中卷积操作步长改为1,通过核尺寸为3×3且步长为2的平均池化和最大池化操作实现下采样,如图4(b)所示,使被下采样特征层的所有位置信息都能被使用,进而极大减少了下采样过程中的信息损失.由于平均池化主要反映整体特征信息,而最大池化主要反映局部特征信息,所以通过两个可学习的向量对平均池化和最大池化所得的结果进行选择性利用,向量的长度与池化所得特征通道数相同,两向量对应元素的和为1,即对两个池化结果中对应的每一个通道进行线性组合,提高网络对局部特征和整体特征捕获能力,从而向下传递更有用的信息.
图4 下采样结构
对于缺陷分类而言,由于缺陷本身的尺寸变化较大,所以要提高对缺陷的分类准确度,需提高网络对缺陷尺寸变化的捕获能力和整合能力.通过对下采样结构进行改进,减少下采样过程中的信息损失,综合利用局部特征和整体特征信息,提高网络对尺度变化的捕获能力.对于提高多尺度信息的整合能力,在网络末端增加了改进的空间金字塔池化(ISPP)结构.ISPP主要将空间金字塔池化(SPP)结构与1×1卷积相结合,从而提高对网络末端多尺度特征信息的聚合能力,如图5所示.首先使用SPP结构对第4层输出的特征进行多尺度池化,共包含输出尺寸为1×1、2×2及3×3的3种平均池化操作,用于提高对多尺度特征信息的提取能力[21],后通过1×1卷积对池化所得结果的各通道进行线性组合并将通道数从512压缩至64,对各通道提取的特征信息进行整合,从而提取更丰富的特征信息,通道数的减少能极大地降低全连接层的计算量[22].
图5 改进的SPP结构
实验所用的原始数据为焊缝金相组织图片数据集,图片尺寸大小为 2 560像素×1 920像素,尺寸过大,由于缺陷只存在于焊接熔核部位,因此提取出熔核部位并调整为416像素×416像素,包含正常、气孔及裂纹3种缺陷类型,如图6所示.气孔指焊接过程中,因焊接熔池中的气体未全部及时逸出而在焊缝内部形成的孔穴.裂纹指焊接接头局部区域遭到破坏而形成新界面所产生的缝隙[23].正常、气孔及裂纹样本数量分别为966、81、26,由此可知,原始数据中各缺陷类型的样本数量极不平衡,为不平衡数据.
图6 缺陷类型
利用泊松融合将正常样本与缺陷区域进行样本合成,结果如图7所示.首先以如图7(a)所示的正常样本为背景,在背景上随机选取融合位置并提取待融合的缺陷区域,为简化操作,先从如图7(b)所示的缺陷样本中裁剪出含缺陷的较大区域,如图7(c)所示;然后从该较大区域中提取待融合的缺陷部分,主要通过对该较大区域进行二值分割得到黑白二值图即二值掩膜,再根据二值掩膜的白色区域确定待融合的缺陷区域.二值掩膜的提取步骤如下:
图7 泊松融合实验结果
(1) 将含缺陷的较大区域转变为灰度图像.
(2) 对该灰度图像进行二值分割.
(3) 利用形态学中的开操作去除细小毛刺,再通过闭操作消除相应的孔洞.
(4) 最终得到二值掩膜图像,如图7(d)所示.
若直接用得到的二值掩膜图确定待融合区域,则待融合区域为缺陷区域本身,如图7(e)所示,将其与正常样本进行融合,由于泊松融合能使融合区域边界平滑过渡,导致缺陷本身靠近边界的部分成为过渡区域,极大影响了缺陷本身的颜色和纹理, 如图7(f)所示.为消除这种影响,对二值掩膜图像反复运用形态学中的膨胀操作,扩大二值掩膜区域范围的同时还能保持大体形状不变,结果如图7(g)所示,相应的待融合区域如图7(h)所示.缺陷区域与边界区域保持一定距离,从而使融合结果更好地保持原缺陷的颜色和纹理特征,如图7(i)所示.
将所有的缺陷区域与正常样本进行随机融合,并对缺陷大小、融合位置以及缺陷旋转角度进行随机变化以增加生成样本的多样性,极大地扩充了缺陷样本数量,具体生成策略如下.
(1) 对正常样本进行灰度处理及二值化处理得到相应的黑白二值图像,记为“bin_img”.
(2) 从“bin_img”顶部中间位置wmid,由上至下依次探测得到金相组织区域上下边界的位置h1及h2,由此计算出金相组织区域中心处的大体高度位置hmid=(h1+h2)/2.
(3) 以(wmid,hmid)为起始中心点,通过增加相应的偏移量得到随机中心点(wmid+Δw,hmid+Δh),以该点作为融合位置的中心点.
(4) 每个正常样本最多融合两个不同的缺陷.
若只融合一个缺陷:
若同时融合两个缺陷:
其中:W为整个图片的宽度;H为金相组织区域的高度,H=h2-h1.
(5) 对于待融合的缺陷图片,则通过缩放变换(缩放比例范围为[0.8,1.2])、翻转变换、旋转变换(角度变化范围为[-30°,30°])及融合缺陷数量变化 (范围为[1,2])等操作进行处理.
(6) 最终得到相应的合成图片.
由于正常样本数量是固定不变的966份,为使正常、气孔及裂纹3种类型的图片数量保持平衡,分别从合成得到的大量气孔和裂纹样本中均匀采样部分缺陷样本(约950份)用于后续实验,最终各缺陷样本数量变化如表1所示.
表1 数据增强后样本数量变化
实验环境为windows10操作系统,深度学习框架为Pytorch 1.8.0版本,硬件设备为Nvidia GEFORCE RTX 2070 Super,8GB显存.少部分实验由于本地设备显存不足,故使用了华为昇腾平台进行训练.为验证在原始数据不足的情况下,使用泊松融合方法进行数据增强对缺陷分类效果的影响,共设置了两组对比实验,分别为利用原始数据以及扩充之后的数据进行实验.实验对比了4个深度神经网络模型VGG13、GoogLeNet、ResNet18、ResNet18_PRO,以探究合成数据对模型的鲁棒性及对分类效果的提升作用.缺陷分类实验中,训练集、验证集及测试集的比例为7∶2∶1,批量大小(Batch Size)设为32,采用Adam优化器进行参数优化, 权重衰减(weight decay)设置为5×10-4,为使模型能进一步学到最优解空间,采用指数衰减学习率(Exponential LR, ELR)策略,初始学习率为10-3,伽马(gamma)参数设置为0.95.
在分类任务中,需要根据分类的侧重点选择相应的评价指标,合适的评价指标能更准确地反映模型真实分类效果.常见的评价指标包括准确度(Accuracy)、精确率(Precision)、召回率(Recall)及F1分数,如表2所示.式中,NTP表示预测为阳性且预测正确;NTN表示预测为阴性且预测正确;NFP表示预测为阳性但预测错误;NFN表示预测为阴性但预测错误.在多分类任务中,准确度主要针对所有类型的样本,表示所有被检测样本中检测正确的样本所占的比例;而精确率和召回率主要针对特定的类别来计算,精确率表示预测为该类别的所有样本中被正确预测的样本所占的比例,精确率越高,表明该类别的误检率越低;召回率表示所有该类别的真实样本中被正确检测的比例,召回率越高,表示该类别的漏检率越低;F1分数为精确率和召回率的调和平均值,兼顾了误检率和漏检率.
表2 评价指标及公式
在平衡的数据中,以上指标都能较好地反映模型的分类效果,但在不平衡的数据中,准确度容易受到样本数据分布的影响,会更倾向于样本数量较多的类别而忽略样本较少的类别,因此可能会得到次优模型,并可能产生错误结论[24-25].F1分数可以兼顾误检率和漏检率,可针对某一个特定的类别进行度量,且受其他类别样本影响较小,因此使用F1分数作为评价指标.同时与准确度进行对比,一方面可以更准确地反映真实的分类效果;另一方面可以更好地展示数据增强前后分类效果的变化,以便进行相关分析.金相组织数据有正常、气孔、裂纹3类图片,为了更好地反映模型对每类图片具体的分类效果及3类图片整体的分类效果,分别计算每一类缺陷相应的F1分数值及相应的宏平均值,如下式所示:
(6)
原始数据缺陷分类实验中,由于数据量较少且正常、气孔、裂纹样本数量之比约为45∶4∶1,各类型的样本数量极不平衡.为了更加充分地利用数据,进行5折交叉验证,即取5次验证结果的平均值作为最终结果数据,使结果更加可靠,避免偶然性,得到验证集分类准确度随训练过程的变化曲线,如图8所示.
图8 各模型在验证集上分类准确度变化(原始数据)
由图8可知,各模型的分类准确度均在90%以上,同时ResNet18_PRO网络模型的分类准确度比其他3个模型要高且收敛更稳定,表明ResNet18_PRO网络模型在分类效果及训练稳定性方面优于其他3个模型.但在不平衡数据集中,该分类准确度并不能准确反映实际分类效果,为反映真实的分类效果,对各类缺陷的F1分数及其宏平均值进行分析,结果如图9所示.
图9 各模型在验证集上F1分数变化(原始数据)
由图9(a)~(c)可知,在4个模型中,ResNet18_PRO对正常、气孔及裂纹图片的分类效果均优于其余3个分类模型;由9(d)可知,ResNet18_PRO的总体分类效果也为最优.主要由于ResNet18_PRO 模型在ResNet18的基础上使用了LDPS 结构,减少了下采样过程中的信息损失,并选择了对分类结果更有利的信息进行传递.同时在网络末端增加了ISPP结构,增强了网络对多尺度特征的提取和整合能力,因此ResNet18_PRO模型的分类效果优于其余3个模型.但由于气孔和裂纹缺陷的样本数过少,ResNet18_PRO不能充分学习相应的特征信息,所以分类效果仍然较差,由此可知训练数据量的不足会限制分类模型性能的发挥.
为进一步测试模型整体性能,利用测试集对各分类模型进行测试,结果如表3所示.由表3可知,各分类器对原始数据中的气孔及裂纹分类效果较差,而实际生产中,需要对该两类缺陷进行准确的分类,因此该分类效果无法用于实际生产.
表3 各模型在测试集上的结果(原始数据)
通过泊松融合数据增强以后,气孔和裂纹样本数量均有较大的提升,各类型图片的样本数量大致相同,因此消除了数据不平衡现象.用4个分类模型分别对样本扩充后的数据进行训练,得到各模型对验证集的分类准确度随训练过程的变化如图10所示.
图10 各模型在验证集上分类准确度变化(数据增强后)
与原始数据上的实验不同,此实验中各类型样本数量是平衡的,此时分类准确度可以较好反映真实分类效果.由图10可知,各模型所得的分类准确度均在95%以上,由此可知,各模型在增强后的数据上分类效果均有较大提升,表明该数据增强方法对分类效果的提升有较大作用.同时ResNet18_PRO模型的分类准确度为98.91%,在4个模型中最高,进一步反映了ResNet18_PRO网络模型的优越性.为进一步确定各类型样本分类效果也得到了类似提升,对各类缺陷的F1分数及其宏平均值进行分析,结果如图11所示.
图11 各模型在验证集上F1分数变化(数据增强后)
由图11可知,各模型对3类图片分类的F1分数值均在95%以上,相较于原始数据上的分类效果有了显著提升,尤其是对于气孔和裂纹缺陷的提升更加明显.这表明数据增强后,各缺陷样本数量增多且较为均衡,使分类效果得到较大提升.同时,ResNet18_PRO模型对各类缺陷的分类效果在4个模型中均为最优,进一步验证了该模型性能的优越性及稳定性.
表4 各模型在测试集上的结果(数据增强后)
为进一步分析ResNet18_PRO的分类性能,对测试过程中的部分成功案例进行分析.如图12所示,图12(a)、12(b)的真实标签分别为气孔和裂纹,4个模型得到的分类结果如表5所示.由表5可知,该两张图片在ResNet18_PRO模型上分类正确, 而
表5 成功案例测试结果
图12 成功案例
在其余3个模型上分类错误.主要原因可能是图12(a)中的气孔边界处为黑色,而气孔内部大部分区域的颜色与金相图片本身的颜色十分接近,使另外3个模型在检测过程中将气孔内部误认为是正常区域,所以只对缺陷边界的上半周进行检测,使得模型将其误认为是细长的裂纹.图12(b)由于裂纹位置周围的颜色也较深,与裂纹本身的颜色较为接近,使其余3个模型没有检测到裂纹,而将其误判为正常图片.ResNet18_PRO模型由于减少了下采样过程中的信息损失,同时在网络末端加强了对信息的整合,能捕捉到更多的信息,使其得到正确的分类结果.
与传统人工检测相比,采用该模型进行缺陷分类,既能得到较高的分类准确度也具有较快的检测速度,如表6所示.由表中可知,该模型在图形处理器(GPU)上的检测速度为100帧/s,远大于人工分类速度,能满足大部分工业相机的拍摄速度,可实现实时检测.
表6 人工分类与算法分类对比
为了验证ResNet18_PRO网络各改进部分及训练策略改进对分类效果的影响,通过控制变量思想对ResNet18_PRO进行消融实验,实验数据为样本扩充后的数据,训练集、验证集及测试集的比例仍为7∶2∶1,最终各模型在测试集上的结果如表7所示.验证网络结构改进时,为避免训练策略所带来的影响,训练均采用了0.001的固定学习率.
表7 消融实验结果
通过表7可知,相较于基线(Baseline)模型ResNet18的分类效果,LDPS和ISPP均能较好地提高模型的分类准确度和F1分数,表明两个改进均较有效,其中LDPS对分类效果的提升更为明显.这是由于ResNet18网络浅层部分有较多的信息损失,导致网络末端所提取的信息有效性减弱,而ISPP主要对网络末端的信息进行整合,其效果依赖于末端信息的质量,所以单纯增加ISPP对分类效果的提升并不明显.而LDPS较大减少了下采样过程中的信息损失,并将更有用的信息进行传递,使网络能提取更多更有效的信息,因此LDPS带来的效果提升更好.同时,经LDPS改进后,网络末端所得到的信息更有效,质量更高,此时再与ISPP结合,使ISPP能对更有效的信息进行整合,因此能进一步提升分类效果.由于已经验证了网络结构的有效性,所以对于训练策略的影响,直接用ResNet18和ResNet18_PRO两个模型进行验证,即在训练时使用动态学习率ELR.结果表明,两模型使用ELR后,分类效果得到进一步提升,其中ResNet18模型分类效果提升更大.这是由于在本实验中ResNet18模型本身的分类性能一般,通过动态学习率可以让分类器进一步接近最优解空间,而ResNet18_PRO本身由于结构改进取得了较好的分类性能,与最优解空间较近,所以运用ELR之后,分类效果有提升,但不如ResNet18网络提升明显.
为验证ResNet18_PRO模型的鲁棒性,分别探究了图片的分辨率及缺陷数据集类型对模型分类效果的影响.探究分辨率对模型分类效果的影响时,通过图像处理的方法改变金相组织图片的分辨率,得到宽高均为52、104、208、312、416、520、624、728、832像素等9种不同分辨率的图片,然后对以上图片分别进行训练和测试,结果如图13所示.由此可知,随着分辨率的增加,各类型图片的F1分数及分类准确度先增加后趋于动态稳定,当分辨率小于104像素×104像素时,各类型缺陷的分类效果明显下降,其中裂纹的分类效果下降更为明显.主要因为分辨率越低,图片所携带的有效信息越少,使模型不能提取到较充足的特征信息,从而影响模型的分类性能.对于裂纹缺陷,由于本身缺陷特征为细长形状,缺陷特征不如气孔明显,所以低分辨率下裂纹的分类效果下降更多.
图13 分辨率对分类效果的影响
使用ResNet18_PRO模型解决了三分类问题,取得了较好的分类效果.为探究该模型对含更多类别的数据的分类效果,使用了东北大学公开的热轧钢带表面缺陷数据集进行训练和测试,该数据集共有6类,每类有300张图片,图片分辨率被调整为224像素×224像素,如图14所示.
图14 东北大学表面缺陷数据集
训练集、验证集及测试集的比例为4∶1∶1,训练过程中的参数设置与上述数据增强后的分类实验的参数设置相同.最终各模型在测试集上的测试结果如表8所示.由表8可知,ResNet18_PRO模型在该表面缺陷数据集上也能取得较好的分类效果,且优于其他3个模型,表明该模型对于类别数量更多的其他分类任务也具有较好的分类性能,验证了该模型的鲁棒性.
表8 东北大学表面缺陷数据集测试结果
针对缺陷样本数量较少的金相组织图像缺陷分类问题,通过泊松融合的方法将缺陷区域与正常样本进行融合,扩充缺陷样本数量,从而达到数据增强的目的,改善了缺陷样本数据不平衡的问题.在ResNet18的基础上进行改进,提出了LDPS用于减少下采样过程中的信息损失,同时在网络末端增加了ISPP结构用于整合多尺度的特征信息,显著提高了缺陷分类精度.实验方面,通过多个分类模型对数据增强前后的分类效果进行对比,验证了泊松融合数据增强方法及ResNet18_PRO网络模型的有效性,并通过消融实验验证了模型各改进部分及训练策略的有效性.最终该模型在增强后的数据上取得了98.83%的平均分类精度及98.76%的平均F1分数.使用该模型对其他工业缺陷数据集进行训练和测试,取得了98.96%的平均分类准确度及99.21%的平均F1分数,表明该分类模型对不同的缺陷数据具有较好的鲁棒性.以上结论表明,该数据增强方法及网络模型具有较好的实际应用价值.