刘双辉,易灿灿,肖 涵,黄 涛
(武汉科技大学 a.冶金装备及其控制教育部重点实验室;b.机械传动与制造工程湖北省重点实验室;b.精密制造研究院,武汉 430081)
冷轧带钢是汽车制造、家电制造、轻工等众多行业的主要原材料[1],但在带钢轧制过程中,由于原料、轧制设备和加工工艺等方面的原因,带钢表面时常会出现夹杂、结疤、擦伤和压痕等缺陷。这些缺陷会给钢铁企业和产品用户带来不可估量的经济损失[2]。传统的带钢表检方法具有准确率不高、效率低等特点,难以满足企业的生产要求[3]。近年来,随着深度学习(deep learning,DL)的提出与发展,卷积神经网络(convolutional neural networks,CNN)被广泛应用于带钢表面缺陷识别[4-5]。
针对CNN计算量大的问题,近年来,已经提出了许多不同的方法来提高其计算效率,包括网络剪枝、权重量化、知识蒸馏、设计高效网络等[6-7]。然而,上述方法主要是更改网络的结构和参数,所构造的是静态的网络,均采用相同的网络架构与参数进行推理,这在一定程度上限制了模型的计算效率。与静态网络不同的是,动态神经网络可以在处理不同的样本时,动态的调节网络结构和参数,这样可以极大的减少计算量[8]。在此基础上,为了解决高分辨率图像存在空间冗余的问题,HUANG等[9]提出扫视-聚焦网络(glance and focus network,GFNet)框架,该框架对于不同的输入图像,可以自适应地处理其与任务最相关的区域,以小的计算量得到可信的结果。因此,本文基于GFNet结构提出了一种适用于带钢表面缺陷识别的网络模型。
现有CNN的带钢表面缺陷识别方法主要针对低分辨率的图像,如目前公开的带钢数据集有NEU-CLS[10]、X-SDD[11]等。但是,为了检测到毫米级的缺陷,带钢表检获取的图像分辨率较高,例如本文收集的带钢数据是1920×400像素。在基于CNN的分类任务中,为了提高效率,输入图像通常被调整为相对较小的大小(如224×224)。目前常用的图像调整方法有最近邻插值(nearest neighbour interpolation,NNI)、双三次插值(bicubic interpolation,BCI)等[12],但是这些方法没有针对DL进行优化。SHARMA等[13]最近指出在分类任务中,图像预处理的目标是提高模型的精度,而非人类视觉感知质量。FENG等[14]通过改进ResNet,将高分辨率带钢图像调整为224×224,该方法提高了分类模型的精度,但同时也增加了计算的时间成本。TALEBI等[15]设计了一种可学习的图像调整器(learnable image resizer,LIR)来调整图像大小,进而提高模型性能。因此,本文将LIR用于带钢表面缺陷图像的大小调整和特征增强。
综上所述,为了满足工业现场的带钢表面缺陷识别需求,本文基于GFNet构建分类模型,采用LIR代替传统的图像大小调整方法,将二者采用联合训练的方式,提出一种基于LIR和GFNet的带钢表面缺陷识别方法。为了验证本文提出方法的可行性,收集整理了某钢铁企业冷轧薄板厂带钢表面缺陷数据集,并对其进行分析。
本文基于扫视-聚焦网络(glance and focus network,GFNet)提出了一个新的带钢表面缺陷图像分类模型,其识别不同图像时的过程如图1所示。该过程类似于人类视觉的识别过程,人类识别图像时通常会关注图像中的一部分,进而得出可靠的结果。GFNet将图像识别任务建模为一个序列决策的过程,先将原始图像的缩略图输入神经网络进行处理,再不断选择最关键的图像区域进行处理,直至网络输出一个足够高的置信度时停止。GFNet对于简单和困难的样本分配不同的计算资源,可以提升网络的整体效率。
图1 GFNet结构处理不同图像的过程示意图
该结构由于减小了输入图像的分辨率,每个步骤都可以高效的完成。例如,推断96×96图像块的计算成本仅为处理原始224×224输入的18%。GFNet第一步将原始输入图像缩小为96×96,这一步称为扫视(Glance),模型在该步骤中可以生成具有全局特征信息的快速预测。对于特征明显的图像,在Glance阶段就以较高的置信度η正确分类。当Glance阶段无法对图像输出足够高的置信度η时,该模型将根据图像块位置建议网络π的建议,选择最具有辨别力的特征区域,由于选择的区域是从原始图像中裁剪一小块,这一步被称为聚焦(Focus)。Focus阶段会针对不同的输入图像动态的进行迭代定位、处理最具有辨别力的图像区域,当达到较高的推理置信度时终止。该结构在测试时在不同图像之间不均匀的分配计算,可以显著提高整体任务的效率,如图1所示,将一张224×224的图片分解为3个96×96的图像块进行处理,所需的计算量仅为原图的55.1%。
基于GFNet的带钢表面缺陷图像分类模型是一个通用框架,由4个部分组成:全局编码器fG、局部编码器fL、分类器fC和图像块位置建议网络π,网络结构如图2所示。
图2 GFNet的网络结构图
(1)
(2)
式中:Dtrain是训练集的大小,y表示输入图像x对应的标签,T是序列的最大可能长度,LCE(·)为标准的交叉熵损失函数。
π是另一个循环神经网络GRU,用于从输入图像中确定裁剪图像块的位置。它在第t步接收特征图et,并从π的参数化分布中随机选择一个定位动作lt+1:
(3)
rt+1=p(t+1)y-pty
(4)
式中:y∈{1,…,C}是输入图像x的标签,输入的图像共有C类。π的目标就是为了最大化折扣奖励的总和:
(5)
式中:γ∈(0,1)是预定义的折扣因子。式(5)表示π能够在最少的图像块序列T的前提下,尽快选择对产生正确的预测结果最有帮助的图像块。
可学习的图像调整器(learnable image resizer,LIR)[15]是专门为提高DL算法性能而设计的,调整器结构位于分类模型之前,采用与分类模型联合训练的方式,实现调整图像大小和特征增强的功能,LIR和分类模型联合学习框架如图3所示。
图3 LIR和分类模型联合学习框架
本文设计的LIR结构如图4所示,其中双线性特征调整器(bilinear feature resizer)和跳跃连接(skip connection)发挥了重要的作用。前者可以将原始分辨率计算的特征合并到模型中。后者可以直接将双线性调整模块输出的图像传递到基线任务中,简化了学习过程。该网络中采用了r个残差模块(residual blocks,Resblock),所有中间卷积层的通道数都是16,卷积核大小为3×3。为了提取和融合较大的特征,网络第一层和最后一层均采用7×7的卷积核。网络中还采用批量归一化层(batch normalization layers)和斜率系数为0.2的LeakyReLu激活函数。该网络结构简单,没有向分类模型中添加较多的参数。
图4 LIR的网络结构图
LIR可以通过设置输出图像的像素大小,实现图像大小的调整,其输出的图像从人眼视觉感知上评判效果较差,不像现有的图像调整器(NNI、BLI、BCI等)输出具有与原始图像相同的视觉质量。但LIR与识别模型联合训练,使其调整大小后的图像可以学习一些提升CNN识别效果的特征,提高下游DL模型的性能。
针对冶金工业生产中带钢表面缺陷图像的识别任务,本文提出一种基于LIR和GFNet的带钢缺陷图像识别方法。本文提出的算法结构如图5所示,分类模型ResNet-50采用GFNet框架构建,图像调整大小方法采用LIR代替传统的方法,将二者联合训练,构建带钢表面缺陷识别模型。
图5 基于LIR和GFNet的带钢表面缺陷识别算法结构图
基于LIR和GFNet的分类模型的联合训练时设置信度阈值ηt=1(1≤t≤T-1),具体训练步骤为:
步骤2:然后,固定步骤1得到的LIR、fG,fL和fC,在网络中插入初始化的π,通过π的输出来选择每一步裁剪图像块的位置,以策略梯度法优化式(5)所示的折扣奖励函数;
步骤3:最后,采用步骤1训练得到的LIR和步骤2训练得到的π,微调步骤1得到的fG,fL和fC,实现在T尽可能小情况下,满足识别任务的需求。
实验采用的原始数据由某钢铁企业冷轧薄板厂提供,其表面缺陷检测装置通过在带钢上下表面布置工业相机实时采集并分析图像,达到实时控制产品质量的目的。采集后的图像大小为1920×400,本文将原始数据进一步整理成冷轧带钢表面缺陷数据集,数据集图像大小为400像素×400像素,命名为CR-CLS,共2427张图像,部分样本如图6所示。
图6 本文整理的CR-CLS数据集
CR-CLS包括8类常见的冷轧带钢表面缺陷和无缺陷样本,共9个类别,其中折叠(Fold,Fo)293张、麻面(Rough Surfuce,RS)98张、夹杂(Inclusion,In)453张、结疤(Scab,Sca)320张、压痕(Indentation,Ind)431张、锁扣印(LockImpression,LI)105张、凹坑(Pit)160张、擦伤(Scratches,Scr)257张,无缺陷(Normal,Nor)310张。
CR-CLS数据集更接近工业现场采集的数据,缺陷数据类间差异小、类内差异较大、缺陷大小不一、大量样本的缺陷位置不在图像中心,这给识别任务带来一定的挑战。因此,本文采用的数据集对带钢表面缺陷识别的算法开发与工程应用有较大的研究意义。
本文的实验环境配置如下:Intel i5-11400F处理器,16 G内存,Nvidia GeforceRTX3070显卡,CUDA版本为11.6,Ubuntu 18.04操作系统,Pytorch框架。模型网络参数配置如下:LIR中残差块的数量r=2,原始图像大小为400×400,调整后的图像为224×224,GFNet中最大的序列长度T=3,图像块的大小为96×96,优化器采用随机梯度下降(SGD),动量参数为0.9,权重衰减因子为0.000 1,epoch为200,batchsize为16,学习率初始设置为0.01。
本文将CR-CLS中每类数据按照8:2的比例划分训练集(Train,Tr)和测试集(Test,Te),其中训练集1944张,测试集483张,每类样本的划分情况如表1所示。
表1 CR-CLS数据集划分情况
为了评估本文提出方法的性能,本文使用准确率(Accuary,Acc)、召回率(Recall,Rec)、精确率(Precision,Prec)和F1值(F1-score)来评估。每个指标的计算公式如下:
(6)
(7)
(8)
(9)
式中:TP表示被模型判断为有缺陷且本身有缺陷的样本数量,FP表示被模型判断为有缺陷但本身没有缺陷的样本数量,TN表示被判断为无缺陷且本身为无缺陷的样本数量,FN表示被模型判断为无缺陷但本身有缺陷的样本数量。
准确率表示的是预测正确的结果占总样本的百分比,通常来说准确率越高,分类模型越好;召回率又叫查全率,是针对原样本而言的,其表示在实际为正的样本中被预测为正样本的概率;精确率又叫查准率,是针对预测结果而言的,其表示在被预测为有缺陷的样本中真正为有缺陷的概率;F1分数是一个比较全面的评价指标,其同时考虑精确率和召回率,让两者同时达到最高,取得平衡。
为了验证模型在测试阶段的推理效率,本文采用在相同的软硬件平台下单张图像的平均推理时间(inference time,Inf.time)[17]来进行对比。
为了验证本文所提出算法框架的效果,主干网络采用ResNet-50[10]来进行实验。本文设计了5个实验:①原始ResNet-50直接处理原始分辨率图像;②通过双三次插值(BCI)调整图像大小,然后输入ResNet-50进行分类;③采用LIR和ResNet-50联合训练的方式进行图像分类;④采用BCI来进行图像大小调整,分类模型采用GF+ResNet-50;⑤采用本文提出的算法LIR+GF+ResNet-50进行图像分类,实验结果如表2所示,各模型计算量(Flops)和参数量(Params)对比如表3所示。
表2 实验结果对比
表3 模型计算量和参数量对比
从表2可以看出,ResNet-50模型在直接处理原始大小图像时,由于原始图像具有丰富的信息,其在Accuracy、Recall、Precision、F1-score都取得了较好的结果,但由于其处理图像较大,单张图像的计算时间为28.43 ms,耗时最长。当采用图像调整器将原始图像从400×400调整到224×224时,模型的性能有所降低,但推断时间明显缩短,提高了模型的实时性。其中,以LIR为调整器的模型性能比BCI的会有所提高。在推理时间方面,LIR与BCI的计算时间相当,证明LIR可以代替现有的插值方法来进行图像缩放。最后,当识别模型采用GFNet结构时,模型的Recall、Precision、F1-score都取得了最佳的效果,Accuracy与ResNet-50直接处理原始分辨率的低0.21%,但单张图像推理时间与直接处理400×400的降低约3.58倍,仅为7.95 ms。
由表3可以看出,LIR模型结构简单,参数量只有0.017 M,再加上其对分类模型性能的提升,进一步证明LIR可以替代传统的插值方法来实现图像的缩放。网络模型引入GFNet结构后,由于网络结构较为复杂,增加了模型的参数量,但由于GFNet的优势,计算量会大大减少,以本文所提方法为例,LIR+GF+ResNet-50的计算量与ResNet-50、LIR+ResNet-50相比,分别降低约6.11倍和1.90倍,很大的提升网络的整体效率。
综上所述,本文所提方法将ResNet-50作为主干网络时,与原始的ResNet-50相比,可以在识别效果相当的情况下,将单张图像的推理时间降低约3.58倍,计算量降低约6.11倍,证明了所提方法的实用性。
为了对比LIR与传统线性插值方法的不同,本文列出了经BCI和LIR处理后的图像,如图7所示。
图7 不同图像调整大小方法效果对比图 图8 本文算法处理不同样本的可视化流程
从图7可以看出,LIR输出的图像在视觉上效果比BCI处理后的较差,但图像缺陷区域明显增强,有利于提高模型的性能。
为了更直观的表明所提方法的优越性,将LIR+GF+ResNet-50(T=3,H′=W′=96)在处理不同样本时的推理过程的可视化,结果如图8所示,方框表示图像块的位置,方框颜色表示当前步骤的预测是否正确(浅色表示正确,深色表示错误),方框左上角显示的是当前步骤输出的置信度。根据获得正确分类结果所需的输入序列数量,展示的样本被分为3行。从图中可以观察到,对于特征明显的样本,在Glance过程就以高置信度正确分类,不再需要多余的计算;而对于特征不明显的难样本,Glance过程通过处理低分辨率图像读取样本的全局信息,为后期Focus过程裁剪图像块的位置提供有效的建议,直至达到较高的置信度为止。本文提出的算法相比直接处理原始的图像,可以明显减少因空间冗余而带来的计算量。
本文提出一种基于LIR和GFNet的带钢表面缺陷识别方法,以解决DL模型在处理带钢表面缺陷图像过程中存在的计算量大、实时性差的问题。本文的结论为:
(1)本文基于GFNet结构构建的带钢表面缺陷分类模型,对于不同的缺陷图像,可以自适应地处理缺陷所在的图像块区域,解决了带钢缺陷图像因空间冗余而带来的计算量较大的问题,提升网络的整体效率。
(2)利用LIR结构代替传统的图像缩放方法,将LIR与分类模型GFNet联合训练,实现图像大小的调整和针对分类模型的特征增强,提高分类模型的准确率。
(3)在工程实际中采集的冷轧带钢表面缺陷数据集CR-CLS上验证本文提出方法的有效性,实验结果表明,本文提出的方法把ResNet-50作为主干网络时,与原始的ResNet-50处理原始数据相比,可以实现在不牺牲准确率的情况下,将单张图像的推理时间降低约3.58倍,模型计算量降低约6.11倍,进一步满足工业现场实时检测的要求。