基于DSConv 与CBAM 的棉花异纤识别

2022-03-24 09:21吴志炜师红宇

棉纺织技术 2022年3期

吴志炜师红宇

（西安工程大学，陕西西安，710600）

棉花中的异纤严重影响棉产品质量，有效识别出异纤对棉纤维的后续加工有着重要意义。以往的棉花异纤检测方法主要集中在光学技术、传统图像处理、机器学习和深度学习技术等方面。基于光学技术［1］的方法包括双光源成像［2⁃3］和近红外成像［4］等，此类方法通常成本较高，且针对不同材质的异纤效果不一，在应用上不具有普遍性。传统图像处理方法［5⁃6］往往依赖个人经验且难以处理复杂背景下的异纤识别。在机器学习方面，有方法［7⁃8］提出利用棉花图像中异纤的各种形态特征作为特征输入来训练分类器，这类方法对于较为明显的异纤识别率较高，却难以识别非正常形态的异纤。在深度学习方面，一些方法［9⁃10］利用现有的深度学习模型进行异纤识别但并未做出改进；另有一些方法在现有深度学习模型基础上进行了改进，如Faster R⁃CNN［11⁃12］、YOLOv3［13］等，这类方法虽然取得了一定效果，但摆脱不了原有模型的一些限制，并不能完全适用于对棉花异纤的检测；有的方法［14］提出了全新的模型用于检测异纤，但模型结构不够精简，且难以应对复杂背景下的异纤检测。

针对以往检测方法存在的问题，本研究提出一种新型网络结构，其采用深度可分离卷积［15］，大幅缩减了参数量，降低了训练难度；同时引入注意力机制［16］，有效地排除了无关信息的干扰，能够快速定位多种形态的异纤，加强了对于复杂背景下异纤的检测能力。

1 本研究模型结构

该新型网络模型结构如图1 所示。

图1 中，Conv 表示传统卷积，CBAM 表示注意力机制，DSConv 表示深度可分离卷积，GAP 表示全局平均池化，Output 为全连接层。输入首先经过3 层传统卷积以提取图像中具有潜在价值的信息；然后通过注意力机制对提取的信息进行初步过滤；接着经过6 层深度可分离卷积对初步过滤后的信息进行快速抽象与汇总；其后再次经过注意力机制进行第2 次过滤；最后经过全局平均池化压缩和提炼关键信息，并经由全连接层得出最终的分类结果。

图1 新型网络模型结构

1.1 传统卷积

对于传统卷积，考虑其有N个卷积核，每个卷积核的大小为k×k×M，传统卷积层的计算见式（1）。

式中：G代表输出的特征图，K代表卷积核，F代表输入特征图，n、k、l分别代表特征图的层级与该层上的行与列，m、i、j分别代表卷积核的层级与该层上的行与列。传统卷积的计算量为k×k×M×N×f×f，其中f代表输入特征图的边长。

本模型中采用的3 个传统卷积层卷积核数量分别为32、64、128，卷积核尺寸分别为3×3、3×3、5×5，步长分别为1、2、2。所有卷积层均采用以下设置：padding 模式为same；权重约束为Unit⁃Norm；在经卷积计算后先通过批量归一化后通过relu 激活函数输出。

1.2 深度可分离卷积

深度可分离卷积分为两步进行。第1 步是经过深度卷积层，该层每个卷积核仅针对输入特征图的某一层做卷积操作；第2 步是经过逐点卷积层，将其接收深度卷积层的输出特征图作为输入，该层的每个卷积核仅为单位大小，但须对输入特征图的所有层做卷积操作。深度卷积层的计算见式（2）。该深度卷积层的计算量为k×k×M×f×f。

综上，深度可分离卷积的总计算量为k×k×M×f×f+M×N×f×f，其与传统卷积计算量的比值见式（4）。可以看出，深度可分离卷积的计算量相比传统卷积大幅降低。

本模型中采用了6 层深度可分离卷积，每层内的深度卷积层卷积核数量均为输入特征图的层数，卷积核尺寸均为3×3，步长依次为1、2、1、2、1、2；每层内的逐点卷积层卷积核数量依次为128、128、256、256、512、512，卷积核尺寸均为1×1，步长均为1。深度可分离卷积内部的这两层卷积均采用了以下设置：padding 模式为same；权重约束为UnitNorm，卷积计算后先经批量归一化后经relu 激活函数输出。

1.3 注意力机制

注意力机制的本质在于突出重点信息同时抑制无关信息。体现在卷积网络中就是对于特征图的通道间或通道内的各部分赋予不同的权重。本研究采用卷积层中的注意力模块（CBAM）嵌入到网络中。该注意力模块内部先经过通道间注意力子模块，后经过空间注意力子模块。其计算过程见式（5）。

式中：Mc(F)代表通道间注意力特征图，F代表输入特征图，⊗代表逐点相乘，F′代表经由通道间注意力子模块输出的中间特征图，Ms(F′)代表空间注意力特征图，F″代表经由空间注意力子模块输出的结果特征图。

1.3.1 通道间注意力模块

该模块对于输入特征图的每个通道分别进行全局平均池化与全局最大池化，得到平均池化向量与最大池化向量，这两列向量分别经过同一个全连接隐藏层，该隐藏层的激活函数为relu，单元数为原始输入特征图通道数的1/8；经由隐藏层输出的两列向量再分别经过同一个无激活函数的全连接输出层，该输出层的单元数为原始输入特征图的通道数；输出层输出的两列向量相加并通过sigmoid 激活函数得到最终的一列结果向量，也就是通道间注意力特征图。其计算过程见式（6）。

式中：σ代表sigmoid 激活函数，MLP代表多层感知器（这里指的是全连接隐藏层和全连接输出层），AvgPool代表全局平均池化，F代表输入特征图，MaxPool代表全局最大池化，Fcavg代表全局平均池化向量，Fcmax代表全局最大池化向量，W0和W1代表权重矩阵。

1.3.2 空间注意力模块

该模块对通道间注意力模块输出特征图上的每一点进行沿所有通道的全局平均池化和全局最大池化，分别得到单通道的平均池化特征图和单通道的最大池化特征图，并将它们拼接成具有两个通道的特征图。该特征图再经由一个具有单卷积核且激活函数为sigmoid 的卷积层得到单通道的输出特征图，即为最终的空间注意力特征图。其计算过程见式（7）。

式中：σ代表sigmoid 激活函数，f5×5代表边长为5 的卷积核，AvgPool代表全局平均池化，MaxPool代表全局最大池化，F代表经由通道间注意力模块输出的特征图，Fsavg代表全局平均池化特征图，Fsmax代表全局最大池化特征图。

1.4 全局平均池化层和全连接层

本模型中输出层之前的全局平均池化层加入了dropout，其系数为0.5；最后的输出层为全连接层，其单元数为6（即类别数），其激活函数为soft⁃max。

2 试验及分析

2.1 试验环境

硬件设备：CPU 为Intel Xeon Processor，GPU 为NVIDIA GeForce RTX3090。软件配置：操作系统为64 位ubuntu18.04 LTS，CUDA Toolkit 11.2，tensorflow⁃gpu 2.3.1。

2.2 数据样本采集

本研究选取了5 种常见的异纤作为数据样本采集原料，分别是塑料薄膜、塑料绳、头发丝、丙纶线、涤纶线，同时加上无异纤的棉花样本，一共分为6 类。采集的样本总数为9 182 例，其中训练集样本共7 349 例，占80%，测试集样本共1 833 例，占20%。所有样本的分辨率均为256 pixel×256 pixel。部分样本如图2 所示。

图2 数据样本

2.3 模型训练

模型训练的损失函数为交叉熵损失，优化算法为SGD，初始学习率为0.01，学习率衰减系数为0.000 2，训练的批大小为32，验证集划分系数为0.2。模型训练过程中采用EarlyStoping 机制，若验证集损失持续多轮不下降则自动停止训练；同时采用ModelCheckpoint 机制，其在训练过程中动态保存验证集准确率最高时的模型参数。

2.4 结果分析

训练过程中的训练集和验证集的准确率变化曲线以及损失值变化曲线如图3 和图4 所示。可以看出，该网络的收敛速度较快，且训练过程较为稳定。

图3 准确率变化曲线

图4 损失值变化曲线

载入保存的最佳模型对测试集样本进行预测，得到最终的预测准确率为91.93%，平均检测1 幅棉花图像仅需0.015 s。部分预测结果如图5和图6 所示，本研究模型识别各类异纤的准确率如表1 所示。

表1 各类异纤识别准确率

由图5 和图6 可以看出，对于大部分的常见异纤，本研究提出的模型均可准确识别，且几乎不受各种复杂背景的干扰，同时也不会受异纤形态的影响，可以应对大部分复杂背景下的异纤识别，仅对于一些极为相似的异纤以及部分无色异纤会产生误检，总体来说达到了预期效果。

图5 预测正确的样本

图6 预测错误的样本

由表1 可以看出，本研究模型对于无异纤的棉花样本识别率最高，达到98.41%，说明模型基本不会受棉花形态以及各种阴影的影响；对于塑料薄膜、塑料绳和头发丝的识别率也较高，分别达到了91.69%、92.90%和92.60%，这得益于模型较好地学习到了上述3 类异纤的纹理特征；而对于极为相似的丙纶线与涤纶线的识别率则偏低，主要是因为两者相互混淆，但准确率仍然达到了86.01%和89.35%，说明模型对于极为相似的异纤依然具有较强的分辨能力。

本研究方法与传统分类网络在测试集上的识别准确率比较如下。SequeezeNet 模型、Xception模型、MobileNetv1 模型、MobileNetv2 模型、Mo⁃bileNetv3 模型、ShuffleNetv1 模型、ShuffleNetv2模型、本研究模型的识别准确率分别为88.76%、87.61%、86.57%、87.66%、89.57%、86.52%、85.53%、91.93%。可以看出，本研究提出的方法在测试集上的识别准确率均高于传统的图像分类网络，且相比于传统方法平均提高了4.47 个百分点。由于本研究所采集的异纤样本考虑了各种复杂与极端情况，不仅涵盖了绝大部分实际棉花异纤场景，而且有相当部分的识别困难度超出了实际场景中可能出现的非常规情况，因此本研究提出的模型可以较好地满足实际场景的检测需要。

3 结论

本研究提出了一种全新的棉花异纤识别网络模型，相比于传统的卷积层，其采用了深度可分离卷积，参数量大幅缩减，大大降低了模型复杂度，使得模型易于训练；同时为解决复杂背景下棉花异纤难以有效识别的问题，引入了卷积层注意力机制，其能够有效提高模型的抗干扰能力与准确定位目标区域的能力。本研究模型在测试集上的识别准确率达到了91.93%，相较于传统的图像分类网络模型平均提高了4.47 个百分点，且该模型检测1 幅图像的平均时间仅为0.015 s，体现了其较为优越的性能。与此同时，本研究模型对于极为相似的异纤以及部分无色异纤仍然有可能产生误检，下一步将继续优化该模型，以进一步提高其对于相似异纤的分辨能力，加强其对于无色异纤的识别能力。