融合多尺度注意力的太赫兹图像目标检测研究

2022-03-03 13:46宋欢，沈韬，曾凯

小型微型计算机系统 2022年3期

宋欢，沈韬，曾凯

(昆明理工大学信息工程与自动化学院，昆明 650500) (昆明理工大学云南省计算机技术应用重点实验室，昆明 650500)

1 引言

太赫兹(THz)被认为是最具发展潜力的新兴技术之一，已经在生物医学[1]、无线通信[2]、无损检测[3]、安全检查[4]等各个领域发挥重要作用.太赫兹成像是基于太赫兹波进行成像的技术，具有较低的光子能量和独特的无损伤检测特性，这些特性使得太赫兹技术在安检反恐领域广受关注.从太赫兹图像中提取目标特征，自动并准确地对各类目标进行分类和定位，是提高安检效率和实现智能化排查的关键，针对太赫兹图像的目标检测研究具有重要的现实意义.

近年来，深度学习在计算机视觉领域中取得了突破的进展.相比于传统目标检测算法，基于深层卷积神经网络的算法具有特征自动提取，泛化能力强等优点[5].目前，基于深度学习的目标检测算法主要分为两类：1)两阶段检测算法，如Faster R-CNN[6]、Mask R-CNN[7]，该类方法具有较高的检测精度，但是检测速度较慢;2)单阶段检测算法，如SSD(Single Shot multibox Detector)[8]、YOLO(You Only Look Once)[9]、PeleeNet[10]算法，与两阶段法相比，该类方法在检测速度上有较大提高，但检测精度稍有不足.现有的目标检测算法在自然光学图像的检测中取得了不错的效果，然而与自然光学图像不同，太赫兹图像的特征受观察角度、目标结构和材料等因素的影响，目标边缘特征模糊，细节缺失[11].在实际的日常人体安检中，要检测的对象通常为人们随身携带的手机、打火机、刀具、钥匙等物品，待检目标通常占据整个图像的小部分，所涵盖的特征信息量少.同时，太赫兹图像分辨率较低，背景与目标亮度相近，目标在卷积神经网络中特征表征能力不足，不利于模型进行判断，针对太赫兹图像的目标检测面临诸多挑战.目前，已有很多学者基于深度学习的方法对太赫兹图像中的目标检测进行了研究，Xiao[12]等提出一种结合预处理和结构优化的检测框架，在Faster R-CNN网络中加入去噪和增强模块，并将网络分层裁剪以减少卷积层和池化层的数量，有效提高了检测精度和速度；Yang等[13]通过稀疏低秩分解方法挖掘太赫兹图像的时空信息，实现对可疑对象的高精度自动检测和识别；侯等[14]使用在线困难样本挖掘缓解太赫兹图像数据集中正负样本失衡问题，进一步提升了检测性能.上述方法取得了不错的进展，但直接使用卷积神经网络提取特征，没有关注不同特征对网络检测任务的不同贡献程度，不利于在干扰较大的太赫兹图像中提取有效特征，同时没有考虑上下文信息对检测太赫兹图像中低分辨率目标的重要性.

为解决上述问题，论文提出一种融合多尺度注意力的目标检测框架(MSAD-SSD).针对太赫兹图像分辨率较低，特征信息模糊的问题，MSAD-SSD采用不同膨胀率的膨胀卷积[15]获得多尺度特征图，提高网络的感受野，结合上下文信息加强网络对目标表征的准确性.针对太赫兹图像存在背景干扰的问题，使用通道注意力机制[16]增强目标的关键特征，抑制冗杂特征，提高网络对重要特征的表征能力.本文的主要贡献包括：

1)以SSD检测框架为基础，提出了一种融合多尺度注意力的目标检测框架MSAD-SSD，使用ResNet101作为特征提取网络，通过残差连接使网络在干扰较强的太赫兹图像中提取更为稳定有效的特征.

2)在ResNet101网络中设计一种多尺度注意力模块，该模块通过多支路的膨胀卷积充分获取目标的上下文信息，利用通道注意力机制生成显著特征图，使网络重点关注图像中的关键特征.

2 研究方法

2.1 MSAD-SSD检测框架

SSD算法是目前主流的一种单阶段多框检测算法，由基础的特征提取网络以及附加卷积层组成，采用金字塔结构的多尺度特征对目标进行检测.SSD网络通过深层网络提取的特征信息检测大物体，依赖浅层网络提取的低层特征信息检测小物体.鉴于此，增强SSD浅层网络的特征提取和特征表达能力，可以有效提高太赫兹图像中各类目标的检测性能.

论文所提MSAD-SSD使用ResNet101作为特征提取网络，ResNet101具有更深的网络结构，能够提高网络的特征提取能力，同时通过卷积层之间的跳跃性连接将输入直接传递到输出，能够有效避免特征信息的丢失，使网络在干扰较强的太赫兹图像中提取更为稳定有效的特征.论文在ResNet101中设计多尺度注意力模块构建MSAD-SSD检测框架，MSAD-SSD网络结构如图1所示.

图1 MSAD-SSD网络结构图Fig.1 Structure of MSAD-SSD

MSAD-SSD检测框架以ResNet101作为特征提取网络，并在浅层网络Conv3后加入多尺度注意力模块，特征经多尺度注意力模块后与Conv3层原始的输出特征进行融合，输入下一步的检测模块中.网络通过卷积层Conv3、Conv5、Conv6、Conv7、Conv8、Conv9对输入图像进行特征提取，结合不同分辨率的特征映射用于预测不同大小的目标.其中Conv6、Conv7、Conv8、Conv9为原SSD网络的附加卷积层.

2.2 多尺度注意力模块

太赫兹图像对比度低，细节特征信息弱，目标在太赫兹图像中呈现出不同亮度的特性，相似亮度的背景极易覆盖目标的特征信息，造成干扰.因此，如何利用有限的特征信息准确检测出目标，是太赫兹图像检测的难点.本文设计了一种多尺度注意力模块，使用多尺度膨胀卷积扩展网络的视野感知域，获取丰富的上下文信息，有利于充分利用太赫兹图像有限的特征信息.同时，引入通道注意力机制增强图像中的关键特征，通道注意力机制通过学习的方式获取特征间的依赖关系及各部分的重要程度，并根据重要性突出高频信息，有利于抑制太赫兹图像中与目标无关的背景信息，减少无关信息的干扰，多尺度注意力模块如图2所示.

图2 多尺度注意力模块Fig.2 Multi-scale attention moudle

多尺度注意力模块并行引入了3个不同膨胀率的膨胀卷积，形成多支路膨胀卷积层.使用膨胀率为1、2、5，卷积核为3×3大小的膨胀卷积对输入进行采样，在特征图上进行不同膨胀率的卷积运算，充分获取目标的上下文信息，得到特征图不同尺度和不同区域间的信息变化.随后再分别经通道注意力模块学习特征图各个通道的重要程度并赋予不同的权重，使网络聚焦于目标的关键特征，最后不同分支的输出进行特征融合，得到多尺度融合特征.

2.2.1 膨胀卷积

膨胀卷积也称空洞卷积，最早被提出用于图像分割.膨胀卷积在原卷积核中插入不同数量的空洞来扩展卷积的大小，可以在不增加计算复杂度的同时扩展卷积层的感受野.传统卷积神经网络使用下采样扩大网络的接收范围，但随着下采样次数的增加，会导致特征图分辨率降低，丢失边缘、纹理等细节信息，不利于目标的检测.膨胀卷积在原始卷积的基础上增加一个参数膨胀率，通过控制膨胀率的大小对卷积核进行不同数量的空洞填充，能够扩展网络的感受野而不降低特征图的分辨率.

假设原始的卷积核大小为k，膨胀率为r，则经过膨胀后卷积核的大小k′为：

k′=r(k-1)+1

(1)

卷积核经过膨胀后的视野接收域为：

v=((k+1)×(r-1)+k)2

(2)

使用膨胀卷积可以有效地扩展网络的视野接收域，获得输入图像更全面和准确的表达.

2.2.2 通道注意力机制

Hu等人首次提出利用注意力机制对特征图各通道间的依赖性进行建模，通过权重值大小表征各个通道的重要程度，获得显著性特征映射，指导网络重点关注信息量丰富的特征，抑制冗杂特征的干扰，通道注意力模块如图3所示.

图3 通道注意力模块Fig.3 Channel attention moudle

输入图像经过特征提取操作Ftr后得到维度为H×W×C的特征图U，其中H为特征图高度，W为特征图宽度，C为通道数.通道注意力机制通过以下步骤实现：

1)通道特征权重提取：对H×W×C的特征图，在每个通道上对特征图的空间维度进行压缩，转换成维度为1×1×C的特图征，通道数保持不变.

(3)

式中：uc为输入特征的第c个通道特征，i、j对应特征图上每一个像素点的位置，对输入特征进行平均池化，得到输出特征zc.

2)通道特征权重更新：特征经FC(Fully Connected)全连接层进行通道信息融合，通过学习的方式获取0～1之间的归一化权重，该权重表征各个通道特征的重要程度.

S=Fex(z，W)=σ(W2δ(W1z))

(4)

3)权重映射：将上述归一化后的输出权重值与原输入特征图进行逐通道加权，得到经权重映射后的输出特征.

(5)

(6)

3 实验与分析

3.1 实验设置与数据

本文所有实验均在Ubuntu 16.04系统下进行，采用深度学习框架Pytorch搭建实验运行环境，编程语言为Python，硬件配置为：NVIDIA Geforce GTX 2060，显存为16GB，通过GPU加速运算.实验最大迭代次数为100000次，初始学习率为0.001，当网络训练至80000次时，学习率降为0.0001.批量大小为16，动量为0.9，权重衰减率为0.0005.

本文使用的太赫兹图像数据集中包含安检过程中几种典型的隐匿物：手机、刀具和水瓶，共 2450张图像，采用JPEG格式，按照8：2的比例随机划分为训练集和测试集.

3.2 评价指标

实验采用目标检测领域常用的模型评价指标：平均精度(Average Precision，AP)和平均精度均值(mean Average Precision，mAP)对模型的检测效果进行定量的评估.平均精度AP由召回率(Recall)与准确率(Precision)共同决定，是评价模型在单类别检测中检测性能的直观标准.

(7)

(8)

(9)

式中TP、FP、FN分别是真阳性、假阳性和假阴性的数目.

mAP值为多类目标的平均精度均值，通过mAP 值衡量模型在所有类别中的综合检测性能.

(10)

式中，N为数据集中待检测目标的类别数目，本实验中N=3.

3.3 实验结果与分析

3.3.1 准确率对比

为验证所提方法的检测性能，我们以对太赫兹图像中隐匿物品的分类和定位为基础，对比模型在手机(Phone)、刀具(Knife)、水瓶(Bottle)3种物品中的检测平均精度，以及各类别的平均精度均值.将MSAD-SSD与目前主流的目标检测算法：Faster R-CNN、R-FCN、YOLO v3、SSD算法进行了对比实验，表1为数据集在不同算法下的准确率对比.

表1 不同算法下数据集的准确率(%)对比Table 1 Comparison of the accuracy(%) of the dataset under different algorithms

由表1可知，MSAD-SSD网络对太赫兹图像数据集中的3类目标：刀具、手机、水瓶均有较好的检测效果.对比不同的目标检测算法，其中Faster R-CNN的平均检测精度为79.62%，R-FCN的平均检测精度为78.44%，YOLO v3的平均检测精度为80.65%，SSD的平均检测精度为79.26%，MSAD-SSD的平均检测精度为82.63%，证明论文所提方法对太赫兹图像中各类目标检测性能提升的有效性.

为直观的展示所提方法对太赫兹图像中目标的检测效果，论文将MSAD-SSD与SSD算法在测试集中的检测结果进行了对比分析.在检测结果中，所有的检出目标都用边框标记其位置，并显示该目标的所属类别以及置信度值，检测结果示例如图4所示.

图4 检测结果对比图Fig.4 Comparison of test results

其中，图4(a)为SSD网络的检测结果图，图4(b)为MSAD-SSD网络的检测结果图.太赫兹图像中各类目标：手机、刀具、水瓶与人体的亮度相近，对比度低且边缘特征模糊，导致SSD 算法不能准确检测，造成部分目标漏检.MSAD-SSD网络提高了对目标细节特征的学习能力，能更好地区分人体和人体携带的物品，在图4(b)的检测结果中，能够准确检测出太赫兹图像中的各类目标.

3.3.2 消融实验

为验证所提多尺度注意力模块中通道注意力机制和膨胀卷积对模型检测性能的影响，论文进行了消融实验.其中Attention代表在SSD网络中加入通道注意力机制；Dilated Conv代表在SSD网络中加入膨胀卷积；MSAD代表在SSD网络中加入论文所提多尺度注意力模块，实验结果如表2所示.

表2 不同方法对模型检测性能的影响Table 2 Influence of different methods on the detection performance of model

实验结果表明，在SSD网络中引入通道注意力机制与多尺度膨胀卷积，能有效提高网络的检测性能.在SSD网络的基础上增加通道注意力机制，mAP值从79.26%提高到81.51%；在SSD网络中引入多尺度膨胀卷积，mAP值从79.26%提高到80.45%.当在SSD网络中加入所提多尺度注意力模块时，能够有效地增强目标的重要特征信息，扩大网络的感受野，获得更丰富的上下文信息，模型对太赫兹图像中各类目标的平均检测精度达到最佳，mAP值可提高至82.63%.

综合上述实验结果，论文所提MSAD-SSD检测框架对太赫兹图像中的可疑物品具有良好的检测效果，可以有效地提高目标的检测精度，提高了算法的适应性和准确性.

4 结论

太赫兹图像分辨率低，目标涵盖信息量少，目标与背景之间对比度低，为了提高目标检测算法对太赫兹图像中可疑物品的检测能力，论文以SSD为基础，提出了一种融合多尺度注意力的目标检测框架MSAD-SSD.MSAD-SSD引入不同膨胀率的膨胀卷积获取多尺度特征图，结合多个尺度的特征图进行预测，对低分辨率的太赫兹图像实现更准确的特征表达.同时，利用通道注意力机制对每个通道的特征进行权重分配，抑制背景信息并实现对重要特征的自适应增强.改进后的算法对太赫兹图像具有较好的检测效果，提高了太赫兹图像中可疑物品的检测精度.有利于在安检过程中对人体携带的可疑物品做出准确警报，提高自动检测的可靠性和准确性.

在后续工作中，我们将收集更多的太赫兹图像扩充数据集，增加安检过程中常见的可疑物品种类，保证所提方法对太赫兹图像目标检测的普适性.