语境信息约束下的多目标检测网络

2019-03-11 07:29邬亚男，李君君，张彬彬

智能计算机与应用 2019年6期

邬亚男，李君君，张彬彬

摘要：目标检测问题一直是计算机视觉以及机器学习领域非常重要的研究课题，并且在交通监控、医学影像、辅助驾驶等方面有着广泛的应用。由于现实任务对于检测速度和精度的要求，目标检测一直是计算机视觉领域具有挑战性的任务。语境信息可以作为推理的关键证据应用于多目标识别领域。由此，提出语境信息约束下的直接预测目标类别和目标位置的多目标检测网络。该网络采取端对端的训练方式，分层提取特征，并利用语境信息微调网络的输出结果以更好地进行实时预测。在PASCAL VOC 2007数据集上的定性及定量实验结果，证明了深度语境网络下的目标检测模型具有显著的目标检测性能，优于当前先进的方法。实验证明，利用语境信息可以为目标检测提供有效的判定依据，提高检测的准确率。

关键词：目标检测;语境信息;实时检测;卷积神经网络

0引言

目标检测的任务是集目标分类、目标定位两者之所长，检测输入图像中所有感兴趣的目标的类别属性和位置属性，输出相对应的概率标签，表明将目标分类为该类别的概率，明确输入图像中感兴趣物体的位置和范围，以矩形框表示物体的所在。目标检测问题一直是计算机视觉以及机器学习领域非常重要的研究课题，并且在视频监控、行人检测、行为识别、场景理解等方面有着广泛的应用。

传统目标检测模型主要由人工设计特征以及分类决策构成。通过人工设计特征表达，然后设计相应的分类器对目标进行检测。虽然这些手工制作的方法取得了令人瞩目的成功，但其在实践中不能灵活捕获图片信息，这可能会阻碍性能进一步提高。随着机器学习理论逐步完善以及深度学习技术的日益发展，深度网络模型不断发展壮大，对于特征的表达能力日益增强，检测精度也得以提升。目标检测任务从传统模型逐渐向基于深度学习的模型研究，涌现了一大批深度网络下的目标检测模型。尽管如此，由于现实任务高精度、高速度的目标检测需求，当前的目标检测结果仍然差强人意。因此，深度检测模型设计仍然面临着巨大的压力，仍然是亟待优化和解决的具有挑战性的研究课题。

语境线索在搜索和检测物体中有着重要作用，并且在计算机视觉和认知神经科学等方面有着重要的应用。语境有助于图像理解，符合现实世界的客观规律，语境信息对于人类识别物体也至关重要，计算机视觉的许多研究证明，通过适当的语境建模能够有效改进识别算法。由于视觉对象在其外观、动作等方面变化很大，通常难以仅使用局部线索来学习鲁棒模型。同时，由于物体几乎不是孤立地发生的，其语境信息，可以用来评估目标检测模型的输出并提高检测性能。本文的主要贡献如下：

（1）在SSD模型基础上，提出语境信息约束下的直接预测目标类别和目标位置的多目标检测网络，该网络采取端对端的训练方式，分层提取特征并进行实时的目标检测。

（2）采用语境信息作为约束条件，预测目标类别和目标位置，利用语境信息微调网络的输出结果，以更好地进行实时预测。

（3）在PASCAL VOC 2007数据集上的实验结果，证明了本文方法在公开数据集测试中具有显著的目标检测性能，优于当前先进的方法。

1相关工作

针对图像目标检测问题，通常有两种常见的目标检测模型，一种为基于滑动窗口的目标检测模型，另一种为基于区域提议的目标检测模型。在卷积神经网络出现之前，DPM和选择性搜索受到了许多的关注。在R-CNN结合选择性搜索、区域提议以及卷积神经网络带来显著改进后，基于区域提议的目标检测方法变得流行。

SPPnet顯著加快了原有的R-CNN方法，其引入了一个空间金字塔池化层，对区域大小和尺度更加鲁棒，并允许分类层重用多个图像分辨率下生成的特征映射上计算的特征。Fast R-CNN扩展了SPPnet.使得其可以通过最小化置信度和边界框回归的损失，来对所有层进行端到端的微调，并初次利用MuhiBox学习目标信息。然而，Fast R-CNN仍然选择使用选择性搜索进行区域提议，浪费了太多的检测时间。据此，Faster R-CNN提出区域提议网络进行区域提议，并引入了一种方法，通过微调共享卷积层和预测层将区域提议网络和Fast R-CNN结合在一起，使用区域提议网络池化中级特征，提升了检测速度。

基于滑动窗口的目标检测模型完全跳过提出步骤，直接预测多个类别的边界框和置信度。OverFeat是首先利用滑动窗口进行目标检测的方法，在知道了底层目标类别的置信度之后，直接从最顶层的特征映射的每个位置预测边界框。之前常见的检测方法都将检测转换为分类问题，而YOLO另辟蹊径，仅仅经过一个神经网络，将检测转换为回归问题，从而实现端对端优化。YOLO使用整个最顶层的特征映射来预测多个类别和边界框（这些类别共享）的置信度。YOLO经过不断更新多次优化升级得到目前的YOLOv3.并在设计上进行了一定的改进：首先融合先前的Darknet-19网络以及残差网络，设计出DarkNet-53网络进行特征提取，功能更加强大。此外，YOLOv3还能够进行跨尺度预测，利用金字塔网络的概念预测出三个不同的尺度上边界框。

语境信息可以作为推理的关键证据应用于多目标识别领域。然而，上述研究忽略了语境信息的重要作用，仅仅利用设计的目标检测器检测对象类别及位置，结果可能会违反现实世界中的规律。在考虑语境信息之后，准确性得到了很大改善。在传统模型中，检测算法由人工设计特征及浅层分类器构成。语境信息可作为正则化约束条件，调整检测结果以提高性能，也可以约束深度学习模型，利用这种丰富的且有区别的语境信息有助于机器获取行为发生时相应的场景信息，获得图像内容的理解，提高检测的准确度。例如，Bell等人也分别对语境和外部场景进行了建模。利用空间循环神经网络分别对感兴趣区域的外部环境整合了多尺度语境，有助于特定的小目标检测。Zhe等人通过可学习的直方图层在端到端训练中学习深度神经网络中的统计语境特征，将可学习的直方图层集成到深层网络中，探索了语义分割和目标检测两个视觉问题。Heilbron等人提出语境级联模型，通过采用与人类活动相关的语义先验，语境级联模型产生高质量的特定类别的行动提议，并通过级联的方式抑制无关的活动提议。

2语境信息约束下的多目标检测网络

利用语境信息作为约束条件，能够准确且有效地捕捉图片中除了目标物本身之外的所有信息（包括其它目标信息和背景信息）。语境信息作为目标检测推理过程的关键证据，具有重要的作用及意义。以此作为切入点，构建语境信息约束下实时的多目标检测网络，如图l所示。该网络分层提取特征并依次进行边框回归和分类，从而得到图像中所有感兴趣的目标类别属性和位置属性。

语境信息约束下的多目标检测网络的主要贡献如下：

（1）在SSD模型基础上进行改进，提出语境信息约束下能够端对端训练的多目标检测网络，并依次进行边框回归和分类。

（2）采用语境信息约束网络输出结果，微调网络的输出结果以更好地进行实时预测。

2.1语境约束

多目标检测网络经过初步训练，将得到训练集图像所有候选框中目标的语义类别、标签以及所有候选框的位置坐标。由此，可以计算出候选框中心位置点的坐标。已知语义类别集合，可得候选目标O的位置属性v.以及候选目标的语义属性a。定义语义存在矩阵，统计每一幅图像中出现的类别，语义存在矩阵，统计所有训练集图像中同时出现的类别，对即可得语义类别共现频率矩阵，统计训练集图像中同时出现的类别频率。由候选目标的语义属性以及语义类别共现频率矩阵作为语义信息获取目标类别关系。目标类别之间语义约束置信度获取方法如下：

其中，I表示训练集图像I^（n）∈I_train;a表示语义类别集合a_m，a_n∈a;v表示候选框v_i，v_j∈ v;o候选框中目标的语义类别标签;I表示计数函数。

由目标对的位置信息可计算类别间的相对位置信息。该信息是一个向量，包含两个类别间的距离和角度信息，由目标对的相对位置信息可计算类别间相对位置，分别作为位置信息获取目标类别关系。目标类别之间位置约束置信度获取方法如下：

其中，[x_i，y_i]表示候选框的中心位置坐标;[△x_ij，△y_ij]表示属于两个类别a_m，a_n之间的候选框v_i，v_j相对位置;v为目标对的相对位置均值;σ²为目标对的相对位置方差;f为标准正态分布函数。

根据捕获的目标类别关系，微调候选目标框的类别得分。通过语境约束C_semantic以及C_location判断后，对于每张图片的每个目标，考虑所有与之相关的候选框类别，得到最终类别置信度c。

2.2网络模型

语境信息约束下的多目标检测网络与Faster R-CNN中的区域提议网络非常相似，也使用了一组固定的边界框进行预测，类似于RPN中的锚边界框。但并不是使用这些来池化特征并评估另一个分类器，而是为每个目标类别在每个边界框中同时生成一个分数。因此，本文的方法避免了将区域提议网络与Fast R-CNN合并的复杂性，并且更容易训练，更快且更直接地集成到其它任务中。语境信息约束下的多目标检测网络使用默认边界框，方法比现有方法更灵活，可以在不同尺度的多个特征映射的每个特征位置上使用不同长宽比的默认边界框。如果只从最顶层的特征映射的每个位置使用一个默认框，语境信息约束下的多目标检测网络将具有与OverFeat相似的架构，若使用整个最顶层的特征映射，并添加一个全连接层进行预测来代替卷积预测器，并且没有明确地考虑多个长宽比，将近似地再现YOLO。

利用在ILSVRC CLS-LOC数据集上已经预先训练好的VGG16网络，作为基础卷积神经网络架构。通过多层卷积分层提取特征，直接检测图像中的目标，最终获得固定尺度的边界框以及对象的类别。将多个卷积层添加到VGG16第五个卷积层之后，VGG第六、七层原本为全连接层，将其替换为卷积层，从其中重采样参数。然后继续增加4个卷积层，所以总共含有6种尺度的卷积层，尺寸逐渐减小，每种尺度的卷积层都能学习到一个特征图，将6种尺度卷积层学习的多个特征图预测组合在一起，以便于针对不同尺度的目标检测问题。SSD模型训练一开始，需要将真实信息分配给固定的检测器，输出集合中的特定输出，一旦确定了这个分配，损失函数和反向传播就可以应用端到端了。通过计算交叠面积，保证唯一的默认框与真实标签一一对应，之后只要交叠面积大于设定的阈值就将默认框与真实标签进行随机匹配，使网络可以預测同个位置的多个框。测试时，根据训练好的模型得到每个候选框中的目标类别的预测分数，同时对候选框进行调整以便于更好地匹配目标形状。使用随机梯度下降，对得到的语境信息约束下的实时多目标检测网络模型进行微调，初始学习率为10^-3，动量为0.9.权重衰减为0.0005.批处理数据大小为32。针对每个数据集的学习速率衰减策略略有不同，本文使用Caffe框架，实验环境硬件平台配置为CoreX i7-6800k 6核、3.4GHz CPU、2块NIVDIA GTX10808GB显卡。整个语境信息约束下的实时多目标检测网络训练过程的损失函数为：

其中，x为网络输入;c为类别置信度;l和g分别为预测框和真实标签;L_conf代表置信损失，置信度损失是在多类别置信度上的softmax损失;L_loc代表定位损失，定位损失是预测框与真实框参数之间的Smooth L1损失，

3实验结果与分析

3.1数据集与评价标准

由于PASCAL VOC 2007数据集是一个有着明显层级结构的多类别、多目标类型的数据集，类别、目标之间具有明显的共生关系。所以本文选择在PASCAL VOC 2007数据集上评估DCN方法。该数据集包括20个对象类别，9963张高质量图片。其中5011张训练和验证集图像，4952张测试图像，包含24640个已标注的目标，该数据集为图像分割、目标识别和目标检测提供标准。为了证明DCN方法的检测精度，本文采用类别平均精准度（Ap.Average Precision）值和平均AP（mean AP）值进行评测。

其中，N（TruePositives）_{c_i}为正确预测的数量;N（TotalObjects）_{c_i}该图像中给定类别c_i的实际目标的数量;Precision_{c_i}为类c_i的精度。平均AP值即为所有类别的平均精度求和除以所有类别。

实验方法中，如果预测窗口与数据集标定的ground-truth窗口面积IoU重叠大于50%（mAP@IoU=0.5），则认为此提议窗口的检测是正确的，否则是错误的，

3.2实验结果分析

本文在PASCAL VOC 2007数据集上进行实验验证，并与当前先进检测方法R-CNN、Fast R-CNN、Faster R-CNN、G-CNN、OHEM、SSD进行对比，以验证语境信息约束下的多目标检测网络方法的目标检测效果。

表1给出了不同线索下语境信息约束下，多目标检测网络在PASCAL VOC 2007数据集上得到平均准确率值，以证明不同线索对检测结果的影响。其中semantic代表语义约束，location代表位置约束。由表1可得，语境信息约束分别作用以及共同作用下的多目标检测网络对于检测精度的提升效果。

表2给出了语境信息约束下的多目标检测网络与对比方法，分别在PASCAL VOC 2007数据集上的平均AP值以及20个类别条件下得到平均准确率值。由表2可得，在PASCAL VOC 2007数据集下以及20个类别条件下得到的平均准确率，总体优于当前先进方法。

语境信息约束下的多目标检测网络能够在一定程度上处理漏检（chair、bird）、误检（potted plant、sofa）等问题，针对检测错误以及不准确等问题进行修正，提升检测的精准度，具有更好的检测效果，如图2所示。

图3给出了PASCAL VOC 2007数据集上6个示例类别的平均精准度柱状图结果，验证了利用语境信息约束能够提升多目标检测网络的检测效果，语义約束和位置约束对于目标检测有着重要的作用。

4结束语

本文介绍了语境信息约束下的多目标检测网络，是一种快速的单次多类别目标检测器，模型的关键特性是使用网络顶部多个特征映射的多尺度卷积边界框输出，这种表示能够高效地建模可能的边界框形状空间。语境信息约束下的多目标检测网络在准确性和速度方面与其对应的最先进的目标检测器相比毫不逊色。在PASCAL VOC 2007数据集上的实验结果证明了本文方法在公开数据集测试中具有显著的目标检测性能，提高了检测精度，优于当前先进的方法，在此基础上仍然存在许多可以深入研究的方向，其中有前景的未来方向是探索其作为系统的一部分，使该模型作为目标检测组件的大型系统有用的构建模块，同时检测和跟踪视频中的目标。