基于深度学习的目标检测算法*

2019-06-27 09:53胡爱玲
微处理机 2019年3期
关键词:网络结构特征提取卷积

葛 雯,宫 婷,王 媛,胡爱玲

(沈阳航空航天大学电子信息工程学院,沈阳110136)

1 引 言

人类认知世界的的主要器官是眼睛,而眼睛给我们带来的信息是以图像信息为主的。大脑与眼睛合作使人们认知并感知世界。所以,计算机智能化的首要目标是能够对图像信息进行采集以及相关处理。目前,该项技术已经趋于成熟,被普遍应用于医疗、军事等领域。人工智能技术正处于发展的上升期,深度学习理论的应用已成为新兴热点方兴未艾。将深度学习模型应用于目标识别,与传统的方法相比,具有精度高、运算量小的优点,受到广泛采用,是目前业界的一个比较热门的话题。

传统的目标识别方法分为三个步骤:(1) 选出候选区域,即在原始图像上找到或者预测出目标可能存在的区域;(2) 区域特征提取,提取目标的特征以及与目标相关的主要信息;(3) 分类器分类,在上一步得到的特征信息基础上将目标进行分类。由此可见,此传统方法的弊端在于设计者需要思考如何进行特征提取,所以受限于设计者的经验与经历,如若提取的特征不全面或者有丢失的信息,将会严重影响最终识别结果的准确性。

在卷积神经网络受到广泛应用之前,DPM[1](Deformable Parts Model,可变形的组件模型)是一个非常成功的目标检测算法,连续获得VOC(Visual Object Class)2007、08、09年的检测冠军。DPM 可以看做是 HOG(Histogrrams of Oriented Gradients)特征和SVM(Surpport Vector Machine)分类器的合作,先计算梯度方向直方图,然后用SVM 训练得到物体的梯度模型。这样处理之后的模板就可以直接用来分类了,此法在一些检测任务上取得了非常理想的检测效果。

卷积神经网络[2](Convolutional Neural Network,CNN)最早源自于动物的神经元。每个动物神经元只负责处理一小块区域的视觉图像,称为感受野(Receptive Field),相当于CNN 卷积核的处理过程。此模型在许多目标识别中都获得了较好的结果。

目前在目标识别领域的算法主要分为两部分,一是传统的目标检测算法,二是基于深度学习的目标检测算法。基于深度学习的算法根据其具体的步骤分为基于候选区域的算法,例如R-CNN[3]、FastRCNN[4]、FPN、SPPNet[5]等,和基于回归的算法,YOLO、SSD[6]、YOLOv2 等。

2 Faster R-CNN

2014年,Girshick 等人提出的 R-CNN 算法首次在目标识别领域应用卷积神经网络,其取得的效果远远好于传统的识别算法。在这种基于候选区域的深度学习目标识别算法中产生候选区域时普遍应用的算法有Selective Search[7]和Edge Boxes[8],然后利用卷积神经网络提取特征向量,在特征提取方面,现在目标检测领域普遍采用卷积神经网络进行特征提取替代人工特征提取,再利用SVM 进行特征向量分类,经常用到的分类模型有Alex Net,VGG,Google Net,Res Net 等等。在效果上,R-CNN在PASCAL VOC 2007[9]上的检测结果平均精度接近 DPM 的 2 倍。

Region CNN(R-CNN)是利用深度学习进行目标识别检测的开始。作者Ross Girshick 多次在PASCAL VOC 的目标检测竞赛中夺冠,更带领团队获得终身成就奖。R-CNN 将CNN 算法与候选区域方法相结合,利用二者的优点,更优地实现了目标识别的问题。但是R-CNN 有一个缺点:它需要提取所有候选区域的特征,所以在计算上有许多重复。针对这一缺点提出了新的算法,即Fast R-CNN,它在R-CNN 的基础上加入了金字塔池化层,将边缘提取也采用神经网络的提取方式,在一定程度上减少了计算量。但是Fast R-CNN 采用选择性搜索的方式找出所有的候选框,也是十分耗费时间的。

Faster R-CNN 算法由任少卿等[10]提出,在目标检测领域取得了优异的成果,引来众多研究人员对其做进一步的研究与改进。该算法首先使用CNN 进行特征提取,然后在Fast R-CNN 的基础上,将获取候选区域的Selective search 方法改进为RPN 网络,得到候选区域,接着使用Softmax 多任务分类器进行后续的分类与回归步骤,具体流程图如图1所示。

图1 Faster R-CNN 流程图

图中主要步骤解释如下:

1) 特征提取网络

特征提取网络是可以根据实际需进行替换的卷积神经网络,训练数据的多少影响最终的性能与效果,其最常用的训练网络有ImageNet、ZF-Net 等等。ReLU 函数是使用较普遍的激活函数,定义如下式:

ReLU 函数由于梯度值恒为1 ,所以避免了梯度消失的现象,增快了收敛速度。

2) 候选区域生成网络

对待检测图像进行粗检,输出多种尺度和宽高比的矩形候选区域。针对每个基准矩形候选区域框输出4 个修正参数,修正之后可得到最终的候选区域框,给出基准矩形框公式如下:

3) 分类回归网络

以特征提取网络输出的特征图和候选区域生成网络输出的候选区域为输入,输出候选区域对应各类别的置信度和修正参数。

然而,该算法在实时性上还有所不足。

3 改进方法

3.1 候选区域生成与分类回归

在 Faster R-CNN 算法中,Faster R-CNN 网络需要对整体的输入图像进行特征提取,并对其进行候选区域的生成与分类。候选区域生成网络和分类回归网络共享同一个特征提取网络,特征提取网络输出的特征将不加区分地直接送到候选区域生成网络和分类回归网络中。候选区域生成主要区分背景与目标之间的差异;分类回归网络主要区分不同目标之间的特征差异。令二者共用同一个特征提取网络的输出作为输入,会对网络的性能造成一定程度的影响。

故此针对这一问题提出一种改进方法[11],针对Faster R-CNN 算法中候选区域生成网络和分类回归网络采用单独特征提取的网络结构进行研究,为候选区域生成网络和分类回归网络设置独立的特征提取网络,使候选区域生成网络学习的特征不会进入到分类回归网络中,进而提高网络性能。在训练过程中需要分为候选区域生成子网络和分类回归子网络两个子网络进行训练。其网络流程图如图2所示。

图2 改进后的网络流程图

3.2 金字塔RPN结构

目标经过摄像头会呈现出不同尺度的变化,为了使算法对小目标更加敏感,针对检测目标的多尺度问题,对RPN 网络进行了改进,提出RPN 金字塔结构[12],用以解决检测目标多尺度的问题。

RPN 网络输入特征提取网络生成的特征图,输出目标候选区域矩形框集合。原始的RPN 网络结构通过在输出的特征图上利用滑动窗口直接实现候选区域的提取,送入网络后续部分进一步实现目标的分类和候选区域位置框的回归,如图3所示。

图3 原始RPN 网络

候选区域生成网络的损失函数是一个多任务损失函数,定义如下:

式中,i 是基准框序号,pi,ti是基准框的预测置信度和预测修正参数是基准框的标签基准框则对应于目标标签框的修正参数,Lcls是预测置信度的损失函数,Lreg是修正参数的损失函数。修正后对应的计算公式是:

以上各等式分别表示目标标签框的中心横、纵坐标和宽、高度。本研究提出将RPN 网络结构的3×3 卷积核增加至3 种大小不同的卷积核进行遍历。因为对不同尺度的目标仅使用一种大小的感受野是不够精确的,利用三种不同大小的感受野就可以更加精确地识别目标了。

原始的RPN 网络结构在最后一层生成的特征图上使用3×3 大小的感受野进行窗口滑动,改进之后分别通过 5×5、3×3、1×1 三种不同大小的感受野进行窗口滑动之后融合得到候选框,再传输给后续网络进行分类回归。改进之后的RPN 网络结构如图4所示。这样的结构设计可以适用于目标的多尺度,从而更加鲁棒,可提高整个模型的检测能力。

图4 改进后的RPN 网络

4 实验验证

为验证改进算法的有效性,选用深度学习框架TensorFlow 作为实验平台,并在数据集VOC 07 上进行验证。该数据集包括20 种目标类别,一共有9963 张图片。设置学习率为0.001,衰减因子为0.1,进行迭代。整个网络的训练过程使用SGD 反向传播优化整个网络模型。在训练过程中,模型被分为候选区域生成子网络和分类回归子网络两部分,先初始化特征提取网络,然后对候选区域网络和分类回归网络进行标准差为0.01 的高斯分布随机初始化,最后再同时对二者进行调整。

实验复现了原始的Faster R-CNN 结构,实现了改进的独立特征提取网络和“金字塔RPN”结构,并给出模型监测的结果,如图5所示。不同模型的检测结果如表1所示。从表中可以看出经过改进的算法比传统Faster R-CNN 算法的准确率提升了2.8%左右。

图5 检测结果图

5 结束语

以Faster RCNN 为基础,提出了改进的FasterRCNN 算法。对候选区域生成网络和分类回归网络采用单独特征提取网络的情况进行研究并实现了相应的改进算法。针对目标尺寸偏小,首先对anchor的大小进行了调整;进一步对RPN 网络结构进行了改进,提出了一种“金字塔RPN”网络结构。最终在检测数据集VOC 07 上对算法进行验证。在深度学习的基础上,目标识别的准确率已经有了显著提高,但是由于目标识别与神经网络所涉及的知识十分宽泛,所以还有很大的研究空间。比如可发挥传统算法中的优点,使之有针对性地与深度学习结合起来,进一步提高算法的准确率,甚至还可使用多GPU 并行训练网络。

表1 模型检测精确度对比表

猜你喜欢
网络结构特征提取卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
快递网络结构研究进展
空间目标的ISAR成像及轮廓特征提取
基于AutoML的保护区物种识别①
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
从滤波器理解卷积
微动目标雷达特征提取、成像与识别研究进展
基于傅里叶域卷积表示的目标跟踪算法