基于SSD的多特征刑侦场景识别

2018-10-08 06:07:32姚红革白小军杨浩琪
西安邮电大学学报 2018年4期
关键词:置信度卷积样本

姚红革,白小军,2,杨浩琪

(1.西安工业大学计算机科学与工程学院,西安710021; 2.电子信息现场勘验应用技术公安部重点实验室,西安710121)

目标检测已经成为计算机视觉领域重要的研究方向和研究热点[1],可应用于无人驾驶、机器人、视频监控、行人检测、海面舰船检测等领域[2-4]。在深度学习出现以前,目标检测方法主要是根据一定的先验知识,通过建立某种数学模型来完成,常用方法有 Hough 变换[5]、帧差法[6]、背景减除法[7]、光流法[8]、滑动窗口模型[9]、可变形部件模型[10]等。具体地说,前四种方法主要采用特征加数学模型的模式,利用数据某种特性的特征来建立数学模型,求解模型得到目标检测的结果;后两种方法则主要采用特征提取加分类的模式,利用手工设计特征( 如 SHIFT[11]、HOG[12]、Haar[13])并结合分类器(如SVM[14]、Adaboost[15]),根据特征进行分类得到目标检测结果。近年来,深度学习技术的出现革新了目标检测的模式,提升了目标检测的精度和鲁棒性。基于深度学习的目标检测模型,由于深度神经网络能够自主学习不同层级的特征,相比于传统手工设计特征,学习的特征更丰富,特征表达能力更强[16]。

目前,基于深度学习的目标检测方法主要分为基于区域候选的模型和基于回归的模型。基于区域候选的目标检测模型依赖于区域候选的思想,首先对检测区域提取候选区域,为后续特征提取和分类做准备,典型代表为 Regions with Convolutional Neural Network Features (R-CNN)[17]、 Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition(SPPnet)[18]、Fast R-CNN[19]、Faster R-CNN(Towards Real-Time Object Detection with Region Proposal Networks)[20]、R-FCN(Object Detection via Region-based Fully Convolutional Networks)[21]。基于回归的目标检测模型则依赖回归思想,需要预先划定默认框,建立起预测框、默认框、groundtruth物体框三者之间的关系以进行训练,即损失函数的确定,典型代表为YOLO(You Only Look Once: Unified, Real-Time Object Detection)[22]、 SSD (Single Shot MultiBox Detector)[23]。在上述几种算法中,SSD的检测性能相对更好,同时具有可实时、准确度高两个优点[23]。

通常情况下,刑侦场景图像中目标有具有一些很显著的特征。一方面,由于刑侦场景图像中目标的快速运动和天气的影响,如雾霾天,或是远距离拍摄,导致刑侦图像出现模糊的情况;另一方面,刑侦图像中目标小、种类多而杂、环境复杂,例如多人、多鞋印、轮胎印、与泥土混合的血迹等。这些均可造成刑侦图像难识别。本文将基于深度学习的SSD目标检测方法应用于刑侦场景,主要用于在刑侦场景下的模糊场景及模糊目标、小目标进行目标检测。

1 SSD目标检测

SSD是一种单层检测深度神经网络,同时结合YOLO的回归思想和Faster R-CNN的anchors机制。采用回归的思想可以简化神经网络的计算复杂度,提高算法的实时性;采用anchors机制可以提高不同高宽比尺寸的特征,同时,这种局部特征提取的方法在识别方面,相比于YOLO针对某一位置进行全局特征提取的方法更合理,更有效。另外,SSD针对目标特征提取的方法,该设计有助于提升检测不同尺度目标的鲁棒性。

1.1 SSD 模型

SSD的框架主要分为两部分,一部分是位于前端的深度卷积神经网络,采用去除分类层的图像分类网络,如VGG,用于目标初步特征提取;另一部分是位于后端的多尺度特征检测网络,是一组级联的卷积神经网络,将前端网络产生的特征层进行不同尺度条件下的特征提取。SSD框架如图1所示。

图1 SSD网络结构

1.2 特征图默认框

SSD利用多尺度的方法得到多尺度的特征图,然后用多尺度的特征图来进行目标检测。假设模型检测时采用m层特征图,则第k个特征图的默认框的比例为[23]:

式中:Smin表示特征层默认框占输入图像的最小比例,一般取0.2;Smax表示特征层默认框占输入图像的最大比例,一般取0.9。同时,SSD采用了Faster R-CNN中的anchor机制,对于一个特征层中的默认框采用不同的高宽比,增强对不同形状的物体的检测效果,增强鲁棒性。本文采用5种高宽比

SSD在训练的同时对位置和目标种类进行回归,其目标损失函数 L(x,c,l,g)是置信损失之和[23],即为

其中N是与ground truth物体框匹配的默认框的个数,Lconf(x,c)为置信损失函数,Lloc(x,l,g)是位置损失函数,x为默认框与不同类别的ground truth物体框的匹配结果,c为预测物体框的置信度,l为预测物体框的位置信息,g为ground truth物体框的位置信息;α为权衡置信损失和位置损失的参数,一般为1。

在目标损失函数中同时包含置信损失和位置损失,在训练中,通过减少损失函数的函数值可以确保在提升预测框类别置信度的同时也提高预测框的位置可信度,而用于数据集训练,通过多次结果的反馈,不断提高模型的目标检测能力,从而训练出更加优秀的预测模型。

2 SSD方法与刑侦图像特征的结合

2.1 SSD 模型

SSD基于一个正向传播的卷积神经网络,作为基础网络,用于图像分类的标准架构。基础网络生成9个大小固定的边界框和每一个边界框中包含目标的可能性,即边界框得分(score)。进一步采用非极大值抑制(Non-maximum suppression)方法得到得分最高的预测结果。在基础网络之后,SSD添加了额外辅助的网络结构。

2.1.1 用于检测的多尺度特征图

在基础网络结构之后,添加了额外的卷积层,卷积层的大小逐层递减,产生多尺度的特征图,使提取的信息有更全面的特征。主要表现在两个方面,其一是在产生低级特征图时,使用小型卷积核,主要提取出小目标的特征,用于小目标识别;其二是在对模糊图像提取特征时,采取逐层提取,特征信息提取全面,有助于模糊图像的后期识别。基于这样的特点,在解决刑侦特征图片的小目标识别和模糊目标识别的问题时具有优势。2.1.2 用于检测的卷积预测

每一个添加的特征层,可以使用一系列的卷积过滤器去产生一系列固定大小的预测框。对于大小为m×n,具有p通道的特征层,使用的卷积过滤器就是3×3×p的卷积核。产生的预测框就有一个归属类别的得分。同时默认框坐标的图形偏移值在每一个m×n的特征图位置上,使用上述3×3卷积核运算,产生一个输出值,回归框偏移值就是输出的默认框与特征图位置之间的相对距离。

2.1.3 默认框和高宽比

每一个框相对于与其对应的特征图像素格的位置是固定的。在每一个特征图像素格中,需要预测默认框与得到的框之间的偏移值,以及每一个框中包含的物体的得分。因此,对于每一个位置上的k个框中的每一个框,都需要计算出c个类别的概率,即每个类别的得分,同时计算出框相对于默认框的四个偏移值。在每一个特征图中的每一个特征图像素格上,都需要计算(c+4)×k个框的结果。所以,对于一个 m×n大小的特征图,将会产生(c+4)×k×m×n个输出结果。

2.2 训练阶段

在训练时,SSD训练图像中的ground truth需要赋予到那些固定输出的框上,而非传统的区域建议法和池化法。当这种将训练图像中的ground truth与固定输出的框对应之后,就可以实现端到端损失函数的计算和网络反向的计算,以及参数更新。

2.2.1 匹配策略

首先,用MultiBox中的最佳jaccard重叠方法来匹配每一个ground truth框与默认框,这样能保证每一个ground truth框与唯一的一个默认框对应起来。与最佳jaccard重叠方法不同,SSD之后是将default box与任意的ground truth配对,只要二者的重叠大于一个阈值,就进行选择,SSD中阈值一般为0.5。

2.2.2 训练目标函数

SSD训练的目标函数源于MultiBox的目标函数,但是,SSD将其扩展,使其可以处理多个目标类别,用于识别刑侦现场的多个线索,其表达式如式(4)所示。用=1表示第i个默认框与类别p的第j个ground truth框相匹配,若不匹配,则取=0。

2.2.3 负样本与难负样本生成

经过以上步骤产生预测结果之后,会生成多个接近 ground truth框的 proposal框,但是,不符合ground truth框的proposal框也有很多,前者为正样本,后者为负样本,且样本框中一般正样本的数量小于负样本的数量,这会造成正负样本之间的不平衡,训练难以收敛。出现不符合proposal框的情况多数是在具有模糊目标的图像中。因此,SSD对每个锚点对应的负样本框进行排序,按照样本框的置信度进行排序,选择置信度较高的样本框,将样本的正负比例保持在3∶1。通过实验发现,这样的比例可以更快的优化,训练也更稳定。

另外,对低置信度的负样本框也提取出等量的数量,即与正样本的比率也为3∶1的量来收集,用于训练。这部分样本属于模糊度较高,且与ground truth匹配度比较低的“难负样本”,用于进行训练可以增加网络对模糊图像的适应能力,从而提高对小目标和模糊目标的识别能力。

2.2.4 数据增广

SSD中对训练数据做了数据增广,对训练图像依次随机进行如下3种操作,即①不采用变换,直接使用;②采样一个patch,与物体之间最小的jaccard重叠分别为 0.1,0.3,0.5,0.7,0.9;③随机的采样一个patch。采样的patch与原始图像大小比例为[0.1,1],高宽比在0.5和 2之间。当 ground truth的中心在采样的patch中时,保留重叠部分。采样之后进行大小调整,使得所有的样本大小固定,并且以0.5的概率进行水平翻转。

2.3 训练数据

将原始图像通过手工标注的方式生成训练标签,训练标签中包括当前标签序号、图像的名称、图像目标的类型、目标框的坐标信息。图像的名称需要命名为“00xxxx.jpg”的格式,图像目标类型设定为“jiaoyin”、“zhiwen”、“xueji”、“chehuoxianchang”等,目标框的坐标信息包括左上角坐标和目标框的宽度和高度。

完成训练数据的准备后,将其输入网络进行黑盒训练,训练完成后即可进行图像检测。

3 实验结果与分析

在实际的物体检测中,分类的正确性由预测框的置信度进行衡量,定位的准确性由预测框的坐标信息进行衡量。从物体检测的结果来看,一个好的物体检测算法检测出的目标应该具有尽量高的置信度,同时具备尽量高的准确率和召回率。本文选取对刑侦作用较大的场景图片(如鞋印和车祸现场)、小目标图片(如指纹)和渗透性目标图片(如血迹)进行实验,以检验算法的有效性。

将预先处理好的大量的邢侦案件现场图像输入SSD网络进行训练后,SSD网络具备了识别邢侦案件现场的能力,再将需要进行识别的邢侦案件现场图像输入网络,其识别结果如图2所示。图2(a)、(b)、(c)分别为小目标图像,其中(a)、(b)是SSD对刑侦现场脚印的识别结果,(c)为SSD对指纹的检测结果;图2(d)、(e)、(f)分别为大目标图像,其中(d)为SSD对车祸现场的检测结果,对现场遗留线索的检测;(e)、(f)为SSD对血液的检测结果。

图2 SD对刑侦图像检测结果

在图2实验的目标检测结果中,SSD网络对脚印识别的准确率(mean average precision,mAP)达到94%,对指纹识别的准确率达到96%,对车辆识别的准确率达到97%,对血迹识别的准确率达到95%。

使用Faster R-CNN与SSD进行对比实验,实验对比结果如表1所示。表1显示SSD识别速度相较于Faster R-CNN有提升明显,并且识别的精度很接近Faster R-CNN。验证了SSD检测目标速度快,检测精度高的优点。

表1 方法性能比较

4 结语

针对刑侦场景图像中目标有具有小目标及模糊等很显著的特征,本文将基于SSD成功用于刑侦图像的目标检测。实验测试结果表明,对于模糊的大目标和小目标,本文的方法均取得了很好检测效果。并且,有相关方法性能比较可知,SSD确实具有明显的优势,接近Faster R-CNN的检测精度,检测速度是Faster R-CNN近6倍。因此,通过对多尺度特征图的使用,提升了网络的检测速度和检测精度。本文方法能够应用于刑事案件场景中模糊场景及模糊目标、小目标进行识别标记,为刑侦人员防止出现目标遗漏以及提高破案的速度具有一定的实际应用价值。

猜你喜欢
置信度卷积样本
硼铝复合材料硼含量置信度临界安全分析研究
基于3D-Winograd的快速卷积算法设计及FPGA实现
用样本估计总体复习点拨
从滤波器理解卷积
电子制作(2019年11期)2019-07-04 00:34:38
推动医改的“直销样本”
正负关联规则两级置信度阈值设置方法
计算机应用(2018年5期)2018-07-25 07:41:26
基于傅里叶域卷积表示的目标跟踪算法
随机微分方程的样本Lyapunov二次型估计
村企共赢的样本
置信度条件下轴承寿命的可靠度分析
轴承(2015年2期)2015-07-25 03:51:04