基于动态视觉传感器成像的行人检测算法研究∗

2021-08-08 11:14童晓斌范平清
计算机与数字工程 2021年7期
关键词:卷积动态传感器

童晓斌 范平清

(上海工程技术大学机械与汽车工程学院 上海201620)

1 引言

传统相机以矩阵形式存储及处理图像信息。这是一种简单通用的图像存储格式,但对于实际中的图像处理而言可能并不理想。因为原始的视频数据对于实时存储,传输及后端处理而言相当巨大。综合图像采集及处理系统必须由功能强大的计算机或是昂贵的专业协同处理设备支持。

瑞士苏黎世联邦理工学院的Jörg Kramer教授发明了第一个动态视觉传感器(DVS)[1]。动态视觉传感器模仿生物视觉的工作机理,像素异步工作,仅输出光强发生变化像素的地址和信息,而不是被动依次读出“帧”内每个像素信息[2]。这从源头上消除了冗余数据,还可以将目标从背景中分离开,减少图像传感器输出的数据量。因此大大降低了对后端处理能力的要求,而相关的算法的实现也就相对容易。这使实际应用过程中不需要非常大的存储单元,也不需要运算能力非常强的处理器,使算法可以在各种嵌入式终端上快速实现。同时,DVS还具有高帧频、大动态范围等特点,非常适合高速运动的场景。由于动态视觉传感器生成的图片与传统的CCD、CMOS图像传感器生成的图片有很大的不同,其图像处理算法需要有针对性的改进,才能充分发挥动态视觉传感器的优势。

2 改进的MobileNet-YOLOv3算法

2.1 目标检测算法

传统的目标检测方法通常采用特征工程结合分类器的方法。首先使用算子(如HOG、SHIFT、Haar)提取特征,然后选择合适的分类器(如SVM、Adaboosting)依据特征进行分类,得到目标检测结果[3]。但是传统方法存在两个致命缺点:1)手工设计的特征缺乏鲁棒性;2)算子选择依赖于大量人工经验[4]。

基于深度学习的目标检测方法主要有两类:一类是将检测算法分两步实现,分别是生成建议框和分类,典型代表有Fast R-CNN系列[5],其检测效果较佳,但是在速度方面还远不能满足实时检测需求。另一类是端到端的检测算法,使用回归思想,典型代表有YOLO系列[6]、SSD[7]。然而此类大型的网络参数多、计算量大、生成模型大,还是难以移植到计算能力及存储空间有限的嵌入式终端应用。

目前,优化卷积神经网络降低其运行所需条件的方法主要有以下四类:一是采用手工方式设计高效 的 精 细 模 块,典 型 代 表 有SqueezeNet[8]、Mo⁃bileNet系列[9]、Inception系列[10]。二是通过网络剪枝与稀疏化,去除模型中冗余的参数,减少计算量[11]。三是使用知识迁移[12],通过训练好的教师网络得到学生网络,完成网络的压缩与加速。四是张量分解,张量分解的思想即是将原始张量分解为若干低秩张量,有助于减少卷积操作数量,加速网络运行过程[13]。

2.2 MobileNet-YOLOv3算法

MobileNet是一种基于深度可分离卷积的模型。标准卷积一步完成从输入到输出的运算,所需算力较大。而深度可分离卷积是将标准卷积分解成两步,分别是深度卷积和1×1的逐点卷积。Mo⁃bileNet先用深度卷积对每一个输入通道分别进行滤波,然后使用逐点卷积来结合所有深度卷积得到的输出[14]。这种分解能够有效地减少计算量以及模型的大小。其压缩率为

如图1所示,一个标准的卷积被分解成深度卷积以及1×1的逐点卷积。DK为卷积核大小,N为输入通道数,M为输出通道数。

图1 MobileNet原理示意图

MobileNet-YOLOv3(下 文 简 写 为MY3)是Github上的一个开源项目。在计算量,存储空间和准确率方面取得了非常不错的平衡。Mo⁃bileNet-YOLOv3-lite(下文简写为MYL3)是项目提供的对MobileNe-YOLOv3精简后的网络。

2.3 Mobilenet-YOLOv3算法的改进

动态视觉传感器仅有发生事件(光照强度变化)的单元对外输出信号,无事件发生的单元不对外输出。所以,DVS对运动物体非常敏感而与其相对静止的物体则不会成像。如图2所示,在静态采集图片时,像地面、建筑等不会运动的背景信息都被很好地过滤掉了。其次,DVS输出的是每个发生事件的单元的亮度信息,所以它的成像是没有颜色信息,但又与普通的灰度图像不同,具有清晰的轮廓信息,纹理信息较少。

图2 行人图片

显而易见,该图像比彩色图像、普通灰度图像具有更少更突出的特征与信息。所以,对网络的改进方法提出了两个猜想。第一,网络更容易从该类图像中学习到有用的特征,可以采用更浅的网络。第二,使用单通道训练,并减少一部分训练过程中的图像变换,如图像对比度、饱和度等,不会降低算法的检测效果。

然而,该类图像只有较少的可用特征,可能导致算法的检测效果不如在普通图像上好。为此,加入了ResNet结构。

ResNet[15]的设计思想是使某一层网络的输出直接输入到后面相隔几层的网络中。信息在卷积网络或者全连接网络中传递的时候,或多或少会有一定的损失。ResNet通过将原始的数据与经过卷积的数据融合,使信息得到更加充分的利用,包括在前向传播时提供特征重用,在反向传播时缓解梯度信号消失。ResNet的结构如图3中的RES单元所示。

基于以上总体设计原则,最终得到的改进算法MobileNe-YOLOv3-ResNet(下文简写为MYR3)的结构如图3所示。

图3 MobileNet-YOLOv3-ResNet的结构图

3 实验与分析

3.1 基于动态视觉传感器的行人数据集

在目标检测问题中,训练数据集的选择和原始图像的标签制作是两个至关重要的步骤,原始图像标签的准确性直接影响训练效果和测试的准确性[16]。由于此类摄像头还未普及,所以需要自行采集、标注数据集。本文采集数据使用的是芯仑光电动态图像传感器。本数据集一部分是在行车测试中采集的,另一部分则是在学校出入口、小区出入口、商场出入口等人流量比较大的地方定点采集的。数据集图像像素为1080*800共包含2400张行人图片,其中360张为测试集。手工标注图像,并生成lmdb文件。

3.2 实验环境配置与测试指标

在Ubuntu 16.04操作系统下进行实验。为了提高计算速度、减少训练时间,使用Nvidia GeForce GTX2080 Ti显 卡、CUDA10.2和cuDNN7.1,调 用GPU进行加速。

本文用四个指标来衡量网络的优劣:FLOPs、Recall、Precision、AP。

FLOPs在CNN中用来指浮点运算次数,即实现该算法所需的算力。查全率(Recall)是测试集中所有正样本样例中,被正确识别为正样本的比例。查准率(Precision)是在识别出来的图片中,被正确识别为正样本的比例。

其计算公式为

其中,TP、FN和FP分别为真正例、假反例和假正例的数量。

AP即平均精度。本文使用的是11-point inter⁃polation的方法。设 定一组recall阈 值,[0,0.1,0.2,…,1]。recall分别处于某个阈值时,各求得一个对应的最大precision,共计11个。AP即为这11个precision的平均值。

3.3 实验结果与分析

训练过程中,对算法的平均损失指标进行动态记录,随着迭代次数的不断增加,变化趋势如图4所示。

图4 训练损失对比曲线

损失值体现了算法在训练集上的验证效果。损失值越大即算法在训练集上的检测结果与标注结果差别越大,即算法的性能越差。观察图4,可以发现MYR3的训练损失下降速度远快于MY3、MYL3、MobileNe-YOLOv3-Single(仅将三通道训练改为单通道训练,下文简写为MYS3)。且其最终的损 失 值 也 远 小 于MY3、MYL3、MYS3。MY3与MYS3的损失下降速度,和最终值都要好于MYL3。

用训练好的网络在测试集上进行测试,得到测试效果如图5所示。

图5 检测效果对比图

记录各项测试指标的值,制成表格如下

表1 测试结果对比

以上的Precision值与Recall值是在置信度为0.5的情况下检测所得。显而易见,改进的MYR3在四项指标上都要明显好于MY3、MYL3、MYS3。其中MYR3的Flops仅为原算法的19.7%。在性能上,查全率提高了8%,平均精度提高了4.8%。除了MYL3的查准率略差一筹,另外的算法在查准率一项差别不大。

结合图4中MY3与MYR3的损失下降趋势与结果差别不大。可见,在该类图像上使用单通道训练,能大大地降低算法的所需算力,而对算法的检测效果并无明显差异。

4 结语

现在的深度学习算法基本上都是在彩色图或灰度图上训练与识别。其优势是包含信息丰富,物与人的特征较多。然而,这使得算法需要更深更庞大的网络来达到一个满意的效果。本文基于动态视觉传感器的成像特点,研究了在特征信息少而突出图片上的深度学习算法。首先,对MobileNe-YOLOv3算法进行剪枝。其次,加入ResNet结构,得到了改进的算法MobileNe-YOLOv3-ResNet。然后,将MobileNe-YOLOv3-ResNet、MobileNe-YO⁃LOv3-Single与 原 本 的MobileNe-YOLOv3、Mo⁃bileNet-YOLOv3-lite在自主采集的行人数据集上训练、检测。通过对结果的分析,证明Mo⁃bileNe-YOLOv3-ResNet大大减少了算法所需的计算量,并对算法检测效果有一定的提升。由此可见,此类特殊成像的相机与相应的算法结合,有利于深度学习算法在算力有限的嵌入式终端快速实现。

猜你喜欢
卷积动态传感器
基于全卷积神经网络的猪背膘厚快速准确测定
制作二氧化碳传感器
国内动态
基于FPGA的卷积神经网络加速优化方法
国内动态
基于图像处理与卷积神经网络的零件识别
国内动态
舰船测风传感器安装位置数值仿真
氧传感器的基本检测
基于深度卷积网络与空洞卷积融合的人群计数