王少韩,刘淼
(201620 上海市 上海工程技术大学 机械与汽车工程学院)
图像识别在无人机、医学、自动驾驶等许多热门领域有着广泛的运用。在一些复杂场景,深度学习有非常好的性能。卷积神经网络近十年飞速发展,逐渐成为主流算法。在实时监控方面,YOLO[1-2]算法是应用最广的算法之一,有良好的准确率。YOLO 自发布以来,版本已经到了第5 代。本文使用的Tiny-YOLOv3[3]是YOLOv3 版本的改进版,其模型相对较小,检测速度也有较大提升,然而它在计算能力较低设备上的性能表现不是特别好,所以引进了SqueezeNet[4]中的Fire 模块,并用紧密连接链接,将网络部分卷积层改成Fire 模块,从而压缩了模型和加快了检测速度。
本文主要介绍了改进版的Tiny-YOLOv3 的网络结构,在自建的测试数据集上获得了实验结果,得到了几个改进的Tiny-YOLOv3 模型的主要衡量指标,并与原模型以及其他模型进行了比较,并得出实验结论。
YOLOv3 是 YOLO 的第3 版,借鉴了 ResNet[5]、RetinaNet[6]、SSD[7]等网络的结构和做法,如多尺度融合预测,进一步提高了速度和准确率,特别是在检测小目标方面有了比较显著的提高。YOLOv3的网络结构如图1 所示。可将该网络分成2 部分:特征提取部分和预测部分。特征提取部分为Darknet53,YOLOv3 网络为全卷积(没有池化层,通过调整卷积的步长进行下采样);预测部分,共有3 层输出,分别是13 ×13 × 255,26 ×26 ×255,52 ×52 ×255。
图1 YOLOv3 的网络结构Fig.1 Network structure of YOLOv3
YOLOv3 的3 个基本组件:
(1)CBL:是YOLOv3 网络结构中的最小组件,由Conv+Bn+Leaky_relu 激活函数三者组成。
(2)Res unit:借鉴Resnet 网络中的残差结构,让网络可以构建得更深。
(3)ResX:由1 个CBL 和X 个残差组件构成,是YOLOv3 中的大组件。每个Res 模块前面的CBL都起到下采样的作用。
YOLOv3 主要的改进有:调整了网络结构;利用多尺度特征进行对象检测;识别对象分类用logistic 取代了softmax;借鉴了残差网络等。v3 版本主要是对小目标检测进行了性能提升。
Tiny-YOLOv3 是一个轻量级的算法,它本身 是YOLO算法v3 版本的改进,但随着识别任务的复杂程度及难度越来越大,Tiny-YOLOv3 逐渐不太适合计算能力比较差的设备。从图 2 网络结构可以看出,它由主要是用于图像特征提取的7 个卷积层和6 个 maxpool层组成,网络结构非常小,可以获得2 个不同尺度的特征图,从而确保大小物体的检测准确率。Tiny-YOLOv3 为保证准确率,使用了含有512 和 1 024 个卷积核的多个卷积层,而卷积核过多,会造成进行深度学习时所需的参数较多,使得存储也比较大,因此检测速度受到很大限制,但比v3 版本的物体识别速度快。
图2 Tiny-YOLOv3 的网络结构Fig.2 Network structure of Tiny-YOLOv3
Tiny-YOLOv3 使用许多带有很多参数的卷积层,这导致在受限环境中大量参数、大量存储会极大地限制检测速度。Tiny-YOLOv3 的另一个问题是检测精度不是很高,这主要是网络中不合理的数据压缩方法导致的。为解决此类问题,本文使用了改进版的Tiny-YOLOv3 的网络结构,具体网络结构如图3 所示。该算法模型引入了Fire 模块实现网络参数压缩,同时,为提升模型性能,利用紧密连接将Fire 模块链接在一起,对原网络结构的其他部分未做改动。
图3 改进算法的网络结构Fig.3 Network structure of improved algorithm
卷积层如果全被Fire 模块代替,检测效率就会下降;如果保留具有少于256 个卷积核的少量卷积层,而不是由Fire 模块代替,准确率将增加5%左右,模型大小仅增加2 MB。因此对Tiny-YOLOv3 网络的部分卷积层用Fire 模块代替。
为了更有效地使用Fire 模块,其嵌入位置要合理。改进的Tiny-YOLOv3 网络结构共引入8 个Fire 模块,用5 个Fire 模块取代原网络中第6 和第7 卷积层。第1 个输出层之前的一个卷积层被替换为Fire 模块,第7 和第8 个Fire 模块也被Fire 模块代替。这样的改进可以极大减少参数,但网络的深度和宽度并没有很大改变,特征提取也没有变弱。
引入Fire 模块不仅减少了数据模型,并且加深了网络。Fire 模块由2 部分组成:压缩数据部分的1×1 的卷积层和数据扩展部分的1×1 和3×3的卷积层的组合。1×1 的卷积层是一种十分有效减少参数个数的方法,并且1×1 的卷积层只有1个参数需要训练和学习,检测精度不会降低很多。图4 是Fire 模块的网络结构。
图4 Fire 模块的网络结构Fig.4 Network structure of Fire module
由于加入了Fire 模块,特征提取比较弱,为了加强特征提取,在Fire 模块之间使用了紧密连接。简单地讲,在Fire 模块中,每一层的输入是前几层的所有输出,这样的做法可以极大地保证特征提取和火灾识别准确率。Fire 模块之间的紧密连接如图5 所示。
图5 改进Tiny-YOLOv3 之间的紧密连接Fig.5 Tight connection improve between Tiny-YOLOv3
当特征图的尺寸较大时,使用紧密连接会使计算量变大,实时性会受到很大影响。因此测试了3 个不同类型密集连接的网络实时性能,如表1 所示,本文使用的密集连接方式具有最佳的实时性。
表1 不同类型的紧密连接实时性能Tab.1 Real-time performance of different types of tight connections
软件环境为Win10 系统,Python3.7.2,深度学习框架为tensorflow。CPU 为i7-9750H,显卡为GTX1650,内存是16 GB。
Pascal VOC 和 COCO 数据集主要是用来进行训练和验证,并得出权重,最后利用迁移学习将训练好的权重应用在改进的算法上,并用自建的火灾图像测试数据集进行训练,最后得出性能指标并进行检测。
前2 个数据集应用比较广泛,特别是在人工智能领域。Pascal VOC 的数据集包括PASCAL VOC 2007 和 Pascal VOC 2012 等。有 20 种物体,3 万张图片左右。当计算 AP 值和 mAP 时,默认值 0.5 用于(IOU)。COCO 的数据集比 Pascal VOC 更难训练。对于目标检测算法,模型的性能通常更倾向于COCO。COCO 中有 80 个物品类别,每张图像中包含的目标数量是 Pascal VOC 的 3 倍。
而本实验中用到的数据集是通过自己网上扒取的400 张火灾照片,并加入了30 张非火灾图像,这样做是为了使模型的性能更加优越。
在对数据集进行训练之前,首先将 Darknet53加载到改进版的 Tiny-YOLOv3 中,得到一个预训练的网络模型,然后通过预训练模型对数据集训练,得到最优的模型和权重,最后进行检测。检测结果如图6 所示。
图6 火灾图片的检测结果Fig.6 Detection results of fire pictures
从图7 数据训练的损失曲线可以看出,2 种模型随着训练迭代次数的增加,损失稳定在一个数值,并上下波动;从图7 还可以看出,改进的模型在损失方面有着明显的优势。
图7 数据训练的损失曲线Fig.7 Loss curve of data training
BFLOP/s 通常用来衡量模型所需的计算能力。BFLOP/s 越大,对器件的要求就越高。由表 2 可知,改进 Tiny-YOLOv3 的 BFLOP/s 只有 2.643,约等于Tiny-YOLOv3 的一半,适用范围更广。改进 Tiny-YOLOv3 的模型尺寸几乎为原算法的1/4。
表2 不同模型的性能比较Tab.2 Performance comparison of different models
实时性的重要参考标准是FPS 和平均检测时间,其中FPS 值越大越好,检测时间越小越好。具体数值见表3,从表3可见,改进的模型性能更优。
表3 算法实时性能比较Tab.3 Real-time performance comparison of algorithms
通常使用mAP 来衡量检测精度。该检测精度也是在测试数据集上的表现,Tiny-YOLOv3 的mAP 值为 61.3,而改进版的Tiny-YOLOv3 的mAP值为65.7,从数据上看改进的算法精度提升了。
本文使用了一种运行于计算能力较差的设备中的实用算法——改进Tiny-YOLOv3。为了缩小模型尺寸,将Tiny-YOLOv3 中的部分卷积层用Fire 模块替换,这样的改进不但使网络结构变小,并且使算法的深度增加。然后,讨论了Tiny-YOLOv3 中Fire 模块之间的连接方法,即通过DenseNet 中密集连接实现;同时讨论了不同的紧密连接方式,获得了最优方式。Tiny-YOLOv3 中密集连接有助于增强检测准确性和实时性,因为可以增强特征传播并确保网络中的最大信息流。在测试数据集上进行的实验和检测表明,改进Tiny-YOLOv3 比Tiny-YOLOv3 更有效。并且改进Tiny-YOLOv3 在损失曲线、模型大小、BFLOP/s、FPS 和mAP 值等方面也显示出竞争优势。通过这些性能指标也可以证明改进Tiny-YOLOv3在计算能力受限的设备中可以很好地应用。