嵌入DenseNet结构和空洞卷积模块的改进YOLO v3火灾检测算法

2020-06-24 08:51魏晶晶

天津大学学报(自然科学与工程技术版) 2020年9期

张为，魏晶晶

张为，魏晶晶

(天津大学微电子学院，天津 300072)

为解决现有火灾检测算法无法同时满足高检测率、低误报率以及高实时性的检测需求的问题，提出了一种基于卷积神经网络的改进YOLO v3目标检测算法，通过深度卷积神经网络自动提取火焰特征对全图进行多尺度特征图预测. 首先，针对网络公开火灾数据集数量较少、场景种类受限、火焰尺度单一等问题，自建了一个包含13573张火灾图片的火灾数据集用于对模型进行训练和测试，其中训练集图片10014张，测试集图片3559张. 接着，为了提升网络对于多尺度目标(尤其是小尺度目标)火焰的特征提取效果，通过在原YOLO v3的特征提取网络Darknet-53中嵌入空洞卷积模块以充分利用上下文信息，扩增感受野的同时保证不丢失特征图的分辨率. 此外，在特征提取网络中加入DenseNet密集型连接网络结构单元，以增强特征复用，同时缓解深度卷积神经网络在特征传播过程中的梯度消失问题. 该改进的特征提取网络相比原网络层数进一步加深，网络参数量显著减少. 结合火灾检测任务需求实际，简化了损失函数，加快了网络的收敛速度. 实验结果表明：该算法检测速度快，检测精度高，不仅能够实时检测大尺度火焰，对于火灾发生初期的小尺度火焰也同样检测灵敏，其检测速度可达26.0帧/s，精确率可达97%，且在多种复杂光照环境下均能良好地抑制误报.

目标检测；火灾检测；空洞卷积；实时检测

火灾严重威胁人民的生命财产安全，因此及时准确地检测到火灾发生并发出预警具有重要的研究意义．传统的火灾检测方法多是基于感温、感烟等火灾传感器，但这种方法过度依赖于温度、烟雾颗粒浓度等火灾参数，对于检测距离要求苛刻，可检测的空间范围有限．近些年来，基于视频监控平台的火灾检测方法由于其检测范围广、检测速度快且受环境干扰小等优点，备受研究人员青睐．一些学者尝试使用一些手工选取的特征来对火焰本质加以描述，或是结合浅层机器学习模型进行进一步的训练和分类[1-5]．但人工选取的特征依赖于人力和专家的专业知识，这种特征选择方法不利于推广，已逐渐被使用神经网络自动提取特征的方法取代[6]．

日本学者Okayama[7]把人工神经网络(artificial neural network，ANN)和模糊逻辑应用于火灾的早期识别，该方法检测速度较快且内存占用较小．Frizzi等[8]搭建了一个9层卷积神经网络从训练数据集中自动学习特征，该网络可以获得较高的分类准确率．Maksymiv等[9]将AdaBoost(adaptive boosting)和LBP(local binary patten)相结合来提取火焰ROI(region of interest)并将其输入到6层卷积神经网络中，该算法具有较高的召回率，漏报率较低．然而，浅层神经网络可学习到的特征仍然有限，其检测到的往往只是一些表层特征，模型的表达能力不足．

当前，基于深度卷积神经网络的目标检测算法蓬勃发展，深层次神经网络可学习更复杂的特征，以进一步增强模型对现实的表达能力．其主要分为基于回归的单阶段(one stage)目标检测方法和基于区域的双阶段(two stage)目标检测方法．单阶段检测中具有代表性的检测框架有YOLO(you only look once)[10-12]系列、SSD(single shot multibox detec-tor)[13]、RetinaNet[14]等，双阶段检测中以R-CNN[15-17]系列为代表，目前使用最广泛的是Faster R-CNN[17]框架．Shen等[18]使用简化的YOLO v1[10]网络进行火灾识别和定位，该算法检测速度快，但易受车灯等物体干扰，且定位不准．Kim等[19]采用Faster R-CNN算法来检测火灾，但检测耗时较久．

火灾检测任务对于算法实时性有着极为严格的要求，考虑到YOLO系列是当前目标检测领域速度最快的框架之一，同时最新的YOLO v3[12]实现了检测速度与精度上的折中，在满足实时性的同时，可以高精度检测不同尺度的目标，故本文基于YOLO v3模型并在其基础上结合火灾检测应用实际做出的贡献如下：

(1) 通过大量采集火灾图片，自建了一个包含近14000张火灾图片的火灾数据集，其中包括网络公开火灾数据集、实际火灾数据集以及模拟实验火灾数据集；

(2) 在网络中加入空洞卷积(dilated convolution)[20]模块来扩增感受野，在不丢失特征图分辨率的同时聚合多尺度上下文信息，从而提升了对小尺度火焰的检测率；

(3) 在原Darknet-53特征提取网络中加入稠密卷积神经网络(densely connected convolutional net-works，DenseNet)[21]模块，以充分利用不同层的特征，有效缓解了梯度消失的问题，同时显著减少了网络的参数量；

(4) 使用改进的K-Means聚类算法获得交并比(intersection over union，IoU)更高的锚框(anchor box)，在一定程度上改善了原YOLO v3模型定位不准的问题；

(5) 基于二分类检测问题，精简了原YOLO v3的损失函数，删去了原损失函数中的分类误差，同时考虑到火焰尺度大小对定位精度的影响，进一步优化了定位误差函数，改进后的损失函数可在一定程度上加速网络收敛且抗干扰性更好．

实验结果表明，笔者提出的改进YOLO v3算法在检测速度达到26.0帧/s的同时可达到97%的精确率，优于现有的火灾检测算法，并且能够满足多种复杂场景下的火灾检测，具有较高的实际应用价值．

1 本文算法

火灾发生初期燃烧面积小，较易控制，但由于摄像头安装位置一般离地面较远，火焰在画面中一般占比较小，因此如何及时准确地检测小尺度火焰是减少火灾危害的关键所在．结合火灾检测任务的实际需求，本文选用目标检测领域中满足高精度且兼具实时性的YOLO v3检测框架．为缓解YOLO v3中特征提取网络Darknet-53的梯度消失问题，并进行特征复用，笔者在原网络中加入了DenseNet模块，充分利用特征前向传播过程中不同层的特征信息，并显著减少了网络参数量．此外，考虑到上下文信息对检测小尺度目标至关重要，通过在原网络中加入空洞卷积模块以扩大感受野，同时能够保证不损失特征图的分辨率．

1.1 YOLO介绍

YOLO v3是一种端到端的实时目标检测框架，其模型见图1，主要包含Darknet-53特征提取网络以及YOLO多尺度预测网络．Darknet-53网络中包含大量的卷积操作，借鉴了类似Resnet(残差网络)[22]的shortcut connections(短路连接)设置，其输出为 13×13×1024的特征图．为融合多层特征，YOLO v3将Darknet-53的输出特征图通过两次上采样操作与浅层特征相连并分别进行预测，并通过多个1×1的卷积核来帮助降维．预测层的特征图深度计算式为3×(5＋)，5表示预测框的宽度、高度、中心点横纵坐标以及网格置信度，表示总类别数．由于YOLO v3类别中不考虑背景类，对于火灾检测任务来说，只有火焰这一类物体，因此＝1，最终的输出特征图分别为13×13×18、26×26×18以及52×52×18．

1.2 空洞卷积

通过在原Darknet-53特征提取网络中加入空洞卷积模块，目的是在不增加网络计算量、不损失特征图分辨率的同时扩大特征图的感受野[20]，捕获更丰富的上下文信息以进一步提升对小尺度目标的检测效果．空洞卷积核和感受野大小的计算方法为

式中：k表示原始卷积核大小；n表示空洞卷积核大小；r表示膨胀系数；l-1表示第(－1)层感受野大小；l表示经空洞卷积后的第层感受野大小；s表示第层的步幅(stride)大小．

笔者采用的空洞卷积模块如图2所示，不同层的特征可以直接进行融合，以捕获更加详实的图像细节，提升网络对小尺度目标的特征提取能力．该模块中当膨胀系数为r时，意味着在原始卷积核中注入(r－1)个空洞，对于3×3的卷积核来说，当r＝2时，原始感受野由3×3扩增为7×7，并且特征图的输出分辨率不受影响．

1.3 DenseNet

笔者在原Darknet-53特征提取网络中嵌入DenseNet结构，以进一步增强网络在前向传播过程中的特征复用．DenseNet密集型连接网络结构如图3所示．

图2 空洞卷积模块

图3 DenseNet结构

DenseNet中每一层从前面所有层接收特征映射，因此特征更加丰富和多样化．DenseNet的核心表达式为

1.4 改进YOLO v3特征提取网络

为增强特征复用，笔者将不同膨胀系数的空洞卷积模块进行跃层连接，采用不同膨胀系数能获得不同尺度的图像信息，其感受野将呈指数式增长．同时，在Darknet-53网络中加入DenseNet模块，充分进行多层间的特征复用，缓解了原网络在特征传播过程中的梯度消失问题．改进后的特征提取网络如图4所示．其中，DBL模块表示H操作组合；ResNet单元表示两个DBL模块及其快捷链路的和；空洞卷积模块示意图见图2；DenseNet单元表示一个1×1卷积DBL和一个3×3卷积DBL的组合操作，不同DenseNet单元间采用如图3所示的密集型网络连接的方式．DenseNet转换层由BN、1×1卷积和2×2平均池化操作组合而成．除2次转换层使用池化操作外，为更好地保留小目标信息，其余3次下采样不再使用池化操作，而采用步幅为2的3×3卷积核进行卷积操作．

图4 改进YOLO v3特征提取网络

1.5 锚框选取

除对网络进行优化外，笔者针对原YOLO v3中锚框计算方法对初始聚类中心点较敏感的问题，采用文献[23]提出的基于K-means(K均值聚类)的粒子群聚类算法对锚框选取方式进行优化，以获得更高的平均交并比，进一步提高了锚框的定位准确性．K-means算法的聚类结果能帮助粒子群算法加速收敛，与此同时，多个粒子的种群最优与个体最优求解降低了初始聚类点选取对聚类结果的影响．YOLO v3通过聚类算法训练Bounding Box自动寻找尺寸合适的锚框以解决定位不准的问题，基于COCO 数据集生成了9个不同尺寸的锚框大小．由于该数据集不包含火焰这类物体，因此笔者在自建的火灾数据集上重新生成新的锚框尺寸．改进的聚类算法对于输入分辨率为416×416的火灾图片，生成的10个锚框尺寸分别为11×26、18×40、22×57、27×88、41×58、 46×115、62×197、93×114、97×252和223×253．

1.6 损失函数

本研究中只有火焰这一类目标物体，因此计算损失时不再需要计算分类损失．笔者采用式(4)简化了YOLO v3中的原损失函数，包含位置误差coord和置信度误差iou，即

火焰的燃烧环境和燃烧时长在很大程度上影响火势的蔓延程度，这决定了不同图像中火焰的边界框尺寸将存在较大差异，而不同尺度的火焰其误差对于全图的影响一般不同．基于此，本文采用对比度归一化(contrast normalized)方法对坐标位置误差加以改进，并将平方和改为绝对值形式，以提高其抗干扰性，改进后的位置误差为

2 火灾检测数据集

2.1 数据来源

目前，目标检测领域的公开数据集主要有PASCAL VOC、MS COCO等．然而，网上的火灾检测数据集公开较少，主要来源有Bilkent大学(http：//Signal.ee.bilkent.edu.tr/VisiFire)、韩国Keimyung大学CVPR实验室的火灾视频库(https：//cvpr.kmu. ac.kr)以及Ultimate Chase(http：//www.ultimatechase. com/Fire_Video.htm)主页上开放下载的部分火灾视频，这些视频数量较少并且分辨率普遍不高．考虑到现有火灾检测算法多是基于此类公开火灾视频测试算法效果，因此笔者选取了网络上已有的35段典型火灾视频，用来验证本文算法在公开火灾数据集上的检测效果．

就在同一天，中央纪委官网同时披露称：“据了解，中央纪委对民政部所辖单位系统性腐败问题进行严肃查处，福彩中心原主任鲍学全、原副主任王云戈等因涉嫌严重违纪被立案审查。”

目前网上公开的视频数量较少、场景种类较单一，为丰富火灾数据集，提高模型的泛化能力，并进一步验证本文所提算法对多种尺度的火焰均检测效果良好，笔者在原公开火灾数据集基础上，加入了154段其他典型火灾视频，包括38段实际火灾现场视频和116段实验火灾点燃测试视频．其中实际火灾场景包括工厂、小区、停车场、超市等；实验火灾场景包含地铁站、图书馆、食堂、寺庙等．

由于自建的火灾数据集只包含含火样本图片，因此笔者首先将上述189段视频进行视频截取，选取其中包含有火焰燃烧场景的时段，如此大大缩短了视频时长，以便后续的视频转图片处理．

YOLO v3目标检测框架是基于图片数据集进行训练，因此笔者对截取后的火灾视频段进行分帧处理．首先读入本地火灾视频，读取视频的每一帧图像，当帧数为(图片帧数间隔，可在程序中根据需要自行设定)时，将图片写入到本地进行保存，如此便将连续的视频帧按顺序保存成图片．随后从本地文件夹查看，由于不同场景下的火焰燃烧状态和燃烧时长存在较大差别，因此通过人眼判断对火灾图片进行挑选，以尽量满足自建数据集中火灾图片燃烧状态和尺度的多样性．

本文自建的火灾数据集共包含13573张含火灾图片．其中训练集由10014张火灾图片组成，测试集由3559张火灾图片组成．该火灾数据集中包含背景从简单到复杂、环境从室内到室外、光照从白天和夜晚等多种场景，这保证了本文提出的改进YOLO v3模型在多种场景下均能良好泛化．

2.2 样本标注

本研究使用YOLO模型专用的图片打标工具YOLO_MARK对火灾图片进行打标．实际火灾中，火焰通常是和传播火的媒介(如干柴、棉絮等)同时存在，实验火灾中火焰也多是和实验火盆同时存在，因此样本标注时必须考虑到在只有干柴、实验火盆等存在而火焰未燃烧时不会将其误判为火焰引发误报．因此标注火焰区域时，在保留火焰形状完整的前提下，尽可能少框及或不框及干柴、实验火盆等物体．此外，由于类火颜色运动物体，如穿黄色衣服的行人、闪烁的车灯等都易引发误报，因此充分选取同时包含类火颜色运动物体和火焰的样本图片，并针对性地只对火焰区域进行标注．

3 实验结果及分析

3.1 实验平台及训练过程

本文实验基于Ubuntu 14.04操作系统，工作站配置为Intel(R)Xeon(R)Bronze 3106CPU@1.70GHz，TITAN Xp显卡．本研究中采用改进的YOLO v3模型，使用笔者自建的包含10014张训练集图片、3559张测试集图片的火灾数据集对改进后的Darknet神经网络模型进行训练，其中输入图像尺寸为416×416，批处理大小设置为128，最大迭代次数设置为60000，初始学习率设为0.001，动量设置为0.9，权重衰减率设为0.0005．设置完训练参数后随即对模型进行训练，当迭代次数到达40000次，学习率降为0.0001；当迭代次数到达50000次，学习率进一步降为0.00001．

本文所提改进YOLO v3算法训练损失曲线如图5所示，由于刚开始损失振荡较大，因此绘制loss曲线时忽略前2000次的迭代．从图中不难看出，训练开始2000次迭代后损失值大幅下降，当训练到一定阶段后，曲线趋于平稳．当迭代次数到达40000次时，损失值已基本稳定在0.05以下．说明训练阶段学习效果理想且神经网络各个超参数设置合理．

图5 本文所提算法损失曲线

3.2 评价指标

传统图像型火灾检测算法多以TP率作为性能的评价指标，TP指的是真正例(true positive)，TP率即在所有火灾图片中检测到含火图片的比例．除TP外，样本还可被分为假正例(false positive，FP)、真负例(true negative，TN)和假负例(false negative，FN)．基于卷积神经网络的火灾检测算法指标评价多采用文献[24]所提标准，即评价各模型的准确率(accuracy)、精确率(precision)、召回率(recall)以及IoU，计算公式分别为

3.3 结果对比与分析

本文首先在公开火灾视频数据集上对比了文献[1]、文献[2]、文献[3]、文献[4]、文献[5]、原YOLO v3及本文所提算法的检测效果，以验证本文算法优于传统火灾检测算法．选取公开数据集中的8段视频进行算法效果测试，按照文献[1]对每段视频进行全视频分帧处理，不做另外筛选，共计2009张火灾图片，各算法结果列于表1中．

传统火灾检测算法多是基于多种复杂的人工选取的特征，特征表达性不足，且计算较为耗时．从表1中不难看出，YOLO v3及本文提出的改进YOLO v3不仅检测精度上相比传统的基于图像的火灾检测方法有明显提升，检测耗时也大大缩短．

表1 传统火灾检测算法与本文算法的检测结果对比

Tab.1 Comparison of fire detection results between con-ventional algorithms and the proposed algorithm

此外，比对了几种基于卷积神经网络的新型火灾检测算法在网络公开火灾数据集上的检测效果，以进一步验证笔者所提算法的性能优越性．其中包括文献[9]中提到的结合机器学习和卷积神经网络的火灾检测算法，文献[18]中提到的基于改进YOLO v1的火灾检测算法以及文献[19]中提到的基于多种图像增强要素的Faster R-CNN(从A到F，共6种)火灾检测算法，其数据均来源于原文献．表2中详细列举了各评价指标，综合来看，本文提出的改进YOLO v3模型各指标均明显高于其他几种算法．

表2 新型火灾检测算法与本文算法的评价指标对比

Tab.2 Comparison of evaluation indices of modern fire detection algorithms and the proposed algorithm

为验证本文所提算法对于多种尺度火焰，尤其是小尺度火焰的良好检测效果，笔者在多段实际、实验火灾视频上进行测试，将自建的火灾检测数据集按火焰尺度占图像比例分为小尺度火焰样本、中等尺度火焰样本以及大尺度火焰样本．其中部分检测效果如图6所示．

（a）实际火灾检测效果（b）模拟火灾检测效果

图6 6段实际实验火灾视频检测效果

Fig.6 Detection results of six actual and lab test fire videos

从场景分布可以看出，本算法对多种燃烧阶段、多种尺度大小、多种颜色形态的火焰都具有良好的检测效果，特别是对于小尺度的火焰目标也同样能保证精准识别，这将有助于检测早期火灾，对于及时发现并控制火情至关重要．

此外，将火灾检测算法应用于生产生活实际时，保证低误报率检测是对算法的必然要求．针对误报的处理，主要是在建立火灾数据集时充分选取了同时包含类火颜色运动物体和燃烧火焰的图片，如此模型在进行训练的时候只会对数据集中标注的火焰区域进行特征提取和学习，而易引发误报的类火颜色运动物体则一律视为背景．本文通过实验表明，当视频中火焰和类火颜色运动物体如穿着红黄色衣物的行人、树下的光斑、闪烁的车灯同时存在时，本算法均只精准框出了图像中的火灾发生位置，这表明本算法能很好地抑制误报．因此，本文提出的火灾检测算法不仅泛化能力强且鲁棒性佳．

最后，笔者在自建的火灾数据集上进一步比对了原YOLO v3以及改进后的YOLO v3的各项指标，如表3所示．

结合表2和表3来看，相较于公开数据集，笔者自建的火灾数据集上的各项指标均有所下降，这是因为该数据集包含多种复杂场景下的多种尺度大小的火焰样本，部分样本检测难度较大．另外，改进后的YOLO v3模型IoU指标虽提高了5%，但定位精度仍不太高，这主要是由于火焰属于非刚性物体，轮廓比起刚性物体要散漫和不规则许多．实际发生火灾时，主要任务是识别视频内是否存在火焰，预测位置与实际位置稍有偏差影响不大．

表3 改进前后模型的其他指标对比

Tab.3 Comparison of other indicators of the model be-fore and after the improvements of the YOLO v3

从表3各项指标可看出，改进后的YOLO v3各项指标都优于原模型，在笔者自建的火灾数据集上其精确率可达97%．与此同时，改进后算法依然能够每秒检测26帧，满足实时性需求．综合来看，本文所提算法能很好地满足火灾检测任务的各项指标要求．

4 结语

现有的火灾检测算法很难及时准确地检测出早期火灾的发生．因此，本文提出一种基于改进YOLO v3的火灾检测算法，在Darknet-53特征提取网络中加入了空洞卷积以及DenseNet模块，提升了网络对火灾发生初期小尺度火焰目标的检测效果，并构建了一个数量庞大、场景丰富的包含多尺度火焰目标的火灾数据集对模型加以训练和测试．

本文在火灾公开数据集上比对了本文算法与传统图像型火灾检测算法以及基于卷积神经网络的新型火灾检测算法的检测性能，其结果表明，本算法在各方面表现均优于其他算法，不仅实时性好，而且检测精度高．同时笔者在自建的火灾数据集上进行测试，验证了本算法对小尺度火焰目标的良好检测效果．综上，该算法具有重要的实用价值和良好的应用前景．但本文也存在一些不足，算法在测试集上对火灾的定位依然不够精准．此外，当火焰存在不同程度的遮挡时，检测效果也表现欠佳．后续研究中，本文会着眼于这些不足，进一步优化模型结构、提升算法性能．

［1］ Truong T，Kim J. Fire flame detection in video sequences using multi-stage pattern recognition techniques[J]. Engineering Applications of Artificial Intelligence，2012，25(7)：1365-1372.

［2］ Dimitropoulos K，Barmpoutis P，Grammalidis N. Spatio-temporal flame modeling and dynamic texture analysis for automatic video-based fire detection[J]. IEEE Transactions on Circuits and Systems for Video Technology，2015，25(2)，339-351.

［3］ Kong S，Jin D，Li S，et al. Fast fire flame detection in surveillance video using logistic regression and temporal smoothing[J]. Fire Safety Journal，2016，79：37-43.

［4］ Han X，Jin J，Wang M，et al. Video fire detection based on Gaussian mixture model and multi-color features [J]. Signal，Image and Video Processing，2017，11(8)：1419-1425.

［5］孟令昀. 基于特征优化的视频火焰检测算法研究[D]. 珠海：暨南大学电气信息学院，2018.

Meng Lingyun. Research on Video Flame Detection Algorithm Based on Feature Optimization[D]. Zhuhai：School of Electrical Information，Jinan University，2018(in Chinese).

［6］周飞燕，金林鹏，董军. 卷积神经网络研究综述[J]. 计算机学报，2017，40(6)：1229-1251.

Zhou Feiyan，Jin Linpeng，Dong Jun. Review of convolutional neural network[J]. Chinese Journal of Computers，2017，40(6)：1229-1251(in Chinese).

［7］ Okayama Y. A primitive study of a fire detection method controlled by artificial neural net[J]. Fire Safety Journal，1991，17(6)：535-553.

［8］ Frizzi S，Kaabi R，Bouchouicha M，et al. Convolutional neural network for video fire and smoke detection [C]// The 42th Annual Conference of the IEEE Industrial Electronics Society. Florence，Italy，2016：877-882.

［9］ Maksymiv O，Rak T，Peleshko D. Real-time fire detection method combining AdaBoost，LBP and convolutional neural network in video sequence[C]// Experience of Designing and Application of Cad Systems in Microelectronics. Polyana，Ukraine，2017：351-353.

［10］ Redmon J，Divvala S，Girshick R，et al. You only look once：Unified，real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas，NV，USA，2016：779-788.

［11］ Redmon J，Farhadi A. YOLO9000：Better，faster，stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu，HI，USA，2017：6517-6525.

［12］ Redmon J，Farhadi A. Yolo v3[EB/OL]. https：//arxiv. org/abs/1804. 02767，2018-04-08.

［13］ Liu W，Anguelov D，Erhan D，et al. SSD：Single shot multiBox detector[C]// European Conference on Computer Vision. Amsterdam，The Netherlands，2016：21-37.

［14］ Lin T，Goyal P，Girshick R，et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence，2020，42(2)：318-327.

［15］ Girshick R，Donahue J，Darrell T，et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus，OH，USA，2014：580-587.

［16］ Girshick R. Fast R-CNN[C]// 2015 IEEE International Conference on Computer Vision. Santiago，Chile，2015：1440-1448.

［17］ Ren S，He K，Girshick R，et al. Faster R-CNN：Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence，2015，39(6)：1137-1149.

［18］ Shen D，Chen X，Nguyen M，et al. Flame detection using deep learning[C]// 4th International Conference on Control，Automation and Robotics. Singapore，2018：20-23.

［19］ Kim J，Ryu J，Kwak D，et al. A study on flame detection using faster R-CNN and image augmentation techniques[J]. Journal of IKEEE，2018，22(4)：1079-1087.

［20］ Yu F，Koltun V. Multi-Scale Context Aggregation by Dilated Convolutions[EB/OL]. http://arXiv.1511.07122-v1，2015-11-23.

［21］ Huang G，Liu Z，Maaten L，et al. Densely connected convolutional networks[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu，HI，USA，2017：2261-2269.

［22］ He K，Zhang S，Ren S，et al. Deep residual learning for image recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition. Boston，USA，2015：770-778.

［23］刘学平，李玙乾，刘励，等. 嵌入SENet结构的改进YOLO v3目标识别算法[J]. 计算机工程，2019(11)：1-6.

Liu Xueping，Li Yuqian，Liu Li，et al. Improved YOLO v3 target recognition algorithm embedded in SENet structure[J]. Computer Engineering，2019(11)：1-6(in Chinese).

［24］ Dollar P，Wojek C，Schiele B，et al. Pedestrian detection：A benchmark[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Providence，USA，2009：304-311.

Improved YOLO v3 Fire Detection Algorithm Embedded in DenseNet Structure and Dilated Convolution Module

Zhang Wei，Wei Jingjing

(School of Microelectronics，Tianjin University，Tianjin 300072，China)

Existing fire detection algorithms have exhibited difficulty in simultaneously meeting the requirements of high detection rate，low false alarm rate，and high real-time ability．To solve this problem，an improved you only look once(YOLO)v3 object detection algorithm based on a deep convolutional neural network is proposed．Fire features were extracted by the network to predict fires with multiscale feature maps．First，to solve the problem of the low number of open fire datasets，the limited types of scenarios and the single size of fires，a dataset including 13573 fire pictures was built，which was further used to train and test the proposed model．The training set included 10014 pictures，while the test set included 3559 pictures．To enhance feature extraction towards multiscale fires(especially small-scale fires)and to take advantage of the contextual information，dilated convolutional modules were embedded in the Darknet-53 feature extraction network of the original YOLO v3．This expanded the receptive field without the loss of feature map resolution．In addition，some intensive DenseNet network units were added to improve feature reuse，thereby helping to resolve the vanishing gradient problem during feature propagation of the deep convolutional neural network．The improved network was deeper and the parameter size was smaller than in the original algorithm．Considering the actual demands of fire detection，the loss function was simplified，which further accelerated the convergence rate of the network．Results showed that the detection speed of the proposed algorithm was fast and precision was high．The proposed algorithm was skillful in multiscale fire detection with a speed of 26.0 frames per second and a precision of 97%．Moreover，the false alarm rate was well-suppressed under a variety of complex lightning environments．

object detection；fire detection；dilated convolution；real-time detection

TP391.4

0493-2137(2020)09-0976-08

10.11784/tdxbz201907079

2019-07-30；

2019-12-05.

张为（1975— ），男，博士，教授.

张为，tjuzhangwei@tju.edu.cn.

公安部技术研究计划资助项目(2017JSYJC35).

Supported by theTechnology Research Program of MinistryofPublicSecurity，China(No.2017JSYJC35).

(责任编辑：王晓燕)

嵌入DenseNet结构和空洞卷积模块的改进YOLO v3火灾检测算法

1 本文算法

1.1 YOLO介绍

1.2 空洞卷积

1.3 DenseNet

1.4 改进YOLO v3特征提取网络

1.5 锚框选取

1.6 损失函数

2 火灾检测数据集

2.1 数据来源

2.2 样本标注

3 实验结果及分析

3.1 实验平台及训练过程

3.2 评价指标

3.3 结果对比与分析

4 结 语

4 结语