陈浩霖 高尚兵 相林 蔡创新 汪长春
摘要模型的效率在计算机视觉中变得越来越重要.本文通过研究用于火焰检测的神经网络结构,提出了几个关键的优化方案,以提高模型效率和检测效果.第一,提出一种由多卷积组合结构构建的主干网络(FIRE-Net),它能高效地从多个尺度上提取丰富的火焰特征;第二,提出一种改进的加权双向特征金字塔网络(BiFPN-mini)以快速地实现多尺度特征融合;第三,提出一种新的注意力机制(FIRE-Attention),让检测器对火焰特征更敏感.基于上述优化,本文开发出了一种全新的火焰检测器FIRE-DET,它在硬件资源有限的条件下能够取得比现有基于深度学习的火焰检测方法更高的检测效率.FIRE-DET模型在自建数据集上进行训练后,最终对火焰检测的准确率和帧率分别达到97%和85 FPS.实验结果表明,与主流算法相比,本文火焰检测模型检测性能更优.本文为解决火焰探测问题提供了一个更通用的解决方案.
关键词特征提取;特征融合;注意力机制;火焰检测
中图分类号
TP391.41
文献标志码
A
收稿日期
2021-11-12
资助项目
国家重点研发计划(2018YFB1004904);江苏省高校自然科学研究重大项目(18KJA520001);2021年淮阴工学院研究生科技创新计划项目(HGYK202122)
作者简介
陈浩霖,男,硕士生,研究方向为深度学习及计算机视觉.1007256512@qq.com
高尚兵(通信作者),男,博士,教授,研究方向为机器学习、计算机视觉、模式识别和数据挖掘.luxiaofen_2002@126.com
0 引言
火灾的发生会威胁人类的生命安全,如:2019年9月6日至2020年1月14日,澳大利亚森林火灾燃烧面积达1 860万hm2,伤亡人数34人,死于火灾的动物超过10亿只[1];2020年3月30日,四川省凉山州西昌市经久乡发生森林火灾,造成19名消防战士牺牲.为了预防火灾,我国在“十三五”全国森林防火规划建设期间,全国规划投入森林防火资金450.95亿元,其中中央建设投资和财政经费分别投入189.89 亿元和185.44亿元.
火焰是火灾中最明显的特征之一,因此基于图像处理提取火焰特征是常用的检测火灾的方法.目前该类方法主要分为基于传统图像处理的火焰检测、基于传统机器学习的火焰检测和基于深度学习的火焰检测.近年火焰检测的方法具体有:
1)基于传统图像处理的火焰检测方法,使用手工提取的火焰特征识别火焰.如:张慧珍等 [2] 提出一种基于超像素分割并结合闪频特征进行判断识别火焰的方法;Gong等 [3] 通过计算图像每帧火焰区域的质心,然后通过提取火焰的空间变异性、形状变异性和面积变异性等特征检测火焰.
2)基于传统机器学习的火焰检测方法,更注重特征的提取,特征可解释性较强.如:Ko等[4]提出基于模糊有限自动机的火焰检测算法;Gunay等[5]提出一种基于熵函数的在线自适应决策融合框架;Dimitropoulos 等[6]利用火焰的先验知识,提取火焰候选区域,然后使用两类SVM分类器对候选区域进行分类.
3)基于深度学习的火焰检测方法,通过自动学习特征(卷积特征)检测火焰,无需设计指定特征,学习获得的特征只有计算机理解.如:Kim等[7]将连续帧中边界框内的汇总特征由Long Short-Term Memory(LSTM)在短期时间序列中判断是否存在火并进行分类,然后将大多数连续的短期决策合并在一起,长期投票决定最终结果;Aslan等[8]提出一种基于视觉的深度卷积生成对抗性神经网络火焰检测方法;Zhang等[9]提出一种有效的非对称编译码U形结构ATT-Squeeze-Net来鉴别森林火灾;Dunnings等[10]提出一种基于超像素分割结合深度卷积神经网络的火焰检测方法.
基于传统图像处理的火灾检测所依靠的特征和判定阈值规则是人为设定的,往往泛化能力略显不足.基于传统机器学习的火焰检测同样是利用人工提取特征,只是在最后的检测时利用机器学习分类算法进行火焰分类,依然无法避免人工特征工程的缺点.基于深度学习的火焰检测,可以避免人工特征工程的繁杂,利用计算机自动提取特征,能够实现端到端的实时输出,并且能够保证检测精度和泛化能力,这就拥有了很好的智能性.但复杂的模型会降低模型的检测效率,所以本文利用深度学习方法中单步检测的框架实现火焰检测.
现有的目标检测器主要根据它们是否具有区域建议步骤,分为单步检测(One-Stage Detectors)[11-15]和双步检测(Two-Stage Detectors)[15-20].虽然双步检测器往往更灵活和更准确,但单步检测器通常被认为更简单和更高效.在本文中,主要以单步检测器的设计为主体,优化网络结构使其获得更高的效率和精度.深度卷积神经网络自提出起就被广泛应用于图像领域的分类、检测和分割等任务中.近些年,在深度卷积神经网络在图像领域任务中出现了一系列优化的方法:
1)主干网络:现有的单步检测的主干网络主要使用CenterNet[20]、DarkNet52[11]和EfficientNet[21]等,可以分为两种类型:一种是轻量型的,其目标在于开发出一种微型的主干网络并且能拥有较好的特征提取效果,如EfficientNet;另一种是重量型的,在特征提取上具有较好的效果,如DarkNet52.虽然重量型的网络在多目标检测过程中表现出优异的效果,但是在面对火焰目标时会出现鲁棒性低的情况,这是由于火焰非结构化、形态特异性高的特性决定的.因此本文提出一种轻量型主干网络使其获得更高的效率和精度.
2)特征融合网络:融合多尺度特征是目标检测的主要难点之一.早期的检测器通常直接将骨干网络中提取的金字塔特征进行预测.特征金字塔网络(Feature Pyramid Network,FPN)[22]作為其开创性工作之一,提出了一种自顶向下的多尺度特征组合路径;PANet[23]在FPN的基础上增加了一个自下而上的路径聚合网络;NAS-FPN[24]利用神经结构搜索来自动设计特征网络拓扑.最近,BiFPN[25]利用简单的双向特征融合网络并进行加权融合.BiFPN虽然性能更好,但面对火焰检测速度仍有不足.因此本文改进了BiFPN模块,提升输出特征对火焰语义的抽象程度与鲁棒性.
3)注意力机制:注意力机制是近年提出的一种新观念.注意力机制主要分为两种:一种是通道注意力机制,另外一种是空间注意力机制.SENet[26]最早提出通道注意力机制,为每个通道加上一个权重,目的是为了体现每个通道的重要程度;CBAM[27]则在通道注意力机制的基础上增加了空间注意力机制,体现特征图中每个位置的重要程度.传统的注意力机制是无监督的,它通过网络的反馈计算获得自适应的注意力矩阵,所以它会生成一些背离预期的结果,这是我们所不愿看见的.因此本文提出了一种监督式的空间注意力机制,通过检测器的标签值生成一组二值图像标签来监督获得的注意力矩阵.
基于上述分析,本文提出了一种基于FIRE-DET的快速火焰检测方法.主要的贡献如下:
1)提出了一种Multi-Conv模块,并通过Multi-Conv模块建立FIRE-Net网络,并将其作为主干网络提取多个尺度的火焰特征,增强特征提取效果.
2)受BiFPN网络的启发,本文将主干网络提取的特征进行双向连接融合,提取出含有多个尺度的特征,而不是单尺度特征.
3)提出一种监督式的空间注意力机制Fire-Attention,通过检测器的标签值生成一组二值图像标签来监督获得的注意力矩阵.
1 本文方法
1.1 FIRE-DET模型
FIRE-DET检测器是由主干网络、特征融合网络、注意力机制和检测头构成的一种端到端的深度卷积神经网络,并遵循了单步检测器的结构.FIRE-DET检测器的整体架构如图1所示.FIRE-DET的主干网络是FIRE-Net,是由Multi-Conv模块建立的轻量级网络,可获取输入图像多个尺度的特征{P 1,P 2,P 3};FIRE-DET的特征融合網络是BiFPN-mini,BiFPN-mini将主干网络提取的多个尺度的特征{P 1,P 2,P 3}进行融合;FIRE-DET中提出了一种注意力机制FIRE-Attention,对融合后的特征进行反馈调节,增强检测器对火焰特征的敏感性;FIRE-DET中使用现有的检测有YOLO head预测对象和对象位置.
1.2 FIRE-Net网络
1.2.1 深度卷积模块
一个卷积层i可以定义为一个函数:y=f i(x (h,w,c)),其中f是算子,y是输出张量,x是输入张量,具有张量形状h,w,c,其中h和w是空间维度,c是通道维度.两个算子连续作用于一个输入张量可以定义为
y=f 2(f 1(x (h,w,c)))=f 2⊙ f 1(x (h,w,c)),
一个卷积模块的结构可以被表示为
N=f k⊙…⊙f 2⊙f 1(x)=⊙j=1…kf j(x (h,w,c)).(1)
在实践中,卷积模块层通常被划分为多个阶段,每个阶段中的所有层共享相同的体系结构.因此,本文可以将卷积模块定义为
N=⊙j=1,…,kf j(x (h,w,c)).(2)
图2为具有代表性的卷积模块.图2a为传统的卷积块,由卷积归一化与激活函数构成.传统卷积模块可以表示为
g 1(x)=reluBN(Conv(x (h,w,c))),(3)
其中,Conv是特征处理的卷积操作,BN为归一化操作,relu为激活函数,g 1是传统卷积模块的算子.图2b显示了经典的残差卷积块,由两种传统卷积块组合构成.残差卷积块可以表示为
g 2(x)=g 1⊙g 1(x (h,w,c))+x (h,w,c).(4)
1.2.2 Muti-Conv模块
传统的Conv Block在感受野上受到限制,未能融合不同感受野的信息,所以Res Block增加一个Conv Block的路径来扩展网络的感受野,如图2b所示.本文发现Res Block比Conv Block获得了更好的准确性,但仍然不能适应检测火焰的计算.如果卷积的路径只有一条,那么它获得的感受野比较有限,所以本文首先增加了卷积的路径数,然后将每次卷积的结果融合后输出,以避免特征损失,最后减少卷积的通道数,以提高模型的效率.通过上述优化,本文将新的特征网络命名为Multi-Conv Block,如图2c所示.Multi-Conv卷积块可以表示为
g 3(x)=g 1⊙g 1(x (h,w,c))+g 1⊙g 1(x (h,w,c))+
g 1⊙g 1(x (h,w,c))+g 1(x (h,w,c))+
g 1(x (h,w,c))+g 1(x (h,w,c)).(5)
1.2.3 构建FIRE-Net网络
由于本文的模型主要用于火焰检测,因此提出针对火焰检测的特征提取网络.为了增加提取火焰的有效性,本文还提出一个新的主干骨网络,称为FIRE-Net.该网络通过增加卷积的路径与卷积核的大小,提高网络对火焰特征的提取.表1中每一行描述了一个线性层,每层中介绍了算子f i、输入分辨率h i×w i和输出通道C i.
虽然FIRE-Net的Muti-Conv模块结构复杂,但是FIRE-Net网络通道数减少至Darknet53层结构的1/4,并且下采样次数减少一半,使网络参数变少.最终模型变得更小,但由于Muti-Conv模块多卷积路径的特点,使模型对火焰特征提取的能力仍有提升.网络以512×512大小的图像作为输入进行3次最大池化和Muti-Conv操作,在FIRE-Net中第1次使用Muti-Conv采用1、9、27三种卷积核提取特征,第2次使用Muti-Conv采用1、3、9三种卷积核提取特征,第3次使用Muti-Conv采用1、3两种卷积核提取特征.这样设置卷积核基于以下原因:1)使用卷积核1的主要目的是形成一种无监督的注意力机制,让网络自动调整网络;2)本文模型的输入图像像素大小为512×512,若使用2的等比数列感受野过小,若使用4的等比数列会导致感受野过大,所以本文卷积核为3的等比数列中的值.FIRE-Net的性能与最先进的分类器相比,其浮点运算更少,表明网络结构能更好地利用处理器,使其更有效地检测,从而更快获取火焰特征.
1.3 BiFPN-mini网络
多尺度特征融合旨在聚集不同分辨率的特征.形式上,给定一个多尺度特征序列Pin=(Pin l1,Pin l2,…),其中P li表示(l i+1)倍下采样后的特征图,本文的目标是找到一个可以有效聚合不同特征的变换h,并输出一个新特征列表:Pout=h(Pin).
图3a为传统的自上而下的FPN,需要5个尺度的特征Pin=(Pin l1,Pin l2,…,Pin l5),其中Pin l1表示分辨率为输入图像1/2的特征级别.例如,如果输入分辨率为512×512,则Pin l1代表的2倍下采样后分辨率为256×256的特征图 (512÷21=256),而Pin l5代表16倍下采样后分辨率为32×32.FPN自上而下的多尺度特征融合方法可以表示为
pout 5=Conv(pin 5),
pout 4=Conv(pin 4+Resize(pin 5)),
…
pout 1=Conv(pin 1+Resize(pin 2)).(6)
如图3a中传统的自上而下的FPN本质上受到单向信息流的限制,所以BiFPN提出了删除那些只有一条输入边的节点形成简化的双向网络,且从原始输入到输出节点添加额外的边融合更多的特征,如图3b所示.为了提高模型效率,本文提出几种跨尺度连接的优化方法:首先,沿用BiFPN双向输入的思想,但是并不是删除单向节点,而是为单向节点增加不同尺度输入而形成双向网络;其次,减少特征融合网络的输入,以便降低成本.本文将新特性网络命名为简化版双向特性金字塔网络(BiFPN-mini),如图3c所示.BiFPN-mini定义如下:
ptd 5=Conv(pin 5+Resize(Resize(pin 5))),
ptd 3=Conv(pin 3+Resize(ptd 5)),
ptd 1=Conv(pin 1+Resize(ptd 3)),
pout 1=Conv(pin 1+ptd 1+Resize(Resize(ptd 1))),
pout 3=Conv(pin 3+ptd 3+Resize(pout 1)),
pout 5=Conv(pin 5+ptd 1+Resize(pout 3)).(7)
1.4 FIRE-Attention网络
注意力机制的主要作用是增强目标的特征.注意力机制主要分为通道注意力机制、空间注意力机制和混合注意力机制等.
如图4通道注意力机制主要作用是将特征图每个通道与不同权重进行相乘,可以忽略无关通道信息而关注重点通道信息.空间注意力机制的作用是将特征图每个位置的特征与不同权重进行相乘,可以忽略无关空间信息而关注重点空间信息.通道注意力机制与空间注意力机制更关注区域或者通道,而且注意力是确定性的注意力,学习完成后直接可以通过网络生成.注意力是可微的,可以微分的注意力就可以通过神经网络算出梯度,并且通过反向传播来学习获得注意力的权重.
传统的注意力机制是无监督的,它通过网络的反馈计算获得自适应的注意力矩阵.因为它是无监督的,所以会生成一些背离预期的结果.针对这个问题,本文提出一种监督式的空间注意力机制FIRE-Attention,通过检测器的标签值生成一组二值图像标签来监督获得的注意力矩阵.
FIRE-DET模型的损失函数在YOLO-head的损失函数的基础上增加了FIRE-DET模型中FIRE-Attention的损失值.图5的右图为图像分割的注意力图.
为了提高图像分割网络提取的注意力圖的准确性,将BiFPN-mini网络输出的特征图进行反卷积,与卷积后得到的注意力图和火焰对象的二值图像通过将图像与图像长宽1/4大小的卷积核进行平均卷积,来获取类似人眼关注事物的注意力图像之间定义一个损失函数,如图6所示.
损失函数(L)计算如下:
z(i,j)=∑k,jm(i+k,j+l)n(k,j),
L=max(x,0)-x×z+log(1+e-abs(x)),(8)
其中m为火焰目标二值图像,n为均值滤波,x为图像分割网络输出的注意力图,i和j分别代表图像的x轴与y轴坐标,k和l分别代表卷积核的x轴与y轴坐标,z为火焰目标二值图像进行均值滤波处理后的特征图.将图像分割网络输出的3个注意力图,分别与标记火焰的二值图像使用上述损失函数进行反馈计算,并将L与YOLO-head损失函数的和作为FIRE-DET模型的损失函数,可以使网络的损失函数快速下降并达到收敛.
2 实验与分析
2.1 火焰数据集
由于火灾检测研究尚处于初始阶段,目前没有较为完整和权威的公开火灾视频数据库.本文中的训练数据集是通过收集互联网上的图,然后根据PASCAL VOC的格式进行手工标注图片中的目标得到的,将其中火焰区域标注为fire,未标注的区域为背景.图7为实验用的火焰场景的图片.火焰数据中含有小目标、多目标和类火焰数据.在研究过程中使用的数据,可联系笔者获取.
2.2 实验过程
本文实验所用机器的基本配置为 GPU:GTX 1080 Ti,CPU:i5-7500,内存16 GB,操作系统为Window10,使用深度学习中的 tensorflow框架.对模型使用动量为0.9、权重衰减为1e-8的Adam优化器进行训练,并使用裁剪、缩放、翻转与增减对比度增强数据.
在实验过程中,在遵循控制变量的原则下,各算法都在相同环境、相同训练集中训练100个周期,然后进行检测实验验证FIRE-DET模型的鲁棒性.为了验证本文提出的贡献点和合理性,还进行了消融实验与分析.
2.3 评价指标
在模式识别任务中,真阳性和假阳性的定义如表2所示.如果预测框与地面真值框之间的交并比(IOU)> 0.5,则预测框为“真阳性”(TP),否则,它是“假阳性”(FP).由于图像中没有预测到物体的每一部分都被认为是背景,所以测量“真阴性”(TN)是非必要的,故文中只测量“假阴性”(FN)作为模型遗漏的对象(图8).预测的边界框是红色的,火焰目标的真实框是绿色的.
准确率(A)表示预测正确的样本在所有样本中占的比例,一般准确率越高分类器越好.此外,精确度(P)和召回率(R)也是算法评价的两个重要指标.在分类任务中,一个类的精确度是真阳性数除以预测并标记为属于阳性类的元素总数.召回率的定义是真阳性数除以实际属于阳性类的元素总数.准确率、精确度和召回率的定义如下:
A=TP+TNTP+TN+FP+TN,(9)
P=TPTP+FP,(10)
R=TPTP+FN.(11)
2.4 实验结果
实验中用到的验证数据集来源如表3所示,图9是在验证数据集下使用FIRE-DET模型对火焰进行检测后的部分效果图.由于模型的鲁棒性与数据增强的优点,因而对不同形态和不同颜色(图9a—c))的火焰检测效果较好.由于模型本身采用中心点预测的方法,减少了回归过程中的震荡幅度,并且在特征提取网络中使用Muti-Conv结构构建了FIRE-Net网络结合BiFPN-mini提取多尺度特征,提升了检测器对火焰特征的提取效果,所以对于火焰形态较小的目标(图9d—f)),该模型亦能够有效地提供更精确的定位.对拥有多个目标的图像(图9g—i)也能快速检测.在面对类火焰的对象该模型也不会产生虚检(图9j—l)),这是因为模型中FIRE-Attention结构能通过监督的方式抑制模型对非火焰物体误检的概率.FIRE-DET模型对不同场景下不同长宽比的火焰展现出了较高的适应性,同时对类火焰对象不易产生误检,表明本方法对火焰和非火焰视频拥有良好的检测效果和鲁棒性.
本文将FIRE-DET与先进的检测器对比它们的准确率、精确率、召回率和检测速度(FPS),以验证目标测器的性能,结果如表4所示,可以发现FIRE-DET检测器比其他的检测器效率更高.YOLOv4-tiny拥有极快的检测速度并可以部署于移动设备上,但其在其他评估指标中表现欠佳;Faster R-CNN方法对火焰检测的效果不好;Dunnings等[10]的方法中虽然检测效果好,但是检测速度较低.
本文方法保持较快的速度和较高的准确度,主要是因为基于FIRE-DET模型的火焰检测方法,采用FIRE-Net增加模型的感受野,并且通过BiFPN-mini网络融合多尺度的特征加强了检测特征的语义信息,因而对不同場景下不同长宽比的火焰
目标的检测,该模型亦能够有效地提供更精确的定位.同时,
模型中FIRE-Attention能提高检测模型的鲁棒性,减少检测过程中假阳性发生概率.实验结果表明,本文模型检测准确率高达97.42%,检测速度为85 FPS.基于FIRE-DET模型的检测方法检测准确率、召回率和检测速度均优于其他模型.
另外,本文对提出的FIRE-DET网络进行了消融实验,如表5中α表示FIRE-Net网络、β表示BiFPN-min网络、γ表示FIRE-Attention网络,实验中将YOLOv4作为对照组.在第1组实验中将FIRE-Net网络加入实验中,在添加FIRE-Net网络后的模型比对照组模型的精确度提高了约9个百分点,且检测速度提高了1倍,这主要是因为Muti-Conv提高了模
型对火焰特征的提取效果,其次是因为FIRE-Net网络仅使用了3次下采样,提高了检测速度.第2组实验在第1组实验的基础上添加了FIRE-Attention网络,再次提高了模型的检测准确率,这是由于增加了监督式的注意力机制,但是也降低了模型的效率.第3组实验在第2组实验的基础上添加了BiFPN-mini网络,使模型的检测速度达到了85 FPS,比第2组实验的检测效率提高了1倍.结果表明,FIRE-DET模型通过FIRE-Net网络与FIRE-Attention网络可以增加特征提取效果,提高模型检测的准确率和检测效率,而BiFPN-mini能加快模型的检测速度.
3 结论
为了提高在自然场景下对火焰检测的检测速度,本文从模型检测效率出发,结合注意力机制和卷积神经网络在特征提取上的优势,提出了一种基于FIRE-DET的火焰检测方法.在主干网络中利用多个卷积核进行卷积提高模型感受野,在特征融合网络中利用简单的双向结构提取更多的特征,最后利用提出的注意力机制提升模型的准确率.实验结果表明,在面对小目标、多形态和多目标时,本文模型均能准确预测.本文模型和现有主流的检测模型相比,在检测准确率和速率上表现更佳,达到预期实验效果.FIRE-DET在消融实验中也体现了FIRE-Net、BiFPN-mini和FIRE-Attention的优点,FIRE-Net、FIRE-Attention可以提高模型的准确率,BiFPN-mini可以提高模型的检测速度.本文的检测方法受限于检测数据集,在未来的工作中,将对小样本数据集训练的问题进行深入研究,进一步提高模型的检测效果.
参考文献
References
[1] 张志,许文浩.澳大利亚2019—2020森林火灾对我国应急管理体系建设的启示[J].中国应急救援,2020(2):18-22
ZHANG Zhi,XU Wenhao.Emergency management system in China:lessons learned from Australia 2019-2020 bushfires[J].China Emergency Rescue,2020(2):18-22
[2] 张慧珍,严云洋,刘以安,等.基于超像素分割与闪频特征判别的视频火焰检测[J].数据采集与处理,2018,33(3):512-520
ZHANG Huizhen,YAN Yunyang,LIU Yian,et al.Video flame detection based on super pixel segmentation and flash frequency feature discrimination[J].Journal of Data Acquisition & Processing,2018,33(3):512-520
[3] Gong F M,Li C T,Gong W J,et al.A real-time fire detection method from video with multifeature fusion[J].Computational Intelligence and Neuroscience,2019,2019:1939171
[4] Ko B C,Ham S J,Nam J Y.Modeling and formalization of fuzzy finite automata for detection of irregular fire flames[J].IEEE Transactions on Circuits and Systems for Video Technology,2011,21(12):1903-1912
[5] Gunay O,Toreyin B U,Kose K,et al.Entropy-functional-based online adaptive decision fusion framework with application to wildfire detection in video[J].IEEE Transactions on Image Processing,2012,21(5):2853-2865
[6] Dimitropoulos K,Barmpoutis P,Grammalidis N.Spatio-temporal flame modeling and dynamic texture analysis for automatic video-based fire detection[J].IEEE Transactions on Circuits and Systems for Video Technology,2015,25(2):339-351
[7] Kim B,Lee J.A video-based fire detection using deep learning models[J].Applied Sciences,2019,9(14):2862-2881
[8] Aslan S,Güdükbay U,Treyin B U,et al.Deep convolutional generative adversarial networks for flame detection in video[C]∥Computational Collective Intelligence,2020:807-815
[9] Zhang J M,Zhu H Q,Wang P Y,et al.ATT squeeze U-net:a lightweight network for forest fire detection and recognition[J].IEEE Access,2021,9:10858-10870
[10] Dunnings A J,Breckon T P.Experimentally defined convolutional neural network architecture variants for non-temporal real-time fire detection[C]∥2018 25th IEEE International Conference on Image Processing (ICIP).October 7-10,2018,Athens,Greece.IEEE,2018:1558-1562
[11] Redmon J,Farhadi A.YOLOv3:an incremental improvement [J].arXiv e-print,2018,arXiv:1804.02767
[12] Bochkovskiy A,Wang C Y,Liao H Y Mark.YOLOv4:optimal speed and accuracy of object detection[J].arXiv e-print,2020,arXiv:2004.10934
[13] Jiang Z C,Zhao L Q,Li S Y,et al.Real-time object detection method based on improved YOLOv4-tiny[J].arXiv e-print,2020,arXiv:2011.04244
[14] Ge Z,Liu S T,Wang F,et al.YOLOX:exceeding YOLO series in 2021[J].arXiv e-print,2021,arXiv:2107.08430
[15] 陳西江,安庆,班亚.优化EfficientDet深度学习的车辆检测[J].南京信息工程大学学报(自然科学版),2021,13(6):653-660
CHEN Xijiang,AN Qing,BAN Ya.Optimized EfficientDet deep learning model for vehicle detection [J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2021,13(6):653-660
[16] 梅舒歡,闵巍庆,刘林虎,等.基于Faster R-CNN的食品图像检索和分类[J].南京信息工程大学学报(自然科学版),2017,9(6):635-641
MEI Shuhuan,MIN Weiqing,LIU Linhu,et al.Faster R-CNN based food image retrieval and classification[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2017,9(6):635-641
[17] 金啸宇,尹嫱,倪军,等.一种基于场景合成和锚点约束的SAR目标检测网络[J].南京信息工程大学学报(自然科学版),2020,12(2):210-215
JIN Xiaoyu,YIN Qiang,NI Jun,et al.SAR target detection network based on scenario synthesis and anchor constraint[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2020,12(2):210-215
[18] He K M,Gkioxari G,Dollr P,et al.Mask R-CNN[C]∥2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:2980-2988
[19] Ren S Q,He K M,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149
[20] Zhou X Y,Wang D Q,Krhenbühl P.Objects as points [J].arXiv e-print,2019,arXiv:1904.07850
[21] Tan M X,Le Q V.EfficientNet:rethinking model scaling for convolutional neural networks[J].arXiv e-print,2019,arXiv:1905.11946
[22] Lin T Y,Dollr P,Girshick R,et al.Feature pyramid networks for object detection[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:936-944
[23] Liu S,Qi L,Qin H F,et al.Path aggregation network for instance segmentation[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:8759-8768
[24] Ghiasi G,Lin T Y,Le Q V.NAS-FPN:learning scalable feature pyramid architecture for object detection[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019,Long Beach,CA,USA.IEEE,2019:7029-7038
[25] Tan M X,Pang R M,Le Q V.EfficientDet:scalable and efficient object detection[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:10778-10787
[26] Hu J,Shen L,Albanie S,et al.Squeeze-and-excitation networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(8):2011-2023
[27] Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[M]∥Computer Vision — ECCV 2018.Cham:Springer International Publishing,2018:3-19
FIRE-DET:an efficient flame detection model
CHEN Haolin1,2 GAO Shangbing1,2 XIANG Lin1 CAI Chuangxin1 WANG Changchun1
1Faculty of Computer and Software Engineering,Huaiyin Institute of Technology,Huaian 223001
2Laboratory for Internet of Things and Mobile Internet Technology of Jiangsu Province,Huaiyin Institute of Technology,Huaian 223001
Abstract In view of the increasing concern on model efficiency in computer vision,this paper proposed several optimization schemes to improve the flame detection models in model efficiency as well as the detection performance.A backbone network (FIRE-Net) was constructed from a multi-convolution combined structure,which can efficiently extract rich flame features from multiple scales.Then an improved weighted bidirectional feature pyramid network (BiFPN-mini) was used to quickly achieve multi-scale feature fusion.In addition,a new attention mechanism (FIRE-Attention) was proposed to make the detector more sensitive to flame characteristics.The above optimizations were combined to develop a new flame detector abbreviated as FIRE-DET,which was then trained on self-built dataset and tested on internet videos.The experimental results showed that the FIRE-DET outperformed mainstream algorithms by its flame recognition accuracy of 97% and frame rate of 85 FPS,thus provides a more common solution to solve the flame detection.
Key words feature extraction;feature fusion;attention mechanism;flame detection