基于多尺度特征融合的消防车通道占用检测

2022-10-24 01:20鑫,陈
计算机技术与发展 2022年10期
关键词:消防车亮度语义

张 鑫,陈 黎

(1.武汉科技大学 计算机科学与技术学院,湖北 武汉 430065; 2.武汉科技大学 智能信息处理与实时工业系统湖北省重点实验室,湖北 武汉 430065)

0 引 言

据国家应急管理部消防救援局发布的2020年全国火灾情况,其中居民住宅火灾发生10.9万起,占火灾总数的43.4%,其中消防车通道被堵导致救援滞缓的情况时有发生,且相当部分的占用是车辆的违停造成的,此举严重危害了公共消防安全。公安消防部门常通过监控设备的监控画面和执法人员巡检来监督检查消防车通道的情况。但上述方案无疑是较为耗费人力的,容易漏检且效率不高。因此,开发一种可以根据监控画面自动进行消防车通道占用检测的系统作为辅助会极有价值。由于现有的城市视频监控设备[1]并非是针对于消防车通道监控而特地设立的,拍摄视角、方位差异较大会造成不同图像中车辆和消防车通道尺度差异较大,光线亮度的差异会使图像背景信息变得较为复杂[2]。使用传统的图像检测方法实现消防车通道占用自动检测主要存在以下难点:一是部分图像中只含车辆和消防车通道的局部信息,且消防车通道线框并非是同一形状的,因而无法人工提供所有特征;二是图像中消防车通道标志区受到光照、遮挡阴影等影响,出现模糊、边界不清晰等现象极大地影响了检测的精度。

该文利用图像语义分割实现消防车通道占用检测。为了降低光照因素对于分割精度的影响,提出了光照补偿模块,在进入语义分割网络之前优化了图像的亮度信息,特别是在夜间场景下;改进了网络的编码器部分,加强消防车通道区域的特征信息特征融合阶段,结合分割结果连通区域融合的方法提升车辆与消防车通道的检测效果。在模型检测的基础上,设计了车辆违停造成的消防车通道占用的判定算法。

1 相关工作

语义分割是根据图像中包含的对象的类别对图像中的像素进行语义划分的技术,属于图像分割[3-4],是机器学习和人工智能的一个分支,是图像处理和计算机视觉的基础。语义分割广泛应用于场景分析[5]、自动驾驶[6]等研究领域。当前语义分割上最先进的方案多基于FCN[7]、VGG16[8]、ResNet[9]等。随着技术的发展,不同的语义分割网络出现了如DeepLab[10]、R-CNN[11]、RefeneNet[12]、SegNet[13]、U-Net[14]、PSPNet[15]等各具特色的网络。

其中SegNet使用了编码器-解码器结构。与VGG的前几层类似,它在编码器中也使用这种结构。为了获得与输入相同的分辨率,解码器网络执行低分辨率特征映射,然后进行分割。SegNet的优点是在上采样过程中不需要学习,只对得到的稀疏上采样特征图进行卷积。虽然SegNet已经取得了很好的分割效果,但是分割速度仍然很慢。于是Zhao等人提出了PSPNet,它使用基于金字塔池模块的结构。这种设计可以帮助模型更好地获取全局信息,从而获得更多的上下文信息。VGG16通常与扩张卷积一起使用,但扩张卷积有一些缺点。由于并非所有像素都被计算,因此对于小对象的像素级预测相对较差。FCN通过连续下采样获得高层语义信息。在图像语义分割任务中,模型预测的细节一般由图像的空间和细节信息决定。因此,如何对空间信息进行编码非常重要。使用扩张卷积来保持图像特征图的空间大小,可以获得丰富的图像细节信息。该文将使用浅层卷积设计来编码空间信息。由于网络层数较浅,因此可以编码更详细的信息。虽然基于FCN的方法具有良好的分割精度,但速度太慢。为了适应更快的语义分割任务,一些方法采用了基于浅层ResNet的结构,ResNet18在模型大小和性能方面相对优于VGG16。该模型就使用ResNet18作为主干。

特征融合[16-17]广泛应用在最近的图像分割中,不同尺度的融合特征是一个来提高分割性能的重要手段。高级特征具有更高的语义信息,但分辨率较低,详细信息丢失严重。低级特征通常包含更详细的信息和位置信息,分辨率更高。但由于卷积较少,语义较低,噪声较多。两者结合可以相互补充,从而提高语义分割的性能。该文将重点使用特征融合来优化模型提取的特征信息以达到更好的分割效果。

注意力机制[18]借鉴了人类视觉注意机制。人们一般通过扫描全局图像来快速获取需要对焦的目标区域,然后将更多的注意力资源投入到这个区域。深度学习的注意力机制模仿了这个过程。注意力机制的核心任务是从大量信息中提取出当前任务最需要的目标信息,然后重点关注这些信息进行后续处理。目前,大多数注意力模型都附属于编解码模型框架,但它并不仅仅在这个框架中使用,而且这种框架很容易受到输入大小的限制。该模型使用元素乘法实现注意力机制,此为一种更好的注意力机制思想,计算量更小,占用资源更少。

在语义分割中使用以上方法也可在特定场景下实现道路区域分割[2]。但文中消防车通道区域容易受到外部因素的影响,如颜色特征受光照影响强烈,纹理特征由于拍摄变形、弱化变得难以提取,这些变化使得上述方法难以满足各种场景下的消防车通道占用检测需求。此外,消防车通道一般选取消防车通道标志线框作为特征。当消防车通道标志线受到图像亮度、遮挡阴影等因素的干扰时,检测到的区域在真实区域中的占比会缩小,进而影响检出车辆是否造成消防车通道占用的判定,造成更多的漏判。因此需要改进语义分割网络在保证定位准确度的前提下加强消防车通道区域的特征信息。

该文以识别消防车通道和其上的违停车辆为目标,采用多特征融合的方法得到包含更多细节信息的融合特征,使网络更好地学习消防车通道语义边界信息,改善分割过程中出现的消防车通道边界不连续或模糊的现象。此外在解码器部分的网络修改使得模型更加轻量化,推理速度更快,占用资源更少。在保证一定的消防车通道和车辆的分割精度的基础之上,设计了消防车通道是否存在车辆占用的判定算法以完成消防车通道占用检测任务。

2 文中方法

本节首先介绍消防车通道占用检测算法的整体框架,然后分别详细阐述光照补偿模块、使用的语义分割网络模型和消防车通道占用判定方法。

2.1 算法整体框架

以识别消防车通道以及相关联的车辆为目标,需要实现消防车通道和消防车通道上车辆的分割。因消防车通道数据集获取难度、数量、质量与车辆数据集存在较大差异,实验采用两个分割主体使用两套数据分开训练的方案,最后将分割结果合并以判定消防车通道是否存在占用。

算法整体框架如图1所示。首先输入图片后使用光照补偿模块对输入图像进行处理,再将图片送入语义分割网络分别得到消防车通道与车辆的分割结果,由于不是所有的车辆都是消防车通道区域之上的,所以还设计了一个筛选阶段,去掉了与消防车通道在分割结果上无交集的车辆信息,此后根据提出的消防车通道占用判定规则得到有无发生占用的最终结果。

图1 整体框架

2.2 光照补偿模块

为了提高复杂光照环境中特别是夜晚低亮度场景下消防车通道与车辆分割的准确性与稳定性,该文提出了改进多尺度Retinex图像增强算法[19]进行数据增强,然后利用语义分割模型进行特征融合,在一定程度上解决了光照影响下图像细节丢失、像素误分类的问题,从而提升了复杂光照环境下特别是夜间环境的分割准确率与占用判定准确率。

一般彩色图像多用RGB颜色模型表示,但是在三种原色相关性的影响下,增强图像时色彩容易出现失真。HSV颜色空间模型基于人类视觉系统,分别表示为色调H(Hue)、饱和度S(Saturation)和亮度V(Value),且三个属性分量之间互不干扰。与传统的RGB色彩空间相比,HSV空间具有更强的色彩保真度。因此,该文选择在HSV空间下增强图像。具体做法如下:

首先,将原始图像RGB空间转换成HSV颜色空间来提取亮度分量I:

I(x,y)=max([IR(x,y),IG(x,y),IB(x,y)])

(1)

(2)

其中,GD为高斯差分函数,Gv为高斯核函数。

(3)

其中,λi,σi分别表示中央与周边的峰值系数和尺度系数。

(4)

为达到最好的增益效果,引入了一个增益常数α,最终三通道的输出分量R(x,y)如下:

(5)

Fj(x,y)意为第j个中心/环绕函数,表达式如下:

(6)

经过增益后的亮度分量I最终表示如下:

(7)

亮度经对数变换后,图像的对比度会有一定程度的下降,会削弱对于消防车通道分割的完整性,因此还需要采取相应的改进方案。将当前像素点的亮度与其所在的一定大小的区域的像素平均亮度进行对比实现局部对比度增强,增强后的亮度图像I'(x,y)如下所示:

(8)

其中,A为局部的线性变化率为正值常数,由此实现了像素点亮度的局部自适应调整,如果当前点的亮度低于所处局部位置的平均亮度,则增强该点的亮度。改进的光照补偿算法与原算法的对比效果如图2所示。

图2 光照补偿效果

2.3 网络模型

图3展示了网络模型的整体结构,该文采用的是语义分割常用的编码-解码架构。

图3 网络整体结构

模型输入三张尺度不同的图像,经过亮度补偿模块增强后,通过三个分支从不同尺度的图像中提取特征,然后将三个分支提取到的特征融合[20],最后检测头输出结果。首先,第一个分支由4个标准单元组成,每个标准单元都是由卷积层、规范化层和池化层组成,由于该分支网络层数少,它提取的图像特征具有丰富的详细信息,所以此分支在大尺寸图像上进行特征提取。第二个分支由两个模块组成,一个CMCA(Conv Max-pooling Conv Average-pooling)模块和一个注意力模块。由于CMCA模块也是浅层网络,CMCA模块提取的特征也包含了丰富的细节信息,所以让该层在中等尺寸的图像上提取特征。在CMCA后面连接的注意力模块使得网络更加关注 CMCA提取的特征。第三个分支由ResNet18骨干网络和FO模块组成。ResNet首先对图像进行快速下采样以获得足够大的感受野,但是这会造成详细信息的严重丢失,该层用以提取尺度最小的图像的特征。此后用FO模块将第二个分支与第三个分支合并以获得融合有详细的信息并且具有较大感受野的特征,在经过一个标准单元后,通过FA模块再融合第一分支的特征得到最终的特征。通过上述操作之后,模型得到一个多尺度的融合特征。以下为上述模块的详细结构阐述。

(1)CMCA模块。

CMCA模块由卷积层、最大池化层和平均池化层组成。为了与ResNet18分支得到的特征图进行合并,CMCA的第一个结构采用步长为2、大小为7的卷积核,通过最大池化层后使用步长为2、大小为3的卷积核,最后通过一个平均池化层。CMCA 模块得到的特征图包含丰富的图像细节信息。

(2)FO模块。

FO模块结构如图4所示,FO模块的输入来自两个部分,一是第三个分支ResNet18经过三次下采样的输出,二是加入了CMCA模块提取的特征的输出。图中RA(Refine Attention)模块代表使用注意力机制来优化输入特征。具体过程为:首先分辨率为原图1/16和1/32的特征图利用RA模块进行单次优化,此后分辨率为1/16的特征图与第二个分支的输出相乘。分辨率为1/32的特征图进行上采样和平均池化,然后和原图相加再通过上采样到1/16再与上分支的中间结果进行加法计算,最后经过一次上采样后与1/8的特征图相加并输出。以上描述中所有的上采样都使用最近邻插值法。

图4 FO模块详细结构

(3)FA模块。

FA模块主要起到融合了三个分支提取到的特征的作用。首先连接两个输入特征,然后执行一系列卷积操作,再经过平均池化层和注意力层将输出特征和卷积特征相乘,然后相加。这样做的好处是补充了融合特征的详细信息,使得特征信息更加完整,以便在进行语义分割时获得更好的分割结果。其结构见图5(左),其中Attention表示Attention模块。

(4)Attention模块。

Attention模块主要由卷积层1、ReLu层、卷积层2、Sigmoid层组成,主要是为了优化CMCA等模块提取到的特征。结构见图5(右)。

2.4 消防车通道占用判定

该文提出了一种基于语义分割的消防车通道占用判定方法,具体流程见图6。

图6 消防车通道占用判定流程

对于车辆分割图的结果,首先筛选出其中有效的车辆位置信息,然后将车辆分割结果与消防车通道分割结果做交集运算,若检测出的车辆与消防车通道无交集,则认为是无效信息,反之则为有效信息,最后将无效信息从车辆分割结果中移除,仅保留有效信息。在信息筛选之后再将车辆分割结果与消防车通道分割图做第二次交集运算。在此过程中,若车辆未检测到,则无需进行后续的占用判定,直接得到无占用的结果;若检测到车辆存在,首先将车辆分割二值图与消防车通道分割二值图做交集运算去掉不与消防车通道重合的车辆,然后分别计算出车辆分割图Ic与消防车通道分割图Ifl的重合率α与相对位置关系,重合率如公式(9)~公式(11)所示。

(9)

(10)

α=max(αfl,αc)

(11)

对于网络的分割结果可以分为两种情况:当消防车通道被车辆遮挡的面积较大时,分割得到的面积较小,此时计算Ifl和Ic的交集与Ifl的比例得到αfl;二是消防车通道分割较大时,此时车辆分割面积较小,计算Ifl和Ic的交集与Ic的比例得到αc。最终的重合率α取两者的较大值。当α大于设定的阈值t(实验中使用的阈值为5%)时,认为车辆与消防车通道区域可能存在空间上的重叠关系,此时判定消防车通道处于被占用状态,反之则为未占用状态。

3 实验结果与分析

3.1 数据集与评估指标

(1)数据集。

由于消防车通道数据集比较特殊,网站上并没有该方面的公开数据集,因此自建了需要用到的消防车通道语义分割数据集FireLane。每张图片包含一个 FireLane语义类别用以表示消防车通道的像素语义,还包含一个Occupancy标志位用以表示是否发生了消防车通道占用。该数据集一共包含878张精细标注图片,其中夜晚场景178张,均为4 000×1 824像素,白天场景700张,均为4 608×2 112像素。由于该数据集采集和标注工作量较大,现有数量的图像同时用以训练和测试显得不够充足,数据量不足时可能会导致过拟合现象产生。故在原数据集的基础上使用了数据增广技术,随机增加扩充样本,减少模型对某些属性的依赖,提高模型的泛化能力。文中选取了一些较为常见的预处理措施,在原有图片的基础上改变图像的几何学特征和纹理结构,为训练出更好的语义分割模型奠定基础。这些措施包括:水平镜像翻转,增加整个网络在方向上的不变性;随机增加或减小图像亮度,提高网络对环境光照情况变化的适应能力;添加随机噪声,如椒盐噪声,获得对某些相机失真的不变性。

文中车辆分割网络使用常用的道路场景数据集Cityscapes进行训练和测试车辆分割部分,此数据集在道路场景分割相关的实验中使用较为普遍,因此不再详细描述。

(2)评估指标。

选择语义分割中常用的交并比(IoU)作为模型分割效果的评估指标。使用精准率(Precision)、召回率(Recall)和准确率(Accuracy)作为消防车通道占用检测效果的评估指标。

3.2 网络参数设置

在深度学习框架PyTorch上实现并训练了语义分割网络模型,本实验的训练与测试过程均在Window 10专业版+cuda10.1+cudnn7.6系统环境下进行,显卡配置为NVIDIA GeForce GTX 2070 Super。ResNet骨干网络的预训练权重参数是在Cityscapes数据集上训练得到的,其余部分使用随机初始化。训练时所有图像的基准尺寸调整为1 152×528,批处理大小设置为4,初始学习率为0.000 05,动量参数为0.9,权值衰减为0.000 1。

3.3 实验结果分析

(1)在Cityscapes数据集上的实验结果。

首先将使用的语义分割算法与现有的部分算法在Cityscapes数据集[21]上进行了对比实验以评估算法在道路和车辆方面的分割性能,结果如表1所示。文中算法与常规语义分割算法如DeepLabV3+[22]、PSPNetV2相比,分割效果略显不足。与ESPNetV2[23]、GUN[24]等轻量级语义分割网络相比,道路分割效果更好,分割精度更高。需要注意的是文中使用的主干网络是ResNet18,主要在解码部分做了前文提到的属于轻量级的改进,文中方法不需要使用很深的网络即可取得较好的分割结果,在实际应用中分割速度较快,且主要针对消防车通道此类边界分割做了优化。减少光照等因素对分割性能的干扰,使得一些具有丰富的边缘特征或纹理特征的非目标区域被误分割的情况显著减少。Cityscapes数据集中的测试数据都是白天城市场景,无法体现文中方法在夜间的道路分割效果,但此对比实验仍然证明了文中方法在车辆和道路上分割的有效性和准确性。

表1 与其他算法在Cityscapes数据集中Road和Car类别的比较结果 %

(2)在FireLane数据集上的实验结果。

图7展示了在几个有代表性的不同场景的实验中消防车通道分割结果,其中白天场景为测试集中白天拍摄的光照条件良好的图片,夜晚场景为测试集中夜间拍摄的亮度较低,光照影响较大的图片。

当图像质量较高,外界因素影响较少且消防车通道线比较明显时,各网络模型都可以较为准确地分割出消防车通道区域,如图7中的白天场景。

图7 在FireLane数据集上的部分实验结果

在夜晚场景1中,整体亮度稍低,消防车通道线有明显的磨损与边界模糊。文中在未加入光照补偿时,相对于图中其他方法仍具有一定的优势,这主要得益于解码部分的多尺度特征融合,网络对于整体特征和局部细节特征的合并使得图像上文信息得以充分利用,减少了消防车通道线的损失。在夜晚场景1,2中,夜晚场景的分割精度在视觉上有了明显的提升,此项提升归功于光照补偿模块的局部亮度自适应策略,明显改善了图像存在的低亮度、低对比度和阴影等问题带来的影响,有效地提高了图像进入分割时的视觉质量。

需要注意的是,由于FireLane数据集缺少车辆的标注信息,且车辆分割经实验论证具有相当的精确性,所以文中的消防车通道占用检测实验是在车辆分割结果默认为可靠的前提下进行的,实验结果如表2所示。其中的交并比IoU指标同Cityscapes对比实验,反映了消防车通道分割的性能;精准率Precision与召回率Recall为真实正例的统计情况,实验中召回率稍低是因为在夜晚场景中,部分图片中消防车通道被车辆占用的部分由于遮挡和光照未检测出来,致使检测出的占用结果不够全面。精确率较高则主要有两个原因,一是分割出来的部分的占用判定结果较为准确,二是测试集中相当部分消防车通道未发生占用。占用判定的准确率Accuracy为判定正确的部分占所有结果的比例,根据标签中的Occupancy是否命中计算得到,此部分结果反映了算法判定的准确度。

表2 FireLane数据集中不同场景消防车通道占用检测结果 %

实验结果表明,文中的消防车通道占用检测在白天场景准确度很高,在夜间也具有相当的准确度,其中光照补偿模块对夜间的提升尤为明显。

4 结束语

针对消防车通道占用而堵塞“生命通道”的问题,提出了消防车通道占用检测算法,在图像编码之前使用光照补偿模块优化图片的亮度信息,解码器部分使用多特征融合的网络结构,进行基础网络改进显著强化了特征信息的提取过程,使得消防车通道的边缘信息更加完整,分割结果更加准确。为了合理判定车辆是否占用消防车通道,利用前述步骤得到的结果,设计了一种判定算法,在制作的含精细标注的消防车通道数据集FireLane上,对于较为复杂和消防车通道占用易发生的夜间判定准确率也达到了85%以上,具有一定的实用价值,可以大量减少城市管理部门和消防部门对于消防车通道占排查上花费的人力物力。

深入分析实验结果可以发现,最终检测结果较为依赖语义分割模型的输出,且夜间场景上的指标明显低于白天场景。因此,如何更进一步地提高网络在夜间场景及更为复杂场景下消防车通道的分割效果,提高检测精度将是今后的研究重点。

猜你喜欢
消防车亮度语义
用于遥感影像亮度均衡的亮度补偿方法
真实场景水下语义分割方法及数据集
远不止DCI色域,轻量级机身中更蕴含强悍的亮度表现 光峰(Appptronics)C800
消防车
“迷你”消防车的启示
本本亮度巧调节,工作护眼两不误
亮度一样吗?
消防车有哪些种类
“吃+NP”的语义生成机制研究
情感形容词‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的语义分析