一种双流卷积神经网络的黑烟车检测算法

2022-03-05 14:21吴丙芳汪仕铭

合肥工业大学学报（自然科学版） 2022年2期

吴丙芳, 叶兵, 汪仕铭

(合肥工业大学电子科学与应用物理学院,安徽合肥 230601)

近年来随着国民经济的快速发展和城镇居民生活水平的提高,机动车的数量也在快速增加。《中国机动车环境管理年报(2018)》显示:我国机动车保有量达到3.1×108辆,机动车污染物排放总量已达到4×104t。机动车排放已成为PM2.5的首要来源,是造成细颗粒物污染的重要原因[1]。机动车排气污染监测主要有定期环检、道路抽检等方式,需要投入大量的人力物力,难以实现实时监测。为了解决目前机动车黑烟监测中存在的问题,基于道路监控视频的机动车黑烟识别方案应运而生。因而对行驶中的机动车进行黑烟识别具有重大的现实意义。

基于道路视频的机动车黑烟监控技术仍然处于起步阶段。文献[2]采用一种可见光相机和远红外相机相结合的方法来检测黑烟，但是通过在红外相机中寻找热点并不能有效地定位排气管,并且准确融合可见光图像和红外图像也是一个难点。文献[3-4]设计黑烟的运动、颜色、形状、纹理等视觉特征,将黑烟特征输入到分类器中完成分类识别。相比常规方法,深度神经网络方法实现了从原始图片到分类结果端到端的学习,对图像具有极强的数据表征能力,具有适应性好、抗干扰能力强的特点,已广泛应用于医疗、军事、人脸识别和行为识别等领域[5-9]。

基于图像处理技术的黑烟车识别难度主要体现在:① 机动车尾气黑烟的形态多样,没有固定形式;② 尾气黑烟的边缘和区域不规则变化;③ 尾气轻烟与浓烈黑烟表现出来的特征差异较大。为了解决以上难点,本文提出一种基于双流卷积神经网络(two-stream convolutional neural networks,Two-Stream CNN)模型的机动车黑烟识别方法。

1 机动车候选黑烟区域提取

在道路上方架设了监控方向与车辆行驶方向相同的摄像机来获取道路交通视频。在视频中,对视频每帧不进行预处理直接进行黑烟识别判断会导致黑烟识别率下降且算法复杂度高,难以满足实际应用中的实时性要求。本文先对监控视频进行预处理获取候选黑烟区域,然后针对候选黑烟区域进行黑烟特征判断,既能降低算法复杂度又能去除某些干扰物体。进而通过背景建模提取运动前景,使用一定的规则进行车辆判断;最后在运动车辆上进行霍夫直线检测,找到车辆尾部的直线即可定位候选黑烟区域。

1.1 车辆检测

车辆检测是进行黑烟车检测的基础,目前准确、鲁棒的车辆检测仍然是一项具有挑战性的任务[10-11]。综合考虑常用背景模型算法准确率和复杂度,本文机动车视频的分辨率为1 024×768,采用Vibe背景模型提取运动前景,得到运动前景最小外接矩形的长和宽分别为Rh和Rw。然后根据运动前景的长度、宽度以及长宽比Rhw判断该运动前景是否为机动车。逻辑判断公式为:

(1)

其中：L1为机动车的最小长度;L2为机动车的最小宽度;[δ1,δ2]为机动车边界框长宽比的变化范围。本文中L1、L2的大小分别为30和50个像素点,δx取1.5,δy取5,L1、L2、δ1、δ2均为可调节的经验值。根据车辆判别(1)式最终判断出该运动前景是否为机动车。

1.2 候选黑烟区域提取

机动车车身外形结构有2个特点:① 车厢绝大多数为立方体结构,车尾呈直线形状;② 排气管出口分布在机动车尾部。因此,本文对每个机动车图像按如下方法进行黑烟区域提取。首先在图像上使用霍夫变换方法进行直线检测,然后在检测到的直线中,按规则确定车尾边界直线信息,从而定位候选黑烟区域边界框。

霍夫变换是一种通过计算图像边缘像素的梯度信息来检测直线的有效方法。在传统霍夫变换中,直线的极坐标方程为:

ρ=xcosθ+ysinθ

(2)

由(2)式可以看出它是2个直线参数ρ和θ的霍夫变换。ρ为原点与直线的距离,称作极径;θ为直线垂线与x轴的角度,称作极角,θ∈[-90°,90°]。首先建立二维参数ρ、θ的离散数组累加器A[ρ,θ],然后找到累加器峰值A[ρw,θw],其中ρw、θw是共线点最多的直线参数。

考虑到机动车车尾直线一般接近水平直线,本文采取缩小θ取值范围的方法来提高检测效率。根据不同车辆的大量实验,取θ∈[-90°，-75°]∪[75°，90°]在机动车图像上进行直线检测。将检测到的直线作为候选直线,在候选直线中查找最接近车尾边界的直线。机动车车尾边框位于机动车图像的最底部,因此本文选择与原点距离最短的直线ρD作为目标直线,即

ρD=min(ρ1,ρ2,…,ρk)

(3)

其中：ρD为目标直线的极径;ρk为候选直线的极径。

检测到车尾直线后,则可得到候选黑烟区域,如图1所示。其中：外矩形为车辆目标的边缘矩形;中部直线为检测到的车尾直线;内矩形代表候选黑烟区域。

图1 部分候选黑烟区域提取结果

1.3 光流图像的获取

当人们观察运动物体时,视网膜上会形成物体一系列连续变化的图像,这一连续变化的图像包含了目标的运动信息,它们好像光的“流”一样不断“流过”视网膜,故称之为光流。光流法是一种非常经典的运动估计方法。它通过相邻视频帧中像素的对应关系来估计2张图像的位移场。对于机动车黑烟识别,机动车排放的黑烟有一定的动态特征,黑烟会伴随着机动车的行驶和风向在空气中扩散,有扩散性和不规则性的特点。在机动车黑烟视频中使用光流法能够计算得到每个像素点的运动速度和运动方向,将目标的运动信息用图片的方式表示出来就是光流图片。

本文采用了Opencv工具箱中比较常用的Lucas-Kanade光流算法。假设条件为:① 亮度恒定,即同一点在相邻2帧里的亮度不变;② 小运动,即相邻帧之间同一个点的位置不会剧烈变化,据此灰度才能对位置求偏导;③ 空间一致,一个场景上邻近的点投影到图像上也是邻近点,且邻近点速度一致。图像的约束方程为:

I(x,y,z,t)=I(x+Δx,y+Δy,z+Δz,t+Δt)

(4)

其中,I(x,y,z,t)为图像在点(x,y,z,t)的像素强度。经过以上过程由原始视频帧得到候选黑烟区域和光流图如图2所示。

2 双流卷积神经网络的黑烟识别

2.1 深度残差神经网络

卷积神经网络(convolutional neural networks,CNN)区别于传统手工设计物体特征的方法,可以实现从原始图片到分类结果端到端的学习,更加有效地提取物体的深度特征。通过增加深度网络的层数可以在一定程度上提高网络的性能,然而一味增加深度会造成梯度消失或梯度爆炸,致使网络无法训练。如图3所示,深度残差神经网络(ResNet)[12]由多个残差学习单元组合而成,这种模块加入了直连通道,网络输入可以绕过网络学习直接传输到网络输出,它有效地解决了传统卷积神经网络中的这种问题。整个模块的输入为x,经过2个卷积层W1、W2运算后输出为F(x,W1，W2),采用Relu激活函数后整个模块的输出y为:

y=F(x,W1,W2)+Wsx

(5)

其中：W1、W2为2个卷积层的权重参数;Ws为将x从输入维度变成输出维度的矩阵。

图3 残差学习模块

2.2 双流卷积神经网络结构

视频内容可以分解为空间信息成分和时间信息成分。空间信息是指每帧图片中的背景和前景的空间分布信息；时间信息是指帧与帧中之间对应点的变化关系信息。为了让网络模型更具有特征学习能力,本文提出一种双流卷积网络结构,模型由空间流网络和时间流网络组成,如图4所示。在空间流网络中,以候选黑烟区域的RGB图片为输入信息,采用深度残差网络ResNet-50提取尾气黑烟的空间特征;在时间流网络中以尾气黑烟的光流图为输入信息,同样采用ResNet-50网络提取尾气黑烟的时间特征。ResNet-50包含了49个卷积层和1个全连接层,网络结构如图5所示。空间流网络的Softmax输出可以表示为:

Sspatial=F(X,W)

(6)

其中:X为从黑烟视频帧中计算得到的黑烟图像;W为深度残差网络对应的网络结构参数,通过优化W的值来提取黑烟空间特征;F(X,W)为空间流网络的输出结果。同理，时间流网络的Softmax输出可以表示为:

Stemporal=F(Y,W)

(7)

其中，Y为空间流中黑烟图像所对应的光流图。本文参考文献[13]将2个网络流的Softmax输出进行均值融合,最后双流网络的输出结果为:

(8)

图4 黑烟检测双流卷积神经网络模型

图5 ResNet-50网络结构

3 实验与分析

3.1 黑烟数据集

目前还没有统一的标准视频黑烟数据集。为了验证本文所提出算法的普适性,收集了安徽、江西、广东、河南等5个省份22个路口的监控视频。视频由龙门架或固定杆件上的监控摄像机拍摄,包含了各种车型,覆盖了各个季节、天气、光照等环境条件,可以充分代表国内各个路口的道路情况。总共搜集到632辆日间黑烟车样本视频,部分黑烟样本如图6所示。

图6 黑烟样本

根据拍摄到的机动车视频,本文建立了空间流数据集和时间流数据集。空间流数据集包含正负样本各17 500幅图像,其中黑烟图片是有烟的机动车视频中提取的候选黑烟区域图片,无烟图片是从无烟机动车数据集中提取的候选黑烟区域图片。随机选择80%作为训练集,余下的20%作为测试集。时间流数据集同样包含正负样本各17 500幅光流图片,光流图片由空间流数据集中相邻帧的图片计算得到。随机选择80%作为训练集,20%作为测试集。

3.2 结果与分析

本文通过以下几组实验来验证所述双流网络框架的有效性:① 使用未提取候选黑烟区域的原始RGB视频帧训练ResNet-50模型;② 使用提取的黑烟候选RGB图片训练ResNet-50网络模型;③ 使用候选黑烟图片的光流图训练ResNet-50网络模型;④ 使用候选黑烟图片和光流图片训练双流卷积神经网络模型。

文中模型的初始化权重均是由ImageNet数据集预训练得到,然后使用黑烟训练集微调网络模型,大大减少了训练时间,促进模型更快收敛。网络训练的批大小设置为128,初始学习率为0.1,冲量设置为10-4。整个训练回数设置为60,学习率每20个回合进行10倍衰减。黑烟测试集分别包括3 500张黑烟图片和3 500张非黑烟图片,各个模型在测试集的准确率见表1所列。

表1 不同实验的识别结果单位:%

从表1可以看出,ResNet-50模型对于原始RGB图片的黑烟识别率和非黑烟识别率都很低,而对候选区域RGB图片识别较高,说明道路环境背景对黑烟识别有很大的影响,通过运动目标检测提取候选黑烟区域可以大大减少背景对模型的干扰。ResNet-50模型对光流图的识别率也高于原始RGB图片,但是比候选区域图片差。这是由于黑烟光流图片只有黑烟的运动特征和一定的空间特征,缺少了黑烟RGB图片中的纹理和颜色等信息,导致单纯用光流图的黑烟识别效果并不是很好。本文的Two-Stream CNN网络模型同时融合了黑烟图片和光流图片的信息,从而提高了黑烟检测的准确率。

3.3 算法对比

将本文算法与现有文献中的算法进行对比,结果见表2所列。由表2可知,本文提出的Two-Stream CNN模型相比传统的手工特征和原始的双流神经网络[14]效果都有不同程度提升,表明了本模型能更好地检测出机动车黑烟行为。

表2 不同算法的识别准确率对比单位:%

4 结论

本文提出了一种基于时空双流卷积神经网络的方法Two-Stream CNN来完成视频中的机动车黑烟识别任务。Two-Stream CNN充分利用了视频的空间维度和时间维度信息,且不需要人工设计机动车黑烟视觉特征。实验结果表明,本文提出的机动车黑烟检测算法具有很好的效果,为道路机动车排污监控打下了基础,有利于推进机动车黑烟监控的信息化和智能化。