ForegroundNet:一种基于语义与动态特征的前景检测算法

2020-08-27 06:12赖少川王佳欣马翠霞
图学学报 2020年3期
关键词:前景卷积像素

赖少川,王佳欣,马翠霞

ForegroundNet:一种基于语义与动态特征的前景检测算法

赖少川1,王佳欣2,3,马翠霞2

(1. 中国石化销售股份有限公司华南分公司,广东 广州 510000;2. 中国科学院软件研究所,北京 100190;3. 中国科学院大学计算机科学与技术学院,北京 101408)

针对以往的前景检测方法对场景信息依赖较多的问题,提出了一种实时的无需迭代更新背景模型的前景检测深度学习模型ForegroundNet。ForegroundNet首先通过骨干网络从当前图像和辅助图像中提取语义特征,辅助图像为相邻的图像帧或者是自动生成的视频背景图像;然后将提取得到的特征输入到包含短连接的反卷积网络中,使得最终特征图在与输入图像具有相同的大小,并且包含不同尺度的语义及动态特征;最后使用softmax层进行二值分类,得到最终检测结果。在CDNet数据集上进行的实验结果表明,相比于当前值为0.82的次优方法,ForegroundNet能够获得0.94的值,具有更高的检测精度;同时ForegroundNet检测速度达到123 fps,具有良好的实时性。

前景检测;深度学习;计算机视觉;卷积神经网络;运动分割

前景检测是一种在摄像机可见区域中分割变化或移动区域的技术[1],是视频监控、人机交互和机器人等计算机视觉任务中的一个基本问题。以往的前景检测方法通常假设光照和背景稳定不变,并采用多种基于人工设计特征的背景建模技术,如高斯混合模型GMM[2]和SuBSENSE[3]。这些方法需要同时初始化和维护正确的背景模型,并使用背景模型和预先定义的阈值计算每个输入帧的前景掩码。由于此类方法预测的前景与真实情况存在差异,并随时间增加误差不断累积,难以应对背景剧烈变化的场景。

随着硬件技术与机器学习的发展,基于卷积神经网络(convolutional neural network,CNN)的方法在计算机视觉领域取得了众多突破。基于大数据与神经网络所学习到的特征,在一定程度上提高了前景检测的精度。然而基于CNN的方法需要提前获得目标的场景信息,如使用一个背景图像和多个输入帧作为输入[4-5],或要求对每个测试集取其中少量带标注的视频帧进行预训练[6]。但在实际应用中这些要求难以满足,因为真实环境可能频繁变化,难以获得一个与实际情况始终保持一致的背景模型,同时应对大量全新的视频场景,既不便获得带标注的对应视频帧,也难以针对不同视频场景训练不同的网络模型权重。因此,为了应对陌生的视频场景及频繁变化的真实环境,需要摆脱对场景信息的依赖。

结合背景模型与CNN的方法如CNN-SFC[7],利用3种前景检测方法SuBSENSE、FTSG[8]以及CwisarDH[9],将其输出结果输入到以VGG[10]为骨架编码器的UNet[11]网络中,最终得到修正的前景预测结果。类似的还有结合背景模型与CNN的方法[12],利用Triplet网络进行背景的深度特征提取,再通过维护基于样本的背景模型,输出相应场景下的前景检测结果。这些方法虽然不直接依赖于目标视频的场景信息,但由于缺乏对前景及背景的语义建模,或缺乏对动态特征的建模,虽不需要背景图像或场景中的视频帧作为训练时的输入,但在全新的视频场景,很难对前景做出准确的预测,在一定程度上,对新场景的预测结果,依旧依赖训练视频的场景信息。

本文的主要研究成果为:①提出一个基于语义与动态特征的深度学习模型ForegroundNet。如图1所示,以VGG或MobileNet[13]为骨干网络,通过迁移学习,利用骨干网络从已训练好的ImageNet[14]权重中获取2幅输入图像的语义特征,并通过 5个反卷积层及跳跃连接构建一个双流编码器融合-解码器网络,从而提取所需的多尺度动态特征。由于CDNet2014[15]中的视频镜头基本固定,因而ForegroundNet可以通过来自2幅图像的特征合并与卷积操作,学习优于帧差法及高斯混合模型的特征,如前景的动态特征与外形特征,最终区分像素是否属于运动目标。②本文方法在CDNet2014数据集上获得更好的结果(值达到0.92),并具有良好的实时性(123 fps),ForegroundNet不需要预先提供目标场景的信息,减少了对场景信息的依赖。同时,本文通过实验验证了模型超参数的设置,如骨干网络、合并方式、Drop out参数和帧差。

图1 ForegroundNet概要图

1 相关工作

1.1 传统的前景检测算法

传统前景检测算法通常不采用深度神经网络自动学习特征,而是采用人工设计特征与背景建模技术,并以遍历像素的方式计算输入帧的前景掩码概率。主要使用参数模型(如高斯混合模型GMM)或非参数模型(如SuBSENSE,VIBE[16])建立背景模型。由于内存和计算复杂度上的限制,无法使用超过3个高斯模型对背景像素进行建模,而实际场景下使用少数高斯分布进行联合的参数模型不能处理视频中的突然变化(对于非高斯分布,少数高斯分布的联合分布通常难以进行准确的拟合与逼近)。对于非参数模型,通过记录各个位置输入像素的历史,以预测当前位置输入的像素是否为背景。尽管类似VIBE的方法在效率和精度上都优于大多数参数模型,但其难以处理频繁的背景变化与复杂的视频场景。

1.2 基于卷积神经网络的前景检测算法

基于CNN的前景检测算法应用CNN和深度学习技术,通常使用一个背景图像和多个视频图像帧作为输入[4-5],或者需要对每个测试集,利用其中一些具有标注图像的帧进行训练[4]。文献[5]利用SuBSENSE和FTSG生成背景图像,并用背景图像和标注图像训练针对特定视频类别的模型,因此所提出方法需要对每个类别重新训练。文献[6]从标注图像生成背景图像,然后利用背景图像和前半序列的标注图像训练LeNet-5[17]网络的变种,最终获得了接近于传统方法的前景检测精度,如SuBSENSE,IUTIS[18]。另提出了一种半自动级联卷积神经网络方法来精确地生成前景掩码,该方法需要利用每个场景的几帧图像对网络进行微调,从而达到与人工标注相近的结果。

基于单个视频帧及CNN的前景检测算法,容易对训练视频过度拟合。为了避免过拟合和对不同视频的重新训练,并保证前景检测的实时性,使用轻量级网络如MobileNet或VGG作为骨干网络,其包含来自ImageNet的语义信息。经过实验验证,仅利用在ImageNet上预训练的权重,同时在不进行过度调参的情况下,ForegroundNet可以采用单一模型处理所有数据集中的视频,其效果超越了目前最优的传统前景检测方法SuBSENSE。

1.3 基于编解码网络的前景检测算法

此类方法使用自动编码器网络生成背景图像,然后使用阈值获得前景掩码[19-20],或者使用自动编码器网络直接生成前景掩码[21-22]。文献[19-20]使用自动编码器网络生成背景图像,然后使用背景与输入帧像素值的像素差和给定的阈值生成前景掩码。然而,如果前景对象与背景颜色相似,即使有一个最理想的背景图像,该方法也很难得到一个准确的前景掩码。ZHANG等[23]提出了一种基于层叠的降噪自解码器网络的图像特征生成方法,利用散列方法对图像特征表示进行二值化,以减少内存占用,提高检测效率,然后利用背景模型与输入特征之间的汉明距离生成前景掩码。该方法与传统方法一样,仍然严重依赖于背景模型的初始化和更新。

文献[21]以当前帧、前一帧和背景图像为输入,在每个视频类别上训练编解码网络产生分割图。分割图将用于生成前景掩码和更新背景模型。文 献[22]采用编码器-解码器网络提取像素级语义特征,利用长短期记忆网络建模,且随时间变化的像素级变化,结合空间变换网络和条件随机场层降低对摄像机运动的敏感度,平滑前景边界。更详细的相关工作可以参考文献[1,24-25]。

本文提出的ForegroundNet使用一个主图像帧和一个辅助图像作为输入来产生前景掩码,可利用超过100层的网络(卷积和反卷积)对图像特征进行编码和解码,结合成镜像的短连接以增强多尺度特征重用。在采用单个模型权重的情况下,无需采用级连学习、集成学习或条件随机场后处理,即可获得在CDNet2014数据集上单模型更高的结果。

2 ForegroundNet

2.1 ForegourndNet结构

通过输入当前图像与辅助图像训练一个端到端的全卷积网络来预测前景图像掩码。将输入图像对的大小缩放为224×224,保持与在ImageNet上预训练的MobileNet、VGG等骨干网络的输入尺寸一致,避免因尺度变化而带来的性能下降,从而提高语义特征的迁移学习效率。ForegroundNet网络由基于骨干网络的融合编码器和一个带反卷积网络的解码器构成(表1)。通过添加编码器和解码器之间的短连接,使得解码器中含有融合后的较高维特征、来自2幅输入图像的较低维特征,以便于ForegroundNet学习输入视频中的语义及动态特征。本文通过每个像素的标签Î{0,1}来指明每个像素中是否包含前景:=0为背景,=1为前景。解码器产生224×224×2的输出,然后送入softmax层进行分类。网络的损耗函数是像素级softmax损失的总和,即

表1 ForegroundNet的解码器网络结构

其中,softmax为softmax损失;y为真实标签;p为在坐标点(,)对2个标签的预测概率,即背景和前景。见表1基于拼接合并类型的ForegroundNet,对应着图2中的反卷积网络,具有6个合并(拼接)层,5个反卷积(conv2d_transpose)层和9个卷积(conv2d)层。其中,Concatenate_i,conv2d_j,conv2d_transpose_k是在ForegroundNet的反卷积网络中的第,,个卷积和反卷积层。为了简化说明,没有显示归一化层和drop out层。而对于每个卷积层,其后依次是归一化层和drop out层。对于不同的合并类型,网络结构对于合并层可能具有不同的输出形状。每层的输出形状均以(batchsize×height×width×channel)表示。此处忽略批量大小(batch size),对于concatenate_1,7×7×2048表示输出的特征高度为7,宽度为7,通道数为2 048。表1中的反卷积层,,,,对应于图2中的相应结构。

2.2 算法实现

本文在CDNet2014数据集上进行实验,简称为CDNet数据集。对于所有实验,可根据以下基准配置来修改参数:使用MobileNet作为骨干网络,在一定程序上通过减小模型参数来避免过拟合,并通过减小模型大小来提高实时性;使用当前图像帧和自动生成的背景图像作为输入(输入类型);设置Drop out参数值为0,避免因Drop out导致批量归一化层不稳定;网络层合并类型为拼接,虽然拼接增加了少量网络参数,但可以保存所有的输入图像特征,提高模型精度;对于ForegroundNet的反卷积网络中的卷积层(图2),使用3×3的卷积核而不是更大的卷积核来达到减少参数的目的,并且用1×1的卷积步长和零填充策略保持特征图的大小不变;使用整流线性单位(ReLU)作为激活函数,并在图2的反卷积网络中的每个卷积和反卷积层之后插入批处理归一化和Drop out层。

图2 ForegroundNet框架

对于来自双帧的特征,在6个不同的图像尺度上(1,1/2,1/4,1/8,1/16,1/32)分别通过短连接和特征合并,获取不同尺度的语义及动态特征。针对每个尺度的处理模块包含3类,分别是合并模块:用来将输入特征融合;卷积模块:对特征进行转换;反卷积模块:对特征尺度进行变换。由于处理模块中包含一个卷积模块与反卷积模块,与VGG网络结构类似,可以通过堆叠卷积网络层处理相同尺度的特征以达到更好的特征提取能力。实验中固定骨干网络的权重,在一定程度上避免ForegroundNet对CDNet2014数据集的过拟合。

3 实 验

3.1 训练数据

CDNet数据集包含多种类别的视频,这些类别涵盖了许多监控环境中遇到的挑战。研究者们已经提出了多种前景和变化检测算法,其在某些特定类型的视频中表现良好,但是大多数算法对突然的光照变化、恶劣的环境条件(夜晚,下雨,下雪,空气湍流)、背景/摄像机运动、阴影以及伪装效果(物体和背景的颜色相似)效果不稳定。CDNet数据集中的每张标注帧都有像素级别的标注,包括静止(Static)、阴影(Shadow)、未标注(Non-ROI)、未知(Unknown)和运动(Moving)。

在训练阶段,首先将输入图像中的Non-ROI像素替换为随机常量值(标签图像中的Non-ROI和Unknown像素将被视为地面真实图像中的背景,因为其未标注为背景或运动对象,所有也不更改对应未知像素标注的输入图像区域),然后将输入图像的RGB值标准化为[–1,1]。记={main,auxilary}为一对输入图像。本文通过像素标签Î{0,1}来显示每个像素是属于前景还是背景。背景类别(=0)是包括静态背景、无意义的变化和动态背景变化,而前景类别是指人们感兴趣的变化。如果使用2个图像帧作为输入,可随机选择2个具有帧差的图像(帧索引差)作为输入图像帧,并使用人工标注结果作为标签。如果使用背景图像作为辅助输入,本文采用LaBGen[26]的默认设置为每个视频序列生成相应的背景图像。

3.2 训练过程

本网络包含图2中的2个主要组件:特征网络(骨干网络)和分割网络(反卷积网络)。2个输入分支通过基本连接和短连接进行交互。为了训练模型,首先使用ImageNet上预训练的模型初始化特征网络,然后仅在固定骨干网络权重的CDNet数据集上微调分割网络。实验训练中,发现针对单个视频可以用更简单的CNN网络结构进行背景建模,但其性能随着视频种类的增加而迅速下降。因此,在整个数据集采用相同的网络权重。

本文在CDNet 2014数据集上使用Adam优化器训练了30个。批次大小为32,为0.9,衰减率为0.001。为了避免过拟合,本文应用了数据扩充。数据扩充包括亮度更改、中值模糊和等操作。在实验中采用数据集Tiny CDNet用于更快的参数优化和更好的欠拟合/过拟合检查(在官方测试中ForegroundNet的值为0.94,而在Tiny CDNet上只达到0.89)。Tiny CDNet数据集使用完整CDNet数据集的5%,且帧差等于20。可将Tiny CDNet数据集随机分为互斥的训练和测试数据集。在训练阶段,将每个训练周期的训练数据集顺序随机打乱,以使输入样本在种类和时序上多样化。Tiny CDNet数据集在实验中的效果与Full CDNet数据集相似,因为大多数图像序列的帧速率均超过30 fps,帧数间隔为20,意味着当前图像和辅助图像均在1 s内被捕获。由于1 s内图像的内容基本相似,因此采用Tiny CDNet进行训练包含的样本多样性近似于Full CDNet,但Tiny CDNet可以加快实验速度,同时避免数据集划分上的重叠问题。

3.3 评估方法

为将本文方法与CDNet 2014数据集竞赛中提交结果的方法进行比较,对比了本文与其他方法在7种不同评价指标上的结果。设置为正确预测的正例数(检测为前景的前景像素),为正确预测的负例数(检测为背景的背景像素),为错误预测的正例数(检测为背景的前景像素),为错误预测的负例数(检测为前景的背景像素)。推荐的评估指标是检测到的前景像素的精度,检测到的前景像素的召回率和检测到的前景像素的值,即

大多数情况下高召回率意味着低精度,而高精度意味着低召回率。为了比较不同的方法,值是同时考虑召回率和精度的良好指标。CDNet基准中定义了其他评估指标,如,,,等。

3.4 在完整CDNet 2014数据集上的性能

表2显示了在值方面与CDNet官网[15,29]上几种最新方法的定量比较。本文方法的评估指标均有良好的表现。表3展示了算法针对CDNet不同类别视频的详细结果信息。ForegroundNet达到了更高的值,=0.94,相比于次优方法的0.82提升了12%。图3显示了CDNet 2014数据集各种序列的典型分割结果,其中,从左到右依次是“当前帧”,GMM[2],KDE[30],BMOG[31],SubSense[3],FTSG[8],ITUIS-5[18],DeepBS[5],本文的结果(ours)和标注结果(GT);从上到下,分别为CDNet数据集中不同的视频种类。NV: night video, SD:shadow, CJ:camera jitter, TB:turbulence, DB:dynamic background, BL:baseline, LF:low frame rate, IOM:intermittent object motion, BW:bad weather, PTZ:PTZ, TM:thermal。本文方法获得的结果优于其他方法,特别是在IOM,PTZ,TM类别上。IOM更依赖动态特征对前景进行区分,PTZ的镜头存在一定缩放变化,而TM则缺乏相应的语义信息。这在一定程度上证实ForegroundNet不仅在静态镜头下具备良好的语义特征学习能力,在镜头变化不大的情况下也具备一定的动态特征学习能力。

表2 CDNet 2014数据集比较

表3 在CDNet 2014数据集上的ForegroundNet的结果

图3 在CDNet 2014 数据集上的分割结果

3.5 Tiny CDNet 2014数据集的消融实验

3.5.1 骨干网络的效果

表4通过比较3种骨干网络(VGG16[10],VGG19[10],MobileNet)的效果,显示了其值比较的结果。使用VGG16的网络获得了更高的值,而使用MobileNet则在效率和值之间取得了更好的平衡。使用MobileNet的网络提升了近50%,而平均值仅减少了2%。

表4 Tiny CDNet 2014数据集上骨干网络的对比实验

3.5.2 网络层合并类型的影响

表5为具有不同网络层合并类型(例如拼接、相乘或相加)的结果,其中相加的值最好。这是由于拼接策略使得通道数翻倍,增加了参数量,导致了过拟合现象。而相乘策略则丢失了大量运动信息。

表5 Tiny CDNet 2014数据集上的图层合并类型实验

3.5.3 Drop out的影响

表6显示了在0.0~0.5之间时ForegroundNet的值。可以减轻模型的过度拟合,但也给模型训练带来不稳定性。实验结果表明,其为0.1时结果最优。

表6 Tiny CDNet 2014数据集的Drop Out实验

3.6 使用相邻帧作为辅助输入

3.6.1 输入帧类型

基于基准配置,本文使用图像帧作为当前输入,并使用相邻输入帧(简称为当前帧+相邻帧)或自动生成的背景图像(简称为当前帧+背景图像)作为辅助输入。表7为Tiny CDNet数据集不同输入类型的比较。网络遵循对称性准则,使用2个输入帧,分别为在时间的当前输入帧和在时间-7的相邻输入帧(本实验设置帧差为7)。表7显示使用当前帧+相邻帧的结果与使用当前帧+背景图像的结果相近。因此,在无法获得背景图像情况下,网络可以在没有背景图像作为辅助输入的情况下,以2个图像帧作为输入来获得相近的值,保证检测网络的稳定运行。

表7 在Tiny CDNet 2014数据集上的输入类型实验。

3.6.2 输入帧之间的帧差选择

为了验证在当前帧+相邻帧输入模式下具有不同帧差的基准网络性能,表8显示了不同帧差(范围从1~9)的值结果。最佳帧差会随视频的每秒帧数(fps)和前景图像的运动速度而变化。对于CDNet2014数据集而言,一般帧差为7既可以使2个输入帧之间有较大差异,也可以保持背景相对稳定,从而取得最优的值。

表8 在Tiny CDNet 2014数据集上的帧差选择实验

4 结 论

本文提出了一种基于语义与动态特征的双流编码器融合-解码器前景检测分割网络ForegroundNet。与之前需要维护背景模型及依赖背景信息的CNN方法不同,本方法可仅使用2幅图像作为输入,利用学习到的语义和动态特征完成前景检测。给出了采用相邻帧或背景帧作为辅助输入图像的对比实验,结果表明ForegroundNet可以采用相邻帧作为输入并获得与采用背景帧相近的前景检测精度,减少对场景信息的依赖。通过设计实验在CDNet 2014数据集上进行相关验证,结果表明本方法在输入 2幅帧图像的情况下可获得更高的值,而且具备良好的实时性。

[1] SOBRAL A, VACAVANT A. A comprehensive review of background subtraction algorithms evaluated with synthetic and real videos[J]. Computer Vision and Image Understanding, 2014, 122: 4-21.

[2] ZIVKOVIC Z. Improved adaptive Gaussian mixture model for background subtraction[C]//Proceedings of the 17th International Conference on Pattern Recognition, 2004. ICPR 2004. New York: IEEE Press, 2004: 28-31.

[3] ST-CHARLES P-L, BILODEAU G A, BERGEVIN R. SuBSENSE: a universal change detection method with local adaptive sensitivity[J]. IEEE Transactions on Image Processing, 2015, 24(1): 359-373.

[4] BRAHAM M, VAN DROOGENBROECK M. Deep background subtraction with scene-specific convolutional neural networks[C]//2016 International Conference on Systems, Signals and Image Processing (IWSSIP). New York: IEEE Press, 2016: 1-4.

[5] BABAEE M, DINH D T, RIGOLL G. A deep convolutional neural network for video sequence background subtraction[J]. Pattern Recognition, 2018, 76: 635-649.

[6]WANG Y, LUO Z M, JODOIN P M. Interactive deep learning method for segmenting moving objects[J]. Pattern Recognition Letters, 2017, 96: 66-75.

[7] ZENG D D, ZHU M, KUIJPER A. Combining background subtraction algorithms with convolutional neural network[J]. Journal of Electronic Imaging, 2019, 28(1): 013011.

[8] WANG R, BUNYAK F, SEETHARAMAN G, et al. Static and moving object detection using flux tensor with split Gaussian models[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2014: 414-418.

[9] DE GREGORIO M, GIORDANO M. CwisarDH $$^+$$: Background detection in RGBD videos by learning of weightless neural networks[C]//International Conference on Image Analysis and Processing. Heidelberg: Springer, 2017: 242-253.

[10] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2019-11-27]. http://arxiv.org/abs/1409.1556.

[11] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]//Lecture Notes in Computer Science. Heidelberg: Springer, 2015: 234-241.

[12] NGUYEN T P, PHAM C C, HA S V-U, et al. Change detection by training a triplet network for motion feature extraction[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(2): 433-446.

[13] HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. [2019-11-27]. http://arxiv.org/abs/1704.04861.

[14] RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.

[15] WANG Y, JODOIN P M, PORIKLI F, et al. CDnet 2014: an expanded change detection benchmark dataset[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2014: 387-394.

[16] BARNICH O, VAN DROOGENBROECK M. ViBe: a universal background subtraction algorithm for video sequences[J]. IEEE Transactions on Image Processing, 2011, 20(6): 1709-1724.

[17] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[18] BIANCO S, CIOCCA G, SCHETTINI R. Combination of video change detection algorithms by genetic programming[J]. IEEE Transactions on Evolutionary Computation, 2017, 21(6): 914-928.

[19] XU P, YE M, LI X, et al. Dynamic background learning through deep auto-encoder networks[C]//Proceedings of the ACM International Conference on Multimedia-MM’14. New York: ACM Press, 2014: 107-116.

[20] XU P, YE M, LIU Q, et al. Motion detection via a couple of auto-encoder networks[C]//2014 IEEE International Conference on Multimedia and Expo (ICME). New York: IEEE Press, 2014: 1-6.

[21] LIM K, JANG W D, KIM C S. Background subtraction using encoder-decoder structured convolutional neural network[C]//2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). New York: IEEE Press, 2017: 1-6.

[22] CHEN Y Y, WANG J Q, ZHU B K, et al. Pixel-wise deep sequence learning for moving object detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017(99): 1.

[23] ZHANG Y Q, LI X, ZHANG Z F, et al. Deep learning driven blockwise moving object detection with binary scene modeling[J]. Neurocomputing, 2015, 168: 454-463.

[24] BOUWMANS T. Traditional and recent approaches in background modeling for foreground detection: an overview[J]. Computer Science Review, 2014, 11-12: 31-66.

[25] BOUWMANS T, JAVED S, SULTANA M, et al. Deep neural network concepts for background subtraction: a systematic review and comparative evaluation[J]. Neural Networks, 2019, 117: 8-66.

[26] LAUGRAUD B, PIÉRARD S, VAN DROOGENBROECK M. LaBGen: a method based on motion detection for generating the background of a scene[J]. Pattern Recognition Letters, 2017, 96: 12-21.

[27] YINGYING CHEN, JINQIAO WANG, HANQING LU. Learning sharable models for robust background subtraction[C]//2015 IEEE International Conference on Multimedia and Expo (ICME). New York: IEEE Press, 2015: 1-6.

[28] JIANG S, LU X. WeSamBE: a weight-sample-based method for background subtraction[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(9): 2105-2115.

[29] GOYETTE N, JODOIN P M, PORIKLI F, et al. Changedetection.net: a new change detection benchmark dataset[C]//2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2012: 1-8.

[30] ELGAMMAL A, HARWOOD D, DAVIS L. Non-parametric model for background subtraction[C]// European Conference on Computer Vision. Heidelberg: Springer, 2000: 751-767.

[31] MARTINS I, CARVALHO P, CORTE-REAL L, et al. BMOG: boosted Gaussian mixture model with controlled complexity[J]. Pattern Analysis and Applications. 2018, 21(3): 641-654.

ForegroundNet: a semantic and motional feature based foreground detection algorithm

LAI Shao-chuan1, WANG Jia-xin2,3, MA Cui-xia2

(1. South China branch of Sinopec Sales Co., Ltd, Guangdong Province, Guangzhou Guangdong 510000, China; 2. Institute of Software, Chinese Academy of Sciences, Beijing 100190, China; 3. School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing 101408, China)

Aiming at the problem that the previous foreground detection methods depend more heavily on scene information, a real-time foreground detection deep learning model ForegroundNet without iteratively updating the background model is proposed. ForegroundNet extracts semantic features from current and auxiliary images with backbone networks firstly, the auxiliary images which can be either an adjacent image frame or an automatically generated background image. These features are further fed into deconvolution network with short connections, which make the final feature maps have the same size as input images and contain semantic and motional features in different scales, finally we use softmax layer to perform a binary classification. The results on CDNet dataset show that ForegroundNet achieves better F-Measure of 0.94 compare to the 0.82 of suboptimal method. More over ForegroundNet has good real-time performance that its speed reaches 123 fps.

foreground detection; deep learning; computer vision; convolution neural network; motion segmentation

TP 391

10.11996/JG.j.2095-302X.2020030409

A

2095-302X(2020)03-0409-08

2019-11-19;

2020-03-29

国家自然科学基金项目(61872346);国家重点研发计划项目(2018YFC0809303)

赖少川(1968-),男,广东揭阳人,高级工程师,学士。主要研究方向为管道管理、无人机图像处理。E-mail:laisc.xshn@sinopec.com

猜你喜欢
前景卷积像素
像素前线之“幻影”2000
基于3D-Winograd的快速卷积算法设计及FPGA实现
我国旅游房地产开发前景的探讨
四种作物 北方种植有前景
卷积神经网络的分析与设计
“像素”仙人掌
离岸央票:需求与前景
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
量子纠缠的来历及应用前景