基于孪生网络视频烟雾目标分割方法

2020-09-29 06:34刘方涛白瑞君张启尧任宇杰
计算机工程与设计 2020年9期
关键词:掩模掩码烟雾

刘方涛,杨 剑,白瑞君,张启尧,任宇杰

(中北大学 软件学院,山西 太原 030051)

0 引 言

图像分割是许多视频应用中的基本任务,需要对对象进行某种程度的兴趣分割,因为它允许在帧与帧之间建立对象对应关系。而火灾烟雾图像分割适用于各种消防嵌入式设备中,对火灾前期有很好的预警。鉴于烟雾目标的位置视频的第一帧输入,视频对象分割的目的是用第一帧来估计视频在所有后续帧中的对象位置。对于许多应用程序,烟雾视频图像分割可以很准确的在视频播放时在线跟踪识别,但是实时性不足。

半监督视频对象分割(VOS)需要估计第一帧中指定的任意烟雾对象的位置。但是在这种情况下,烟雾表示由二进制分割掩码组成,它可以按像素是否属于目标来分割。这种表示对于需要像素级信息的应用来说更为准确,而创建像素级估计需要比简单环绕框有更多的计算。所以传统的VOS方法很慢,并且每帧通常需要几秒钟。为了加快识别速度,改变在孪生网络上训练两项任务,两项任务在新框架中建立目标对象与候选区域之间对应的关系是不同的。一个任务是以滑动方式了解目标之间的相似性,输出是一个密集的响应图,仅显示对象的位置,并不提供其周围的任何空间范围信息,另一个任务使用区域提议网格来生成二元掩模。最终通过以上两个任务完成对烟雾目标识别研究。

1 相关工作

半监督视频对象分割是用于任意对象跟踪的基准[1-3],表示跟踪器以顺序方式接收输入帧。此外通常侧重于实现超过典型视频帧速率的速度[4],相反半监督的VOS算法传统上更关注于感兴趣对象的准确表示[5,6]。为了利用视频帧之间的一致性,几种方法将第一帧的监督分段掩码传播到时间相邻的由图像标记的方法中[7-11]。特别是鲍等[11],最近提出了一种非常精确的方法,利用时空MRF,其中时间依赖性由光流建模,而空间依赖性由CNN表示。

另一种流行的策略是依赖处理视频帧[12-14],类似于大多数跟踪方法中发生的情况。例如,在OSVOS-S Maninis等[12]不利用任何时间形成,它们依赖于预先进行分类的完全卷积网络,然后在测试时使用第一帧中提供的实例掩码对其进行微调。而MaskTrack[13]则是从头开始训练单个图像,但它通过使用最新的掩模预测和光流作为网络的附加输入,在测试时利用某种形式的时间性来预测结果。为获得尽可能高的精度,在测试时VOS方法通常采用计算密集型技术,如微调[12-14]、数据增强[15,16]和光流[9,11,13,16,17]。因此这些方法通常以低框架和无法在线操作为特征。对于只有几秒钟的视频效果可以,像DAVIS那样,需要分钟[13,18]甚至更短时间[9,11]的方法不是很好。

最近,VOS社区对更快的方法越来越感兴趣[10,19,17,20-22]。现有的最快速的方法是Yang等[23]和Wug等[19]。前者使用元网络“调制器”来快速适应在测试时间内分段网络的参数,而后者不使用任何微调并采用在多个阶段训练的编码器-解码器Siamese架构。这两种方法都低于每秒10帧,而本文方法的速度要比上述两种方法快6倍,并且只依赖于边界框初始化。

2 神经网络的构建

为了实现在线可操作性和快速性,本文采用了完全卷积的孪生网络框架。本文将SiamFC和SiamRPN视为代表性的例子。本文在2.1节中首先介绍它们,然后在2.2节中介绍改进的方法。

2.1 完全卷积的孪生网络

SiamFC。Bertinetto等建议使用离线训练的完全卷积孪生网络作为跟踪系统的基本构建块,网络将图像z的示例与密集响应图的搜索图像(最大)x进行比较。z和x分别是以目标对象为中心的W*H(宽*高)裁剪和以目标的最后估计位置为中心的较大裁剪。这两个输入由相同的CNNf(θ) 处理,产生两个交叉相关的特征图

gθ(z,x)=fθ(z)⊗fθ(x)

(1)

在本文中将响应图的每个空间元素(等式(1)的左侧)称为滤波器窗口响应(RoW)。即x编码中理想z和第n个窗口之间的相似性。对于SiamFC,目标是获得与目标位置搜索区域x对应的最大响应映射值。相反,为了获得有关目标烟雾周围每个RoW加密的丰富信息,只需将等式(1)替换为交叉链接的方法,并创建一个多通道响应图。SiamFC在数百万视频帧上离线训练后损失称之为Lsiam。

SiamRPN。李等[24]依靠 region proposal network大大提高了SiamFC的绩效(RPN),它允许估计目标位置带有可变长宽比的边界框。在SiamRPN中,每个RoW编码一组有k个高程点和相应的对象分数。所以SiamRPN和分数是输出框的并行预测,是使用平滑L1和交叉熵损失训练两个输出部分。在下文中,本文分别将它们称为Lscore和Lmask。

2.2 改进的网络结构

与依赖低保真对象表示的现有分割方法不同,烟雾识别实验认为生成每帧二进制分割掩码的重要性。所以完全卷积孪生网络的RoW还可以编码产生像素方式的二元掩模所需的信息。这可以通过扩展现有的Siamese跟踪器来实现额外的分支和损失如图1所示。

本文使用具有可学习参数的简单双层神经网络hφ预测w×h二进制掩模(每个RoW有一个)。设mn表示对应于第n个RoW的预测掩模

(2)

(3)

因此,hφ的分类层由w×h分类组成,每个分类层指示像素是否属于候选窗口中的对象。请注意Lmask仅被视为正向行(即yn=1)。

掩码表示与FCN和Mask RCNN风格的语义分割方法相比,它们在整个网络中保持显式的空间信息,本文的方法从平坦的表示形式开始生成掩模对象。该表示对应于由fθ(z) 和fθ(x) 之间的深度方向互相关产生的(17×17)个RoW。重要的是分割任务的网络hφ由两个1×1卷积层组成,一个具有256个通道,另一个具有632个通道(图1)。这允许每个像素分类器利用整个RoW中包含的信息,从而在x中具有其对应候选窗口的完整视图,这对于消除看起来像目标烟雾的实例之间的歧义对象是至关重要的。为了生成更精确的对象掩模,本文使用由上采样层和跳过连接组成的多个细化模块来合并低分辨率和高分辨率特征对象,如图2所示。

图2 掩模生成神经网络结构

对于我们的实验,本文使用分段分支和损失Lmask来扩充SiamFC和SiamRPN的体系结构,获得改进的双分支网络,这些优化了多任务损失L。 其定义如下

L=λ1·Lmask+λ2·Lscore

(4)

而式(4)中的Lscore是应用Siamese方法中的损失函数,在训练之前设置超参数λ1=32,λ2=1。

在边框初始化中虽然VOS标准需要二进制掩码,但标准分割需要一个边界框作为目标对象的最初表示。考虑3种不同的策略从二元掩模生成边界框(图3):图3(a)轴对齐边界矩形(Min-max),图3(b)旋转最小周长矩形(MBR)和图3(c)优化策略用于VOT-2016中提出的自动生成边界框(opt)。

图3 烟雾图像初始化box

2.3 网络主体构造

表1说明了主干架构的细节(图1中的fθ)。对于输出两分支网络使用ResNet-50包括前4层卷积层图2。为了在深层中获得更高的空间分辨率,是通过使用具有步幅1的卷积将输出步幅减小到8。此外,使用扩张卷积来增加感受野,实验在conv4的3×3转换层中将步幅设置为1并将扩张率设置为2。与原始ResNet-50不同,conv4_x中没有下采样。实验还向主干网络中添加了调整层(具有256个输出通道的1×1卷积层),从conv1到conv4共享网络参数,而调整层的参数不共享。然后调整层的输出特征在深度方向上相互交叉相关,得到尺寸为17×17的特征图。

分支的网络架构见表2。分支网络中的conv5块包含归一化层和ReLU非线性,而conv6仅包含1×1。

表1 主干网络架构

表2 双分支头的结构细节

3 实验过程与结果分析

在本节中进行了相关实验任务,半监督视频对象分割(烟雾视频数据集上)在孪生神经网络的测试。

3.1 测试半监督的VOS

有关烟雾数据在半监督设置中,VOS方法用二进制掩码初始化[5]。其中许多方法在测试时需要加入密集型技术,如图4(a)原始数据,图4(b)数据增强[15,16],图4(c)推断MRF/CRF[9-11]精细调整[11-14]。因此,VOS技术需要几分钟来处理数据。

对于烟雾数据集使用官方性能度量:表示区域相似性的Jaccard索引(J)和表示轮廓精度的F-measure(F)。对于每个度量C∈{J,F}, 考虑3个统计量:平均CM,召回CO和衰减CD,并测试随时间的性能增益/损失[6],测试了不遮挡(JS,FS)和遮挡的类别(JU,FU)的平均Jaccard指数和F-measure,O是这4项指标的平均值。为了初始化网络,则从第一帧中提供的掩码中提取轴对齐的边界框(Min-max策略,参见图3)。与大多数VOS方法类似,如果同一视频中有多个烟雾目标本实验只进行多次预测。

数据集上的EAO、准确度和鲁棒性指标对比见表3,烟雾视频的结果(验证集),FT和M分别表示该方法是否需要微调以及是否使用掩码(+)或边界框(*)进行初始化见表4和不同烟雾视频上的结果见表5,显示了本文提出方法在烟雾视频检测中的实验结果。首先,它比OnAVOS[14]或SFL[18]等准确方法快了近两个数量级。其次,它与最近使用的微调VOS方法相比具有很好的准确率,而效率是最快的分割的4倍。注意到本文的网络在区域相似性(JD)和轮廓精度(FD)方面都实现了非常低的衰减[6]。这表明我们的方法随着时间的推移是稳健的,因此它表示特别长的序列。

图4 烟雾数据处理

表3 数据集上的EAO、准确度和鲁棒性指标对比

表4 FT和M分别表示该方法是否需要微调以及是否使用掩码(+)或边界框(*)进行初始化

表5 烟雾视频上的结果(验证集)

3.2 结果分析

在本节中说明消融研究,对比几种不同网络架构以及可视化实验结果对比。在表6中,AN和RN表示的是使用AlexNet还是ResNet-50作为共享骨干fθ(图1),而使用“w/oR”表示该方法不使用Pinheiro等的细化策略[26]。从表5的结果可以进行多次观察。①第一组行表明,通过简单地更新fθ的架构,可以实现重要的性能改进。然而,这是以牺牲速度为代价的,特别是对于SiamRPN。②本文的网络在对于(使用相同的fθ)SiamFC和SiamRPN方面有显着改善。③在Pinheiro等的改进方法[26],对于轮廓精度FM非常准确,但对其它指标则不是很好。

本文网络在线运行在单个NVIDIA GTX 1060 GPU上,网络平均速度为55帧/秒。最高的计算负担来自特征提取器fθ, 实验中输出的图5(a)原图与图5(b)mask图像(ground truth,真值图)。

表6 关于烟雾数据集的消融研究

本文使用Min-max,MBR和Opt方法比较本文的二分支变体,在3种不同初始化下比较SiamFC和SiamRPN与本文网络的交并比(IU)。

图5 烟雾mask真值图

表7显示,无论使用何种初始化生成策略,本文的方法都能达到最佳mIU。尽管Our-opt提供了最高的IU和mAP,但由于其优化过程缓慢,它需要大量的计算资源。Our-MBR达到85.34的mAP@0.5 IU,相应的改进分别为+29和+9.2 score。当在mAP0.7 IU的较高准确度方案中差距显著扩大:分别为+41.6和+18.4 score。所以可以得出,通过简单地改变边界框表示有很大的改进空间。

综合上述实验结果并进行可视化比较,尽管速度很快,但即使存在干扰物,网络也能产生精确的分割掩模,图6(a) OnAVOS,图6(b)OSVOS,图6(c)OSMN,图6(d)本文数据训练结果对比如图6所示。

表7 不同边界框表示的交并比

图6 实验烟雾视频跟踪效果

4 结束语

在本文中介绍了孪生神经网络,这是一种双输入的方法,可以使完全卷积Siamese跟踪器生成目标对象类,同时也生成了不可知的二进制分割掩码。本文展示了它如何成功应用于半监督视频对象分割任务,同时也是VOS方法中最快的速度,并提出一个简单的边界框初始化在线操作,实时运行不需要对测试序列进行任何调整。同时算法可以取得可比较的分割精度,同时速度快了近一个数量级。对比经典的OSVOS,我们的算法快了近3个数量级,使得视频目标分割可以得到实际使用。

猜你喜欢
掩模掩码烟雾
细粒度图像分类的通道自适应判别性学习方法
薄如蝉翼轻若烟雾
影视剧“烟雾缭绕”就该取消评优
基于直写技术的微纳掩模制作技术研究进展*
低面积复杂度AES低熵掩码方案的研究
基于布尔异或掩码转算术加法掩码的安全设计*
咸阳锁紧烟雾与尘土
掩模图像生成时阈值取值的合理性探讨
《计算机网络技术》的几个重点课题的教学分析
基于掩码的区域增长相位解缠方法