一种基于多尺度角点检测的语义分割网络

2019-01-08 03:16罗晖芦春雨郑翔文
电脑知识与技术 2019年33期

罗晖 芦春雨 郑翔文

摘要:为了实现更精确的语义分割,提出了一种目标全局解析网络(object global parsingnetwork,OGPNeI)。首先,基于卷积特征金字塔构造了一个多尺度角点检测器,检测不同尺度特征图上目标的关键点信息;其次,提出了一种多尺度联合池算法将获得的多尺度角点进行融合;最后,将组归一化(GrounpNormalization,GN)方法引入到该分割网络训练中以提升网络训练和收敛速度。OGPNet在Pascal VOC 2012数据集和Cityscapes数据集的分割结果的mIoU评价分别达到了78.5%和67.6%。且实验证明,相对于现有的一些语义分割网络,由OGPNet分割出的目标具有更完整的轮廓,且分割结果的视觉质量更好。

关键词:语义分割;多尺度;角点检测;联合池化;组归一化

中图分类号:TP391 文献标识码:A

文章编号:1009-3044(2019)33-0206-05

在深度学习被应用于语义分割之前,语义分割设计通常是以图像像素的低层视觉线索作为分割特征依据,如TextonFor-est和CRFst。然而在不提供人工辅助信息的情况下,这些语义分割方法对困难场景下的分割效果并不理想。随着计算机硬件的不断升级和深度学习的兴起,卷积神经网络(convolu-fional Neural Network,CNN)在图像识别、语义分割等领域研究中的优越性逐渐体现,研究者因而对基础CNN框架的语义分割方法进行了深人探索。Long等人用卷积替换将分类网络中的全连接层进而构建了全卷积网络(Fully Convolutional Network,FCN),该网络能够实现对任意大小输入图像进行块评估与分类。FCN证明了基于CNN的语义分割网络的可行性,但分割结果较为粗糙。为提高网络的分割精度,Badrinarayanan等人将更多的跳跃连接引入到FCN中,并提出了SegNet。该网络由一个编码器一解码器组和像素级分类层组成,编码器通过卷积和最大池化获得输入图像的深层语义特征,解码器则根据最大池化索引进行上采样,最后由分类器对其输出的进行像素级分类,最终实现对输入图像的语义分割。此外,Chen等人提出了DeepLabV1网络。该网络利用FCN和插值得到的与输入图像大小相同的粗分割分數图(score map),然后采用全连接CRFs对其进行细致修正。FCN和SegNet都是最早的编解码器结构,相对FCN,SegNet更能够节省运算内存,但SegNet的基准分值不够好,因此不能继续使用。

在基于卷积框架的语义分割网络中,为获得更大感受野、聚合语义上下文信息,需要对特征图进行池化操作。然而,池化也造成了图像中目标位置信息的丢失。为此,受kronecker分解卷积滤波器的启发,Koltun~将膨胀卷积(Dilated Convolu-tion)引入到语义分割网络,利用不同膨胀率获得不同尺度的特征图,并通过hole算法将多尺度背景聚合,改善分割结果。Chen等人嘲在DeepLabVl的基础上结合所提出的膨胀空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)算法构建了Dee-pLabV2网络,该网络通过捕获图像中的目标和多尺度特征图中的上下文实现语义的鲁棒分割。

由于基于膨胀卷积的聚合算法需要大量高分辨率特征图作为输入,而这些特征图的获取需要占用计算机大量内存,且运算成本高昂。为解决这一问题,Lin等人提出了具有编码器一解码器结的RefineNet,该网络中所有组件遵循残差连接设计,其编码器是ResNet-101模块,解码器是RefineNet模块,该网络融合了编码器的高分辨率特征和解码器的低分辨率特征,有效的较少了网络运算量。之后,Chen等人重新考虑了膨胀卷积在语义分割网络中的使用,通过级联多个膨胀卷积层对ASPP进行了改进,并提出DeepLebV3网络,该网络能够获得更广泛的上下文信息,进而获得更好的语义分割效果。

基于以上研究基础,本文从获取更丰富的图像上下文信息的角度,提出了并提出了OPGNet。该网络综合考虑到图像前景与背景关系,以及图像中目标的空间位置,在FCN的基础上引人多尺度角点检测器和联合池化层,获得丰富的上下文信息,进而获得较好的语义分割结果。OPGNet的主要特点如下:

1)OGPNet采用ResNet-1叭作为骨干网,避免学习过程中由于卷积层过深而导致的梯度分散或梯度爆炸问题,提高图像特征学习效果;

2)采用多尺度角点检测器对特征图中目标轮廓的角点进行检测,深度解析目标轮廓;

3)采用同阶合并、邻阶交比的策略,对多尺度的角点进行融合池化,以获得精确的目标轮廓信息;

4)使用GN方法替代批次归一化(Batch Normalization,BN)方法,以提高OGPNet的训练速度。

1oGPNet语义分割

为了充分获取并学习图像中包含的上下文信息,提高语义分割精度,本文提出了OGPNet。利用ResNet-101特性,构建由不同尺度特征图组成的特征金字塔,然后利用多尺度角点检测器获得不同尺度特征图上目标的轮廓角点,获得的角点经过联合池化后被融合到由上采样得到的与输入图像大小相同的特征图上,最后通过像素预测得到分割结果。OGPNet的主要结构如图1所示。

1.1多尺度角点检测器

角点是图像中领域内具有主要方向的特征点,角点所在领域通常也是图像中稳定的、信息丰富的区域。OGPNet引人多尺度角点检测器,检测待分割目标的关键点,使网络能够学习更多的上下文信息,进而能够提高分割结果中目标的完整性和分割精度。多尺度角点检测器的设计具体分以下几个步骤:

3)角点检测:基于构建的差分特征金字塔,将每阶中相邻的三层差分特征图做比较运算。如图3(a)所示,就中间层特征图中超像素点而言,若该点特征值大于其立体邻域内的26个点的特征值,则记录该点的值与其位置。对于某阶中最外层的差分特征图,则先构造一个与本阶特征图大小相同的全零特征图,如图3(b)所示,然后进行比较算法。通过该操作能够获得每层差分特征图各自的角点。这里考虑到不同阶相邻差分特征图之间存在尺寸差异,比较运算只在同阶差分特征图内执行。

1.2多尺度联合池化

该阶段利用多尺度联合池化操作,将1.1中所检测到的不精确的多尺度角点进行融合,生成具有精确角点信息的特征图,以保证后续像素预测过程中特征图中角点信息的准确性。联合池化的具体过程如下:

1)同阶合并:对于同阶角点特征图,采用加权求和的方式将该阶的中间三层的角点特征图融合,如式(3)、(4)。最终可得到3张尺度不同的角点特征图。

其中,Wδ为每层角度特征图的求和权值,大小与该层的高斯尺度因子有关;M为融合后形成的新的角点特征图。

2)邻阶较比:

对1)生成的M中相邻的两张角点特征图,用两个尺度比为1:2的滑动窗口在相应大小比的特征图上分别以1和2为步长遍历特征图,并根据式(5)对较大尺度特征图进行更新,实现将小尺度特征图上角点信息融合到较大尺度的特征图上。最后生成一张具有丰富角点信息,且大小与输入图像大小相同的角点特征图。

2OGPNet性能评价实验

该部分首先介绍了用于实验的数据集、实验配置和设备配置以及用于评价语义分割网络性能的评价指标。然后,给出了两个Pascal VOCl2和Cityscapes两个数据及上OGPNet的测试结果。最后,将OGPNet同其他语义分割方法在以上几个数据集的基础上进行了实验,并比较它们的分割性能。

2.1实验数据集及硬件配置

Pascal VOC12是最流行的语义图像分割基准数据集之一。该数据集包含20个室内和室外目标类别和一个背景类别。實验中采用了该数据集中10582幅图像进行训练,1449幅图像进行验证,1456幅图像进行测试。

Cityscapes是一个通过车载摄像机采集的大型城市街道场景数据集。它包含5000张经过精细注视的图片。实验中使用包含了19种目标类别和一个背景类别的了2975张用于训练,500张图像用于验证,1525张图像用于测试。

实验在配有16GB内存、Intel i5-7600处理器和两张GTl080Ti GPU显卡的图形工作站上进行。工作站同时安装CUDA 9.0和CuDNN 7.0。

2.2性能评价指标

为了深入分析语义分割模型的性能,除平均交并比(mIoU)之外,还引入了标记精度(rrA)、定位精度(LA)和边界精度(BA)三个指标对实验结果进行了评价。这些评估指标描述如下。

(1)TA用于评价预测的像素级标签与场景真实值标签之间的差异,能够反映模型对包含多种语义类别图像的分类准确性;

(2)LA定义为目标的预测边界框与地面真实边界框之间的交并比(Iou),用于估计模型对图像中目标定位的精度;

(3)利用BAt,31统计正确定位对象的预测语义边界与实际语义边界的差值,它能反映网络的语义分割精度。

2.3实验结果

首先,用MS-COCO对OGPNet进行预训练,然后选择VOCl2中20个目标类别的图像对OGPNet进行训练和测试,预训练和训练的迭代次数分别为150k次和30k次。表1展示了OGPNet对20类目标的分割结果的TA、LA和BA的性能比较。

表1中实验评价结果表明所提出的OGPNet中多尺度角点检测器对于精确的语义分割是有效的。另外,借助残差网络结构优势,本可以用更深层次的残差网络进行特征提取,但是受实际实验情况影响,本文将不再对不同深度的ResNet做相关的分割性能比较。

3结论

为了更准确地描述对象的上下文信息,提高对象的语义分割精度,本文提出了一种全局解析网络。该网络存在以下几个有点:第一,构建了多尺度角点检测器,能够对目标轮廓特征进行深度分析,获取目标角点信息;第二,采用了多尺度联合池对多尺度角点特征图进行融合,能够降低数据的维数,同时精炼图像角点特征;第三,采用组归一化方法对网络进行训练,加速网络训练过程。本文通过对OGPNet与其他几种网络在PAS-CAL VOCl2数据集和Cityscapes数据集的语义分割结果的性能评价的比较,证明了OGPNet在语义分割中能够有效地保证分割目标轮廓的完整性,进而提高语义分割精度。在今后的工作中,我们将对弱监督的语义分割网络进一步研究。