任凤至,毛 琳,杨大伟
(大连民族大学 机电工程学院,辽宁 大连 116605)
全景分割由无定形区和实例区两部分分割组成,其分割质量由两部分分割效果共同决定。实例区中包含人、车等实例目标;无定形区则包含诸如道路、草地、建筑物等具有相同结构和材质的目标[1]。在无人驾驶中,无定形目标约束驾驶环境与条件,是无人车正常工作的视觉信息保障。
特征金字塔网络(Feature Pyramid Networks,Panoptic FPN[2])针对实例分割和语义分割这两类相互独立的任务设计一种可以为二者共享的主干结构,提高对实例目标的分割精度,但对无定形区的分割效果并不理想;AUNet[3](注意力分割网络)通过为区域建议网络和掩模网络设计两种注意力机制,提高语义分割性能,但该算法网络结构复杂,计算量大,对要求快速反应的无人驾驶场景适用性较差;均一化全景分割网络(Unified Panoptic Segmentation Network,UPSNet[4])引用FPN主干网络,提出全景融合机制对语义分割全卷积网络[5]和实例分割Mask R-CNN[6]的输出进行融合,提高全景分割精度,在诸多算法中表现性能优越,该算法以残差网络(Residual Network,ResNet[7])为基础,结合FPN特征提取模块作为网络主干,采用自上而下路径进行融合,以对实例目标的特征提取为重点,可获得实例及其细节信息,但忽略了对全景中无定形区的关注,导致语义分割中无定形目标特征不显著,使全景分割结果不够准确。
针对分割目标特征不显著的问题,提出了基于增强特征融合解码器的语义分割算法[8],通过提出增强特征融合解码器,实现特征增强。解码器级联深层特征与降维后的浅层特征,在卷积运算后引入自身平方项的注意力机制,利用卷积预测自身项与自身平方项各通道的权重并以乘法做增强,最后将结果融合。该算法通过引入注意力机制提高上下文信息,增强了目标的语义特征,但该特征增强方法面向语义分割,对实例分割的适用性不强,进而无法应用于全景分割。
本文提出一种无定形区特征增强的全景分割算法(Amorphous region feature enhanced Panoptic Segmentation,APS),通过改变特征金字塔的融合方式,构造空洞特征金字塔,改善UPSNet对无定形目标分割不准确的问题,提高语义分割精度,使全景分割算法取得一流的性能表现,并能更好地应用于无人车、自主驾驶等领域。
APS全景分割算法对UPSNet算法的改进有两点:第一,采用自下而上的融合结构代替UPSNet中FPN自上而下的路径,有效利用下层包含的无定形区特征,解决无定形目标分割效果不理想的问题;第二,将空洞卷积引入特征提取网络,相比UPSNet,能更好地提取目标边缘特征信息,解决边缘轮廓模糊的问题。
APS算法利用残差网络构造图像金字塔,还原输入图片信息,保证输入信息的完整性;采用自下而上的结构构造空洞特征金字塔,在剔除实例细节信息的同时,保存更丰富的无定形区特征信息,保证无定形区和实例区特征信息的完整性,提高全景分割质量。APS全景分割算法结构如图1。
图1 APS全景分割算法整体结构
APS全景分割算法改进结构如图2。UPSNet的FPN特征金字塔采用自上而下路径提取特征,其输出特征映射图中,每一层都包含本层和更上层信息而不包含更下层信息,因为上层包含更强的语义信息,下层包含更强的位置信息[9],所以导致下层包含的特征没有被充分提取,大量无定形区的特征信息丢失。另外,由于上层特征信息被充分提取,实例区不仅保留了边缘轮廓特征,还留存了许多对分割结果没有意义的实例细节信息。
APS的空洞特征金字塔采用自下而上的路径对残差网络的输出特征层进行特征融合,更有效地利用特征层下层的位置信息,保证无定形区特征的完整性;引入空洞卷积来扩大卷积核感受野,使无定形目标轮廓特征大大增强,分割效果更好,性能得到提升。
算法实施步骤如下:
步骤1:输入图片x,经残差网络输出后提取特征层组Ci~Ci+3(i为卷积层数,i∈[0.3],i∈Z+)作为特征金字塔的输入。以F(x,W)为残差映射函数,输出特征层C计算通式为
C=F(x,W)+x。
(1)
a)UPSNet算法特征金字塔 b)APS算法空洞特征金字塔
步骤2:使用自下而上的路径代替原FPN特征金字塔自上而下的方向。
将残差网络底层Ci输出给特征金字塔的底层Pi。特征金字塔自下而上特征融合时引入空洞卷积,结合残差的输出和增强边缘特征的需求,选取空洞卷积参数,构造空洞特征金字塔。
空洞卷积能在不丢失分辨率的前提下,通过增大卷积核的感受野,使模型得到更为丰富的边缘特征信息,提高分割的精度。另外,空洞卷积可以保持卷积核内部的参数数量不变,不会额外增加计算量。
空洞卷积核尺寸计算公式(假定卷积核的宽和高一致):
K′=D(K-1)+1 。
(2)
式中,K为待扩张卷积核的原尺寸,D为扩张系数,在经过扩张后,得到的空洞卷积核尺寸K′。进而利用卷积操作的尺寸变换公式,计算输出特征图的尺寸大小。
特征图经空洞卷积操作后的尺寸变换公式:
(3)
式中:O为卷积操作后输出的特征图;I为输入待卷积的特征图;P(padding)为在特征图外侧补0操作;F为卷积核的尺寸(假设卷积核的宽和高一致);S(stride)为卷积核每次在特征图移动的步长。
基于空洞卷积优势所在,将空洞卷积引入全景分割算法的特征提取网络,利用空洞卷积对不同特征层的特征信息进行提取,获取更加丰富的特征信息,增强目标边缘特征,提高分割精度。
步骤3:计算空洞金字塔特征层Pi经过空洞卷积变换后的尺寸大小Pi′,将输出层Pi代入卷积公式(3):
(4)
步骤4:计算空洞金字塔输出特征层组Pi~Pi+3尺寸大小。Pi+1由Pi′和残差输出层Ci+1进行相加得到,Pi~Pi+3的计算公式为
Pi=Ci;
(5)
Pi+1=Pi′+Ci+1。
(6)
特征层Pi+2、Pi+3尺寸计算同上。
输入图片经残差网络和空洞特征金字塔的处理,增强了无定形区特征。将提取到的无定形区特征与UPSNet算法中无定形区特征进行可视化对比,如图3。
a)原图 b)UPSNet c)APS
图3a为原始图像,图3b为UPSNet算法中卷积层的可视化表达,图3c为APS算法中经无定形区特征增强模块的可视化表达。APS全景分割算法增强无定形目标的特征,提高了无定形目标边缘特征的表达能力,有利于目标分割。
步骤5:将空洞金字塔输出特征层组Pi~Pi+3送入语义分割和实例分割两分支并行进行分割处理。
步骤6:利用全景分割模块对语义、实例分割两分支的输出信息进行融合处理,输出全景分割结果。
本算法运行环境硬件配置为NVIDIA GeForce 1080Ti显卡,软件系统为Ubuntu 16.04,使用Pytorch 0.4.1深度学习框架。训练使用语境中通用目标(Common Objects in Context,COCO[10])2017训练集,共有118 287张图片,其中包括80个实例种类和53个无定形种类。测试使用COCO 2017验证集,共有5 000张图片。
在COCO 2017数据集下,将批尺寸设置为1,学习率设为0.001 25,迭代次数为90 000次,对两算法分别进行训练。训练结束后对模型进行测试,根据Panoptic Segmentation[1](全景分割)提出的全景分割评价指标,将分割质量(segmentation quality,SQ)的值作为评估测试结果的衡量标准,其值越高,代表分割质量越好,算法的性能越优。仿真结果对比见表1。
表1 仿真结果对比
仿真结果表明APS全景分割算法SQ为66.1高于SQ为63.1的UPSNet全景分割算法。在COCO数据集133个分割类别中,APS全景分割算法相比UPSNet在分割质量上具有较大优势。APS与UPSNet分割结果对比如图4。
a)原图 (b)UPSNet分割结果 c)APS分割结果
图4中,如行(1)、(2)可见,在日间的简单场景中,APS对无定形区的分割相较于UPSNet更为准确。行(1)中的绿色草地没有被UPSNet识别出来,而APS能够对其进行准确的识别并将其分割出来;在行(2)中,APS对图中沙地和圆形区的分割效果相比UPSNet更好;如行(3)可见,在夜间并存在多目标的场景中,由于光线的影响,导致UPSNet对无定形目标草地的分割质量较差,而APS却可以很好地避免该干扰实现准确的分割;如行(4)可见,在日常复杂的道路场景中,UPSNet对街道和马路的分割存在较大误差,这会对自主驾驶产生严重的影响,但APS在这一场景中表现优良,对道路的分割基本准确,可以较好应用于无人驾驶汽车等领域。
本文针对UPSNet全景分割算法对无定形区分割效果不佳的情况,加入无定形区特征增强网络,提出无定形区特征增强全景分割算法,通过增强无定形区特征信息,提高语义分割精度,进一步提高全景分割性能。与UPSNet算法相比,APS改善了对无定形目标的分割效果,并得到较优结果。APS算法为无人车目标感知提供了一种新的思路,使全景分割算法更好地应用于无人车自主驾驶等场景。后续工作中,希望进一步提高对存在目标重叠的复杂场景的分割精度,增强无定形目标与实例目标的区分和识别的能力。