汪 萍
安徽新闻出版职业技术学院新闻传播系,安徽合肥,230601
图像语义分割关注如何从图像中自动分割并识别出区域的内容,其应用领域广泛,包括场景理解[1-2]、自动驾驶、机器人导航、图片搜索[3]、增强现实[4]等。图像语义分割的前身是基于聚类的图像分割[5]。近年来,卷积神经网络[6]受到广泛关注,现有研究多关注于卷积结构设计、网络结构设计和多尺度结构设计[7-8]。然而,对于复杂边界处的语义分割来说,现有模型无法修正特定尺度外观特征估计下的有偏性。
现有模型主要缺陷在于没有设计含有多尺度的空间场的决策方式,因此,本文提出一种多尺度条件随机场的语义图像分割深度卷积网络(dCRF:deep Conditional Random Field),其中不同尺度的初始标记通过深度卷积网络获得,并在多尺度表达的基础上,使用网络的跨层形式定义多尺度融合的条件随机场,并重点研究复杂边界处不同尺度下空间近邻标记的约束关系,设计同层标记一致性和异层标记一致性的测度,解决语义分割任务。
现有方法可分为隐式的多尺度模型和显式的多尺度模型。隐式模型的研究重点围绕常规卷积结构、残差结构和空洞卷积结构三个方面。常规卷积方面,Long等研究了端对端语义分割网络中的反卷积和上采样问题[9]。Fu 等研究反复堆叠反卷积网络对分割中上下文信息的整合能力[10]。Chao等设计了全卷积网络和边界细化模块[11]。Badrinarayanan等设计池化定位指针,并将其跨层连接到解码器[12]。残差模块方面,Wu等分析深度网络残差结构及其等价性[13]。Lin 等设计了一种链式残差池化网络[14]。空洞卷积是一种非稠密卷积[15],它能够在不损失图像分辨率的情况下,扩大卷积过程中的感受野。Sun 等提出一种混合语境模块[16]。Wang 等研究密集上采样对边界信息的提取能力[1]。Chen等人使用多重空洞卷积获得空间金字塔[7]。空洞卷积仍然没有直接讨论多尺度标记的一致性问题。
显式模型可以分为多尺度模块和条件随机场模块。在多尺度表达任务中,Zhao 等设计多尺度金字塔池化模块[2]。Wang等设计了联合行为语境的深度网络模型[17]。Ghiasi 等使用Laplace金字塔构建多尺度深度卷积神经网络[18]。条件随机场(CRF:Conditional Random Field)方面,Chandra 等在深度卷积网络基础上构建高斯CRF[19]。Shen等设计了一种基于深度网络的引导CRF细化边界分割结果[20]。Chen 等使用基于空洞卷积的上采样过程[21]。除此以外,Li等人构建多阶段的级联深度网络[22]。Wu 等融合目标检测的定位信息[3]。Wang 等设计了一种包含行为预警的语义分割网络[1]。针对现有研究可知,设计一种有效的多尺度表示和推理方法,是解决现有深度模型的关键问题。
本文提出的基于多尺度条件随机场的dCRF模型是建立在空洞空间金字塔池化(ASSP:Atrous Spatial Pyramid Pooling)模型基础的,新增了BlockCRF、Block7和Block6模块(图1)。
图1 基于多尺度条件随机场的深度卷积网络
对于输入RGB图像x,预测的多尺度语义分割标记Y={yk},其中k是多尺度的层数,k=1,2,3,其中每层的语义分别标记的取值范围是c=1,2,…,21。在PASCAL VOC 2012 数据集中,需要预测的目标有20类,加上背景类,所以图1中每层的分割预测各有21个语义标记响应图。本文提出的dCRF模型,采用CRF的能量函数形式EdCRF(x,Y,w),预测语义分割标记Y*=argminYEdCRF(x,Y,w),其中CRF能量函数形式为:
(1)
其中,等号后第一项为dCRF的一元项,使用深度卷积网络获得初始的多尺度标记;第二项为异层二元项,考虑不同层中邻域j∈δ(i)标记对最细粒度层s=3层的中心点i标记的影响;第三项为同层二元项,考虑同层邻域j∈δ(i)标记对中心点i标记的运行。在本文模型中,w是模型中的所有参数,具体包括深度卷积网络的参数wx,异层二元参数ws,同层二元参数wy。
2.2.1 dCRF一元项
(2)
本文dCRF模型使用Block1到Block4四个模块,具体设置如图2。dCRF模型在现有网络上添加了新的跨层连接模块Block6,其模块设置如图3,引入该模块主要目的是(1)本文dCRF模型考虑直接使用浅层的129x129特征,补充复杂边界处的定位信息;(2)由于Block6是浅层到深层的跨层连接,从而增加权重更新梯度,促进网络参数的更好优化。
图2 模型中的Block1到Block4的模块设置
本文模型添加模块Block7提取低分辨率的语义标记,使用模块Block8来提取中分辨率的语义标记,Block7和Block8的模块设置如图3所示。
图3 模型的Block6,Block7,Block8的模块设置
本文dCRF模型与传统模型不同之处在于,同时使用了低、中、高三个尺度下的语义标记,较低尺度的语义标记提供大区域目标信息,避免对目标表面内容过于敏感,较高尺度的语义标记提供复杂边界信息,避免低分辨率语义中的边界模糊效应。
2.2.2 空洞空间金字塔池化结构
图4 模型的Block5空洞空间金字塔池化模块设置
2.2.3 dCRF异层二元项
本文模型设计了一种dCRF异层二元项,用于评价目标多尺度外观的一致性;同时,设计了一种dCRF同层二元项,分析目标近邻外观的一致性。本文提出的dCRF异层二元项,实现方式为:
(3)
2.2.4 dCRF同层二元项
与异层标记修正不同,CRF同层二元项关注于周围近邻的标记。此时,本文模型不仅考虑高分辨率中的同层标记,也同时考虑中分辨率和低分辨率的标记一致性,具体的实现方式为:
(4)
2.2.5 dCRF深度卷积网络训练
(5)
(6)
本模型使用Caffe深度学习开源平台训练网络[23]。模型的参数初始化采用He-Uniformed形式,参数优化过程使用随机梯度下降。训练过程的批处理大小为16。采用模拟退火策略进行参数更新,参数的初始学习率为0.01,每迭代5次学习率下降20%。采用权重衰减策略进行模型正则化,权重衰减系数为10-4。模型训练完成后,对测试图像使用训练好的dCRF模型参数w*,可以获得语义分割标记Y*=argminYEdCRF(x,Y,w*)。
本模型使用PASCAL VOC 2012 语义分割图像库。对比方法包括:(1)常规卷积结构方面:Fu 方法[10],Chao等方法[11]。(2)残差模块方面:Wu等方法[13],Lin等方法[14]。(3)空洞卷积模块方面:Chen等方法[7],Sun等方法[16],Wang等方法[1]。(4)多尺度模块方面:Zhao等方法[2],Ghiasi等方法[18]。(5)CRF模块方面:Chandra等方法[19],Shen等方法[20],Chen等方法[21]。(6)多任务联合方面:Li等方法[22],Wu等方法[3],Wang等方法[17]。本文采用平均交并比(mIOU:mean Intersection over Union)作为语义分割的评价指标。
本文模型的主要贡献为图1中的BlockCRF模块。实验中进一步讨论三种消融模型,(1)邻域为3×3情况下的,只保留第3层尺度下的同层二元项(Y)的模型dCRF-N3Y。(2)邻域为3×3情况下的,只保留全部3层尺度下的异层二元项(S)的模型dCRF-N3S。(3)邻域为3×3情况下的,包括全部3层尺度下的同层二元项(Y)和异层二元项(S)的模型dCRF-N3YS。表1中给出了PASCAL VOC 2012中消融分析的结果,其中background表示背景类,mean表示21类别的平均mIOU数值。图5给出了消融模型的语义分割实例。
从表1中可以看出,(1)dCRF-N3YS 同时使用同层约束和异层约束,相对于Chen等2017设计的DeepLabv3模型提高0.9。(2)dCRF-N3YS 因为添加了同层约束,通过考虑第3尺度下的同层近邻像素的标记,可以有效改善语义分割预测结果。(3)dCRF-N3YS 相对于 dCRF-N3Y 模型mIOU提高了0.4,说明异层约束相对于同层约束更重要。
表1 dCRF模型消融分析
实验进一步分析,邻域为3×3情况下的模型dCRF-N3YS,以及邻域为5×5情况下的模型dCRF-N5YS。通过表1的对比分析可以发现,(1)BlockCRF设计的有效性,(2)对于复杂边界最有效的辅助信息是空间最近邻标记,而当空间范围扩大时效果降低。
表2中展示了现有的主流语义分割方法的定量结果,本文dCRF模型取得优势的主要原因在于:(1)Block5-2 多重空洞卷积模块可有效完成不同尺度目标的语义标记预测。(2)本文模型中不同尺度的标记融合是改善语义分割的主要途径。(3)本文模型设计了基于CRF的多尺度标记融合方法,采用同层二元约束和异层二元约束进行空间近邻标记冲突时的决策。(4)本文dCRF相对于Wang 等人方法的优势在于:首先没有对数据集进行扩充,其次没有使用额外的行为检测标记,本文模型的训练集需要的标记更少。(5)本文模型在第一阶段固定BlockCRF参数来初始训练,使模型尽快收敛,在第二阶段使用初始参数,同时,联合深度网络参数和BlockCRF参数进行优化,从而同时满足了训练的速度和精度要求。
表2 dCRF模型与现有方法的定量对比
图5进一步给出了语义分割的实例结果,包括单类单目标(第1行),单类多目标(第2行)和多类多目标(第3行)的情况,来分析本文dCRF方法处理的有效性。图5中图像下方给出了对应语义分割的IOU数值。图5中的难点可以分为细微边界、背景混杂和背景过度填充三种情况。通过实例可以看出本文方法有效降低了错误分割的情况。
图5 dCRF模型的语义分割实例
针对现有模型在处理复杂边界时,无法有效解决多尺度语义标记的联合决策问题,本文提出一种多尺度条件随机场的深度卷积网络。通过实验分析可以证明:(1)dCRF模型采用异层二元约束描述多尺度标记的联合决策,可以提高对不同尺寸目标处理的鲁棒性。(2)dCRF模型联合使用同层二元约束和异层二元约束,实现不同感受野下的空间近邻标记联合决策,体现出对于细节边缘高分辨率标记的重要性。(3)dCRF模型采用两阶段的参数学习过程,兼顾了模型训练的收敛速度和精度的要求。