多类别标签弱监督语义分割热力图生成算法

2023-03-15 03:50迟津生杨大伟
大连民族大学学报 2023年1期
关键词:力图像素点前景

迟津生,杨大伟,毛 琳

(大连民族大学 机电工程学院,辽宁 大连 116605)

基于图像级标签的弱监督语义分割(Weakly-Supervised Semantic Segmentation,WSSS)由于标注成本较低而备受关注,其标注依据不同的监督强度可分为点、类标签、边框和涂鸦等。类标签仅指明类的存在,边框和涂鸦提示了对象的空间范围,而点指示了对象的位置。在上述标注中,类标签的图像获取方式是最经济高效的,但同时监督信息最弱,其难点在于如何将图像的类标签信息精准映射到图像的每个像素点,赋予像素点语义标签。目前,使用图像级标签的弱监督语义分割方法大多基于可视化的两阶段方法。首先,训练分类网络,通过初始定位获得伪像素级掩码;其次,利用生成的伪掩码作为监督信息训练语义分割网络。目前弱监督语义分割的方法主要集中在生成高质量的伪像素级掩码,而所有的图像级弱监督语义分割算法都使用了类激活映射(Class Activation Map,CAM)获取伪像素掩码。CAM的本质是利用交叉标签约束的先验,根据分类模型提供的信息定位图像中的种子区域,利用种子区域生成伪像素掩码。CAM是粗定位,通常无法覆盖目标类的整个语义区域,导致伪像素掩码边界粗糙和丢失,造成分割结果和目标边界不匹配,这也是目前弱监督语义分割算法性能的主要限制。

类标签弱监督语义分割多通过CAM算法得到种子区域以获得伪像素标签,之后进行传播得到分割结果。但由于CAM的固有特点,经CAM生成的伪像素掩码质量较低。随着改进CAM算法的方法不断涌现,Zhou等[1]提出CAM技术,并演示将不同卷积核大小、卷积层数量的CNN作为无监督对象检测器的功能,一副图像经过CNN可以给图像中的内容打上标签,通过使用CAM,可以将CNN生成类别标签过程中关注的区域可视化成热力图,使深度学习所做的决策具有可解释性。然而,CAM需要为每个类分别训练对应的线性分类器,计算量庞大并残留大量的不确定像素点,导致生成热力图精度较低。Selvaraju等[2]提出Grad-CAM,结合CAM的类条件属性和像素空间梯度可视化技术,如反向传播和反卷积,强调图像细粒度元素,使生成的热力图精度更高,提高基于CNN模型的可解释性。GradCAM++[3]为梯度像素加权引入更可靠的表达式,提高分类效果,进一步提高像素分类精度。然而,基于梯度的CAM方法无法表示图像中的真实信息,因为激活映射的权重没有得到证实,所以基于梯度的CAM方法鲁棒性较差[4]。为此,Wang等[5]提出了Score-CAM,利用每个像素在目标类的前向传播得分获得其权重,不依赖梯度生成热力图,而是将权重和激活映射线性组合得到最终结果。但Score-CAM没有考虑像素之间的关系,导致错误分类的情况出现,造成热力图精度较低[6]。基于RelatianceCAM方法[7]生成的类激活映射图具有良好的类辨别能力,但其热力图存在噪声,使其无法获得高精度热力图。针对CAM无法生成高精度热力图的问题,Chen等[8]提出利用图像上的某个区域将其周围相似的像素点通过迭代逐步扩充到一起的方案,得到扩充结果并将该区域称为种子区域,利用此方案,Chen将粗定位图作为初始种子区域展开,在展开过程中采用条件随机场(Conditional Random Field,CRF)保持预测与边界的重合,使像素分类变得更加准确,从而得到精度更高的热力图,但该热力图只关注影响深度学习分类结果的区域,而忽略了图像内的其他信息,导致图像内残留大量不确定像素点。

针对图像中不确定像素点的分类问题,本文提出多类别标签热力图生成算法(Multi-Category Class Activation Map,MU-CAM)算法,通过将种子区域内的像素与特征图进行相似度评分,构造一种注意力机制,使种子区域内的所有像素点都可以被重新分类,由此生成包含更多语义信息的热力图。利用边界探索网络(Boundary Exploration Network,BENet)[9]的结果校正MU-CAM的边界图,最后使用CRF融合优化热力图和边界图,得到分割结果。该结果在高精度热力图的帮助下,像素分类更加准确,可将原本区分错误或无法区分的像素正确分类,提高了分割精度。

1 MU-CAM算法

1.1 问题分析

在弱监督语义分割中,由于弱监督学习的固有特点,在语义分割过程中会出现大量不确定像素点[10]。而传统CAM只关注影响深度学习分类结果的像素点,并未关注不确定像素点对弱监督语义分割精度的影响,导致CAM只能作为可视化工具[11]。为提高像素点分类的准确性,本文提出了MU-CAM算法,通过多类别标签,将弱监督语义分割转化为不确定像素点区域和确定像素点区域的分类问题,再利用多类别标签和特征图构造注意力机制,使分类结果更准确,从而生成高精度热力图,改善弱监督语义分割算法的表现。

CAM和MU-CAM热力图对比如图1,其中图1a为CAM生成的热力图,注重相关性;图1b为MU-CAM生成的热力图,注重相关性和权重大小。

a)CAM热力图 b)MU-CAM热力图

在CAM生成的热力图中,热力信息更多集中在目标鸟的头部,而身体等其他部位被严重低估,从而导致较多像素点无法合理进行标签分类,形成了残留的不确定像素点。MU-CAM通过关注每个目标中有哪些像素点,得到精度更高的热力图。图1b中可以清楚看到热力图几乎覆盖鸟的全身,提高热力图精度可以使不确定像素点减少,像素分类更准确。

1.2 多类别标签热力图生成算法

定义1:如果像素点在前景和背景的相似度得分差不大于ε,则网络不能对该像素点正确分类,即该像素点为不确定像素点,全体不确定像素点的集合简称不确定类。

定义2:设输入图像内的像素为i,则像素i和特征图进行相似度计算公式为

(1)

定义3:设图像分割结果为I,I在同一幅图像中固定不变,则每张图像的I=P前景+P背景+δ。其中,P前景表示该图像中前景类像素点集合;P背景表示该图像中背景类像素点集合;δ表示该图像中不确定类像素点的集合。

δ=α前景+β背景+Δδ 。

(2)

式中:α前景为不确定类集合内本该属于前景类的像素;β背景为不确定类集合内本该属于背景类的像素;Δδ为本网络无法进行区分的像素,则有公式:

I=(P前景+α前景)+(P背景+β背景)+Δδ 。

(3)

CAM虽然关注图像像素和分类器之间的关系,使得弱监督语义分割的发展成为可能,并减少对人工标注的依赖,降低训练网络成本[12]。但CAM忽略了弱监督学习产生的不确定信息,也没有关注每个类别中有哪些像素点,导致热力图生成精度较低[13]。MU-CAM算法通过利用特征图对种子区域的像素点进行相似度评分,将图像内像素点分为前景类、背景类和不确定三类像素,再利用特征增强后的特征图对不确定类像素点进行相似度打分,将不确定像素点分类为前景或者背景,以此减小Δδ。不确定像素点减少,像素的分类更加准确。利用种子区域生成热力图的可视化结果如图2。

图2 基于种子区域生成热力图可视化像素分类

图像经种子区域划分为多类之后,输入图像的大部分像素点可以被正确分类为前景或背景,但仍然会残留许多不确定像素点,影响弱监督语义分割的效果。这时,通过增强特征图的前景特征,对位于不确定类内的像素点和前景背景进行相似度评分。利用特征图中所有像素和不确定类像素点的相似度判断位于不确定类像素点的类属,相似度得分高的像素属于同一类,由此可以改善像素分类结果。最后,将像素分类结果等效成热力图,达到生成高精度热力图的目的。

对位于不确定类区域的像素点进行权重分配的逻辑如图3。利用前景特征增强后的特征图对位于不确定类区域的像素进行相似度判断,并获得相似度得分。相似度高的像素属于同一类,故每个像素与相似度高的类之间的权重被设为1,与其他类的权重为0,以此进行每个不确定像素的重新分类。

图3 不确定类像素权重分配逻辑图

1.3 MU-CAM网络整体结构

MU-CAM网络的整体结构如图4。MU-CAM网络以CAM架构为基础,首先对输入图像进行种子区域的划分,得到多类别标签,再利用特征增强的特征图对种子区域内的不确定类像素点进行相似度评分,使像素分类更准确,生成高精度热力图;利用BENet生成的边界图与MU-CAM生成热力图的边界图构造损失函数,使边界图变得更加准确。最后将高精度的热力图和边界图进行条件随机场优化,得到最终分割结果。

图4 MU-CAM网络整体结构

(4)

(5)

式中,Mc是c类别的类激活映射图。

本文提出的MU-CAM利用前景和背景信息以提高热力图精度,给定一个输入图像和一个预先训练的分类网络。类激活映射K个前景类和背景可以表示为

(6)

Mb=α(1-max1≤k≤KMk)。

(7)

式中,Fs是网络最后一层的语义特征。将处理后的背景激活映射与前景激活映射结合为一个整体,即M=Mk∪Mb,以帮助建模背景知识。

在构建背景知识之后,要对位于不确定域内的像素进行分类。

(8)

式中:⊗为卷积运算;j为特征图上的空间索引;Si(j)表示像素i和j之间的相似度。

最后,利用相似度得分对位于不确定区域内的像素分配权重,使像素找到自己所属类别:

(9)

2 实验结果分析

2.1 实验设置

硬件配置为NVIDIA GeForce RTX 3060显卡,在Windows10操作系统中,编程环境Python3.6,采用Pytorch1.12.0深度学习框架进行训练并测试网络模型。以PascalVOC2012为基准数据集[14],该数据集包括20个类别,1 464张用于训练图像,1 449张用于验证图像和1 456张用于测试图像。按照语义分割的常用实验协议,从SBD增强数据集中提取额外注释,构建一个包含10 582张图像的增强训练集。在PascalVIC2012数据集下,批尺寸设置为4,学习率设为0.000 001,epoch设为5。

2.2 评价指标

为评价分割结果的准确性,以平均交并比(Mean Intersection over Union,mIoU)作为图像语义分割评价指标,mIoU越大表示像素预测值与真实值的交集越大,分类结果越准确。mIoU的计算过程:

(10)

式中:(α+1)表示类别数目;i表示真实类别;j表示预测类别;pij表示像素值真实为i类但被预测为j类;pii表示正确将像素真实值预测为i;pji表示将像素真实值j类预测为i类。

2.3 仿真分析

MU-CAM利用增强特征后的特征图对位于不确定类域内的像素点进行相似度评分,使位于不确定类域内的像素可以被正确分类,改善像素分类结果。其中,将ε设为0.05,采用前景特征增强,增强系数为1.10。针对不同增强系数对分割结果产生的影响进行消融实验,实验结果如图5。

图5 MU-CAM网络整体结构

消融实验结果表明,当背景不变,前景特征增强系数设为1.10时,弱监督语义分割的结果较高。根据定义1,不确定类像素点在前景和背景的相似度得分相近,所以在背景不变的前提下,对前景做特征增强处理。如果不确定类像素属于前景类,当前景特征增强后,该像素点与前景的相似度得分会提高,由此可以将该像素点归类为前景。如果该不确定像素点属于背景,当前景特征增强后,该像素点与前景的相似度得分会降低,由此也可将该像素点归类为背景。此外,当前景特征系数大于1.15后分割结果会降低,这是因为在对前景特征增强的同时,也增强了图像中某些噪声的强度,造成分割精度降低。基于以上消融实验结果,最终将前景特征增强系数设定为1.10。

将像素分类等效成的热力图转换为边界图,再与BENet生成边界图进行融合并经过CRF优化处理,得到最终的语义分割结果对比结果见表1。

表1 语义分割结果对比

实验结果表明,在尺寸、迭代周期和学习率设置相同的条件下,MU-CAM算法mIoU为65.13%,相比CAM算法提高14.57%。为直观比较输入图像经CAM和MU-CAM生成热力图的效果,结果对比如图6。

通过对比热力图覆盖区域,不难发现利用多类标签MU-CAM对图像信息处理更准确,使得位于物体不确定的像素点可以分类更精确,生成高精度热力图并使网络在后续的处理中语义分割效果更好,解决了由于CAM忽略图像内不确定信息导致无法改善弱监督语义分割结果的问题。

CAM与MU-CAM分割结果对比如图7。图中框内部分为使用CAM分割后确实或分类错误的部分。例如,在图7b第(1)行对摩托车前方的三轮车尾部和上方摩托车轮胎未进行分割,而在使用MU-CAM后,分割效果明显提升。

图6 CAM和MU-CAM热力图对比

图7 基于CAM和MU-CAM分割结果对比图

3 结 语

弱监督语义分割过程中,不可避免地会产生许多不确定像素点,而这些不确定像素点会影响像素分类的准确性。本文提出一种多类别标签弱监督语义分割热力图生成算法MU-CAM,该算法通过利用特征图和多类别标签构造注意力机制,使图像像素点的分类更加准确,进而减少弱监督学习的不确定性影响,较大程度提高了不确定像素点的分类准确度,改善了弱监督语义分割的效果。MU-CAM算法可以提高弱监督语义分割在复杂环境下的分割精度,使弱监督语义分割可以更好地应用于无人车自主驾驶等领域。在未来工作中,将进一步解决弱监督学习的不确定性,提高弱监督语义分割的精度。

猜你喜欢
力图像素点前景
乔·拜登力图在外交政策讲话中向世界表明美国回来了
我国旅游房地产开发前景的探讨
基于局部相似性的特征匹配筛选算法
四种作物 北方种植有前景
血栓弹力图在恶性肿瘤相关静脉血栓栓塞症中的应用进展
离岸央票:需求与前景
基于5×5邻域像素点相关性的划痕修复算法
基于canvas的前端数据加密
时空观指导下的模块整合教学——以《20世纪四五十年代力图称霸的美国》为例
基于逐像素点深度卷积网络分割模型的上皮和间质组织分割