吴坚
(大理大学数学与计算机学院,云南大理 671000)
语义分割是图像处理研究的一个分支,语义分割的目标主要是给图像指定语义标签,例如人、车、树、房子、道路等,并且将其按语义标签进行图像的划分。语义分割的重要的方法是使用域适应分割。域适应算法通过源域(即源图像)和目标域(即目标图像)的分析实现语义分割。其中的自训练的域适应算法是一种较为有前景的算法,本文从不同角度介绍了近期的自训练的域适应语义分割算法[1-5],使读者对该类算法有一个较好的了解。
如果标签对于同样的任务在源域和目标域都是可用的,运行域适应算法是在两个域(源域和目标域)中执行监督的精调模型。对于语义分割网络,域适应问题可以用最小化下面的损失函数来制定:
其中,Is表示源域图像的索引,ys,n是在Is中的对于第n个像素的真实图像的标签,w包含网络的权值。pn(w,Is)是在像素n 上的含有类概率的softmax 的输出。It表示目标域图像的索引,yt,n是在It中的对于第n 个像素真实图像的标签,pn()w,It是在像素n 上的含有类概率的softmax的输出[1]。
在无监督域适应的情况下,目标域的真实图像的标签是不可用的。可以采用精调分割模型,将目标标签作为隐藏变量来学习。问题可以描述如下:
Zou[1]首先提出了带有自步调的自训练。通过自步调的线路学习,可以从信度预测中生成伪标签,并更接近于正确的标签。一旦模型被更新或更好地适应于目标域,以下的策略将检测剩余的具有较少信度的伪标签。为了合并学习的路线,考虑使用下面修订的自训练公式:
由于域间隙和类分布的差别会导致类之间不同域变换的困难,自训练模型偏向于对于容易转的类给予较高的预测信度。模型倾向于最初很好变换的类,而忽视训练过程中较难转换的类别。为解决这些问题,Zou[1]提出了类平衡的自训练结构,在这个结构中类明智的信度层用下式标准化:
其中,kc是一个分离的参数,该参数由类c的伪标签的比例来确定。
为了优化类平衡的自训练的流程,和式(3)相同并去除伪标签的生成,Zou 提出重写伪标签优化过程如下:
优化式(5)需要下列的类平衡解决方案:
从式(6)可以看到,伪标签的生成不再依赖于输出pn(c|w,It),而关键是正交输出
Zou[2]在类平衡自训练的语义分割算法的基础上,提出了置信度正则化的自训练(Confidence Regularized Self-Training,CRST)。通过平衡置信度正则化,以防止交叉熵过度最小化而导致自训练的性能下降[2],定义CRST如下:
注意上面的正则化项倾向于选择具有确定平滑性而不是稀疏的伪标签。此外,在步骤(2)中CRST标签正则化和CBST共享同样的网络重训练[2]。
模型正则化有普通的形式RC(w)=p(xt;w)是网络的softmax 的输出概率。与CBST 比较,CRST 模型正则化在伪标签的生成过程中同样存在困难。但是在网络重训练的(2)步骤中使用交叉熵损失正则化,这个正则化项是通过输出平滑激励项得到。Zou定义了在步骤(2)的优化问题如下[2]:
Mei[3]首先提出了用于无监督域适应的实例适应自训练的框架,该框架带有实例适应选择器(Instant Adaptive Selector,IAS)和区域指导的正则化。IAS 对于每一个语义分割类选择一个适合的伪标签阈值并动态降低“难识别”类的比例,以减轻伪标签的噪声。指导区域正则化的设计是用于平滑信度区域的预测并使忽略区域的预测变得更为敏锐。总的目标函数如下:
其中,LCE是目标域的交叉熵损失,是伪标签集,Ri是可忽略区域的正则化,Rc是置信区域的正则化,λi和λc是正则化权值[3]。
信度区域的KL 散度最小化如下:伪标签的质量不如真实图像标签,意味着伪标签中有噪声。Mei[3]提出使用KL 散度以平滑信度区域的预测结果,预测结果不会过度拟合伪标签。
在域适应语义分割中,目标域的不确定预测对应于较少出现的像素或者小对象的类,需要将其进行再取样,以降低目标域的不确定性。关键思想是将高度不确定类进行定位,计算源域的基于这些类实例样本概率。在样本的源域和目标域中通过对抗训练得到特征的校准。Wang[4]首先提出了不确定意识的伪标签精练,从以下两个方面研究了不确定的目标预测,以降低伪标签的噪声[4]。
Wang[4]使用熵表示目标域不确定的特征,认为具有低的熵是确定的样本,而高的熵是不确定的样本。为了定位不确定感知的类,首先在整个目标域中计算分类层的平均熵。
为了使不确定感知信息将伪标签分离为正确(正的)和不正确(负的)的分类,使用了具备两个组成部分以适合正的和负的高斯混合模型。属于正的分布样本被选择为伪标签,此外考虑到类的不平衡,对于分类层的熵对分布进行拟合。第c类的概率分布由下式获得:
其中,wneg,μneg,σneg和wpos,wpos,σpos各自表示负的和正的高斯分布的权值、均值和方差。是第c 类的图像层的熵。为了估计高斯混合模型在式(18)中的参数,使用期望最大化算法以优化分布和权值(wneg,wpos)。一旦分布被估计,正确的伪标签可以从正的分布中被选择出来[4]。
Zhang[5]首先提出了基于域适应语义分割的原型伪标签降噪和目标结构学习[5]。传统的自训练技术通过优化带有伪标签的分类交叉熵[5]:
Zhang[5]提出了固定伪标签并且通过类明智的概率渐进地改变权值并相应地更新所学的知识,Zhang首先提出使用带的权值伪标签用于自训练,如下式[5]:
所提出的标签更新策略需要动态计算原型。对于目标域图像,原型根据预测的伪标签初始化,原型η(k)如下:
其中,是指示函数。运用小批量聚类中心的移动平均值来估计原型。在迭代过程中,原型按下式估计:
其中,η′(k)指类k的平均特征,它由来源于动量编码的当前训练批次计算,λ是动量系数[5]。
Wang[4]使用对称交叉熵,以便更好地加强噪声耐受性以稳定早期的训练阶段。对称交叉熵如下定义:
其中,α和β是平衡系数[5]。
本文从不同角度介绍了近期发展起来的自训练域适应算法,这些算法从各个方面分析并研究了自训练域适应语义分割,有效地解决了域适应算法存在的一些问题,是有前景的语义分割算法。