杨志钢,李辉洋
(哈尔滨工程大学 信息与通信工程学院,哈尔滨 150001 )
图像背景替换是指仅替换图像的背景,指定的前景区域基本不变.传统的图像背景替换以图像分割与替换的直接组合方式实现.虽然阈值分割[1]、背景建模[2]、深度学习模型[3]等图像分割算法较为成熟,良好的背景替换效果的实现仍需要一些先验知识和人工交互式操作.而目前生成式对抗网络GAN已在图像属性编辑领域开展应用[4],可更加简洁且高效地实现图像背景替换.
GAN能够自发地学习图像的概率分布,获得具备生成相似图像的能力[5].在此基础上,Isola等[6]提出的Pix2Pix将GAN的输入换成指定风格的图像,生成了高度相似于原图的不同风格图像,开创了GAN在图像到图像的翻译领域的应用.随后,Zhu等[7]提出的CycleGAN利用循环一致结构,进一步地提升了生成的风格图像质量,并实现了非配对图像下的图像到图像的翻译.He等[8]提出的AttGAN在CelebA人脸数据集上,实现了属性编辑,可以更改原图人脸的具体属性.目前,GAN已能够较为成熟的实现图像属性编辑[9].
GAN生成的图像主要取决于模型结构和样本集质量.模型结构的深度决定GAN对图像纹理细节的学习能力,复杂且合理的结构使GAN具备图像语义信息的学习能力[10].但样本集的质量也至关重要.一方面,样本集质量决定各种GAN所能生成的图像质量水平,且结构越复杂的模型对样本集的要求越高,如具备生成高分辨率、高质量且任意图像属性的StyleGAN[11],需要配套的FFHQ数据集.另一方面,样本集与期望生成的目的图像集之间的距离尽量小,以免生成出的后者图像失真.
本文提出了一种基于改进GeneGAN的图像背景替换方法,能在两类背景图像存在较大偏差的情况下,实现图像背景替换.以空中无人机图像的背景替换为例,在主干网络GeneGAN下,通过背景减除方法获得的差值图像,解决目的图像与真实图像之间偏差过大的问题,生成良好效果的无人机背景替换图像;通过基于背景先验知识的强约束项,解决生成的背景图像的无人机“残影”问题,改善了生成的图像效果.在各类复杂背景下,本文方法能够鲁棒地生成良好的背景替换图像.
生成式对抗网络(Generative Adversarial Networks, GAN),主要由生成器G与判别器D组成,通过循环不断地依次训练G与D,使D难以辨别G生成数据的真假.可以认为,由于判别器D的辅助和引导,生成器G才能学习到真实数据的分布[12].
2014年Goodfellow提出最初GAN理论与模型,获得了比其他生成式模型更好的图像生成质量,但GAN存在模型收敛慢、模式崩溃易发生、模型性能较差等问题.Radford等[13]提出的DCGAN提升了模型性能,使GAN能够生成更复杂的图像.Arjovsky等[14]提出了WGAN,以EM距离代替原GAN的JS散度,解决了模式崩溃和梯度消失问题,并加速了模型的收敛,具备更好的模型性能.
WGAN以真实分布Pr与生成分布Pg的EM距离来定义目标函数W(Pr,Pg):
(1)
其中:xr、xg分别是从Pr和Pg中采样得到的数据.进行推导后获得具体实施时优化的损失函数LGAN:
LGAN=Exr~Pr[fw(xr)]-Exg~Pg[fw(xg)]
(2)
其中:fw(·)代表WGAN的判别器.
使用WGAN进行图像生成时,模型缩小了生成图像分布与原真实图像分布的EM距离,因而,生成的目的图像xr相似于原图像xg,即两者之间偏差很小.
然而,当期望生成的图像不相似于原图像,即两者偏差较大时,WGAN并不能认识到这点,仍会生成与原图像相似的生成图像.对于该问题,可通过精心设计的复杂结构来解决,而本文提出的背景减除方法,是一种低成本、易实现的解决方案.
Zhou[15]等提出的GeneGAN是较出色的图像属性编辑网络,其先用编码器分离图像的属性,再通过解码器交换并生成不同属性组合的新图像.GeneGAN的网络细节采用类似DCGAN的深度卷积网络模块实现,满足了对复杂图像的基本学习能力.模型结构上,采用了WGAN结构,能够快速的收敛模型,且避免了模式崩溃等模型训练问题的出现;应用CycleGAN的循环一致方法,维持生成图像的相似性,并提出了parallelogram损失,使得生成图像的属性更加可控.
由GAN的损失值约束项可知,要想实现生成的图像足够真实,需使得生成的目的图像与真实图像之间的偏差较小.以空中无人机图像替换为例,如图1(A)所示为在同一颜色天空的无人机图像背景替换示意图,以训练集中灰白天空的无人机图像AX与该天空的纯背景图像B0作为输入,通过基于GeneGAN的图像背景替换模型,生成两幅背景已交换的无人机图像BX'与纯背景图像A0′,其中,A、B指代背景属性,X、0分布指代“有”和“无”无人机属性.可以看出,生成的目的图像BX′、A0′与对应的真实原图像AX、B0极为相似,相减得到的差值图数值很小,表现为图中所有元素均为黑色,GAN能够较好地将生成图像拟合为真实图像.
图1 图像间偏差与GAN背景替换效果的关系示意图
可以通过背景减除方法对GAN的输入图像进行处理,获得差值图像,从而使得原来偏差较大的目的图像和原图像,重新满足GAN的损失值约束条件.如图2所示,目的图像BX′、A0′与对应的原图像AX、B0,将图像分别减去各自的纯背景图像,获得相应的差值图像X′、0′、X和0.代表无人机图像的差值图像X′和X表现出很高的相似性,相比原来的BX′和AX图像,更适合作为GAN的判别器的两个输入数据.相应地,代表背景图像的差值图像0′和0也表现出很高的相似性,也更适合作为GAN的判别器的两个输入数据.
图2 背景减除解决偏差大问题示意图
此时,WGAN作为GeneGAN所用的GAN结构,其损失值LGAN如式(3)所示:
(3)
进行如图3所示的分析后可知,生成图像出现残影,是由于原GeneGAN的Lparallelogram损失值约束导致,如式(4)所示:
(4)
其中:‖·‖1表示L1范数.该式表示两幅生成图像与两幅真实图像的各点像素值的差值应最小,用于规范生成图像不至于失真太大.而两幅背景图像中无人机所在区域范围的像素点数值有较大的不同,因而造成背景图像中存在无人机“残影”.
图3 Lparallelogram约束导致残影示意图
针对上述现象,可以利用背景图像的先验知识设计强约束项,使生成图像消除“残影”.由于背景图像较为平滑,噪声较少,本文提出纯背景图像A0′的各通道方差损失值强约束项LA0′,如式(5)所示:
(5)
其中:C为图像颜色通道数量,W、H分别为图像的宽和高.该强约束项的作用,为对生成图像A0′各颜色通道图的像素值进行统一化,从而消除无人机“残影”的噪声干扰.
本文方法总体框架如图4所示,采用GeneGAN为模型主体结构,结合背景减除方法和强约束项,实现无人机图像的背景替换.
图4 本文方法总体框架示意图
总体损失值由本文提出的2个损失值个原GeneGAN的3个损失值组成,具体为:1)WGAN的损失值LGAN,以生成图像与真实图像的差值为输入,使模型具备生成图像的能力;2)强约束项LA0′,消除“残影”噪声干扰;3)GeneGAN的重建损失Lreconstruct,使生成图像更符合原图像特征;4)GeneGAN的属性空值损失约束L0,衡量无人机与背景的分离程度;5)GeneGAN的约束Lparallelogram,进一步强化迁移图像与原图像的相似性.其中,Lreconstruct、L0的值具体如式(6)~(8)所示.
(6)
因而,生成器的总损失值为:
LG=LGAN+LA0′+Lreconstruct+L0+Lparallelogram
(7)
判别器的总损失值为:
LD=LGAN
(8)
实验环境配置为Ubuntu系统、主频3.40 GHz的Intel Xeon Gold 6128 CPU、16GB的Tesla P100 GPU.
以无人机图像背景替换为例,通过实验对比,验证方法的有效性.目的是将无人机图像背景替换为其他背景.数据集分为少量的灰白天空背景无人机图像、灰白天空纯背景图像和数量与种类均丰富的其他纯背景图像.其中,灰白天空背景无人机图像集中图像样式相似且背景基本一致;灰白天空纯背景图像与无人机图像背景一致,作用是充当背景减除方法中的灰白天空无人机图像所对应的灰白天空纯背景图像;其他纯背景图像为各种途径获得空中背景图像,均为无人机可能出现的环境.
为了体现本文方法在无人机图像背景替换上的有效性,对无人机可能出现的四类场景进行丰富的背景替换效果展示.如图5所示,第一列和第一行分别为输入的无人机图像和4类场景背景图像,分别为天空、云彩、小干扰物、大干扰物,实验结果依次对应于剩下的3行8列中的图像.
图5 本文方法的4类场景下无人机背景替换效果图
通过对比原GeneGAN模型在无人机图像的背景替换实验结果,来验证本文方法的有效性.如图6所示为两种方法实验结果,其中,第一、二列为原图像,分别为灰白天空无人机图像AX与其他纯背景图像B0;以A0′指灰白天空纯背景图像和BX'指其他背景的无人机图像,那么,第三、四列分别为原GeneGAN生成的A0′和BX′,第五、六列分别为本文方法生成的A0′和BX′.
图6 无人机背景替换结果对比图
可以看出,原GeneGAN无法替换无人机图像的背景,相比之下,本文方法能够很好地生成替换为其他背景的无人机图像.
本文针对两类背景图像存在较大偏差的问题,提出了一种基于改进GeneGAN的图像背景替换方法,以无人机图像为例,实现将无人机图像的单一背景替换为丰富复杂背景,获得高质量的背景替换效果.通过背景减除方法获得的差值图像,解决了无人机图像与背景图像的偏差问题,使模型能够正确地生成指定背景的无人机图像;通过强约束项,解决了生成的背景图像中无人机“残影”现象,使模型能够获得正确的原图像纯背景.实验表明,本文方法能将图像的背景替换为其他丰富背景,生成图像具备高质量且高真实性的特点;与原GeneGAN相比,本文方法能成功实现背景偏差大的图像背景替换.
本文证明了两类背景图像存在较大偏差时的GAN图像属性编辑方案的可行性,扩展了GAN相关技术的应用范围,如少样本学习、迁移学习等需求虚拟样本的技术领域.但要使模型更准确地学习不同图像的分布,需要设计相应地的指向性约束,以应对不同属性的图像编辑任务.