廖斌 谭道强 吴文
摘 要:图像中的阴影是投影物体的重要视觉信息,但也会对计算机视觉任务造成影响。现有的单幅图像阴影去除方法因鲁棒阴影特征的缺乏或训练样本数据的不足与误差等原因,无法得到好的阴影去除结果。为了准确生成用于描述阴影区域光照衰减程度的蒙版图像,进而获得高质量的无阴影图像,提出了一种基于衰减式生成对抗网络的单幅图像阴影去除方法。首先,敏感因子引导的衰减器被用来提升训练样本数据,为后续的生成器与判别器提供符合物理光照模型的阴影样本图像。其次,生成器将结合感知损失,并在判别器的督促下得到最终阴影蒙版。与相关研究工作比较,所提方法能有效恢复阴影区域的光照信息,可以得到更为逼真、阴影边界过渡更加自然的无阴影图像。利用客观指标评价阴影去除结果。实验结果表明,该方法能在多个真实场景下有效去除阴影,去阴影结果视觉一致性良好。
關键词:图像处理;阴影去除;生成对抗网络;衰减器;光照模型
中图分类号:TP391.41
文献标志码:A
Single image shadow removal based on attenuated generative adversarial networks
LIAO Bin*, TAN Daoqiang, WU Wen
School of Computer Science and Information Engineering, Hubei University, Wuhan Hubei 430062, China
Abstract:
Shadow in an image is important visual information of the projective object, but it affects computer vision tasks. Existing single image shadow removal methods cannot obtain good shadow-free results due to the lack of robust shadow features or insufficiency of and errors in training sample data. In order to generate accurately the shadow mask image for describing the illumination attenuation degree and obtain the high quality shadow-free image, a single image shadow removal method based on attenuated generative adversarial network was proposed. Firstly, an attenuator guided by the sensitive parameters was used to augment the training sample data in order to provide shadow sample images agreed with physical illumination model for a subsequent generator and discriminator. Then, with the supervision from the discriminator, the generator combined perceptual loss function to generate the final shadow mask. Compared with related works, the proposed method can effectively recover the illumination information of shadow regions and obtain the more realistic shadow-free image with natural transition of shadow boundary. Shadow removal results were evaluated using objective metric. Experimental results show that the proposed method can remove shadow effectively in various real scenes with a good visual consistency.
Key words:
image processing; shadow removal; generative adversarial network; attenuator; illumination model
0 引言
阴影虽能为图像深度和物体几何形状预估等计算机视觉研究工作提供重要依据,但其存在也会加大物体检测、目标跟踪等任务的难度。因此,在诸多计算机视觉应用中需要去除图像中的阴影。单幅图像阴影去除一直是计算机视觉和图像处理领域的一个研究热点。
阴影去除常包含阴影定位和去阴影这两个步骤。在阴影定位过程中,文献[1-3]中使用阴影检测的方法,文献[4-5]中使用人工交互标注的方法确定阴影的位置,然后再分别使用自定义的特征对全阴影和半阴影区域进行重建。然而,阴影检测本身就十分困难。传统基于物理模型的方法仅仅在处理高清图像时才能得到不错的效果。基于统计学习的方法则过度依赖自定义的阴影特征[2]。用户交互虽然能准确地定位阴影,但处理大数据量图像时非常耗时耗力。利用卷积神经网络表征学习的能力,文献[2]和文献[6]中的深度网络能够学习阴影检测所需要的特征,但受到数据集规模的限制,这两个网络层次都较浅。此外,这两种方法以区域块的形式运用卷积神经网络,后续还要进行全局优化以保持图像的连贯性。在去阴影过程中,已有的阴影去除方法大致可分为以下两类。文献[7-10]中的方法均基于梯度域去阴影,而文献[1,2,4,11-12]中的方法均基于图像颜色域去阴影。文献[8-9]中通过比较光照不变图和原始RGB图像进行阴影检测,然后提出一系列基于梯度的方法进行阴影去除。但这些基于梯度的方法仅仅只改变阴影边界或半阴影区域的梯度变量,因此对于全阴影区域的光照变量并不适用。基于颜色域的阴影去除方法通常采用分类[1-2]和用户交互[11-12]的方法区分全阴影和半阴影区域。其中,文献[2]中使用两个独立的卷积神经网络对阴影进行检测并区分全阴影和半阴影区域,然后基于贝叶斯公式的方法提取描述阴影区域光照衰减程度的蒙版图像。文献[12]中在全阴影和半阴影区域分别使用不同的低级特征,使用马尔可夫随机场找出半阴影区域,然后使用强度表面恢复法去除阴影。文献[13]中基于栈式条件生成对抗网络提出了一种多任务学习的方法,将阴影检测与阴影去除并行,能得到不错的效果。文献[14]中绕开了阴影检测环节,通过图像本征分解得到无阴影的图像。但是,基于本征图像的方法可能会改变非阴影区域的颜色。文献[15]中提出了一种基于卷积神经网络的方法,结合图像中阴影的外表模型以及语义模型构建多语境结构,为阴影图像生成阴影蒙版,从而达到阴影去除的效果,但因为没有从根源上选择误差较低的训练集,使得阴影去除图像的像素在全局均会发生变化,这并不符合阴影去除的初衷。
基于以上问题和不足,本文基于一种新的生成对抗网络进行单幅图像的阴影去除,能为待处理的阴影图像生成更为准确的阴影蒙版图像,从而得到更为真实的无阴影图像。根据文献[7]可知,阴影图像可由无阴影图像和阴影蒙版图像在像素级别上相乘得到,因此得到了阴影蒙版图像就能得到阴影去除图像。所提网络由衰减器、生成器和判别器等3个部分构成。首先,为了减小样本存在的误差,筛选训练样本。利用带敏感因子的衰减器生成额外的样本训练网络以提高所提模型的拟合能力。衰减器的输入为样本阴影图像和标注阴影区域的阴影二值掩膜构成的四通道图像,旨在生成新的符合物理光照模型的阴影图像。这些新的数据一方面能扩大数据集增加模型的可靠性以及擬合能力,另一方面生成的图像与经过筛选的训练样本一样,与它们对应的真实无阴影图像具有较小的误差,这能提高模型训练的精度。其次,在衰减器提供充足训练样本的前提下,生成器结合感知损失函数,旨在生成准确的阴影蒙版;而判别器不断更新,并给予生成器反馈。最终判别器与衰减器、生成器达到平衡。然后直接将待处理阴影图像作为生成器的输入就能直接得到其对应的阴影蒙版图像。
本文的主要贡献:1)提出一种基于衰减式生成对抗网络的阴影去除框架,能为待处理的阴影图像生成对应的阴影蒙版,从而实现阴影去除;2)提出了一种带敏感因子的衰减器,能够生成不同衰减程度且符合物理光照模型的阴影衰减图像,以作为额外可靠的数据集;3)与传统的生成器不同,本文将结合感知损失,并与判别器进行对抗训练,以大幅度提高生成蒙版的准确性,得到更自然的无阴影图像,在多个测试数据集上均能得到良好的结果。
1 衰减式生成对抗网络
传统基于阴影蒙版的阴影去除方法在估算阴影蒙版时需要提前定位阴影的位置。而定位阴影常常需要做阴影检测[1-2]或者使用用户交互的方式[4-5]标注出阴影的位置。因阴影检测的过程本身就十分具有挑战性,且这一过程常常因为缺乏鲁棒的阴影特征[1,16-17]造成阴影检测不够准确或只在处理高清图像时才能得到较好的结果[18]。基于用户交互的方式虽然能更为准确地定位阴影的位置,但整个检测过程缺乏全自动性,大批量处理图像时,需要较多的资源。生成对抗网络[19-21]作为一种图像生成模型无需提前定位阴影的位置,也可应用于生成阴影蒙版。文献[19]提出的生成对抗网络由一个生成器G和一个判别器D组成。生成器接收一个随机噪声从而生成一幅逼真的图像。判别器从训练集中学习从而判断生成器生成的图像是真还是假。这两个部分是博弈关系。生成器生成图像旨在让判别器难以辨别真假,从而从训练集中学习出数据的分布。文献[20]则进一步拓展文献[19],允许在生成器和判别器中引入额外的条件变量。文献[21]基于文献[20],使用一幅输入图像作为约束条件,训练生成对抗网络以生成另一幅图像。利用深度神经网络自动学习特征的能力,可以大幅减小因人为选定特征而对结果造成的误差。由此,根据文献[21],将样本阴影图像作为约束条件,旨在让生成器生成逼真的阴影蒙版,以达到当前判别器无法分辨的程度;而判别器在提高自己判别能力的同时也激励着生成器能力的提升;直至判别器无法辨认生成器生成的图像的真假之后,使用式(1)[7]计算得到无阴影图像:
x=y·x′(1)
其中:x为阴影图像;y为阴影蒙版,表示由阴影造成的光照衰减效应;x′为无阴影图像。
文献[21]对于阴影图像中非阴影区中偏暗的区域、光照衰减程度多样化的阴影区域以及阴影边界处理能力较差,导致无法生成准确的阴影蒙版,从而无法得到真实的无阴影图像。受到文献[22]的启发,该文使用一个卷积神经网络为主体进行阴影检测,可以提供额外的训练数据,用以提高网络的泛化能力,从而使得网络能够准确地区分非阴影区域中颜色偏暗区域和真实的阴影的区域。同样,本文在生成对抗网络的基础之上,引入一个衰减器A实现类似于文献[22]的功能,以提高整体网络的泛化能力。但文献[22]只应用于阴影检测,方法仍然具有较大的局限,虽然基于光照模型,能生成较为逼真的衰减阴影图像,但其在训练阶段,每次仅能为样本阴影图像生成一幅衰减的阴影图像,而且衰减的程度不可控制,有些样本中的阴影衰减程度较高,而还有很多样本几乎不衰减。基于以上这些问题,本文进一步提出敏感因子引导的衰减器辅以生成对抗网络进行训练,每次训练通过调整步长来控制敏感因子的取值,从而来生成相对于输入图像不同衰减程度的阴影图像。在本文中将所提网络称为衰减式生成对抗网络。通过增大可靠的衰减阴影图像样本,所提网络的处理能力得到大幅度增强,其训练流程如图1所示。
衰减式生成对抗网络由一个衰减器、一个生成器以及一个判别器组成。为了减小样本存在的误差,使用像素的均方根误差(Root Mean Square Error,RMSE)[23]筛选客观数据集作为所提网络的训练样本。样本训练集中每组图像将由样本阴影图像、标识阴影位置的阴影二值掩膜、真实的无阴影图像、样本阴影图像的真实阴影蒙版这四幅图像组成。如图1所示,训练过程中,衰减器的输入为训练样本中的阴影图像及其阴影检测的二值掩膜结果,其中⊕表示将三通道的RGB阴影图像和单通道的二值阴影检测结果堆叠成为四通道的输入,而受到敏感因子的引导与差异损失的约束,衰减器能够生成多幅符合物理光照模型的图像。生成器使用衰减器的输出作为额外的训练数据,结合感知损失,旨在生成准确的阴影蒙版。判别器判断衰减器产生的阴影衰减图像和生成器生成的阴影蒙版是否为真,同时给予衰减器以及生成器信息反馈,以达到相互促进相互学习的目的。网络训练完毕后,便可舍弃衰减器与判别器,直接将待处理的阴影图像作为生成器的输入,即可得到其对应的阴影蒙版,结合式(1)便能得到阴影去除结果。
2 网络构成细节
2.1 敏感因子引导的衰减器
衰减器的引入可以为后续生成器提供符合物理光照模型的训练数据集,而使用敏感因子作为引导则可以控制原始阴影图像中阴影区域的衰减程度以及数量,这将极大程度地提高模型对于多种场景下不同程度阴影的处理能力。敏感因子引导的衰减器加强了非阴影区域中颜色偏暗区域的识别能力,从而生成更加合理、准确的阴影蒙版。在训练过程中,为衰减器构造合适的损失项并形成损失目标函数以达到以上目的。
设M(x)是阴影图像x的阴影掩膜,A(x)为衰减器A关于x和M(x)的输出。首先,为了让衰减器的输出在非阴影区域的像素值保持不变,构建损失项L1旨在抑制x在非阴影区域中像素的改变,如式(2)所示:
L1(x)=∑iM(x)(A(x)i-xi)2(2)
其中i表示的是像素的序号。
其次,衰减器生成的图像应该遵守物理光照模型。生成图像在阴影区域中的所有像素改变的幅度应该尽可能一致,如式(3)所示:
L2(x)=∑c∈{R,G,B}V(ln(A(x)ci-ln(xci)))(3)
其中:L2是物理損失,确保生成器生成的图像是真实可信的。(·)c表示一个像素在c通道上的像素值,c∈{R,G,B}。V(·)为求方差运算,其衡量了各个像素变化量的离散程度。
仅仅使用上述的两种条件作为约束并不能生成衰减程度一致的衰减图像,每次衰减也只能得到一幅随机衰减程度的图像,因此,衰减器还应该有控制其衰减敏感度的敏感因子参数μ。衰减器虽然仍然受限于输入的场景图像,但通过调节μ能生成衰减程度不同的阴影图像用于衰减式生成对抗网络的训练。同时,参数μ也权衡生成图像与样本阴影图像在阴影区域之间的差异。如式(4)所示:
L3(x)=∑i∈M(x),μ∈[0,1](μxi-A(x)i)2(4)
其中L3是敏感损失。当μ接近于1的时候,优化目标函数时,会使得阴影内部像素在满足物理约束的基础上,不会改变太多。通过改变μ的大小。就可以产生衰减不同程度的阴影图像。在实验过程中, μ在[0,1]中采样,步长为0.2,则可将原始训练集扩大5倍。
最终,衰减器A的损失目标函数由损失项L1、L2、L3加权得到,如式(5)所示:
LA(x)=λ1L1(x)+λ2L2(x)+λ3L3(x)(5)
如图2所示,给出了不同敏感因子取值所得到的阴影衰减图像。图2(a)为样本阴影图像。图2(b)是通过文献[22]生成的衰减图像,衰减程度不可控,且只能生成单幅衰减图像。图2(c)、图2(d)、图2(e)分别为3个不同的敏感因子控制的图像。通过比较,较大的μ得到的图像,其阴影区域的颜色深度越接近样本阴影图像;反之,较小的μ将会得到阴影较弱的图像,值得注意的是,受到式(2)的约束,衰减器生成的阴影图像在非阴影区域是不会改变的。使用不同衰减程度图像训练所提网络中的生成器,将使得生成器的能力显著提升。
衰减器的内部结构如表1所示。其中,卷积层5(3)表示第5个卷积层重复3次;ReLU为激活函数;BN为批标准化[24];4/4表示衰减器的输入为一幅四通道图像,分别由三通道的RGB阴影图像和单通道的阴影二值掩膜组成,其输出是一幅在阴影区域存在衰减效果的阴影图像,该图像同样为RGB三个通道,表示为3/3。
2.2 多语境嵌入的生成器和判别器
在衰减式生成对抗网络中,衰减器A输出的图像A(x)(包括生成的衰减图像和原始的样本图像)作为生成器G的输入。生成器G将A(x)作为条件变量,旨在生成阴影蒙版G(A(x))。G试图模拟由输入图像A(x)和样本真实阴影蒙版y组成的训练数据的分布。判别器D的输入为(A(x),y)或(A(x),G(A(x))),并且需要判断该组图像是否是真的训练数据。构建目标函数如式(6)所示:
G=Ex,y~pdata(x,y)[ln D(A(x),y)]+Ex~pdata(x)[ln(1-D(A(x),G(A(x))))+λ4LL1(G)(6)
LL1(G)=Ex,y[‖y-G(A(x))‖](7)
其中:x~pdata(x)为x服从pdata(x)分布,E为求期望运算。
针对如何在去除阴影过程中提高阴影边缘的清晰度这一问题,为鼓励生成图像G(A(x))与真实阴影蒙版y差距更小,在实验过程中增加1个额外的感知损失,LL1距离(真实图像和生成图像)。此时判别器的损失不变,生成器的损失变了。加入LL1后可在阴影边缘局部减少阴影模糊程度,提高清晰度。LL1一方面在鼓励生成图像要尽量靠近目标图像,一方面使用感知损失协助生成图像在语义上与目标图像更为相近。
生成器的内部结构与衰减器,而判别器的内部结构如表2所示,其本质同样是一个卷积神经网络,其中,LReLU为激活函数。6/6表示判别器的输入是一个图像对,分别是阴影图像和阴影蒙版图像。将RGB阴影图像和RGB的阴影蒙版图像堆叠成六通道作为判别器的输入。阴影图像为衰减器的输出,其中包括样本阴影图像与阴影衰减图像。而阴影蒙版图像有可能来源于样本真实阴影蒙版或来源于生成器为样本阴影图像生成的阴影蒙版图像。判别器的输出为图像对是否为真的概率,即阴影蒙版是该样本阴影图像对应的阴影蒙版的可能性。
2.3 网络训练细节
衰减式生成对抗网络的训练可视为衰减器、生成器与判别器之间的一场博弈,并可形式化为求解目标函数,如式(8)所示:
minA,G maxD LA(x)+G(8)
如式(8)所示,衰减器与生成器一组与判别器进行对抗训练,判别器旨在最大化目标函数,而衰减器和生成器却试图最小化目标函数。
为了求解目标函数(8),达到局部最优解,在选取激活函数时,应该注意如下问题。衰减器/生成器的学习率通常较小,可以使用ReLU 加快训练速度。在判别器输出层使用 Sigmoid。这是因为Sigmoid在特征相差明显时的效果很好,在循环过程中会不断地增强特征效果。而判别器的其他层均选用收敛速度快又不易使神经元坏死的 LReLU。这是因为ReLU 函数虽然收敛速度快,但其最大的缺点是当输入小于零时的梯度为 0,这样就导致负值的梯度被设置为 0,此时神经元会处于失活状态,不会对任何数据有所反应,尤其是当学习率很大时,神经元会大面积坏死 ,
使用Tensorflow[26]实现本文网络,LReLU的斜率设置为0.2。使用了Adam优化方法和一个交替梯度更新策略求解式(8)。首先,固定衰减器和生成器中的权值,采用梯度下降更新判别器中的权值;然后同理,固定判别器中的权值不变,使用梯度下降更新生成器和衰减器中的权值。而在更新生成器中的权重时,优先训练外表结构分支和语义分支,然后再将这两个分支通过一个卷积层连接到一起,则可完成生成器的一次迭代。按照均值为0、方差为0.2的正态分布初始化衰减器、生成器和判别器中所有的卷积层和反卷积层的权重,设置偏置值为0。数据增大采用图像裁剪的方法,将原始286×286的图像随机裁剪成多个256×256的子图像,得到4张子图,然后进行水平翻转得8张子图进一步增大数据集。通过大量实验,当λ1=0.2,λ2=0.3,λ3=0.3,λ4=0.2时可以得到较好的结果。
3 实验结果分析
本文实验中使用Ubantu 18.04操作系统,内存为8GB,双核Inter CPU I5,图像处理器(GPU)采用NVIDIA GTX 1080Ti。在数据集部分,挑选UIUC(University of Illinois at Urbana-Champaign)[1]、ISTD(a new Dataset with Image Shadow Triplets)[13]和SRD(a new Dataset for Shadow Removal)[15]这3个有代表性的数据集进行测试。其中:SRD[15]包含3088组阴影和无阴影图像;UIUC[1]包含76组阴影和无阴影图像;ISTD[13]包含1870组阴影、阴影掩膜和无阴影图像。本文经过一系列预处理,便于提供给所提网络学习。具体地,首先,筛选上述3个数据集中一共5034组图像,使用RMSE计算阴影图像和真实无阴影图像在非阴影区域的误差,选取误差最少且场景多样的800组图像。
然后,将这800组图像中阴影图像和无阴影图像相减,在3个通道上设置阈值为20,再进行形态学滤波,最后人工调整错误的阴影像素标签,为数据集得到相应的阴影二值掩膜作为其阴影检测的结果,其中来自于ISTD的数据因自带了阴影检测结果则跳过这一步骤。最后为每组图像补充上真实阴影蒙版构成每四幅图像一组的综合筛选数据集。抽取综合筛选数据集中20%的数据用于本文方法的可行性检验。挑选综合筛选数据集中的几组图像作为示例,如图3所示。
理以及人工标注修正的阴影二值掩膜。图3(d)真实阴影蒙版,其体现了阴影造成的光照衰减效应,为RGB三通道图像。
在综合筛选数据集中选取四幅图像,从获取阴影蒙版角度,将本文方法与文献[15]的方法进行比较,文献[15]提出了一种基于卷积神经网络的方法,其构建多语境结构,为阴影图像生成阴影蒙版,该方法十分具有代表性,而且也能得到不错的结果。分别使用文献[15]与本文方法为阴影图像生成阴影蒙版,结果如图4所示。
图4(c)中因为文献[15]的方法使用的训练数据集存在较大误差,使得后续的阴影去除结果在非阴影区域也会存在大量的变化。如图4(f)所示,无论是海报上的人物、草地上、墙上以及地面上的阴影,在恢复之后明显会出现过亮的情况,导致阴影边界尤为明显。而观察图4(d),本文方法能够得到更加准确的阴影蒙版。比较图4(b)和图4(d),可以发现,在阴影以外的区域,本文方法几乎不会存在虚假的蒙版信息,这使得本文方法在后续的无阴影图像中,在非阴影区域几乎不会发生变化,结果更加合理。如图4(g)所示,可以发现这四组实验中,本文方法因为能够得到准确的阴影蒙版,使得无阴影结果在非阴影区域得到了完整的信息保留,相比文献[15]方法,阴影边界过渡更加自然。
在综合筛选数据集中挑选四幅不同场景的阴影图像,从阴影去除的角度,将本文方法与文献[1]和文献[13]的方法进行比较。这两种方法非常具有代表性:文献[1]的方法基于传统机器学习的方法,使用自定义的阴影特征,先将阴影检测出来,然后基于物理光照模型将阴影去除;文献[13]的方法利用基于条件生成对抗网络的多任务学习方法,能够同时进行阴影检测和阴影去除任务。阴影去除的结果如图5所示。
从图5可以看出,文献[1]的方法因使用缺乏鲁棒性人为定义的阴影特征,从而导致阴影检测的不精准,最终无法得到令人满意的阴影去除结果。如第一行中草地上遮阳伞的部分阴影、第二行中水泥地面上较浅的阴影、第三行中大面积地贴砖、第四行中手持砖块的人物阴影均无法得到准确的检测,从而导致这些区域均未经处理。文献[13]的方法相比文献[1]的方法能够得到更好的结果,但是复原区域存在明显的亮度偏高、轻度模糊的情况,图像整体过渡不均匀,例如第一行到第三行中依然能够看到遮阳伞的轮廓,第四行中人物的躯干,这说明深度网络对于阴影的检测与识别能力已经远远超过了基于自定义特征阴影检测能力,但是在去除能力上仍然具有较大的上升空间。样本场景的不足、精度的不够以及没有结合感知损失等原因造成深度网络阴影去除能力的不足。本文方法继承了深度神经网络的特征学习能力,为阴影图像直接生成阴影蒙版。衰减器生成的衰减的阴影图像作为强大的数据支撑,使得模型对于任意程度的阴影都有较为鲁棒的识别能力,拓展了模型的泛化能力。引入感知损失的生成器能够生成更为精准的阴影蒙版图像,从而能够得到好的阴影去除结果。本文方法处理这4幅图像时,还原的阴影区域的亮度信息更为准确,阴影边界过渡更为自然的同时减少对非阴影区域像素的改变,图像整体更为均匀。在综合筛选数据集上,使用RMSE和结构相似度(Structural SIMilarity index, SSIM)[23]作為衡量指标,将本文方法与上述具体代表性的单幅图像阴影去除方法进行客观数据比较。其中RMSE计算了去阴影图像和真实无阴影图像对应的每个像素的误差,而SSIM反映了结构信息,其更符合人类视觉的感知。
將本文方法与文献[1,13,15]的方法进行量化评估,如表3所示。测试图像为综合筛选数据集的20%,这些图像均具有相应的真实无阴影图像、阴影检测结果。将阴影去除图像与真实无阴影图像从阴影区域、非阴影区域以及整体区域进行量化分析,分别计算测试图像的RMSE与SSIM值的平均值。RMSE值越低说明阴影去除图像与真实无阴影图像之间的误差越小,SSIM值越大说明阴影去除图像从结构上与真实无阴影图像之间更为相似。因为文献[1]的方法基于传统机器学习方法,对阴影区域缺乏鲁棒的特征导致阴影检测十分不准确,从而导致不能拥有较好的阴影去除结果,所以在RMSE上具有较大的误差,在SSIM上相似度也偏低。文献[15]的方法基于卷积神经网络提出一种端到端的阴影蒙版
生成方式,但因其受到训练样本的限制,在深浅程度不同的阴影场景下,不能得到较好的阴影去除结果,其RMSE和SSIM上的表现虽然相比文献[1]的方法有了较大提升,但仍然具有较大的上升空间。文献[13]的方法基于多任务学习使用两个联合的生成对抗网络分别完成阴影检测和阴影去除的工作,同样受到训练数据集的约束且并未考虑生成图像和目标图像之间的感知损失。因此其结果虽优于文献[15]的方法,但仍然没有本文方法好。本文方法在该误差评估上具有最低的误差值以及最高的结构相似度。基于传统学习方法的文献[1]方法消耗时间较长,文献[13,15]的方法和本文方法均基于深度学习,在训练好模型后进行预测,在算法时间上有明显优势。
4 结语
本文为得到体现阴影图像中光照衰减效应的阴影蒙版图像,从而得到更加真实、自然的无阴影结果,提出一种新的阴影去除框架。所提框架由一个带敏感因子的衰减器、一个生成器以及一个判别器组成。带有敏感因子的衰减器能够以不同的程度生成符合物理光照模型的阴影图像,这大大地增加了训练数据的数量,同时也增加了模型对于不同程度阴影的识别与处理能力。生成器使用衰减器的输出作为额外的训练数据用于训练,结合了感知损失,旨在生成逼真的阴影蒙版。判别器判断衰减器产生的阴影衰减图像和生成器生成的阴影蒙版是否为真,同时给予生成器信息反馈,使其能与生成器共同进步。在客观数据集上,对所提方法进行了诸多实验,在像素的均方根误差以及结构相似性上均能得到较好的成绩。下一步,将会把所提框架应用于视频去阴影领域,同时解决无阴影视频结果在帧与帧之间的时空连贯性。
参考文献
[1]GUO R, DAI Q, HOIEM D. Paired regions for shadow detection and removal [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2956-2967.
[2]KHAN S H, BENNAMOUN M, SOHEL F, et al. Automatic shadow detection and removal from a single image [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(3): 431-446.doi:10.1109/TPAMI.2015.2462355.
[3]张营,朱岱寅,俞翔,等.一种VideoSAR动目标阴影检测方法[J].电子与信息学报,2017,39(9):2197-2202. doi: 10.11999/JEIT161394.ZHANG Ying, ZHU Daiyin, YU Xiang, et al.. Approach to moving targets shadow detection for VideoSAR[J]. Jounal of Electronics & Information Technology, 2017, 39(9): 2197-2202. doi: 10.11999/JEIT161394.
张营,朱岱寅,俞翔,等.一种VideoSAR动目标阴影检测方法[J].电子与信息学报,2017,39(9):2197-2202.(ZHANG Y, ZHU D Y, YU X, et al. Approach to moving targets shadow detection for VideoSAR [J]. Journal of Electronics and Information Technology, 2017, 39(9): 2197-2202.)
[4]ZHANG L, ZHANG Q, XIAO C. Shadow remover: image shadow removal based on illumination recovering optimization [J]. IEEE Transactions on Image Processing, 2015, 24(11): 4623-4636.doi:10.1109/TIP.2015.2465159.
[5]ZHANG L, ZHU Y, LIAO B, et al. Video shadow removal using spatio-temporal illumination transfer [J]. Computer Graphics Forum, 2017, 36(7): 125-134.doi:10.1111/cgf.13278.
[6]SHEN L, CHUA T W, LEMAN K. Shadow optimization from structured deep edge detection [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 2067-2074.doi:10.1109/CVPR.2015.7298818.
[7]LIU F, GLEICHER M. Texture-consistent shadow removal [C]// Proceedings of the 2008 European Conference on Computer Vision, LNCS 5305. Berlin: Springer, 2008: 437-450.doi:10.1007/978-3-540-88693-8_32.
[8]FINLAYSON G D, HORDLEY S D, DREW M S. Removing shadows from images [C]// Proceedings of the 2002 European Conference on Computer Vision, LNCS 2353. Berlin: Springer, 2002: 823-836.doi:10.1007/3-540-47979-1_55.
[9]FINLAYSON G D, HORDLEY S D, LU C, et al. On the removal of shadows from images [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(1): 59-68.doi:10.1109/TPAMI.2006.18.
[10]MOHAN A, TUMBLIN J, CHOUDHURY P. Editing soft shadows in a digital photograph [J]. IEEE Computer Graphics and Applications, 2007, 27(2): 23-31.doi:10.1109/MCG.2007.30.
[11]CHUANG Y, CURLESS B, SALESIN D H, et al. A Bayesian approach to digital matting [C]// Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2001, 2: 264.
[12]ARBEL E, HEL-OR H. Shadow removal using intensity surfaces and texture anchor points [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(6): 1202-1216.
[13]WANG J, LI X, HUI L, et al. Stacked conditional generative adversarial networks for jointly learning shadow detection and shadow removal [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 1788-1797.
[14]BARRON J T, MALIK J. Shape, illumination, and reflectance from shading [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(8): 1670-1687.
[15]QU L, TIAN J, HE S, et al. DeshadowNet: a multi-context embedding deep network for shadow removal [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 2308-2316.
[16]ZHU J, SAMUEL K G G, MASOOD S Z, et al. Learning to recognize shadows in monochromatic natural images [C]// Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 223-230.
[17]LALONDE J, EFROS A A, NARASIMHAN S G. Detecting ground shadows in outdoor consumer photographs [C]// Proceedings of the 2010 European Conference on Computer Vision, LNCS 6312. Berlin: Springer, 2010: 322-335.
[18]FINLAYSON G D, DREW M S, LU C. Entropy minimization for shadow removal [J]. International Journal of Computer Vision, 2009, 85(1): 35-57.
[19]GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets [C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014, 2: 2672-2680.
[20]MIRZA M, OSINDERO S. Conditional generative adversarial nets [C]// Proceedings of the 2014 Advances in Neural Information Processing Systems. Montreal,Canada: [s.n.], 2014: 2672-2680.
[21]ISOLA P, ZHU J, ZHOU T, et al. Image-to-image translation with conditional adversarial networks [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 5967-5976.
[22]LE H, VICENTE T F Y, NGUYEN V, et al. A+D net: training a shadow detector with adversarial shadow attenuation [C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11206. Berlin: Springer, 2018: 680-696.
[23]施文娟,孫彦景,左海维,等.基于视频自然统计特性的无参考移动终端视频质量评价[J].电子与信息学报,2018,40(1):143-150.(SHI W J, SUN Y J, ZUO H W, et al. No-reference mobile video quality assessment based on video natural statistics [J]. Jounal of Electronics and Information Technology, 2018, 40(1): 143-150.
[24]IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [C]// Proceedings of the 32nd International Conference on International Conference on Machine Learning. Lille, France: [s.n.], 2015: 448-456.
[25]JOHNSON J, ALAHI A, LI F. Perceptual losses for real-time style transfer and super-resolution [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9906. Berlin: Springer, 2016: 694-711.
[26]WONGSUPHASAWAT K, SMILKOV D, WEXLER J, et al. Visualizing dataflow graphs of deep learning models in TensorFlow [J]. IEEE Transactions on Visualization and Computer Graphics, 2018, 24(1): 1-12.
This work is partially supported by the National Natural Science Foundation of China(61300125).
LIAO Bin, born in 1979, Ph. D., professor. His research interests include image and video processing.
TAN Daoqiang, born in 1995, M. S. candidate. His research interests include computer image processing.
WU Wen, born in 1994, M. S. candidate. His research interests include image video processing.