郑茗化 白本督 范九伦 魏雅娟 焦瑞芳
关键词: 图像处理; 图像风格化转换; 深度学习; 卷积神经网络; 特征提取; 局部均方差
中图分类号: TN958?34; TP751.1 文献标识码: A 文章编号: 1004?373X(2019)14?0144?04
Neural network image style transfer based on local mean square error
ZHENG Minghua1,2,3, BAI Bendu1,2,3, FAN Jiulun1,2,3, WEI Yajuan1,2,3, JIAO Ruifang1,2,3
(1. School of Communications and Information Engineering, Xian University of Posts & Telecommunications, Xian 710121, China;
2. Key Laboratory for Electronic Information Investigation Application Technology of Ministry of Public Security, Xian 710121, China;
3. International Cooperation Research Center of Wireless Communication and Information Processing Technology of Shaanxi Province, Xian 710121, China)
Abstract: Gatys and others first use the deep learning?based method to separate and reorganize the contents and styles of images, so that image style can be transformed arbitrarily, which opens up a new field of image style transformation based on neural networks. On the basis of the research of Gatys and others, the local mean square error denoising method is introduced in this paper. The local mean square error is taken as part of the neural network loss function, and the weighted algebraic sum of the three loss functions is taken as the total loss function of the neural network by combining the content loss function and style function. The results show that the method proposed in this paper can effectively improve the image quality output by the style transformation algorithm while performing image style transformation, which makes image noise points significantly reduced and produces smoother images.
Keywords: image processing; image style transformation; deep learning; convolutional neural network; feature extraction; local mean square error
圖像风格转换,本质上是使图像由当前风格转换成另一种风格。图像风格转换的传统方法是基于计算机图形学的非真实感渲染(NPR)。非真实感渲染技术自出现到现在一直是图形学研究的热点问题,经过无数专家学者的努力,已经取得了一系列的成果。非真实感渲染是一种模仿人类艺术表现的计算机图形技术,自20世纪90年代以来一直被研究[1]。大多数研究工作都集中在具体风格的表达上,如画家风格、笔墨和水彩画。 这些是基于笔画的渲染(SBR)方法,该方法使用笔触笔画作为基本元素[2],各种风格可以通过对每个画笔笔画进行建模来表达。然而,每种风格都需要一种独特的绘画方法,因此在单个框架中表示各种风格并不容易[3]。Gatys等人首次使用深度学习中的卷积神经网络来进行图像风格化转换[4],其核心是利用神经网络来分离与组合任意图像的内容和风格。基本想法是利用一个多层的卷积神经网络抽象出给定图像里一些高级的隐藏特征来模仿图像风格,并把这个风格应用到一个新的图像上。而在纹理转换领域,传统方法之所以没能取得这么惊人的效果,其本质原因在于,非深度学习的方法只能获取到目标图像低层次的图像特征。所以这些方法无法独立地对图像的语义内容和风格的变化进行有效的建模,从而无法很好地对两者进行解耦和合成。而深度神经网络之所以可以在众多领域中取得惊人效果,正是由于其可以抽取出高层次的信息表征。
1 基于深度学习的图像风格化转换
以不同的风格呈现图像的语义内容是一个困难的图像处理任务。Gatys使用卷积神经网络提取的图像表示,进而提出一种基于神经网络的图像艺术风格转换方法。这种方法可以分离和重组图像的内容和风格,同时能够产生高感知质量的新图像,将任意图像的内容与许多著名作品的风格相结合。
将风格从一个图像转移到另一个图像可以被认为是纹理转化的问题。在纹理转化中,从源图像合成纹理,同时约束纹理合成以保留目标图像的语义内容。关于纹理合成,存在大量强大的非参数方法,可以通过对给定源纹理的像素进行重新采样来合成逼真的自然纹理[5?7]。大多数纹理传输算法依靠这些非参数方法进行纹理合成,同时使用不同的方法来保留目标图像的结构。这些算法虽然取得了显著的效果,但是都存在相同的局限性,即在纹理转化中只使用了目标图像的低级语言内容。因此,为了解决此问题,首先要找到能够体现图像语义内容和风格的图像表示。深度学习通过组合低层特征形成更加抽象的高层特征,尤其是卷积神经网络在提取图像高级语义特征方面表现出了优异的效果。Gatys等人使用VGG网络[8]来提取图像高级语义特征,该网络用于进行目标识别和定位[9]。Gatys等人使用由19层VGG网络、16个卷积和5个池化层所提供的特征空间,同时采用平均汇总的图像合成方式来代替最大池合并的方式,可以产生更有吸引力的结果。Gatys等人通过VGG网络分别来获取目标图像的内容表示和风格表示,并将一张白噪声图像作为原始输入,利用监督学习的方法使白噪声图像的内容表示和风格表示分别与内容图像的内容表示和风格图像的风格表示相匹配,并使用梯度下降的方法来进行优化[10]。
损失函数的数学模型如下:
[Ltotal=αLcontent+βLstyle] (1)
式中:[Lcontent]为内容损失函数;[Lstyle]为风格损失函数;[α]和[β]分别为内容损失函数和风格损失函数的权重,此二者加权求和即为总的损失函数。
1.1 图像内容表示的获取
在VGG卷积神经网络中,每个卷积层都有一组非线性滤波器(卷积核),[l]层具有[Nl]个滤波器,每个滤波器的尺寸为[Ml]。其复杂程度也随着网络层的深入而递增。通过对输入图像[x]的滤波,将网络每个层级的响应存储在矩阵[Fl∈RNl×Ml]中。Gatys等人用这些滤波器的响应作为图像的内容表示,以平方误差函数[Lcontent]来表示白噪声图像与目标图像在网络中的同级滤波器响应之间的差距。用[Flij]表示第[l]层的第[i]组滤波器的第[j]个滤波器的响应,[p]表示内容图像。
[Lcontent(p,x,l)=12ij(Flij-plij)] (2)
通过梯度下降的方法来不断减小白噪声图像与原图像在卷积神经网络的某个网络层中产生的响应之间的差距,使得白噪声图像与原图像的内容表示相匹配。
1.2 图像风格表示的获取
为了获取图像的风格表示,Gatys等人使用一种特征空间来获取图像的纹理信息,作为图像的风格表示[11]。该特征空间建立在每一层滤波器的响应之上,包含不同滤波器响应之间的互相关信息,这些特征互相关信息可由Gram矩阵得到:
[Glij=kFlikFljk] (3)
使用均方误差作为白噪声图像和风格图像的Gram矩阵之间的差异(El),使用梯度下降的方法进行优化,进而匹配白噪声图像和风格图像之间的风格表示。
[El=14N2lM2lij(Glij-Alij)2] (4)
所以風格损失函数[Lstyle]为:
[Lstyle(a,x)=l=0LwlEl] (5)
进而利用梯度下降法来优化:
[?El?Flij=1N2lM2l((Fl)T(Gl-Al))ji, Flij>00, else] (6)
1.3 图像风格转换
基于已经获取的图像的风格表示和内容表示, Gatys等人使用内容表示和风格表示的联合误差函数[Ltotal]作为风格化的误差函数来得到风格化图像。该方法使得白噪声图像的内容表示和风格表示分别与内容图像的内容表示和风格图像的风格表示相匹配。
[Ltotal(p,a,x)=αLcontent(p,x)+βLstyle(a,x)] (7)
为了对误差函数进行优化,这里使用L?BFGS[12]算法,该算法非常适合图像合成。通过优化该误差函数,最终可以将白噪声图像既与内容图像的内容表示相匹配,又与风格图像的风格表示相匹配,最终得到风格化图像。
2 基于局部均方差的图像去噪声算法
在转换与传输的过程中,图像获取常受到图像设备自身因素与外界环境条件的影响,导致所成图像上出现一些随机离散或孤立的点,即图像噪声。含有噪声的图像会影响视觉效果,也会给后续图像分析造成不利影响。为了抑制噪声,改善图像质量所进行的处理称为图像去噪。去噪的方法主要分为空间域去噪和频域去噪,空间域方法是对图像各像素点的灰度直接进行运算;频域方法是对图像进行变换后,在变换域中对图像参数进行运算,然后通过逆变换得到增强的图像。空间去噪方法的原理是对图像中一个邻域内的所有像素进行特定的操作,进而产生一个新像素,这个新像素就是空间滤波的结果。基于局部均方差的图像去噪声算法属于空间域去噪方法,是在像素级别对图像进行操作。对于一幅N×M大小的灰度图像,用[mij]表示(i,j)位置处的像素值,那么在(2n+1)×(2m+1)窗口内部的局部平均值为:
[mij=1(2n+1)(2m+1)k=i-nn+il=j-mm+jxkl] (8)
局部均方差可表示为:
[vij=1(2n+1)(2m+1)k=i-nn+il=j-mm+jxkl-mij2] (9)
加性去噪后的结果为:
[xij=(1-k)mij+kxij] (10)
[k=vijvij+σ] (11)
方差在统计学中表示的是与中心偏离的程度,用来衡量数据的波动性大小。局部均方差去噪方法使得图像中邻近像素点的像素值更加接近,可以有效地去除噪声像素点。
3 基于局部均方差的神经网络图像风格转换
3.1 算法改进
在基于卷积神经网络的图像风格转换算法中,Gatys等人的算法在提取图像的高级语义内容和风格内容时,都是用靠近输出层的响应来作为图像的语义内容表示和风格表示。通过该方法合成的图像常带有大量的高频噪声,即图像有许多或明或暗的颗粒像素。神经网络中, 学习规则是网络的关键, 通过修正权系数, 以获得满意的系统性能。所以神经网络模型的效果与损失函数的选取有着极大的关联。本文在此基础上,提出结合卷积神经网络与局部均方差去噪方法来进行图像风格化转换的方法。使得神经网络学习到的图像中邻近像素点的像素值相近,以达到去除图像中的噪声,改善图像质量与视觉效果的目的。本文将局部均方差作为基于神经网络图像风格转换的损失函数之一,即总的损失函数为图像内容损失函数、图像风格损失函数与图像局部均方差,这三个损失函数的加权代数和。局部均方差损失函数为:
[Llmse=1(2n+1)(2m+1)k=i-nn+il=j-mm+jxkl-mij2] (12)
新的总损失函数为:
[Ltotal=αLcontent+βLstyle+γLlmse] (13)
式中,[α],[β],[γ]分别为内容图像损失函数、风格图像损失函数、局部均方差函数的权重。
3.2 算法流程
算法流程图如图1所示。
1) VGG?19网络模型在提取图像特征方面有着显著的效果。本算法使用该网络模型分别对内容图像和风格图像做语义内容特征提取和风格提取。整个模型在卷积层采用3×3滤波器,步长为2;在池化层采用2×2池化窗口,步长为2。
2) 经过多次实验调试参数,本算法采用如下参数:内容损失函数权重为5;风格损失函数权重为100;局部均方差函数权重为100;神经网络的学习速率为100;迭代次数为1 500次。
3) 将内容图像和风格图像作为神经网络的输入,同时对一张白噪声图像以梯度下降的寻优方法不断迭代来最小化总损失函数,输出合成的风格转换图像,对比Gatys等人的算法输出。
基于局部均方差去噪的神经网络图像风格转换算法,对各种内容图像和风格图像进行风格转换实验。结果表明,基于局部均方差去噪的神经网络图像风格转换算法在原有算法的基础上对目标损失函数进行改进,融入了局部均方差作为新的损失函数的一部分,在图像风格转换的同时提升了图像的质量,使得图像中的噪声点明显减少,图像视觉效果更佳。
4 实验结果与分析
对比图2c)和图2d)中的红框部分可以明显地看出,本文方法输出图像的楼身窗口处的噪声点明显减少。
对比图3c)和图3d)中的红框部分可以看出,本文方法輸出图像中鞋子以及人脸部分更加清晰,同时墙体砖缝更加明显。
对比图4c)和图4d)中的红框部分可以看出,本文方法输出图像质量更高,左侧山体部分图像更加平滑,视觉效果更佳。对比图5c)和图5d)中的红框部分可以看出,本文方法输出图像中树木部分更加平滑,图像整体视觉效果上更加清晰。
5 结 语
基于局部均方差去噪的神经网络图像风格转换算法是在Gatys等人的算法基础上提出的一种改进算法。该算法在实现图像风格转换的同时提升了图像质量。在使用神经网络进行图像风格转换时,通常采用靠近输出层的图像高级语义表示,缺少靠近输入层的低级像素信息。所以导致图像质量不佳,噪声点较多等问题。实验结果表明,本文通过增加局部均方差作为损失函数的一部分,使得输出图像的邻近像素值相近,避免出现大量噪声点,大大提升了输出图像质量。
参考文献
[1] HAEBERLI P. Paint by numbers: abstract image representations [J]. ACM SIGGRAPH computer graphics, 1990, 24(4): 207?214.
[2] HERTZMANN A. Tutorial: a survey of stroke?based rendering [J]. IEEE computer graphics and applications, 2003, 23(4): 70?81.
[3] KANG D, KONG P, YOON K, et al. Directional texture transfer for video [J]. Multimedia tools & applications, 2015, 74(1): 245?258.
[4] GATYS L A, ECKER A S, BETHGE M. Image style transfer using convolutional neural networks [C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 2414?2423.