俞超 卢山富
摘 要: 风格迁移是一项困难的专注于渲染不同风格的图像内容处理任务,深度神经网络已被广泛应用于该任务中并取得了显着的性能。然而,先前的方法将图像内容与风格分开缺少一些明确的语义表达。文章介绍了一种简单而有效的深度学习方法来提取图像风格和内容,从而实现风格的转换。具体来说,就是使用对抗分支来解码图像中的风格和内容,然后利用自动编码器将一个图像的风格和另一个图像的内容进行重建构成新图像。通过实验验证了算法的可靠性。
关键词: 风格迁移; 深度学习; Info-autoencoder; 图像处理
中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2019)03-45-04
Image style transfer based on Info-autoencoder
Yu Chao, Lu Shanfu
(Hangzhou Dianzi University School of Computer, Hangzhou, Zhejiang 310018, China)
Abstract: Style transfer is a difficult image processing task which focuses on rendering image contents in different styles. Deep neural networks have been widely used in this task and obtained remarkable performance. However, the previous methods lack certain explicit semantic expressions to separate the image content from the style. To address this issue, this paper introduces a simple but effective deep learning method to extract image style and content and thus realize style transfer. Specifically, an adversarial branch is used to decode the pure style and content of images. Then an auto-encoder is utilized to reconstruct a new image based on the style of one image and the content of another. The reliability of the algorithm is verified by experiments.
Key words: style transfer; deep learning; Info-autoencoder; image processing
0 引言
图像风格迁移是将图像风格从一个图像转移到另一个图像的任务,这也称为图像 - 图像转换,这是图像处理中的常见问题。例如,通过选择适当的风格画面,我们可以轻松改变天气和时间等因素。随着卷积神经网络的发展,风格迁移得到了很大的发展。例如,图像绗缝算法引入了包括目标图片的相对映射,例如用于约束纹理合成过程的图片强度。Leon A[1]展示了高性能卷积网络如何学习通用特征的重复分析,以此来实现内容和风格的损失函数共同优化研究。
尽管先前的工作取得了一些进展,但现有方法仍然存在一些缺点。例如,它们在对神经网络中传递的内容受到限制,并且它们通常专注于将整个图像转换成相应的风格。
为了解决这个问题,我们提出了一种简单有效的信息自动编码器,它专注于解开风格和内容元素,然后根据图像风格和特定内容重建图像。
我们的贡献如下:我们提出了一种新的结构来获得图像风格和可以广泛应用的风格转移算法,该算法可以重建具有给定风格和内容的新图像。通过实验测试,验证了所提算法的有效性和鲁棒性。
本文的结构如下:第一节简要回顾一下风格转移任务;第二节专门讨论相关工作;第三节介绍了我们的模型结构,并解释它如何工作;第四节是实验结果和分析;第五节是本文的总结。
1 相关工作
在本节中,我们将简要回顾自动编码器和Adam的相关领域知识。
1.1 自动编码器
自动编码器的概念首先由Rumelhart [2]提出。在结构上,最简单的自动编码器形式是前馈非递归神经网络,非常类似于多层感知机(MLP),它具有输入层,输出层和连接它们的一个或多个隐藏层,输出层具有与输入层相同数量的节点,目的是重建它自己的输入(而不是在给定输入X的情况下预测目标值Y)。 因此,自动编码器是无监督学习模型。自动编码器由两部分组成,即编码器和解码器,它们可以定义为转换,例如:
传统上,自动编码器已被用于降维或特征学习。自动编码器神经网络试图学习h(w,b)(x)≈x函數。换句话说,它试图逼近一个恒等函数,使输出接近输入x。但在编码神经网络时我们添加了一些限制,比如隐藏神经元的数量有限,我们就可以从输入数据中找到一些有趣的结构。例如,假设自编码神经网络的输入x是10×10个图像的像素灰度值(总共100个像素),因此n=100,隐藏层中有50个隐藏的神经元。由于只有50个隐藏神经元,我们强制编码神经网络来学习输入数据。
如果网络的输入数据是完全随机的,例如每个输入都是与其他特征无关的完全独立的高斯随机变量,那么将很难学习。但是如果输入数据中嵌入了某些结构,例如某些相互关联的输入特性,则该算法可以在输入数据中找到这些相关性。实际上,这种简单的自动编码器神经网络可以学习低维的输入数据,这与主要分量分析(PCA)的结果非常相似。
1.2 Deep Auto Encoder
Hinton对原始自动编码器结构进行了改进,然后生成DAE,在无监督训练情况下,逐步采用贪心算法完成隐藏层之前的训练,然后利用反向传播算法系统地对神经网络进行参数优化和调整,大大提高了神经网络的性能指标,有效地改善了BP算法的缺点。简单来说,DAE增加了深度,提高了学习能力,并且比原始的自动编码器更有利于数据训练。
1.3 Adaptive Moment Estimation
Adam最初由Diederik P. Kingma提出。Adam是一阶优化算法,可以取代传统的随机梯度下降过程。它可以根据训练数据更新神经网络的权重。Adam的算法不同于传统的梯度下降。随机梯度下降保持单个学习率(即alpha)以此来更新所有权重,并且在训练过程中学习率不会改变。而Adam通过计算梯度的第一动量估计和二阶动量估计,为不同参数设计了独立的自适应学习率。
Adam算法还吸取了AdaGrad[3]和RMSProp[4]算法的优点。Adam不仅像RMSProp算法那样基于一阶动量均值计算自适应参数学习率,而且还充分利用梯度的二阶动量均值(即存在偏差/单一方差)。尤其是该算法计算梯度的指数移动平均值,并且参数β1和β2控制這些移动平均值的衰减率。Adam在深度学习中是非常常用的算法,因此它可以很快得出理想的成果。实验结果表明,Adam算法在实践中具有优异的性能,与其他类型的随机优化算法相比具有很大的优势。
2 方法
我们的风格提取器基于卷积神经网络和自动编码器。源域的两个图片作为网络输入,由目标域生成的图像作为网络的输出。我们的目标是提取图片A中的风格,提取图片B的内容,使生成的图片同时具有A的风格和B的内容。模型训练过程可归纳如下:首先,通过卷积网络和自动编码器来处理需要提取风格的A图片,然后到浅层网络处理需要提取内容的B图片或者我们可以直接给出内容。 最后使用一系列操作将两者组合形成另一网络。通过最小化损失函数,生成目标图片。
2.1 风格表征
为了获得源图像表示的风格,我们使用复杂的自动编码器设计来捕获纹理信息,通过这个网络我们可以提取源域图像风格,深度编码器由一系列卷积神经网络和反卷积网络组成,在每次卷积后使用激活函数RELU来激活。用于风格提取的损失函数如公式⑴所示,并通过最小化均方误差(mse)来逐渐逼近原始图像。
⑴
一般来说,图像风格可以看作图片纹理,因为相关性是利用随机变量来表示另一组随机变量的线性近似过程,它是一种线性关系,所以它与表示的风格有关。我们的风格提取网络如图1所示。在内容和风格分离的过程中。从图1(b)可以看到我们需要使用另一个辅助模型(图1(b)右侧),通过使用类别丢失和最小化mse损失函数来优化图1(a.b)中的网络模型(图1(b)左侧)。通过这个辅助模型的约束,我们可以保留原始图片的风格,去除多余内容。例如,在MNIST数据集上,可以使用图1(b)右侧的辅助模型b删除类别信息(0-9)。
2.2 内容表达
在神经网络中,通常,随着网络结构的深入,模型也变得更加复杂,提取的特征也相对增多。在训练过程中,每层网络都可以提取一些信息,如何设置合适的网络来提取内容信息对于风格转移的任务就显得至关重要。在相关的现有文献中提到,内容提取和风格提取相比不需要深层网络,我们可以将其视为浅层表达。当然,这里的内容可能不准确,我们可以认为这是图片的相对低频部分。
当卷积神经网络用于训练对象时,Hinton GE[5]提出了一种图像表示方法,随着处理级别的增加,对象信息更加明显。 因此,沿着网络的处理层次,源域输入到目标域图像中的图像的实际内容也将变得越来越敏感,但其准确的表达也将相对恒定。由此可以看出,网络中的较高层可以基于对象及其输入图片的排列来捕获高级内容信息,而来自较低层的信息也可以通过重建,再现原始图像值的精确像素。
在某种程度上,内容信息可以被视为一种信息。例如,在MNIST数据集中,内容是数字[0~9],可以将其视为类别。这同样适用于SVHN,因为门牌号可以与内容信息区分开来。因此,我们的内容提取可以从以下公式导出:
⑵
其中n代表类别。y是真实值,f(x)是预测值。由于我们的模型主要是解决风格提取相关的问题,故不对内容提取做过多的讨论。如果数据集很复杂,我们可以使用自动编码器加在网络末端,很容易将内容提取。由于内容信息比较容易表达,所以在MNIST数据集上不需要自动编码器,如图1(b)所示。
2.3 图像生成
通过将原始图像A的风格转移到图像B来,我们生成一个新的图像,同时匹配B的内容和A的风格,我们通过将提取风格的网络和内容的网络连接在一起,使每个网络的表征特征相互融合。
⑶
相应的目标图像通过最小化损失函数生成,我们使用的损失函数如公式3所示。λ是一个系数。 本文通过线性组合两个损失函数来训练我们的模型。为体现风格提取器的提取效果,我们可以主动提供内容,这是为了加快网络培训,使之更简单方便,也突出了风格提取器的有效性。
3 实验
所提出的网络在两个广泛使用的名为MNIST和SVHN的基准数据集上进行实验评估。MNIST数据集包含60000个训练样本和10000个测试样本,样本大小为28x28。SVHN是一个真实世界的图像数据集,用于开发机器学习和目标识别算法,对数据预处理和格式化的要求最低。它与MNIST的风格相似(例如图像是小的裁剪数字),但是包含更多标记数据的数量级(超过600,000个数字图像)并且来自更难的、未解决的实际问题(识别自然场景图像中的数字和数字),SVHN是从Google街景图像中的门牌号码获得的。
網络结构由网络A和网络B两部分组成,如图1(b)所示。在MNIST和SVHN方面,网络A首先是使用两个5×5,步幅为2的卷积网络;然后通过一个3×3,步幅为2的卷积操作,使用RELU激活函数。再通过Flatten和两个全连接层,合并来自内容信息的图层;最后使用三个步幅为2的conv2DTranspose层,通道分别为128,64,32,激活函数为RELU。网络B的前半部分来自A的全连接层,然后经过自定义Flip-
GradientBuilder层及两个全连接层处理后,获得输出。
实验的学习率设定为0.001。Diederik P[5]使用Adam将损失函数设置为均方误差。两个基准数据集使用卷积自动编码器架构来分析数据。
如图2所示,我们在MNIST上进行实验。 我们处理多个手写数字以形成图A,然后制作另一个类似于epch0的图,打乱数字。我们将epoch设置为300,随着迭代次数的增加,我们发现变换后的图像风格越来越接近A. 在图3中我们对SVHN进行了实验,SVHN的输入维数是32×32。
在这项工作中,我们的算法由python实现。 配备英特尔双核2.5GHZ,GPU是 GTX 1060,6 GB,的PC,300轮迭代运行时间约一小时。
4 结论
本文研究了一种基于自动编码器的风格迁移算法——一种更简单、更有效的算法,可以处理风格迁移问题。探讨如何提取特征,并使用卷积神经网络中的特征值表示来传递图像风格。虽然我们取得了不错的实验结果,但仍有一些问题需要改进。图像中的分离内容或风格不是定义明确的问题,原因可能是我们很难把握好图像的风格。在我们的工作中,我们认为风格迁移只有在生成的图像看起来既有风格图像特点,也有内容图像的特点时才算成功。尽管如此,它也没有精确定义图像风格的表示,但训练好的神经网络可以自动学习图像,至少在某种程度上是风格和图像内容的分离,是可行的。本文的研究内容在现实生活中非常实用。由于网络的训练可以提取图像的风格,并且它可以生成另一种具有这种风格的图像,这极大地提高了生物视觉之间的相似性[6-9],所以我们相信神经网络可以学习人类(生物)大脑信息的一部分,但仍需要进一步的科学证据。
接下来,我们将扩展网络以满足更加复杂的场景及更多的数据。我们计划将我们的模型扩展到深层次的框架中,并将其用于各种不同的应用。
参考文献(References):
[1] Gatys L A, Ecker A S, Bethge M. Image Style Transfer
Using Convolutional Neural Networks[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE Computer Society,2016.
[2] Rumelhart D E , Hinton G E , Williams R J . Learning
representations by back-propagating errors[J],1986.
[3] Duchi J, Hazan E, Singer Y, et al. dearly. Adaptive
Subgradient Methods Adaptive Subgradient Methods for Online Learning and Stochastic Optimization[J]. Journal of Machine Learning Research,2011.12(7):257-269
[4] Tieleman, T. and Hinton, G. Lecture 6.5-RMSProp,
COURSERA: Neural Networks for Machine Learning. Technical report,2012.
[5] Hinton G E, Salakhutdinov R R. Reducing the
Dimensionality of Data with Neural Networks[J]. Science,313.
[6] Cadieu C F , Hong H , Yamins D L K , et al. Deep Neural
Networks Rival the Representation of Primate IT Cortex for Core Visual Object Recognition[J].Plos Computational Biology,2014.10(12):e1003963
[7] Umut, Gü?lü, Gerven M A J V . Deep Neural Networks
Reveal a Gradient in the Complexity of Neural Representations across the Ventral Stream[J]. Journal of Neuroscience the Official Journal of the Society for Neuroscience, 2015.35(27):10005-14
[8] Khalighrazavi S M , Kriegeskorte N . Deep Supervised, but
Not Unsupervised, Models May Explain IT Cortical Representation[J]. Plos Computational Biology,2014.10(11):e1003915
[9] Yamins D L K, Hong H, Cadieu C, et al.
Performance-optimized hierarchical models predict neural responses in higher visual cortex[J].Proceedings of the National Academy of Sciences of the United States of America,2014.111(23):8619-24