李莉 吴菲
摘 要: 为了满足普通人群对艺术创作的需求,降低艺术创作的门槛极为重要,进行摄影作品的图像风格转换便是方法之一。通过对特定风格的图像做傅里叶变换,得到频谱图,随后对频谱图进行预处理。通过CycleGAN对频谱图进行图像风格迁移,再通过傅里叶逆变换将风格迁移后的频谱图转换为图片。实验结果表明,该方法能够更快地收敛且具有更好的风格迁移能力。
关键词: 风格迁移; 生成对抗网络; 图片处理; 表征学习
中图分类号:TP-183 文献标识码:A 文章编号:1006-8228(2020)12-41-06
Abstract: In order to meet the needs of ordinary people for artistic creation, it is extremely important to lower the threshold of artistic creation. One of the methods is to transform the image style of photographic works. In this paper, the spectrogram is obtained by performing Fourier transform on the image of a specific style, and then the spectrogram is preprocessed. CycleGAN is used to transfer the image style, and then the style transferred spectrogram is converted into a picture by inverse Fourier transform. The experiment results show that this method can converge faster and has better style transfer capabilities.
Key words: style transfer; Generative Adversarial Networks; image processing; representation learning
0 引言
近年來,计算机技术和计算机网络的发展,掀起了一股创新浪潮,这拓宽了人们获取文化遗产和文化输出的方式[1]。对图像进行处理的技术变成近年来的一个热门话题。目前对图像进行处理的技术主要集中在图像处理和图像分类。图像风格迁移是近年来形成的一个新的研究热点。
由于艺术创作的学习门槛高、学习周期长、学习难度大等特点,普通人很难学习到一些艺术创作手段和工具,这使其在想通过艺术创作表达自己的想法时,变的尤其艰难。而和艺术创作相比,拍照要容易的多。如果能将拍照得到的照片转换成各种流派的艺术形式,那么创作艺术的门槛将极大的降低。
Gatys等人[2]首先将深度卷积神经网络运用在西方名画的风格迁移之上。其算法通过CNN将图像的内容和风格分离,然后通过向网络中加入特定的噪声,从而在保证图像内容的情况下,最大限度地改变图像地风格。Wang等人[3]在风格迁移网络中引入了相似性损失函数,添加了一个后处理细化步骤来减少伪影。并且通过大量的实验验证了该方法的稳健性和有效性,其方法可以稳定的进行摄影作品的图像风格转换。Luan等人[4]将卷积神经网络从输入到输出的变换约束为颜色空间中的局部仿射,并将此约束表示为自定义的完全可微的激活项,成功缓解了图像失真的问题。最终通过这种方法实现了如时间、天气、季节等多种场景的艺术风格转换。sheng等人[5]首先将中国画与西方作品比较,提出了风格转换的四个关键限制条件,即对典型水墨特征的特殊考虑,包括笔触、空间保留、墨色扩散和泛黄。然后将CNN的不同层划分为风格层和内容层。最终克服了溢出效应实现了图片向中国水墨画的转换。但以上基于描绘式的神经风格迁移算法的缺点也很明显,它倾向于转移重复的风格,且对图片进行风格迁移的效率低下,效果一般。
这些研究在某种程度上都实现了其单一域的风格转换。但是,就图像的风格迁移的效果来看,算法所产生的图片仍然达不到令人满意的结果。本文通过研究发现,通过对图像进行傅里叶变换,然后利用CycleGAN对频谱图进行风格迁移,最后通过傅里叶逆变换而生成的图像具有更好地风格迁移的效果。
1 基本概念
1.1 神经风格迁移
“神经风格传递”是一种优化技术,它允许从样式图像复制样式,并将其应用到内容图像上,从而产生各种各样且通常有趣的结果(如图1)。Gatys等人[2]最先在其论文中概述的一种技术,一种艺术风格的神经算法。与最终输出的样式和内容图像相比,最大限度地减少最终输出中的样式和内容丢失的功能和原则,即最终输出的样式图像的样式损失和内容图像的内容损失应最小。
1.2 CycleGAN
生成式对抗网络是一种深度学习模型,是Gosodfellow等人[7]提出的一类隐式生成模型。模型通过框架中生成模型和判别模型的互相博弈学习产生相当好的输出。生成模型尝试生成假的样本来愚弄判别模型。而判别模型则尝试将区分真实的数据和假的样本。假定G是生成器,D是判别器,Pdata(x)是真实样本的分布且x从该分布中采样,PZ(z)是x的潜在码z的分布。则目标方程为:
CycleGAN是一种无监督的生成对抗网络[6]。CycleGAN可以在没有任何成对数据的情况下学习两个域之间的映射。CycleGAN包含两个生成器和两个鉴别器,两个生成器分别需要学习该域到对应域的映射。两个判别器则需要通过对各自域真实数据的学习,判断对应域生成器所生成的数据是否为本域数据。CycleGAN的损失函数除了包含两个对抗性损失之外,还需要加上一个循环一致性损失,以用来保留其输入结构,其中G表示X->Y之间的映射,F表示Y->X之间的映射。
1.3 时频分析
傅里叶变换是一种线性积分变换,用于信号在时域和频域之间的变换。傅里叶变换可以将在时域难以分析的问题转化成频域问题来分析。一维傅里叶变换将一个一维的信号分解为若干个指数波。而通过欧拉公式可以将该指数波表示为复数的形式。则该复数在二维平面直角坐标系中的角度为该一维信号的一个分量的相位φ,而该复数的模长为该分量的振幅。一维傅里叶的公式如下:
二维傅里叶变换通常用于图像处理,如图像去噪、图像增强、特征提取等应用。如果要对彩色图像进行傅里叶变换,通常要将彩色图像转换成灰色图像来处理。或者将彩色图像的多个层进行拆分,然后对每一层进行傅里叶变换(如图2、图3)。
2 算法分析
2.1 问题定义
本文要解决的问题是将一个图像域转换到另一个图像域,假设这两个域分别为域X和域Y,即将X域的图像转换为Y域的图像,但是图像的内容几乎不变。设集合A={x1,x2,……,xw},B={y1,y2,……,yt},集合A和集合B分别表示X域和Y域风格的图片的集合。
对于集合A和集合B中的每一个元素来说,其都是一张图片。
假设图片的维度为[m×n×3]。分别将三层分开单独做傅里叶变换,红色通道为R层,绿色通道为G层,蓝色通道为B层,对于这三层分别做如下处理。
2.3 图像去噪
由于Zhu等人[6]的cyclegan采用的是反卷积的操作,这会导致生成的图像谱图存在严重的棋盘伪影,对图像产生的影响变现为局部图像的扭曲(图5)。
参考Odena等人[9]的研究,采用最近邻插值和正則卷积代替反卷积可以有效的解决此问题。该方法首先通过最近邻插值法调整输入大小,然后在进入卷积层,该方法在图像高分辨率中也能很好地工作,但由于其没有采用反卷积的操作,故不易出现棋盘伪影的结果(图6)。
3 实验
3.1 训练集
为了完成风格迁移的任务,要选择合适的数据集。为了证明仿真法的健壮性,从网络开源平台上下载了1830张图片,其中包括多种类型的图片,按照绘画的种类来划分,其中包括油画、水彩画、水墨画、人物画、肖像画等等。按照图片所处的场景,包括根据季节划分的图画、根据一天时间所划分的图画、根据图像内容所划分的图画。由于下载的图片大小不一,将其处理为固定大小的图片,大小为512*256像素。对于其中包含带有水印的图片,使用图像处理工具对图像进行去水印操作。除此之外,又在网上下载了100张普通照片用于测试。
3.2 训练参数
由于数据集所限,本文的算法选择迭代20000步,训练时每个batch为1,[λ1]的值设为5,[λ2]的初始值为5并且在前8000次迭代保持不变,当算法执行到8000步时,[λ2]开始逐渐线性衰减,最终衰减到0为止。
3.3 实验结果分析
通过图7可以看出,本文的算法相比直接采用CycleGAN的算法,有更快的收敛。这是因为通过傅里叶变换对图像进行预处理,从而使CycleGAN模型更加快速学习到图像的特征。并且,通过这种方法,模型能够更加容易的学习到图像潜在的高级特征,这也就解释了本文算法在一定范围之内的损失相比前者的更小。
选择了四张具有代表性的图片作为展示,由图8所展示的生成的图像可以看出,采用本文提出的风格迁移算法相比直接在图像上利用CycleGAN进行风格迁移的效果更好。比如,就第一幅照片来看来看,没有采用傅里叶变换的方法产生的图像在某种程度上没有学习到漫画线条鲜明的特点,从而使产生的图像模糊,不具备漫画的特点。而在第二幅图画中,目标是将城市的照片转化为铅笔画,显然,没有使用傅里叶变换的图像中天空还保持着原有天空的颜色,而采用本文方法后,成功将天空转变成铅笔画的色调。在第三幅的图像里,是将猫的图片转换成涂抹类的Gothic风格的图片,虽然前后的差距没有之前差距大,但是在图片右下角黑色阴影部分,本文方法产生了更加具有涂抹类图画的风格。在第四幅图片里,我们的目标是将图片转换成一张像素类的图片,在这个人物中,我们提出的方法比原图片显示出了更好的效果,因为直接采用CycleGAN做风格转换的话,算法几乎没有学习到像素类图画的风格。
4 结束语
在这项工作中,我们提出了一个基于CycleGAN的图像风格迁移算法。该算法首先通过傅里叶变换将图像转换成频谱图,并对频谱图做预处理。然后通过CycleGAN对频谱图进行风格转换。最后将频谱图通过逆变换映射回图片。和单纯的利用CycleGAN来进行图像风格迁移的算法相比,我们提出的模型具有更强的风格迁移能力。将该方法应用在艺术创作类的应用之上,可以大幅度提高人们进行艺术创作的效率。在以后的工作中,可以考虑将该思想和其他生成模型结合,例如DiscoGAN,DualGAN等等。除此之外,还可以将本文的算法用来解决其他类的问题,例如音乐数据的风格转换。
参考文献(References):
[1] 牛晓霞.试述大数据下计算机技术在艺术领域中的应用[J].计算机产品与流通,2020.5:17
[2] Gatys L A, Ecker A S, Bethge M. A neural algorithm ofartistic style[J]. arXiv preprint arXiv:1508.06576,2015:1-16
[3] Wang L, Wang Z, Yang X, et al. Photographic style transfer[J].The Visual Computer,2020.36(2): 317-331
[4] Luan F, Paris S, Shechtman E, et al. Deep photo styletransfer[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:4990-4998
[5] Sheng J, Song C, Wang J, et al. Convolutional Neural Network Style Transfer Towards Chinese Paintings[J]. IEEE Access,2019.7:163719-163728
[6] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-imagetranslation using cycle-consistent adversarial networks[C]// Proceedings of the IEEE international conference on computer vision,2017:2223-2232
[7] Gosodfellow I, Pouget-Abadie J, Mirza M, et al.Generative adversarial nets[C]//Advances in neural information processing systems,2014:2672-2680
[8] Huang S, Li Q, Anil C, et al. Timbretron: A wavenet(cyclegan (cqt (audio))) pipeline for musical timbre transfer[J].arXiv preprint arXiv:1811.09620,2018:1-17
[9] Augustus Odena, Vincent Dumoulin, and Chris Olah.Deconvolution and checkerboard artifacts. Distill. doi: 10.23915/distill.00003. URL http://distill.pub/2016/ deconv-checkerboard.2016/2020