刘建锋,钟国韵
(东华理工大学 信息工程学院,江西 南昌 330013)
传统的图像风格迁移方法通常被作为纹理合成的一个广义问题来处理和研究,即从风格图S(Style image)中采集纹理并将其迁移到内容图C(Content image)中。Efros 等人提出了一种将样本纹理进行拼接和重组的简单纹理合成算法[1];基于类推思想,Hertzmann 等人通过图像特征映射关系合成了带有新纹理的图像[2]。传统图像风格迁移方法只是提取图像的低层次的图像特征,而非高层次的图像语义信息,在对色彩与纹理较为繁杂的图像进行风格化时,合成效果图会十分不理想,很难在实际应用场景中使用。
基于以上讨论,虽然传统的图像风格迁移算法能够诚实地描绘出某些特定的图像风格,然而它们存在一定的局限性,灵活性不足、风格不够多样化且图像结构提取困难。因而,需要全新的算法,来解除这些限制。于是便出现了神经网络图像风格迁移领域。
随着人工智能的发展,Gatys 等人[3]开创性地提出了一种基于神经网络的图像风格迁移技术。图1 所示是基于神经网络的图像风格迁移效果。该算法的核心原理是:通过预训练VGG 模型[4]迭代优化图像,目的是将内容图像和风格图像的高层次抽象特征分布进行匹配,然后通过对输入的随机噪声图进行迭代优化的方式合成风格化的原内容图像。
图1 神经网络图像风格迁移效果
本文系统性地综述了图像风格迁移的起源与发展,首先对图像风格迁移的应用前景进行了概述和分析,然后再对图像风格迁移中存在的问题还有未来的发展方向做了进一步的探讨。为进一步深入风格迁移研究打下了坚实的基础,并提出了一些极具参考价值的建议,最后总结了风格迁移未来所面临的困难和发展方向。
由于艺术风格化其广泛的应用范围,一直以来都是计算机图形学重要的研究领域。在基于深度学习的图像风格迁移出现之前,相关研究已经扩展到了非真实感渲染(Non-Photorealistic Rendering,NPR)领域。但是大多数NPR 算法都是为特定的艺术风格设计的,很难扩展到其他风格。本节将简要地回顾一些传统的图像风格迁移算法。
基于笔触的渲染(Stroke-Based Rendering,SBR)是通过在虚拟画布放置称为笔画的离散元素以渲染具有特定风格图像的过程[5]。
SBR 算法的目标是忠实地绘制指定的风格,它们通常可以有效地模拟某些类型的风格(例如油画、水彩、素描)。但是,SBR 算法都仅仅只针对一种特定风格进行了精心设计,无法模拟任意风格。
基于类推思想,Hertzmann 等人通过图像特征映射关系合成了带有新纹理的图像[2]。图像类推算法通过在示例训练对中学习类推变换,并在给出测试输入照片时输出相似的风格化图像。图像类推还能以各种方式进行扩展,例如,学习用于肖像画渲染的笔触位置[6]。
一般说来,图像类推对于各种艺术风格有较好的效果。然而,在实践中通常无法获得配对的训练数据。另一个限制是图像类推仅仅利用了图像的底层次的特征,因此,图像类推通常不能有效地捕获图像的内容和风格,最终合成的图像效果都不太理想。
艺术形象的塑造是以形象的简单化和抽象化为目标的过程。因此可以考虑采用一些相关的图像滤波器来渲染特定的照片。Winnemöller 等人首次利用双边滤波器[7]和高斯滤波器的差异[8]产生了类似卡通的效果。
与其他类型的图像风格迁移技术相比,图像滤波技术更快、更稳定,可满足工业界落地的需求。然而,它们在风格多样性方面非常有限。
目前的神经网络风格迁移算法可分为基于图像优化和基于模型优化这两类。第一类通过优化更新图像来转换图像风格;第二类优化神经网络生成模型,通过前向神经网络实现快速风格迁移,其优化对象是神经网络模型。
基于图像优化的思想,首先建模提取相应的风格和内容图像中的特征信息,组合内容和风格特征信息,然后对目标图像所匹配的风格化合成图像进行迭代优化重建。以下将对基于Gram 矩阵[9]、基于马尔可夫随机场(Markov Random Field,MRF)这两类比较具有代表性的风格化算法展开详细的探讨。
2.1.1 基于Gram矩阵
Gatys 等人[3]经过对VGG 网络中间层抽象特征的重新构建,观察出神经网络能够从任意图像中提取图像内容特征信息,并且通过构建Gram 矩阵能够从任意图像中提取出风格特征信息。据此,他们首先使用Gram 矩阵提取指定风格图像中的风格信息,再根据图像重建方法,通过梯度下降的方法更新重建后的图像像素值,使其内容图的Gram 矩阵逼近风格图的Gram 矩阵,然后使得该VGG 网络的高层次特征信息接近内容图的特征信息,最终获得了风格化的结果图。
其算法细节如下,给定目标图像I、内容图像Ic和风格图像Is,Gatys 等人[10]方法总损失函数表示如下:
其中,α 是图像内容损失函数Lc(I,Ic)的平衡权重系数,β是图像风格损失函数Ls(I,Is)的平衡权重系数。而图像内容损失Lc由内容图像在VGG 中第l 层的内容特征表示Fl和用噪声图像初始化的风格化图像I 的特征表示Fl之间的平方欧几里德距离定义:
其中{lc}表示用于计算内容损失的VGG 模型层集合。对于风格损失Ls,风格损失由Is和I 基于Gram 矩阵的表示之间的平方欧几里得距离定义:
其中G 表示内容图像和风格图像的Gram 矩阵,{lc}表示用于计算风格损失的VGG 模型层集合。
2.1.2 基于马尔可夫随机场
基于马尔可夫随机场的非参数化图像合成是传统图像风格迁移的经典框架[11]。Li 和Wand[12]最早提出了一种基于马尔可夫随机场的神经网络风格迁移算法。其核心思想是将基于马尔可夫随机场的损失函数取代了基于Gram 矩阵的损失函数。将图像风格特征映射分割成若干区域,然后进行匹配,去寻找并逼近与其最接近的风格区域。给定目标图像I、内容图像Ic和风格图像Is,基于马尔可夫随机场的总损失函数表示如下:
其中Ψ(Fl(I))是局部区域内容特征的Fl集合。Ψi表示第i 个局部区域,并且ΨNN(i)是与风格图像中的第i 个局部区域最相似的风格区域。通过计算风格图像Is中所有风格区域块的归一化互相关性来获得最佳匹配ΨNN(i)。因为Li 和Wand 的算法匹配区域块级别的风格,所以可以更好地保存图像中精细的局部结构等信息。
Li 和Wand 算法优势之处在于,由于基于马尔可夫损失,对于照片真实感风格,或者更具体地说,当内容图像和风格图像在形状和透视上相似时,它图像合成效果特别好。然而,当内容图像和风格图像在透视和结构上有很大差异时,由于图像块不能正确匹配,因而在保留深度信息和精细的结构方面也遭到了限制。
尽管基于图像优化的图像风格迁移能够产生令人印象深刻的风格化图像,但仍然存在计算效率低下的问题。而第二类基于模型优化的风格迁移方法通过利用已训练好的可合成风格化结果图的网络生成模型,很大程度上解决了计算速度及成本的问题,即通过大量图像Ic优化前馈神经网络g,用于一个或多个风格图像Ic:
根据单个前馈神经网络g 可以产生的艺术风格的数量,基于模型优化算法进一步分为单模型单风格的风格迁移算法、单模型多风格的风格迁移算法和单模型任意风格的风格迁移算法。
2.2.1 单模型单风格的风格迁移算法
(1)基于统计分布的参数化单模型单风格的风格迁移
前两个基于模型优化的图像风格迁移算法是由Johnson 和Ulyanov 分别提出的。这两种方法思想相同,那就是预先训练好一个前向神经网络,通过该模型生成一个风格化的结果图。两者只是在神经网络架构上面有所不同,Johnson 的架构设计是基于Radford 等人所提出的残差神经网络[13],Ulyanov 使用了多尺度架构神经网络。两者损失函数类似于Gatys 等人的算法,都使用Gram 矩阵来进行风格化建模。
之后,Ulyanov 等人[14]进一步发现,简单地将归一化应用于每一单个图像而不是批图像将显著改进风格化图像质量。这种单一图像归一化被称为实例归一化(Instance Normalisation,IN),这相当于当批次大小设置为1时的批次归一化(Batch Normalization,BN)。使用IN 的风格迁移网络显示出比BN 更快的收敛速度,并且在视觉上也取得了更好的效果。IN 是风格标准化的一种形式,可以直接将每个内容图像的风格标准化为所需的风格[15]。
(2)基于MRF 的非参数化单模型单风格的风格迁移
Li 和Wand[16]的另一项工作是受第2.1.2 节中基于MRF 的神经网络风格迁移[17]算法的启发。他们利用对抗性训练来解决马尔可夫前向网络的效率问题。他们的算法是一种基于马尔可夫的非参数方法。他们的方法被证明优于Johnson 和Ulyanov 等人的算法,在纹理及结构复杂的图像中能保持一贯连续的纹理,这要归功于它们基于区块的设计。然而,他们的算法对于非纹理性风格(例如人脸图像)的性能不太令人满意,因为他们的算法缺乏语义方面的考虑。
2.2.2 单模型多风格的风格迁移算法
上述单模型单风格模型必须为每个特定风格图像训练单独的生成神经网络,这相当耗时且不灵活。许多绘画(例如印象派绘画)都有相似的绘画笔触,只是调色板不同。客观地说,利用一个单独的神经网络来为每一种风格进行训练是多余的。因此,单模型多风格被提出,它通过将多种风格进一步融合到一个单一模型中,提高了单模型单风格的灵活性。解决这个问题通常有两种途径,具体如下。
(1)每种风格只绑定少量参数
Dumoulin 等人[18]研究发现在卷积神经网络中,使用相同的卷积参数,仅对IN 层中参数进行仿射变换就足以模拟不同的样式。因此,他们提出了一种基于条件实例归一化(Conditional Instance Normalization,CIN)的多风格迁移模型,其定义如下:
其中F 是输入特征表示,s 是一组风格图像中所需风格的索引。如式(6)所示,在归一化特征表示F(Ic)之后,通过缩放和移动参数γ 和β 来完成对每种风格的条件处理,即每种风格都可以通过参数的仿射变换来实现。此外,Dumoulin 等人的算法还可以扩展为通过组合不同风格的仿射参数在单个风格结果中组合多个风格。
(2)将风格和内容结合起来作为输入
第一类多风格模型缺点是模型大小会随着风格数量的增多而增加。而第二类多风格模型打破了这一限制,它充分探索了单个网络的能力,并将内容和风格结合到网络中以识别风格。
对于给定N 个目标风格,Li 等人[19]设计一个用于风格选择的选择单元,它是一个N 维one-hot 向量。对应每一种风格,Li 等人首先从均匀分布中采样对应的噪声映射f(Is),然后将f(Is)输入风格子网络模型以获得对应的风格编码特征F(f(Is))。通过将风格编码特征F(f(Is))和图像内容编码特征Enc(Ic)的链接到一起输入到风格迁移神经网络中的解码器模块Dec中,就可产生期望的风格化结果:I=Dec(F(f(Is))⊕Enc(Ic))。
2.2.3 单模型任意风格的风格迁移算法
多风格模型虽然一定程度上解决了模型尺寸的问题,不过生成一种新的风格仍需有额外时间来进行训练。而后任意风格模型出现了,即通过单一模型来生成任意风格图像。任意风格模型分为两类。
(1)基于MRF 的非参数化任意风格迁移模型
Chen 和Schmidt[20]通过从预先训练的VGG 网络特征空间中找到与内容区块匹配的风格区块后,将内容区块和风格区块进行交换,之后用图像重建算法对交换得到的特征图进行快速重建。该算法比之以往的风格迁移算法更加灵活,可生成任意风格图像。但是风格化图像往往不尽人意,因为风格交换时内容区块通常与不代表所需风格的风格区块交换。所以风格通常不能很好地体现出来。
(2)基于统计分布的参数化任意风格迁移模型
受基于条件实例归一化多风格迁移模型[18]中CIN层启发,Huang 和Belongie[15]提出了自适应实例归一化(Adaptive Instance Normalization,AdaIN),其定义如下:
AdaIN 在内容和风格特征空间之间传递信道均值和方差特征统计信息,且该风格迁移网络中的编码器是固定的,解码器部分需要使用大量风格和内容图像进行训练,以将AdaIN 之后的特征信息解码为风格化结果:
Huang 和Belongie 的算法能实时实现风格化。然而,该算法需以数据驱动的方式在大体量风格和内容图上进行训练。此外,简单地调整信道均值和方差使得很难生成具有细节丰富和结构复杂的风格效果图。
随着神经网络风格迁移算法的研究的深入,图像风格化效果有很高的提升,具有极高的的商业价值。本节将总结这些主流风格迁移应用方向。
如今,社交网络中流通的大多数图像都已经过数字图像处理,基于神经网络的图像风格迁移的出现给图像处理领域注入新的活力。最近出现的名为Prisma[21]的移动应用程序是首批将基于神经网络风格迁移算法作为服务提供的商业应用程序之一。由于其图像风格化的高质量,Prisma 取得了巨大的成功,并在世界各地流行起来。一些其他提供相同服务的应用程序也相继出现。在这些应用程序的帮助下,人们可以任意创作自己的艺术画,并在社交平台上与他人分享自己的艺术品。
也有一些相关的应用论文:Chen 等人[22]提出了一种感知内容的风格迁移方法,图像修复领域可应用该方法进行有效修复;Zhang 等人[23]提出了一种给漫画草稿图添加色彩的技术。
基于神经网络的图像风格迁移的另一个用途是让它充当用户风格设计辅助工具。虽然在创建工具中还没有流行的应用基于神经网络的图像风格迁移技术,但我们相信它在未来将是一个有前途的潜在应用。作为画家和设计师的创作工具,基于神经网络的图像风格迁移可以让画家更方便地创作特定风格的艺术品,尤其是在创作电脑制作的艺术品时。此外,有了基于神经网络的图像风格迁移算法,为时装设计师制作风格化的时尚元素和为各种风格的建筑师制作风格化的CAD 图纸都很简单,而手工制作这些图纸的成本会很高。
一些娱乐应用程序,如电影、动画和游戏也可应用基于神经网络的图像风格迁移。例如,创建一个动画通常需要8 到24 帧每秒。如果基于神经网络的图像风格迁移能够自动将真人视频转化为动画风格,制作成本将大大降低。同样,在一些电影和电脑游戏的创作中,基于神经网络的图像风格迁移可以大大节省时间和成本。
基于神经网络的图像风格迁移算法已经具有了较好的性能,一些算法已经在工业应用中找到了用武之地,但仍然存在一些挑战。
(1)参数调整。为获得风格化理想的图像结果,都需要手动调整参数,尤其是基于模型优化方法,每次调整模型参数后都需重新训练模型。虽然Li[25]等人提出了一种不需要学习训练的方式来进行任意风格迁移的方法能减轻参数调整的问题,且不需为不同风格单独训练模型,但是该方法的训练过程较为复杂,图像合成效果也不显著。因此,找到一种简单可控且可保证图像质量的方案是下一个研究的重心。
(2)预训练模型的限制。现如今,绝大多的计算机学者都使用VGG 模型来进行图像特征提取。VGG 是一个体量庞大的神经网络模型,对于图像特征提取这一方面效果显著,但同时VGG 也存在计算量巨大的问题,因而,微小型的特征提取器是基于神经网络的图像风格迁移未来发展趋势。生成对抗性网络或许能突破预训练模型的这一限制,因为生成式对抗网络能合成更加真实的图像,生成器和判别器的对抗性训练在提取图像特征方面也具有较为理想的结果。
(3)评价体系风格迁移评价体系的完善。风格迁移评价体系还处于初始阶段,需要有更加完善的数学方法和理论指导。风格迁移评价体系完备对基于深度学习的图像风格迁移的未来发展具有十分重要的意义。
在本文中,首先对图像风格迁移的应用前景进行了概述和分析,然后再对图像风格迁移中存在的问题还有未来的发展方向做了进一步的探讨。关于图像风格迁移技术,虽然现有技术已经成功应用到多个领域,但是未来还有很大的空间去进行完善。最后,风格迁移技术一直以来是一个具有广大前景的方向,坚持对风格图像迁移技术的研究具有深远的研究意义。