结合马尔科夫场和格拉姆矩阵特征的写实类图像风格迁移

2021-01-30 14:00曾宪华陆宇喆童世玥徐黎明

南京大学学报(自然科学版) 2021年1期

曾宪华 ,陆宇喆 ,童世玥 ,徐黎明

（1.重庆邮电大学计算机科学与技术学院，重庆，400050；2.重庆市图像认知重点实验室，重庆，400050）

图像风格迁移技术利用深度学习原理将参考图像风格迁移到目标图像上：输入一张目标图像和一张参考图像，通过算法使生成图像保留目标图像结构的同时又拥有参考图像的艺术风格.图像风格迁移的意义在于，使用者事先并不需要学习绘画或者修图技术，而是使用一种通用模型，仅利用计算机工具就可以对不同的图像进行风格迁移，使目标图像具有使用者预设的艺术性风格［1］.在现实生活中，风格迁移技术正应用在各种商用领域，如美图软件、动画电影制作、广告设计等，有着巨大发展潜力和前途.

如何利用计算机技术生成不同美感风格图像，受到工业界和学术界的广泛关注.最初，学者们通过颜色迁移来实现［2-6］.Reinhard et al［3］对转换到Lab 色彩空间的图片进行统计学计算，将源图像的均值和标准差传给目标图像，使目标图像和源图像具有一样的均值和方差，最后将图片转换到RGB 色彩空间实现颜色迁移算法.Welsh et al［6］在Reinhard et al［3］研究的基础上作出调整，根据像素点的亮度值和周围的领域标准差找到源图上与之最匹配的像素值.这些算法的原理是给出目标图像和参考图像并计算其全局信息，通过建立映射函数来实现颜色迁移.虽然基于低层次特征的颜色迁移方法能解决简单场景下的问题，但在面对复杂的图像场景时，颜色迁移存在一定的局限性.

与仅考虑低层次特征的颜色迁移算法相比，基于卷积神经网络的风格迁移算法考虑了多个层次的特征，在处理复杂图像场景下的问题时能产生令人印象深刻的图像.Gatys et al［7］首先在纹理合成问题中使用了卷积神经网络，他们发现卷积神经网络可以从任何图像中提取特征.根据这个观察，Gatys et al［8］提出一种基于格拉姆矩阵表达图像风格特征的方法来解决风格迁移问题.在此研究基础上，Risser et al［9］使用直方图损失来合成在统计上更好的匹配纹理，从而改善了迁移过程的不稳定性.Selim et al［10］提出一种自动寻找参考风格图像的方法，来实现照片头像迁移成艺术风格图像的功能.

Li and Wand［11］最先结合MRFs（Markov Random Fields）与卷积神经网络来表达图像风格特征，该方法捕获了图像像素之间局部信息细节.Champandard［12］提出一种将语义映射与MRFs 的图像特征块相结合的方法，很好地约束了图像场景区域连接处的纹理溢出.Wang et al［13］结合图像全局信息和局部信息，在多个艺术类场景下产生了良好的风格迁移效果.Luan et al［14］和Penhouet and Sanzenbacher［15］在风格迁移中约束图像纹理变化，使生成的图像更真实.尽管已经存在很多成功的风格迁移方法，但目前基于神经网络［16］的风格迁移算法主要应用于艺术类照片，在面对写实类照片时还是存在一些不足：

（1）用仅基于格拉姆矩阵或基于MRFs 来表达图像特征的方法生成的图像有不规则的色彩斑点或纹理过度扭曲，导致生成的图像美感不够，质量较低.如图1 所示，图1a 是目标图像、参考图像和对应的语义分割图像，图1b 是基于MRFs 表达特征的方法［11］生成的图像，图1c 是基于格拉姆矩阵表达特征的方法［14］生成的图像，图1d 是本文方法生成的图像.

（2）部分算法［12-15］在风格迁移过程中引入了语义映射，通过语义区域与风格迁移区域相对应来限制图像场景区域处的纹理溢出.但生成语义映射的过程是人为手动完成的，这个步骤太过繁琐，使整个风格迁移过程产生了额外操作，增加了算法总流程的时间开销.

图1 本文方法与其他风格迁移方法[11,14]的比较Fig.1 Style transfer of our model and other methods[11,14]

本研究受最近风格迁移工作的启发，针对以上问题，提出一种新颖的基于图像在线优化的风格迁移算法.本文的主要贡献是：较浅层的特征偏向表达图像风格信息，而较深层的特征偏向表达图像结构信息［7］.为了同时捕获更多的图像风格信息和结构信息，本文从不同层提取出不同尺度和深度的特征，通过调整大小和聚合步骤将特征融合在一起.

基于Gatys et al［8］与Li and Wand［11］的特征表达方法，本文使用全局风格损失和局部风格损失来构建总风格损失项.全局风格和局部风格损失分别由格拉姆矩阵和马尔科夫随机场表达特征计算，在保留图像宏观与微观图像信息的同时也提升了图像风格信息的质量.同时，本文还提出写实照片正则化项，在颜色空间上约束图像变化来限制图像纹理扭曲，使生成图像看起来更加真实.

本文还提出一种基于神经网络的语义分割模块，它可以自动对输入的图像进行语义分割，然后对图像分割后的不同部分独立应用风格迁移，这有效地防止了图像中场景边缘的颜色溢出，约束了纹理结构的改变.它还减少了风格迁移前人为手工对图像进行分割的繁琐步骤.

本文的风格迁移模型共由五个模块组成，整体框架如图2 所示，输入目标图像（Content Image）和风格图像（Style Image），进行风格迁移后直接输出结果图像.自动语义分割模块Auto-Seg（Automatic Semantic Segmentation）能自动地对输入的目标图像和参考图像进行语义分割，减少人为手工对图像进行分割的繁琐步骤；深度层聚合模块DLA（Deep Layer Aggregation）将各个层的特征提取出来再聚合在一起，融合了浅层与深层的信息；损失模块由风格损失、内容损失、仿射损失构成.

图2 本文算法整体框架Fig.2 The overall framework of our work

1 深度层特征聚合

随着神经网络的不断加深，深度特征也越来越多.Yu et al［17］为了在识别问题中提高类别和位置的判断效率，提出迭代聚合深度特征结构.本文基于迭代聚合思想设计DLA 模块，从浅层到深层提取不同尺度的特征，并通过深层次的融合来更好地聚合不同层的信息.将图像输入至DLA模块，于VGG19 网络的前四个卷积层{conv1_1，conv2_1，conv3_1，conv4_1}中提取各自层的特征.较浅层提取的特征信息偏向表达图像全局风格信息，较深层提取的特征信息则表达结构排列方面的信息更多.迭代过程由较浅层开始向较深层聚合以融合像素细节与语义结构信息.因为每一层输出的尺寸分辨率是不一样的：浅层输出尺寸大于深层输出尺寸，所以在聚合不同层的特征之前，先将它们重调整成相同的大小.

如图3 所示，从i层提取的特征记为Fi，由Fi-1与Fi聚合后的特征记为Fui.

如式（1）所示，I 表示不同层聚合的迭代过程：

其中，R 表示下采样重新调整大小的过程，AGG表示不同特征聚合的过程.将经过R 步骤后的浅层特征与较深层的特征沿着同一维度拼接在一起，最后将聚合后的特征Fu4用于构建全局风格损失函数.

图3 DLA 模块聚合过程Fig.3 The DLA module

2 结合局部与全局风格损失

为了使生成图像同时具有原图像的结构信息和参考图像的风格信息，本文分别从风格和内容两个方面构造了损失项，其中风格损失由局部风格损失和全局风格损失构成.

2.1 局部风格损失使用格拉姆矩阵来表示图像特征体现了图像全局风格一致性，但是在局部的像素关系上却很难被展现.因此本文引入结合马尔科夫随机场与深度卷积神经网络的方法，用特征块映射来表现图像局部关系.通过特征块之间的匹配将原图像特征图中的特征块用风格图像特征图中的特征块代替，以此来表现图像局部之间的关系.与Li and Wand［11］提取不同层的特征块来构建局部风格损失的方法不同的是，本文分别从风格图像和生成图像获取聚合后的特征Fus与Fux，再将它们与通过自动语义分割模块后得到的语义分割映射Sseg与Cseg相连接得到Mx与Ma.通过结合语义映射后的特征块来构建局部风格损失，有效抑制了图像场景区域处的纹理溢出.

本文用参数τ作为特征与语义分割映射连接的权值.对Mx与Ma分别提取大小为3×3×d的局部特征块，3×3 是特征尺寸，d是特征图通道数.提取的特征块列表由φ(Mx)与φ(Ma)表示，m是φ(Ma)的个数.如式（2）所示，局部风格损失被定义为：

通过归一化互相关，在ma个参考特征块中，每个特征块φi(Mx) 都能找到与之最佳匹配的特征块：

2.2 全局风格损失全局风格损失基于格拉姆矩阵表达特征，格拉姆矩阵计算生成图像和风格图像之间的特征图相关性，通过度量二者之间的差异来把握图像的全局风格.与Gatys et al［8］分别提取卷积层特征再各自进行计算的方法不同，本文将每一层提取的特征进行聚合步骤后，再计算格拉姆矩阵，然后对风格损失进行度量.如式（4）所示，全局风格损失被定义为：

其中，S是参考图像，O是生成图像，N是特征映射数量.格拉姆矩阵Gx[ ⋅ ]=Fux[ ⋅]Fux[ ⋅]T由聚合融合的特征内积计算得到.

2.3 内容损失内容损失用于约束原图像的纹理变化.从深层次提取出的特征偏向于表现图像结构信息，本文从{conv4_1} 提取特征F4，I是目标图像，O是生成的图像，N是特征映射数量，D是融合特征的尺寸.如式（5）所示，内容损失被定义为：

3 写实类照片正则化项

尽管很多专注于艺术类照片的风格迁移方法取得了令人惊叹的效果，但这些方法存在一个致命的问题：在面对写实类照片时，这些方法无法维持目标图像的结构，使图像纹理产生扭曲，导致最后生成的图像看起来不够真实.为了在不改变目标图像结构的条件下，使生成图像具有丰富的风格效果，本文在颜色空间中通过约束局部仿射来约束图像变换，以此限制生成图像的结构变化.

在迁移过程中，对于每一个颜色块，都存在仿射函数将图像的RGB 颜色空间值映射输入到其对应输出的位置，每个区域的仿射函数随空间变化而不同.本文基于Levin et al［18］的方法从目标图像计算拉普拉斯矩阵MI.将Vc[O] 定义为生成图像O在每个c通道上的向量化.如式（6）所示，仿射函数损失被定义为：

在梯度器中需要计算其导数，MI是对称矩阵，Vc[O]的导数如式（7）所示：

4 自动语义分割

通过构建局部风格损失来体现图像局部关系时，需要使用语义分割映射与聚合后的特征相连接来约束图像中场景处的纹理溢出.风格迁移算法［12-15］使用人为手工的方法获取语义分割图像，这个步骤无疑加大了整个算法的流程时间开销.

为了减少创建语义分割步骤的开销，本文创建了自动语义分割模块对目标图像和风格图像进行处理.该模块使用了预训练的HRNetV2 网络［19］.在进行风格迁移步骤前，将内容图像和风格图像输入到分割模块中.该模块自动获取对应的语义分割图像，再在风格损失模块中与融合后的特征相连接，最后构建局部风格损失项.

本文总损失函数由内容损失函数、局部风格损失函数、全局风格损失函数、仿射损失函数组成.这些函数分别由α，β，δ，ω参数来决定权值.如式（8）所示，总损失函数表达为：

5 实验与结果

5.1 实验细节使用L-BFGS 来优化总损失，通过使用预先训练的VGG-19［21］网络作为特征提取器，从{c onv1_1，conv2_1，co nv3_1，conv4_1} 四个卷积层提取特征作为风格损失表达，从{conv4_1}提取特征作为内容损失表达.生成图像受初始化细节的影响，使用风格图像作为迁移的初始化图像可以获取更多风格信息，使用随机噪声图像作为迁移图像的初始化则可以更有效地集成风格特征块.与Champandard［12］和Luan et al［14］使用白噪声图像作为初始化的方法不同，本文使用原图像作为初始化图像，这样更好地保持了原图像结构并提升生成图像真实感.如图4 所示，第一行是不同的初始化图像，第二行是相对应的生成图像.

图4 不同初始化图像(上)生成的结果图像(下)Fig.4 Resulet images (down) transfered form different initialized images (up)

本文设置内容损失函数权值α为300，设置局部风格损失函数权值β为100，设置全局风格损失函数权值δ为1，设置仿射损失函数权值ω为104，对各个模块的权重参数调整总结如下：

（1）当α权重增加时，生成图像的结构信息保持得越好，但是α权重过高的话，参考图像的风格信息会表现过少.

（2）为了捕获更多目标图像和参考图像的信息使生成图像更加真实和风格饱满，本文结合了全局与局部风格损失.图5 给出了权重β不同时的生成图像.局部风格损失权重β=0 时，生成图像并没有获得很多局部细节，在红色框内生成图像的树模糊不清.当β=100 时，可见生成图像的红色框内，树的叶子细节比较清晰而且有很多秋天黄色叶子，生成的图像在全局风格和局部细节上都表现得很好.但是当β过高时，生成图像因为捕获了太多风格信息而导致纹理发生改变.

图5 局部风格损失权重的增长对生成图像的影响Fig.5 The influence of increasing local style loss weight on result images

（3）如图6 所示，当仿射损失权重ω=0 或太小时，生成图像纹理扭曲比较大，如树叶、湖面底部、天空都有不规则颜色的斑点且纹理比较杂乱.当ω=106时，生成图像表现得比较真实，但是ω过高会导致生成图像整体颜色发生变化.

图6 仿射损失权重的增长对生成图像的影响Fig.6 The influence of increasing affine loss weight on result images

（4）参数τ作为特征与语义映射连接的权值，当τ过小时，图像部分语义区域受到其他语义区域的影响，但是权值过高会使生成图像质量变低.如图7 所示，参数τ=0 或过小时，雪山受到了森林、天空区域风格迁移的影响而使原本的轮廓和线条消失.

图7 语义映射权重的增长对生成图像的影响Fig.7 The influence of increasing semantic loss weight on result images

5.2 实验结果对比如图8 所示，本文通过多种损失组合实验分析各损失项的合理性.图8a 是仅使用了Lcontent和Lglobal损失项的生成图像，其纹理扭曲较大而且局部细节的风格效果较差.图8b 是加入了Llocal损失项的结果，在视觉上有了良好的改善，局部风格细节比较丰富.图8c 是加入了Laffine损失项的结果，它虽然保持了目标图像的纹理结构，湖面和天空没有发生纹理扭曲，但树木的风格细节还是不够饱满.图8d 是加了所有损失项后的生成图像，实验结果证明，多种损失构建的总损失是合理且有效的.

图8 不同的损失项对生成图像的影响Fig.8 The influence of different loss functions on result images

本文使用写实类风格的目标图像和参考图像做了多个实验来与本文方法进行对比，其中Reinhard et al［3］，Xiao and Ma［4］和He et al［5］的算法属于颜色迁移，它们通过计算图像统计分布建立映射函数来实现图像间颜色的迁移；Luan et al［14］和Penhouet and Sanzenbacher［15］属于基于格拉姆矩阵的风格迁移算法，Li and Wand［11］是基于MRFs的，它们都是基于神经网络的风格迁移算法.实验结果如图9 所示，颜色迁移的方法虽然不会改变图像的纹理，但是其映射函数是由图像统计分布计算的，在面对复杂场景时，生成图像整体看起来颜色比较单一.图9 中pic2 期望将灰色图像迁移成彩色风格图像，颜色迁移方法生成的图像天空、湖面和树林几种语义区域都呈现出一种色调.而本文方法生成的图像，区域区分度比较高，多个色调使得图像在视觉感官上更具美感.

Li and Wand［11］的方法生成的图像纹理扭曲比较严重，看起来真实度较低，不适用于写实类风格的迁移.Luan et al［14］和Penhouet and Sanzenbacher［15］的方法在格拉姆矩阵表达特征的基础上，结合了语义映射来约束图像纹理扭曲，尽管约束纹理扭曲的思想使迁移后的结果图像没有过多地丢失结构信息，在一定程度上保证了图像真实性，但是生成图像整体的风格并没有很惊艳：图像虽然在全局上保持了风格一致，可是缺少很多局部细节信息，整体效果缺少美感.

除了人为主观上评判生成结果的质量，还有客观上通过结构相似性（Structural Similarity，SSIM）和特征相似度（Feature Similarity，FSIM）度量指标来评判生成结果.

SSIM一般从对比度、亮度和结果信息三个方面去衡量两张图像的相似程度，其值越接近于1，代表两张图像越相似，反之，图像失真越严重.对于两张图像X和Y，结构相似性如式（9）所示：

其中，μX是图像X的平均值，μY是图像Y的平均值，分别是X与Y的协方差，c1，c2是维持稳定的常数.

FSIM根据SSIM算法进行改进，认为图像中所有位置像素并不具有相同的重要性，应根据图像本身的特性对不同的像素赋予不同的权重.通过选择相位一致性和梯度幅度计算两幅图像之间的局部相似性，进一步得到两幅图像之间的相似度.基于统计分布的颜色迁移算法［3-5］生成的图像不会损失原图像结构，但是整体风格呈现单一色调，故不适合应用于复杂场景下的风格迁移.

为了证明本文方法在风格迁移后保持了图像结构一致性、提高了生成图像的真实度，本文算法与基于神经网络的风格迁移算法［11，14-15］作对比并计算了SSIM和FSIM指标.

表1 和表2 是各算法在六组图像下的SSIM与FSIM指标，表中黑体数字表示所有结果中相似性最高.可见，本文算法的SSIM指标在四组图像中是最高的，本文算法的FSIM指标在三组图像中是最高的.在基于神经网络的风格迁移算法比较里，本文算法的指标虽然不是在每一组都是最好的，但对比结果证明本文算法在保持风格一致性的同时也保持了生成图像与原图像的结构一致性，所以本文算法还是具有很大的优越性.

表1 风格迁移下生成图像的SSIM 值比较Table 1 SSIM values of result images generated by style transfer

表2 风格迁移下生成图像的FSIM 值比较Table 2 FSIM values of result images generated by style transfer

6 结论

本文提出一种基于神经网络的风格迁移算法，经实验证明：该算法的自动语义分割模块节省了人为手动对图像进行分割的时间开销；深度层聚合模块结合了多层次的特征信息；全局与局部风格损失构成的总风格损失在多个角度上体现了图像风格信息；照片写实类正则化项则约束了图像纹理变化，维持结构一致性，提升了生成图像真实度.在多个应用场景下，本文算法都能产生具有美感而又可信的图像.