结构细化的神经风格迁移

2021-08-26 08:10倩陈小朋苑玉彬张泓国

电子与信息学报 2021年8期

沈瑜杨倩陈小朋苑玉彬张泓国王霖

(兰州交通大学电子与信息工程学院兰州 730070)

1 引言

风格迁移是一幅图像的语义内容用力一幅图像的风格纹理进行表示[1]。深度神经网络凭借其强大的图像表示能力[2]，推动了神经风格转移方法的发展。然而，近几年风格迁移都主要关注风格迁移的速度和多样性，在保证迁移速度和多样性的前提下，怎样更好地表现出风格化图像的细节是需要急需解决的问题。开创性的神经风格迁移方法[3,4]使用卷积神经网络将图像的内容和风格特征表示进行分离，并独立处理高层特征来实现图像风格迁移，获得了非常可观的艺术效果。Luan等人[5]将语义分割和风格迁移相结合实现了更逼真地真实图像风格转换。Huang等人[6]提出了自适应实例标准化(AdaIN)层与迭代优化相结合的前馈方法快速地实现任意样式的实时转换。Li等人[7]提出了能够捕获马尔可夫碎片的特征统计信息的马尔可夫生成对抗网络，该网络直接将内容图像转换成艺术画作。Dumoulin等人[8]搭建了可扩展的深层网络实现了任意风格的图像风格转换。Chen等人[9]提出的卡通化生成对抗网络生成高质量的卡通图像。Johnson等人[10]从预训练网络中提取的高级特征来定义和优化感知损失函数提升风格转换的速度。

风格迁移中，当输入图像具有复杂空间布局时，迁移结果将样式元素均匀地分布在整个图像中，使整体结构不可识别。对于结构变形敏感的输入，纹理均匀分布模糊了细节，破坏了原结构。因此，本文提出了细节细化的风格迁移方法，将检测网络的卷积层进行输出，设置不同步长，获得多尺度多层次的边缘特征图，再选取不同特征图进行加权融合，获得边缘特征图，用边缘特征图对迁移过程进行纹理分布的控制；在转换网络中，在非残差卷积层后面引入AdaIN层，AdaIN将特征图在对应的通道中匹配均值和方差，计算仿射参数，以此保留内容图像的空间结构；用小卷积核替代大卷积核能保证相同的感受野，增加非线性，减少参数和计算量。本文搭建的网络模型能够实现多种风格迁移，风格化图像空间结构能够得到细化。

2 风格迁移模型

图像风格迁移主要通过以下两个方面实现：(1)对不同的色彩通道进行不同的处理实现对颜色的控制。(2)为了对内容图像先进行语义分割再对其进行风格转换或者对不同的区域先进行标记再进行不同纹理迁移，使迁移后的图像符合自然图像的语义内容。风格迁移产生不合理的空间布局会使生成图像的语义内容扭曲，从而无法识别出目标。因此，本文对风格迁移的纹理分布进行了细化，网络模型如图1所示。

图1 风格迁移模型

2.1 边缘检测网络

多尺度是对信号不同程度采样[11]，具有不同参数和接受域大小，将数据输入到多个流中，然后将各个流产生串联的特征响应输入到全局输出层中，获得不同尺度下的不同特征。常见的多尺度特征融合网络有并行多分支网络[12]和串行跳跃连接结构[13]，两者都是在不同的感受野下进行特征提取。本文采用并行多分支网络结构[14]，将边缘检测中将边缘映射组合在一起，结构如图2所示。本文的边缘检测网络基于VGG-19网络，并做了如下改进：(1)将Conv1和Conv2的第2个卷积层的边缘特征图与Conv3,Conv4和Conv5的后两个卷积层的边缘特征图进行输出。(2)本文不使用第5个池化层和3个全连接层。因为随着段卷积步长增大，产生的边缘检测图太模糊，不利于生成更精确的边缘特征图。(3)添加加权融合层，对多尺度多层次的特征图进行融合，获得整体边缘特征图，并运用多路径反向传播优化获得最终误差最小的边缘特征图。

图2 边缘提取过程示意图

本文的边缘检测网络分为5个阶段，每个阶段设置不同的卷积步长(表1所示)，能够获得多层次多尺度的边缘特征图，选取不同阶段的8层边缘特征输出进行加权融合，不同融合程度的边缘检测效果如图3所示。边缘检测精度使用固定轮廓阈值(ODS)、图像最佳阈值(OIS)和平均精度(AP)进行评估，如表2所示。本文的边缘检测图融合了更多的细节信息，全局结构边缘更加清晰，客观指标均取得较好的结果。

图3 不同深度的边缘检测图

表1 步长和感受野参数设置

表2 在BSDS500数据集上的客观评价指标

2.2 迁移网络

本文搭建的风格迁移网络分为编码器、转换网络和解码器3个部分。编解码器是用VGG-19网络来实现对输入图像的特征提取。转换网络主体由5个残差块组成，为了在特征通道中检测样式图像的笔触并产生较高的平均激活度，在非残差卷积层后增加AdaIN和ReLU层，从而实现纹理合成和色彩迁移，网络主体如图4所示。在转换网络中，本文在Conv1和Conv4中以两个5×5和一个1×1的卷积核代替9×9的卷积核，其他卷积层都使用3×3的卷积核。1×1的卷积核能够在不影响输入输出维数的情况下实现跨通道的信息交互整合，还可以进行通道数的升维和降维。两个5×5卷积核堆叠，则能够增加多层非线性组合，提高网络学习复杂内容的能力，并且使判决函数更具判决性，起到隐式正则化的作用。

图4 转换网络结构

大卷积核具有更大的感受野，生成较大的特征图，经过池化去除冗余信息的同时也会损失很多细节信息，使得生成图像损失了很多细节，如图5(c)所示。本文用小卷积核代替大卷积核，能够保证相同的感受野，产生更加准确的特征响应，并且能够增加网络深度，使得网络中的函数能够更好地逼近输入图像的特征。捕捉自然图像的统计属性，让目标轮廓更加清晰，细节纹理更精细，提升视觉效果(图5(d)所示)。

图5 不同卷积核风格迁移纹理对比

3 风格迁移误差

3.1 损失函数

表3 迁移网络改进前后参数量对比

3.2 改进的损失函数

本文在转换网络的常规卷积层后增加了AdaIN[5]，修改特征匹配参数，AdaIN通过学习仿射参数，自动地对内容图像和风格图像的特征统计信息进行匹配。图像通过编码器d映射在特征空间中，将同一层的内容特征映射的均值和方差与风格特征映射的均值和方差对齐，生成目标特征映射h

网络学习通过随机梯度下降来优化损失函数

其中，LR是正则化[4]，γ表示正则化项的权重，以增加生成图像的平滑性。

在风格迁移模型中，每一层的参数更新导致上层的输入数据分布发生变化，使用AdaIN，把数据分布映射到一个确定的区间，并在整体损失函数中增加了边缘检测损失和归一化损失，与经典算法Gatys[4]进行对比，网络性能更好，准确率更高，收敛速度更快(图6)。特征图各通道的均值和方差会影响最终生成图像的风格，通过式(4)实现风格图像和内容图像均值和方差的匹配，并在编解码时分别进行归一化与去归一化获得目标图像的风格，最终实现风格迁移。通过式(9)中内容损失和风格损失的权重比来控制样式转移的程度。图7中η表示内容损失和风格损失的权重比，可以看出，η=0.5时，两组图像风格化不完全，语义扭曲。η=1时，风格化程度较大，语义内容和风格纹理很好地结合。归一化前纹理笔触较大，细节太平滑，前后景边缘轮廓模糊；归一化后生成图像的笔触较小，纹理精细，边缘轮廓得以增强，使得风格化后的图像整体视觉效果更有层次感。

图6 损失函数对比图

图7 纹理比较

4 实验与结果分析

4.1 实验设置

4.2 结果分析

4.2.1主观评价分析

本文改进的算法在检测的边缘图的引导与约束下以及经AdaIN处理，迁移效果如图8所示，图8(a)为风格图像，图8(b)为内容图像，图8(c)为边缘检测图，图8(d)为迁移效果图。将本文算法与文献 [4]，文献[6]，文献[10]，文献[18]的算法对比，风格迁移效果如图9，图10所示。在图9(c)中部分迁移结果风格均匀分布(图9(c)(1))，覆盖了语义内容，结构复杂的输入迁移结果出现原结构轻微破坏，细节信息模糊(图9(c)(2))。图9(d)普遍存在细小的颗粒覆盖在迁移结果上，弱化了迁移图像的某些细节，也使得主要目标变得模糊(图9(d)(2))。图10(c)语义信息覆盖较为严重，主要目标无法识别，前后景对比度低。图10(d)存在少量的多余纹理分布(图10(d)(4)和(6))，部分迁移结果出现白晕(图10(d)(5))，弱化了内容的细节。图9(e)和图10(e)为本文算法的迁移结果，可以看出，不论是风格化图像的结构还是语义信息保留程度都较出色，迁移结果无纹理分布覆盖语义信息的现象，并且前背景的边界也很清晰，主要目标清晰可辨，风格化图像结构保持较好，结构细节损失较小，细节信息得以表达，没有光斑。因此，从视觉效果上看，本文的迁移方法产生的结果更加出色。

图8 本文算法迁移效果展示

图9 实验结果对比

图10 实验结果对比

4.2.2主观评价分析

在客观评价中，本文从峰值信噪比、内容和风格的平均结构相似(MSSIM)进行比较。PSNR由图像信号峰值与均方误差决定，表示图像风格迁移质量的好坏；SSIM将图像的亮度、对比度和结构3个因素进行组合。以均值估计亮度，标准差估计对比度，协方差估计结构相似程度。客观数据对比如图11所示。

由图11可知，本文方法在峰值信噪比与平均结构相似度都有较好的表现，说明本文算法风格化图像质量较好，内容结构保留程度高，风格化图像迁移了更多的纹理信息。

图11 客观评价指标

4.2.3运行时间比较

本文将本文算法的运行时间与表4中的文献[4]，文献[6]，文献[10]，文献[18]的不同尺寸的图像进行了对比。总体上看，本文通过增加自适应实例归一化层在一定程度上提升了风格迁移的迁移效率。

表4 风格迁移算法运行时间比较(s)

5 结论

本文将基于神经网络的边缘检测网络添加到神经风格迁移模型上，通过对边缘检测网络的多层输出进行融合获得内容图像的边缘轮廓图，并将其输入风格转换网络引导约束风格迁移；在迁移网络中，本文将其常规卷积层的大卷积核进行了替换，减少了网络模型的参数，提升了运行的速度；在常规卷层后添加了AdaIN层，修改了特征匹配参数，增强了风格化结果的轮廓，一定程度上保留了图像的结构布局。本文算法解决了纹理均匀分布破坏结果图像的结构布局，造成细节信息丢失和前后景边界模糊的问题。通过客观数据表明，本文算法在能更好地保留内容结构，细化语义信息，结合风格纹理。