基于深度学习的图像风格迁移方法研究*

2023-08-22 03:47:06梁永侦
计算机时代 2023年8期
关键词:损失卷积系数

梁永侦

(广西机电职业技术学院信息工程学院,广西 南宁 530007)

0 引言

图像风格迁移是计算机视觉领域的一个研究热点,如在艺术画风格绘制素描、文化修复的书法风格迁移、文字特效渲染、机械设备年久腐蚀镀层颜色修复、机器人书法临摹、服装设计、影视创作、游戏开发等方面具有广泛的应用前景和研究价值。

图像风格迁移是使用计算机技术将一张图像的风格特征进行提取,再将其特征迁移和融合到另一张图像上,而形成一种独特的风格图像,即同一张图像应用不同的风格,画面会给人以不同的感观效果。

随着人工智能技术的不断发展[1-2],以机器学习和深度学习为代表的前沿领域得到了更深入的研究。当前,基于深度学习的图像风格迁方法大致分为两类:一类是基于卷积神经网络的图像风格迁移方法,另一类是基于生成式对抗网络的图像风格迁移方法。前一类以Gatys等人[3-5]为代表提出的基于卷积神经网络纹理合成的图像风格迁移方法,分别将图像内容抽象特征和风格抽象特征分离和提取,再通过预训练VGG模型[6]对这些高层抽象特征表示进行处理,以迭代优化的方式合成了一种具有原内容和新风格纹理的艺术效果图像,有效地实现了图像风格迁移的艺术效果;后一类是Zhu 等人[7]为代表提出的基于循环生成式对抗网络的图像风格迁移方法,该方法将两个单向传播的生成式对抗网络进行环形相连,以这种环形结构网络的方式解决了图像特征进行迁移时需要依赖于训练数据配对的问题,很好实现了图像风格迁移效果。

综合分析,当前图像风格迁移方法多局限于单一风格迁移效果,且迁移后图像效果易出现纹理信息缺失或颜色分布不均、边缘粗糙、图像扭曲等现象,同时整个实验过程的工作量较高。为此,本文实验采用多种艺术图像作为参照对象,对多种风格图像进行网络训练,以获取具有多融合特征的风格图像,而提出的基于深度学习的图像风格迁移方法。该方法是将多种风格特征融合一起而得到的一种风格迁移图像,可根据用户需求自由融合获取到具有艺术观赏效果的风格迁移图像,为探索基于深度学习的图像风格迁移新方法提供了可行性方案。

1 方法原理

为快速获取到具有艺术风格特征的迁移图像,实验基于深度学习原理,采用一种具有深度层级构造的深度卷积神经网络模型DCNNs(Deep Convolutional Neural Networks)[8]。获取风格迁移图像的过程主要采用两种图像作为素材:一种是具有风格特征的图像,通常是艺术名家作品或珍贵藏图;另一种是真实内容图像,通常是摄影图像。实验基于深度学习卷积神经网络训练模型,自动提取风格图像中的艺术风格特征,将其特征迁移到真实内容图像上,进而获取到同时具有艺术风格和真实内容融合的艺术风格图像,不变的是内容图像的具体内容(如图像中的物体、形状不变),改变的是在内容图像的基础上获取到了融合风格图像中的艺术风格,最终获取到具有风格艺术效果的迁移图像。本文实验获取艺术风格迁移图像的工作流程如图1 所示。

图1 图像风格迁移工作流程图

1.1 深度卷积神经网络

Gatys 等人[3-5]所提出的基于卷积神经网络纹理合成的图像风格迁移方法,是基于VGG 网络模型为基础,依据其随机梯度下降机理,对模型网络的损失函数进行设计,经过多次迭代后而获取到具有艺术风格的迁移图像。

VGG(Visual Geometry Group)从属牛津大学,始于2014 年,前后发布的VGG 网络模型有VGG-11~VGG-19,其深度卷积神经网络模型具有超强的特征学习能力,在分层级叠加的多个线型与非线性的处理单元中,能够识别和分析特征数据进行自动学习以快速提出目标特征。本文实验主要在Gatys等人[3-5]基于VGG-19 网络模型基础上进行完善和改进,VGG-19网络具有简单的模型结构,在整个结构中主要使用了具有相同尺寸大小3×3 的卷积核和2×2 的最大池化层,其中有16个卷积层、5个最大池化层的特征空间和3个全连接层。VGG模型结构图如图2所示。

图2 卷积神经网络VGG-19模型结构图

VGG-19网络模型卷积层主要用于卷积计算获取特征图,其最大池化层用于降低获取特征图复杂度以提升获取图像特征的效率,全连接层则引入激励函数以提升模型对特征图的区分性能,进而将大量特征图数值信息归一化为一个向量值,有利于促进VGG-19模型快速提取特征图像。

1.2 基本路线

基于深度学习的图像风格迁移方法,其基本路线是:首先,将准备好的多张风格图像和内容图像输入到设计搭建预训练好的VGG-19 网络模型中,而这些输入图像则以数据流的方式前馈到卷积神经网络中进行特征学习,进而获取到各风格图像与内容图像的相应特征图;其次,在VGG-19网络模型进行特征学习过程中依次对风格图像与内容图像的噪声特征损失系数进行设置;最后,引入权重因子,以加权求和的方式获取到总损失系数,利用深度学习卷积神经网络随机梯度下降依次迭代的特点,结合这些获取的特征图像对图像重建,最终获取到具有艺术观赏性的风格迁移图像。

1.3 相关理论

Gatys 等人[3-5]所采用的VGG-19 网络模型有效地获取到了相应风格迁移图像,利用随机梯度下降这一特点,分别获取到了内容图像Lcontent与风格图像Lstyle的特征损失系数,其损失系数分别表示为:

其中,L表示深度卷积神经网络模型的卷积层总数,l表示卷积层中具体的层级数,如第l层的卷积层;p→表示内容图像;x→表示生成图像表示内容图像p→在深度卷积神经网络中第l层卷积层的第i个数据传递通道第j个位置的特征表示表示生成图像x→在深度卷积神经网络中第l层卷积层的第i个数据传递通道第j个位置的特征表示。→s表示风格图像;Nl表示网络模型第l层中卷积操作提前特征数据传输的通道数量;Ml表示卷积高度与卷积宽度的乘积;Gl和Al分别表示生成图像x→与风格图像→s在第l层卷积操作各自所对应的内积空间Gram 矩阵表示生成图像x→在滤波器中第i个数据传递通道第j个位置的内积空间表示风格图像→s在滤波器中第i个数据传递通道第j个位置的内积空间。

在依次求取内容图像与风格图像的损失系数后,分别引入权重因子,以加权求和的方式求出总损失系数,再对这些特征图进行重建以获得最终目标效果的风格迁移图像,总损失系数表达式为:

其中,α表示加权求和图像重建过程中内容图像平衡损失系数的权重因子;β表示加权求和图像重建过程中风格图像平衡损失系数的权重因子,权重因子满足α+β=1的条件。

经过VGG-19深度卷积神经网络训练提取到目标特征图像,再进行图像重建获取到具有艺术风格效果的风格迁移图像。

1.4 本文基于深度学习的图像风格迁移方法

本文实验基于深度学习机理,同样采用VGG-19预训练的网络模型来进行图像风格迁移实验,是在Gatys 等人[3-5]所提出基于卷积神经网络纹理合成的图像风格迁移方法基础之上进行改进和开展实验的。先将目标内容图像和风格图像输入到预训练好的VGG-19 网络模型中实现特征快速提取,再由式⑴内容损失系数和风格损失系数以加权求和的方式获取到更为合理的总损失系数,最后结合特征总损失系数对图像进行重建融合以获取到性能更高的风格迁移图像,改进总损失系数表达式为:

其中,在原满足VGG-19预训练模型基础上,对原求取总损失系数Ltotal引入一种光照正则化超参数,进一步改善风格迁移图像的性能效果,λ表示引入控制内容图像损失系数与风格图像损失系数平衡最小二乘惩罚因子的一个权重,Lm表示光照正则化方法。

1.5 最小二乘惩罚函数

为了减少图像风格迁移过程中容易出现内容缺失、风格扭曲而得到效果图像极差的现象,本文实验在式⑵方程后定义引入了一项用于平衡内容图像损失系数与风格图像损失系数的最小二乘惩罚函数,以确保图像风格迁移过程能够寻找到最佳匹配,从而减少图像风格迁移过程容易出现细节内容缺失的现象。对于输出内容图像与风格图像的损失系数都设定有平衡系数的权重因子,所设置的最小二乘惩罚函数其对应的RGB 颜色空间值仿射在它们的参数值上(即每一个损失系数都映射有一个仿射函数),以平衡获取到更加完善的总损失系数值,进而获取到风格完好、内容细节缺失少的风格迁移图像。依据光照正则化方法原理,在Levin 等人[9]的拉普拉斯基础上引入最小二乘惩罚函数,该方法结合线性组合RGB 颜色空间对彩色图像进行灰度化处理,由原图像与灰度图像进行对比,可创建获取到仿射局部损失的一个最小二乘惩罚函数,能够将图像前景与背景进行有效地分割以减少图像风格迁移过程中出现图像扭曲或溢出的现象。其最小二乘惩罚函数定义为:

其中,MI表示具有N×N个像素的惩罚因子,主要用于平衡最小化线性系统,其取值范围依赖具有N个像素的输入内容图像P;Vc[O]为输出图像O在颜色通道c的向量化描述版本。

在引入光照正则化最小二乘惩罚函数平衡损失系数的同时,实验还结合扩大卷积(Dilated Convolution)的语义分割方法[10]能够准确快速地标记出图像目标分割区域。扩大卷积的语义分割方法能够有效增强VGG-19 网络模型大量提取图像特征的能力,进一步扩大获取图像特征的视野效果。扩大卷积语义分割方法将VGG-19模型生成的内容图像与风格图像所分割出来的特征标签以附加特征RGB 颜色通道的方式添加到输入图像当中,进一步增强内容图像与风格图像目标区域的快速分离,进而增强风格图像的损失系数,结合分离出的特征图像进行图像快速重建,最终获取到具有艺术观赏性的风格迁移图像。

1.6 基本步骤

实验在引入语义分割和最小二乘惩罚函数基础之上,将大量的内容图像与风格图像输入到预训练VGG-19 网络模型中,在对图像目标信息进行预分割的同时,模型在进行大量模拟和识别等一些列特征学习,使网络模型具备快速提取特征图像的能力,最后将提取的特征图像进行快速重建,进而获取到具有内容图像信息和风格图像样式的艺术风格迁移图像。

2 实验及结果分析

本文实验在Windows 10 系统下进行,主要使用深度学习Tensor Flow 框架进行网络训练,硬件配置为Intel(R)Core(TM)i7-10510U CPU @ 1.80GHz 2.30 GHz 处理器,16GB 内存。测试实验在Python 3.7.1 的pytorch框架展开,NVIDIA的GPU。

2.1 VGG-19模型基本设置

在预训练的VGG-19 模型中,主要采用conv4_2层来操作表示内容图像信息,此时这一层的权重因子α取值为1,其他层取值为零;而图像风格信息分别采用conv1_1、conv2_1、conv3_1、conv4_1、conv5_1 层来表示,此时各个层级的β取值均为0.2,其他层级取值为零。经实验发现,λ值设定过小则容易使风格迁移图像出现失真或信息缺失的现象,λ取值过大也会阻碍风格信息迁移,综合实验和考虑,实验对λ取值设定在104~6范围,更多时候λ值设定为104,最终所获取的迁移图像效果最佳。

2.2 效果对比及分析

本文随机选取了大量的图像对(内容图像和风格图像)进行实验,将这些图像对输入到预先设定好的VGG-19网络模型中,进行特征学习和特征提取,进行多次仿真模拟以调试设计出最佳性能的VGG-19网络训练模型,使得后续再将目标图像输入到模型中能够准确快速地获取到目标特征信息,再经过图像重建均实现了图像风格迁移效果。根据图像风格迁移效果,分别与λ取值不同所获取的效果图像进行比较和分析,最终确定λ最佳值。图3为选取的几种不同λ参数值所获取的风格迁移图像效果对比图。

图3 几种不同λ参数值获取的风格迁移图像效果对比

由图3 可以看出,当取值λ=104时,本文基于深度学习的图像风格迁移效果最佳。图3(a)为三组实验输入的内容图像,图3(b)为三组实验所采用的样式风格图像。可以看出,在实验一中,图3(c)框选区域风格背景图出现明显的失真现象,图3(d)图像整体内容保留完好,背景风格效果失真现象减少,图3(e)内容信息和风格背景出现扭曲现象明显;在实验二中,图3(c)框选区域图像的内容信息清晰,其风格背景趋近于实验二图3(b)风格图像效果,图3(c)的局部内容信息出现阴暗、细节不清晰现象,图3(e)天空的风格颜色较浅,未达到目标视感艺术效果;在实验三中,图3(d)图像风格迁移效果最佳,内容信息与风格信息重建融合视觉效果最佳,失真或细节信息丢失现象最少,图3(c)风格背景颜色覆盖了局部内容信息,内容信息丢失明显,图3(e)风格背景颜色加深,在覆盖内容信息的同时,出现了局部扭曲现象。图3(d)为本文基于深度学习的图像风格迁移方法效果图,综合实验比较,当取值λ=104时,实验所获取到的风格迁移图像内容信息保留较好,融入的风格背景较为和谐,整体艺术视感清晰,取得了很好图像风格迁移效果。

2.3 性能比较与分析

为使图像风格迁移效果的有效性得到进一步验证,本文采用峰值信噪比(PSNR)[11-12]和均方误差(MSE)[13]两种评价指标来客观评价在不同λ参数值下所获取风格迁移图像的性能。表1分别列出三组实验不同λ参数值下所获取风格迁移图像在PSNR 和MSE评价指标上的数据性能比。在实验中,PSNR 峰值信噪比用于评价图像风格后,特征信息的失真程度,PSNR 的值越大,表示失真程度越小,说明风格迁移获取到的图像重建性能越好;MSE 均方误差用于评估图像风格后特征信息与原目标迁移特征信息的距离差距,MSE 的值越小,表示图像风格迁移后特征信息与原目标迁移特征信息的差距越小,说明图像风格迁移后获取的图像性能更佳。从表1 可以看出,本文实验PSNR 和MSE 值在参数λ=104的时候其性能指标最高,表明实验引入用于控制内容图像损失系数与风格图像损失系数平衡的最小二乘惩罚因子权重值为λ=104的时候,本文基于深度学习的图像风格迁移方法能够获取到最佳艺术效果的风格迁移图像。

表1 不同λ参数值获取风格迁移图像的数据性能比

3 结束语

本文基于深度学习的图像风格迁移方法研究进行了实验观察和理论分析,获取到具有艺术观赏效果的风格迁移图像。实验为减少获取到风格迁移图像容易出现失真、内容丢失、风格扭曲等现象,对计算内容图像与风格图像总损失系数进行图像重建以获取到艺术风格迁移图像的同时,引入一项用于平衡内容图像损失系数与风格图像损失系数来求取总损失的最小二乘惩罚函数,用以寻找特征信息的最佳匹配,经实验对比和观察,确定一个最佳的最小二乘惩罚因子权重值,最终结合总损失系数进行图像重建,以获取到内容缺失较少、风格扭曲现象减少、失真现象降低、总体效果最佳的风格迁移图像。综合实验观察与数据分析,本文方法获取到的风格迁移图像,视觉效果清晰,特征信息明显,整体取得了很好的图像风格迁移效果。

猜你喜欢
损失卷积系数
少问一句,损失千金
基于3D-Winograd的快速卷积算法设计及FPGA实现
胖胖损失了多少元
从滤波器理解卷积
电子制作(2019年11期)2019-07-04 00:34:38
这些待定系数你能确定吗?
玉米抽穗前倒伏怎么办?怎么减少损失?
今日农业(2019年15期)2019-01-03 12:11:33
打雪仗
基于傅里叶域卷积表示的目标跟踪算法
过年啦
两张图弄懂照明中的“系数”
中国照明(2016年6期)2016-06-15 20:30:14