王琪 魏纵横 崔曼曼
关键词:图像风格迁移;剪纸;纹样特异性;卷积神经网络;损失函数
0 引言
“一带一路”的建设为中国文化传播开辟了新的道路,民间剪纸艺术品远销海外,广受国外友人青睐。尽管剪纸的市场价值不断提高,但其艺术价值却没有得到充分的发挥。剪纸独特多样的纹样形式及其蕴含的丰富地域文化特色寓意,在单调而重复的模板化制造中逐渐流失。近年来,随着西方艺术风格迁移技术的日漸成熟,诸多具有中国特色的艺术风格引起了国内外学者的广泛关注。基于卷积神经网络的风格迁移技术最早在2015年由Gatys等人[1]提出,该技术构造了Gram矩阵用于衡量各特征间的相关性,并利用预训练卷积神经网络VGG19分别提取图像的内容特征及风格特征,卷积神经网络具有强大的信息提取能力,在实际应用中(比如人脸识别领域[2]) 有着卓越的表现。在上述技术的基础上,任建军等人[5]利用风格迁移技术将青花瓷纹饰与齐白石画作进行巧妙结合,为青花瓷的纹饰设计带来更多启发。侯宇康等人[6]将形状文法理论与Gatys等人[1]提出的方法进行结合,提取苗族传统蜡染图案的底层特征,再通过迁移生成新的图案设计。江敏等人[7]通过调整内容与风格的比率对图像特征进行分离及重组,实现了油画风格迁移。任健[8]针对二维及三维文物上的书法作品提出了基于生成对抗网络的风格迁移算法,以协助汉字书法作品的修复工作。童茵[9]在神经风格迁移技术的基础上引入关于图画构图区域的识别方法,使中国画皴法的纹理和笔触获得更大程度的保留。然而剪纸作为大众触手可及的一门传统手艺,却鲜少与风格迁移技术相结合,姚超等人[10]将智能图像分割算法应用于人物剪纸图像中,其成像中的人物轮廓清晰,具备了剪纸的线条特点,但未能呈现剪纸中最为关键而细致的纹样特征,较难刻画非人物剪纸的艺术特征。
中国剪纸是一种使用剪刀或雕刻刀在纸张、布料、植物叶片、金银箔等厚度均匀的载体上进行剪、刻、撕、黏的镂空艺术,通常具有严格的线性纹理结构和鲜明的独立性纹样[11],质朴和生动地体现中国各个时期的民族地域生活风貌。剪纸艺术严格的线性纹理结构和鲜明的纹样特异性给剪纸图像风格迁移带来了挑战。鉴于上述情况,本文拟探索基于卷积神经网络的剪纸图像风格迁移算法,实现中国剪纸与传统水墨画作的结合,创建出具有高感知质量的剪纸艺术风格迁移图像,为传统文化注入现代科技的活力,助力中华传统文化的传承与发展。
1 算法设计
1.1 算法整体设计
在西方的艺术风格中,其纹理特征可以通过改变逐个像素点进行表现,而对于剪纸艺术来说,其纹理特征是线性的,且色彩单一,具有纹样特异性。此外,剪纸艺术讲究极富秩序的韵律美,注重边缘信息,轻微的扭曲就会影响整体的呈现。因此,相比其他艺术风格迁移,剪纸风格迁移更具挑战性。
针对剪纸风格的特点与迁移难点,本文提出一种基于预训练VGG19的剪纸风格迁移算法。为了实现快速准确的风格迁移,本文主要做出以下四个方面的改进:目标图像的选择优化、神经网络结构优化、风格迁移损失函数的设计以及最小化损失函数的优化算法设计。该算法共需两张图像作为输入,一张图像作为剪纸风格图像,另一张图像作为内容图像兼生成图像。算法流程图及其伪代码分别如图1和表1所示。
1.2 目标图像的选择优化
Gatys等人[1]提出的风格迁移方法通常选取随机初始化的白噪声图为迭代对象。其局限性在于从白噪声图开始的迭代过程往往需要消耗大量的计算时间且成像效果不佳。针对此问题,本文用原始的内容图像代替上述白噪声图,即复制一张内容图像作为生成图像。此时,内容损失将从零开始增加,且在迭代一定次数后,风格损失和内容损失将同步下降。上述改进不仅可以确保生成图像保留更多的全局内容信息,以获得更优的人眼视觉感知效果和审美体验,还能促进剪纸风格的快速融合。
1.3 神经网络结构优化
在神经网络结构优化方面,本文以VGG19为基础设计了一个小型网络以减少参数计算的数量,并实现风格特征和内容特征的快速提取,该网络仅保留了最后一个用于提取特征图的卷积层之前的网络。
一般来说,越深的卷积神经网络表现会更好,但同时也需要付出一定的代价,比如深度卷积神经网络中参数过多带来的过拟合及梯度爆炸等现象。然而在风格迁移任务中,卷积神经网络的参数值通常不会发现改变,改变的只是生成图像。由于生成图像反复多次地被迭代输入网络,当网络规模较大时,通过网络后输出的图像倾向于呈现更细致的内容信息,以至于无法较好地融合风格特征。为了能够更好地还原剪纸纹样,同时兼顾算法计算复杂度,本文通过数值验证的方法,最终确立了一个最佳的特征图选层方案,即选取conv1_1、conv2_1、conv3_2、conv4_2层的特征图进行风格损失的计算,选取conv3_1层的特征图进行内容损失的计算。
1.4 风格迁移损失函数设计
在传统的风格迁移损失函数计算中,常用均方误差来描述特征图之间的差异。虽然均方误差函数处处可导,但其对离群点比较敏感,即当真实值和预测值的差异较大时,计算得到的损失也会偏大。针对这一点,本文采用均绝对误差函数定义风格迁移过程中的内容损失函数Llcontent 和风格损失函数Llstyle,以减少图像噪声的影响。内容损失函数Llcontent 和风格损失函数Llstyle的具体表达式如下:
其中Cl ij 表示内容图像在第l 个卷积层的第i 个特征图上的第j 个像素点,Ol ij 表示生成图像在第l 个卷积层的第i 个特征图上的第j 个像素点,F 表示该层被拉平为二维矩阵的一批特征图,矩阵的每一行就是一个特征图,F li,m 表示风格图像在第l 个卷积层的第i 个特征图上的第m 个像素点,F'li,m 表示F li,m 的转置,Nl 表示第l 个卷积层的特征图个数,Sl 表示第l 层单个特征图的大小,Graml i,j 和Gram'li,j 分别对应风格图像和生成图像的Gram矩阵上的每一个像素点。
值得注意的是,考虑到剪纸风格对边缘信息的注重,本文在计算内容损失和风格损失之前,先引入全变分损失以提高图像的边缘平滑性。全变分损失定义如下:
其中α、β、γ 分别为三种损失对应的权重因子,通过设置不同的权重值,表达对三种损失不同的偏好。
1.5 自适应ADAM 优化算法
为了获得更好的风格迁移效果,通常要求上述定义的损失函数尽可能小。而如何实现损失函数最小化是算法设计中的关键一环。L-BFGS算法是传统风格迁移过程中常用的损失函数最小化算法。该算法虽然具有较快的收敛速度,但当优化目标较大且迭代次数较多时,梯度爆炸和梯度消失的现象便会频繁发生。为了解决上述问题,本文提出一种自适应的Adam算法,该算法根据计算得到的梯度一阶矩和梯度二阶矩实现对学习率的自适应调整,在保证算法足够稳定的同时,避免因下降梯度摆幅过大造成的梯度爆炸和梯度消失问题。算法的实现流程如表2所示。
2 实验与结果分析
2.1 开发运行环境
本文采用的实验平台配置为Intel Core i5 CPU,16G RAM,NVIDIA GeForce GTX1050Ti GPU,4G 显存,系统为Win10家庭版,CUDA版本为11.1。实验程序在Pycharm集成开发环境中编写并运行,程序迭代次数可调整,一般设定为2000 次,运行时间为3~4分钟。
2.2 选图标准
实验选取的剪纸风格图像与内容图像均来源于互联网开源数据,在风格图像的选取方面,要求所选图像既使用了纹样繁复且没有具体内容的窗花型剪纸元素,也使用了留白较多而内容为鱼、虾或虎的传统动物剪纸图像;在内容图像的选取方面,尽量选取与风格图像主题相似的图像作为内容图像。在进行风格迁移之前,首先采用Matlab软件对输入图像进行统一的边缘裁剪或补全,以确保输入图像为正方形,简化网络计算量。
2.3 仿真测试和结果分析
为了便于说明剪纸艺术风格迁移与西方艺术风格迁移的不同之处,作为对照试验,本文先采用传统的基于卷积神经网络的风格迁移算法对剪纸图像和西方艺术风格图像进行处理。之后,按照本文的算法设计流程,依次验证各步骤的改进效果。
1) 传统风格迁移算法
图2从左至右依次展示了传统的基于卷积神经网络的风格迁移算法实现的西方艺术风格迁移图像(a列与b列)与剪纸艺术风格迁移图像(c、d和e列)。注意,所有图像在风格迁移过程中使用的参数均相同,运算所需时间为3~4分钟。从图2可以明显看出,a、b两列的生成图像均能清晰地观察到内容图像中的人物轮廓,而c、d、e三列的生成图像却几乎看不到任何关于内容图像的信息,只有十分紊乱的纹理碎片。a、b两列的风格图像中的风格特征最终分别以彩色和藏蓝色的形式反映在生成图像中,虽然没有风格图像中类似曲线、条纹、棱角等特征,但仍然能看出内容图像的语义信息。c到e列的生成图像之所以看不到内容图像的信息,是因为风格图像在色彩上是单色的,无法通过一种颜色去反映风格特征,而且边缘信息又很容易在深度卷积计算中被扭曲,因此很难通过减少像素点之间的误差来融合图像的风格。从这个角度来看,传统的基于卷积神经网络的风格迁移算法并不适用于剪纸艺术风格的迁移。
2) 目标图像的选择优化针对上述剪纸风格生成图像不具有内容信息且纹理紊乱的问题,本文采用内容图像作为优化图像,以尽可能多地保留内容图像的全局信息。从图3可以看出,剪纸风格迁移生成图像均有大幅改善,其内容信息得到有效呈现且生成图像颜色也与风格图像保持一致。尽管如此,从整体上看,生成图像的背景部分仍有许多冗余信息,即c列中老虎的周围本该留白的地方却充满了灰色的晕染,类似地,d列中猪周围原本空白的背景中布满了红色的晕染,e列中鱼和虾周围则泛着粉红色的晕染。这是因为剪纸的风格特征较为分裂,缺乏颜色过渡,当迭代次数不足时,留白处的紊乱纹理将不可避免。
3) 神经网络结构优化
为了减少参数的计算量并提高风格特征与内容特征的整体融合性,本文采用了基于预训练VGG19的小型网络。从仿真时间上看,算法改进的运算时间为3~4分钟,少于传统算法所用时间。从图4中可以看出,c列中老虎边缘的灰色晕染变少了许多,e列中原本泛着粉红色的区域变浅且趋于白色,但d列中却多了大量橙黄色的背景。这是因为優化后的神经网络虽然可以加快图像的风格迁移,但深层卷积层的减少会使图像更侧重风格特征的整体体现。相比a、e列的内容图像,d列内容图像的背景存在着墨水的点缀,这些点缀会参与风格损失的计算,在迭代次数受限的情况下成了不利因素。
为了提高图像的平滑性,本文引入全变分损失,并提出一种基于绝对值误差的新损失函数。从图5中可以看到,c列中老虎的整体变化不大,但局部细节的线条更为流畅。d列中背景的多余纹理得到部分改善,尽管留白处仍残留着部分纹理碎片,但猪身上有了曲形剪纸纹样的呈现。e列中鱼和虾的四周出现了气泡样纹理,鱼和虾身上的鳞片纹样变得更为突出。同时,在试图通过增加迭代次数来进行进一步改善时,三者均出现了梯度爆炸和梯度消失的现象。
5) 自适应的Adam优化算法
为了解决上述梯度爆炸及梯度消失现象,本文提出采用自适应Adam优化算法,替代传统方法中的LBFGS算法。结果如图6所示,整体成像效果发生了较大的改进,这是梯度得到持续平稳下降后的结果,留白处的纹理均得到了较大的改善,同时能明显观察到锯齿纹、鱼鳞纹、漩涡纹等。
3 结束语
本文提出了一种基于预训练VGG19的剪纸风格迁移算法,通过对不同动物的剪纸纹样的研究,探索了剪纸风格迁移与其他艺术风格迁移的不同。本文从目标图像的选择优化、神经网络结构优化、风格迁移损失函数设计以及最小化损失函数的优化算法设计四个方面做出改进,最终图像能够较好地呈现出被迁移图像的整体信息及剪纸的基本特点。鉴于最终成像尚未能够理想还原剪纸的多种纹样,在未来可以考虑将图像中的动物按照不同躯体部位进行智能分割,再按照剪纸图像中相对应的部位进行风格迁移。