朱映辉,江玉珍
(韩山师范学院 计算机与信息工程学院,广东 潮州 521041)
中国剪纸是一种古老又极具特色的民间技艺,它主要表现为纸上的镂空艺术,既展现中国特有的民俗元素,视觉上又给人以透空的艺术享受,是中国传统文化的一种艺术瑰宝.2006年剪纸艺术经国务院批准列入第一批国家级非物质文化遗产名录,2009年中国剪纸项目入选“人类非物质文化遗产代表名录”,随着剪纸技艺不断的传承,新的元素、新技术又不断地赋予剪纸新的生命力.
近年来,随着计算机辅助设计技术的发展与融入,中国剪纸创作在多样化和创新性上更得到大大的推进.张显全等通过建立剪纸纹样系统来实现剪纸形象的生成[1-2],陈佳舟等对剪纸图案进行构造分析和数字化建模,以实现对输入剪纸图的数字化仿造[3].李岳等通过设置5种元素参数实现一种纹样的多种变化组合,从而增加剪纸造型的输出多样性[4].刘涛等运用了遗传算法来构造新的图案并生成较具创意的剪纸形象,但在图案选择上还需要人工参与[5].上述方法在剪纸生成上需要先建立图案元素库,也需要大量的用户交互操作,推广难度较大.更前沿的计算机辅助剪纸设计是基于真实景物图的剪纸效果自动生成方法,文献[6-7]主要研究将人脸相片生成剪纸肖像的方法,该类方法主要是通过提取输入图人脸特征,在五官元素库中匹配适合的元素以实现剪纸肖像生成.肖像剪纸的研究已取得值得肯定的成果,生成的剪纸肖像甚至能显现原相片人物的个性特征.虽然能实现自动匹配生成,但上述肖像剪纸方法仍必须先建立人脸元素库,且元素库的容量与质量直接影响生成效果的质量.文献[8]提出一种非元素库的剪纸自动生成算法,利用图像边界分割、区域降色和像素连通处理等将输入图生成相应的二维剪纸效果.该算法生成的二维剪纸能很好地反映原图景物边缘特征且保证了剪纸的整体连通效果,但同时这种方法主要是基于图像色彩明及暗对比度的分割生成,是比较“写实”剪纸样式,不能体现一定的艺术风格.对此,本文尝试将人工智能图像处理技术运用到剪纸的生成研究中,并提出一种基于深度学习的风格化剪纸自动生成方法,主要运用了深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)的风格迁移和U-net 框架的动物图像分割器来实现剪纸效果图的自动合成.本文方法不需建立图案元素库,只需指定一张动物图(内容图)和一张剪纸样式图(风格图),便可实现优质的风格化剪纸效果图的自动生成.
在卷积神经网络得到GPU计算集群支持之后就受到更广泛的关注和研究,CNN模型结构不断地向深度化和复杂化发展,随后VGG 等深度模型的推出也证实了DCNN 优越的图像识别性能.Gatys 等人在研究中发现,利用VGG 网络模型可以实现图像画面内容与风格特征的抽离,进而发现利用深度学习对抗生成方法可将一张图片上抽取的风格特征融合至另一张图的画面内容中,该处理结果获得了令人惊喜的风格迁移艺术效果[9-10].Gatys等人的研究成果迅速引起了深度学习术界及业界的广泛兴趣,基于深度学习的风格迁移方法不断得到改进及推广.如Johnson等人在Gatys算法的基础上提出了快速的风格迁移方法[11]:针对某一风格图,训练一个网络,所有输入该网络的内容图都能快速获得风格迁移图,无需像Gatys算法那样每张图均要经过上千次的优化迭代,却具有与Gatys算法相当的输出效果.但Johnson 算法也有一个明显不足,即一种风格就需建立一个专用网络,该网络只能生成该种风格图像,因此不能象Gatys 算法那样任意指定风格图.文献[12]提出保留原图色彩分布的图像风格迁移方法,文献[13]增加了一个变分损失函数,用于抑制高频噪音,有效提升了风格迁移图的图像质量.应用上,风格迁移方法也越来越多地被引入到各种传统艺术仿真创作的研究中,如李应涛等尝试用分区域风格迁移方法实现优质木刻版画效果[14],郑锐等则运用风格迁移实现了图像刺绣效果的仿真生成[15].本文也在风格迁移技术基础上,尝试实现动物类图像至风格化剪纸的融合创作.
本文算法主要采用了基于VGG19 模型[16]的TVL(Total Variation Loss,TVL)降噪风格迁移方法,TVL算法是Gatys算法的改进[13].Gatys算法中,其主要优化目标如下C,S,I分别代表原图、风格图和风格迁移图,α和β是权重系数,可调节内容与风格间的比重.式(1)是通过在内容损失和风格损失中寻求最小平衡值来达到优化目的,其中内容损失函数如式(2),Layercontent(I,i)指图像I在网格模型中的第i个内容特征层.
风格损失函数如式(3),Layerstyle(I,i)是指图像I在网络模型中的第i个风格特征层.
然而直接运用以上方法进行风格迁移总会存在一些明显的噪音.TVL算法在Gatys算法基础上,通过最小化上下、左右像素间均方差总和来增强风格迁移效果[13],即变分损失函数,其具体表示如下:
因此TVL算法的优化目标为
其中λ也为权重系数,本文算法中3种权重分别设置为:α=10-2,β=104,λ=108.内容特征层主要使用了VGG19 的conv5_2 层,风格特征层则包括conv1_1、conv2_1、conv3_1、conv4_1 和conv5_1 等5 个特征层.
图1反映2种算法的风格迁移效果,第1行是原图(一张猫脸图),第1列是风格图,有3种不同风格,第2、第3 列分别代表Gatys 算法和TVL 算法,除第1 行及第1 列外,各图片都是原图的风格化效果.两算法均采用Adam 优化器,learning_rate=0.02,迭代次数是2 000.由比较可见,TVL算法的输出效果明显更优越,具有更低噪音和更清晰的纹理表示.
图1中最后一种风格图是剪纸风格,是一种只有红白两色的螺旋纹理图,然而无论Gatys还是TVL算法,生成的迁移图虽然能反映出原定风格图的螺旋纹理特征,但均存在2 个明显不足:(1)出现了部分蓝、黑等非剪纸颜色的杂色;(2)效果图中前景与背景区分度不高.对于第1 个不足,可通过后期的色彩减缩方法来校正.对于第2个不足,第1.2节将通过色彩与纹理的风格迁移比对实验来引导进一步的分析处理.
为研究内容图色块分布与效果图剪纸纹理分布之间的关系,在对各种不同前、背景情况的图像进行剪纸风格迁移实验后获得了一定的纹理迁移规律.以下以两组相关内容图为例说明该迁移规律,其中一组是内外灰白相反的圆形图,一组是自然背景及白色背景相同实物图,如图2第1行所示.
结合图2左侧2张不同的风格图,对上述4张内容图进行TVL风格迁移生成.从8张效果图可以看到,对原图中有颜色的区域,其最终产生的风格图纹理比白色区域的要多一些,而且,在颜色区与白色区边界上,其生成的风格纹理较丰富且主要集中于颜色区一侧.此外,原图中纹理丰富的区域同样将生成更密集的风格纹理,风格纹理的方向、疏密与原图中的颜色及纹理分布也具有较大关联性.相反的,无纹理区域生成的风格纹理相对较少,且存在较多空白的区域.
图2 颜色与纹理对剪纸迁移的影响比较
对此,如果能单独提取图片中的前景(目标对象),令背景区置为白色,那么剪纸风格纹理将更多地产生于前景区域.提取前景目标对象的方法很多,DCNN 语义分割是近年来最前沿最接近人眼效果的技术.目前在深度学习视觉处理上已涌现了不少成熟且优质的DCNN 语义分割方法,如完全卷积网络(Fully Convolutional Networks,FCN)[17]、U-net 网络[18]、DeepLab 网络[19]等.各算法各具优势,其具体应用上的效果与采用的训练数据集也有密切关系,本文在图像分割处理上采用了一种Unet框架模型的方法.
U-net网络在2015年被提出并应用于医学影像的分割处理上,因其整个网络的框架结构如同字母U 的形状而命名.由于分割效果精良,U-net 被迅速推广,也衍生出许多基于U-net 框架的分割模型.为获得图像前景目标的分割图,本文实验建立了图3 所示的U-net 框架网络,其处理顺序是先左侧下行,在底部再向右侧上行.具体执行是:首先将图像归一为224*224分辨率,输入至ImageNet训练好的MobileNet-v2[20]网络模型,并从中提取部分关键特征层以支持下一步的逆向串并及反卷积处理,这些特征层主要包括第1、3、6、13、16 等5 个Block 中的expand_relu 层;右侧为上采样解码,各层的逆向解码输出与前面抽取的相应特征层串并后进行反卷积等处理,直至最终解码为分割图,分割图只包括2 个通道:前景通道和背景通道,可进一步合并成二值掩模图.由于上述U-net 结构限制了图像宽高,所以输入图在导入前需调整分辨率,而输出的掩模图在下一步使用前又需进行分辨率复原.本文实验中训练数据集是Oxford_IIIT_Pets[21]的扩充数据集.Oxford-IIIT Pets是牛津大学创建的一个宠物图像数据集,主要包含猫、犬两大类宠物图片,其中犬类25 类,猫类12 类,每小类约200 张图片.该数据集的特色是包含所有训练图的像素级分割标签,每个图对应的Ground_truth 掩模图(即标签)都具有三类标注:前景区、背景区和宠物轮廓区.由于宠物的边缘信息在本算法处理中没有作用,实验首先消除边缘信号:将所有Ground_truth 中的边缘信号合并入背景信号中,再用上述U-net 框架网络进行训练,令其学习区分前-背景的方法.分割器在10 个epochs 训练后获得.实验发现,该分割器除了能较好完成猫、犬类的图像分割外,对其他景物也仍然具有一定的前、背景区分能力.图4 左侧第一列是4 张动物原图,第二列显示了直接在Oxford-IIIT Pets集进行2 类分割训练后的分割结果,其中猫脸图显现了最佳的分割效果,其它鸟类、大象图也能标识出大部分前景区域,但会在脚部、鼻子等位置出现局部小区域的误检或漏检.这是因为,Oxford-IIIT Pets 中没有鸟类、大象等的训练图,因此分割器学不到该类动物图的一些局部细节.
图3 本文所用的U-net结构模型
为更好地将语义分割器应用于其它动物,实验在Oxford-IIIT Pets 基础上,扩充了鸟类、大象、兔子等20 种动物训练图,用图像标注工具Labelme[22]标识出各扩充图的前景和背景区制成相应Ground_truth图,目前共扩充891图.经训练后,该U-net网络大大提升了对其它动物图前、后景区分的准确率,已能较好适用于常见动物图的分割处理.图4第3列就是应用扩充后的Oxford-IIIT Pets 的本文U-net网格分割结果,相对扩充前的效果图,其在细节的分割上已能达到比匹人眼的效果.
图4 Oxford-IIIT Pets数据集无扩充/扩充分割训练的效果比较
用U-net网络获得的目标对象分割图除了用于屏蔽原图背景区之外,它还需要二次用于最终对剪纸效果图的目标分割.这是因为输入图中白色背景区域在迁移学习中也产生了剪纸纹理,但该纹理是散乱的没有规则的,不但不能烘托前景的目标对象而且形成相反的干扰作用.
本文算法的完整框架结构如图5所示,算法步骤如下
图5 剪纸风格迁移算法框架图
输入.内容图C,和剪纸风格图S.
输出.剪纸效果生成图Istyle.
Step1.对原图进行分辨率重置,使用1.3 节所述训练好的的U-net 模型进行语义分割,获得掩模图D并恢复其分辨率使与原图宽高一致.
Step2.通过D对C进行背景屏蔽,令C的背景区域置为白色,此时C为目标图像.
Step3.对C和S,使用1.2节所述的TVL风格迁移方法进行风格迁移图生成,获得生成图I.
Step4.生成图后处理:对I进行降色处理及孤岛消除,使之修正为初始效果图.
Step5.对初始效果图I再次进行目标分割,分割依据仍是采用第Step1生成的分割图D,获得最终的剪纸效果生成图Istyle.
在Step3.中,降色处理方法是:R、G、B 三通道数据中,G 和B 的平均值大于等于0.5(像素颜色分量值范围规一化为[0,1])时将三分量均置为1,即该像素置值为白色,否则G 和B 分量置为0;R 分量小于0.5 时置为0.5.孤点消除则是对降色效果图分别进行2 个像素的形态学膨胀和腐蚀处理,这样能消除因噪音生成的部分孤岛或孤立点.
图6 和图7 是本文算法的生成效果图.图6 是猫脸图结合不同风格图所输出的各种风格化剪纸效果.由图可见,同样的猫脸内容图,各种风格的剪纸生成图中均较好地反映原图重要信息,能快速识别猫脸头部、耳朵、眼睛、鼻子等位置.同时各剪纸生成图又能较好地模拟风格图的表达方式,甚至各图中猫眼的形状也显示出特定的风格化.图7是另外3个不同的剪纸生成案例,3组案例的风格图均采用了剪纸作品图,其中第一个案例(第一行)具有特定风格纹理,另外两个案例纹理表达手法相对自由,没有明显风格.由于各生成图效果可知,具有特定风格的迁移效果明显优于自由风格的.
图6 同一图像不同风格图的风格迁移剪纸生成效果
图7 不同风格图的风格迁移剪纸生成效果
本文创新性地提出了一种基于风格迁移方法的剪纸生成方法,只需要输入一张内容图和一张剪纸风格图,便能自动地生成具备指定风格的剪纸效果图.为更好地获得内容图目标对象、突出目标对象的剪纸外形,使用一种基于MobileNet v2 的U-net 网格模型作为分割器对内容图进行前景对象分割,该网络模型训练的样本集是Oxford_IIIT_Pets 的动物种类扩充数据集,能实现更多动物图的前、背景准确分割.本算法中,由图像分割器生成的掩模图将被两次调用:用于实现内容图和剪纸效果图的背景屏蔽.实验证明,该方法较好地保留风格图的风格特征及剪纸艺术特有的连通性,相对常规的明暗对比方法所生成的剪纸实体或剪纸图像,本文基于风格迁移算法所生成的剪纸更具个性化,且不需建立元素库,也不需中间过程的选择或控制参与.本文算法主要以动物图作为风格化剪纸的生成研究对象,若需对其它类型景物进行前后景分割,则需另外训练该类型图分割器.此外,虽然风格迁移方法能较好地保留风格图剪纸纹理的连通特点,但由于同时受到内容图的合成制约,并不能保证生成的剪纸效果图是一个单一连通图,部分位置可能会出现局部碎片,后继的研究可以增加连通性检测及处理,将非连通区片间以最近距离方式进行连接,形成完成一体化的连通剪纸图.