姚 超, 刘桂华, 赵 森, 林 杰
(1.西南科技大学 信息工程学院,四川 绵阳 621010; 2.特殊环境机器人技术四川省重点试验室,四川 绵阳 621010;3.电子科技大学 公共管理学院,四川 成都 611731)
中国剪纸的设计、画样、开版在过去发展的几百年以来一直都是行业创新发展的瓶颈,为解决剪纸设计耗时长、成本高和效率低等关键性问题。国内外目前已有一些学者对自动化剪纸设计开展了一些研究,但大多数研究都采用传统分割算法[1~3]来解决剪纸设计问题,而在深度学习[4]领域,图像检测[5]和语义分割[6]大多采用深度卷积神经网络[7]。2015年Long J等人[8]提出的全卷积神经网络实现了能突显细节的图像分割,然而多层的卷积和池化会导致丢失上下文信息;Chen L C等人[9]提出来的DeepLab网络,加入空洞卷积使得分割精度大幅提升,然而剪纸设计任务训练格外耗时。2018年王能玉等人[10]设计了基于深度学习和图像处理的图像剪纸平台,具有重要的探索意义。但是并未对深度学习算法以及剪纸设计作品效果进行深入研究。
通过对上述问题的综合考虑,本文改进Unet[11]神经网络结构,在编码阶段的激活层用LeakyReLU激活函数,解决网络在人物特征较弱区域无法提取弱特征的问题。编码阶段末端将传统的卷积组合替换为空洞卷积,并对人物特征进行多尺度提取与融合,以此获得更强表现力的特征描述。
在剪纸设计任务中,人物原图包含的特征信息和像素之间的关系都对最后的剪纸设计效果具有显著影响,同时人物剪纸分割任务与Unet的医学细胞分割任务都是二分类。因此PC-Unet算法在Unet的基础上进行改进,整体框架如图1所示。PC-Unet的网络架构保持了原有的U形状架构,即“编码器—解码器”结构,其中主要用到了卷积、反卷积、空洞卷积、池化层、激活函数等模块。为了提升模型训练效率,网络的输入为灰度化的人物图像,输出的分割图像也为灰度图,再改变像素颜色最终生成剪纸风格图像。该网络在自制的人物剪纸数据集上达到了95.4 %的准确率(accuracy)。
图1 网络结构
在PC-Unet网络中的编码结构中,前八层采用的是类似于VGG[12]的卷积层,使用多个连续的3×3的卷积层来加深网络,并在激活层使用LeakyReLU函数,在下采样过程中使用了步长为2,核大小 2×2的最大池化;接下来进行三层不同系数的空洞卷积与Add方法[13]的特征融合,以获取图像中更丰富的组合特征信息和更大的感受野。在解码过程中,本文采用反卷积进行4次上采样,同时每一层反卷积的输入都合并了对应位置的下采样的输出,这样可以使编码阶段提取的底层特征与解码阶段提取的高层特征相融合,以此形成更丰富的特征描述。
本文采用、ReLU激活函数改良、的LeakyReLU函数、
(1)
式中α为偏移量。
本文在PC-Unet的编码阶段采用了LeakyReLU函数作为激活函数,使得模型较弱特征的提取能力达到最佳,也解决了神经元在负区间存在梯度不更新的问题,解码阶段采用了ReLU函数作为激活函数;而在分类中使用Sigmoid 函数作为激活函数。
二维空间的空洞卷积(dilated convolution)的定义如下
(F*lk)(P)=∑s+lt=PF(s)k(t)
(2)
式中F为输入的图像(二维信号),s为其定义域;l,P分别为空洞卷积的系数与定义域;k为核函数,t为其定义域。图2为感受野与空洞卷积之间的关系。
在图2中,卷积核大小都为3×3,图(c)感受野相比于图(a),(b)增加了数倍。在空洞卷积操作中,当卷积核变大时,其感受野大小呈指数级增加。这种特点很适合在图像分割任务中使用,同时因为本文的剪纸设计包含人物脸部等相对较复杂的特征,所以,将空洞卷积加入到本文的图像分割模型中以获取更大的感受野,使得模型训练中精确的提取人物特征。
图2 空洞卷积
在PC-Unet网络中,在编码阶段末端,本文对下采样获取的特征分别进行系数为1,2,4的空洞卷积,更大程度提取尺度不同的特征,再通过Add方式来融合这些尺度不同的特征,得到更强表现力的人物特征。在参数不增加的情况下,实验表明加入空洞卷积后图像的分割效果会更佳。
本次实验在64位Windows10+python3.5+TenSorflow1.10.0的软件环境下实现,所用到的设备硬件信息:CPU型号i5-9300H,显卡芯片GTX1660Ti,6G,cuda-v9.0。本文所研究方法属于图像二分类任务,因此损失函数采用二进制交叉熵损失(binary cross entropy loss)函数。LeakyReLU激活函数偏移量α为0.02,此时模型的弱特征提取能力最好的。
本文选择河北剪纸风格为基础制作数据集,通过收集剪纸艺人的已有剪纸设计作品以及为满足实验需求而特意委托剪纸艺人借助Photoshop等软件进行人工设计,以满足人物剪纸数据集的需要。所收集的数据集分为人物原图(images)与剪纸设计图(label),数量共9 422对,其中,人物的姿势、表情种类丰富,人物年龄跨度大。部分人物剪纸数据集如图3所示。
图3 人物剪纸数据集部分示例
数据集分为训练集(80 %)和测试集(20 %),训练时将原图大小缩放至256×256,同时进行灰度化处化处理。训练或测试时,对加载的数据都通过除以255来归一化,以利于网络的优化。由于数据集数量较小,因此通过翻转和随机裁剪的数据增强方式来扩充训练样本数量。
本文采用交并比(IoU)和平均像素精度(PA)值作为算法的主要定量评价指标,网络训练时长作为辅助评价指标。有
(3)
式中 本文的分类目标只有两类,记为正、负例,TP为被正确地划分为正例的个数,FP,FN分别为被错误地划分为正和负例的个数;k为目标的类别数(包含空类),pii,pij分别为真实像素类别为的像素被预测为类别i和j的的总数量。在定量对比实验中,为确保公平性,所有实验的训练周期都为100次,用本文自制剪纸数据集进行训练与测试。本文算法与其他算法对比如表1所示。可以看出,在训练时长相近的FCN,Unet和PC-Unet中,本文提出的PC-Unet的IoU和PA值明显高于其他两类网络。由于PC-Unet加入了空洞卷积模块,因此,将DeepLab v3网络也进行相同训练策略的对比实验。在IoU和PA指标上,DeepLab v3与PC-Unet表现都很优良,但是前者的训练时长明显不具备优势。传统手工剪纸设计平均耗时2 h,而本文算法在设计一幅剪纸作品所耗时间均在10 min内,极大提高了剪纸设计效率。
表1 与其他网络的比较
表2中列出了在剪纸数据集上的消融实验的实验数据,PC-Unet(l)表示只改用LeakyReLU激活函数,PC-Unet(d)表示只加入空洞卷积。可以看出,本文所提出的两个改进模块都加入网络结构中后,IoU值增加3 %~5 %,PA值增加1 %~2 %。改用LeakyReLU激活函数和加入空洞卷积模块,可以使得网络提取较弱特征的能力加强,同时能够提取更加丰富的人物特征。实验表明,两个模块都对剪纸设计任务的分割精度有明显提升。
表2 消融实验
如图4所示,将PC-Unet和其他优秀的图像分割方法在主观视觉上进行对比。
图4 可视化实验对比
在图4中,同一幅图在不同算法中生成的人物剪纸设计图,从左之至右依次为(a)人物原图;(b)图像阈值分割法;(c)FCN;(d)Unet;(e)DeepLab;(f)DeepLab v3;(g)PC-Unet;(h)手工剪纸设计图。可以看出,传统算法生成的人物剪纸设计图效果较差,噪声大,边缘模糊,人脸处理能力低;而U-Net网络生成的人物剪纸设计图有明显改善,能较为清楚的分割出人物轮廓,但存在细节模糊和噪声大的问题;本文所提出的PC-Unet网络生成的人物剪纸设计图效果较为理想,人物轮廓清晰,五官都能准确分割,且整体噪声极小。
在西南科技大学随机邀请100名测试者,对4种不同算法分别生成的30张人物剪纸设计图(此30张图皆对应有由专业剪纸设计公司艺人设计的手工设计图)进行分组排序,要求测试者随机抽取一组实验图片,在观看手工设计图后对实验图打分,1分表示测试图与手工设计图风格差距最大,5分则表示测试图与手工设计图风格最接近,测评数据如图5。可以看到,在FCN与Unet网络中,给出1~3分的人数高达99和82,给出5分的人数却为0和5;而在DeepLab v3和本文提出的PC-Unet网络中,给出5分的人数为44和46。通过整体数据来看,4种网络中,得分情况最好的为PC-Unet,数据表明PC-Unet的剪纸设计图与手工设计图风格最为接近。
图5 网络得分数据
本文提出了一种基于图像分割算法与空洞卷积相结合的算法。通过制作人物剪纸设计图数据集,对Unet模型进行激活函数改进,在此基础上,结合空洞卷积和特征融合模块得到新的神经网络结构,最终训练模型学习特征,生成较为接近真实剪纸风格的人物剪纸设计图。但是也存在一些缺点,例如当图像背景过于密集复杂时,生成的人物轮廓就会产生边缘模糊粗糙的情况,后续可考虑扩充数据集以训练更好的网络模型。