基于注意力机制的苗族服饰图案分割

2022-11-16 01:04黄成泉万林江张博源周丽华
丝绸 2022年11期
关键词:苗族服饰卷积

王 琴, 黄成泉, 万林江, 张博源, 周丽华

(贵州民族大学 a.数据科学与信息工程学院; b.工程技术人才实践训练中心,贵阳 550025)

少数民族服饰是各民族在漫长的历史进程中形成的具有特色、异彩纷呈的民族文化,是中国的宝贵文化资源,因此其样式、图案、技艺、材质都应当被详细记录和研究分析。中国少数民族种类繁多,民族服饰数不胜数,如何高效、精确地分割少数民族服饰图案,对少数民族文化的保护具有重要意义。现已有学者对少数民族服饰图像进行研究,但大部分是基于模糊C均值聚类算法[1]和主动轮廓模型[2],基于深度学习算法进行少数民族服饰图像分割的几乎没有。

在多样的民族服饰中,苗族服饰被誉为“最美的少数民族服饰”之一,其具有华丽的绣花和恢弘大气的银饰,是民族服饰里绮丽多姿、时代久远的民族服饰。目前各民族博物馆、学校图书馆等大多都只是局限于对苗族服饰图像的实物保存,而忽略了对服饰图像的数字化保护。在互联网、大数据飞速发展的背景下,本文提出融合注意力机制的深度学习算法对苗族服饰图像进行研究,不仅方便研究者们对民族服饰图像进行存储与检索,还有利于民族服饰图像的数字化保护及民族文化的传承。

图像分割是人工智能和模式识别领域的一个重要分支,分割质量决定特征提取、图像检索和图像分类的准确性。采用基于深度学习的网络模型进行图像分割,一个较大的挑战是充分训练网络,以对难以学习像素产生良好判断,正确预测对分割结果有很大影响[3]。近年来,由于注意力机制的出现,在各种神经网络中引入注意力机制已成为一种改善模型性能的有效方法,如Gunesli等[3]提出一种新的基于自适应增强的多注意学习模型(AttentionBoost),解决难以学习像素点问题;全卷积注意网络(FCANet)[4]通过嵌入两种类型的注意模块来聚合远程和短程的上下文信息,以高效准确地解决生物医学图像分割任务。然而,在服饰分割领域中,侧重于采用深度神经网络对时尚服饰图像进行分割[5]。Khurana等[6]提出了一种用于时尚图像分割的两阶段深度神经网络模型,该模型第一阶段使用全卷积网络架构来给出准确的服饰分割,第二阶段采用Gabor提取特征图的纹理作为输入,并确定服装类型。金字塔网络(EPYNET)[7]是以EfficientNet模型作为骨干网络的一个服饰分割框架,该框架集成了数据增强方法和降噪技术,以提高分割的准确性。但少数民族服饰与时尚服饰相比,具有以下特点:1)服饰图案色彩差异大;2)图案种类繁多;3)图案纹理复杂多样。从而导致采用已有的图像分割方法进行少数民族服饰分割存在特征空间信息丢失,图像分割效率与精度较低的问题。

针对上述问题,本文提出一种基于注意力机制的苗族服饰图案分割模型。首先,使用Keras库自带的数据增强技术对数据集大小进行扩充,再采用本文所构建的网络架构对苗族服饰图像进行特征提取,实现图像的精确分割。因此,从深度学习和计算机视觉的角度来分析少数民族服饰的视觉特征,在一定基础上起到发展与保护少数民族服饰文化的作用,并为少数民族服饰图像分割算法研究提供一定的参考。

1 理论基础

Long等[8]提出了一种用于语义图像分割的深度学习方法FCN。基于FCN的苗族服饰图案分割方法,其本质是一个像素级别的辨识问题。基本原理如下:首先将苗族服饰图像输入到FCN进行前向传播,输出与原图尺寸相同的概率图,再将其与真值图像进行对比,分别对每一个像素进行损失值计算,并进行反向传播,从而网络更新权重,截止网络模型学习到最优权重参数[9]。训练好的模型能够对图像上的前景与背景像素进行区分,并涂上不同的颜色,即可得到精确的苗族服饰图案分割图。

1.1 FCN模型

FCN模型核心思想是使用卷积层来代替卷积神经网络模型中的全连接层,接着使用反卷积操作在最后输出的特征图上进行上采样,并引入跳跃连接改善上采样粗糙的像素定位,从而使得全卷积网络可预测图像中每个像素点的类别。该模型是一种端到端训练的图像分割方法,可以接收任意尺寸的输入图像。其网络结构总的包括9个网络层,每层都采用了2个3×3卷积进行特征通道数加倍和Dropout层防止模型过拟合,前4层采用了2×2最大池化操作使图片像素减半,后4层采用步长为2的2×2上采样将图片像素加倍。最后,通过一次1×1卷积操作生成分割图。该网络模型只在1×1卷积操作中使用了Sigmoid激活函数,其余均使用ReLU激活函数,FCN模型结构如图1所示。

图1 FCN模型结构示意

1.2 注意力机制

在基于深度学习的图像分割方法中,为了实现对复杂图像前景与背景的精确区分,多种注意力机制被相继提出,如Hu等[10]使用通道注意力机制的方式来获取图像的全局上下文信息,以构建各类别之间的依赖关系;Woo等[11]提出一种轻量级的注意力模块(CBAM)(图2),通过从特征中学习或提取出权重分布改变原有特征的分布,来增强有效特征抑制无效特征或噪音;Gu等[12]提出一个联合空间注意模块使网络更加关注前景区域,并提出一个新的通道注意模块以自适应地重新校准通道的特征响应。在深度学习中,注意力机制能够迅速发展的主要原因有:1)在解决多任务问题中,注意力机制是最先进的模型;2)能使模型将感兴趣的特征从局部水平关联到全局水平;3)能有效提高深度学习算法的效率。

图2 CBAM注意力模块

本文为了使网络模型能够精确分割苗族服饰图像,将CBAM模块嵌入到FCN模型中,不仅能够减少模型训练参数,还能提高模型分割性能。CBAM包括2个子模块,即通道注意力模块(Channel attention module,CAM)和空间注意力模块(Spatial attention module,SAM),分别如图3、图4所示。CAM的具体步骤如下:首先对输入的特征图E做全局平均池化和全局最大池化操作,再输入到共享的神经网络(MLP)中,最后通过激活函数Sigmoid对特征进行非线性转换,以及将输入的特征图E与通道特征做乘法操作,最终生成SAM需要的输入特征图F。

图3 通道注意力模块

图4 空间注意力模块

在SAM中,对输入的特征图F进行全局平均池化和全局最大池化操作,得到两个H×W×1的特征图,再将这2个特征图做concat操作,然后经过一个7×7卷积操作和Sigmoid函数生成空间特征。最后将该特征与输入特征做乘法,得到最终生成的特征M。

2 基于注意力机制的苗族服饰图案分割模型

本文模型以FCN作为骨干结构,具体结构如图5所示。模型设计主要是在FCN的基础上融入注意力模块(CBAM),使模型能够更好地将感兴趣的特征从局部水平关联到全局水平,以提高模型的分割性能。模型前4个网络层中的每一个层都采用3×3卷积层、Batch Normalization(BN)层、CBAM层、Add层和2×2池化层。其中卷积层用于提取图像特征,并且通道数加倍,不同大小的卷积核可以获得图像的不同特征;BN层主要对训练图像进行归一化处理,防止模型过拟合;CBAM层的主要目的是使模型在学习网络权值的同时更加关注前景像素;Add层增加图像特征下的信息量;池化层对图像进行下采样操作将图像尺寸缩小2倍,保留主要特征的同时减少参数量,提高模型泛化能力。第5层与前4层相比没有最大池化层。后4层是先进行上采样操作逐步恢复图像大小,接着将前4个网络层中的Add层与相应的特征层使用concat操作进行跳跃连接,使模型提取更多丰富的特征信息,然后进行卷积和BN操作,使通道数减半,所有卷积层均采用的ReLU激活函数。最后,采用1×1的卷积层将通道数减少为1,该层采用Sigmoid函数。

由图5可知,本文所建立的网络模型总的有9个网络层,仅在前5个网络层中每个网络层的第3层融入了CBAM注意力模块,第4层使用Add进行前3层图像特征下信息量的增加,以有利于在后4个网络层进行concat操作时服饰图像特征的提取。

图5 基于注意力机制的苗族服饰图案分割模型

3 实验与结果分析

3.1 实验环境与参数设置

本文模型是在Ubuntu 14.04、Python 3.5中基于TensorFlow 2.3.1、Keras 2.4.1深度学习框架下实现的,CUDA 10.1,GPU版本是GeForce GTX 1080 Ti。所有训练阶段都是在一台Linux服务器上进行的,该服务器拥有CPU(4.20 GHz)、运行内存8 G。基于对验证图像的损失计算,采用早期停止方法从头开始训练。模型训练的Epochs设为100,批大小为1,并使用学习率为0.000 1的Adam优化器及交叉熵损失函数来训练网络。交叉熵损失函数计算如下式所示:

(1)

3.2 实验数据

本文是在苗族服饰图案数据集上验证模型分割性能,实验数据来源于北京服装学院民族服饰博物馆(http://www.biftmuseum.com)及书籍《一针一线:贵州苗族服饰手工艺》[13]和《苗族服饰研究》[14]。该博物馆是中国第一家服饰类专业博物馆,其设有服饰、首饰、蜡染厅等七个展厅,收藏有中国各民族的服装、刺绣、饰品等一万余件。实验数据集的数据分布如下:北京服装学院民族服饰博物馆474张、《一针一线:贵州苗族服饰手工艺》48张、《苗族服饰研究》37张。数据标签来源于文献[2],数据集包含蜡染、刺绣等总的559张图像,其中训练图像402张,验证图像45张,测试图像112张。为了使网络进行更好地训练,提高模型分割性能,本文将图像尺寸大小统一处理为(512,512,3)。

3.3 数据增强

在深度学习中,当只有少量样本数据可用时,数据增强对模型的泛化能力和鲁棒性至关重要。采用Keras库中自带的ImageDataGenerator对数据进行旋转、剪裁、移动等处理扩充数据集大小,让模型更加关注难以分割像素部分,提高模型的泛化能力,同时避免出现过拟合现象,其参数设置如表1所示。数据扩充后的图像如图6所示。

表1 参数设置

图6 数据增强示意

3.4 评价指标

使用单一的评价指标并不能准确地验证模型的性能,因此,为了多角度定量分析本文模型的分割性能,将采用准确度(Acc)、交并比(IoU)、Dice系数、敏感度(Sensitivity)及精确度(Precision)5个指标对模型进行准确评价。

(2)

(3)

(4)

(5)

(6)

式中:TP(True positives)表示服饰图案被正确预测的像素数量,FP(False positives)表示服饰图案被错误预测的像素数量,FN(False negatives)表示背景像素被预测为服饰图案的像素数量,TN(True negatives)表示背景像素被正确预测的像素数量。

将Dice系数作为验证本文模型性能的主要评价指标,其值越接近1,表明分割后的图像与原图相似度越高,模型分割结果越准确。

3.5 结果分析

苗族服饰图案千奇百态,然而图案的复杂度对分割结果也存在一定的影响。因此,为了验证本文算法在苗族服饰图像上的分割性能,将其运用在图像类型各式各样的苗族服饰图像数据集上。本文模型分割结果可视化如图7所示,图像分割结果的可视化可以清楚显示本文模型对图像中不同特征信息的提取效果。图7中包含刺绣图像和蜡染图像,其中第1行是原图,第2行是图像标签,第3行为本文模型分割结果。

图7 苗族服饰图案分割结果

为了进一步证明本文算法在类型丰富的苗族服饰图像数据集上的鲁棒性,将其与FCN[8]、U-Net[15]、FCANet[4]、SENet[10]4个不同的网络模型进行比较,实验结果如表2所示。表2中实验数据表明,本文模型在5个评价指标上的分割结果都要优于其他模型。虽然FCANet和SENet网络模型中都加入了不同的注意力,但本文算法使用的是轻量级的通用模块CBAM,节约了参数,因此总参数量最少,损失也是最小。从表2中的数据还可看出,加入注意力机制的模型与传统FCN、U-Net模型相比分割结果要好。因此,基于注意力机制的网络模型可根据图像信息的权重去衡量各个信息特征的重要性,使网络关注有用信息而忽略无用信息,从而达到研究者们的理想结果。为了从视觉上直观体现本文算法的有效性,本文展示了不同风格的苗族服饰图像在不同模型中的分割结果,如图8所示。在图8中,第1列展示的是包含刺绣图像和蜡染图像的原图像,第2列是原图像所对应的标签,第3列是本文算法分割结果图,其余4列分别表示SENet、FCANet、U-Net、FCN这4个网络模型对6张图像的分割结果可视化图。

表2 苗族服饰图案数据集在各个模型中的分割结果

从图8中展示的图像可直观地看出,同一张苗族服饰图像在5个模型中,本文模型不论是在颜色丰富、服饰图案多样,还是在图案色彩差异大的图像上,分割效果都要优于另外4个模型。同时也可以从图8中看出,由于苗族服饰图像与医学、自然图像等主流图像相比,苗族服饰图像存在清晰度低、色彩差异大、颜色种类繁多、刺绣图像纹理过于复杂等问题,导致本模型对少许区域分割结果不太理想。即使分割结果受多种因素的影响,但本文提出的网络模型在苗族服饰图像上仍然具有较好的分割性能。

图8 不同模型分割结果视觉对比示意

绚丽多姿的苗族服饰图案是民族精神追求的高度概括,其图案样式、色彩、纹样等都是服饰图案具有的独特风格特征。图9为3张不同风格的苗族服饰图案在3个模型上的分割可视化结果。图9中第1列是原图,第2列是标签,第3、第4列是FCN、U-Net模型分别对应的分割效果图,第5列是本文模型分割结果。FCN、U-Net模型对三张图像的整体分割效果较好,但在一些局部区域上分割结果还是不太理想,如图9中红色框标记区域。而本文模型不仅能对图案纹理复杂区域(如图9中第2行原图红色框标记区域)精确分割,也能对边界像素(如图9中第1、第3行原图中红色框标记像素)进行准确分割。从而有效证明了融入注意力机制的网络模型能够捕获丰富的上下文信息,获取更为精确的特征,提高模型分割效率。

图9 三种模型分割效果示意

4 结 论

本文提出一种基于注意力机制的苗族服饰图案分割模型,采用FCN作为主干结构,该模型主要针对少数民族服饰图案数据集进行分割。该算法的主要目的是通过注意力机制来调节输入图像的特征权重以改善分割性能,以有利于模型能够更好地将感兴趣的特征从局部水平关联到全局水平。首先,采用数据增强对图像数据进行预处理,提高模型泛化能力和鲁棒性的同时避免过拟合现象。然后,使用融合注意力机制的全卷积网络模型进行特征提取,减少空间信息丢失,从而有效提高模型分割精度,降低损失率。最后,在苗族服饰图案数据集上的实验结果表明,与FCN、U-Net、FCANet、SENet这4个模型相比,本文模型在交并比、准确性、敏感性等5个指标上都有显著提高,证明该方法是有效可行的。同时,该模型的提出有利于少数民族服饰图像的数字化保护,也为少数民族服饰图像的研究者们进行快速、精准地分割苗族服饰图案提供了一定的参考。在今后的研究中,将从服饰风格特征点与图像分割处理后的图像特征点之间的映射关系等方面进行深入研究。

《丝绸》官网下载

中国知网下载

猜你喜欢
苗族服饰卷积
以歌为家——在沪苗族务工妇女的音乐生活
基于3D-Winograd的快速卷积算法设计及FPGA实现
动物“闯”入服饰界
听诸子百家讲“服饰穿搭”
卷积神经网络的分析与设计
从《长安十二时辰》看唐代服饰
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
苗族老照片
苗族芦笙制作师