摘要: 苗绣通常是以线稿描绘的基础图样,搭配丰富色彩的丝线及不同的刺绣技法而形成,出现在一系列如服饰、头饰及配件等纺织品中,但是随着纺织品的损坏和丢失等原因,部分苗绣纹样便也随之流失。目前采用传统手工描绘纹样获取线稿的方式极其不便,因此文章针对苗绣纹样的数字化提取,提出了一种基于两阶段渐进采样视觉Transformer的边缘检测算法,分为全局和局部检测。在两个阶段都引入渐进式采样来定位重要区域,使提取的边缘集中于苗绣纹样主体部分,减少服饰背景等造成的干扰。通过使用多尺度通道注意力特征融合模块,将全局和局部检测的边缘进行加权融合,以获得更清晰的边缘。实验结果表明,该算法与其他算法相比,提取的苗绣纹样获得了更纤细的线条,且丢失的纹样形状线条较少,纹样整体效果与标签图最接近,效果最佳。
关键词: 纹样提取;苗绣刺绣;非物质文化遗产;视觉Transformer;数字化;边缘检测
中图分类号: TS941.2 文献标志码: A
数字技术的发展为非遗文化的传承提供了一种可持续发展模式,解决了传统方法在非遗文化保护中存在的问题[1]。贵州苗绣作为国家级非物质文化遗产,苗绣纹样作为一种民族符号是少数民族意识形态的体现,对少数民族文化符号的提取检测是保护和传承民族文化遗产的重要环节[2]。苗绣的线稿图样是苗族织绣图案发展过程中的根基,通过以线稿为刺绣基础,搭配多种成熟精湛的制作技法和绣线材质,以取得更加赏心悦目的纹理表现和视觉效果。苗绣纹样是向外界传播苗族文化的特色文化符号[3],常作为苗族图腾出现在一系列的纺织品中,如服饰、头饰、配件中。此前针对苗绣纹样的提取方式主要利用设计软件Illustrator或Photoshop采用人工描绘的方式对苗绣纹样进行提取,提取效率极低。数字化提取[4]为苗绣纹样的可持续、可复制、可再生提供了技术手段。苗绣纹样提取的研究也取得了相应的进展,部分研究基于深度学习语义分割框架用于提取苗绣纹样轮廓[5],其后续工作主要是对提取的苗绣纹样进行分类,并未考虑到苗绣纹样线稿的提取。部分研究采用传统边缘检测算法结合人工描摹,实现服饰纹样的抽象化提取[6]。提取的效率与人工相比有了提升,但苗绣纹样中花鸟鱼虫等的独特形状线条既有酣畅淋漓又有细腻婉约,使用传统边缘检测算法对苗绣纹样形状进行提取的效果并不是特别理想。因此,本文继续对利用边缘检测算法提取苗绣纹样线稿进行研究。
边缘检测是计算机视觉领域的重要技术之一,应用广泛,如目标检测、图像分割等。传统边缘检测算法如Sobel和Canny边缘检测算法,大多基于低级局部线索(如颜色和纹理)获取边缘,在计算机视觉中得到广泛应用,但它们基于手工创建的特征使其对于纹样的提取效率和能力受到了很大的限制。卷积神经网络(Convolution Neural Network,CNN)的广泛应用使其作为计算机视觉领域的主导模型[7],边缘检测也因此取得了巨大进展,纹样的提取效率有了很大提升。Bertasius等[8]利用多层CNN提取的对象感知线索进行轮廓检测。Xie等[9]是第一个端到端的边缘检测方法。Liu等[10]尝试同时使用VGG和ResNet作为主干网络。He等[11]使用从双向级联结构推测的层特定监督来指导每一层的训练。但随着感受野的不断扩大,卷积神经网络的特征会逐渐捕捉到全局和语义意识的视觉概念,但与此同时,许多苗绣纹样的精细细节也不可避免地丢失。
Transformer抛弃了传统CNN和RNN神经网络,整个网络结构完全由Attention机制及前馈神经网络组成[12]。其应用于计算机视觉领域,并在图像分类、目标检测、图像生成、图像分割等任务中取得了很好的效果。基于Transformer的ViT(Vision Transformers)由Dosovitskiy等[12]提出,第一次在图像分类任务中成功地使用Transformer以达到较理想的效果[13]。目前,部分研究者将Transformer应用在边缘检测领域进行边缘检测。Pu等[14]利用ViT作为骨架网络将粗细两种粒度的信息进行融合,来进行边缘的检测,Edter提取的边缘宽度占多个像素,与纹样提取的理想的边缘宽度仍有差距。胡名扬等[15]利用Swin Transformer作为骨干网络,加入金字塔池化模块对高层语义进行融合来检测边缘,但提取苗绣纹样轮廓的准确性有待提高。荆东东等[16]使用Swin Transformer作为骨干网络来提取图像基本特征,提出多尺度特征增强和边缘注意力模块以获取清晰边缘,但在输出清晰准确边缘的同时也保留了纹样中大量的非主体线条。总体上,基于Transformer的边缘检测性能与基于CNN的边缘检测相比仍有较大优势。
综上所述,本文针对苗绣纹样数字化提取过程中存在的问题,提出了一种基于渐进式采样(Progressive Sampling,PS)两阶段视觉Transformer的边缘检测方法,以实现苗绣纹样形状提取。模型基于视觉Transformer分为两个阶段,在两个阶段都引入渐进式采样来定位重要区域,以缓解视觉Transformer中简单的tokens化方案带来的固有的结构信息丢失,使提取的边缘趋向于苗绣纹样主体部分。在第一阶段中,使用全局Transformer编码器在粗粒度patches上获取全局上下文。然后在第二阶段,使用局部Transformer编码器在细粒度patches挖掘局部线索。每个Transformer编码器后面都有一个双向多级聚合解码器,以实现高分辨率特征。最后,通过一个多尺度通道注意力特征融合模块将全局和局部检测的边缘进行融合,以获得较好的苗绣纹样提取效果。
1 苗绣纹样提取特征研究
苗绣图源包含两层含义:绣之前准备的图形纹样及苗绣体系的根基纹样和图案。苗族有上百个分支,服饰与服饰上的刺绣纹样图案及不同绣法,是支系划分的重要标志之一。每个分支的刺绣款式和风格是由纹样形状及不同绣法形成的肌理所决定的。设计中处理苗绣纹样素材时,既需要绣品纹理,又需要纹样形状。苗族的织绣图案在长期的发展过程中,把日常生活中常见的鱼鸟及自然抽象成为造型夸张的独特形状。各种刺绣针法和织锦方法,如刺绣技法中的编带绣、丝棉平绣、缠绣、锡片绣,以及用棉纱、丝线混合织成的苗锦花带、织带等,形成了起伏的、变化的丰富肌理。一方面苗绣纹样边缘蕴含了图像丰富的内在信息如方向、阶跃性质与形状等,传统边缘检测算法Sobel算法从水平方向和垂直方向获取图像的阶跃性,使得立体图像的明暗特点得以保留,从而提取出具有肌理特征的苗绣纹样。另一方面苗绣纹样中花鸟鱼虫等的独特形状线条的临摹既有酣畅淋漓又有细腻婉约,在使用边缘检测算法对纹样形状进行提取时是一个巨大的挑战。苗绣绣的是抽象的符号与法则,纹样是由简单的几何符号连续叠加构成,利用基本单元,以不同的排列循环组合出千变万化的图形。在未来发展中,设计师需要大胆实践、检验它的适用性,不断探索把握其造型、装饰形态、动物变体、几何骨骼,更好地把苗族刺绣纹样的张扬、洒脱飘逸等风格展现在视觉传达艺术中,并创造更加新颖的视觉作品。苗绣纹样的数字化提取即是将苗绣的图文符码还原成线条,揭示出苗绣宗教化书写的形态和功能,供设计师二次创作。苗绣纹样也分繁和简,繁是将有特定含义的符号不断进行叠加,重复组合,形成纹样,布置严密,连续排列,或者在主体图案周围或角隅衬以细小而丰富的花纹,具有很强烈的视觉冲击。简则是一只蝴蝶或一朵艳丽的花朵即可成为一个图案。目前部分边缘检测算法只能对少部分背底布料平整且简单的苗绣纹样如单只的蝴蝶、鱼儿,获得较好的提取效果,因此不具备对苗绣纹样提取的通用性。经过分析存在问题如下:
1) 问题1:如图1(a)所示,繁复的苗绣纹样,采用满铺式构图,布置严密,连续排列,存在很多细小的边缘。针对此类苗绣纹样提取,目前部分算法对于复杂纹样的提取使线条占据像素过宽,图像线条产生粘连,导致提取的纹样杂糅做一团;或是算法将丰富细小的边缘当作非主体边缘处理,导致提取的纹样形状缺失不完整。
2) 问题2:如图1(b)所示,此部分苗绣纹样虽然简单但苗绣纹样多存在于服饰、绣片中,因此苗绣纹样的提取过程中,会存在背景布料等产生的干扰线条。目前效果最佳的EDTER边缘检测算法也不能避免。本文基于以上苗绣纹样提取存在的问题,针对苗绣纹样形状提取的边缘检测算法进行研究工作。
2 本文方法
2.1 网络架构
本文基于Transformer引入渐进式采样,可以实现对苗绣纹样提取时更多关注在纹样主体轮廓区域,通过全局和局部采样,减弱背景布料对主体纹样形状提取的干扰,最终通过基于多尺度通道注意力特征融合模块,将全局和局部检测的边缘进行融合,以获得较纤细、清晰的边缘,从而实现苗绣纹样形状的提取。第一阶段,先将苗绣绣片分割为一系列密度较
大的图像序列,通过渐进式采样将位置编码不断迭代偏移,将注意力集中在苗绣纹样的主体部分;第二阶段,将苗绣绣片分割为一系列密度较小的图像序列,渐进式采样迭代N次,得到局部注意力并将局部注意力连接起来,最后利用多尺度通道注意力特征融合模块将第一阶段与第二阶段获得的苗绣纹样边缘融合得到苗绣纹样的最佳提取效果,整体结构如图2所示。
本文采用的渐进式采样是可微分的,当其与Transformer相结合时,所获得的PS ViT网络可以自适应地学习在哪里寻找目标,并不断向目标区域偏移。传统ViT将图像划分为一系列patch,这些patch被线性投影到一组标记中,如图3所示,可能会破坏对象结构,将网格分配给背景等不感兴趣的区域,而不考虑图像区域的内容重要性和对象的整体结构,并引入干扰信号。He[17]可以更多地关注图像中使人感兴趣的区域并减轻结构破坏的问题,通过模仿人类视觉系统组织视觉信息的方式,在需要的时间和地点,逐渐地、有选择地将注意力集中在视觉空间中苗绣纹样的主体部分,而忽略布料背景的部分,随着时间的推移,结合不同注视的信息来理解场景[18]。
在第一阶段和第二阶段中,PS ViT通过迭代和渐进采样策略来定位判别区域。在每次迭代中,将当前采样步骤嵌入并馈送到Transformer编码器,预测一组采样偏移以更新下一步骤的采样位置。使采样位置不断地趋向纹样主体位置,以提取更精准的纹样线条,整体架构如图4所示。
第一阶段中对全局采样时,在PS ViT的每次迭代中给定采样位置Pt和特征图F,再在F上的Pt处对初始标记T′t进行采样,这些标记生成的位置编码Pt和上一次迭代的输出标记Tt-1元素相加,然后馈送到一个Transformer编码器层中以预测当前迭代的标记Tt。偏移矩阵Ot是基于Tt通过一个全连接层来预测的,Tt与Pt相加以获得下一次迭代的采样位置Pt+1。并将上述过程重复N次。在每次迭代中,通过将采样位置与上一次迭代的偏移矢量相加来更新采样位置。
式中:LEg是Eg的损耗;Lsideg表示侧面损耗;λ是用于平衡LEg和Lsideg,在本实验中将λ设置为0.4。
在训练了第一阶段之后,再确定第一阶段的参数,然后进入第二阶段。对从局部BiMLA解码器提取的中间特征执行相同的操作(4×4去卷积层和8×8去卷积层),以生成边输出S1r、S2r、…、S8r。第二阶段的损失函数定义为:
式中:LEr是Er的损耗,Lsider表示侧面损耗,将λ同样设置为0.4。
3 实验结果分析
3.1 数据集
本文选用自制边缘检测数据集和公开数据集的BSDS500对提出的方法进行评估。在相关项目人员及专家的共同努力和指导下,本文建立了苗绣纹样边缘检测数据集,对苗族的织绣纹样图案进行提取。该数据集收集了700张苗绣纹样图案,其中500张用于训练、200张用于测试,每个图像平均由3位标注人员进行边缘标注;实验对数据集进行数据增强,通过旋转、缩放、翻转操作将数据集扩展到了33 600张。利用数据增强可以增加模型的训练样本,通常数据增强会降低模型训练的准确度,而提高模型测试的准确度。本文利用公开数据集的BSDS500对模型进行训练,将自制苗绣数据集作为测试集,并以其评估结果作为最终参考。
BSDS500是由伯克利计算机视觉和机器学习中心创建的基准数据集。包含500张自然图像、200张用于训练、100张用于验证和200张用于测试。将模型在训练和验证集上进行训练,并在测试集上进行评估。实验按照自制数据集的数据增强方式将数据集扩展到了28 800张。此外,使用PASCALVOC上下文数据集作为额外的训练数据,该数据集提供了400多个标注类别,并由10 103个图像组成用于训练。从边缘标注中提取的外部边界有利于推断阶段I中的语义和上下文线索。因此,首先在PASCALVOC上下文数据集上预训练阶段I,然后在BSDS500上对其进行微调。PASCALVOC上下文数据集仅用于训练阶段I。
3.2 设 置
实验的操作系统环境为Linux,处理器为Intel(R)Xeon(R)Gold6130 CPU@2.10 GHz,采用Pytorch完成模型的搭建,编程语言为Python 3.7,在NVIDIA-V100-32GGPU显卡上进行训练。使用ViT预先训练的权重来初始化模型的Transformer模块。将阈值η设置为0.3来选择数据集的正样本。
优化器采用SGD,momentum设置为0.9,weightdecay设置为2e-4,并在所有数据集上采用应用多项式衰减的方式进行更新学习率,初始学习率设置为1e-6。在训练过程中,将两个阶段设置相同的80 k迭代次数,每个图像被随机裁剪为320×320。为了防止过拟合,将batch-size设置为8。
3.3 评价指标
在评估过程中,记录了所有数据集的三个指标:固定轮廓阈值(ODS)、每张图像的最佳阈值(OIS)和平均精度(AP)。其中,ODS即选取一个固定的阈值应用于所有图片,使得整个数据集上的F值最大;OIS也被称为单图最佳,在每一张图片上均选取不同阈值使得该图F值最大;AP指平均准确率,由于模型输出的结果是0~1的一个值,而某个像素是否为边缘标记为0或1,由多个标记者分别进行标记,因此在不同的阈值情况下,网络输出结果的精确度(网络预测为边缘的像素数量之和/标签中至少有一个像素标记为边缘的像素数量之和)与召回度(网络预测为边缘的位置中,标签被标记为边缘的数量之和/标签中总的标记为边缘的个数)是不同的。由此可以绘制一条曲线,曲线积分的结果即为算法输出结果的AP。F值的计算如下:
式中:Precision(精确度)表示预测结果为正例的样本中真正为正例比例,TP表示被模型预测为正例的正样本;FP表示被模型预测为正类的负样本;Recall(召回率)指正例样本中被正确识别为正例的比例,FN表示被模型预测为负类的正样本;F分数则是综合考虑了精确度和召回率。
3.4 消融实验
消融实验是基于控制变量的原理,对比每个模块对于本文模型性能提升的贡献。本文通过与现有的边缘检测算法对比发现,在Transformer模型中加入渐进式采样(PS ViT)与注意力特征融合模块(AFF)可以显著提升模型边缘检测效果。为了验证以上模块的有效性,在苗绣纹样边缘检测数据集上进行了消融实验,如表1所示。
由表1可以看出,渐进式采样(PS ViT)与注意力特征融合模块(AFF)对于模型性能的提升都有作用,ODS、OIS、AP三个指标均提高了。
另由图7对比结果可以看出,没有加入这两个模块,生成的边缘图会有严重的边缘缺失,如Baseline(原始模型,没有加入PS ViT和AFF)很多细节边缘被忽略。但是当加入PS ViT模块之后,边缘线条清晰,保留了更多的有效边缘,效果得到明显提升。加入AFF模块之后,生成的边缘图则被进一步强化。
3.5 实验分析
本文算法在自建立的苗绣纹样边缘检测数据集上测试的结果如表2所示。本文分别从传统边缘检测算法和基于CNN的边缘检测算法及基于Transformer的边缘检测算法中选取6种算法与本文算法进行了提取效果的对比。由表2评估结果可见:本文算法在苗绣纹样边缘检测数据集的评估属于最佳水平,ODS得分达到了0.848,OIS得分达到0.871,AP得分达到了0.910;相较于目前排名较高的EDTER在ODS、OIS、AP三个评价指标上分别提升了0.6%、0.8%、0.9%。各种算法在苗绣数据集上的精确度和召回率曲线如图8所示。
图9展示了6种算法与本文算法在自制苗绣纹样检测数据集上的边缘检测效果对比。现有算法的边缘检测效果分析:其中HED[9]算法提取的边缘线条由于网络处理背景噪声不彻底,导致了一些信息的丢失,整个苗绣纹样杂糅作一团,在边缘的精细度方面有所欠缺。而RCF[10]算法提取的边缘在细节方面没有很好的提取效果,如RCF算法提取的第三张图中出现人物的面部细节缺失问题。这两种算法让后续针对苗绣纹样的设计工作无法提供利用价值。LPCB、BDCN[11]、DRC及EDTER[14]在对第五张图进行提取时,提取的边缘受到背景布料的影响产生了一些非必要线条,其中LPCB算法的边缘线条与背景几乎融于一体。其他三种已有算法又以EDTER算法效果最佳。但是,在关于背景对象与前景对象的甄别方面仍存在问题,其提取的边缘图仍存在部分背景线条。
本文边缘检测算法效果分析:本文算法相比于EDTER取得了更好的边缘检测效果,原因是它采用了注意力特征融合模块及渐进式采样。渐进式采样与简单的tokens化相比,它更关注前景对象,这使得生成的边缘图不存在模糊的背景,提取的主题对象更加清晰。注意力特征融合模块对于复杂纹样的边缘检测能力有很大的提升,能够提取到较清晰的主体纹样轮廓且能够很大程度上抑制背景产生的非主体线条,如纹样较复杂的第三幅图。本文提取的纹样获得了更纤细的线
条,且丢失的主体线条较少,纹样整体效果与标签图最接近。线条简单的纹样提取效果最佳,对后续针对苗绣纹样的设计工作能够提供很好的参考价值。
3.6 本文苗绣纹样提取与人工苗绣纹样提取的效果及效率对比
从苗绣纹样提取的效果及效率两方面将本文算法与人工提取进行比较。苗绣纹样存在简单和复杂两种,对于简单苗绣纹样的提取,本文算法与人工算法效果相当。对于大部分复杂苗绣纹样的提取,本文算法的提取效果虽与人工提取存在一定差异,但并不影响苗绣纹样在后续设计中的使用,提取效果及提取效率对比,如图10所示。本文算法的提取效率远远高于人工提取,为苗绣纹样数据库的建立节省了大量的人工消耗和时间成本,部分展示如图11所示。
4 提取苗绣纹样设计应用
本文分别选择了一张满铺式构图、布置严密、连续排列的复杂苗绣绣片,以及一张纹样简单但存在背景布料等干扰线条的苗绣绣片,先利用前文提出的两阶段渐进采样视觉Transformer边缘检测算法对具有典型特征的苗绣纹样进行了数字化提取,将提取的苗绣纹样作为设计元素,融合以苗绣典型绣法堆绣呈现的视觉效果。并采用不同的苗绣经典色系搭配,对苗绣纹样进行了二次创作,以验证本文算法对苗绣纹样进行数字化提取的有效性和可用性,如图12所示。
5 结 语
为解决传统手工描绘苗绣纹样线稿带来的不便,本文提出了基于视觉Transformer的苗绣样数字化取取算法,基于两阶段视觉Transformer引入渐进式采样,通过全局和局部采样,将注意力有选择地聚集在苗绣纹样重要的部分,最终通过基于多尺度通道注意力特征融合模块将全局和局部检测的边缘进行融合以获得较好的边缘检测效果,解决了目前部分算法对于复杂纹样的提取使线条占据像素过宽及将丰富细小的边缘当作非主体边缘处理的问题。本文算法针对繁复型苗绣纹样提取到的纹样线稿线条更清晰、纤细,对于简单的苗绣纹样提取可以很大程度上弱化布料背景等产生的干扰线条,达到苗绣纹样线稿提取的最佳效果。
苗绣图源的数字化提取及设计再应用,可以抢救和保护诸多濒临消失的苗绣纹样,也可以得到社会的广泛关注和重视。数字化提取的苗绣纹样还原了苗绣纹样的初始形态,设计师可以在此基础上大胆实践,创作出更新颖有趣的作品。但此算法模型针对于苗绣纹样的数据集训练需要前期大量的人工绘制标签,工作任务繁重。未来可以考虑将算法模型轻量化处理,使苗绣纹样提取工作更高效、更便捷,也可以轻松应用于任意类型的纺织品纹样提取。
参考文献:
[1]王维杰, 刘毅, 肖露, 等. 基于改进生成式对抗网络与矢量绘制技术的古蜀锦纹样数字化研究[J]. 丝绸, 2023, 60(11): 18-27.
WANG W J, LIU Y, XIAO L, et al. Research on digitalization of ancient Shu brocade patterns based on improved generative adversal network and vector rendering technology[J]. Journal of Silk, 2023, 60(11): 18-27.
[2]FENG Y, YE F, ZHOU S, et al. Detection of ethnic minority’s symbols based on deep learning[J]. Journal of Physics: Conference Series, 2020, 1646(1): 012033.
[3]MAGLIVERAS S S. Hmong textiles, symmetries, perception and culture[J]. Symmetry, 2020, 12(11): 1829.
[4]赵维一, 尚玉平, 康晓静, 等. 基于聚类算法的纺织品文物色彩提取与纹样数字化探索: 以新疆巴里坤M12出土清代纺织品纹样为例[J]. 丝绸, 2023, 60(5): 8-18.
ZHAO W Y, SHANG Y P, KANG X J, et al. Exploring colour extraction and pattern digitization of textile artifacts basedon clustering algorithms: A case study of the patterns of the Qing Dynasty textiles unearthed from Balikun M12, Xinjiang[J]. Journal of Silk, 2023, 60(5): 8-18.
[5]陈世婕, 王卫星, 彭莉. 基于多尺度网络的苗绣绣片纹样分割算法研究[J]. 计算机技术与发展, 2023, 33(11): 149-155.
CHEN S J, WANG W X, PENG L. Research on Miao embroidery pattern segmentation algorithm based on Multi-scale network[J]. Computer Technology and Development, 2023, 33(11): 149-155.
[6]张帆, 苏艺, 崔强, 等. 传统服饰纹样生成设计研究[J]. 包装工程, 2023, 44(4): 1-8.
ZHANG F, SU Y, CUI Q, et al. Generation design of traditional costume pattern[J]. Packaging Engineering, 2023, 44(4): 1-8.
[7]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2016.
[8]BERTASIUS G, SHI J B, TORRESANI L. Deepedge: A multi-scale bifurcated deep network for top down contour detection[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston: IEEE, 2015.
[9]XIE S N, TU Z. Holistically-nested edge detection[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston: IEEE, 2015.
[10]LIU Y, CHENG M M, HU X W, et al. Richer convolutional features for edge detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Hawaii: IEEE, 2017.
[11]HE J Z, ZHANG S L, YANG M, et al. Bi-directional cascade network for perceptual edge detection[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach: IEEE, 2019.
[12]DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[C]//9th International Conference on Learning Representations (ICLR). Vienna, Austria: OpenReview. net, 2021.
[13]LIU Z, LIN Y T, CAO Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//2021 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Nashville: IEEE, 2021.
[14]PU M Y, HUANG Y P, LIU Y M, et al. EDTER: Edge detection with transformer[C]//2022 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans: IEEE, 2022.
[15]胡名扬, 郭燕, 金杨爽. PSwin: 基于Swin Transformer的边缘检测算法[J]. 计算机科学, 2023, 50(6): 194-199.
HU M Y, GUO Y, JIN Y S. PSwin: Edge detectionm algorithm based on Swin Transformer[J]. Computer Science, 2023, 50(6): 194-199.
[16]荆东东, 李备备, 王诗宇, 等. BMEDT: 基于Transformer的双向多级边缘检测网络[J/OL]. 小型微型计算机系统, 2024: 1-9. http://kns.cnki.net/kcms/detail/21.1106.TP.20230915.1504.048.html.
JING D D, LI B B, WANG S Y, et al. Bidirectional multi-level edge detection network based on Transformer[J/OL]. Journal of Chinese Computer Systems, 2024: 1-9. http://kns.cnki.net/kcms/detail/21.1106.TP.20230915.1504.048.html.
[17]HE Z X. The application of vision transformer in image classification[C]//Proceedings of the 6th International Conference on Virtual and Augmented Reality Simulations (ICVARS’ 22). New York: Association for Computing Machinery, 2022.
[18]YUE X, SUN S, KUANG Z, et al. Vision transformer with progressive sampling[J]. Computer Vision and Patten Recognition, 2021(8): 387-396.
[19]CAO Y J, LIN C, LI Y J. Learning crisp boundaries using deep refinement network and adaptive weighting loss[J]. IEEE Transactions on Multimedia, 2021, 23(1): 761-771.
Digital empowerment: Digitized extraction of patterns of the intangible culturalheritage Miao embroidery based on visual Transformer
ZHANG Chi, WANG Xiangrong
DAI Yongqia, PENG Lia, XIE Naipengb
(a.School of Mechanical Engineering; b.School of Computer Science and Technology, Guizhou University, Guiyang 550025, China)
Abstract: Traditional Miao embroidery involves depicting the lines of a basic pattern on paper, cutting the pattern paper tightly onto a cloth backing, and then completing the Miao embroidery using colored threads and a variety of embroidery stitches. Many precious patterns will fade away as the old Miao embroidery breaks down. The digitized extraction of Miao embroidery patterns is not only to reduce the graphic symbols of Miao embroidery into lines, and to reveal the form and function of Miao embroidery’s religionized writing, but also to use the extracted Miao embroidery patterns as digital resources for designers’ secondary creation. Miao embroidery patterns depend on all kinds of Miao costumes, and manual extraction is greatly restricted. Thanks to the development of computer digital technology, the digitized extraction method can realize the rapid extraction of Miao embroidery patterns. The digitized collection and design reapplication of Miao embroidery patterns can rescue and protect many Miao embroidery patterns that are on the verge of disappearing.
In this paper, for the problems in the process of digitized extraction of Miao embroidery patterns, an edge detection method based on progressive sampling (PS) two-stage visual Transformer is proposed to realize the shape extraction of Miao embroidery patterns. The model is based on visual Transformer and is divided into two stages. PS is introduced in both stages to localize important regions to mitigate the loss of structural information inherent in the simple tokensization scheme in visual Transformer. The extracted edges are made to converge to the main part of the Miao embroidery pattern. In the first stage, a global Transformer encoder is used to obtain the global context on coarse-grained patches. Then in the second stage, local Transformer encoders are used to mine local cues at fine-grained patches. Each Transformer encoder is followed by a bi-directional multi-level aggregation decoder for high resolution features. Finally, the globally and locally detected edges are fused by a multi-scale channel attention feature fusion module to obtain better Miao embroidery pattern extraction.
In this paper, PS is introduced in both stages to localize the important regions, so that the extracted edges are focused on the main part of the Miao embroidery pattern, and the interference caused by the background of the dress, etc. is reduced. Clearer edges are obtained by weighted fusion of globally and locally detected edges by using the multi-scale channel attention feature fusion module. The experimental results show that the algorithm obtains slimmer lines in the extracted Miao embroidery patterns compared with other algorithms and loses fewer lines of the pattern shape, and the overall effect of the patterns is closest to the labeled image with the best results. The evaluation of this paper’s algorithm on the edge detection dataset of Miao embroidery patterns is among the best levels, with an ODS score of 0.848, an OIS score of 0.871, and an AP score of 0.910, an improvement of 0.6%, 0.8%, and 0.9% compared to the currently higher-ranked EDTER in the three evaluation indexes of ODS, OIS, and AP, respectively.
The digitized extraction and design reapplication of Miao embroidery patterns can rescue and protect many dying Miao embroidery patterns, and can also be widely noticed and valued by the society. The digitally extracted Miao embroidery patterns restore the initial form of Miao embroidery patterns, on which designers can boldly practice and create more novel and interesting works. However, the training of this algorithm model for the dataset of Miao embroidery patterns requires a large number of manually drawn labels in the early stage, which is a heavy workload. In the future, the lightweight processing of the algorithm model can be considered to make the extraction of Miao embroidery patterns more efficient and convenient, and it can also be easily applied to any type of textile pattern extraction.
Key words: pattern extraction; Miao embroidery; intangible cultural heritage; visual Transformer; digitization; edge detection
收稿日期: 2024-01-13; 修回日期: 2024-05-30
基金项目: 贵州省科技项目(黔科合支撑〔2021〕一般396)
作者简介: 代永琪(1997),女,硕士研究生,研究方向为产品创新设计。通信作者:彭莉,副教授,41091119@qq.com。