摘要:近年来,分类技术已经在很多领域取得了成功,其中包括人脸识别、商品识别以及少数民族服饰识别等。然而,在服饰分类应用领域中,识别穿着少数民族服装的人仍然是一个具有挑战性的问题。这主要是由于少数民族服装的特征较为复杂,具有较多的个体差异性,而且在不同场景环境下表现也各不相同,因此难以提取稳定且鲁棒的特征。该综述了基于卷积神经网络的少数民族服装识别分类方法的研究现状,深入分析了少数民族服装识别中存在的挑战,并探讨了基于深度卷积神经网络的民族服装识别分类的未来发展方向。
关键词:少数民族服饰;图像识别;卷积神经网络
中图分类号:TP18文献标识码:A
文章编号:1009-3044(2024)35-0029-02开放科学(资源服务)标识码(OSID):
0引言
随着电子商务和网络的快速发展,对服装识别精度的要求日益提高,少数民族服装的多样性和复杂性给其自动识别带来了巨大挑战。穿着不同服饰的各族群日益增多,以传统民族服装为代表的少数民族服装日益受到广泛关注和发展。少数民族服装的多样性和复杂性,使得其识别难度较大。然而,通过利用卷积神经网络的特征提取和分类能力,可以实现对少数民族服装的准确识别。
目前,已有诸多基于卷积神经网络的少数民族服装识别方法被提出。其中,主要分为两类:传统的卷积神经网络模型和基于迁移学习的方法。在传统的卷积神经网络模型方面,LeNet-5、AlexNet、VGG、GoogLeNet和ResNet等经典卷积神经网络模型被广泛应用于少数民族服装识别任务。这些模型通过对图像进行卷积、池化、非线性激活等操作,实现对少数民族服装图像的特征提取和分类。在基于迁移学习的方法方面,主要采用预训练的卷积神经网络模型作为特征提取器,然后在少数民族服装数据集上进行微调,以提高模型的准确性。目前,使用预训练的VGG、ResNet和Inception等模型作为特征提取器的方法已经取得了显著效果。本文综述了基于卷积神经网络的少数民族服装识别方法,重点分析了现有方法的优缺点,并探讨了未来的研究方向,以期为该领域的研究提供参考。
1少数民族服装识别研究背景
1.1少数民族服装识别的任务
随着社会经济的快速发展,少数民族传统服饰文化正处于濒临消失的边缘,如何保护少数民族传统服饰的遗产和文化已成为当代社会的热点话题,并成为重点研究内容[1]。然而,这些研究大多仍停留在视觉计算机视觉技术层面,可用于保护民族服饰遗产和文化[2]。由于大部分研究者从社会科学的视角开展民族服饰文化的传承与保护工作,缺乏信息技术应用。每个民族都具有其独特的服饰文化,信息工作量巨大。
目前,计算机视觉技术应用于民族服饰文化的传承与保护仍处于初级阶段。虽然有学者对民族服饰形象进行了研究,但对这些服饰形象[3]中主要图腾的自动优化[4-5]、提取、分类[6-7]和识别等方面的研究较少,影响了从大量民族服饰形象[8]中快速有效地检索和识别。
1.2少数民族服装识别的任务问题及建议
近年来,少数民族服装的识别方法大部分仅能提取服装的色彩、图案、形状等特征。
网络模型需要固定大小的输入图像。当数据集的图像呈现任意大小和比例时,将输入图像裁剪或缩放至固定大小会丢失部分原始图像信息,从而影响识别的准确性。针对这些问题,提出以下建议:
1)为解决少数民族服饰数据集数量不足,导致服装识别准确率不高且鲁棒性差等问题,可以使用爬虫工具爬取少数民族服装图像,并对爬取下来的图像数据进行清洗过滤的预处理操作,以收集多个服装数据集。
1)为解决少数民族服饰数据集数量不足,导致服装识别准确率不高且鲁棒性差等问题,可以使用爬虫工具爬取少数民族服装图像,并对爬取下来的图像数据进行清洗过滤的预处理操作,以收集多个服装数据集。度数据集的问题,并充分提取服装局部特征。
3)将卷积神经网络与注意力机制相结合,以更好地提取复杂图像的特征。注意力机制能够有效地增强图像特征提取,更有针对性地表达出少数民族服装图像的特征。
4)通过结合可视化处理技术改进服装局部特征和对服装整体使用注意力机制,更有效地提取图像的复杂特征。
2卷积神经网络
卷积神经网络是目标检测算法的基础。CNN具有较强的图像特征获取能力,已经成为基于深度学习[9]的目标检测算法的基本骨干网络。目前,主流的CNN网络结构包括Alex-Net、VGG-Net、Inception、ResNet等。
2.1AlexNet
Alex-Net[10]在ILSRVC-2012数据集的分类任务中获得第一名,此后深度学习领域备受关注。ZF-Net、Google-Net、ResNet、VGG-Net等网络模型使卷积神经网络在图像分类方面取得重大突破。Krizhevsky等人提出的AlexNet模型结构共有8层,其中前5层结构分别采用一个卷积层后连接一个最大池化层的方式相连,后3层为全连接层,模型总共包含6000多万个参数。由于少数民族服装样式的多样性、图腾的多元化以及拍摄场景的多变性,使得其识别分类成为一个极具挑战性的研究课题。
2.2VGGNet
牛津大学的学者于2014年提出了VGGNet[11]。VGGNet采用相同大小的卷积核和最大池化核,将卷积层和最大池化层相结合,形成11~19层深度的卷积神经网络。VGGNet的核心思想是通过使用较小的卷积核和增加网络深度来提升模型性能。VGG19在2014年大规模视觉识别挑战赛(ILSVRC)的定位和分类两个项目中分别获得第一名和第二名的成绩。与以往的模型相比,VGGNet显著降低了错误率,同时具有较强的可扩展性和较好的泛化性。VGG-19网络模型共19层,包括16个卷积层和3个全连接层。每个卷积层使用大小为3×3的相同卷积核,并连接五个池化层(使用最大池化方法)来执行五阶段卷积特征提取。整个网络结构呈现高度对称性。该网络使用ReLU激活函数代替S型或tanh函数以缩短训练时间,并引入dropout机制来防止过拟合。Chun-yanDONG等人[12]在优化后的VGG-Net中加入空间金字塔池化,消除了固定大小输入图像的限制,平均准确率达到87.28%。研究表明,与Google-Net和经过优化的VGG-Net相比,组合网络对服装图像的风格识别具有更高的交叉验证准确率。服装图像风格识别网络能够灵活地解决不同尺寸和尺度数据集的问题,提高了服装图像风格识别的准确性。此外,该网络也适用于其他数据集的分类或识别任务。因此,VGG-Net更适合服装图像风格识别任务。
2.3ResNet
随着卷积神经网络层数的增加,梯度在多层反向传播中越来越小,最终消失,且随着网络深度的增加,误差不断增大。为解决这一问题,何开明团队于2015年提出ResNet[13],引入网络层之间的跳变网络结构,通过增加网络深度来防止梯度消失。该方法通过在标准前馈神经网络上增加跳变来绕过部分层,实现快速连接,解决了梯度消失问题。在一个残差网络模块中,一般的快速连接会跳过2~3层,甚至更多。在ImageNet数据集中,采用152层来评估网络。虽然深度是VGG网络结构的8倍,但复杂度仍然较低。当前大多数模型研究仍停留在对服装色彩、图案和形状等浅层特征的提取,缺乏对更复杂纹理进行深层次的语义信息提取,且现有数据集规模较小,限制了模型的泛化能力。常用的CNN如表1所示。
3讨论
随着海量服装的出现,在复杂规则下,手工标注服装款式需要耗费大量时间和精力。此外,手工标注服装款式往往具有主观性。少数民族服装图像的风格识别可通过图像识别或图像分类技术来实现。通过对图像进行裁剪、翻转等图像增强技术可解决数据集不足的问题。通过将模型与迁移学习方法和注意力机制等技术相结合可提升模型的识别精度。在未来的研究中,将考虑采用民族服装图像纹理识别算法来改进现有的卷积神经网络。
参考文献:
[1]HANNAMG,AHMEDI,NINEJ,etal.Augmentedrealitytech⁃nologyusingmicrosoftHoloLensinanatomicpathology[J].Ar⁃chivesofPathologyamp;LaboratoryMedicine,2018,142(5):638-644.
[2]TOMDIECKMC,JUNGT.Atheoreticalmodelofmobileaug⁃mentedrealityacceptanceinurbanheritagetourism[J].CurrentIssuesinTourism,2018,21(2):154-174.
[3]MUHAMMADA,WANGGJ.Segmentationofcalcificationandbrainhemorrhagewithmidlinedetection[C]//2017IEEEInter⁃nationalSymposiumonParallelandDistributedProcessingwithApplicationsand2017IEEEInternationalConferenceonUbiquitousComputingandCommunications(ISPA/IUCC).IEEE,2017:1082-1090.
[4]GAOJC,WANGHY,SHENHY.Taskfailurepredictioninclouddatacentersusingdeeplearning[C]//2019IEEEInterna⁃tionalConferenceonBigData(BigData).IEEE,2019:1111-1116.
[5]RAUFHT,HADIM,REHMANA.Batalgorithmwithweibullwalkforsolvingglobaloptimisationandclassificationproblems[J].InternationalJournalofBio-InspiredComputation,2020,15(3):159-170.
[6]RAUFHT,MALIKS,SHOAIBU,etal.AdaptiveinertiaweightBatalgorithmwithSugeno-functionfuzzysearch[J].AppliedSoftComputing,2020,90:106159.
[7]GAOJ,WANGH,SHENH.Machinelearningbasedworkloadpredictionincloudcomputing[C]//Proceedingsofthe29thIn⁃ternationalConferenceonComputerCommunicationsandNet⁃works(ICCCN).Honolulu:IEEE,2020:1-9.
[8]KAVANAGHS,LUXTON-REILLYA,WUENSCHEB,etal.Asystematicreviewofvirtualrealityineducation[J].ThemesinScienceandTechnologyEducation,2017,10(2):85-119.
[9]李明熹,林正奎,曲毅.计算机视觉下的车辆目标检测算法综述[J].计算机工程与应用,2019,55(24):20-28.
[10]KRIZHEVSKYA,SUTSKEVERI,HINTONGE.Imagenetclassificationwithdeepconvolutionalneuralnetworks[C]//Ad⁃vancesinNeuralInformationProcessingSystems.LakeTahoe:MITPress,2012:1097-1105.
[11]SIMONYANK,ZISSERMANA.Verydeepconvolutionalnet⁃worksforlarge-scaleimagerecognition[R/OL].arXiv:1409.1556,2014.
[12]DONGCY,YOUQ,etal.ConvolutionalNeuralNetworksforClothingImageStyleRecognition[C]//ProceedingsofInterna⁃tionalConferenceonPatternRecognitionandArtificialIntelli⁃gence.Montreal:IEEE,2018.
[13]HEK,ZHANGX,RENS,etal.Deepresiduallearningforim⁃agerecognition[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.LasVegas:IEEE,2016:770-778.
[14]HUANGG,LIUZ,VANDERMAATENL,etal.Denselycon⁃nectedconvolutionalnetworks[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.Ho⁃nolulu:IEEE,2017:4700-4708.
[15]HOWARDAG,ZHUM,CHENB,etal.MobileNets:Efficientconvolutionalneuralnetworksformobilevisionapplications[R/OL].arXiv:1704.04861,2017.
【通联编辑:谢媛媛】
基金项目:广西高校中青年教师科研基础能力提升项目(项目编号:2022KY0650);2022年引进人才科研启动项目(项目编号:302061166);广西高校中青年教师科研基础能力提升项目(项目编号:2022KY1104)