摘 "要: 针对传统目标检测算法在处理具有复杂纹理木刻雕版图像时存在漏检、参数量大、检测和推理速度慢等问题,通过改进YOLOv5s模型,提出一种轻量化目标检测算法。首先,采用FasterNet作为特征提取模块,解决原始YOLOv5s参数量大、运行时间长以及算法要求高等问题;其次,在特征提取网络后添加坐标注意力机制以提高模型对木刻雕版元素特征的提取能力;最后,引入轻量化上采样CARAFE,减少上采样过程中特征信息的损失并提升模型的检测精度。为了验证方法的有效性,文中在自己收集的数据上进行测试,与初始YOLOv5s模型相比,改进后的模型平均精度提升了2.2%,检测速度提升了46.53%。实验结果表明,改进后的模型可以快速定位和识别木刻雕版元素,实现对初始模型的轻量化,可以有效部署于嵌入式设备和移动设备。
关键词: YOLOv5s; 木刻雕版; FasterNet; 注意力机制; CARAFE; 轻量化目标检测
中图分类号: TN911.73⁃34; TP391 " " " " " " " " " 文献标识码: A " " " " " " " " "文章编号: 1004⁃373X(2024)21⁃0067⁃08
Research on woodcut engraving element detection method based on improved YOLOv5s
YANG Xin1, 2, CAIRANG Xianmu1, GAO Dingguo1, 2, XIA Jianjun1, 2, PUBU Danzeng1, ZHAO Qijun1, 2, 3
(1. School of Information Science and Technology, Tibet University, Lhasa 850000, China;
2. Tibetan Information Technology Innovative Talent Training Demonstration Base, Lhasa 850000, China;
3. School of Computer Science, Sichuan University, Chengdu 610065, China)
Abstract: The traditional object detection algorithms have the disadvantages of missing detection, a large quantity of parameters and slow detection and reasoning speed when processing images of woodcut engraving plates with complex textures. Therefore, a lightweight object detection algorithm is proposed by improving the YOLOv5s model. The FasterNet is taken as the feature extraction module to reduce the quantity of parameters, shorten the operation time and lower the algorithm requirements of the original YOLOv5s. The coordinate attention (CA) mechanism is added after the feature extraction network to improve the model′s ability to extract the features of woodcut engraving elements. The CARAFE (content⁃aware reassembly of features) is introduced to reduce the loss of feature information in the process of up⁃sampling and improve the detection accuracy of the model. The proposed method is tested with the data collected by the author himself to verify the effectiveness. In comparison with the initial YOLOv5s model, the average accuracy of the improved model is improved by 2.2% and its detection speed is increased by 46.53%. The experimental results show that the improved model can locate and identify the elements of woodcut engravings rapidly. The improved model is the lightweight of the initial model, and can be deployed in embedded and mobile devices effectively.
Keywords: YOLOv5s; woodcut engraving; FasterNet; attention mechanism; CARAFE; lightweight object detection
0 "引 "言
藏族木刻雕版是藏文化的活化石,承载了藏族人民的智慧,研究藏族木刻雕版可以更好地了解和尊重藏族文化,为非物质文化遗产的保护和传承做出贡献[1]。木刻雕版因年代久远、储存方式不当等原因,出现了磨损或自然老化的情况,以致后续研究学者和文化爱好者在理解木刻雕版元素等内容时遇到了一定的阻碍。深度学习和计算机视觉的发展为木刻雕版技艺的数字化保护和传承提供了有效的解决方案。
目标检测作为计算机视觉领域的重要研究方向,采用深度学习算法对图像和视频内容自动识别和定位[2]。目标检测算法因为高效和快速等优点已经被广泛应用于自动驾驶[3]、生物特征识别[4]和医学影像分析[5]等多种领域。目标检测算法可以被划分为两大类:一类是依赖于传统技术的算法;另一类则是利用深度学习技术的算法。传统的目标检测方法主要基于手工设计的特征提取器和分类器,如方向梯度直方图(Histogram of Gradient, HOG)特征[6]和支持向量机(Support Vector Machine, SVM)[7]等。传统的方法在一些简单场景下表现良好,但在复杂背景情况下效果较差。近年来,深度学习技术的兴起极大地推动了目标检测的发展,特别是随着卷积神经网络(Convolutional Neural Network, CNN)的兴起,目标检测技术获得了显著的突破和进展。深度学习目标检测算法包括一次性完成检测的单阶段方法和分两步走的两阶段方法。两阶段方法先生成候选框,再对候选框进行分类和定位,典型算法有SPPnet(Spatial Pyramid Pooling Network)[8]和R⁃CNN[9]系列,其算法都采用一个区域生成网络(Region Proposal Network, RPN)来生成候选框,并使用一个分类器来判断候选框是否包含目标。以上目标检测算法的主要缺点是速度较慢,无法满足实时目标检测的需求。与两阶段目标检测算法不同,SSD[10](Single Shot MultiBox Detector)算法是一种基于单阶段检测器的目标检测算法,其主要思想是调整卷积网络的最后一层,将每个位置上的特征图解释为包含一组边界框的概率分布。YOLO[11](You Only Look Once)系列算法是基于单阶段检测器的另一种目标检测算法,这些算法将目标检测问题简化为一个回归问题,使用单个神经网络自底向上地预测边界框和类别概率。相较于R⁃CNN系列和SSD算法,YOLO系列算法的检测速度更快,且检测效果更好。
综上所述,如何有效、便捷地实现木刻雕版图像元素自动识别和定位已成为亟待研究的课题。然而,目前鲜有对木刻雕版元素方面的研究。为此,本文将单阶段目标检测算法中综合性能较好的YOLOv5模型应用于木刻雕版数据,但仍然存在参数量大、检测和推理速度慢以及检测精度低等问题。为了解决上述问题,本文在YOLOv5s的基础上进行了创新,设计出了一种优化的算法。首先,采用FasterNet[12]作为特征提取模块;其次,在特征提取网络后添加坐标注意力机制[13];最后,引入轻量化上采样CARAFE(Content⁃aware Reassembly of Feature)[14]。有效实现木刻雕版元素的精准定位和检测,有助于社会大众以及藏文化爱好者深入理解藏族木刻雕版的版面元素,推动藏文化的传播与交流。
1 "方法概述
1.1 "YOLOv5s模型概述
YOLOv5s是一种单阶段目标检测算法,与传统的目标检测算法相比,YOLOv5s具有较高的检测速度和精度。YOLOv5系列包含五个版本,按照规模从小到大排序为:YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x,这些网络在结构上仅在网络深度和通道数上有所区别。随着网络深度和宽度的递增,虽然检测精度逐渐提升,但处理速度却相应下降。由于木刻雕版检测系统对实时性能的要求,本文选择在速度和精度上均表现较优的YOLOv5s作为基础网络模型。YOLOv5s的网络结构清晰明了,由输入端(Input)、骨干网络(Backbone)、特征融合模块(Neck)以及预测层(Prediction)四个主要部分组成。YOLOv5s模型的网络结构如图1所示。
Input通常包含一个图像预处理阶段,其主要任务是对输入的图像进行尺寸调整,以满足网络所需的输入大小,并执行归一化等相关操作,从而确保图像数据的规范性和一致性。
Backbone采用CSPDarknet53框架[15]。CSPDarknet53由一系列卷积层和残差块组成,通过多层的卷积操作,可以在深层网络提取出图像的高级语义特征。
Neck网络采用FPN[16]+PAN[17]的结构。FPN是一种简化的金字塔网络,用于提取和融合多尺度的特征信息,能够在不同尺度上提取和融合特征信息。
Prediction包含了一系列的卷积和全连接层,用于将特征图转换为目标的位置和类别信息。预测层输出的结果包括目标的边界框坐标、置信度分数和类别概率。通过设置适当的阈值和非极大值抑制(NMS)操作,得到最终的目标检测结果。
1.2 "模型改进
本文提出的改进算法主要体现在以下三个方面。
1) 特征提取模块采用FasterNet代替原有的模块,解决了原始YOLOv5s参数量大、运行时间长等问题,使检测模型更加轻量化。
2) 在特征提取网络后添加坐标注意力(Coordinate Attention, CA)机制,可以更好地利用高层次的特征表示,并在全局池化前捕捉重要的特征信息,针对于木刻雕版的边缘部分和小目标可以得到更好的检测。
3) 引入轻量化上采样CARAFE代替最近邻插值上采样,可以使得模型能够获取更大的感受野、保留更多的信息。
改进后的算法在提升模型检测精度的同时可以提高检测速度。改进后的网络结构如图2所示。
1.3 "FasterNet网络
YOLOv5s网络模型在木刻雕版目标检测任务中凭借出色的特征提取能力展现出了优越的性能,但由于其参数量大,导致模型的计算效率相对较低。特别是在处理木刻雕版这类复杂且精细的图像数据时,庞大的参数量不仅增加了计算负担,还会影响实时检测的速度和性能。相比之下,FasterNet凭借较少的参数设计,展现出了更高的计算效率。它在保持轻量级和高速度的同时,显著提升了特征表达能力和感受野的覆盖范围,从而更好地适应了木刻雕版目标检测任务的需求。
具体来说,FasterNet的网络结构由四个级别组成,每个级别包含多个FasterNet块。这些FasterNet块通过结合部分卷积操作(PConv层)和1×1卷积操作(PWConv层),实现了高效的特征提取和转换。在每个级别的开始,嵌入层或合并层通过常规的卷积操作降低空间分辨率并增加通道数,进一步丰富了特征的层次性。而在最后一个级别之后,通过三个分类层对特征进行精细分类。此外,每个层之后的标准化层和激活层不仅增加了特征的多样性,还有助于降低网络延迟,提升整体性能。FasterNet的网络结构如图3所示。
1.4 "融合CA注意力机制
为了提高模型对木刻雕版关键元素的注意能力,在特征提取网络后添加坐标注意力机制。如图4所示,坐标注意力(CA)机制通过对通道之间的关系建模,使网络能够更加集中地关注重要特征,有助于模型能够更准确地定位和识别感兴趣的对象[18]。经过大量实验证明,相比于其他注意力机制,CA注意力机制不仅关注了通道信息还考虑了方向和位置的有关信息。另外,CA注意力机制足够的灵活和轻量,能够简单地插入到FasterNet网络中,在保持较快训练速度的同时,不会导致过拟合的问题。
1.5 "上采样方式改进
YOLOv5s中常用的上采样方式是最近邻插值上采样,尽管简单高效,但其感受野较小,容易导致细节信息的丢失和模糊等。这些问题在处理复杂且精细的木刻雕版图像时尤为突出,严重影响了目标检测的准确性和稳定性。
针对最近邻插值存在的不足,可以用一种计算量小并且语义相关性高的模型来代替。CARAFE是一种轻量级的上采样算子,相较于初始的最近邻插值方法,感受野更宽,能大范围聚合上下文信息,如图5所示,主要由上采样核预测和特征重组两个步骤组成。假设上采样倍率为[σ],对于一个初始形状为[H×W×C]的输入特征图,首先利用上采样核预测模块来预测所需的上采样核;接着,通过特征重组模块对上采样进行处理,最终得到形状为[σH×σW×C]的输入特征图。
2 "实 "验
2.1 "数据集构建
本研究通过与多地印经院和相关领域专家合作共采集2 070张风格多样的藏族木刻雕版图像。
作为重要的文化载体,木刻雕版内容丰富,技艺多样,据此可分为不同的类别,如图6所示,这些雕版可以依据不同的特征进行细致的分类。随后,利用LabelImg工具,结合领域专家的专业知识,对这6种不同风格类别的数据进行精准标注,确保每一张图像都得到准确的分类。标注后的数据集保存为Pascal VOC格式,涵盖图形符号类(Graphical Symbols)、咒轮类(Charm Wheel)、本尊类(Yidam)、民俗类(Folk)、文字类(Text)以及法器类(Magic Weapon)。为了进一步满足模型训练的需求,将XML格式的标签转换为YOLOv5s模型适用的txt格式,并按照8∶1∶1的比例随机自动划分为训练集、验证集和测试集,其中训练集包含1 656张图像,验证集和测试集各含207张图像。图7则直观地呈现了各类雕版在数量上的分布情况,进一步凸显了藏族木刻雕版艺术的多样性与丰富性。
2.2 "实验环境和参数设置
本实验模型训练的硬件环境为CPU:Intel® CoreTM i9⁃12900KF、GPU:NVIDIA GeForece RTX 3090 Ti,内存:64 GB,系统:Ubuntu 20.04+CUDA 11.8,编译语言:Python 3.9,深度学习框架:PyTorch 1.12.1版本。
该模型的训练参数采用官方提供的权重参数作为训练的初始化参数,使用相同的数据集以及参数设置以便于减少不确定因素的干扰。总训练批次(Epochs)为150,batch⁃size为16,初始学习率为 0.01,使用 SGD 优化器,动量参数设置为0.937,Weight decay设置为0.000 5。
2.3 "评估指标
为了有效验证改进算法的精确度和实时性能,本文采用mAP(Mean Average Precision)、浮点计算量(Giga Floating⁃point Operation per Second, GFLOPs)和参数量(Parameters)三个指标进行评价,平均精度(mAP@0.5)是每个检测到的类别AP值的平均值,计算公式如下:
[AP=01PRdR] (1)
mAP值通常使用具有0.5阈值的交并比(IoU)来计算,计算公式如下:
[mAP=i=1sAPiS] (2)
GFLOPs表示浮点运算次数,用来衡量网络模型的复杂度,评估模型的计算复杂度和推理速度;Parameters表示模型中包含参数的数量。
2.4 "实验结果及分析
2.4.1 "不同注意力机制对比测试
为了验证CA注意力机制对于木刻雕版元素的检测效果,在相同条件下分别测试了几种常见的注意力机制,并比较了不同的注意力机制对YOLOv5s模型的影响,实验结果如表1所示。
对比目前常用的注意力机制SE、CBAM、ECA和CA,从表1中可以得出,在加入了CBAM和ECA以后,mAP值相比YOLOv5s模型有所下降,分别下降了3.1%、0.5%,可以看出这两种注意力机制对于该模型来说效果不佳。相比CBAM和ECA注意力机制,SE和CA注意力机制对于该模型的效果有所提升,分别提升了0.9%、2.9%。尤其是CA注意力机制在保证模型大小的前提下﹐可以有效提升mAP值。因此经过综合考虑,添加CA注意力机制来提升模型检测的性能。
2.4.2 "轻量化模块的消融实验
为了验证FasterNet模块对木刻雕版元素检测的影响,将常用的轻量化模块进行了对比实验,比较它们对YOLOv5s模型性能的影响,在保证其余条件不变的情况下,分别验证了常见的ShuffleNetV2和MobileNetV3轻量化主干网络以及FasterNet网络,结果如表2所示。
从表2中可以看出,在YOLOv5s模型中引入ShuffleNetV2和MobileNetV3两种轻量化模型虽然FLOPs和Parameters都出现了大幅度的降低,但是以牺牲较多的mAP值作为代价,因此检测精度会降低。相比较而言,FasterNet在降低GFLOPs和Parameters的同时,只损失了较少的mAP值,在精度和速度之间达到了平衡。FasterNet相比MobileNetV3,虽然GFLOPs较高,但是其结构中的PConv相比于DWConv极大地降低了内存访问数量,对空间特征的提取更为有效。所以,本文在轻量化主干网络的选择上选取多方面都优于ShuffleNetV2和MobileNetV3的FasterNet模型。
2.4.3 "消融实验
为了验证每个新增模块对于初始算法的有效性,本文进行了一系列消融实验。首先用轻量化模块FasterNet替换初始YOLOv5s的特征提取网络,接着,在FasterNet模块后添加坐标注意力机制,最后将YOLOv5s的最近邻插值上采样替换成CARAFE上采样。实验结果如表3所示,这些实验结果验证了改进策略的有效性。
从表3中实验结果可以得出,与初始的YOLOv5s算法相比,加入FasterNet对特征提取网络进行轻量化后,模型的参数量和复杂度都有显著减少。虽然对主干网络进行轻量化改进后,模型的检测精度略微下降,但随后引入CA注意力机制,在保持较少参数量的情况下,使检测精度相较于初始YOLOv5s提升了1.9%。将这两项改进融合在一起,不仅可以显著减小模型的参数量和复杂度,还可以确保检测精度高于初始YOLOv5s算法。最后,通过采用轻量化上采样CARAFE替代YOLOv5s的最近邻插值上采样,模型的检测精度在改进后的基础上进一步提高了0.3%。从消融实验的结果可以得出,本文改进算法模型相比于初始的YOLOv5s模型在保证轻量化的同时可以提升模型的检测精度。
根据每一轮的训练数据结果绘制平均精度的变化曲线,如图8所示,每个模型的mAP分别使用不同的曲线来表示。从图中可以看出,相较于初始的YOLOv5s算法,经过改进的算法mAP提高了2.2%,同时速度也提高了46.53%,具有良好的效果。
2.5 "与其他算法对比分析
为了进一步验证改进算法的鲁棒性,将本文方法与Faster⁃RCNN、SSD、YOLOv5s、YOLOv7⁃tiny、YOLOv8n等主流方法进行比较,在实验过程中保持相同的参数和条件,分别从mAP@0.5、GFLOPs和Parameters进行比较,证明改进后算法的优越性。对比结果如表4所示。
从表4中可以得出,相比于其他的主流算法,Faster⁃RCNN的参数量较大,检测速度较慢,无法满足实时性的要求。SSD相比于Faster⁃RCNN在参数量和检测速度等方面都得到了大幅度的提升,但在检测精度方面仍然存在欠缺。相比于Faster⁃RCNN和SSD算法,YOLO系列算法具有更快的检测速度和更高的检测精度。本文在YOLO系列算法中选择综合性能较好的YOLOv5、YOLOv7和YOLOv8进行对比实验。从实验数据可以得出,YOLOv5模型可以更好地拟合木刻雕版的数据,在保证模型参数量和检测速度的同时具有较高的检测精度。本文以YOLOv5s为基准模型,改进后的模型可以在提高检测速度的同时继续提高检测精度,具有较好的实时性和鲁棒性。
2.6 "检测结果
为了更直观地感受改进后模型的效果,实验选取光线相对灰暗且色泽比较重的不同场景下的图片进行验证效果对比,如图9所示。
改进后的模型在真实木刻雕版测试数据上取得了良好的检测性能,不仅在精度上有所提升,且能解决初始模型存在小目标漏检的情况。从图9a)和图9b)可以看出,在复杂场景中引入注意力机制和上采样后,改进后的模型可以检测出木刻雕版图像中的小藏文字符目标,同时能够提高检测精度。此外,从图9c)和图9d)可以看出,在简单场景中,通过对初始模型的改进可以提高目标检测的精准度。总的来说,对于初始YOLOv5s可能存在漏检和不准确定位的情况,改进后的模型可以有效定位和检测漏检的部分,且模型的检测精度提升显著,有效验证了改进模型的可行性。
3 "结 "语
研究藏族木刻雕版不仅有助于深入了解藏族文化和艺术,还能推动藏族文化与其他文化的交流与融合。本文针对初始YOLOv5s算法在木刻雕版中存在漏检、检测精度低以及检测速度慢等问题,提出了一种改进算法,改进后的模型在复杂度、检测精度和检测速度等多方面均优于原模型。本文不仅为木刻雕版元素的自动检测提供了一种有效的解决方案,还为其他具有类似复杂纹理和边缘的图像检测任务提供了新的思路和启示。
总的来说,本文证明了改进后的轻量级模型在保证实时性检测的要求下可以提高木刻雕版的检测精度,该模型可以很好地部署到嵌入式设备和移动设备中。在后期的研究中,将进一步扩大数据集规模并优化网络结构,继续提升木刻雕版元素的检测精度和检测速度。
注:本文通讯作者为赵启军。
参考文献
[1] 苏发祥.论木刻雕版印刷术在西藏的发展及其影响[J].中央民族大学学报(哲学社会科学版),2017,44(4):115⁃122.
[2] 黄腾腾,李英娜,王路路,等.基于改进YOLOv7⁃tiny的变电站多分类缺陷检测方法[J/OL].控制工程:1⁃9[2024⁃03⁃29].https://doi.org/10.14107/j.cnki.kzgc.20231014.
[3] 贯怀光,郭蓬,夏海鹏,等.基于InfluxDB的自动驾驶智慧货运平台的构建及应用[J].现代电子技术,2023,46(9):131⁃135.
[4] 伍倩,崔炜荣,汪超,等.基于多模态生物特征识别的高校门禁系统设计与实现[J].现代电子技术,2024,47(2):37⁃43.
[5] 张波,兰艳亭,李大威,等.基于卷积网络通道注意力的人脸表情识别[J].无线电工程,2022,52(1):148⁃153.
[6] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2005: 886⁃893.
[7] SÁNCHEZ A V D. Advanced support vector machines and kernel methods [J]. Neurocomputing, 2003, 55(1/2): 5⁃20.
[8] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904⁃1916.
[9] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2014: 580⁃587.
[10] LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot MultiBox detector [EB/OL]. [2020⁃02⁃12]. http://arxiv.org/abs/1512.02325.
[11] REDMON J, DIVVALA S K, GIRSHICK R B, et al. You only look once: Unified, real⁃time object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 779⁃788.
[12] CHEN J, KAO S, HE H, et al. Run, don′t walk: Chasing higher FLOPS for faster neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 12021⁃12031.
[13] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 13713⁃13722.
[14] WANG J, CHEN K, XU R, et al. CARAFE: Content⁃aware reassembly of features [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 3007⁃3016.
[15] WANG C Y, LIAO H Y M, WU Y H, et al. CSPNet: A new backbone that can enhance learning capability of CNN [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE, 2020: 1571⁃1580.
[16] LIN T Y, DOLLÁR P, GIRSHICK R B, et al. Feature pyramid networks for object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 936⁃944.
[17] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 8759⁃8768.
[18] 张新伟,陈东,闫昊,等.基于改进YOLOv5算法的密集遮挡零件检测[J].工具技术,2023,57(10):150⁃155.
[19] 邓佳丽,龚海刚,刘明.基于目标检测的医学影像分割算法[J].电子科技大学学报,2023,52(2):254⁃262.
作者简介:杨 "欣(1998—),男,陕西眉县人,硕士研究生,主要研究方向为计算机视觉。
才让先木(1996—),男,甘肃甘南人,硕士研究生,讲师,主要研究方向为计算机视觉。
高定国(1972—),男,四川阿坝人,硕士研究生,教授,主要研究方向为藏文自然语言处理、计算机算法。
夏建军(1989—),男,湖南邵阳人,博士研究生,主要研究方向为多模态机器学习。
普布旦增(1982—),男,西藏白朗人,硕士研究生,高级实验师,主要研究方向为自然语言处理、模式识别。
赵启军(1980—),男,江苏盐城人,博士研究生,教授,主要研究方向为图像处理、模式识别、计算机视觉和生物特征识别。