摘要:
针对现有目标检测方法难以适应侧扫声呐图像高噪声、多畸变、特征贫瘠的问题,提出一种基于改进Yolov8的侧扫声呐目标检测方法。在网络训练阶段,于Yolov8主干网络中引入RCS-OSA模块,进一步提升Yolov8主干网络的特征提取能力。在推理阶段,通过重参数化卷积来增强网络的特征提取能力,并将其简化为单一分支,减少内存消耗。之后,使用BiFPN替换Yolov8网络特征融合模块,通过反复应用自顶向下和自底向上的多尺度特征融合,进一步优化对不同尺度特征的融合结果,提高对多尺度特征的适应能力。实验结果表明:所提出方法在各项定量和定性评价中均超越了原始Yolov8网络检测方法,平均精度均值(mAP)提升了6.3%。
关键词:
侧扫声呐; Yolov8; 图像目标检测; RCS-OSA; BiFPN
中图法分类号:TP391
文献标志码:A
DOI:10.15974/j.cnki.slsdkb.2025.01.007
文章编号:1006-0081(2025)01-0036-07
0 引 言
侧扫声呐作为一种水下声学成像仪器,具有成图分辨率高和作业效率高的优势。在海洋科学、海洋工程、水下搜救与目标识别等领域得到了广泛的应用[1-4]。
传统的侧扫声呐图像目标识别有人工判读和基于人工特征的自动识别两大类[5-7]。因侧扫声呐图像存在高噪声、目标畸变等因素的影响,人工判读需要较长的培训时间,且存在效率低和容易判读错误的问题。基于人工特征的自动识别方法,主要有基于统计量[8-9]、均值聚类[10-11]和马尔可夫随机场[12-13]等的检测方法,特征提取方法和分类器模型均需要实验确定最优特征和最优分类器模型,且只能对背景简单的目标有较好的检测效果[14],即使是针对同类目标,由于测量时侧扫声呐的参数与目标相对位置和相对姿态的不同,都将使同类目标在侧扫声呐图像中的表现不一。此外,水下环境中存在大量的噪声干扰,导致侧扫声呐图像中目标图像畸变[15-16],实现准确快速的侧扫声呐图像目标检测有一定的难度[17-18]。因此,传统的侧扫声呐图像目标检测方法适用范围窄、泛化能力差[19]。
随着深度学习技术的快速发展,基于神经网络的侧扫声呐图像目标检测方法得到了广泛应用[20]。Yolo(You Only Look Once)[21]作为经典的目标检测模型,其简单的结构和优越的性能在计算机视觉领域备受关注。各式各样的Yolo改进模型被广泛应用于侧扫声呐目标检测中[22-24]。Xu等[25]针对沉船检测问题用了对抗生成网络扩增数据和迁移学习思想,并与Yolov1、Faster R-CNN以及传统算法分水岭分割和OTSU算法做了实验对比,表现出了优异的性能。Jiang等[26]为了降低声呐图像标注成本,提出了3种主动学习算法并结合了SSD、Faster R-CNN和Yolov1检测器,其中Faster R-CNN和SSD的性能略好于Yolov1。Yu等[5]首次将transformer引入声呐图像目标检测,并在几乎没有增加计算开销的情况下提高了检测性能,同时还发现使用预训练权重的效果更好。也有学者在使用深度学习这项新技术时考虑了传统方法,如Poap等[27]设计了具有3个阶段的侧扫声呐实时自动分析系统,结合了直方图提取ROI模块和卷积神经网络,在实地测试场景下分类准确率达到90%。Le等[28]设计了一个基于Gabor滤波器的单阶段目标检测神经网络,架构方面参考了Yolov3在多个尺度上进行检测,相比Tiny Yolov3有13%的精度提升,但推理速度降低了89%。如何有效地表示和处理多尺度特征是目标检测的主要困难之一。早期的检测器通常直接根据从主干网络中提取的金字塔特征层次进行预测。使用特征金字塔网络(FPN)是一项开创性的工作,它提出了一种自上而下的方法来组合多尺度特征[29-31]。根据这一想法,PANet在FPN之上添加了一个自底向上的路径聚合网络[32],增加了特征融合的有效性。
相较于光学图像目标检测,侧扫声呐图像具备多尺度变化、畸变严重、特征贫瘠和高噪声的特点[33]。为进一步提升基于深度学习的侧扫声呐水下目标检测方法的泛化性和鲁棒性,本文基于Yolov8目标检测网络结构,引入RCS-OSA和BiFPN模块。提出一种针对侧扫声呐多尺度目标图像的检测方法,网络结构如图1所示。
所提方法的创新性在于:① 针对侧扫声呐图像特征贫瘠的问题,引入RCS-OSA模块作为骨干网络,使得网络能够在不同层次上捕捉图像全局和细节信息,有效提升网络特征提取能力。② 针对侧扫声呐目标的多尺度变化,引入双向特征融合结构和加权融合机制,提高了对不同尺度特征的适应性,提升模型对不同尺度目标的泛化性。
1 基于RCS-OSA模块的Yolov8主干网络
受测量机制和海洋环境的影响,侧扫声呐图像普遍存在高噪声、多畸变、特征贫瘠等问题[34-35]。这些因素严重影响了神经网络的特征提取能力。为此,在Yolov8的主干网络中引入RCS-OSA结构[29],增强网络的特征提取能力。调整后的主干网络结构如图2所示。
在图2中,使用RCS-OSA结构替换了原始主干网络中的c2f模块。通过RCS模块在训练时利用多分支结构学习丰富的特征表示。在推理阶段,将多通道特征进行混洗,通过重参数化卷积来增强网络的特征提取能力,并简化为单一分支,减少内存消耗。使用OSA结构,一次性聚合多个特征级联,通过堆叠RCS模块,确保特征的复用并加强不同层之间的信息流动。同时减少网络的计算负担,并进一步提升了网络的计算效率。
1.1 RCS模块
RCS(Reparameterized Convolution based on channel Shuffle)被称为基于通道shuffle的重参数化卷积,可在训练阶段通过多分支结构学习丰富的特征信息,并在推理阶段通过简化为单分支结构来减少内存消耗,实现快速推理。此外,RCS利用通道分割和通道Shuffle操作来降低计算复杂性,同时保持通道间的信息交换,
这样在推理阶段相比普通的3×3卷积可以减少一半的计算复杂度。通过结构重参数化,RCS能够在训练阶段从输入特征中学习深层表示,并在推理阶段实现快速推理,同时减少内存消耗。RCS模块结构如图3所示。
图3为RCS模块的具体结构,分为训练阶段和推理阶段。在训练阶段,输入通过通道分割,一部分输入经过RepVGG块,另一部分保持不变。然后通过1×1卷积和3×3卷积处理RepVGG块的输出,与另一部分输入至通道Shuffle并连接。在推理阶段,原来的多分支结构被简化为一个单一的3×3 RepConv块。这种设计允许在训练时学习复杂特征,在推理时减少计算复杂度。黑色边框的矩形代表特定的模块操作,渐变色的矩形代表张量的特定特征,矩形的宽度代表张量的通道数。
1.2 OSA模块
侧扫声呐目标种类较多,不同目标之间的尺度也存在较大差异,为提升模型对多尺度目标检测能力的鲁棒性,使用OSA(One-Shot Aggregation)模块结果聚合,增加网络对于不同尺度的敏感性,并在最后的特征映射中仅聚合一次所有特征,减少了重复的特征计算和存储需求,提高网络的计算效率。将OSA模块进一步与RCS模块相结合,形成RCS-OSA模块。这种结合不仅保持了低成本的内存消耗,而且还进一步保证了特征信息的有效提取。RCS-OSA模块网络结构如图4所示
图4中输入被分为两部分,一部分直接通过,另一部分通过堆叠的RCS模块进行处理,处理后的特征和直接通过的特征在通道混洗后合并。通过一次性聚合来提高模型处理特征的能力,同时保持计算效率。进一步利用特征级联方法聚合不同层次的特征,提高模型的特征提取能力,减轻网络计算负担并降低内存占用。
2 多尺度特征融合网络
Yolov8网络采用FPN-PAN的网络结构实现多尺度特征融合,但是受输入特征的分辨率限制,FPN-PAN的结构难以平衡多尺度特征之间的融合,难以充分利用不同尺度的特征[36-37]。此外,受测量机制和海洋环境影响,侧扫声呐图像质量较差,并且不同目标尺度存在较大差异。为此,引入BiFPN模块进行多尺度特征之间的融合,提升模型的检测精度[30]。
在传统的特征金字塔网络中,所有输入特征被简单地相加在一起,而不考虑它们对输出特征的不同贡献。在BiFPN中,观察到由于不同的输入特征具有不同的分辨率,它们通常对输出特征的贡献是不等的。为此,BiFPN引入了可学习的权重来确定不同输入特征的重要性,从而提高了特征融合的效果,见式(1)
O=∑wi·Ii(1)
式中:wi为可学习的权重,Ii为模块的输入特征。为了进一步优化对不同分辨率特征的融合过程,该模块通过反复应用自顶向下和自底向上的多尺度特征融合,提高了对不同分辨率特征的适应性。不同特征融合网络模块结构如图5所示。
图5蓝色箭头部分是自顶向下的通路,传递高层特征的语义信息;黄色箭头部分是自底向上的通路,传递低层特征的位置信息;红色部分是跨尺度连接通过添加一个跳跃连接和双向路径来实现加权融合和双向跨尺度连接。图5中P5的加权双向金字塔网络结构可由公式(2)和(3)表示:
Ptd5=Convw1·Pin5+w2·Resize(Pin6)w1+w2+(2)
Pout5=Convw3·Pin5+w4·Ptd5+w5·Resize(Pout4)w3+w4+w5+(3)
式中:w为不同模型层的权重,P为不同模型层的输出,是一个常量,Conv代表卷积操作,Resize代表尺寸调整操作。
3 实验与分析
3.1 训练数据与参数
为验证本文所提方法的可行性和有效性,以常见的水下沉船目标为例。通过水下测量和网络搜集,共收集沉船样本367张,采用随机原则按照8∶1∶1的比例划分数据集,其中训练集293张,测试集38张,验证集36张,部分沉船数据如图6所示,网络模型训练环境参数如表1所示。
3.2 定量分析
为进一步定量评价本文方法的可行性和有效性,本文选择常用的精确度(Precision)、召回率(Recall)和平均精度均值(mAP)3个指标进行定量评估。网络训练过程中设置batchsize=16,图像尺寸为640×640,其余参数均相同。模型训练结果如表2所示。
表2中,B0为Yolov5模型的检测结果,由于沉船数据存在较大畸变,以及海底混响的影响,模型检测效果不佳。B1为原始Yolov8网络模型的检测结果,由于沉船形状存在畸变、多尺度变化等因素,原始网络模型检测结果一般。B2为引入RCS-OSA模块之后的检测模型。利用多分支结构学习丰富的特征表示,并一次性聚合多个特征级联,有效增加了网络的特征提取能力,相较于B1,模型的各项指标均有所增加。B3为引入BiFPN模块之后的检测模型。使用双向特征融合和加权融合机制更有效地结合不同尺度的特征,各项定量评估指标相较于B1均有所增加。B4为本文所提出方法的检测结果。分别引入RCS-OSA和BiFPN模块,增加了网络特征提取能力和多尺度特征融合能力,相较于B1,各项评估指标均取得了明显提升,mAP提升了6.3%。验证了本文所提出方法的可行性和有效性。
3.3 定性分析
选择了不同尺度、不同畸变的沉船图像对不同架构的模型进行测试,测试结果如图7所示。
图7中,T1为Yolov8的检测结果,T2为引入RCS-OSA模块之后的检测结果,T3为引入BiFPN模块之后的检测结果,T4为本文方法的检测结果。通过对比检测结果可以看出。Yolov8存在漏检、误检结果,分别引入RCS-OSA和BiFPN模块,检测精度均有所提升,误检、漏检结果均有所下降。T4同时引入RCS-OSA和BiFPN模块,相同目标的检测精度相较于T1、T2和T3均有所增加,本文方法检测结果中的目标框更为精确,验证了该方法的先进性。
4 结论与展望
针对侧扫声呐目标图像存在高噪声、多畸变、特征贫瘠等问题。本文基于Yolov8引入RCS-OSA模块和加权双向特征金字塔网络(BiFPN)。在主干网络中使用RCS-OSA利用多分支结构学习丰富的特征表示。在推理阶段,通道混洗,通过重参数化卷积来增强网络的特征提取能力,并简化为单一分支,减少内存消耗。之后使用OSA结果聚合具有不同感受野的特征来增加网络对于不同尺度的敏感性,并在最后的特征映射中仅聚合一次所有特征,减少了重复的特征计算和存储需求,提高了网络的计算效率。使用BiFPN替换原始网络特征融合模块,通过反复应用自顶向下和自底向上的多尺度特征融合,进一步优化了不同分辨率特征的融合过程。引入可学习权重和多次迭代的自顶向下与自底向上融合,提高了对不同分辨率特征的适应性。实验表明,本文所提出方法在各项定量和定性评价中均超越了原始Yolov8网络,平均精度均值(mAP)提升了6.3%。
本文方法针对侧扫声呐高噪声、目标多尺度变化等因素进行了研究。但是侧扫声呐实时目标检测仍需要进一步优化模型结构,后续可以针对模型剪枝,在顾及模型检测精度的基础上提升检测效率,且检测模型的精度还需要进一步提高。随着新的网络架构设计的出现,需要验证新网络的检测能力,寻找更优的检测网络。
参考文献:
[1] 李本源.水下声光图像的尺度自适应匹配方法的研究[D].长春:吉林大学,2021.
[2] 库安邦,周兴华,彭聪.侧扫声呐探测技术的研究现状及发展[J].海洋测绘,2018,38(1):50-54.
[3] WILLIAMS D P.Fast target detection in synthetic aperture sonar imagery:A new algorithm and large-scale performance analysis[J].IEEE Journal of Oceanic Engineering,2015,40(1):71-92.
[4] 郭戈,王兴凯,徐慧朴.基于声呐图像的水下目标检测、识别与跟踪研究综述[J].控制与决策,2018,33(5):906-922.
[5] YU Y,ZHAO J,GONG Q,et al.Real-time underwater maritime object detection in side-scan sonar images based on transformer-YOLOv5[J].Remote Sensing,2021,13(18):3555.
[6] 王晓.侧扫声呐图像精处理及目标识别方法研究[D].武汉:武汉大学,2017.
[7] 蔡璇,许宝华,李道鹏,等.海底缆线综合探测方法及应用[J].水利水电快报,2023,44(10):36-40.
[8] ABU A,DIAMANT R.A Statistically-based method for the detection of underwater objects in sonar imagery[J].IEEE Sensors Journal,2019,19(16):6858-6871.
[9] ABU A,DIAMANT R.Enhanced fuzzy-based local information algorithm for sonar image segmentation[J].IEEE Transactions on Image Processing,2019,29(7):445-460.
[10] 盛蕴霞,霍冠英,刘静.基于超像素聚类的侧扫声呐图像分割算法[J].计算机工程,2018,44(6):219-225,232.
[11] CHANG R,WANG Y,HOU J,et al.Underwater object detection with efficient shadow-removal for side scan sonar images[C]∥OCEANS 2016.Shanghai:IEEE,2016:1-5.
[12] 张丽丽,王慧斌,王高旭,等.基于马尔可夫随机场的水下声呐图像目标检测方法[C]∥中国水利学会.中国水利学会2018学术年会论文集第五分册.南京:河海大学计算机与信息学院,南京水利科学研究院,2018:7.
[13] 张丽丽,姜传港,王慧斌,等.基于形态学重构的侧扫声呐图像目标分割方法[C]∥中国水利学会.中国水利学会2018学术年会论文集第五分册.南京:河海大学,2018:8.
[14] 王晨,陈晶晶,王润田.利用侧扫声呐实现船舶目标的快速识别[J].声学技术,2022,41(2):199-204.
[15] 霍冠英,李庆武,王敏,等.Curvelet 域贝叶斯估计侧扫声呐图像降斑方法[J].仪器仪表学报,2011,32(1):170-177.
[16] 王磊,金绍华,崔杨,等.联合小波和NLM滤波的侧扫声纳回波信号降噪[J].海洋测绘,2021,41(3):69-73.
[17] 张元科.水下声纳图像目标检测技术研究[D].哈尔滨:哈尔滨工程大学,2014.
[18] 赵建虎,王晓,张红梅,等.侧扫声呐图像分割的中性集合与量子粒子群算法[J].测绘学报,2016,45(8):935-942,951.
[19] 李秋实,王旭旸,李国林,等.一种实时、自适应的侧扫声呐小目标分割算法[J].南开大学学报(自然科学版),2022,55(3):15-20.
[20] 马国栋.基于改进侧扫声呐法的水下抛石精准识别研究[J].人民长江,2022,53(4):210-214.
[21] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:Unified,real-time object detection[C]∥Proceedings of the IEEE conference on computer vision and pattern recognition.Las Vegas:IEEE,2016:779-788.
[22] 陈禹蒲,马晓川,李璇.基于YOLOv3锚框优化的侧扫声呐图像目标检测[J].信号处理,2022,38(11):2359-2371.
[23] 李书东,王晓,张博宇,等.基于改进YOLOX的侧扫声纳图像沉船检测方法研究[J].海洋测绘,2022,42(5):32-36.
[24] 郑云亮.基于改进YOLOv5网络的侧扫声纳图像目标检测方法[J].海洋测绘,2022,42(4):18-21,26.
[25] XU L,WANG X,WANG X.Shipwrecks detection based on deep generation network and transfer learning with small amount of sonar images[C]∥2019 IEEE 8th Data Driven Control and Learning Systems Conference (DDCLS).Dili:IEEE,2019:638-643.
[26] JIANG L,CAI T,MA Q,et al.Active object detection in sonar images[J].IEEE Access,2020,8:102540-102553.
[27] POAP D,WAWRZYNIAK N,WODARCZYK-SIELICKA M.Side-scan sonar analysis using roi analysis and deep neural networks[J].IEEE Transactions on Geoscience and Remote Sensing,2022,60:1-8.
[28] LE H T,PHUNG S L,CHAPPLE P B,et al.Deep gabor neural network for automatic detection of mine-like objects in sonar imagery[J].IEEE Access,2020,8:94126-94139.
[29] KANG M,TING C M,TING F F,et al.RCS-YOLO:A fast and high-accuracy object detector for brain tumor detection[C]∥International Conference on Medical Image Computing and Computer-Assisted Intervention.Cham:Springer Nature Switzerland,2023:600-610.
[30] TAN M,PANG R,LE Q V.Efficientdet:Scalable and efficient object detection[C]∥Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.Seattle:IEEE,2020:10781-10790.
[31] LIN T Y,DOLLR P,GIRSHICK R,et al.Feature pyramid networks for object detection[C]∥Proceedings of the IEEE conference on computer vision and pattern recognition.Venice:IEEE,2017:2117-2125.
[32] LIU S,QI L,QIN H,et al.Path aggregation network for instance segmentation[C]∥Proceedings of the IEEE conference on computer vision and pattern recognition.Salt Lake City:IEEE,2018:8759-8768.
[33] 赖修尉,郭亮,邓宇.测深型侧扫声呐细物识别及浅水测量精度分析[J].水利水电快报,2022,43(增1):1-3.
[34] YUAN F,XIAO F,ZHANG K,et al.Noise reduction for sonar images by statistical analysis and fields of experts[J].Journal of Visual Communication and Image Representation,2021,74:102995.
[35] CHANG Y C,HSU S K,TSAI C H.Sidescan sonar image processing:correcting brightness variation and patching gaps[J].Journal of Marine Science and Technology,2010,18(6):785-789.
[36] 赵建虎,王晓,张红梅.侧扫声呐图像海底线自动提取方法研究[J].武汉大学学报(信息科学版),2017,42(12):1797-1803.
[37] 赵建虎,王爱学,王晓,等.侧扫声呐条带图像分段拼接方法研究[J].武汉大学学报(信息科学版),2013,38(9):1034-1038.
(编辑:张 爽)
Research on target detection method of side-scan sonar image based on improved Yolov8
LU Bin,MAO Yixuan,WANG Lu
(Hydrology and Water Resources Survey Bureau of Yangtze River Estuary,Bureau of Hydrology of Changjiang Water Resources Commission,Shanghai 210036,China)
Abstract:
In view of the fact that existing target detection methods are difficult to adapt to the high noise,multi-distortion,and feature-poor characteristics of side scan sonar images,we proposed a side scan sonar target detection method based on an improved Yolov8.In the network training stage,a RCS-OSA module was introduced into the main body of Yolov8 to further enhance the feature extraction ability of the main body of Yolov8.In the inference stage,the feature extraction ability of the network was enhanced by reparameterized convolution,which was simplified into a single branch to reduce memory consumption.Then the BiFPN was used to replace the feature fusion module of Yolov8,and by repeatedly applying top-down and bottom-up multi-scale feature fusion,the fusion results of different scale features were further optimized,thereby improving the adaptability to multi-scale features.The experimental results showed that the proposed method outperformed the original Yolov8 network in all quantitative and qualitative evaluations,with an average precision mean (mAP) increased of 6.3%.
Key words:
side-scan sonar; Yolov8; image target detection; RCS-OSA; BiFPN