基于ATD-CNN模型的黄河郑州段水面漂浮物检测研究

2025-02-14 00:00:00邵晓艳王军赵雪专王胜冯军
人民黄河 2025年2期
关键词:目标检测卷积神经网络注意力

摘 要:针对水面漂浮物感知目标小、易受干扰、识别精度低的问题,提出ATD-CNN目标检测模型。结合注意力机制,将注意力模块嵌入FasterR-CNN改进模型的基本主干网络,计算特征图内部特征点之间的长距离相关系数,对显著性特征进行有效增强,以提升基本主干网络对图像特征的提取能力。基于河南省郑州市惠济区南裹头黄河沿岸采集的图像数据,对ATD-CNN模型检测效果进行验证,并将该模型性能与FasterR-CNN改进模型、YOLOv5单阶段目标检测模型进行对比。结果表明:与FasterR-CNN改进模型相比,ATD-CNN模型对水面漂浮物的漏检率下降,其mAP值提升了6.80%,F1Score平均值提升了2%。与YOLOv5X、Faster R-CNN改进模型相比,ATD-CNN模型的mAP值分别提升了2.91%、6.80%,有效提高了水面漂浮物检测精度。

关键词:卷积神经网络;水面漂浮物;目标检测;注意力;黄河郑州段

中图分类号:TP391.4;TV882.1 文献标志码:A doi:10.3969/j.issn.1000-1379.2025.02.020

引用格式:邵晓艳,王军,赵雪专,等.基于ATD-CNN模型的黄河郑州段水面漂浮物检测研究[J].人民黄河,2025,47(2):131-136.

基金项目:国家自然科学基金资助项目(U1904119);河南省科技攻关计划项目(232102210033,232102210054);河南省重点研发专项(231111212000);河南省杰出外籍科学家工作室项目(GZS2022011);航空科学基金资助项目(20230001055002);重庆市自然科学基金资助项目(CSTB2023NSCQ-MSX0070)

ResearchontheDetectionofFloatingObjectsontheWaterSurface oftheZhengzhouSectionoftheYellowRiverBasedontheATD?CNNModel

SHAOXiaoyan1,WANGJun1,ZHAOXuezhuan1,WANGSheng1,FENGJun2

(1.SchoolofComputerScience,ZhengzhouUniversityofAeronautics,Zhengzhou450046,China;2.SchoolofComputerandInformationEngineering,HenanUniversity,Kaifeng475004,China)

Abstract:Aimingattheissuesofsmalltargets,vulnerabletointerferenceandlowrecognitionaccuracyoffloatingobjectsonthewatersur? face,ATD?CNNobjectdetectionmodelwasproposed.Combinedwiththeattentionmechanism,theattentionmodulewasembeddedintothe basicbackbonenetworkoftheFasterR?CNNimprovedmodel,andthelong?distancecorrelationcoefficientbetweenthefeaturepointsinthe featuremapwascalculatedtoeffectivelyenhancethesaliencyfeatures,soastoimprovetheabilityofthebasicbackbonenetworktoextract imagefeatures.BasedontheimagedatacollectedalongtheYellowRiverinNanbaotou,HuijiDistrict,ZhengzhouCity,HenanProvince,the detectioneffectivenessoftheATD?CNNmodelwasverified,andtheperformanceofthemodelwascomparedwiththeFasterR?CNNimproved modelandYOLOv5single?stageobjectdetectionmodel.TheresultsshowthatcomparingwiththeFasterR?CNNimprovedmodel,theATD? CNNmodelreducesthemisseddetectionrateoffloatingdebrisonthewatersurface,increasesitsmAPvalueby6.80%,andincreasesthe averageF1Scoreby2%.ComparingwithYOLOv5XandFasterR?CNNimprovedmodels,themAPvaluesofATD?CNNmodelincreaseby 2.91%and6.80%respectively,effectivelyimprovingtheaccuracyoffloatingobjectdetectiononthewatersurface.

Keywords:ConvolutionalNeuralNetwork;floatingobjectsonthewatersurface;objectdetection;attention;Zhengzhousectionofthe YellowRiver

黄河是人类文明的重要发源地,是我国重要的生态屏障[1-2]。近年来,黄河两岸休闲娱乐项目增加,附近游客密度增大,导致水面漂浮物(垃圾)迅速增加。漂浮物无法自然溶解或稀释,分布不均,直接影响了水体质量。此外,漂浮物会影响水中安放的监测设备以及行驶船只的正常运行,如拖船的螺旋桨很容易被漂浮物缠住[3]。当漂浮物在水库坝前堆积时,还会影响水电站的发电效率[4]。水面漂浮物破坏了水体的生态平衡,威胁人类饮用水安全[5-6]。对此,相关学者提出了处理水面漂浮物的多项举措[7-8],但成效不是特别显著。如何快速有效对水面漂浮物进行检测及处理,成为众多学者关注的热点[9]。

近年来,机器视觉在目标检测方面发挥着越来越重要的作用[10]。机器视觉主要利用光学设备或者非接触式传感器接收图像,再通过视觉算法进行处理,进而获取信息以及控制机器人运动[11]。采用机器视觉技术对水面漂浮物进行检测并提取有用信息,不仅能评价水体生态环境,而且能通过某些设备对水面漂浮物进行定期清理,从而为水体生态环境保护提供智能化方案[12],但是水面漂浮物感知目标小、易受干扰、识别精度低。为此,笔者基于FasterR-CNN改进模型,提出ATD-CNN目标检测模型,将注意力模块嵌入FasterR-CNN改进模型的基本主干网络,通过计算特征图内部特征点之间的长距离相关系数,对显著性特征进行有效增强,以提升基本主干网络对图像特征的提取能力。

1 ATD-CNN模型构建

采用机器视觉进行目标检测,主要包含两个子任务:一是对检测对象的类别进行判定,属于分类任务;二是确定检测目标具体位置,属于定位任务。分类任务通过返回一个标签来实现,定位任务通过返回一个矩形框来限定目标位置[13]。

卷积神经网络(CNN)是机器学习算法中的一种,包括卷积、池化、下采样、全连接等多种操作,能够对输入图像的特征进行有效提取,具备较强的图像识别性能[14-15]。但存在缺点如下:当采用较深层的网络结构提取特征时,会产生梯度损失或者爆炸问题;难以体现特征点之间的长距离相关性,在处理远距离信息传递方面存在局限性。

2015年Girshick提出FastR-CNN模型,用于训练分类网络和回归网络,使类别平均精确率(mAP)大大提高,但识别目标速度慢。2017年Ren等[16]提出端到端的FasterR-CNN改进模型,其最大特点是有区域候选网络(RPN),能够更加高效地选择候选框。基于FasterR-CNN改进模型,通过引入注意力(Attention)机制,建立ATD-CNN模型,可有效提取输入图像的特征信息,捕捉不同特征点之间的长距离相关性,从而提高特征图的表征能力。

1.1 FasterR-CNN改进模型

FasterR-CNN改进模型由基本主干网络、RPN和ROIPooling层网络构成,其目标检测过程如下。

1)采用深层卷积神经网络(如ResNet或VGG)对输入图像特征进行提取。卷积层的输出包含输入图像的空间信息和语义信息。

2)RPN通过2个并行的全卷积层对每个锚框进行二分类(是否包含目标)和边界框回归(调整锚框位置)。RPN输出为前景、背景分类得分以及边界框偏移量。根据分类得分,选出最有可能包含目标的候选区域,去除冗余框。

3)ROIPooling层网络通过网格单元对候选区域进行划分,将不同区域统一为固定大小,以便输入全连接层进一步处理。然后在网格上进行池化操作,构成尺寸一致的特征映射。

4)将特征映射输入2个并行的全连接层,对候选区域进行分类,输出每个类别的概率。通过边界框回归层调整候选区域的位置,输出精确的边界框坐标。

1.2 注意力机制

注意力机制应用流程如下:1)输入初始特征图,其大小为H×W×1024,其中:H、W分别为高、宽,1024为特征图的通道数。此处HW构成二维矩阵,HW×1024构成三维矩阵。2)嵌入高斯变换获得2个分支的输入特征图,大小均为H×W×512,经过变换,特征图的通道数变小,同时计算参数减少。3)对其中一个三维矩阵HW×512进行转置运算,再与另一个矩阵进行乘法运算,计算结果即为相似度矩阵,该矩阵反映特征图中像素点间的关联性。4)采用softmax函数计算不同位置像素点的相似度的加权平均值。5)运用卷积核进行上采样,将特征图恢复为原始通道个数,保持输出的一致性。

1.3 注意力模块嵌入基本主干网络

基本主干网络选用ResNet50,包含以下组件:1个 7×7的卷积层、1个最大池化层、4个卷积层组(conv2_x,conv3_x,conv4_x,conv5_x)、1个全局平均池化层、1个全连接层和1个softmax层。每个卷积层组包含多个残差块,在每个残差块中输入与输出直接相加,这种残差连接使得梯度可以直接传递到上一层,有效解决深层网络中梯度消失问题。这些组件使ResNet50能够对深层网络特征有效学习,显著提高了图像分类性能。引入注意力机制不会更改输入和输出特征图之间的尺寸,因此在不改变原始结构的情况下,将注意力模块与ResNet50进行有效融合。注意力模块融合在最后三层conv3_x,conv4_x、conv5_x的高级特征提取阶段,为特征图每个通道动态分配权重,使模型能够关注对实现当前任务最重要的通道。此外,模型整合了三层特征图的全局信息,对于某些相隔较远的通道,注意力机制通过计算特征点之间的长距离相关系数,能够捕捉它们之间的潜在依赖关系,对显著性特征进行有效增强以及信息整合。

注意力模块嵌入基本主干网络的具体实现流程为:首先,输入层接收像素大小为64×56×56的图像,先经过第1个卷积层conv1,使用64个1×1的滤波器处理,步长为1,输出64×56×56的特征图。其次,经过第2个卷积层conv2,使用64个3×3的滤波器处理,步长为1,输出64×56×56的特征图。再次,经过第3个卷积层conv3,使用256个大小为1×1的滤波器处理,步长为1,输出256×56×56的特征图。最后,引入注意力模块,增强对重要特征的关注,输出256×56×56的特征图。

1.4 ATD-CNN模型运行流程

ATD-CNN模型运行流程见图1。首先,将原始检测图像输入基本主干网络ResNet50,结合注意力机制,改变网络内部结构,计算图像内部特征点之间的长距离相关系数,获得特征图F′,有效解决卷积神经网络生成的特征图之间相关性较弱的问题。其次,RPN网络接收特征图,生成多个尺寸的锚框。再次,将这些锚框发送给ROIPooling层网络,通过统一尺寸、最大池化等生成特征映射。最后,将特征映射输入全连接层,输出边界框坐标。

2 模型训练

2.1 数据来源和预处理

2.1.1 数据来源

研究区域为河南省郑州市惠济区南裹头黄河沿岸,地理位置为北纬34°40′至34°52′,东经113°31′至113°43′。该区域气候为暖温带半湿润大陆性气候,年降水比较充沛,主要集中在夏季,受季风和地形的影响,降水分布不均,可能导致洪涝灾害,夏季防汛任务艰巨。

在相同实验环境下验证ATD-CNN模型的有效性。由于缺少研究区域黄河水面目标检测开源数据集,因此采用轻小型大疆Phantom4RTK四旋翼可见光无人机自行采集数据。该无人机具有携带便捷、对场地要求低等特点。无人机内置RTK模块与软件,可实现三维坐标信息、飞行姿态等的快速获取,能够以厘米级的精确度确定位置,满足高精度作业要求。将Phantom4Advanced相机搭载到无人机云台上,同时安装一台大小为1英寸、像素为2000万的影像传感器进行航拍。拍摄影像包含红绿蓝波段,输出图像为RGB格式,共拍摄生成2000张漂浮物图像,拍摄高度为50~100m,在同一个季节进行数据采集。为提高数据的多样性,又通过网络收集、手机拍摄河道水面漂浮物进一步获取数据。考虑的典型应用场景主要为生活垃圾污染场景,对不同视角、不同光线照射的多目标进行采集,共采集图像2400张,每个图像包含1~4个检测目标。检测目标类别包括ball(球)、grass(野草)、bottle(塑料瓶)、branch(树枝)、milk-box(牛奶盒)、plastic-bag(塑料袋)、plastic-garbage(塑料垃圾)、leaf(落叶),考虑到类别均衡性对实验结果的影响,数据集中包含的8个检测目标的图像占比基本保持一致。此外,受硬件设备限制,首先将无人机拍摄的图像进行裁剪处理,然后再输入网络结构,裁剪后图像像素大小为256×256。

2.1.2 数据预处理

2)数据增强。训练深度学习模型需要大量数据,但数据收集和标注成本过高,能够标注训练的样本数量通常很小,在此情况下,会造成模型过拟合、泛化能力差[18]。本实验仅收集到2400个样本,虽然每个样本的像素范围很广,但训练样本集却很少。数据增强可以在不增加成本的情况下扩充数据集,不同的数据增强方法会影响模型最终性能。本文采用垂直翻转、水平翻转和90°旋转进行数据增强,对每种增强方法以0.5的概率进行选择。以水平翻转为例,其增强效果见图2。

3)样本划分。使用VOC作为数据集标注格式。 VOC数据集包含Annotations、ImageSets和JPEGImages三部分。Annotations存放标注生成的xml文件;JPEGImages存放原始2400张图像;ImageSets存放train.txt、val.txt、test.txt文本文件,分别为训练集、验证集、测试集的图像位置和名称[19]。采用Labelme软件标注数据集。为了评估模型性能,选取样本数据的80%作为训练集,10%作为验证集,其余10%作为测试集[20]。

2.2 训练环境与参数设置

实验硬件环境如下:采用Intel(R)Xeon(R)W-2245CPU,实际运行频率为3.91GHz,配备Nvidia4090高性能GPU,以满足深度学习模型处理图像的高要求。配置64G的大容量内存,以确保数据处理和模型训练流畅。实验软件环境如下:操作系统为Windows10,深度学习框架为Pytorch,安装CUDA10.1,以提高深度学习模型的训练速度。

为提升模型训练精度,采用梯度下降法(SGD)优化模型权重[21],设置权重衰减系数为0.0001,动量为0.9,初始学习率为0.02。

2.3 困难样本挖掘

考虑到可能存在训练样本类别不均衡的问题,采用随机困难样本挖掘方法(RHEM)[22]在训练过程中随机选择一部分样本,从中挑选出最难识别的样本进行重点学习。该方法相较于其他方法的计算复杂度低。具体流程如下:使用初始训练数据集训练模型,得到初步参数;在每个训练批次中,随机选择一部分样本进行训练;对于所选样本,使用当前模型计算每个样本的损失值;根据损失值对样本进行排序,选择损失值较大的前n(通常是预先设定的超参数)个样本作为困难样本,基于困难样本进行反向传播和模型参数更新;重复上述步骤,直至达到训练迭代次数或者满足停止条件。

3 实验结果分析

3.1 模型准确性

使用多个指标评估模型的准确性,分别为平衡F分数(F1Score)、查准率、查全率、平均精度(AP)和mAP。F1Score用来衡量模型精确度,可以看作模型查准率和查全率的加权平均,其最大值为1、最小值为0[23]。查准率是模型预测为正例的样本中实际样本为正例的占比,用来衡量模型在正类预测中的准确性。查全率是指实际为正例的样本中被模型正确预测为正例样本的比例,用来衡量模型对正例样本的覆盖能力。查全率提高时,查准率通常会降低;反之亦然。AP基于查准率—查全率关系曲线计算得到,反映模型在所有可能阈值的平均性能。mAP是各类别AP的平均值,表示模型的综合性能。

ATD-CNN模型与FasterR-CNN改进模型的F1Score对比见图3。对于各种类别,ATD-CNN模型在不同置信度的F1Score值均稍大于FasterR-CNN改进模型的,ATD-CNN模型的F1Score平均值比FasterR-CNN改进模型的提升了2%。

ATD-CNN模型与FasterR-CNN改进模型的查准率—查全率关系曲线见图4。ATD-CNN模型的查准率—查全率关系曲线与坐标轴的包围面积大于Faster R-CNN改进模型的,表明ATD-CNN模型检测水面漂浮物时准确性更高。

YOLOv5由Ultralytics公司于2020年推出,是一种单阶段目标检测模型。根据网络结构的深度和宽度,将其分为YOLOv5S、YOLOv5M、YOLOv5L和YOLOv5X,其中YOLOv5X深度和宽度最大,拥有最强的学习能力和最高的检测精度,适用于对精度要求极高的场景。本文对比了ATD-CNN模型、FasterR-CNN改进模型、YOLOv5X模型的查全率、AP50(交并比为0.5时的平均精度),结果见表1。对于grass、branch、plastic-garbage、ball的检测,ATD-CNN模型的AP50值大于YOLOv5X模型的。除检测grass、ball外,ATD-CNN模型的AP50值均大于FasterR-CNN改进模型的。此外,计算可得ATD-CNN、YOLOv5X、FasterR-CNN改进模型的mAP值分别为0.515、0.500、0.480,与YOLOv5X、FasterR-CNN改进模型相比,ATD-CNN模型的mAP值分别提升了2.91%、6.80%,说明ATD-CNN模型的检测较为全面。

3.2 模型在实际场景中的检测效果

在实际场景中ATD-CNN模型与FasterR-CNN改进模型的目标检测效果对比见图5(篇幅有限,仅展示部分结果,图中方框上方英文为检测目标类别,数字为置信度),选取3张水面漂浮物局部原始图像[见图5(a)第1行],第2~4行分别为对照标签、ATD-CNN模型检测图、FasterR-CNN改进模型检测图。第1行原始图片中存在多个目标,而FasterR-CNN改进模型存在漏检现象,只检测到塑料瓶,对于最下方的牛奶盒没有检测出来。第2行图像,FasterR-CNN改进模型未能正确检测落叶。第3行图像光照弱,拍摄对象比较模糊,两种模型检测效果相当,但ATD-CNN模型检测置信度高于FasterR-CNN改进模型的。综上,ATD-CNN模型对水面漂浮物的漏检率明显下降,尤其对于水面漂浮特征不明显的树枝也能有效识别,充分展示了模型融合注意力机制的优势。

4 结束语

提出ATD-CNN模型对河南省郑州市惠济区南裹头黄河沿岸水面漂浮物进行检测,通过将注意力模块嵌入基本主干网络,计算特征图内部特征点之间的长距离相关系数,对显著性特征进行了有效增强。采用水平翻转、垂直翻转和90°旋转方法对数据进行增强。应用情况表明,与FasterR-CNN改进模型相比,ATD-CNN模型的mAP值提升了6.80%,F1Score平均值提升了2%,即ATD-CNN模型检测水面漂浮物的有效性和精度较高,可用于黄河水面漂浮物检测。

参考文献:

[1] 王军,王超梁,赵雪专.黄河流域生态环境监测WSN路由优化方法研究[J].人民黄河,2021,43(6):159-162.

[2] 王军.新一代信息技术促进黄河流域生态保护和高质量发展应用研究[J].人民黄河,2021,43(3):6-10.

[3] 李洪彬,许卫光,顾磊,等.城乡河网清漂设备发展[J].机电设备,2010,27(6):29-33.

[4] 蔡莹,唐祥甫,蒋文秀.河道漂浮物对工程影响及研究现状[J].长江科学院院报,2013,30(8):84-89.

[5] 蔡莹,李章浩,李利,等.河道型水库漂浮物综合治理措施探究[J].长江科学院院报,2010,27(12):31-35.

[6] 许立巍,郭德钦.漓江水面漂浮物情况调查及处理方式分析[J].轻工科技,2013,29(6):128-129.

[7] MOORECJ.SyntheticPolymersintheMarineEnvironment:ARapidlyIncreasing,Long?TermThreat[J].EnvironRes,2008,108(2):131-139.

[8] JUNGRT,SUNGHG,CHUNTB,etal.PracticalEngineer? ingApproachesandInfrastructuretoAddresstheProblemof MarineDebrisinKorea[J].MarPollutBull,2010,60(9):1523-1532.

[9] CHENCL,LIUTK.FilltheGap:DevelopingManagement StrategiestoControlGarbagePollutionfromShingVessels[J].MarinePolicy,2013,40:34-40.

[10] 刘世与.基于目标跟踪的全方位视觉自引导车动态定位技术[D].天津:天津理工大学,2008:1-11.

[11] 刘伟.一种基于智能相机的机器视觉系统的设计[J].重庆工商大学学报(自然科学版),2013,30(11):66-69.

[12] 周俊锋.基于机器视觉的水面垃圾自动监测算法的研究[J].广西轻工业,2011,27(2):86,88.

[13] 项新建,翁云龙,谢建立,等.基于改进YOLOv5s的水面漂浮物检测算法研究[J].人民黄河,2024,46(7):85-91.

[14] 王军,崔云烨,张宇航.世界模型研究综述[J].郑州大学学报(理学版),2024,56(5):1-12.

[15] 王军,高梓勋,朱永明.基于CNN-LSTM模型的黄河水质预测研究[J].人民黄河,2021,43(5):96-99,109.

[16] RENSQ,HEKM,ROSSG,etal.FasterR?Cnn:Towards Real?TimeObjectDetectionwithRegionProposalNetworks[J].IEEETransPatternAnalMachIntell,2017,39(6):1137-1149.

[17] 王军.黄河流域空天地一体化大数据平台架构及关键技术研究[J].人民黄河,2021,43(4):6-12.

[18] 王军,马小越,张宇航,等.基于SSA-LSTM模型的黄河水位预测研究[J].人民黄河,2023,45(9):65-69.

[19] 项伟康,周全,崔景程,等.基于深度学习的弱监督语义分割方法综述[J].中国图象图形学报,2024,29(5):1146-1168.

[20] 王军,高梓勋,单春意.基于TCN-Attention模型的多变量黄河径流量预测[J].人民黄河,2022,44(11):20-25.

[21] 张欣蕊.基于隐式随机梯度下降法的研究[D].长春:吉林大学,2019:9-12.

[22] 郭璐,刘斌,李维刚,等.基于困难样本对激励的小样本图像分类方法[J].计算机辅助设计与图形学学报,2024,36(6):895-903.

[23] 冯军.基于注意力机制与多尺度残差网络结构的目标检测算法研究[D].开封:河南大学,2020:23-35.

【责任编辑 栗 铭】

猜你喜欢
目标检测卷积神经网络注意力
让注意力“飞”回来
“扬眼”APP:让注意力“变现”
传媒评论(2017年3期)2017-06-13 09:18:10
视频中目标检测算法研究
软件(2016年4期)2017-01-20 09:38:03
基于深度卷积神经网络的物体识别算法
行为识别中的人体运动目标检测方法
深度学习算法应用于岩石图像处理的可行性研究
软件导刊(2016年9期)2016-11-07 22:20:49
基于深度卷积网络的人脸年龄分析算法与实现
软件工程(2016年8期)2016-10-25 15:47:34
A Beautiful Way Of Looking At Things
移动机器人图像目标识别
基于卷积神经网络的树叶识别的算法的研究