基于改进YOLOV5模型的嵌入式端航拍图像目标检测

2023-12-25 07:15
北京测绘 2023年9期
关键词:航拍分支特征提取

倪 立 黄 征 杨 静

(1.联合数维(杭州)科技有限公司,浙江 杭州 310000;2.杭州市土地勘测设计规划院有限公司,浙江 杭州 310000;3.中国水利水电第八工程局有限公司,湖南 长沙 410000)

0 引言

随着无人机技术的发展,凭借无人机灵活和低廉的优势,在城市交通、地形勘测、城市规划等领域被广泛使用[1]。由于无人机航拍的图像数据较多[2],仅凭人眼判别航拍图像目标工作量巨大,很难高效、精准地提取航拍图像中包含的信息[3]。

基于深度学习的航拍目标检测算法主要可分为基于RCNN模型(regions with CNN features)[4]一阶目标检测方法和基于YOLO(you only look once)模型[5]二阶目标检测方法;基于RCNN 模型的航拍检测方法效率较低,不利于嵌入式部署;基于YOLO 模型检测方法,模型体积小、推理速度高,可方便部署到嵌入式端。例如:刘英杰等[6]提出基于特征金字塔网络的航拍图像目标检测方法,再RCNN 模型中添加特征金字塔层,可有效增加模型对航拍小目标检测能力。陈锋军等[7]改进YOLOV3(you only look once V3)算法[8]对航拍云杉计数,对模型特征提取网络和密集连接模块改进,可高效定位云杉。宋建辉等[9]对FasterRCNN(faster regions with CNN features)模型[10]的特征融合层添加金字塔,改变模型的特征提取网络和检测模块,以此增加模型对小样本提取能力。黄文斌等[11]提出对YOLOV3 模型中添加金字塔模块,借助普遍交并比(generalized IOU,GIOU)[12]代替平方和用作定位损失,提高模型的定位精度。刘悦等[13]借助YOLOV4(you only look once V4)模型[14]定位航拍图像绝缘子,然后使用传统算法判断绝缘子是否损坏。赵玉卿等[15]对YOLOV4 模型引入注意力机制和轻量化网络,首先使用聚类算法分析并优化模型的锚框参数,然后对特征提取网络改进,引入轻量化模块和注意力机制。于娟等[16]对YOLOV5(you only look once V5)模型[17]改进,使用平滑散度损失函数代替原损失置信度交叉熵,并对特征提取模块改进提取模型的语义表达能力。龙赛等[18]提出轻量化YOLOV5 模型,首先对特征提取模块引入轻量化特征增强模块,然后根据航拍目标尺度分布,重新设计特征融合网络,该方法不仅保持了YOLOV5 模型的轻量高效,还增加了检测精度。

本文旨在嵌入式端实时检测航拍目标,不仅要保持YOLOV5 模型检测精度,而且要提高YOLOV5 模型检测效率。为此,本文提出一种基于可重参化特征提取网络(RepVGG)[19]的改进YOLOV5模型的目标检测算法。首先利用可重参化思想构建YOLOV5 模型特征提取网络,然后训练改进YOLOV5 模型,推理时多分支网络转化为单路结构,最后把Pytorch 模型文件转化为ONNX模型文件,借助TensorRT完成目标检测模型部署。

1 相关工作

1.1 YOLOV5目标检测算法原理

采用深度学习的方法对航拍图像进行检测,主要可分为一阶和二阶算法,本文使用YOLO 系列算法属于一阶方法,可直接预测得到目标的位置和分类信息。YOLOV5算法可将整个模型分为4 个部分,分别为输入层、骨干网络、颈部网络和预测层。

(1)输入层:采用马赛克方式增强网络,可得到数据集最佳锚框,也可随机拼接、缩放图像,实现数据集增强。

(2)骨干网络:主要包含焦距模块(focus)和跨越阶段局部网络结构(cross stage partial network,CSP),相较YOLOV4 和V3 有效的增加了模型的特征提取能力。

(3)颈部:主要包含路径聚合结构和空间金字塔结构,路径聚合结构可自上而下和自下而上的融合不同层特征信息。

(4)预测层:借助基于距离的交并比计算损失函数,可解决不同目标的边框不重合问题。损失函数可表示为

式中,IOU为目标真实框与预测框的交并比;C为目标真实框与预测框最小外接矩形;差集为C与真实框和预测框的并集。

1.2 RepVGG网络结构

为了获得高性能的深度学习网络模型,前人总结了以下几种可显著提高深度学习模型性能的结构。

1.2.1 分支结构

在网络模型中,在不同分支上添加不同尺寸的卷积核,可得到不同的感受,可增强模型的学习能力;但多分支结构需保存大量分支数据,会消耗计算机大量显存,降低模型的推理速度。

1.2.2 性能优异组件

为了解决上述问题,可重参化模型提出结构重参数化方法,尽量使用多分支训练模型;在推理时,借助结构重参数化方法将模型变为单路结构,减少模型显存,增加推理速度。

在多分支训练模型后,推理时,需把多分支模型转化为无分支模型,主要可分为三大支路:卷积核3×3、卷积核1×1 和一致性层,这三种支路均带有归一化层,具体合并方式如图1所示。

图1 改进YOLOV5结构

RepVGG 模型中拥有大量的卷积层+归一化层结构,将相邻层合并可以有效减少层数增加模型性能,则推理时卷积层的公式表示为

式中,W表示权重;b表示偏移。

归一化层表示为

把卷积层带入归一化层,可得

则最终融合结果,可表示为

卷积分支融合,将3×3 卷积核与1×1 卷积核融合。1×1 卷积和3×3 卷积操作过程相同,故若将3×3 卷积与1×1 卷积融合,只需把1×1 卷积核扩展成3×3 形式,然后与3×3 卷积核相加,再对特征层卷积操作即可。

输出一致性层融合。输出一致性层转化为1×1 卷积,只需构造出1×1 单位卷积核,再把1×1卷积核等价转化为3×3卷积核。

1.2.3 基于改进YOLOV5 航拍图像目标检测

原YOLOV5 算法使用DarkNet 网络[20]为特征提取网络,虽可稳定定位目标位置,但DarkNet 特征提取网络推理速度较慢,对硬件内存消耗较大,很不利于无人机记载设备部署模型,为此本文提出一种基于RepVGG 结构的YOLOV5 模型。RepVGG 结构通过结构重参数化思想,在训练时模型为多路结构,推理时转换为单路结构模型,对模型重构实现推理加速。

图1(a)为本文改进RepVGG_YOLOV5 训练模型,训练时模型是多分支网络;图1(b)为RepVGG_YOLOV5 推理模型,对多分支网络重参化后得到单分支推理网络。

2 实验

2.1 实验数据及参数

无人机航拍数据集(dataset for object detection in aerial images,DOTA)是武汉大学团队搜集(图2),拥有11 268 张图片,共有18 个类别,包括飞机、船舶、储罐、棒球场、网球场、篮球场、地面田径场、港口、桥梁、大型车辆、小型车辆、直升机、环形交叉路口、足球场、游泳池、集装箱起重机、直升机停机坪以及机场,图像尺寸为4 000×4 000像素。

本文实验环境为:Intel(R)Core(TM)i9-7900X CPU @ 3.30 GHz,GPU 英伟达3090ti,Ubuntn 20.0 系统,Pytorch1.8 深度学习框架,编程语言Python3.6。本文采用梯度下降法优化模型,初始化学习率为0.001,并借助线性学习率衰减方法,每迭代50次,学习率衰减为0.5。

2.2 实验数据统计

表1 为YOLOV5 模型和本文所提RepVGG_YOLOV5模型体积、推理速度和参数量统计值,模型体积降低20%左右,参数量减少30%左右。把Pytorch 模型转换为ONNX 模型部署到JETSON NANO 嵌入式开发板,如图3 所示,使用TensorRT框架完成模型推理,得到推理时间,由表1 可知,本文改进YOLOV5 模型相较原YOLOV5 模型推理时间提高一倍以上。

表1 各种模型参数大小

图3 JETSON NANO 开发板

在DOTA 数据集上,对YOLO 系列模型的检出率、召回率和平均召回率0.5(mean average precision 0.5,mAP0.5)统计,得到表2。由表2知,所提改进RepVGG_YOLOV5 模型的检出率、召回率和mAP0.5 均为最佳,与YOLOV5 相比检出率增加0.03%,召回率增加0.02%,mAP0.5 增加1.22%。

表2 YOLO系列算法综合指标分析

2.3 结果分析及检测效果展示

本文提出改进YOLOV5 模型使用多分支训练模型,预测时改为单路模型,可有效降低YOLOV5 模型参数量。因此,本文改进YOLOV5模型部署在NANO 开发板后,模型参数量降低,故推理耗时较原YOLOV5模型降低60%左右。

YOLOV5 模型是在YOLOV3 和V4 基础上改进得到,故各项指标均优于YOLOV3 和V4,所提改进算法YOLOV5 模型使用RepVGG 模块提取航拍图像特征,不仅可以提高YOLOV5 模型稳定性,还可减小模型体积。故本文改进YOLOV5 模型的召回率、检出率和mAP0.5 等值均为最佳,如表2 所示,可表明改进YOLOV5 模型稳定性最好。

图4 为JETSON NANO 开发板使用TensorRT框架推理得到目标检测效果,由图4可知,本文所提方法可稳定检测目标位置。

图4 检测效果

3 结束语

为了高效地完成无人机机载设备目标检测模型推理,本文提出一种改进可重参化YOLOV5模型。首先替换原YOLOV5 模型特征提取网络为RepVGG 结构,然后训练完模型后把特征提取网络转换为单路网络结构,最后把Pytorch模型转化为ONNX 模型,借助RensorRT 框架完成推理模型部署。与原YOLOV5 模型相比,所提模型推理速度、检出率、召回率以及mAP0.5 均有较大提升,表明所提方法可较好地部署到无人机机载嵌入式设备中。

猜你喜欢
航拍分支特征提取
航拍下的苗圃与农场
巧分支与枝
基于Daubechies(dbN)的飞行器音频特征提取
难忘的航拍
一类拟齐次多项式中心的极限环分支
《航拍中国》美得让人想哭
Bagging RCSP脑电特征提取算法
陕西画报航拍
基于MED和循环域解调的多故障特征提取
生成分支q-矩阵的零流出性