一种面向自动驾驶路况的目标检测算法

2024-05-30 14:54顾清滢金紫怡蔡宇航李昶铭刘翔鹏
关键词:锚框候选框原图

顾清滢 金紫怡 蔡宇航 李昶铭 刘翔鹏

摘  要: 为了对常见的行人和车辆进行检测,采用自行标注的数据集,通过基于faster region-based convolutional neural network (RCNN)框架的算法进行调参与优化. 主干网络采用轻量化网络MobileNetv2,在原生锚框的基础上,区域建议网络(RPN)部分增加2个面积尺度,检测部分使用感兴趣区域(ROI)Align结构,减少特征图映射和均分过程中的误差. 实验结果表明:使用faster RCNN目标检测网络,可以有效完成行人和车辆的检测任务,整体效果良好.

关键词: 目标检测; faster region-based convolutional neural network (RCNN); 行人車辆检测; 区域建议网络(RPN)

中图分类号: TP 18    文献标志码: A    文章编号: 1000-5137(2024)02-0156-05

A target detection algorithm for autonomous driving scenarios

GU Qingying, JIN Ziyi, CAI Yuhang, LI Changming, LIU Xiangpeng?

(College of Information, Mechanical and Electrical Engineering, Shanghai Normal University, Shanghai 201418, China)

Abstract: In order to detect common pedestrians and vehicles, a self-annotated dataset was introduced and an optimized algorithm was proposed based on the faster RCNN (region-based convolutional neural network) 1 framework for parameter tuning in this paper. The lightweight MobileNetv2 was utilized as the backbone network, and two additional area scales were added to the region proposal network(RPN)on top of the original anchor boxes. The ROI Align structure was employed in the detection part to reduce errors in feature mapping and pooling process. Experimental results showed that by using the faster RCNN object detection network pedestrian and vehicle detection tasks could effectively accomplished with overall good performance.

Key words: target detection; faster region-based convolutional neural network (RCNN); pedestrian and vehicle detection; region proposal network (RPN)

自动驾驶技术1中的目标检测通过计算机视觉技术识别图像中的物体,并将其与背景区分. 近年来,基于深度学习的目标检测算法受到广泛重视,尤其是车辆目标检测,涉及对行人、车辆、道路等的识别以及辅助驾驶、道路监控等的研究,如AlexNet卷积神经网络及智慧交通下的机器视觉检测2.

1  目标检测网络

1.1 Faster region-based convolutional neural network (RCNN) 的框架3

采用的faster RCNN算法是在RCNN4基础上的改进版本,主要包括4个模块:特征提取网络、区域建议网络(RPN)5、检测部分和预测部分,如图1所示. 首先将图片输入特征提取网络,得到特征图(feature map);然后在RPN中生成包含检测目标的建议框(proposals),将建议框映射到原图上获得特征矩阵,并通过感兴趣区域(ROI) Pooling层6缩放成固定大小的特征图;最后将特征图展平之后通过全连接层进行处理,并输入预测器中得到待检测目标的类别和位置信息.

1.2 主干网络模块

MobileNetv27是一种轻量级的卷积神经网络,主要用于图像分类、目标检测和语义分割等计算机视觉任务,其设计目标是在减小模型的参数量和计算量的同时,保持较高的精度.

1.3 RPN模块

RPN中的锚框大小和宽高比例决定了候选区域框的质量,候选区域通过faster RCNN的检测头,进入最终网络预测器中,对待检测目标的类别和位置进行预测. 由此可见,合适的锚框可以较为精确地定位待测目标,从而提高网络检测精度.

原faster RCNN模型中以3种宽高比例(0.5,1,2)和3种面积尺度(128,256,512)生成由9个anchor box组成的锚框,如图2所示. 在原有的faster RCNN的锚框生成机制上进行优化,采用5种面积尺度(32,64,128,256,512)生成锚框,更好地匹配检测目标,有效地提升模型性能.

1.4 检测模块

ROI pooling将输入图片在主干网络中生成的特征图转换为固定宽高的尺寸,减少原图因直接压缩造成的信息损失. 首先在输入的原图中得到候选框;再根据特征图和原输入图像的缩放关系将候选框映射到原图的对应位置,并将映射后的区域按照输出的宽度和高度要求(通常为7×7)划分为相同大小的几个部分;最后通过最大池化操作输出固定宽高尺寸的矩形框. 由于像素点是离散的,整个处理过程会存在两处误差:(1) RPN中生成的候选框是在原图上获取的,经过特征提取网络和RPN之后得到的特征图尺寸与原图存在一定的比例关系,映射过程中就会产生非整数的尺寸,ROI pooling的处理方法是直接向下取整,造成一定的偏差,如图3(a)中的绿色框到蓝色框即为第一次偏差形成的过程;(2) 特征图区域存在像素点无法均分的情况,如图3(a)所示,要对候选框内的特征图进行2×2均分,但由于长宽为5和4,只能进行近似均分,由此造成偏差.上述误差会对结果造成较大影响. 对于如烟头、树叶、瓶盖等小目标图片,预测框位置偏差会使原本的标注发生偏移,降低检测类别和位置回归的准确率.

本研究的ROI align主要采用虚拟像素方法,即利用双线性插值法计算非像素坐标点处的像素值,避免ROI pooling过程中所产生的误差,如图3(b)所示.

Faster RCNN属于两阶段的目标检测网络,其中RPN部分输出的是2 000个候选框,设置交并比(IoU)为0.5,进一步筛选出512个由正负样本组成的候选框,得到最终的目标类别信息和回归参数信息,经过非极大值抑制(NMS)处理后输出结果.

2  实验过程设计和结果分析

2.1 实验平台搭建及超参数说明

本实验硬件平台为Linux操作系统. CPU的型号为Intel(R) Xeon(R) Gold 6330,核数為14核. GPU的型号为NVIDIA GeForce RTX 2070,显存为24 GB. 采用基于pyTorch实现的深度学习目标检测算法,代码运行环境为Python 3.8.

本研究所有对比实验的RPN中,正样本界定的IoU阈值为0.7,负样本界定的IoU阈值为0.3,优化器均采用带动量的随机梯度优化器(SGD),初始学习率设置为0.005,学习率更新策略采用StepLR方法,每迭代3个epoch之后,学习率缩减为原来的1/3,动量设置为0.9,权值衰减系数设置为0.000 5,batch_sizes设置为6,采用自动混合精度训练,并且每个实验均训练24个epoch,最后一个epoch的学习率降为7×10-7.

2.2 评价指标

准确率P和召回率R计算如下:

, (1)

, (2)

其中,TP表示预测及实际均为正样本的个数;FP表示预测为正样本且实际为负样本的个数;FN表示预测为负样本且实际为正样本个数.

采用目标检测算法中常用的性能评价指标,平均精度AP和平均精度均值mAP对各实验结果进行评价,

, (3)

, (4)

其中,PR)为所有PR关联点的拟合曲线;N为总类别数.mAP越大,说明检测准确率越高.

2.3 实验结果与讨论

研究对象为行人、车辆等,使用的数据集为本文作者自行标注,选取了地面上常见的car,truck,bus,bicycle,elebicycle,tricycle共6个类别,共计233张图片,同时使用labelimg标注软件对待检测目标进行人工标注,得到每张图片对应的xml格式标注文件,并且按照8∶2的比例将数据集随机划分为训练集和测试集两部分.

为验证算法的检测性能,在所构建的数据集上对模型进行训练和测试,实验结果如图4所示. 由图4可知,运行Train_mobileNetV2脚本之后,模型的最终可达86.7%.

从数据集的测试集中随机抽取2张图像进行测试,其检测结果如图5所示.

4  结论

采用了自行标注的数据集,通过基于faster RCNN框架的算法进行调参与优化,以实现对常见的行人和车辆的检测功能. 通过实验结果可以看出,所提出的算法能够准确且完整地框选出待检测目标,取得了良好的效果. 然而,由于小尺寸和有遮挡的目标存在语义信息提取困难的问题,与大尺寸目标相比,检测精度仍然有所不足. 因此,在后续的工作中,需要进一步研究候选框比例的调配以及对小目标检测网络的优化.

参考文献:

[1] HSIEH P. Autonomous driving technologies and computing platform [C]// 2019 International Symposium on VLSI Design, Automation and Test (VLSI-DAT). Hsinchu:IEEE, 2019:1.

[2] 滕婷婷. 面向交通复杂目标场景的机器视觉检测技术研究 [D]. 南京:南京邮电大学, 2022.

TENG T T. Research on machine vision detection technology for complex traffic scenes [D]. Nanjing: Nanjing University of Posts and Telecommunications, 2022.

[3] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN:towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017,39(6):1137-1149.

[4] GIRSHICK R, DONAHUE J, DARRELL T, et al. Region-based convolutional networks for accurate object detection and segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016,38(1):142-158.

[5] BO L, YAN J J, WEI W, et al. High performance visual tracking with Siamese region proposal network [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City: IEEE, 2018:8971-8980.

[6] QIN Y Y, HE S Y, ZHAO Y, et al. RoIpooling based fast multi-domain convolutional neural networks for visual tracking [C]// Proceedings of the 2016 2nd International Conference on Artificial Intelligence and Industrial Engineering. Beijing: AIIE, 2016:198-202.

[7] JAVED M S F M, CHAKRABORTY S, MOHARRAM M S, et al. A transfer learning approach for face recognition using average pooling and MobileNetV2 [M/OL]// Lecture Notes on Data Engineering and Communications Technologies, Congress on Intelligent Systems. Barcelona: Springer, 2022:531-541.

(責任编辑:包震宇,顾浩然)

DOI: 10.3969/J.ISSN.1000-5137.2024.02.002

收稿日期: 2023-12-25

基金项目: 上海师范大学一般科研项目(SK202123)

作者简介: 顾清滢(2003—), 女, 本科生, 主要从事智能网联汽车方面的研究. E?mail: 1000517050@smail.shnu.edu.cn

* 通信作者: 刘翔鹏(1987—), 男, 讲师, 主要从事人工智能方面的研究. E?mail: xliu@shnu.edu.cn

引用格式: 顾清滢, 金紫怡, 蔡宇航, 等. 一种面向自动驾驶路况的目标检测算法 [J]. 上海师范大学学报 (自然科学版中英文), 2024,53(2):156?160.

Citation format: GU Q Y, JIN Z Y, CAI Y H, et al. A target detection algorithm for autonomous driving scenarios [J]. Journal of Shanghai Normal University (Natural Sciences), 2024,53(2):156?160.

猜你喜欢
锚框候选框原图
基于YOLOv3锚框优化的侧扫声呐图像目标检测
锚框策略匹配的SSD飞机遥感图像目标检测
基于SSD算法的轻量化仪器表盘检测算法*
重定位非极大值抑制算法
基于GA-RoI Transformer的遥感图像任意方向目标检测
面向自然场景文本检测的改进NMS算法
基于Soft-NMS的候选框去冗余加速器设计*
完形:打乱的拼图
一种针对特定目标的提议算法
大家来找茬