肖维颖 王健 李文顺
摘 要:隨着5G技术的发展,其高带宽、低时延和高密度接入特点,促使云计算模式向“云-管-端”模式改变,边缘计算作为终端关键技术对人工智能算法在算力有限的终端上的部署成为关键。以苗圃验收环节中松树株数识别的视频检索算法为例,提出一种适用于人工智能算法在终端部署的轻量级苗圃松树苗检测计数算法。算法通过在YOLOv5网络的基础上引入MobileNet v3特征提取机制来实现网络的轻量化,将压缩激励网络(Squeeze-and-Excitation Networks, SENet)中的轻量级注意模块集成作为bneck基本块,提高网络对于特征通道的敏感程度,增强网络的特征提取能力;在IoU(Intersection over Union,IoU)基础上进一步考虑目标框和预测框的向量角度,使用SIoU损失函数作为预测函数,重新定义相关损失函数,从而使苗圃树苗预测框更加接近真实框。研究结果表明,改进后的模型参数量明显减少,改进后的网络模型大小与对比试验中的方法相比,模型在准确率(Precision)降低3.26%、平均精确率均值(Mean Average Precision ,mAP)降低1.03%的情况下,帧率(Frame Per Second,FPS)提升了21.48%,达到71.43帧/s,计算量较原YOLOv5s减少了148.44%。证明该算法具有高效性和轻量性,为边缘计算终端人工智能算法移植提供算法原型。
关键词:YOLOv5;识别;MobileNet;松树树苗;轻量化
中图分类号:S771.1 文献标识码:A 文章编号:1006-8023(2023)04-0126-08
Research on YOLOv5 Lightweight Algorithm for Pine
Tree Strain Identification
XIAO Weiying1, WANG Jian1*, LI Wenshun2
(1.College of Computer and Control Engineering, Northeast Forestry University, Harbin 150040, China;
2.College of Information and Electrical Engineering, Heilongjiang Bayi Agricultural University, Daqing 163319, China)
Abstract:With the development of 5G technology, its high bandwidth, low latency and high density access features have led to a change in the cloud computing model to a'cloud-management-end' model, and edge computing as a key terminal technology has become critical to the deployment of AI algorithms on terminals with limited computing power. Taking the video retrieval algorithm for pine tree plant identification in nursery acceptance as an example, a lightweight algorithm for pine sapling detection and counting in nurseries suitable for terminal deployment of AI algorithms in proposed. The algorithm achieves network lightweighting by introducing the MobileNet v3 feature extraction mechanism on the basis of the YOLOv5 network, integrating the lightweight attention module in Squeeze-and-Excitation Networks (SENet) as a bneck basic block to improve the network's sensitivity to feature channels and enhance the network's feature extraction capability. The vector angles of the target and prediction frames are further considered on the IoU basis. The SIoU loss function is used as the prediction function and the associated loss function is redefined, thus making the nursery sapling prediction frame closer to the real frame. The results of the study show that the number of parameters of the improved model is significantly reduced, and the size of the improved network model is compared with the method in the comparison experiment, the model has a 21.48% improvement in frame rate (FPS) to reach to 71.43 frames per second with a 3.26% reduction in accuracy (Precision) and a 1.03% reduction in mean average precision (mAP), and the computational effort is reduced from the original YOLOv5s reduced 148.44%, proving that the algorithm is highly efficient and lightweight, providing an algorithm prototype for the porting of artificial intelligence algorithms to edge computing terminals.
Keywords:YOLOv5; recognition; MobileNet; pine saplings; lightweight
收稿日期:2022-10-21
基金项目:黑龙江省自然科学基金面上项目(F201028)
第一作者简介:肖维颖,硕士研究生。研究方向为通信与信号系统。E-mail: 1246346691@qq.com
通信作者:王健,博士,副教授。研究方向为物联网、边缘计算、嵌入式开发。E-mail: wangj.icec@nefu.edu.cn
引文格式:肖维颖,王健,李文顺. 松树株数识别的YOLOv5轻量化算法研究[J]. 森林工程, 2023,39(4):126-133.
XIAO W Y, WANG J, LI W S. Research on YOLOv5 lightweight algorithm for pine tree strain identification[J]. Forest Engineering, 2023,39(4):126-133.
0 引言
林业资源是生态环境重要的组成部分之一,生态环境保护离不开林业资源的支持[1],研究林业育苗技术对提高我国林业发展水平具有重要意义。传统的苗圃株数识别方法多以人工抽样估计为主,依赖于苗圃管理者对苗圃植株进行识别与统计计数,准确率低时效性差,且耗费大量的人力和物力。深度学习网络能够自动提取特征,从树苗的RGB图像中获取树苗的颜色、纹理和形状特征,训练出专属模型,实现对树苗目标的检测,此方法相较于人工识别更高效准确。
近年来,随着具有高带宽、低时延和高密度接入的5G技术的发展,传统集中式云计算架构已经不能满足云计算需求,边缘计算通过分布式的终端进行计算,解决了现有场景下云计算服务器算力不足的问题。同时,我国林业正在向“数字林业、智慧林业”方向转型[2],由于我国森林资源丰富,其“数字化、智慧化”过程中对数据存储及计算算力的要求非常高,采取云计算架构不仅会增加林业企业和政府负担,还会增加管理难度,本研究从边缘计算终端人工智能算法移植的角度出发,以轻量级改进为目标进行研究。
针对研究的松树苗圃环境复杂、枝叶遮挡、植株重叠、光照变化因素、实时性要求高、边缘计算终端存储空间小和算力不足的问题,摒弃了通过训练区域生成网络(Region Proposal Network,RPN)和检测目标在网络中的坐标信息[3]完成的Fast R-CNN[4]、Libra R-CNN[5]和Cascade R-CNN[6]等体量大、复杂度高的双阶段目标检测算法,使用体量较小的单阶段目标检测算法YOLO[7-9]系列、SSD[10]和FCOS[11]等中的YOLOv5算法作为基本算法,该算法由Redmon等[12] 提出,具有体积小、精度高的优点。
虽然YOLOv5具有体积小、精度高的特点,但将其直接部署到边缘计算终端时,仍存在检测速度较慢、计算量较大的问题,会造成误检、漏检等问题,无法满足任务实时性需求。研究以苗圃验收中松树株树自动识别为例,在保证检测精度变化不大的情况下,研究适合于边缘计算终端部署的算法,为人工智能及边缘计算技术在“数字林业、智慧林业”上的应用提供算法基础。
1 YOLOv5目标检测模型
随着5G通信技术发展传输带宽可以到1 GB,基于视频或图像检索的人工智能技术的数据量和计算量非常大,集中式的云计算模式达不到对图像数据的实时性处理需求,边缘计算通过海量终端可以减少云端计算和存储压力,但由于边缘计算终端设备价格低、存储小且算力不足,传统部署到云端的目标检测算法不适合终端部署。
相较于对设备性能的要求很高、对单幅图像的推理时间过长的双阶段目标检测算法,YOLOv5作为代表性的单阶段目标检测算法之一,计算复杂度较低、檢测速度较快且拥有较好的实时性能,能初步满足实际应用时将其搭载到小型嵌入式设备的要求。本研究将对YOLOv5进行改进,得到适合于CPU工作频率小于等于1.8 GHz、GPU工作频率小于等于400 MHz、成本在2 000元以内的边缘计算终端的轻量级人工智能算法。
1.1 YOLOv5原理
YOLOv5s是YOLOv5算法系列中最小的版本,其大小仅为15.9 MB。YOLOv5s的主要结构由4部分组成:输入、主干网、颈部网络层和头部检测终端,如图1所示。
输入端为图像预处理部分,包括Mosaic数据增强、自适应锚框计算、自适应图片缩放。Mosaic数据增强是将4张图片随机组合,为达到丰富图片背景的效果;自适应图片缩放即对不同长宽的原始图像尽量少地添加黑边,使图像为统一尺寸。
主干网络为特征提取部分,包括Focus模块、CSP模块和SPP池化金字塔结构。Focus模块的作用是通过减少参数计算来加快训练速度;CSP模块主要作用是进行局部跨层融合,利用不同层的特征信息获得更丰富的特征图。
颈部网络层为特征融合部分,包括特征金字塔网络(Feature Pyramid Network,FPN) [13]与路径聚合网络(Path Aggregation Network,PANet)。该组合结构提升了模型的特征融合能力,能获得更多的上下文信息,减少信息丢失。
头部检测终端为目标检测结果输出,采用GIoU_Loss作为Boundingbox的损失函数,并通过非极大值抑制(Non Maximum Suppression,NMS)来筛选目标框。
1.2 改进的 YOLOv5 算法
边缘计算终端由于采取分布式的“云-管-端”架构,可通过边缘计算平台对边缘计算终端的计算结果进行数据融合,所以在保证识别准确率、召回率和平均精度变化不大的情况下,提高帧率和计算量是研究重点。传统YOLOv5网络模型虽然检测具有一定的实时性,但为符合边缘计算终端实时性需求,其帧率和计算量还有待提升。针对此问题,本研究对YOLOv5网络进行改进。
1.2.1 主干网络的轻量化
传统YOLOv5的CSPDarkNet53[14]有104层卷积网络,使用大量的卷积操作,运算时会占用大量的运算资源,在边缘终端设备上运行速度会很慢,导致实时性变差,因此需对特征提取网络进行改进。
改进模型使用MobileNet v3[15]轻量化网络代替CSPDarkNet53进行图片特征提取,如图2所示。
MobileNet是一种适用于移动端的轻量级神经网络。MobileNet v3结合MobileNet v1的深度可分离卷积,保留MobileNet v2[16]中具有线性瓶颈层的逆残差结构MobileNet v2的线性瓶颈层(Bottleneck)和反转残差模块以及通过Shift操作和逐点卷积降低空间卷积。在深层网络激活函数使用h-swish代替ReLU6,增强量化过程,降低运算量,提高模型性能。改进主干网络后,与CSPDarkNet53相比,MobileNet v3网络深度更低,在识别准确度降低13.9%情况下,帧率(Frame Per Second,FPS)提升了32.8%,达到78.1帧/s,计算量较原YOLOv5s减少了152.4%。
1.2.2 注意力机制的添加
网络结构的轻量化改进能够大幅降低模型的参数量和计算量,但与此同时带来了平均精确度的下降,因此,需要对模型进一步优化以提高模型平均精确度。
自然环境下的松树苗圃植株顶尖常出现重叠和枝叶遮挡的问题,造成模型检测平均精确度的下降,采用将位置信息与通道信息相结合的坐标注意力机制施加于网络的关键位置中,增加模型对树尖特征的敏感程度。对于任务中较难识别的重叠、遮挡目标分配高权重加以关注,对于不感兴趣的自然背景分配低权重加以抑制,提高自然环境下松树苗植株的识别精度。本研究将CA注意力机制(Coordinate attention,CA)[17]融合到主干特征提取网络最后一层。
CA注意力机制是基于坐标信息嵌入(Coordinate Information Embedding,CIE)和坐标注意力生成(Coordinate Attention Generation,CAG)2个步骤来编码通道关系和长距离关系,具体结构如图3所示。为解决Channel Attention全局池化编码难以保留重要的空间信息问题,研究将全局池化改造成2个一维向量的编码操作,对于形状为C×W×H输入特征图X,使用池化核(H,1)和(1,W)来编码水平方向和垂直方向特征,即第c维特征的输出为
zhc(h)=1W∑Wi=0xc(h,i) 。 (1)
zwc(w)=1H∑Hj=0xc(j,w) 。 (2)
式中:H和W分别为特征图的高度和宽度;xc(h,i)和xc(j,w)分别代表特征图水平方向和竖直方向的特征;zhc(h)表示高度为h的第c个通道的输出;zwc(w)表示宽度为w的第c个通道的输出。
式(1)和式(2)从不同的方向集成特征,输出一对方向可知的特征图。对比全局池化的压缩方式,这样能够允许注意力机制(Attention Block,AB)捕捉单方向上的长距离关系,同时保留另一个方向上的空间信息,帮助网络更准确地定位目标。
为了更好地利用上述的坐标信息,采用配套的CAG操作,主要基于3点准则进行设计:1)足够简单和轻量;2)能完全利用提取的位置信息;3)能同样高效地处理通道间的关系。首先将公式(1)和公式(2)的输出连接起来,使用1×1卷积、BN和非线性激活进行特征转化
f=δ(F1([zh,zw]))。 (3)
式中:f∈RC/r×(H+W)為包含横向和纵向空间信息的中间特征;r为缩减因子。随后将f分为2个独立的fh∈RC/r×H和fw∈RC/r×W,使用另外2个1×1卷积和sigmoid函数进行特征转化,使其维度与输入X一致。
gh=σ(Fh(fh)) 。 (4)
gw=σ(Fw(fw)) 。 (5)
将输出gh和gw合并成权重矩阵,用于计算坐标注意模块(Coordinate Attention Block,CA Block)输出。
yc(i,j)=xc(i,j)×ghc(i)×gwc(j) 。 (6)
其中CA Block与SE Block的最大区别是,CA Block的每个权重都包含了通道间信息、横向空间信息和纵向空间信息,能够帮助网络更准确地定位目标信息,增强识别能力。
基于YOLOv5模型进行网络轻量化改进后的网络如图4所示。
1.2.3 边界损失函数的改进
损失函数是衡量模型预测结果准确性的一种方法。YOLOv5算法的损失函数由3部分组成:分类损失、目标置信度损失和目标框与预测框位置损失(也称边界框损失)。其中,YOLOv5原始模型的边界框损失函数为GIoU_loss。IoU即“预测边框”和“目标边框”交集和并集的比值,预测框和目标框位置越接近,则IoU的值越趋近于1。GIoU是Rezatofighi等 [18]在IoU的基础上提出的一种改进,通过增加相交尺度的衡量方式解决了用IoU_loss做边界框损失函数时存在的问题:当2个边框不重合时,IoU的计算为0,无法反映2个边框的距离,且此时没有梯度传回,模型不能进行训练优化;此外,还存在有边框相交面积相同,即IoU(式中用IoU表示)相同,但重合度不同的情况。GIoU(式中用GIoU表示)的思路是:对于任意的2个边框A、B,先找到一个能够包住其最小方框D,然后再按式(7)和式(8)计算GIoU_loss(式中用LGIoU表示)。
GIoU=IoU-D-(A∪B)D 。 (7)
LGIoU=1-GIoU 。 (8)
然而,GIoU依賴于边界框回归指标的聚合,没有考虑到所需真实框与预测框之间不匹配的方向,这种不足导致收敛速度较慢且效率较低,因此预测框可能在训练过程中游离并最终产生更差的模型。研究中提出了一种新的损失函数 SIoU(式中用LSIoU表示),其中考虑到所需回归之间的向量角度,重新定义了惩罚指标,提高了训练的速度和推理的准确性。
LSIoU=1-IoU+Δ+Ω2 。 (9)
式中:Δ和Ω分别为真实框与预测框之间的距离损失及形状损失。
2 试验结果与分析
2.1 试验环境
试验模型训练基于Pytorch 1.12.1深度学习框架,采用ubuntu操作系统,显存 NVIDIA Geforce GTX 2080Ti GPU,CPU为Intel(R) Xeon(R) Gold 5 182R CPU@2.10GHz。
改进算法的试验测试能够在边缘计算终端进行,边缘计算终端为VKBoard开发板,该开发板操作系统为Linux 3.14.28内核,采用TI的OMAP4 460系列芯片,该系列芯片拥有2颗基于对称多处理(SMP)架构的低功耗、高性能的ARM Cortex-A9 MPCore处理器,其CPU频率为1.5 GHz;集成了PowerVR SGX540图形核心的GPU,其频率为400 MHz。该开发板GPU可实现6.4 GB的每秒浮点运算,同时利用CPU参与运算,其每秒浮点运算大于6.4 GB。
2.2 试验准备
本研究的数据来源于黑龙江省伊春森工朗乡林业局公司英山苗圃,使用大疆无人机距地1.4 m飞行拍摄,每秒拍摄25帧,速度保持在0.8 m/s,1个床需要飞行25 s,一共采集了40床的视频数据,共获得25 000帧图像,每张图像的分辨率为1 920×1 080像素。将采集到的数据进行整理和筛选,挑选出19 780张的苗圃图片构建图像数据集。
根据松树幼苗的外形特性,松树幼苗时的树冠呈金字塔形,树冠最顶端有一枝较为明显的树枝,可以区分为一株松树幼苗。将整理和筛选后的19 780张的苗圃图片构建图像数据集,用LabelImg软件对采集到的图片中所有的松树苗树冠顶尖轮廓进行标注,构建松树树苗数据集,模型能够学习到标注出的松树特征。数据集的部分样本如图5所示。
由于目标检测中模型学习过程需要大量有标签的数据集,其中15 824张标签样本用于训练,通过随机裁剪、对比度增强和图像叠加等方法扩充得到47 472张作为训练集,剩下3 956张作为测试集。在训练过程中还采用了Mosaic数据增强方法,即每次随机对4幅图像进行随机缩放、裁减、左右翻转和加噪声等处理,拼接成1张含丰富信息的图像,丰富了检测物体的背景,很好地提升了对松树小目标的检测效果。
2.3 评价指标
试验采用准确率(Precision,式中用P表示)、召回率(Recall,式中用R表示)与平均精度均值(Mean Average Precision,MAP,式中用MAP表示)作为评价指标来评估网络的性能。其中MAP是目标检测中最常用的评估识别准确率的指标之一。相关评价指标的计算公式如下
P=TPTP+FP。 (10)
R=TPTP+FN。 (11)
AP=∫10PdR。 (12)
MAP=∑Nj=1APjN。 (13)
式中:TP、FP、FN分别表示每个测试集场景中的正确检测出、错误检测出以及没有检测出的目标总数;AP为单个目标类别的平均精度,近似等于P/R曲线下面积(Area under Curve,AUC)。另外,本研究还计算了实时帧率FPS和浮点数FLOPs用于比较模型的检测速度和计算量。
2.4 试验结果
2.4.1 主干网络优化试验对比
各优化主干网络对比见表1,为保证模型能够部署到存储能力和计算能力较小嵌入式端并进行实时检测,模型参数和实时帧率为主要评价指标。由表1可知,采用ShuffletNet v2 Block和MobileNet v3 Block替换YOLOv5主干网络都可以满足轻量化的要求,但明显采用轻量级网络MobileNet v3 Block的方案取得了更好的试验结果,模型计算量减少到6.3 GB,FPS提升到78.1帧/s。
2.4.2 损失函数对模型检测效果的影响
表2为不同损失函数对模型检测效果试验对比。由于YOLOv5原本损失函数GIoU依赖于边界框回归指标的聚合,没有考虑到所需真实框与预测框之间不匹配的方向,导致收敛速度较慢且效率较低。SIoU考虑到所需回归之间的向量角度,重新定义了惩罚指标,提高了训练和推理的准确性。由表2可知,在本试验中,SIoU比EIoU、GIoU各指标都更优秀。
2.4.3 施加坐标注意力机制对模型检测效果的影响
将CA引入本研究轻量级网络架构,提升了网络对密集树苗目标的识别效果,能够有效改善枝叶遮挡、松树苗特征重叠,对苗圃检测带来的精度损失问题,在仅引入少量参数的前提下, FLOPs由15.9 GB大幅度减少到了6.4 GB,较原减少了148.44%; FPS由58.8帧/s增加到了71.43帧/s,较原YOLOv5s帧率(FPS)提升了21.48%; MAP较原YOLOv5s降低了1.03%;准确率降低了3.26%,具体数值见表3。
由表3可知,改进的YOLOv5模型的准确率、MAP和召回率在可接受范围内小幅度降低,但在FLOPs和FPS上大幅提升,能够使边缘计算终端设备识别计数松树树苗时,做到更加实时、流畅地检测。因此,该改进算法是一种更加轻量化、低延时的松树株数检测算法,模型训练后的MAP如图7所示,模型检测结果如图8所示,图8样本图片所包含实际松树幼苗株数为28棵。
3 結论
本研究提出一种适合于边缘计算终端的、融入CA注意力机制并优化边界框损失的改进YOLOv5s轻量级松树株数检测算法,该算法为林业监测终端智能化提供了算法支撑。试验结果表明,改进后的模型在保证精确度的同时,速度有了明显提升,改进后的模型帧速率约为原YOLOv5模型的1.2倍,满足了实时性需求,模型计算量大幅度减少,降低了对终端存储要求,使5G在林业检测应用场景的实时进一步成为可能。
为进一步降低边缘计算终端性能要求,未来工作将着手于在保证检测25帧/s的需求情况下,进一步寻找更优算法,在降低每秒运算的帧率、保证算法的检测精度值和准确度基础上,减少浮点运算量,进而提升模型的泛化能力和水平。
【参 考 文 献】
[1]谢利娟,王茸仙,刘慧.生态环境保护下中国林业的可持续发展策略[J].林产工业,2021,58(6):106-108.
XIE L J, WANG R X, LIU H.Sustainable development strategy of china's forestry under ecological environment protection[J]. China Forest Products Industry, 2021, 58(6):106-108.
[2]佟明亮,曾定茜.数字林业平台建设及应用研究——评《数字林业平台技术基础》[J].林业经济,2021,43(1):100.
TONG M L, ZENG D X. Research on the construction and application of digital forestry platform-evaluation of ‘Technical Basis of Digital Forestry Platform[J]. Forestry Economics, 2021, 43(1):100.
[3]张陶宁,陈恩庆,肖文福.一种改进 MobileNet_YOLOv3 网络的快速目标检测方法[J].小型微型计算机系统, 2021, 42(5): 1008-1014.
ZHANG T N, CHEN N Q, XIAO W F. Fast target detection method for improving MobileNet_YOLOv3 network[J]. Journal of Chinese Computer Systems, 2021, 42(5): 1008-1014.
[4]GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision. Boston, USA. IEEE, 2015: 1440-1448.
[5]PANG J M, CHEN K, SHI J P, et al. Libra R-CNN: Towards balanced learning for object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA. IEEE, 2019: 821-830.
[6]CAI Z, VASCONCELOS N. Cascade R-CNN: delving into high quality object detection[C]//2018 IEEE Conference on Computer vision and pattern recognition. Salt Lake City, UT, USA. IEEE, 2018: 6154-6162.
[7]REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA. IEEE, 2016: 779-788.
[8]REDMON J, FARHADI A. YOLO9000: better, faster, Stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA. IEEE, 2017:6517-6525.
[9]DONG X D, YAN S, DUAN C Q. A lightweight vehicles detection network model based on YOLOv5[J]. Engineering Applications of Artificial Intelligence, 2022, 113: 104914.
[10]LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//European Conference on Computer Vision. Amsterdam: Springer, 2016: 21-37.
[11]TIAN Z, SHEN C H, CHEN H, et al. FCOS: fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA. IEEE, 2019: 9627-9636.
[12]REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA. IEEE, 2016:779-788.
[13]LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA. IEEE, 2017 : 2117-2125.
[14]丘浩,張炜,彭博雅,等.基于YOLOv3的特定电力作业场景下的违规操作识别算法[J].电力科学与技术学报,2021,36(3):195-202.
QIU H, ZHANG W, PENG B Y, et al. Illegal operation recognition algorithm based on YOLOv3 in specific power operation scenario[J]. Journal of Electric Power Science and Technology, 2021, 36(3) :195-202.
[15]HOWARD A, SANDLER M, CHU G, et al. Searching for mobilenetv3[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South). IEEE, 2019: 1314-1324.
[16]SANDLER M, HOWARD A, ZHU M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Salt Lake City, UT, USA. IEEE, 2018: 4510-4520.
[17]HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[EB/OL]. 2021: arXiv: 2103.02907. https://arxiv.org/abs/2103.02907.
[18]REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized intersection over union:a metric and a loss for bounding box regression[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Long Beach, CA, USA. New IEEE, 2019:658-666.