采用注意力机制与改进YOLOv5的光伏用地检测

2023-12-26 02:49陈笛彭秋志黄培依刘雅璇
自然资源遥感 2023年4期
关键词:注意力用地卷积

陈笛, 彭秋志,2,3, 黄培依, 刘雅璇

(1.昆明理工大学国土资源工程学院,昆明 650093; 2.云南省高校高原山区空间信息测绘技术应用工程研究中心,昆明 650093; 3.云南省自然资源与规划智慧创新实验室,昆明 650093)

0 引言

习近平总书记在2020年正式宣布中国将力争在2030年前实现碳达峰以及在2060年前实现碳中和,光伏产业已迎来加速发展契机。在此背景下,光伏用地数量急剧增加,迫切需要加强对光伏用地的研究与管理,而及时准确地获取光伏用地信息是其必要前提[1-2]。

现阶段获取光伏用地信息的方法主要分为2类: 一是基于支持向量机、随机森林等传统分类方法[3-4],二是基于语义分割算法[5-6]。然而传统分类方法和语义分割方法均仅能进行是非判断,无法得到检测目标的置信概率,在部分复杂场景下反而不利于对误判图斑的快速识别与纠偏。以YOLO(you only look once)[7-9]系列算法为代表的目标检测方法既能得到检测目标的坐标信息,又能判断检测目标的置信概率,有利于通过调整置信度阈值以尽可能减少误判,或方便借助置信度大小开展人工核查。因此与以往方法相比,利用YOLO算法对光伏用地进行检测具有自身特点和优势。

YOLO系列算法经各方不断改进在检测速度与精度上都有了很大的提升,其第五版即YOLOv5在网络结构、损失函数等方面都有了较大的改进,现已被用于众多研究领域[10-12],取得了较好的实验结果。因此本文以YOLOv5算法为基础,针对光伏用地在遥感影像中的特征对该算法进行若干改进以适用于光伏用地检测任务,即引入加权双向特征金字塔[13]、Ghost卷积[14]和协同注意力机制[15],提出了YOLOv5-pv(photovoltaic)算法。本文改进方法可为光伏用地检测研究提供新的实验参考,对其他地物的目标检测研究也具有一定的借鉴作用。

1 YOLOv5算法及其改进

1.1 YOLOv5算法

目标检测算法主要分为锚点类模型和无锚点类模型2种。锚点类模型又分为单阶段方法(如单次多核探测器(single shot multibox detector,SSD)[16]、YOLO等)和二阶段方法(如区域的卷积神经网络(region based convolutional neural network,R-CNN)[17]、更快的区域的卷积神经网络(Faster region based convolutional neural network,Faster-RCNN)[18]等)。单阶段方法可以同时得到锚框定位与目标置信度,更加适合光伏用地检测。在单阶段模型中,Redmon等[7-9]提出的YOLO算法经多年发展已成为较成熟的目标检测算法之一。YOLOv3能以更快的检测速度取得与SSD相近的检测结果,且已被应用到诸多领域[19]。在YOLOv3的基础上开发的YOLOv5在检测速度与精度上有明显提升,具有检测速度快、对小目标检测效果好、准确度高等特点。

1.2 改进YOLOv5光伏检测算法

为进一步提高光伏用地检测效果,本文对YOLOv5算法做出3个方面改进,提出更适合光伏用地检测的YOLOv5-pv算法: ①引入加权双向特征金字塔,实现高效的跨尺度连接与加权特征图融合,将Backbone模块中的特征信息与Head模块中的特征信息进行融合以提高小目标检测性能; ②引入Ghost卷积,既能减少计算量,又能获取网络中有用的冗余信息强化特征图; ③增加协同注意力机制,获取更多特征信息帮助算法降低误检测概率提高检测精度。

1.2.1 加权双向特征金字塔

由于光伏用地属于典型小目标,将浅层特征与深层特征融合可保留一些重要原始特征信息,强化不同分辨率的特征图,使得小目标的特征信息更加丰富。故改进算法增加了更多的特征融合操作,在第20层将第6层、第14层、第19层的特征信息进行融合。以往的模块在融合不同的输入特征时,不同的输入特征对输出特征的贡献往往是不平等的。为了解决这一问题,将第20层的Concat模块改为加权双向特征金字塔。加权双向特征金字塔引入可学习的权值来学习不同输入特征的重要性。以节点5为例,其特征融合过程为:

(1)

(2)

图1 加权双向特征金字塔

1.2.2 Ghost卷积

Ghost卷积可以解决传统的深度学习网络中存在着大量冗余未被利用的情况,有效提高算法精度,并且节约计算资源。冗余信息是一个成功算法的重要组成部分,冗余信息的合理利用可以使算法全面理解训练数据的特征信息。Ghost卷积首先采用普通的1×1卷积对输入图片进行通道数的压缩,再进行深度可分离卷积与线性变化得到更多的特征图,最后将不同的特征图堆叠,组合成新的输出特征。传统卷积与Ghost卷积的示意图如图2。将YOLOv5算法中除第0层的标准卷积外全部换为Ghost卷积,既能减少算法的网络大小与计算量,又能使算法得到更多有用的冗余信息,而且避免使用大量1×1卷积可能出现的网络深度较浅、感受野不足的问题。设输入图与输出特征图的高和宽为Hp和Wp,通道数分别为N与C,卷积核尺寸为K,在不考虑偏置项的情况下,标准卷积的计算量Nsc为:

(a)传统卷积 (b)Ghost卷积

Nsc=HpWpNCKK

(3)

Ghost模块的计算量NGM为:

(4)

式中:D为线性运算的卷积核尺寸;S为输出特征图通道数和本征特征图通道数的比值,且S>1,K=D。

标准卷积与Ghost模块的计算量之比公式为:

(5)

1.2.3 协同注意力机制

对于遥感影像而言,光伏用地所占比例较小,属于典型小目标。YOLOv5算法经过多次卷积操作后,易形成大量背景信息冗余,从而影响光伏用地检测效果。对此本文加入协同注意力机制以提高算法检测精度。注意力机制实质是模仿大脑对图片重点区域进行加权处理。协同注意力机制不仅有益于ImageNet分类,而且在目标检测和语义分割中表现更好。该机制将空间信息在通道上加权融合,提高算法在通道与空间维度上的感知能力,从而使网络获取更多特征信息以降低误判概率,增强目标检测能力。

协同注意力机制主要分为2部分,第一部分是坐标信息镶入,对输入信息沿水平坐标方向和竖直坐标方向进行特征聚合,生成一对方向感知特征映射。具体而言,对于输入使用池化核的两个空间范围(Hs,1)或(1,Ws)来分别沿水平坐标和垂直坐标对每个通道进行编码。公式为:

,

(6)

,

(7)

,

(8)

第二部分是将提取的特征信息拼接后进行信息转换,得到中间特征图,再通过空间维度分解与卷积变化等操作,得到注意力权重。相关公式为:

f=δ(F1([Zh,Zw]))

,

(9)

gh=σ(Fh(fh))

,

(10)

gw=σ(Fw(fw))

,

(11)

,

(12)

式中: [,]为沿空间维数的连接操作;δ为非线性激活函数;fw和fh分别为对空间信息在水平方向和垂直方向进行编码的特征映射;gh和gw分别为垂直和水平方向经过变化后的张量;σ为Sigmoid激活函数;F1,Fh,Fw为卷积变化函数;Zh为h的相关联输出;Zw为w的相关联输出;yc为经过注意力机制处理后第c个通道的输出。

经过逐层嵌入测试对比后发现将协同注意力机制模块放在骨干网络第9层效果最佳。经过以上改进得到的YOLOv5-pv算法如图3,图3中虚线为跳转融合操作,灰色阴影标记为改进算法新增或改进模块,BiFPN为加权双向特征金字塔模块,CA为协同注意力机制模块,Conv为卷积模块,C3为特征学习模块,SPPF为空间金字塔池化模块,Concat为特征融合模块,Upsample为上采样模块,Detect为输出的特征。

图3 YOLOv5-pv 算法

1.3 算法评价

本文使用平均精度(mean average precision,mAP)为评价指标,mAP是目标检测问题中最常用的度量标准,其与精度(Precision)以及召回率(Recall)数值相关,可体现算法的综合性能。相关公式为:

,

(13)

,

(14)

,

(15)

式中:TP为正确检测光伏用地数量;FP为错误检测光伏用地数量;FN为未能检测光伏用地数量;P为精度;R为召回率,P(R)为精度与召回率函数。

2 实验结果及分析

2.1 数据处理

从地理空间数据云平台(http: //www.gscloud.cn)获取Landsat8 OLI遥感影像。主体时段为2021年1月1日—12月31日,空间上主要覆盖江苏、安徽、云南、江西和湖北5省。为减轻云量干扰,以云量最小为选择规则,优先在该时段内云量小于5%的影像中选择,最终筛选出40景影像。

从40景Landsat8遥感影像中将含有光伏用地的区域裁剪成1 000像素×1 000像素大小的训练样本共700幅,并进行数据扩充(翻转、缩放、颜色抖动等),并使用LabelImg标注工具对样本影像进行标注。扩充后得到1 400幅样本影像,其中1 100幅用于训练,200幅用于验证,100幅用于测试。

2.2 实验配置与模型训练

本文实验均在Windows10操作系统下完成,软件配置为: Python 3.8.6,CUDA 11.3,PyTorch 1.10.0,YOLOv5 6.0,硬件配置为: AMD Ryzen7 5800x,NVIDIA GeForce RTX3070Ti,32 G 3600MHz内存。

本文的所有模型训练中均将输入图像尺寸调整为1 000像素×1 000像素,将迭代次数设置为500次,批训练数据量为6,初始学习率设置为0.01。

2.3 实验结果与分析

2.3.1 改进YOLOv5算法的有效性分析

表1是以YOLOv5算法为基础逐步增加改进项目的实验结果,该结果通过验证集所得,“√”代表在算法中使用该改进方法,“×”代表不使用该改进方法。

表1 改进算法平均精度区别

由表1分析可知: 算法1在YOLOv5基础上将Concat模块换成加权双向特征金字塔使mAP提高1.48百分点; 算法2在算法1基础上将传统卷积换成Ghost卷积使mAP进一步提高0.89百分点; YOLOv5-pv在算法2基础上增加了协同注意力机制使mAP再提高2.06百分点,达到84.68%。

YOLOv5-pv比YOLOv5不仅mAP提高了4.43百分点,而且精度与召回率也分别提升了0.85(77.82%提升至78.67%)与6.68(75.78%提升至82.46%)百分点。3项指标的提高说明改进算法在检测过程中会提高正确检测概率,降低误判概率。以上的结果证明了本文提出的改进起到了效果。

2.3.2 检测结果评价

表2直观展示了YOLOv5与YOLOv5-pv算法对来自测试集的4张遥感影像的检测结果,检测结果中pv为光伏英文缩写,数字为置信度。改进的YOLOv5-pv算法与原始YOLOv5算法相比在大多数情况下检测结果更加优秀。未能检测的光伏图斑也能正确检测(如影像1、影像2、影像3,其中影像2的检测结果对比可以看出云雾对改进后的算法影响减小,在有云雾的情况下置信度提高,并且能识别出未能检测的光伏图斑。本文改进算法相比YOLOv5算法误判概率也有所降低(如影像4)。

表2 2种算法检测结果

利用测试集影像(共有188个光伏用地图斑)采用3个指标: 正确检测数量(正确检测光伏用地数量)、误判数量(将其他地物错误检测为光伏用地数量)、漏判数量(未能检测出光伏样本数量)进行比较,结果如表3。YOLOv5可以检测出79.79%的光伏用地,YOLOv5-pv可以检测出90.43%的光伏用地,正确检测光伏用地比例增加了10.64百分点。此外,YOLOv5-pv的误判数量和漏判数量相比YOLOv5都明显降低。

表3 检测结果指标对比

以上测试结果可以说明本文提出的改进方法起到作用,本文改进方法在对小目标光伏图斑检测效果较佳,有效地提高了正确检测数量并且降低了误判概率,但仍然存在一定的漏判情况。

3 结论

本文以YOLOv5算法为基础引入了加权双向特征金字塔、Ghost卷积、协同注意力机制改进了原算法,提出YOLOv5-pv算法。

实验表明本文提出的YOLOv5-pv比YOLOv5召回率提高6.68百分点,平均精度提高4.43百分点,对复杂的背景噪声有较强的抑制作用,对光伏图斑检测效果较佳,有效降低了漏判率和误判率。该改进方法可为光伏用地检测研究提供新的思路与方向,也可稍加调整后用于其他地物,如风力发电机组、设施农用地检测。未来可进一步增加图像增强算法进行优化,提高目标检测的精度。

猜你喜欢
注意力用地卷积
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
从滤波器理解卷积
城乡建设用地增减挂钩研究进展综述
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
城乡建设用地增减挂钩政策的演变
A Beautiful Way Of Looking At Things
城乡建设用地增减挂钩的实践与认识
城乡建设用地增减挂钩的实践与认识