改进CenterNet模型在遥感影像输电杆塔中的应用

2021-10-12 04:45闫皓炜张洁燕正亮张静王利伟
遥感信息 2021年4期
关键词:中心点杆塔准确率

闫皓炜,张洁,燕正亮,张静,王利伟

(1.天津航天中为数据系统科技有限公司,天津 300450;2.天津市智能遥感信息处理技术企业重点实验室,天津 300450)

0 引言

为了保证电力输送的安全性,高压输电线路以及杆塔的无损至关重要。因此,杆塔的自动识别具有很大的现实意义。

以往对遥感图像的目标检测大多采用传统的图像处理方法。王孝余等[1]首先将彩色输入图像转换为灰度图像,通过滑动窗口的方式提取窗口内图像的方向梯度直方图特征,将其作为支持向量机的输入进行训练,实现杆塔的检测。针对飞行机器人采集的简单背景的电力巡检图像,郭贞[2]提出了一种收敛快、准确率高的快速高效启发式聚类算法。针对复杂背景的巡检图像,吴华等[3]运用全局自相似描述子进行电塔特征描述,从而实现在巡检图像中对电塔的准确检测。同样,柳长安等[4]融合了杆塔与巡检机器人位置关系的先验信息来估计图像中杆塔的位置范围,并将其作为可变型部件模型(deformable model part,DPM)检测约束区域,进一步实现电力杆塔的识别与定位。Tragulnuch等[5]采用基于Canny-Hough变换的直线检测方法,通过对检测到的线进行分类来检测杆塔,并结合几何信息再次判断检测到的杆塔的准确性。以上传统的杆塔检测通过采用人工设计特征或者先验信息的方法对目标的表达能力有限,且由于成像原理以及环境噪声的巨大差异导致以上方法的泛化能力较差。

近年来,深度学习算法以其优异的性能,成为目标检测领域应用研究的热点,也推动了利用卫星进行目标自动检测技术的发展。与传统的目标识别方法相比,基于深度学习的目标检测网络可以更好地表达复杂背景下的目标特征,在模型的泛化能力方面也更强,已经取得了较为瞩目的成果[6-8]。基于深度学习的目标检测模型主要分为两个架构:一阶段检测模型和二阶段检测模型。

一阶段检测模型,不需要生成候选框,而是直接对目标位置进行回归。Liu等[9]通过将SSD[10]模型中的传统边界框替换为可旋转边界框,使其具有旋转不变性,以此能够估计遥感图像中目标的朝向。孙震笙等[11]同样采用基于SSD的框架实现了对合成孔径雷达(synthetic aperture rada,SAR)图像中杆塔的检测。Adam[12]通过改进YOLOv2[13]模型,提出了YOLT模型[13],用于大尺度遥感影像中小目标的识别。方青云等[14]提出了一种改进的YOLOv3模型[15]来实现遥感目标快速检测,将DarkNet-53替换为MobileNet,同时提出了一种基于交并比的迭代聚类算法来计算anchor。

不同于一阶段网络,二阶段网络首先需要生成候选框,而后利用分类网络对候选框进行分类。Yao等[16]基于Faster R-CNN的目标检测模型,实现了高分辨率遥感影像中烟囱和冷凝塔的检测。李红艳等[17]首先利用增强深度超分辨率网络对低质量遥感图像进行重构,然后利用Faster R-CNN[18]对数据集进行训练,其中在Faster R-CNN的特征提取网络中引入了注意力机制模块来抑制背景信息。针对高分辨率遥感影像的目标分布的位置变化性和复杂性,Zhong等[19]提出了PSB(position sensitive alancing)网络结构来提升区域推荐网络生产候选区域的质量。PSB网络结构基于残差网络的全卷积网络来解决目标检测中的平移变化和图像分类中的平移不变性之间的矛盾。针对遥感影像的车辆检测,Tang等[20]提出了用HRPN网络(hyper region proposal network)来发现类似于车辆的区域,同时使用难例挖掘方式提升检测精度。

总体来说,一阶段检测模型网络结构更加简洁,处理速度更快,但识别准确率稍低,而二阶段检测器网络结构较复杂,效率较慢,但识别准确率较高。近两年来,科研人员提出了一系列新的方法来优化一阶段网络,比如FPN[21]及其变种、focal loss[22]等,使得一阶段检测模型的识别准确率大大提高,例如Efficientdet[23]、NAS-FPN[24]。为了追求网络模型更加简洁高效,在一阶段网络的基础之上,anchor free类型的目标检测器逐渐发展起来。CenterNet[25]作为anchor free模型,将目标看做点,然后利用点周围的语义特征来预测目标宽和高,使得模型更加简洁、高效和准确。

针对卫星图像中杆塔尺度变化差异大、形态差异大、背景复杂多变等问题,本文采用改进的CenterNet模型对其进行检测。

1 改进的Centernet模型

1.1 CenterNet模型

CenterNet是一种anchor free类型的目标检测模型。该模型在训练时不需要预先对anchor设定,模型结构更加简洁,同时在检测时不需要进行非极大值抑制,模型效率得到提升。CenterNet模型将目标看做一个点,即目标的中心点,然后在中心点位置回归出目标的宽和高等信息。CenterNet网络整体结构如图1所示。编码器通过下采样来提取输入图像的高级语义特征信息,然后通过解码器上采样解译高级语义特征,提升输出特征图分辨率,实现更精确定位。检测头部分包含了对中心点位置宽和高的回归、中心点位置偏差、目标所属类别。

图1 CenterNet模型检测框架

1.2 改进CenterNet骨干网络

原CenterNet网络模型采用深层聚合网络[26](deep layer aggregation,DLA)作为骨干网络,该网络通过迭代深度聚合(iterative deep aggregation,IDA)和分层深度聚合(hierarchical deep aggregation,HAD)来提取丰富的语义信息和空间信息。IDA在不断加深网络的情况下,能够将不同分辨率的特征图进行融合,而HAD模块能够将同一分辨率下、不同层的特征图进行融合。为进一步有效利用DLA网络所提取的高层信息,本文通过空洞卷积空间金字塔池化(atrous spatial pyramid pooling,ASPP)[27]提取高层信息的多尺度信息,以此来更好地兼顾到不同分辨率下不同大小的杆塔。网络结构如图2所示。

图2 改进CenterNet模型骨干网络

DLA网络的输出作为ASPP模块的输入。ASPP模块包括一个1*1的卷积,比率分别为6、12、18的空洞卷积,特征图均值池化五个特征提取操作。这些操作的输出通过1*1卷积进行融合。

1.3 CenterNet模型检测头

CenterNet的检测头包含了目标关键点的检测和目标宽高的检测。

CenterNet的关键点检测通过DLA+ASPP的网络,再经过解码器之后生成热图。热图中的峰值点即为预测目标的中心点,而目标边界框的宽和高,可以利用中心点处的特征信息来进行预测。

假设输入图像是宽为W高为H的彩色图像,记为I∈RW×H×3,生成关键点热力图,如式(1)所示。

(1)

式中:C为关键点类型的个数,在杆塔识别中,包括背景与杆塔目标,因此C=2;R为模型的下采样因子。

对于类别C的每个ground truth的关键点p∈R2,映射到低分辨率的输出特征图,如式(2)所示。

(2)

(3)

训练目标函数如式(4)所示。

(4)

式中:α和β是focal loss的超参数;N为图像I中关键点的个数。在本文的实验中设置α=2、β=4。

(5)

对于目标k,其回归得到的尺寸定义为sk,且所有目标均采用同一种尺寸来预测,此操作可以降低计算负担。对于回归框的偏移量依旧采用L1 loss,计算如式(6)所示。

(6)

整体的损失函数为物体损失、大小损失和偏移量损失的和,计算如式(7)所示。

Ldet=Lk+θsizeLsize+θoffLoff

(7)

式中:θsize为常数系数。本文设置θsize=0.1,θoff=1。

1.4 DIoU loss

CenterNet在进行边界框的宽和高预测时,采用了均方误差。但均方误差会受到目标尺度的严重影响。大目标在训练过程中会有比较高的loss,而小目标的loss相对较小,这会影响网络的训练效果。而DIoU loss[28]的计算考虑的是目标整体,可以更好地适应遥感影像中杆塔目标的多尺度变化,而且可以直接最小化两个框的距离,因此准确率更高,收敛速度更快。

DIoU loss的定义如式(8)所示。

(8)

式中:b为预测框中心点;bgt为目标框中心点;ρ为计算两个中心点的欧式距离;c为可以同时覆盖预测框和目标框的最小矩形的对角线距离。Diou loss计算示意图如图3所示,其中实线矩形框代表目标框,虚线矩形框代表预测框。

图3 Diou loss计算示意图

2 实验结果分析

2.1 杆塔数据集

所采集的杆塔数据来源天地图、Pleiades、WorldView-2。所采集影像的分辨率大小如表1所示。

表1 原始卫星影像来源及分辨率

所采集的详细数据如表2所示,其中训练集和测试集的比例为2∶1;图像大小从480像素×480像素到700像素×700像素。

表2 杆塔数据集

部分实例图像如图4所示。因拍摄方向的变化,杆塔呈现不同的形态特征,同时背景复杂多变,影像分辨率低进一步加大了检测的难度。

图4 杆塔卫星影像

2.2 硬件参数和模型参数设定

硬件环境:Window10系统,电脑CPU为酷睿i7系列,内存为32 GB,显卡为TITAN Xp,显存为12 GB,基于pytorch 1.3深度学习框架。

CenterNet模型训练过程中参数设定:输入图像的分辨率大小为512像素×512像素;学习率为0.000 1;epoch为256;batch size为20。

2.3 模型评估指标

本文采用coco数据集的评价指标(表3),该指标在目标识别领域被广泛采用。其中AP值计算方式如式(9)所示。

(9)

式中:P为准确率;R为召回率。每个类别的AP值是召回率和准确率绘制一条曲线下的面积。

利用预测框与真实框的交并比作为判定真假的前提,可以得到AP50、AP75等指标。

表3 coco数据集评价指标

2.4 CenterNet模型改进前后实验对比分析

为了验证改进后的CenterNet的检测效果,本文基于上述数据集分别对两个模型进行训练和测试,测试结果如表4所示。改进后的模型相比于原模型AP提升约3%,而且对不同尺度的杆塔识别率都有所提升。

表4 CenterNet模型改进前后检测结果

改进前后的部分检测结果如图5所示。图5上半部分五个小图为CenterNet的检测结果;图5下半部分五个小图为改进后模型的检测结果。通过图5(a1)和图5(b1)、图5(a2)和图5(b2)对比可以看出,改进后的模型对于不同尺度的背景目标会有更少的误检。通过图5(c1)和图5(d1)可以看出,CenterNet模型漏检了杆塔,由于杆塔目标较模糊。改进后的模型可以很好地进行检测,如图5(c2)和图5(d2)所示。通过图5(e1)与图5(e2)对比可以看出,改进后的模型对于小目标杆塔检测也较好。

图5 CenterNet模型改进前后检测结果对比

2.5 样本数量与检测精度之间的关系

为了验证样本数量与检测精度之间的关系,本文将测试样本数据打乱之后平均分为六份,然后逐份加入到测试样本中,利用改进后的CenterNet模型进行测试。不同样本数量下的测试精度如表5所示。

表5 不同样本数量下的模型检测精度

2.6 改进后的CenterNet模型对不同成像影像的影响

针对不同成像角度的卫星影像,本文通过改进后的模型进行检测,检测结果如图6所示。通过图6可以看出,该模型对不同成像角度的卫星影像可以有效地进行检测。

图6 改进的CenterNet模型在不同成像影像的检测效果

2.7 实验对比分析

为了更好地评估改进后的CenterNet模型的检测效果,本文与SSD、YOLOv3、YOLOv4、RetinaNet、CornerNet[29]等一阶段网络进行对比,同时与Faster R-CNN、Cascade R-CNN[30]等二阶段网络进行对比分析,以上模型在测试集的测试结果如表6所示。

表6 不同模型的检测结果对比

如表6所示SSD模型的识别效果最差,主要是因为采用了vgg16传统的骨干网络。YOLOv3的识别准确率较低,但其具有最快的测试速度。同时YOLOv3的AP50相对较高,但是AP75较低,说明了YOLOv3对目标进行精确定位有一定难度。为了兼顾效率与准确率两个方面,RetinaNet采用了ResNet-50与ResNet-100进行测试,但都未能达到最优效果。CornerNet采用Hourglass-104网络,但测试效果并不理想,相比于RetinaNet,其AP值得到提升,但效率下降很多。二阶段网络Faster R-CNN和Cascade R-CNN与以上一阶段网络相比,准确率更高,主要还是得益于候选框区域的选择使得背景样本的影响减弱。总体来说,本文方法与以上模型相比,检测效果相对更好。

3 结束语

针对卫星影像中杆塔目标的多尺度变化、背景干扰复杂等问题,本文采用改进的CenterNet模型进行杆塔目标的自动识别。CenterNet模型骨干网络的输出端增加空间金字塔池化模块。金字塔池化模块融合DLA骨干网络提取的高层信息,提升了多尺度信息的处理能力。利用DIoU loss对CenterNet模型训练过程进行优化。DIoU loss的计算考虑的是整个目标整体,可以更好地适应遥感影像中杆塔目标的多尺度变化。实验结果表明,改进后的CenterNet模型与原模型相比,准确率提升3%左右,其中大、中、小目标的测试准确率均有所提升。

猜你喜欢
中心点杆塔准确率
基于北斗的高压输电杆塔智能实时监测技术与应用
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
Scratch 3.9更新了什么?
如何设置造型中心点?
基于ZigBee与GPRS的输电杆塔倾斜监测预警系统
高速公路车牌识别标识站准确率验证法
基于粗糙模糊集的输电杆塔塔材实际强度精确计算
汉字艺术结构解析(二)中心点处笔画应紧奏