基于卷积注意力的输电线路防震锤检测识别

2022-03-30 07:12张智坚

计算机测量与控制 2022年3期

李飞，王超，浦东，陈瑞,张智坚

(1.南京工程学院人工智能产业技术研究院，南京 211167；(2.南京工程学院信息与通信工程学院，南京 211167)

0 引言

随着我国国家电网发展规模的不断扩大，电力传输线途经的地理环境愈加复杂，如沼泽、山脉、湖泊、盆地、水库等，不仅在建设时存在困难，而且加大了后期维护的难度。遭遇大风等恶劣天气时，输电线将发生振动跳跃，导致悬挂点处会反复弯折，进而可能引发断线，甚至倒塔事件。为了减少导线因外力因素引起的振动，输电线路中普遍采用防震锤来吸收能量。但是由于风雨侵蚀、金属生锈等原因，防震锤可能会出现断裂、滑移等故障，将失去其原有的牵制力。因此及时检测防震锤发现它的故障并迅速处理，这对电网系统的稳定运行具有深远意义[1]。

无人机因为其体型小、灵活度高、反应迅速的特点已被广泛应用于输电线路的巡检中。传统方法对无人机拍摄图片进行目标物检测识别时，主要对输电线路及其部件的颜色、形状以及边缘特征进行处理，如Haar特征、线性反投影(LBP，local binary pattern)特征等。文献[2]提出了基于分块的Haar新特征以及基于区域的LBP新特征，达到减小漏检率的目的。文献[3]结合直方图均衡化、形态学处理和RGB彩色模型，实现锈蚀缺陷的检测。文献[4]通过提取防震锤的Haar特征，并结合AdaBoost算法进行识别，能够较好地从复杂背景中识别出防震锤。这些传统的图像处理算法具备占用资源小等优点，但都是针对某种特定的环境，对于复杂的环境鲁棒性较差。

随着深度学习的快速发展，基于深度学习卷积神经网络的输电线路部件检测已成为热点。文献[5]通过构建深度学习的网络模型提取图像特征，并设置阈值，判断原始图像中防震锤故障的概率。文献[6]提出结合DeepLabV3+语义分割网络与防震锤的空间上下文关系对其进行识别与缺陷诊断。文献[7]采用Faster RCNN卷积神经网络算法对高重叠防震锤区域进行迭代合并，构建防震锤识别模型。文献[8]为了实现高压输电线路部件的缺陷检测和故障诊断,提出基于改进YOLOv3的高压输电线路关键部件目标检测算法。文献[9]使用单目标多分类检测器(SSD，single shot multiBox detector[10])网络模型进行防震锤的检测，已取得较好的效果，但是当图片中存在大量被遮挡的防震锤时，效果较差。

综合上述的防震锤故障检测算法来看，深度学习检测目标的方法已经成为主流，针对上述问题，鉴于ResNet[11]残差网络结构比视觉几何组(VGG，visual geometry group)网络结构的运算高效且有更强的特征提取能力,所以本文采用ResNet-50作为SSD的骨干网络，同时在特征提取阶段引入文献[12]提出的注意力机制，它结合了空间注意力和通道注意力机制，能显著提高图像分类和目标检测的正确率。当该算法应用于防震锤实时识别时，识别准确率能达到81%，同时召回率提升了3.7%。

1 相关算法介绍

1.1 SSD目标检测算法

SSD算法同时借鉴了YOLO[13]和Faster R-CNN[14]网络的思想并结合两者的优点。SSD基于前向传播的卷积神经网络(CNN，convolutional neural network)，使用锚点框[15]的思想：原始图像经过卷积神经网络提取特征后，由非极大值抑制(NMS，non-maximum suppression)算法处理，可以直接回归目标的位置和类别。其网络结构如图1所示。

图1 SSD网络结构

从图1可以看出，SSD由VGG16基础网络和附加特征层网络(Extra Feature Layers)两部分构成。卷积层Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2构成了特征金字塔结构，可以在多个尺度上进行目标检测。SSD将VGG-16的FC6和FC7全连接层替换成Conv6和Conv7层，并添加Conv8_2、Conv9_2、Conv10_2、Conv11_2四个卷积层来获取锚点框。这6层的特征图相加，共得到8732个锚点框，如表1所示。

表1 各卷积层锚点框个数

默认框(default box)生成及筛选：

SSD算法的锚点(anchor)生成默认框(default box)的方法与Faster R-CNN算法基本相同。首先将输入的图像划分成8×8的网格图像，设置的默认框会将图像中的目标全部包含进去。通过设置的k值可以计算默认框的大小，计算方式如下：

(1)

其中：Smin=0.2为Conv4_3与原图尺度的比例大小，Smax=0.9为Conv11_2与原图尺度的比例大小。设置的锚点框宽高比一般为ar=1,2,3,1/2,1/3从而求得默认框的宽和高，公式如下：

(2)

鉴于过多的默认框会增加计算成本，而有的默认框中并无目标存在，通常采用重叠度(IOU，intersection over union[16])匹配策略对锚点框进行筛选。IOU用来计算预测框与真实框的重合比率，其计算公式如下：

(3)

其中：S预代表的是默认锚点框，S真代表的是真实框。IOU匹配策略中，阈值通常设置为0.5。

1.2 注意力机制

注意力机制的本质就是一组注意力权重系数，即在目标区域中提取对任务目标更有价值的信息，同时抑制或忽略某些无关的细节信息。在深层网络中，注意力机制可以帮助获取某些重要的目标特征，即对输入图像有针对性主动提取特征中相关性较大的部分，使更有利于网络模型训练的特征被学习。目前图像处理中最常用的注意力机制分为通道注意力(Channel Attention)[17]和空间注意力(Spatial attention)[18]两部分。

1.2.1 通道注意力

通道注意力关注的是“what”的问题，即关注的是这张图上哪些内容是有重要作用的。输入图像经过由卷积核组成的卷积层得到特征矩阵，卷积核的个数决定了特征矩阵的通道数，但并不是每一个通道对于主要特征的提取都十分有用。通道注意力首先对输入的特征图F∈RC×H×W进行最大值池化和平均池化，将两个特征图进行维度压缩，转发到多层感知器(Multi-Layer Perceptron, MLP)，共享全连接，将两个特征图基于元素对应相乘的加和操作后，再经过sigmoid函数进行激活，得到含有权重的通道注意力特征图，其网络结构如图2所示。

图2 通道注意力机制

(5)

1.2.2 空间注意力

空间注意力关注的是“where”的问题，即图像在整张图片的哪个位置，空间注意力是通道注意力的补充，通过空间特征的加权来有选择地聚合各个空间特征。空间注意力首先对输入不同的特征图F∈RC×H×W的相同位置进行最大值池化和平均池化，再将特征图进行维度的压缩，然后将两个结果基于通道融合。本文通过一个卷积操作，将结果降维为1个通道。再经过sigmoid函数操作，得到含有权重的空间注意力特征图Ms(F)∈R1×H×W，方法如下：

Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))=

(6 )

其中：σ为sigmoid操作。本文经过多次实验对比，选用比3×3卷积核效果更好的7×7卷积核。空间注意力的网络结构如图3所示。

图3 空间注意力机制

2 融合卷积注意力机制的防震锤检测方法

2.1 整体网络架构

针对SSD中原来的特征提取网络对小目标定位能力差，且运算量大，检测效率较低的问题，本文采用ResNet残差网络结构代替SSD的VGG网络结构作为目标检测的骨干网络，并在该骨干网络中引入融合卷积注意力机制，通过压缩提取中间特征，提高对物体检测的精度和速度。整体网络结构如图4所示。

图4 整体网络结构图

2.2 特征提取网络

通常加深网络模型的层数，可以提高模型的学习能力，但是更深的网络模型使用随机梯度下降(SGD，stochastic gradient descent)优化算法会变得更困难，同时会出现梯度消失的情况。为了解决这个问题，文献[11]提出了残差网络ResNet，它在速度和精度上都优于VGG，它的核心是通过建立前面层与后面层之间的“短路连接”(skip connection)，有助于训练过程中梯度的反向传播，能训练出更深的网络。

无人机拍摄输电线路部件图像的背景往往十分复杂，可能有些部件粘连在一起，导致部件无法呈现它原本的特征。而浅层网络VGG对特征抓取能力不够强，ResNet-50残差网络中包含了50个Conv的操作，能更好地提取图像特征，其结构如表2所示。

表2 ResNet-50网络结构

输入图像在经过卷积和池化后进入第一层残差块中，在接下来的每一个阶段都要进行经过一次卷积和归一化的操作，残差结构块如图5所示。

图5 残差结构块

由图5可以看出，残差学习块主要基于自身映射(identity mapping)和残差映射(residual mapping)两个映射，输出是卷积计算部分加上自身映射，relu函数再次激活。VGG网络用于提取小目标的特征层在传递信息时，总会存在特征信息丢失问题，但ResNet残差结构能直接将输入信息直接传递到输出，可以解决信息丢失问题，降低学习目标难度，且ResNet模型的参数量比VGG网络显著减少，如表3所示。

表3 VGG与ResNet计算过程中参数量对比

表3中可以看出，VGG前向传播一次需要14.2亿次浮点数据计算，而ResNet仅需要3.8亿浮点数据计算，运算量约减少了4倍左右，且ResNet网络模型占用空间更小，有利于更多图片进行一次性批量训练。

2.3 卷积注意力机制模块

为了使图像的有益信息在整个网络框架中传递，抓取到防震锤的关键特征，加强关键信息对整张图片的增益，提高对防震锤的检测能力。本文在残差网络ResNet-50的卷积块中引入卷积注意力机制，结合通道和空间注意力，记为通道空间注意力模型(CSAM,channel space attention module)，如图6所示。

图6 通道空间注意力模块(CSAM)

输入的中间特征图为I∈RC×H×W，该特征图首先输入通道注意力机制模块，获得含有权重的通道注意力特征图Mc∈RC×1×1，图中Mul代表对应矩阵元素相乘，将含有权重的通道注意力特征图与原特征图相乘，获得中间特征图仍然为I∈RC×H×W，然后将此中间特征图输入空间注意力机制模块，获得含有权重的空间注意力特征图Ms∈RC×1×1，将获得含有权重的空间注意力特征图与上一层特征图相乘，得到同时获得空间注意力与通道注意力的特征图。

上述过程也就是将通道注意力与空间注意力相结合，实现层级间信息的最大化，引导模型在迭代时获得更显著的防震锤检测网络模型。

CSAM模块对ResNet-50网络可能产生不利影响，导致预训练模型参数不能匹配新的网络模型，因此CSAM不能直接加在ResNet-50网络内部。本文将CSAM模块置于Conv_1(7×7)卷积层之后，即原始输入300×300的彩色RGB图像，通过一个7×7卷积层后的特征图作为CSAM模块的初始特征图输入。由CSAM模块找出特征图中任意位置之间的空间依赖，对所有位置上的特征加权和更新。相应两个位置之间的特征相似性作为权重用来提升获取主要特征的能力，而不需要关注于它们之间的距离。相较于SENet[19]，CSAM模块通道注意力中加入的全局最大池化在一定程度上弥补了平均值池化AvgPool丢失的信息，且在CSAM模块空间中，生成的二维空间注意力特征图使用卷积核大小为7的卷积层进行编码，避免了选用较小卷积核只关注局部特征的缺点，对保留重要的空间信息很有帮助。同时，本文在Conv4_x的第一个block中将stride设置为1，让通过Conv4_x之后的特征图尺寸缩小一半，这样Conv3_x输出特征图尺寸为512×38×38，Conv4_x输出为1 024×38×38，而不是原来ResNet网络中的1 024×19×19。本文提出的网络在ResNet残差结构之后增添了5个层后，再加上ResNet的Conv4_x的特征图，一共提取6张特征图，这些选出的各个层的特征图将被用于种类和位置的预测,如表4所示。

表4 融合卷积注意力及残差网络结构表

3 实验结果与分析

3.1 实验平台

本文实验所用的软、硬件平台参数配置如表5所示。

表5 实验平台参数设置

3.2 数据集与实验参数

3.2.1 数据集

本实验采用标准数据集与自建数据集结合的方式来测试网络的性能。标准数据集采用Pascal VOC2007和COCO2017。Pascal VOC2007训练集共5 011幅，测试集共4 952幅，数据集包含了20个分类且光照、拍摄角度等因素各不相同。COCO2017数据集是一个大型的、丰富物体检测数据集，由复杂的日常景物截图组成，共标注了含背景在内81类经过精确分割进行位置标定的目标。训练集118 287张图片，验证集5 000张图片，测试集40 670张图片。标准数据集可以作为衡量图像分类识别能力的基准，对模型的评判具有一定的意义。

自建数据集由某市供电公司提供，共8 295张无人机拍摄的输电线路高清原始图，将其中的7 465张图片作为测试集，830张图片作为验证集，其中共包含防震锤的数量为11 876个。

3.2.2 实验参数

在进行训练时，所有的批处理(batchsize)均设置为64，初始学习率设置为10-3，动量参数设置为0.9，权重衰减为2×10-4。

对于VOC2007数据集，共训练40 000次，算法分别在2 640次和3 230次学习率衰减。对比改进前后算法的收敛性，改进后的Resnet结构算法收敛性要略优于原VGG结构算法，同时两种算法针对VOC2007数据集在26 000次左右均已经趋于收敛，如图7所示。

图7 VOC2007数据集上的损失曲线对比

对于COCO数据集，共训练440,000次，以便得到对该数据集的较好拟合和较佳预测。

3.3 实验结果及分析

首先在VOC2007数据集上进行测试，其中mAP@0.5为网络模型在IOU阈值大于0.5时，多类预测时每一类的精度(precison)取平均值。通过表6对比，可以发现采用残差网络作为骨干网络并增加注意力机制CSAM模块，平均精度提升了1.5%左右，其中鸟类、羊类等特征明显的有显著提升，约为5%左右。测试效果如图8所示。

表6 PASCAL VOC2007 test数据集上的检测结果

图 8 本文算法在VOC2007数据集复杂场景的检测效果

由于算法轻量化提升，整个算法模型的正向推理时间也有所改善，检测一张图片时速度约提升了25 ms，如表7所示。

表7 算法检测时间对比

在COCO2017数据集上进行测试，用以评估算法有效性。从表8中可以见到，本文算法(SSD+ResNet+CSAM)相对于几种典型算法在检测精度上均有所提高，效果见图9。

表8 各算法精度对比

图9 本文算法在COCO2017数据集复杂场景的检测效果

在验证算法的有效性后，将含有防震锤的图片进行训练测试，在训练时采用了迁移学习[20]策略，可以加快防震锤的网络训练，优化模型的学习效率,在相同的时间内能训练出精度更高的网络。除了采用在标准数据集测试算法模型中的mAP平均准确率评价指标外，还使用了国网运检部规定的recall召回率来衡量算法模型找出的防震锤相对总数占比，得到的结果如表9所示。

表9 算法改进前后防震锤检测结果

由表9的对比可以看出，在算法引入融合注意力模块和残差结构块后，识别防震锤的平均准确率达到了81%，相较于原来提升了2.5%。在面对输电线路复杂背景、光线多变等不良因素影响下，能够减少图像信息丢失，提取到图像更深层特征信息以提高识别精度，识别效果明显提升。同时提取特征图经过融合预测，并结合已有的预训练的卷积神经网络权重，查全率提升了约3.7%，有效解决了因监视点距离防震锤较远造成的目标过小从而引起的漏检问题。选取部分不同背景下无人机拍摄的包含防震锤的输电线路图片，图像实际共拍摄到20个防震锤，原SSD算法[10]识别到13个防震锤目标而本文算法共识别到17个防震锤目标，检测结果对比见图10。

图10 防震锤检测识别效果

4 结束语

本文提出了一种融合卷积注意力机制和SSD模型相结合的防震锤检测方法，将传统SSD模型中主干网络用ResNet网络来替代，加快了网络的推理速度和特征提取能量，同时在模型中融入CSAM注意力模块，更好地区分图像前景与背景，训练时采用了迁移学习大大地减少了网络的训练时间。本文提出的检测方法在标准数据集VOC2007、COCO2017以及自建数据集都有较好的表现，为输电线路关键部件的检测提供了新的思路方法。