改进YOLOv4的绝缘子图像检测模型

2023-02-21 03:30任爽商继财杨凯祁继明魏翔宇蔡永根

广东电力 2023年1期

任爽，商继财，杨凯，祁继明，魏翔宇，蔡永根

(东北石油大学电气信息工程学院，黑龙江大庆 163318)

绝缘子是输电线路中实现电气绝缘和机械固定功能的基本元件，也是输电线路巡检工作中的重要检测对象。受自然灾害和环境因素的影响，绝缘子很容易出现自爆现象，这直接影响着整个电力系统的安全运行[1-2]。传统输电线路巡检方式为工作人员亲临现场巡视线路元件故障，这种巡检方式精度高，但是受天气和地形因素影响较大，巡检工作费时费力。随着我国电网智能化水平的提高，具有低成本、易操纵和高效率等优势的无人机巡检逐步取代人工巡检[3]，计算机视觉领域的不断突破也赋予无人机巡检极大的发展潜力。

近年来，针对绝缘子识别及缺陷检测研究，国内发展极为迅速。武建华等[4]通过改进YOLOv3网络可以准确判断出红外图像中绝缘子的故障发热点。麦俊佳等[5]构建了具有2级卷积神经网络的检测模型，可进行绝缘子自爆和金属销钉缺失的自动识别。唐睿等[6]在YOLOv3模型的基础上加入了空间金字塔池化(spatial pyramid pooling,SPP)模块，在识别准确率上提高了6.4%，但检测速度下降了2.8%。丘灵华等[7]提出基于“FPN+Cascade- RCNN+RoIAlign”的检测模型，在测试中取得了每张近0.45 s的识别速度。张欣等[8]提出一种改进的Cascade R-CNN方法，可有效检测绝缘子自爆、电弧烧伤和伞裙破损3种故障。王孝余等[9]使用YOLOv3识别绝缘子图像，通过水平投影法定位绝缘子缺陷位置，在大量数据作为测试集的情况下达到了很好的检测效果，但实验时间较长。唐小煜等[10]对绝缘子串进行语义分割，然后基于YOLOv4模型进行绝缘子缺陷定位，测试时检测自爆绝缘子的识别精度达0.96，研究中没有绝缘子识别，可在这方面加以改进。针对上述研究的不足，本文以单阶段目标检测模型YOLOv4为基础，对绝缘子识别及缺陷定位展开研究，重点介绍YOLOv4基础模型、改进方法和实验对比结果。该模型可以有效减少参数量，节约训练时间，提高绝缘子检测精度，具有一定的实际应用意义。

1 YOLOv4基础模型

Joseph Redmon等[11]提出端到端的实时目标检测模型YOLO，在此基础上相继衍生出YOLOv2[12]和YOLOv3模型[13]。之后，Alexey Bochkovskiy等[14]提出YOLOv4模型，与其他经典检测模型相比，其检测速度和精度都大大提高。

YOLOv4检测模型由主干网络(backbone)、特征融合网络(neck)和检测头网络(head)3部分组成。

1.1 主干网络

主干网络CSPDarknet-53由Darknet-53网络和跨级局部网络(cross stage partial network，CSPNet)组成。

a)CSPDarknet-53：YOLOv4模型中提出了特征提取网络CSPDarknet-53，其中共52层卷积用作网络主体部分，最后为1个全连接层，如图1所示。其主要结构是5组重复的残差单元，重复次数分别为1、2、8、8、4，表示为“[1，2，8，8，4]”，下同。这种网络结构更好地利用了图像处理单元(graphic processing unit，GPU)，与其他网络结构相比，它对于目标的检测速度和精度都有很大提升。

b)CSPNet：Chien-Yao Wang等提出使用CSPNet来减少计算量并适应梯度变化[15]，其网络结构如图1所示。CSPNet是CSPDarknet53网络中残差块的内部结构，主要思想是：将基础层的特征分为2部分，一部分经过卷积处理，然后通过跨阶层次结构与另一部分合并，这不仅可以提高卷积网络的学习能力，还可以减少计算瓶颈和内存消耗。

图1 CSPDarknet53网络结构Fig.1 CSPDarknet53 network architecture

1.2 特征融合网络

特征融合网络由空间金字塔池化网络(spatial pyramid pooling network，SPP-net)和路径聚合网络(path aggregation network,PANet)组成。SPP-net能够增加感受野，融合网络在不同尺度上提取到的特征，这可以提高深度网络的识别精度；PANet使用自下而上的路径增强，拼接低维度特征与高维度特征。这种方式充分利用了底层特征，使得输出具有更多的特征信息，有利于网络进行分类和回归。

1.3 检测头网络

检测头网络使用YOLOv3的检测头，它负责对检测头网络从主干网络提取和融合的特征进行检测，起到分类和定位的作用。图像经过YOLOv4网络处理后，得到3个特征输出层，通过检测头网络2层卷积的处理，得到特征层的预测结果。

2 改进YOLOv4的绝缘子检测模型

2.1 网络结构改进

2.1.1 特征提取网络

近年来，为了满足资源受限的嵌入式系统的使用需求，SqueezeNet、MobileNet和ShuffleNet等系列轻量化网络被提出并应用于嵌入式平台[16]。

MobileNetV1利用深度可分离卷积构建轻量型深度神经网络，并引入2个压缩超参数减小网络尺寸[17]，将其应用于目标检测，可有效减少网络计算量和模型参数量。MobileNetV1采用分离卷积的形式将标准卷积分解为深度卷积(depthwise convolution)和逐点卷积(pointwise convolution)[18]。如图2所示，深度卷积的计算很简单，它对输入特征的每个通道分别使用1个卷积核，然后将输出进行拼接。逐点卷积即为1×1卷积，它可以改变输出通道的数量，并融合深度卷积输出的特征图。与标准卷积相比，深度可分离卷积的参数计算量会减少约2/3，大大提高了网络计算效率。

图2 深度可分离卷积Fig.2 Depthwise separable convolution

在MobileNetV1基本结构中，除了第1层为标准卷积，其他都是深度可分离卷积。在卷积层后接平均池化层和全连接层，最后利用Softmax激活函数将输出归一化到0～1的概率值，根据概率值可得到图像预测结果。实验表明，使用MobileNetV1代替CSPDarknet53作为主干网络进行特征提取，会大大减少模型参数量，但检测精度也会下降。因此，本文结合MobileNetV1和CSPDarknet53这2个检测框架，在减少模型参数量的基础上，提高模型的特征提取能力。

为了保证MobileNetV1和CSPDarknet53输出的特征层尺度一致，在MobileNetV1的基本结构中保留前面的卷积层，去掉池化层及其后边的结构，输出3个特征层尺寸，如图3所示。

图3 MobileNetV1网络结构Fig.3 MobileNetV1 network architecture

2.1.2 PANet改进

在PANet中，高维度特征下采样后与下一层特征拼接，低维度特征上采样后与上一层特征拼接，充分利用了底层特征信息。精简PANet结构，仅保留其上采样部分，同时使用深度可分离卷积替换3×3标准卷积，可在几乎不损失精度的情况下提高模型计算效率。

2.1.3 解耦头

YOLOv4基础网络中的检测头结构较简单，会损失检测精度。替换为解耦头(decoupled head)，可提高检测头的表达能力，加快网络收敛速度。解耦头网络结构如图4所示。

以输入特征尺寸(13，13，512)为例，对目标框的类别预测输出为Cls_out，判断目标框是前景还是背景信息，输出为Obj_out，目标框的坐标信息输出为Reg_out。将3个预测信息拼接融合得到(13，13，7)的特征信息，同理可得输入尺寸为(26，26，256)和(52，52，128)的特征信息(26，26，7)和(52，52，7)。对输出信息进行重塑操作，总体拼接后可得预测框的二维向量信息，用于后续损失函数计算和网络参数更新。

2.1.4 整体模型

改进YOLOv4的绝缘子检测模型如图5所示。将CSPDarknet53网络中重复卷积的操作次数由[1，2，8，8，4]变为[1，1，1，1，1]，目的是在减少模型参数量的基础上，最大限度地保留其特征提取能力。使用CSPDarknet53和MobileNetV1网络同时进行特征提取，输出的特征层分别进行堆叠处理，并使用1×1卷积将其通道数缩减为原来的一半，降低模型计算量。特征层1的输出进入SPP-net，经过1×1、5×5、9×9和13×13这4种卷积核的最大池化处理后进行拼接。在PANet中，低维度特征上采样后与上一层特征拼接，使用解耦头预测输出。

2.2 模型训练改进

2.2.1 训练策略

迁移学习是一种机器学习方法，是将一个领域(源领域)的知识迁移到另一个领域(目标领域)，使得目标领域能够取得更好的学习效果[19]。本文利用基于特征的迁移学习方法实现不同特征空间之间的知识迁移，可有效减少训练时间[20]。使用PASCAL VOC数据集训练完成的YOLOv4模型作为源领域，将其训练模型参数迁移至绝缘子目标检测领域，然后利用数据集进行2阶段训练。第1阶段为冻结训练，先冻结主干网络的模型参数，训练其余结构；第2阶段解冻主干网络的所有参数进行训练，最终得到模型即可进行绝缘子识别及缺陷检测。

2.2.2 数据增强

为了增加绝缘子图像数据的多样性，使用Mosaic数据增强方法丰富图像背景，主要思想是随机裁剪4张图片，拼接到1张图片上作为训练数据，可增强模型的定位能力，提高训练效率。

在模型中加入Mosaic训练迭代参数，改变数据增强方法在迭代过程中的使用占比。实验表明，参数设置为0.7对绝缘子的检测效果最好，即在100次迭代过程中，前70次进行Mosaic数据增强训练，后30次关闭此进程。

2.2.3 学习率设置

在冻结训练阶段，初始学习率设为0.001，可以加快模型的收敛。在解冻训练阶段，初始学习率设为0.000 1，主要是进行模型的微调。两阶段训练时学习率均采用等间隔调整方法，调整系数设为0.94，迭代1次即更新1次学习率。

3 实验结果与分析

3.1 实验介绍

3.1.1 数据集

实验数据采用中国电力线路绝缘子数据集(Chinese power line insulator dataset，CPLID)数据，包含绝缘子图像848张，分辨率为1 152×864。针对现有数据集中的缺陷绝缘子图像进行裁剪和旋转操作，达到丰富缺陷绝缘子样本的目的。使用Albumentations工具对图像进行翻转和调色操作，进一步扩充绝缘子数据集至2 678张。部分图像数据展示如图6所示。

图6 数据集图示Fig.6 Illustration of data set

使用Labelme图片标注工具标注绝缘子数据集图像，如图7所示。输入图像读取部分所需标注采用VOC2012格式，它支持的文件读取格式为XML，使用Labelme标注后产生的所有信息文件为json格式，利用Python将其转化为xml格式文件后进行实验。标注文件中包含文件名、图像尺寸、检测目标的坐标和分类信息等。

图7 绝缘子图像标注示例Fig.7 Example of insulator image annotation

3.1.2 参数设置

本文使用的训练参数见表1，包括两阶段训练批处理尺寸、迭代次数和输入图像尺寸等。在冻结训练阶段迭代40次，不进行参数更新，批处理尺寸设为4。解冻训练阶段迭代60次，批处理尺寸设为2。

表1 实验参数Tab.1 Experimental parameters

3.1.3 实验平台配置

实验平台配置如下：GPU为RTX 3060 6G，操作系统为Windows10，深度学习软件采用Pytorch架构。

3.1.4 评价标准

本文采用平均精度均值(mean average precision，MAP)来评价绝缘子识别及缺陷检测的准确度，使用平均精确率(average precision，AP)表示每一类的识别效果。

召回率R是用来评价查准率的指标，其表达式为

(1)

式中：TP为被正确划分为正样本个数；FN为被错误划分的正样本数。

精确率P是用来评价查准率的指标，其表达式为

(2)

式中FP为被错误划分的负样本数。

AP值定义为P-R曲线上所有精确度的均值。mAP为所有类别AP的平均值，其计算公式为

(3)

式中：AAPi为第i类别的AP值；n为类别数。

3.2 实验结果分析

测试集共有268张绝缘子图像，包括316个绝缘子和183个缺陷。实验使用阈值设为0.5时的绝缘子识别及缺陷检测平均精度来衡量模型的检测效果。YOLOv4基础模型训练的mAP为70.74%，在训练中加入迁移学习方法后检测精度大幅提升。

表2为加入各改进方法后绝缘子的检测效果。实验所采用的方法使YOLOv4基础模型的内存占用减少了69.16%，在节约训练时间的同时，提高了模型对于绝缘子识别及缺陷检测的能力。

表2 改进方法检测效果Tab.2 Detection effect of improved method

表3对比了改进后模型与其他经典模型绝缘子检测效果。改进后模型的mAP可达98.17%，较YOLOv4基础模型提高4.3%，对于单张绝缘子图像的识别速度提升了5 ms。

表3 模型对比Tab.3 Model contrast

由式(1)、(2)可计算出绝缘子识别和缺陷定位在不同置信度下的精度和召回率。当置信度设为0.5时，该模型对于绝缘子缺陷定位的精度可达99.21%，对于绝缘子识别的精度为97.13%，其围成的面积即AP值如图8所示。

图8 P-R曲线展示测试结果Fig.8 Test results shown by P-R curve

自制绝缘子图像视频检验模型的识别效果如图9所示。视频时长1 min，包含60张绝缘子图像。可以看出，该模型对于绝缘子的识别及缺陷检测效果较好，但是难以识别极小目标绝缘子和被遮挡的绝缘子。

图9 视频测试结果Fig.9 Video test results

4 结束语

本文基于YOLOv4网络基本架构，使用“CSPDarknet53+MobileNetV1”作为主干特征提取网络，精简PANet网络结构并使用解耦头作为检测头，可有效提高模型的检测精度及效率。动态视频实验表明本文所提方法可进行实时绝缘子识别及缺陷检测，但是对于极小目标绝缘子的识别能力有待提高，所以对图像进行分块处理和放大识别等方法将成为未来的重点研究方向。