基于改进YOLOv4-tiny的输电线路目标识别算法

2022-12-07 12:57武建超闫彦辉张国庆

测控技术 2022年11期

武建超，张楠，闫彦辉，张国庆，唐锐，倪威

(1.国网新疆电力有限公司巴州供电公司，新疆库尔勒 841000； 2.华北电力大学电气与电子工程学院，北京 102206)

近年来，随着目标检测研究的不断深入，目标检测被广泛应用到工业领域。在电力行业中，由于电力设备数量众多且分布位置较为复杂，人工巡检比较耗时耗力，实现对电力设备的智能巡检是必然的趋势。智能巡检依托各种移动终端接入巡检影像，通过深度学习方法对电力设备周围的典型目标进行分类，提高巡检故障检出率。为了更好地将目标检测算法部署在移动终端，需要同时考虑到算法的处理速度和精确程度。因此，本文研究适用于输电线路巡检实际场景的目标检测算法,对电力设备智能化巡检具有重要意义。

现阶段基于深度学习的目标检测算法主要有两阶段(Two-Stage)算法和单阶段(One-Stage)算法。两阶段算法以R-CNN[1-2](Region-Convolutional Neural Network)系列为代表，首先随机生成多个候选框，再针对各个候选框使用卷积神经网络提取特征并进行判断，最后使用回归器修正候选框位置，这类目标算法的精度较高，但是在实时性要求较高的场景下检测速度略有不足；单阶段方法以YOLO[3-5](You Only Look Once)系列算法、SSD[6-7](Single Shot Multibox Detection)算法等为代表。单阶段方法运算速度更快，在实际应用中更多。单阶段算法中的YOLOv4[8]使用较深的CSPDarknet53作为骨干网络，通过路径聚合网络[9](Path Aggregation Network，PANet)进行特征融合，网络整体在保持较高的检测速度同时也有较高检测精度，之后由学者提出的YOLOv4-tiny建立在YOLOv4基础之上， YOLOv4-tiny网络结构更加轻巧，检测速度大幅加快。文献[10]在原YOLOv4-tiny网络基础上，对八倍下采样特征图进行上采样，再将上采样结果与上一层特征图拼接，加强了对小目标的检测能力。文献[11]在原YOLOv4-tiny网络中添加改进后的SE(Squeeze-and-Excitation)模块和Xception模块，提升模型学习能力；同时引入空间金字塔池化(Spatial Pyramid Pooling，SPP)模块和PRN(Partical Residual Networks)模块，提高模型检测率。文献[12]对原YOLOv4-tiny网络的跨阶段局部网络(Cross Stage Partial Network，CSPNet)进行强化以增强特征提取能力，添加SPP模块以缓解网络对目标尺度的敏感度。文献[13]通过引入深度可分离卷积，减少模型参数和计算量；采用双向特征金字塔网络结构(Bi-directional Feature Pyramid Network，BiFPN)代替特征金字塔网络(Feature Pyramid Network，FPN)以提升对不同尺度目标的检测能力；使用Focal损失函数解决训练过程中数据集正负样本不均衡问题。文献[14]利用MobileNet[15]的深度可分离卷积优化YOLOv4-tiny骨干网络，去除非检测目标区域的冗余信息来提高SURF(Speeded up Robust Features)匹配算法效率以提升检测精度。文献[16]从增加网络感受野的角度出发，设计了一类将改进的SPP模块、Sub-stage特征融合与YOLO-tiny相结合的检测器，有效改善了多尺度检测问题。文献[17]利用SPP结构进行多尺度池化并融合特征，增大网络感受野。结合路径聚合网络反复增强不同尺度特征，提升对目标的表达能力。本文对YOLOv4-tiny原有的FPN结构做了改进，通过引入空洞卷积空间金字塔池化(Atrous Spatial Pyramid Pooling，ASPP)结构来捕捉更多的上下文信息，针对原有YOLOv4-tiny只包含两个预测尺度的不足，将四倍下采样后的通道引出，在三种尺度上进行检测，提高了对小目标的检测能力。

1 YOLOv4-tiny网络

单阶段算法在检测速度上比两阶段算法更占有优势，作为单阶段目标检测算法的代表，YOLO系列算法将检测任务转化为回归问题，在进行目标检测任务时兼顾了检测精度与检测速度之间的平衡。其中YOLOv4-tiny网络是YOLOv4的简化版本，它在牺牲一部分检测精度的条件下大幅度提升了检测速度，其网络结构简单，如图1所示。YOLOv4-tiny网络整体由3部分组成，分别是骨干网络部分(CSPDarknet53-tiny)、FPN和预测部分(YOLOhead)。骨干网部分首先通过两个基本卷积模块对输入图片大小进行压缩，并对图片通道进行扩张，实现对图片的下采样；跨阶段局部模块将基础层特征映射分为两部分，一部分作为大的残差边，另外一部分在经过卷积操作和小的跨越链接后再和残差边部分进行拼接，这种结构能有效增强网络的学习能力，在提高检测准确率的同时减少计算量；在跨阶段局部模块之后通过最大池化层进行尺度缩放，扩大感受野范围，特征金字塔部分将不同尺度的信息进行融合。YOLOhead预测部分对得到的特征结果进行两种尺度上的预测。

2 改进方法

2.1 网络结构改进

网络模型轻量化的一种重要手段是通过减少骨干网络中相应卷积、残差等结构的数量达到减少网络参数的目的。YOLOv4-tiny特征金字塔的构造非常简单，在13×13大小特征层和26×26大小特征层的特征融合上采取一次上采样然后堆叠的方式，这样能加快网络推理速度，同时也会导致网络感受野小、特征融合不够全面以及对骨干网络提取特征信息利用率低的缺点。

相比较于普通卷积，空洞卷积[18]在特征图大小相同的情况下可以获得更大的感受野，从而获得更加密集的数据，让每个卷积的输出包含更大范围的信息，更大的感受野可以加强对小目标的检测效果。空洞卷积如图2所示。虚线网格框表示大小为3×3的空洞卷积核，灰色小网格内的黑色方块表示该点有参数需要学习，空白则表示该点补零。当卷积核空洞率为1时，此时的卷积核与标准卷积核相同。

图1 YOLOv4-tiny网络结构

图2 空洞卷积

由空洞卷积的特点可知，空洞卷积能让网络在不丢失分辨率和增加参数的前提下获得更大的感受野。骨干网络提取图片特征后会导致分辨率下降，这里将原先网络的卷积加上采样替换为空洞卷积金字塔加上卷积和上采样。空洞卷积空洞率越大，其感受野越大。在这里选取空洞率为1、3、7的空洞卷积构造金字塔，较小的空洞卷积对于提取低分辨率的特征图更加高效，信息丢失也越少。构造的空洞空间卷积池化金字塔如图3所示。之后将得到的特征图在通道维度上进行拼接操作，得到的特征图包含输入在多个尺度上的特征信息。

改进后的网络整体结构如图4所示。YOLOv3以及YOLOv4两种模型在预测部分共用到中间层、下层和底层共3个特征层，极大地利用了主干特征提取网络提取到的信息。为此本文在YOLOv4-tiny骨干特征提取网络上额外引出一层52×52大小的特征层，在特征金字塔部分对骨干网络提取到的特征进行13×13、26×26、52×52三种尺度上的预测，提高信息利用率。

图3 空洞空间卷积池化金字塔

图4 改进后网络整体结构

在闹市区域，可能会遇到城市建设过程中较多的施工机械在输电线路周边的情况，此种场景下会出现目标重叠和遮挡的情况。为减少出现漏检或者重检概率，引入了SoftNMS[19]算法，在目标检测的后处理过程中，当2个预测框的重叠面积比值大于给定阈值时，不会直接将得分归零，而是减少该预测框的得分，重叠面积越大，得分减少越多，算法如下。

Input：初始化预测框B={b1,…，bN}

得分集合S={s1,…，sN}

重叠面积比阈值Nt

begin:

B←{bi},S←{si},N(bu，bv)←Nt

B′,S′←φ#B′,S′为预测框集合和得分集合

whileB≠φdo

s*←max{si}

b*←s*对应的预测框

B′←B′∪b*#更新后的预测框

S′←S′∪s*#更新后的得分集合

B←B-b*#除b*外的预测框集合

S←B#对应的得分集合

forbi∈B

end

returnB′，S′

end

2.2 网络相关函数改进

在激活函数方面，选用性能更好的Mish激活函数，Mish激活函数为

F(x)=x·(2sigmoid(2ln(1+ex)-1))

(1)

Mish激活函数如图5所示。该激活函数和其他激活函数一样，由于没有上界则避免了梯度饱和；没有下界则有助于实现强正则化效果；同时 Mish激活函数并非单调函数，有助于保持小的负值，从而稳定网络梯度流；同时Mish激活函数是光滑函数，具有良好的泛化能力和优化能力，能提高神经元传递的质量。

图5 Mish激活函数

YOLOv4-tiny网络的损失函数包含3部分：边框回归损失函数、置信度损失函数和分类损失函数。损失函数为

(2)

其中边框回归损失函数采用CIoU[8]作为损失函数，CIoU损失函数能最小化预测框与真实框之间的归一化距离，让边框回归损失收敛速度更快，在预测框与真实框有重叠时更精确。CIoU函数为

(3)

式中:A为预测框的面积大小；B为真实框的面积大小；α为平衡比例的参数；v为衡量预测框与真实框间的比例一致性；b和bgt分别为预测框与真实框的中心点；ρ(b,bgt)为求预测框中心点b和真实框中心点bgt之间欧氏距离的函数；c为预测框与真实框闭包区域对角线之间的距离。由于在进行目标检测时大多数像素通常都是背景，只有很少的像素是需要检测的目标，这样就引起了比较严重的正负样本不均衡问题。为减少正负样本不均衡问题，在置信度损失函数和分类损失函数中引入Focal损失函数[20]替代原来的二分交叉熵函数。Focal损失函数为

FL(Pt)=-αt(1-pt)γln(pt)

(4)

式中：pt为模型的预测概率，反映了与目标真实类别的接近程度；αt为调整正负样本不平均的系数；γ为负责降低简单样本的损失值，防止累加后损失值过大。

3 实验

3.1 数据集及预处理

实验所使用的数据是由国家电网公司某段输电线路监控设备采集，在不同季节、不同时段、不同场景下对监控视频进行随机抽取，提取出监控视频的单帧图像作为数据集，通过使用图片标注工具(Labeling)按照Pascal VOC格式[21]对数据集进行标注，对应的XML文件记录了图像中目标的位置信息和类别信息，整个数据集一共包含1500张图片，将数据集按照7∶3划分，训练集和测试集分别占70%和30%。数据集共5个类，分别为TaDiao(塔吊)、ShiGongJiXie(施工机械)、DiaoChe(吊车)、DaoXianYiWu(导线异物)、YanHuo (烟火)，其中TaDiao类1152个、ShiGongJiXie类927个、DiaoChe类843个、YanHuo类305个。在开始训练前，对候选框的大小及位置进行调整，使用大小及位置恰当的候选框能够有效提高模型训练速度和准确度。本研究使用K-means算法对数据集中框的大小进行聚类，共得到9组候选框，参数分别为(12，30)、(13，10)、(21，19)、(25，54)、(36，12)、(41，27)、(57，81)、(90，29)、(159，88)，之后使用这些大小的候选框进行模型训练。

3.2 评价指标

本实验使用自制的数据集在改进前后的网络上进行训练和测试，采用平均精度(Average Precision，AP)、平均准确率(Mean Average Precision，mAP)和模型推理速度(Frames Per Second,FPS)作为评价指标。AP值由准确率(Precision)和召回率(Recall)生成的Precision-Recall曲线和坐标轴组成的面积计算得到，mAP表示对所有AP求得的均值。FPS指每秒帧率，即每秒内能够处理的图片数量。Recall和Precision的计算公式为

(5)

式中:Recall为检测为正样本且确实为正样本占所有确实为正样本的比例；TP为检测为正样本并且确实为正样本数量；FN为检测为负样本但实际不是负样本数量；Precision为检测为正样本且确实为正样本占所有检测为正样本的比例；FP为检测为正样本但实际不是正样本数量。

3.3 结果分析

本实验平台为Ryzen 7 4800H，机带RAM大小为16 GB，64位Windows10操作系统，显卡为NVIDIA GeForce RTX2060，编译环境为Pycharm/python语言，深度学习框架为Pytorch 1.9.0，对应加速库为CUDA 11.3。实验训练参数如表1所示。

表1 实验训练参数

前100次冻结骨干网进行训练，后100次进行解冻训练。使用上述参数训练后，得到loss变化示意图，如图6所示。由图6可知前三次训练损失比较大，随着网络继续训练，训练损失值在慢慢降低，学习率开始进行微调，最后达到收敛状态。

图6 训练损失散点图

各类目标AP值、mAP及FPS值对比如表2所示。在对YOLOv4-tiny网络结构做了改进以后，检测精度更好：其中DiaoChe的AP值提高了6.92%，ShiGongJiXie的AP值提高了11.56%，DaoXianYiWu的AP提高了5.29%，YanHuo的AP值提高了10.93%，TaDiao的AP值提高了19.73%，总体的mAP值由65.22%提升到了75.14%，精度提升了9.92%。添加小目标检测头后模型推理速度FPS相比于YOLOv4tiny有一定下降，但仍高于YOLOv4，具备实时性条件。

表2 各类目标AP值、mAP及FPS值对比

图7为检测效果对比图。从左到右依次为YOLOv4、YOLOv4-tiny和改进算法的检测效果，从图7可以看出，相比较于YOLOv4-tiny，改进后的算法检出率高于原YOLOv4-tiny，但与YOLOv4相比仍然有一定差距。在添加了小目标检测头之后使其对小目标具有更好的检测能力。

图7 检测效果对比图

4 结束语

为防止输电线路外部破坏，针对输电线路周围典型目标进行识别，提出了一种基于改进YOLOv4-tiny的目标检测模型，能够对输电线路周围典型目标进行自动识别，通过在YOLOv4-tiny网络的FPN部分加入空洞空间卷积池化金字塔模块，提高了对小目标和遮挡目标的检测能力，经过仿真实验验证，提出的网络模型能快速准确识别输电线路周围典型目标及位置，mAP达到了75.14%，有9.92%的精度提升，对5类典型目标识别精度有一定提升，同时检测速率为59 f/s，检测速度略有下降，其检测准确率和速度更为均衡，适合于输电线路周围典型目标检测任务。为防止输电线路外部破坏保证输电线路安全提供了帮助，为输电线路周围环境全景感知奠定了一定基础。