赵振兵,吕雪纯 ,王帆帆,蒋志钢,4,张凌浩,杨迎春
(1.华北电力大学 电子与通信工程系,河北 保定 071003;2.华北电力大学 复杂能源系统智能计算教育部工程研究中心,河北 保定 071003;3.华北电力大学 河北省电力物联网技术重点实验室,河北 保定 071003;4.国网四川省电力公司计量中心,四川 成都 610045;5.国网四川省电力公司电力科学研究院,四川 成都 610095;6.国网四川省电力公司,四川 成都 610041)
输电线路是构建我国能源互联网的重要基础设施,输电线路能否长期安全、稳定运行是保障我国能源安全和国家经济稳定的关键,故需要在第一时间对潜在的安全隐患进行干预[1]。金具是输电线路上广泛使用的铁制或铝制金属附件,是最常见、数量最繁多的部件之一[2],主要用于支持、固定、接续裸导线、导体及绝缘子等[3]。由于输电线路长期运行在户外,受到各种气象环境和线路荷载因素的影响,输电线路上各种金具极易发生锈蚀、破损和变形等问题[4-5]。
随着电网系统的快速建设,直升机、无人机巡检已成为输电线路巡检的主要手段之一[6]。通过计算机视觉的手段对金具的航拍图像进行检测可以大大提高效率,实现输电线路巡检高精度、高效率、强智能、多层次、便捷化、低成本和全覆盖的要求,该技术的应用具有可操作性及灵活性,可提高输电线路巡检效率[7]。现阶段构建智能化、专业化的自动巡检体系是电网运维发展的必经之路[8]。
近年来快速发展的深度学习卷积神经网络具有特征提取能力,但是针对不同检测目标还需根据其特点构建特有的网络结构,以达到满意的结果[9]。文献[10]针对烟雾特征提取误差较高的问题,提出了一种烟雾特征与卷积神经网络结合(Characteristic Analysis NetCNN,CANCNN)算法,此算法包含特征分析与目标识别两部分,特征分析部分主要利用的是烟雾的独特特征,比经典卷积神经网络算法性能有了一定的提升。文献[11]针对复杂环境下红外弱小目标检测查准率与查全率低的问题,以YOLOv4-Tiny[12]模型为基础,为了避免忽略弱小目标的有用信息,对模型的特征提取部分通过增加卷积层数与卷积核尺寸来增加红外图像特征提取的信息量;同时对YOLOv4-Tiny模型的激活函数进行了修改,提高对弱小目标的细节学习能力。文献[13]针对由于金具尺度变化大且部分金具为小尺度目标进而导致金具检测精确度低的问题,在Cascade R-CNN (Cascade Region-based Convolutional Neural Network)[14]模型的基础上,引入了递归特征金字塔,加入基于NAS(Network Attached Storage)搜索空洞卷积孔洞率的NAS-AC模块提高模型对小尺度金具特征的表达能力和预测能力。针对小样本及复杂环境下输电线路关键设备缺陷检测难等问题,文 献[15]提出了一种融合深度卷积神经网络和卡尔曼滤波的图像检测方法。采用MobileNet构建模型骨干网络,融合了柔性非极大值抑制算法以解决目标部件遮挡问题;将上下文感知RoI(Region of Interest)池化层取代原始池化层,通过卡尔曼滤波对检测结果进行修正,有效提高小目标的检测精度。文献[16]针对输电线路中尺度变化大、小目标多、光线暗和部分遮挡问题采用两阶段深度网络,针对性修改RPN(Region Proposal Network)中候选框生成网络且采用多任务损失函数提升网络预测能力。
尽管上述研究在一定程度上实现了输电线路金具目标的检测,但是离生产实际要求还有一定距离。为了能够在背景复杂的航拍图像中快速、准确地识别多类金具,基于YOLOx-S[17]目标检测模型对输电线路上金具进行检测,并结合金具数据集的特点对该模型进行了优化与改进。
由于YOLOx-S模型在具有优秀的检测能力、模型参数量不多的同时兼具不错的检测速度,因此本文选择YOLOx-S模型为基础模型。YOLOx-S在YOLOv5-S的基础上改进而来,整体可分为输入端、骨干网络(Backbone)、颈部(Neck)以及预测(Prediction)共计4个部分,骨干网络使用CSP网络并结合Focus结构,在下采样的过程中通过切片的手法保证信息不丢失,再经过卷积操作得出特征图,Neck部分采用FPN+PAN结合的结构,加强了网络特征的融合能力,Prediction部分采用了收敛速度更快、精度更高的解耦头部(Decoupled Head),并且引入无锚节点(Anchor-free)技术[18],最后采用简化的SimOTA方法求解最优解,完成最终预测。与YOLOv5-S相比,其改进主要有四部分:在输入端,基于Mosaic数据增强的作用,还采用了MixUp数据增强;在模型的Backbone部分和Neck部分的激活函数都采用SiLU函数;在模型的输出端将检测头改为Decoupled Head,并引入了Anchor Free和SimOTA等技术。YOLOx-S目标检测模型中添加ECA(Efficient Channel Attention)模块和自适应空间特征融合(Adaptively Spatial Feature Fusion,ASFF)模块后的总体结构如图1所示。
图1 修改后的YOLOx-S目标检测模型结构Fig.1 Modified YOLOx-S target detection model structure
出于安全考虑,无人机在对输电线路进行航拍时不允许近距离拍摄,导致待检测目标在图像中像素占比较小,如图2所示为未处理原始航拍图像。图像中的预绞式悬垂线夹与整张图像相比本身占比较小,且位于航拍图像中的右方角落视野盲区,并且部分被杆塔所遮挡的同时,有着与杆塔较为相近的颜色,另外还存在图像虚化的问题。这些问题都会导致目标检测模型在金具数据集上出现检测精度不佳的情况。
图2 原始航拍图像中的预绞式悬垂线夹Fig.2 Preformed suspension clamp in the original aerial image
针对上述问题,本文选择在YOLOx-S目标检测模型中融入ECA[19],它通过对通道之间的关系建模,自适应地重新校准通道方向的特征响应,提高模型提取特征的能力,以提升检测模型在较小目标检测任务上的精度。ECA如图3所示。定义一个输入为C×H×W的特征图X,对输入的特征图进行全局平均池化(Global Average Pooling,GAP)是为了对输入特征图进行空间特征压缩,以此得到C×1×1的特征图,具体计算如式(1)所示:
(1)
式中:Xc表示特征图X中第c个二维矩阵。进行该操作之后就获得了一个C×1×1的输出,相当于得到了特征图的数值分布,也意味着全局信息。给定通过GAP获得的特征,压缩后的特征图要进行通道特征学习,在做卷积操作时,它的卷积核大小会影响到感受野;为解决不同输入特征图,提取不同范围的特征时,ECA使用了动态的卷积核来做1×1卷积,学习不同通道之间的重要性。ECA通过大小为k的快速一维卷积来生成信道权重,k表示本地跨通道交互的覆盖范围,即有多少个相近邻参与一个通道的注意力预测,k的取值可以通过通道维度C的映射自适应地确定,如式(2)所示:
(2)
式中:|t|odd表示最接近t的奇数,k表示卷积核大小,C表示通道数。
图中σ表示Sigmoid函数,sc是通过全局平均池化和Sigmoid函数后得到,函数定义如式(3)所示:
(3)
Uc通过式(4)得到:
Uc=sc×Xc。
(4)
将输入特征图与处理好的特征图权重进行相乘,权重就会加在特征图上,会将模型训练好的目标聚焦到感兴趣的特征图区域。
在YOLOx-S目标检测模型中,Neck部分采用了FPN+PAN的结构,如图4所示。采用FPN+PAN结构对多尺度特征图进行融合并输出,FPN+PAN在FPN的基础上加入了自下而上的增强结构,从原来的单向融合转为双向融合。通过FPN+PAN结构,既可以自顶向下传达强语义特征,又可以自底向上传达强定位特征,从不同的主干层对不同的检测层进行特征聚合,达到提升检测精度的目的。其中自顶向下的融合路径(1)是将特征图通过上采样 2倍之后,再和前一层特征图相加;自底向上则同理,只需将上采样改为下采样即可。
尽管FPN+PAN结构已经充分考虑到了深层特征图和浅层特征图相融合对于目标检测具有重要意义,但是该结构在特征图融合时采用的方法却略显粗糙,在YOLOx-S中只是简单地使用张量拼接,而显然没有考虑到深层特征图和浅层特征图对于不同大小尺度的待检测目标具有不一样的意义。
针对此问题,本文采用一种ASFF[20]的方式对FPN+PAN进行改进,通过学习得到权重参数,对不同阶层的特征图自适应进行融合,具体设计如图5所示。
图5 基于自适应特征融合的FPN+PAN结构示意Fig.5 Structure diagram of FPN+PAN based on adaptive feature fusion
图中的X1、X2、X3表示FPN+PAN中3个尺度的输出特征图,在YOLOx-S中分别为20×20、40×40以及80×80。以ASFF-3为例说明,特征图X1和X2分别通过1×1的卷积压缩成与X3相同的通道数,再分别进行4倍和2倍的上采样,使得特征图X1和X2都获得与特征图X3相同的维度,分别记为X1-3和X2-3;定义Xijn-3表示特征图Xn-3上位置(i,j)处的特征向量,则ASFF-3输出特征图Y3上位置(i,j)处计算如式(5)所示:
(5)
(6)
在YOLOx-S目标检测模型中,损失函数由三部分组成,分别是边界框回归损失(Lossbox)、置信度损失(Lossobj)和分类损失(Losscls)。其中边界框位置采用的还是相对传统的GIoU Loss(Generalized Intersection over Union Loss),计算如式(7)所示,其中C表示包含真实框和预测框的最小矩形。
它的提出是为了解决IoU无法精确地反映二者重合度大小的问题,即使用IoU时,会出现相同的IoU,重合度却不同的情况;同时IoU还存在当2个物体没有交集时,就退化为常数1,无法进行训练的问题。GIoU的优点很明显,具有尺度不变性。但是同时GIoU自身缺点也很明显,当目标框完全包裹预测框时,IoU和GIoU的值都一样,此时GIoU退化为IoU,无法区分其相对位置关系,如图6所示的 3种情况中GIoU Loss是完全一致的。
针对上述情况,本文使用DIoU Loss(Distance Intersection over Union Loss)[21]对YOLOx-S目标检测模型进行优化。DIoU定义如式(9)所示:
(9)
式中:ρ表示欧式距离,c表示GIoU中矩形C的对角线长,如图7所示。
DIoU把目标与anchor之间的距离、重叠率以及尺度都考虑在内,使目标框回归更加稳定,训练过程中不会出现发散等问题。相比于GIoU,DIoU同样具有尺度不变性,并且解决了GIoU完全包裹预测框时Loss值一样的缺点,如图8所示。
图8 不同情况下3种Loss值示意Fig.8 Schematic diagram of three Loss values under different conditions
在采集到航拍图像后,并不能直接用于深度模型的训练,还需要人工对图像上目标进行标注。本文选择软件LabelImg,分别对输电线路上防振锤、均压环和屏蔽环等金具进行了标注并保存为XML文件。
根据上述方法建立了输电线路上金具检测图像数据集,数据集共有图像1 456张,有标注目标 3 297个,包含屏蔽环、均压环和防振锤等金具共计14类,将数据集以8∶2划分为训练集与测试集,详细情况如表1所示。
表1 数据集详细情况Tab.1 Dataset details
本文实验主要基于Python3.7版本的Torch1.8深度学习框架的软件运行环境。服务器系统为Ubuntu16.04,内存为24 GB,显卡为NVIDIA RTX A5000,批处理(batch_size)参数为16,动量(momentum)为0.9,IoU阈值为0.5,初始学习率(init_learning_rate)为0.001,迭代(epoch)次数为150。
本文使用召回率(Recall,R)、准确率 (Precision,P)、AP(Average Precision)以及mAP(mean Average Precision)作为评价标准,对于召回率和准确率的描述如式(10)~式(11)所示;mAP的定义如式(12)所示。首先将预测结果与真实标签比较后,将检测结果分为4类:模型预测为正例且预测正确的真阳性(True Positive,TP),模型预测为正例但预测错误的假阳性(False Positive,FP),模型预测为负例且预测正确的真阴性(True Negative,TN),模型预测为负例但预测错误的假阴性(False Negative,FN)。
为了验证本文提出的改进方法的有效性,使用准确率、召回率、AP以及mAP作为评价标准对各模块进行对比实验,实验结果如表2所示。
表2 消融实验Tab.2 Ablation experiment
从表2可以看出,针对待检测目标较小难以检测的问题而引入的ECA机制使得模型检测精度提升了4.06%;针对YOLOx-S模型Neck部分中FPN+PAN结构特征图融合提出的自适应特征融合机制使得模型检测精度上升了4.28%;通过优化损失函数使得模型检测精度提高了2.17%。本文提出的方法在金具检测数据集上获得了5.15%的检测精度提升,召回率提高了1.62%,证明了本文方法的有效性。具体每一类输电线路上金具检测的AP值如表3所示。
表3 每一类金具检测AP值Tab.3 AP value of each type of fitting detection
从表3可以看出,本文提出的方法在预绞式悬垂线夹、联板、U型挂环、挂板和压缩耐张线夹等 5类金具检测上取得最优的结果。在共计14类的金具目标检测任务中,基线模型仅仅在目标较大的均压环和重锤的检测上取得了最优精度,并且与改进模型在此2类金具上的检测精度相差无几。在预绞式悬垂线夹、间隔棒和防振锤等小目标的检测上都是改进模型取得了更好的检测精度。由此可见,本文提出的改进方法一定程度上提升了输电线路上金具检测的准确率,特别是对于背景复杂、较小目标的金具检测效果提升较为突出。
图9为基线YOLOx-S、ECA通道注意力、自适应特征融合机制、DIoU损失函数以及本文提出模型在训练过程中total_loss值随迭代次数变化的曲线。从图9可以看出,5个模型在训练时均已收敛,其中本文提出的方法大概在第30个epoch时已经收敛,收敛速度明显快于基线模型,并且在后面的训练中没有出现明显的波动,且整个训练过程中始终维持在较小值。图10所示为3组不同输电线路金具图像的检测结果,其中图10(a)、图10(c)、图10(e)为基线模型的检测结果,图10(b)、图10(d)、图10(f)为本文改进模型的检测结果。
图9 模型训练过程Loss收敛曲线Fig.9 Loss convergence curve during model training
图10 基线模型与本文改进模型金具检测结果Fig.10 Fitting test results of baseline model and improved model
由图10可以明显看出,本文改进模型的检测结果明显优于基线模型。以图10(a)和图10(b)为例,在针对小目标检测而加入注意力机制和自适应特征融合机制后,作为小目标的提包线夹和均压环的置信度有了大幅提升,同时作为大目标的重锤的置信度并没有受到太大影响。从图10(c)和图10(d)可以明显看出,本文提出模型在作为小目标的防振锤的检测上全面超过了基线模型。同时,从图10(e)和图10(f)对比可以看出,模型不仅在检测精度上有所提升,也明显减少了误检,图10(e)左下角一块较长的联板被误检成了2块,类似的情况还出现在该图中U型挂环的检测上,而本文提出的模型则没有出现这种情况。
本文基于YOLOx-S目标检测模型对输电线路上金具进行检测,并结合金具检测数据集的特点对该检测模型进行了优化与改进。针对输电线路航拍图像存在背景复杂且多变、检测目标在图像中像素占比较小、部分视觉信息较差的阴影、模糊等困难样本的问题,本文从特征融合角度出发,首先使用通道注意力使得模型更加关注复杂背景下的关键特征提取区域,接着基于ASFF机制使得浅层和深层的特征图更合理地融合,最后对检测模型的损失函数进行改进,解决损失函数无法准确反映真实框与预测框的重合度大小的问题。本文所提方法最终在自建金具检测数据集达到了79.66%的检测精度,相比于基线模型提高了5.15%,更加适用于输电线路上金具目标检测。