郑良成,曹雪虹,焦良葆,2,高 阳,王彦生
(1.南京工程学院 人工智能产业技术研究院,南京 211167;2.江苏省智能感知技术与装备工程研究中心,南京 211167)
电力资源的安全稳定是社会经济建设和安全发展的重要基石,而作为电力系统大动脉的架空线路则遍布全国各地,由于其分布广泛且没有保护条件,因此其安全性往往难以保证。据国内数据统计,30%的输电线路故障事件是由外力破坏导致的,外力破坏已成为除雷害以外的输电线路安全运行的最大隐患,常见的外力破坏危险行为主要有:超大工程车辆、低空飞行物、火灾、悬挂异物、搭建违章建筑、林区高树成长压线、可疑人员蓄意破坏、杆塔沉降倾斜等[1]。其中超大工程车辆由于其自身机械臂较长,在挖掘、装运、起重、移动等操作中极易对输电线路造成金属性永久接地,对输电线路危害极强,并且由于违章施工现象的层出不穷,致使超大工程车辆成为主要的外力破坏行为,其中主要的超大工程车辆有塔吊、吊车和挖掘机;而以山火,堆积起火为主要形式的火灾对输电线路的危害同样很大,因为如果不能及时控制火情蔓延,造成火势升级,其很可能烧断导线,甚至对杆塔造成破坏,并且短时间内难以对其进行恢复。因此本文以输电线路下超大工程车辆和烟火为主要外力破坏目标,在输电线路预警区对其进行目标检测和预警,提升线路巡的效率,达到对电力线路的保护作用。
与传统目标检测不同,基于深度学习的目标检测算法主要分为两类:第一类是基于候选区域的双阶段目标检测算法,第二类是基于回归问题的单阶段目标检测算法[2]。前者主要有R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN等,第一阶段生成候选框(Region Proposal Net)并从其中感兴趣区域提取特征;第二阶段对候选框进行卷积分类和矫正回归等操作生成位置框并预测类别,使其拥有更高的精度。由于其双阶段机制的特点,其产生的参数量较大,实时性差,检测小目标效果差,这种算法适用于高精度目标检测。而单阶段目标检测算法,如SSD、Retina-Net和YOLO被广泛应用。这些算法无需提前进行区域候选,而是直接通过输入图像来回归目标边界框和类别,从而满足工业生产快速性要求;模型结构简单,具有更大的开发价值,更适合移动和嵌入式设备应用。马学森[3]等人通过在YOLOv5l网络添加CA注意力机制,使网络有效地抵抗混乱信息的干扰,更好地关注特征信息,提高检测精度;宁纪峰[4]等人利用YOLOv5网络,在替换为CARAFE上采样方式后,在带来极小参数量的情况下增强了上采样过程的特征重组能力;张欣怡[5]等人将标准卷积替换为鬼影混洗卷积GSConv,在保证精度的同时使得网络更加轻量化,王慧赢[6]等人在特征融合层使用GSConv_slimneck结构,增强了特征融合能力,又降低了参数内存。
基于深度学习的目标检测算法的检测效果对检测图片样本要求较高,若检测环境恶劣或目标被遮挡重叠,则效果不理想。此外,对于输电线路这种难以部署大量设备的工作情况,对检测算法进行轻量化优化就十分重要[7-9]。而检测装置想要减小模型的复杂度往往会导致检测精度的大幅降低[10-14]。
为了有效解决上述问题,本文以YOLOv5s算法为基础对输电线路的外力破坏行为进行目标检测,首先通过去雾算法CLAHE,提升图片对比度,提高检测效果;通过添加CA注意力机制,结合空间和通道信息,增强了YOLOv5s网络的特征提取能力[15-16];通过使用轻量级上采样算子CARAFE,加强特征重组能力和特征语义信息利用能力[17-18];通过引入GSConv_Slimneck的设计范式,来减轻模型复杂度的同时并保持准确性[19-21]。
YOLOv5家族包括5个成员,分别是YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x、YOLOv5n。每种网络的深度宽度都不同[7]。其中YOLOv5s的网络深度和宽度最小,速度也最快,更为轻量化[22-23]。
改进后的YOLOv5s网络结构如图1所示,包括输入端、骨干网络(Backbone)、颈部网络(neck)、头部网络(Prediction)。首先,针对输电线路多存在雨雾、烟尘工作环境,本文使用限制对比度自适应直方图均衡算法(CLAHE,contrast limited adaptive histogram equalization)对数据集图片进行预处理,提升图片对比度,达到去雾的效果;然后,由于输电线路下环境复杂且时常会有工程车辆被异物遮挡的情况出现,因此本文在骨干网络的特征提取层引入坐标注意力机制(CA,coordinate attention),以增强对目标车辆的察觉和检测能力。其次,在原YOLOv5s的特征金字塔网络中使用的是最邻近插值法对高阶特征图进行上采样,这种上采样方式只考虑到相邻的亚像素空间,感知范围较小,不利于对远距离目标和背景噪声过大的目标进行特征提取[8]。因此本文在颈部网络的特征融合层引入轻量级上采样算子(CARAFE,content-aware reassembly of features),解决远距离目标的信息丢失问题,来提高检测精度,并且只引入了很少的参数量和计算代价。最后,针对输电线路只能部署边缘计算设备的情况,本文把平衡模型计算成本和检测精度作为轻量级网络设计主要目标,而大多轻量级网络常使用深度可分离卷积(DSC,depth-wise separableconvolution)来极大地减少参数量,但其不能充分利用不同通道在相同空间位置上的特征信息,造成检测精度的严重降低。因此,本文使用GSConv(Ghost-Shuffle Convolution)替换Neck层的标准卷积(SC,standard convolution),使模型参数量大幅降低。并在此基础上引入由GSbottleneck搭建而成的VoV-GSCSP(Vision Over Visibility Via Guided Sparse Context Propagation)轻量级网络,与GSConv组成纤细颈部网络(GSConv_slimneck),减轻模型重量同时获得更好的特征提取能力和感知能力。
图1 YOLOv5s改进后网络结构图
本文首先使用CLAHE预处理方法对图片进行去雾操作,然后对YOLOv5s网络进行添加CA注意力机制、修改上采样方式为CARAFE以及引入GSConv_slimneck范式的方法改进网络结构,使YOLOv5s网络更适用于对输电线路这种工作环境复杂且部署空间有限的场合。
1.2.1 限制对比度自适应直方图均衡化CLAHE
传统的自适应均衡直方图(AHE,adaptive histgram equalization)通过计算图像多个局部区域的直方图,并重新分布亮度,以此改变图像对比度,完成对图像的增强,但是AHE对局部对比度提升过大,会导致图像失真严重。而本文引用的CLAHE 算法与AHE的区别主要是:
1)CLAHE对子块中的直方图进行裁剪,使其幅值低于所需要的上限,同时将裁剪掉的部分均匀地分布到整个灰度区间上,保证直方图的总面积不变,达到限制区域对比度的作用。
2)在CLAHE变换中,图片像素点的值由它周围4个子块的映射函数进行双线性插值所得到,有效地解决了呈块效应。
针对本实验出现的雨、雾、烟尘等困难检测环境,引入CLAHE预处理可以有效地改善图像的对比度,达到去雾去噪的效果,对比图如图2所示。
图2 效果对比图
1.2.2 添加CA注意力机制
作为最典型的通道注意力模块,SENet强调通道间的相关性,重点关注重要通道,减弱其他通道特征的影响,从而达到提高网络性能的效果,但其缺点是忽略了对于生成空间特征选择性十分重要的位置信息。空间注意力模块与其类似,只关注于寻找网络中最重要部分的空间信息进行处理,虽然能够节省资源用于重要区域,但是这种注意力机制却忽略了通道间信息,将空间域变换方法局限于原始图片的特征提取阶段。混合注意力机制兼顾了两者的优点,同时关注位置和通道信息,其中最具代表性的有CBAM和CA注意力机制,但是CBAM引入了大尺度的卷积核提取空间特征,忽略了长程依赖问题。
Hou[11]等人提出CA(Coordinate Attention)注意力机制,将通道注意力分解为两个1维的全局池化过程,分别沿纵向和横向2个空间方向对通道特征进行聚合,这样可以得到两个具有独立方向感知的特征映射,然后在通道注意力的聚合特征向量中嵌入输入特征图的位置信息。将两种不同的特征图嵌入到两种不同的注意图中,每一种注意图都能反映出特征图在空间上的长期相关性和位置信息。再将这两个注意运用到输入特征图上,以增强对兴趣区域的表达。具体流程如图3所示。
图3 CA注意力算法流程图
1)为了避免将空间信息全部压缩到通道中,CA注意力通过把输入特征图在横向和纵向两个方向进行平均池化处理的方法,缓解了2D全局池化的位置信息丢失问题。并且这种2维变换能够使得注意功能模块在其中一维空间上获取长程依赖性,而在另外一维空间上存储更多的位置信息,从而帮助网络更加精准地找到所关注对象。
2)在经过上述变换后,将生成的特征图进行concat重叠操作,并通过一个1×1的卷积来压缩通道,减少计算量,方便后续的卷积操作,然后通过BN+Non-linear层来编码纵向方向和横向方向的空间信息。
3)将生成的特征图沿空间维度进行分割,生成一对具有方向感知和位置敏感性的特征图,然后再各自通过1×1卷积层恢复到和原始特征图一样的通道数。
1.2.3 改进上采样方式CARAFE
上采样算法是各种网络结构中最广泛使用的算法之一,YOLOv5s采用的上采样算法是最邻近插值法[9]。此方法选择单个像素灰度值来替换源图像中最近的像素灰度值。算法简单,易于实现且速度较快,但是在上采样时会产生色块现象,从而导致特征丢失,降低小目标检测精度[10];并且最邻近上采样算法仅利用像素的空间位置来确定上采样核心,并不能利用特征图的语义信息,也就会导致感受野非常小,不能有效地利用周围的信息。
本文在YOLOv5s中引用的轻量级通用上采样算子CARAFE,具有轻量化特征的同时还能拥有一个较大的感受野,并且将上采样核心与特征图的语义信息进行关联,根据输入进行上采样,进一步提升模型的特征表达能力和对细节的感知能力。在不引入过多参数和计算量的前提下,首先使用输入特征映射对每个目标位置的内容先预测一个上采样核,然后根据输入特性去指导预测的上采样核进行特征重组,具有较大的感受野,能够更好地聚合感知领域内的上下文信息。CARAFE主要分为上采样核预测模块和特征重组模块,结构如图4所示。假设输入的特征图尺寸为H*W*C,上采样倍率为σ,目标是将其转换为σH×σW×C的输出特征图。
图4 CARAFE上采样模块结构
1.2.3.1 上采样预测模块
首先,将特征图的通道数使用一个1×1的卷积来压缩,以减小计算量,便于后续可以使用更大的上采样核,压缩后的特征图形状为H×W×Cm。
最后将得到的上采样核使用softmax函数作归一化处理,即确保卷积核的权重加起来为1。
1.2.3.2 特征重组模块
在输入特征图中,选取一个以(i,j)为中心,Kup×Kup的区域,将其与预测出的该点上采样核作内积,得到输出值。在相同位置的(i,j)虽然通道不同,但仍共享一个上采样核。
轻量级通用上采样算子参数如下公式:
参数量=2(Cin+1)Cm+
(1)
1.2.4 Neck部分引入GSConv_slimneck范式
针对输电线路移动终端的存储能力有限且实际工作环境复杂:外物遮挡、背景色强和距离远等不利于检测的情况,需要在特征增强网络的设计上既要考虑网络轻量化,也要兼顾精度。常见的轻量级网络多使用深度可分离卷积DSC,其通过分割特征提取与通道融合的方式,显著减少了参数量,但是也正因如此,DSC的检测精度也随之降低。相反标准卷积SC[5]则是使用不同的卷积核对3个通道同时卷积,最后再叠加每个通道对应位置的值,使之变为单通道,需要很大的参数量。
因此本文通过在颈部特征融合时,使用鬼影混洗卷积GSConv来代替标准卷积,最大程度地平衡模型参数量和准确度。GSconv结构如图5所示。
图5 GSConv结构图
通道混洗由Han[12]为了缓解通道间特征融合时,使用 1×1 卷积占用过多计算量的问题,提出ShuffleNet中的概念。即首先将输入通道数C分为G组,令每个卷积核仅负责C/G个通道的卷积计算,然后将结果拼接得到输出特征,通过分组卷积能够将计算量压缩至标准卷积1/G。最后将分组卷积后的输出特征进行打乱与重组,使不同组的通道信息充分融合,过程如图6所示。
图6 通道混洗过程示例
其中1~12为输入通道数的编号,首先采用Reshape操作将通道拓展为两个维度,包括卷积组数和每个卷机组包含的通道数,之后采用Transpose操作对两个维度进行置换,最后采用Flaten操作将两个维度恢复为原本的维度,经过通道混洗在不增加计算量的情况下,实现了不同组之间的信息融合。
使用轻量级卷积方法GSConv代替SC,其计算成本约为SC的60%~70%,但其对模型学习能力的贡献与后者不相上下,甚至随着逐层卷积下采样的处理,还会丢失大量的特征信息。因此在GSConv的基础上引入GSbottleneck模块,将其代替C3模块中的bottleneck部分,通过一次性聚合成为一个新的跨级部分网络模块VoV-GSCSP。GSbottleneck聚合成VoV-GSCSP过程如图7所示。
图7 VoV-GSCSP模块结构
由GSConv和VoV-GSCSP组成的纤细颈部网络GSConv_slimneck使得网络模型拥有了更强的特征提取能力和感知能力,从而有助于帮助CA注意力机制更好地捕捉图像中的上下文信息,提升模型对重要特征的感知能力。同时更强的特征提取能力还有助于增强CARAFE的特征表达能力,增强模型对细节信息的感知能力,有助于检测精度的提升。
本文的网络模型训练平台搭建在GPU运算服务器,硬件配置如表1所示。
表1 硬件参数配置
本文所有实验的模型训练均在此台GPU运算服务器上进行,所使用的训练参数均为:在不添加预训练权重的情况下,输入图片大小为640×640,epochs设置为300,batch-size设置为16,调用3个GPU,IOU阈值设置为0.5,初始学习率设置为0.01。
本文所使用的数据集图片类型包括塔吊(Tower Crane)、吊车(Hoist)、挖掘机(Excavator)三类超大工程车辆和烟火(Smoke)共4大类,共计图片1 825张。其中工程车辆数据集原始图由某市公司提供,包括塔吊图片596张,吊车图片477张,挖掘机图片483张;烟火数据集图片来源于网络搜索,共有269张。经过CLAHE处理后的数据集图片如图8所示。
图8 外力破坏数据集图片示例
使用LabelImg对其进行标注,将标注完的信息以xml的格式保存在相同的路径下。然后将数据集按照6∶2∶2的比例分别划分为训练集、验证集和测试集。数据集类别和数量如表2所示。
表2 数据集类别及数量
本文参考的精度评价指标有:查全率(R,recall)、查准率(P,precision)和平均精度均值mAP。
以下TP(True Positives)表示模型为正样本,且被分对了;TN(True Negatives)表示预测该模型为负样本,且预测对了;FN(False Negatives)表示该预测模型为负样本,但是预测错了;FP(False Positives)表示该模型为正样本,但预测错了。
查全率R就是在检索结果中,被正确检测出是正样本的模型数量(TP)在所有事实上是正样本模型的数量(TP+FN)中的比值,公式如下:
(2)
查准率P就是在检索结果中,被正确检测出是正样本的模型数量(TP)在所有被预测为正样本模型的数量(TP+FP)中的比值,公式如下:
(3)
mAP表示各类的检测器PR曲线下面积占比的平均值,该指标可以关联P、R指标,展现模型性能:
(4)
因为查准率、查全率二者通常有高有低、所以在二者变化不大的情况之下,以mAP平均精度均值作为评判网络精度的标准。
参考的模型轻量化指标有:参数量(Param)的大小、训练权重文件(Weights)的内存大小。其中参数量是一个模型中参数的总和,参数量一方面会影响内存占用,另一方面也会影响程序的初始化时间;模型权重文件是使用者最终部署时所需的文件,对于空间资源有限的设备来说,模型权重文件尽可能小是一个优势。
2.4.1 注意力实验对比
为了更好地对比验证本文所添加的CA注意力机制的有效性,设计在backbone网络的SPPF模块前,C3卷积后,分别嵌入SE、CBAM以及CA注意力机制进行对比实验。
由表3的4组评价指标可见,加入CA注意力后网络精度提升最高,查准率和查全率均得到了提升。可见CA可以作为最优注意力添加进网络模型。
表3 注意力机制对比表
2.4.2 轻量化实验对比
从表4中可以看出轻量化结构中,将ShuffleNetV2、MobileNetV2与本文使用的GSConv_slimneck网路在本实验的外力破坏数据集上进行对比实验。可见,将YOLOv5s特征提取层替换为MobileNetV3结构后,参数量和模型体积分别减小了7.6 MB、4 MB,但精度却下降了12.6%,下降严重;替换为ShuffleNetV2后,参数量和模型体积分别减小了12.3 MB、6.4 MB,但精度却下降了14.3%,同样下降严重。而将GSConv_slimneck替换原YOLOv5s的特征融合层后,其参数量和模型体积分别减小了1.7 MB、0.9 MB,并且在保证模型轻量化的同时精确度还提升了1.4%。由此证明了GSConv+slimneck可以轻量地保证YOLOv5s特征融合的有效性。
表4 轻量化网络对比表
2.4.3 消融实验
消融实验类似于控制变量的思想,在机器学习领域常使用消融实验来分析不同的因素对神经网络实验产生的影响[13]。为进一步分析各改进模块组合的影响,本文将CA注意力、轻量级上采样算子CARAFE和纤细颈部网络GSConv_slimneck分别进行组合,测试其对精度和参数量等衡量指标的影响。其中“√”表示实验中使用该模块。
分析表5,可以从A、B、C看出各改进模块均对网络检测精度有所提升,由D、E、F三组可以看出GSConv_slimneck模块可以显著提高CA注意力的特征提取能力和CARAFE的特征表达能力。最终三者的结合更加突出地提升了网络的检测精度,相较于原YOLOv5s网络,Our网络检测精度提升了4.4%,参数量降低了3.4%,权重模型内存减小了2.7%,满足轻量化要求的同时,提升了网络的检测精度,对于输电线路下的危险行为检测有所改善。
表5 消融实验结果
为了凸显网络改进后效果的直观性,列举改进前后网络的检测效果如图9所示,图 (a)代表原网络检测效果,可见在原网络检测时存在检测精度低和漏检现象。而图(b)为改进后的Our网络,可见网络改进后检测精度得到了有效提升,并且改善了漏检现象。
图9 改进前后网络检测效果对比图
本文针对输电线路工作环境复杂、小目标检测精度差和移动设备部署等问题,对YOLOv5s网络进行了改进,改进点如下:
1)通过添加CA注意力模块,将空间信息嵌入到通道信息增强网络对复杂环境和小目标的特征提取能力;
2)将YOLOv5s的最邻近差值上采样替换为轻量级上采样算子CARAFE,扩大感受野,更好地聚合上下文信息;
3)利用GSConv_slimneck作为特征增强网络,缩减网络参数量和权重文件内存的同时还可以提升注意力机制和上采样算子的性能,进一步提高模型的检测精度。
实验结果表明,改进后的Our网络相比于原YOLOv5s网络提升了对遮挡目标和小目标的检测能力,更适用于输电线路的工作环境,改进后mAP提升了4.4%,达到了88.9%;同时改进后的模型也更加轻量化,更适用于在边缘计算设备上部署,改进后模型参数量减小了3.4%,达到了25.9 MB,权重文件大小减小了2.7%,达到了14.1 MB。但是改进后的Our网络在检测速度上还有待提高。在后续工作中可以进一步扩充数据集的种类和数量,并通过不断优化网络提升检测速度,达到预警的实时性要求。