付子峰,袁 野,李 响,吴星奇,于 江
(国网湖北省电力有限公司超高压公司输电检修中心,湖北 武汉 430064)
基于计算机视觉的目标识别方法可以分为图像分类、目标识别、图像分割等。输电线通道巡视图像隐患识别是特定场景下进行特殊类别的目标识别,使用图像分类无法准确得到目标的位置信息,使用图像分割标注麻烦,而且远距离分割精度无法保证,通过对通用网络结构进行改进,提升输电巡视图像中缺陷和隐患的识别效果[1-3]。
基于深度学习的目标识别算法可以划分为监督学习方法、无监督学习方法以及弱监督学习方法:由监督学习方法中已知所有图像中目标的位置和类别,通过对已知信息学习进行模型的训练;无监督学习方法是完全不知道图像以及训练的目标,让神经网络自己从训练图像中总结提炼进而完成模型的训练;弱监督学习方法又分为不完全监督、不确切监督和不准确监督,这3 类方法都有一些训练标签,但可能是不完整的、粗粒度的或者不准确的[4-6]。目前无监督学习和弱监督学习在目标识别领域的研究进展缓慢,并没有取得突破性进展,因此本文基于有监督深度学习进行研究。
从巡检图像中定位缺陷和隐患目标识别主要分为2个步骤:目标分类和目标定位;分类主要用于判断出输入图像中具有所需特征的缺陷或隐患目标,定位则是确定目标在图像中位置和范围,这两个步骤保证了系统目标识别的准确性和实时性[7-9]。
不同于传统的手动特征提取,深度卷积网络提供了一种端到端的学习模型,模型中的参数可以通过梯度下降方法进行训练,使网络模型能够自主学习图像特征,完成对图像特征的提取和分类[10-12]。在卷积层中,一个神经元只与部分邻层神经元连接。基于深度神经网络的目标识别系统在设计过程中,主要涉及到3个流程:图像选择性预处理、图像特征提取及候选框优化、特征分类[13-15]。卷积神经网络主要是由卷积层、池化层以及全连接层组成,原始图像从最左端的输入层进入网络,然后不断地经过卷积层和池化层来对其进行处理,最后经过全连接层以得到网络的输出特征图[16-18]。深度学习模型算法通用的缺陷和隐患目标识别过程如图1所示。
图1 卷积神经网络结构Fig.1 Convolutional neural network structure
针对输电巡视图像中缺陷和隐患目标识别应用场景需求,采用以Faster-RCNN(Faster-Region Convolution Neural Network)为代表的Two-Stage 目标识别算法,作为总体技术路线框架。
目标识别任务中,特征提取网络的特征表达能力对目标的分类和定位至关重要。边框回归方法使用对边框的不同表达方式,回归目标在图像中的位置信息,对于目标的准确定位具有非常重要的影响[19-21]。输电巡视图像在经过特征提取网络提取特征之后,送入边框回归方法进行缺陷或隐患的定位和分类,从而完成目标识别任务。目前基于深度学习的目标识别算法大致可以分为3类:1) 基于回归(Bounding Boxes)的目标识别与识别算法,例如YOLO、SSD;2) 基于区域建议(Region Proposal)的目标识别与识别算法,例如Faster-RCNN;3) 基于进一步调整网络优化的Cacscade RCNN,FCOS等[22-24]。
Faster-RCNN 模型可以主要概括为4个主要的组成部分,包括卷积神经网络(CNN)层、区域建议网络(RPN)层、区域兴趣池化(ROIPooling)层以及全连接(Softmax)层[25-27],其网络结构如图2 所示。Faster-RCNN 的输入图像尺寸可以是任意大小,输入图像首先经过卷积神经网络来提取图像的特征图,提取出来的特征图分别用于后续的RPN层和全连接层;将提取出的特征图作为输入用于RPN层中,RPN网络用于生成图像的候选区域(region proposals)和区域得分,接着将RPN 层的proposals 输出和卷积神经网络提取出的特征[28-30]图输入Roi Pooling 中,将不同大小的区域归一化到固定大小的特征图,最后再将其送入后续的全连接层,计算proposals的类别,并且用边框回归得到识别框的最终位置信息,从而实现从原始巡检图像中识别定位出缺陷和隐患目标。
图2 Faster-RCNN网络结构图Fig.2 Faster RCNN network structure diagram
1) 特征提取网络优化
深度学习网络层数少时,可通过不断增加网络深度以增加分类的准确率,但是随着网络结构越来越深,会出现网络退化现象,训练的准确率会趋于平缓,训练误差会变大。为了解决这种退化现象ResNet 通过使用多层网络来表达输入输出之间的残差关系,设计了含有跳层连接的残差网络,解决了深度网络训练过程中出现的梯度消失的问题。以ResNet 为基础对残差模块进行改进可以得到变体网络ResNetXt,为了减小ResNetXt-101 conv4 处的Block 数量,保持并尽可能提升原始网络结构的特征提取能力,在conv1、conv2 和con5 每部分的最后一层逐点卷积处增加通道数量,这样就可以将残差通道与深度连接通道进行融合,在网络的前面几层提取新的特征向量,在网络的中间层实现对提取特征的重复利用,提取出高纯度的特征向量。
2) 目标识别网络优化
Cascade R-CNN 网络针对Faster-RCNN 网络中一个标准的基于RPN 的两阶段识别器往往由于IOU 的设置不合理导致识别效果下降问题,通过在多个不同IOU阈值下分别训练识别器后将其级联起来会使得识别效果提升。具体地,一张图像经过特征提取网络后,首先在较低的IOU 阈值下训练RPN 网络,并得到这张图像第1 个阶段识别出的目标类别信息和边界框信息,将这些输出作为第2阶段RPN网络的监督信号,在另一个提升的IOU 阈值下生成新的RPN 网络样本继续训练另一个RPN网络,进而得到这张图像第二个阶段识别出的目标类别信息和边界框信息,之后级联的每个识别部分以此类推。
FCOS 网络的特征提取部分采用了特征金字塔网络(FPN),在不同尺度Level的特征图上分离出不同大小的目标特征。在识别部分,各个层级的特征图在两个Branch上分别做任务。Branch-1要并行地输出1张目标类别特征图Fi∈RH×W×C和目标中心位置概率特征图centerness ∈RH×W×1,Branch-2 要输出1 张表征像素位置(i,j)处距离要预测目标真实边界框四边距离的特征图Regression ∈RH×W×4。通过组织像素位置(i,j)处的中心位置概率和其到要预测目标真实边界框四边的距离可以得到目标的识别框,从而进一步提升大尺寸目标如绝缘子串和小尺寸目标如螺栓销钉的识别效果。
在规范无人机自主的巡检图像命名基础上,实现无人机精细化自主巡检场景及对应部件分类,将文件名中的拍摄位置对应的设备部件推送至算法进行语义分析,灵活调用对应的设备缺陷检测模型,可以有效降低算法识别误报,示例见图3。
图3 语义分析降低误报Fig.3 Semantic analysis reducing false alarm
详细的的无人机精细化巡检场景分类与部件分类见表1。
表1 无人机精细化自主巡检场景及对应部件分类Table 1 UAV detailed autonomous inspection scenarios and corresponding component classification
杆塔类缺陷主要为异物缺陷,在巡检图像中表现为任意非电力设施,例如蜂巢、鸟巢、绳索、风筝等出现在线路或者杆塔上,其特征表现为相对附近的电力设施其轮廓有明显的不同。异物缺陷可能导致闪络放电或者相间短路,因此,同样采用深度学习的模型,通过标注线路异物,训练深度学习模型进行识别。
采用改进的Faster-RCNN 深度学习网络,目标分析层根据区域筛选层输出,对于区域目标进行分析、分类,可根据分类要求对于像素、区域进行分类标记,根据Classification 网络的输出结果(包括目标种类归属概率向量和目标识别框),通过非极大值抑制算法筛选出概率最大的类别属性和最准确的目标识别区域,从而从图像中定位出异物位置,见图4。
图4 杆塔异物缺陷识别示例Fig.4 Example of foreign body defect identification of poles and towers
在自主巡检无人机巡检图像中导地线缺陷多为导线异物,少数为断股散股。无人机可以从多角度,近距离拍摄导地线图像,获取的图像中缺陷特征相对丰富,一定程度上降低了识别难度。
本节采用基础网络为ResNet 的Faster-RCNN 算法,并基于COCO 数据集预训练模型对权重进行初始化。训练采用800×1 200 的样本分辨率,使用小批量梯度下降法(mini-batch SGD)训练,每个批次(batch)训练2张图片,采用预热(warm-up)学习策略和学习率衰减策略,衰减系数为0.1。RPN 网络层锚框(anhor)的宽高比例为0.5、1、2共3种,锚框基础尺寸为2、4、8、16、32共5种,二者组合共计15种锚框,以提升目标的识别效果,识别结果如图5所示。
图5 导线异物缺陷识别示例Fig.5 Example of conductors foreign body defects identification
无人机巡检拍摄时仅拍摄近拍摄端的绝缘子,远端绝缘子可通过无人机飞行至另一侧的航线拍摄,因此,其图像中绝缘子目标相对较大且特征突出,导致一些绝缘子灼伤缺陷的识别成为可能。其识别难点主要受到背景变化干扰的影响,导致传统的绝缘子识别算法无法从复杂背景中提取出绝缘子。
自爆缺陷特征直观,可通过识别程序将自爆缺失的位置与相邻完好绝缘子片的区域标注出来。为了提升绝缘子缺陷特征识别的准确性,在使用可变形卷积的基础上,采用基于多分辨率图像金字塔的目标识别模型,以此来获取多个分辨率的图层从而获得多尺度的信息,从而提升缺陷识别效果,如图6所示。
图6 绝缘子自爆效果示例Fig.6 Example of insulator self-explosion effect
金具缺陷在无人机巡检图像中样本较多,大部分为锈蚀类缺陷,少数为滑移破损。金具缺陷多发生在金属构件连接受力部位,通过颜色与形状加以识别。
采用基础网络为ResNet 的Faster-RCNN 算法,并基于COCO数据集预训练模型对权重进行初始化。训练采用800×1 200 的样本分辨率,使用小批量梯度下降法(mini-batch SGD)训练,每个批次(batch)训练2张图片,采用预热(warm-up)学习策略和学习率衰减策略,衰减系数为0.1。RPN 网络层锚框(anhor)的宽高比例为0.5、1、2 共3 种,锚框基础尺寸为2、4、8、16、32共5种,二者组合共计15种锚框,可以提升缺陷的识别效果,识别示例如图7所示。
图7 金具缺陷识别示例Fig.7 Example of hardware fittings defect identification
在无人机巡检图像中螺栓缺销钉目标占图片像素区域非常小,其中的开口销、R 销、锁紧销等目标更细小,且识别时会受到其他无销钉螺母螺栓干扰。此外,从不同角度拍摄时,销钉螺栓存在不同的轮廓特征,极大增加了识别的难度。另外,无人机巡检航线规划相对灵活,可以从不同角度拍摄目标设备,导致设备呈现不同的形态特征,难以通过定位连接金具的方式定位出销钉螺母。此外,无人机逆光拍摄会导致图像对比度的改变,增加识别的难度。
采用图像金字塔网络来改善对小目标的识别。借助HRNet 网络思想,通过图像金字塔逐步组建高分辨率到低分辨率的子网络,形成多层的网络特征表达,同时将多分辨率子网络并行连接。期间进行了多次多尺度融合Multi-Scale Fusions,使得每一个高分辨率到低分辨率的表征都从其他并行层中反复接收信息。利用高分辨率层的特征细节信息提高对螺栓、螺母、销钉等图像中小目标设备的定位精度。充分利用不同层级间的信息交互和不同层级间特征信息的优势,使得整个识别网络能更精确地从复杂背景图像中定位到缺销位置,排除杆塔上相似的无销钉螺栓螺母干扰。同时使识别模型具备对不同角度,光照对比度变化图像的稳定性,采用金字塔网络加Faster-RCNN 模型的识别结果,识别效果示例如图8所示。
图8 销钉级缺陷识别示例Fig.8 Example of pin-level defect identification
附属设施可能安装于杆塔各个位置,且种类较多,从缺陷分类来看,通常为一般缺陷,主要是塔号牌标志牌破损、图文不清、鸟刺损坏、防雷设施损坏松动等,其尺寸和目标几何特征有较大差异。
使用改进的ResNetXt+Cascade R-CNN 对施工机械隐患进行检测,学习率使用阶梯学习速率,基础学习速率为0.2。不使用预训练模型,分类损失使用Focal Loss,回归损失使用GIOU 损失,采用多尺度训练网络模型,其识别效果如图9所示。
图9 附属设施缺陷识别示例Fig.9 Example of defect identification for auxiliary facilities
因无人机携带的可见光相机无法测量距离,因此无人机自主巡检通常不用于测量树线距离过近,主要用于发现施工机械等外破隐患,可分为吊车、吊车吊杆、泵车、泵车臂、挖掘机、推土机、塔吊、打桩机杆、碾轧机、叉车、挖土机、平地机等12 个目标类别,施工机械类隐患目标具有如下特点:目标尺寸比例存在差异;吊车吊杆、泵车臂等类别呈细长状,当目标垂直放置时宽高比小于0.2倍,吊车、泵车等车辆的宽高比大约在2倍附近,大部分目标的宽高比位于0.5倍~2倍之间。
使用改进的ResNetXt+Cascade R-CNN 对施工机械隐患进行检测,学习率使用阶梯学习速率,基础学习速率为0.2。不使用预训练模型,分类损失使用Focal Loss,回归损失使用GIOU损失,由于内存的限制,训练的Batch Size 均为2,采用多尺度训练网络模型和单尺度进行测试,多尺度训练网络输入尺寸为[600,1 000],[800,1 333],[1 000,1 600],测试网络输入从训练网络3个输入大小中选择在测试集上表现最优的尺寸,最终检测识别示例如图10所示。
图10 通道缺陷识别示例Fig.10 Example of channel defect identification
本文基于采集的无人机高质量巡检图像,采用目前主流的Faster RCNN 算法模型对巡检图像设备缺陷进行智能识别,可对杆塔、导地线、绝缘子、金具、螺栓销钉、附属设施、线路通道机械施工等7大类设备的缺陷进行智能识别,实现了销钉级缺陷的智能识别。