李运堂,詹叶君,王鹏峰,黄永勇,李孝禄,陈 源
(1.中国计量大学机电工程学院,浙江 杭州 310018;2.中国计量大学现代科技学院,浙江 杭州 310017)
输电线长期暴露于自然环境,表面容易粘附异物、内部容易受损甚至出现断股、断线,致使电力传输异常。 因此,对输电线路进行定期巡检并及时发现问题,对于确保电力传输安全具有重要意义[1]。人工输电线路巡检需要徒步到达指定地点进行检测,易受地理环境影响,效率低、成本高、误检率大。无人机具有机动性强、灵活性好等优点,可以到达山区、丛林等苛刻环境。 因此,无人机输电线路巡检近年来得到广泛关注[2-3]。
在复杂多样的背景中完整、快速、准确地识别出输电线是无人机跟踪输电线飞行、实现自动巡检的前提。 目前,输电线识别主要有常规图像处理和基于深度学习的图像智能识别两种方法。 在常规图像处理方面,赵乐等[4]利用水平方向Ratio 算子检测图像边缘,采用Hough 变换提取输电线,具有较好的抗噪性,输电线识别精度高,但对图像中输电线方向要求严格,并且容易将水平方向的线性噪声识别为输电线。 赵浩程等[5]通过直方图均衡化提高图像中输电线和背景的对比度,采用Radon 变换快速完整地识别和提取输电线,但背景复杂时,噪声影响大,稳定性较差。 张从新等[6]利用多组态形态学算法滤除二值图中的背景噪声,增强输电线边缘信息,采用Canny 算子检测图像边缘,通过直线提取算法快速、准确地提取和识别输电线,但需人工调节背景不同时边缘检测阈值,泛化能力有待提高。 Abid Hasan 和Ko[7]采用中值模糊过滤出边缘特征,利用腐蚀和膨胀形态学操作与Canny 算子结合识别输电线边缘,可去除平滑操作无法处理的噪声,保留输电线像素信息。 Tian 等[8]通过双边滤波器消除图像背景噪声,同时保留输电线边缘信息,利用输电线之间平行的先验条件,通过Hough 变换识别输电线,检测速度快,但需手动调整参数以获得最佳识别效果。
利用常规图像处理检测输电线易受背景噪声干扰,识别精度低,易出现漏检或错检。 近年来,许多学者采用深度学习方法进行输电线识别和提取。 其中,语义分割作为深度学习的核心应用领域之一,图像中每个像素均划分出对应的类别,实现像素级分类,突破了常规图像处理识别精度的瓶颈[9-10]。 在语义分割领域,Long 等[11]提出的全卷积网络(FCN)考虑多尺度特征融合,基于端到端的思想用卷积层代替全连接层处理图像分割。 Ronneberger等[12]提出具有U 型结构的UNet 网络,采用下采样编码、上采样解码和跳跃连接结构,下采样逐层提取特征信息,上采样逐层恢复特征信息,跳跃连接结构对不同尺度的特征层进行融合,该方法对图像中的小目标分割效果较好。 Badrinarayanan 等[13]提出的SegNet 网络具有典型的编解码结构,编码器由VGG16 的前13 个卷积层组成,实现端到端像素级图像分割。 Chen 等[14]提出的Deeplab 网络引入了空洞卷积的金字塔池化,跨像素提取特征,扩大了感受野,使每个卷积输出均包含较大范围信息,能够提取图像多尺度特征。 针对输电线的语义分割,Yetgin 和Gerek[15]利用离散余弦变换提取出输电线特征,采用随机森林和支持向量机分类器判断图像中是否存在输电线,但不能实现输电线的定位和提取。 刘嘉玮等[16]针对已有语义分割模型输电线识别准确率低和输电线图像数据样本过少等问题,改进了UNet 网络,在下采样中将池化层添加到第5 层从而覆盖输入图像的全部感受野,在背景图像中,添加与输电线类似的线段,形成仿真数据集,采用改进的UNet 网络在所搭建的仿真数据集上训练,能够精确提取输电线像素信息,识别准确率高,但仿真数据集与真实输电线图像差别较大、特征单一,容易导致网络过拟合。 赵振兵等[17]采用FCN 网络训练数据集,在上采样阶段添加多尺度膨胀卷积,扩大了感受野,有效提高了像素分类精度,但FCN 网络模型参数多,识别速度慢。 Zhang 等[18]采用VGG16 作为主干特征提取网络搭建输电线检测模型,利用非极大值抑制细化输电线边缘,提高输电线分割精度,但模型参数较多,网络训练速度较慢。
本文提出基于新型编解码网络复杂背景航拍图像输电线识别方法,能够快速、准确地识别出图像中的输电线。 编码器选用MobileNetV3 模型作为主干特征提取网络并引入注意力机制,更新了H-swish和Hard-sigmoid 激活函数,采用深度可分离卷积块代替普通卷积,在编码器第13 特征层引出快捷链路进行最大池化,压缩特征信息后与第16 特征层在通道上进行堆叠。 解码器添加金字塔池化模块(PSP)增强输电线特征复用性。 在编码器和解码器之间加入多尺度特征融合的跳跃连接结构,最终融合后的特征层通过1×1 卷积调整通道数对图像中的输电线像素点进行分类。 实验表明,相对于现有的语义分割网络,新型编解码网络具有更高的分割精度和更快的识别速度。
输电线大多架设在野外,航拍图像背景复杂多变,输电线贯穿整幅图像并且像素点数占比很小,检测难度大。 为实现无人机自动跟踪输电线飞行,要求输电线识别精度高、速度快。 为满足上述需求,本文构建了一种新型编解码网络,如图1 所示。 该网络包括降维和特征提取的编码器,升维和特征恢复的解码器两部分,编解码器之间的跳跃连接结构使编码器与解码器相对应的特征层进行通道上的叠加融合。 编解码网络浅层特征层主要用于边缘分割,深层特征层主要用于像素分类,多层次特征融合结构有助于增加特征信息的表达能力,便于输电线分割。
图1 新型编解码网络结构
①编码器
常见的主干特征提取网络模型参数多,内存要求高,选取轻量级MobileNetV3 模型作为编码器的主干特征提取网络减少了模型参数[19],运算效率高,识别速度快。 由于网络深度增加容易出现网络退化,难以训练等问题,借鉴残差网络思想,改进MobileNetV3 结构,在第13 特征层引出快捷链路进行最大池化压缩特征信息,并与第16 特征层在通道上进行堆叠,充分利用浅层特征信息。
MobileNetV3 由1 个卷积块和15 个Bneck 组成的卷积结构模块构成。 如图2 所示,Bneck 模块包括多个深度可分离卷积(Dwise)、批量归一化(BN)、H-swish、 Hard-sigmoid 激 活 函 数、 注 意 力 机 制(SE)[20]等,从而提高网络模型表达能力并实现网络轻量化。
图2 Bneck 模块
SE 对特征层进行一次平均池化(AvgPool),再进行两次全连接(FC)得到与平均池化前特征层通道数相同,尺寸为1×1 的权重层,其每一层参数即为平均池化前特征层各个通道上的权重系数。 通过训练得到特征层各个通道的权重系数,从而提高输电线特征信息的利用率。
Bneck 模块前两层非线性激活函数采用H-swish函数
式中:Relu6 = min[6,max(0,x)],x为输入值。H-swish激活函数能够引入更多的非线性因素,提高模型表达能力。
在SE 的第二个全连接层更新Hard-sigmoid 激活函数
由于没有指数项,计算量小,模型训练速度快。
②解码器
为聚合特征层不同区域的上下文信息,提高输电线特征复用性,获取输电线图像全局信息,在解码网络中引入PSPNET 网络[21]的金字塔池化模块(PSP),如图3 所示。
图3 PSP 模块
PSP 模块将输入特征层按照1×1,2×2,3×3 和6×6多尺度网格划分成4 个子特征层,对子特征层每个网格内部进行平均池化。 为保证全局特征权重,池化后的四个子特征层经过1×1 卷积调整通道数为输入特征层通道数的1/4;再通过上采样(Upsample)恢复至池化前尺寸;最后,通过快捷链路将输入特征层与上采样后的4 个子特征层做通道上堆叠,得到融合4 种不同金字塔尺度的特征层。PSP 模块融合了不同感受野平均池化特征,能够更有效地聚合全局场景中输电线语义信息,提高语义分割精度,使输电线分割更精细。
解码器中,PSP 模块融合不同尺度特征信息,卷积块(DBL)调整通道数并加强特征信息提取,通过上采样恢复像素后与MobileNetV3 第11 特征层跳跃连接进行通道上堆叠;再经过一层PSP 模块提取特征信息,DBL 模块调整通道数并提取特征信息,上采样恢复像素后与MobileNetV3 第7 特征层跳跃连接进行堆叠;堆叠后的结果经过三次深度可分离卷积提取特征信息并调整通道数,上采样恢复像素后与MobileNetV3 第4 特征层跳跃连接进行堆叠;再经过三次深度可分离卷积和上采样后与Mobile-NetV3 第2 特征层跳跃连接在通道上进行堆叠,通过三次深度可分离卷积和上采样恢复像素到与输入图像具有相同尺寸的416×416,最后经过1×1 卷积将通道数调整为类别数,将输出特征图整合为416×416×2,实现输电线像素和背景像素的分类。
编解码网络浅层下采样倍数小,有利于提取细长输电线简单的边缘特征信息;深层下采样倍数大,输电线特征信息经过大幅压缩,空间损失大,但有利于输电线和背景的像素分类。 通过跳跃连接结构,将浅层和深层多尺度的特征信息融合,图像分割精度得到显著提升。
为便于理解构建的新型编解码网络内部运行过程,对不同深度特征层进行可视化操作[22],如图4所示。
图4 不同深度特征信息
可以看出,编码器网络浅层下采样倍数小,有利于提取输电线和背景详细纹理特征,网络深度增加,特征信息被压缩,更加关注全局语义信息。 在解码器中,通过跳跃连接结构融合多尺度特征信息,结合浅层细节特征和深层语义特征,输电线特征信息更加丰富,每一次级联后,可视化结果更精细,网络更加注重学习输电线特征而忽略背景特征,提升识别效果。
由于没有公开的输电线图像数据集,如图5 所示,采用无人机拍摄了4 000 张输电线数据样本。为增强数据样本之间的无关性,防止单一特征过拟合,调整无人机飞行姿态,获取视角、背景和光照强度不同时的输电线图像。
图5 无人机拍摄输电线图像
采用Labelme 标注输电线数据样本标签值,如图6 所示,输出包含输电线像素信息的Json 文件。
图6 Labelme 标注界面
数据集大小直接影响网络训练效果,由于采集的样本数量有限,为提高编解码网络训练鲁棒性,增强网络泛化能力,通过Mosaic 数据增强方法扩充图像数据集。 如图7 所示,在数据集中任意抽取四张图片进行随机缩放、翻转、裁剪和色域变换等操作,再拼接成一张图片作为训练数据,批量归一化时一次可同时训练四张图片。 数据扩增容易出现模糊、分辨率过低等不适合网络训练的图像,经人工筛选去除,最后得到数据集共5 000 张输电线图像,按照9 ∶1 划分为训练集和测试集。 训练前将所有数据集尺寸统一调整为416×416×3。
图7 Mosaic 数据增强
深度学习框架为Pytorch-GPU V1.7.0,处理器为Inter Core i7-9700k 3.60 GHz 八核,显卡为Nvidia GeForce GTX 1660,显存6 GB,内存32 GB,Nvidia 运算平台为CUDA10.1,GPU 加速库为CUDNN7.6.4,图像处理库为Opencv4.4.0,编程语言Python3.7。
采用主流评价指标验证输电线语义分割性能。
①像素准确率(PA):预测正确的输电线像素点数与该幅图像所有像素点数之比。
式中:像素分割类别k=1,Pii表示网络模型预测的像素点类别为输电线,实际像素点标签值类别也为输电线,Pij表示网络模型预测的像素点类别为输电线,实际像素点标签值类别为背景。
②类别平均像素准确率(MPA):所有目标类别PA 的均值。
③平均交并比(MIOU):每个分类预测结果和标签值交集与并集的比值,求和后再求均值,为语义分割的标准度量,反映输电线语义分割的准确度。
式中:pji表示网络模型预测的像素点类别为背景,实际像素点标签值类别为输电线。
对编解码网络使用GPU 训练,采用Adam 优化器,批大小(Batch_size)为8,初始学习率为0.000 1,训练世代为500 代,每隔一代调整学习率衰减速度,学习率衰减系数为0.000 5。
损失函数由两部分构成,分别为交叉熵损失L和Dice_Loss。 交叉熵损失反映真实概率与预测概率的差异,其值越小,网络模型预测效果越好。
式中:X为网络预测结果,Y为标签值结果。
Dice 系数为集合相似度的度量函数,其值越大表示预测结果与真实结果重合度越大,取值范围为[0,1]。
采用迁移学习策略[23],利用开源VOC 数据集在编解码网络上通过预训练得到预训练权值参数,并将其迁移至编解码网络模型训练输电线数据集,共训练500 个世代,编解码网络损失值变化如图8所示。 可见,随着训练代数增加,网络训练趋于稳定,损失值收敛于0.1 附近。
图8 损失值-训练世代曲线
为了检验所构建的新型编解码网络有效性,对比新型编解码网络与主流语义分割模型UNet[12]网络、PSPNet[24]网络以及文献[16]和文献[18]所述网络的输电线识别效果,五个网络实验环境和数据集相同,实验结果如图9 所示。 可以看出,PSPNet网络输电线识别效果较差,将输电线附近的背景像素误判为输电线,并出现输电线断线情况。 UNet 网络模型对于简单背景,可以识别出输电线的方向和具体位置,识别效果较好,但在树叶繁茂背景下容易出现输电线丢失和断裂,并且将树干误判为输电线。文献[16]改进的UNet 网络输电线识别效果较好,但复杂背景图像边缘处未识别出输电线。 文献[18]所用网络利用非极大值抑制细化输电线边缘容易导致输电线断裂或缺失。 新型编解码网络在背景复杂,输电线方向不同时,均能准确识别出完整、干净的输电线。
图9 五种网络输电线识别结果
表1 对比了五种网络的实验结果。 可以看出,新型编解码网络的各项评价指标均优于UNet 网络、PSPNet 网络、文献[16]和文献[18]所述网络。 文献[16]改进的UNet 网络相对于改进前的UNet 网络分割精度有所提高,但模型深度增加导致运算量增大,识别速度降低。 文献[18]采用VGG16 作为主干特征提取网络,模型参数量大,特征提取能力弱于MobileNetV3,分割精度不高,识别速度低于其他网络。 新型编解码网络的分割准确率MPA 和MIOU 分别达到了94.37%和86.95%,分割速度达到了31 frame/s,均高于其他四种网络,表明新型编解码网络输电线分割精度高、识别速度快。
表1 五种网络实验结果对比
为进一步验证新型编解码网络的有效性,进行消融对比实验,如表2 所示。 方法1:编码器中Bneck 模块采用Relu6 激活函数,未引入注意力机制,采用普通卷积代替深度可分离卷积;方法2:编码器第13 特征层未引出快捷链路进行最大池化层与第16 特征层堆叠,直接进行正向传播;方法3:解码器只进行卷积和上采样操作,未引入PSP 模块;方法4:去除编解码网络之间的跳跃连接结构;方法5:减少编码器主干特征提取网络深度,去除第11 特征层后的Bneck 模块,对浅层特征进行解码器操作还原至原图大小;方法6:新型编解码网络。
表2 消融对比实验结果
可以看出,方法1 的FPS 明显低于其他方法,表明引入H-swish 激活函数和深度可分离卷积有利于网络轻量化和提高识别速度,由于未引入注意力机制获取输电线特征层各通道信息,方法1 识别精度低。 方法2 识别精度较高但低于方法6,表明在第13 特征层引出的快捷链路能够利用浅层特征信息,使深层特征更加丰富,有助于提高识别精度。 方法3 识别结果表明,解码器中PSP 模块有效聚合了全局语义信息,有助于提高分割精度。 方法4 识别精度较低,表明编解码器中添加跳跃连接有效融合了浅层和深层多尺度特征信息,大幅提高了输电线像素分类准确度。 方法5 识别精度最低,但FPS 最高,表明随着编解码网络深度增加,编码器特征提取效果得到增强,输电线语义信息分类和定位更准确,但模型参数增加降低了识别速度。
针对输电线在航拍图像中像素点数占比小、背景复杂、检测难度大,现有方法检测速度慢、精度低等问题,设计了基于新型编解码网络的输电线识别方法。 编码器采用MobileNetV3 轻量级模型作为主干特征提取网络,并在MobileNetV3 的浅层引出快捷链路与深层堆叠,解码器中添加PSP 模块和深度可分离卷积,在编解码器之间加入多尺度特征融合的跳跃连接结构。 实验结果表明,新型编解码网络MPA、MIOU 和FPS 分别达到了94.37%、86.95%和31 frame/s,分割精度和识别速度均优于UNet 网络和PSPNet 网格。 消融对比实验表明,采用深度可分离卷积能够减少网络参数,降低运算成本并提高计算效率,有助于提高网络轻量化和运算速度。 引入H-swish 和Hard-sigmoid 激活函数增加了非线性因素,提高了网络模型的表达能力。 添加注意力机制、引出的快捷链路、PSP 模块、跳跃连接结构和网络深度的增加对提高分割精度具有显著作用。
新型编解码网络能快速准确地识别出复杂背景下的输电线,为无人机跟踪输电线巡检提供了新的方法。 后续工作将进一步采集和扩充输电线样本,优化网络实现复杂背景中多根、交叉或方向改变的输电线识别,推动语义分割用于输电线识别技术的发展。