谢世朋,李 博,张 冬
1.南京邮电大学通信与信息工程学院,江苏 南京 210003
2.国网江苏省电力有限公司淮安供电分公司,江苏 淮安 223002
随着我国经济的蓬勃发展,目前社会生产及人民日常生活处处都离不开用电,这对供电部门提出了更高的要求,不仅要保证充足的供电量,还要保证较高的供电可靠性[1]。对配电线路进行带电作业[2-3]的技术就是为了满足在持续供电的条件下,对供电设备以及供电线路进行维护检修、测试等相关作业而诞生的,该技术目前已广泛应用到相关领域,用以保证供电的可靠性。
然而作业人员在对配电线路进行不停电作业时具有较高的危险性,所以精确的安全预警系统在不停电作业时是非常重要的。而对配电线路进行精准语义分割又是不停电作业安全预警中最为核心的技术之一,语义分割的精度直接决定了安全预警的可靠性。
图像语义分割[4-5]是指从像素的角度将表达不同语义类别的像素按区域分割开来,是图像处理任务的核心技术之一。随着人工智能时代到来,图像语义分割逐渐成为了无人驾驶、室内导航等前沿科技领域的研究热点。
在图像语义分割领域,以深度学习为代表的机器学习技术不断取得更好的成绩,逐渐替代了传统的分割方法。相较于传统的分割方法,基于深度学习的分割方法可以通过搭建深度学习网络自主学习、提取图像的特征,从而进行端到端的分类学习,这样可以有效地提高语义分割的速度和精度。
2015年,Long等[6]首次提出了全卷积网络(Fully Convolutional Networks,FCN)用于语义分割领域,它将卷积神经网络中用于图片分类任务的全连接层全部转化为卷积层,并且引入反卷积层及跳跃结构,确保了网络的稳定性和鲁棒性。随着FCN的出现,深度学习正式进入图像语义分割领域[4]。
作为在医学图像分割领域中最常用的模型,U⁃Net[7]以其最典型的U型对称结构被人熟记,U型对称结构的两侧分别做下采样操作和上采样操作。其中通过下采样可以获取图像的上下文信息,而上采样可以对语义分割的边界实现精准定位,这样使得模型可以在训练较少数据的情况下具有较高的分割能力。同年,一个名为SegNet[8]的语义分割模型问世,其采用编码器⁃解码器结构来对图像进行语义分割,并利用maxpool的索引进行上采样,从而节省了网络模型的内存。
Google团队的DeepLab系列的语义分割模型也在语义分割领域不断进步。DeepLabv1[9]是由深度卷积神经网络(DCNN)和全连接的条件随机场(CRF)构成,这样可以有效地解决深度卷积神经网络定位不精确的问题。而DeepLabv2[10]语义分割模型在DeepLabv1的基础上进行了创新,在模型结构上融合了空洞空间卷积池化金字塔(ASPP)模块。该模块可以有效地提高网络分割能力。同年改进的DeepLabv3[11]版本问世,其核心思想是改进 ASPP结构并引入了批量归一化层,从而提升网络的分割精度。而最新的 DeepLabv3+[12]语义分割模型在DeepLabv3的基础上增加了编解码器和Xception主干网络,提高了网络语义分割的速度和精度。
此外,Zhao等[13]提出的 PSPNet语义分割模型引入了金字塔池化模块,这样可以使语义分割网络提高获取图像全局上下文信息的能力。以及He等[14]提出的 Mask⁃RCNN 语义分割模型,其主要对Faster⁃RCNN[15-16]模型进行了扩展,在其基础上增加了用于分割任务的网络分支,采用 ROIAlign替代Faster⁃RCNN 中的 RoIPooling,同时将残差网络[17]与特征金字塔网络(Feature Pyramid Network,FPN)[18]相结合用于对图像进行特征提取,使得网络在检测到目标的同时对其实现高质量地分割。
大量实验表明,基于深度学习的图像语义分割算法在处理图像语义分割方面都具有较好的表现。然而不停电作业环境复杂,且对分割精度要求较高,传统的语义分割模型并不能满足工作需求。为此本文提出了一种基于改进Mask⁃RCNN的配电线路语义分割方法,对配电线路实现精准的语义分割。
Mask⁃RCNN[14]是一个非常灵活的框架,可以完成目标检测[15-16]、语义分割等多种图像处理任务。Mask⁃RCNN主要包含以下3个部分:
(1)主干网络。在 Mask⁃RCNN模型里采用ResNet50/101+FPN模型作为主干网络,运用了表达能力较好的算法进行特征提取,并且采用特征金字塔网络进行多尺度数据的提取。
(2) 区域推荐网络(Region Proposal Network,RPN)。 Mask⁃RCNN 中仿照 Faster⁃RCNN 中的 RPN网络没有进行修改,只是将FPN网络与RPN网络结合起来。
(3)感兴趣区域校正(Region of Interest Align,RoI Align)。 Mask⁃RCNN 采用RoI Align技术选取感兴趣区域。RoI Align的输出是由候选区域映射得出尺寸固定的特征图,这也是Mask⁃RCNN网络的创新点之一。RoI Align舍弃了量化运算,运用双线性插值函数,得到像素点上的灰度大小,这种做法就将整个特征聚集过程连续化了。
传统Mask⁃RCNN在配电线路分割中,分割表现不好,如图1所示,出现斑块状分割结果,甚至无法分割。这主要是由于配电线路是大长宽比的物体,在有限的训练样本中,测试集的尺度变化和旋转变化与训练样本有较大的差异,使得传统的Mask⁃RCNN无法完成比较好的分割效果。
图1 传统的Mask⁃RCNN分割效果
为了保证网络对大长宽比配电线路的分割精度和速度,本文将对 Mask⁃RCNN的 Mask分支进行修改。
(1)主干网络的修改
本文以ResNet101作为主干网络。ResNet101的网络结构如图2所示。
图2 ResNet101网络结构细化图
借鉴InceptionV2的思路网络,针对图2中的Input stream模块,本文对 Mask⁃RCNN主干网络(ResNet网络)拆解大核卷积,即将大核卷积由多层小卷积替代,这样可以通过加深网络深度达到原有大核的表现能力。本文使用的网络改进方法如图3所示。改进后的网络在加快网络计算速度的同时,又减小网络过拟合的概率。
图3 对Input Stream模块的改进
(2)特征金字塔网络(FPN)阶段的改进
在 FPN 阶段,借鉴 CoordConv[19],创建一个与输入相同的空间大小的张量,其中包含像素坐标,这些坐标被标准化至[-1,1],并和原始的输入进行通道上的数据合并。若原始输入大小为H×W×D,则新输入张量的大小为H×W×(D+2),其中最后两个通道为xy像素坐标,从而提供全局位置信息。
由于配电线路设施布置较为密集,测试图像存在较大的旋转和尺度变化,传统的Mask⁃RCNN模型很难对其实现精准的语义分割,因此本文在对Mask⁃RCNN的网络结构进行改进的同时,也对其损失函数进行了一些改进。本文引入了旋转锚框(Anchors)[20],这样可以对大长宽比的目标保持较高的定位精度和速度,即在文献[15]中的边框回归损失中引入新的参数θ,θ表示边框在y轴相对于x轴的角度,范围为[0,π/2],改进后的边框定义如下
式中,x、y、θ、w和h分别表示边框的中心坐标、旋转角度及其宽度和高度;x、y,xa、ya,x∗、y∗分别表示预测框、锚框和真实框坐标。本文将改进后的边框回归损失函数定义为
式中,N代表锚框的个数,i代表边框的索引值,其中包含 (x,y,w,h,θ) 5 个参数;为真实值标签,当锚框与真实框的IoU(Intersection over Union)重叠区域最大或与真实框的IoU重叠区域大于0.7,即锚定为正时,的值为1,否则为0;ti表示预测边界框信息,表示与正锚点相关联的真实框信息。同时回归损失表示为其中R函数定义为
本文采用的实验环境如表1所示,模型训练过程中各项参数如表2所示。
表1 实验环境
表2 训练参数
本文使用高精度视觉相机在不停电作业现场采集相关配电线路图片制成数据集,数据集一共1 800张图片。首先对数据集进行预处理,图像大小设置为1 920像素×1 080像素。然后用标注工具labelme对数据进行人工标注:打开“labelme”,调整图片位置后,点击鼠标右键选择相应的标记方法,在配电线边缘任意一点处左键单击,创建起始点,然后沿着图片中的配电线外围不断地增加节点,都是左键单击的操作,最终回到起点左键单击结束。此时会自动弹出标签名选择框,本文只对配电线进行标注,输入标签名并点击确认键即可,按照上述方法将图片中的配电线依次进行标注,最后点击保存。生成对应的json文件,再转换为对应的原图,8位标签图和存放标签名称的yaml文件。本文选取其中的1 700张图片用于训练,100张图片用于测试。
另外,在模型训练过程中对数据集做以下操作:
(1)图片缩放。在本文模型的训练和测试期间,为提升模型训练速度,需要将数据集内的图片缩放成960像素×540像素。
(2)数据增强。为了使输入图片满足网络架构的需要,本文将去均值、水平翻转等数据增强也应用于训练中。
(1) 像素精度(Pixel Accuracy,PA):分类正确的像素点数和所有的像素点数的比例。
式中,i,j为像素在图像中的横纵坐标值,pii表示正确预测的像素点(即属于某一类别且预测也为该类),pij表示错误预测的像素点(即本属于某一类别却预测为其他类别的像素点)。
(2) 平均交并比(Mean Intersection over Union,MIoU)。
(3) 平均精度(Average Precision,AP)。
式中,N为数据集中图像的总数,P(k)为识别出的图像为k时的查准率,Δr(k)为查全率在k与k-1之间的差值。
本文基于改进的Mask⁃RCNN模型对10 kV配电线路进行语义分割,可视化分割结果如图4所示。为验证本文提出的方法对配电线路进行语义分割的效果,将本文提出的方法与 U⁃Net、Mask⁃RCNN 网络分割结果进行对比,对比结果如图5所示。
图4 配电线路分割结果图
图5 本文方法与其他算法对比结果
由图5可见,本文提出的方法在不停电作业的复杂背景下可以对配电线路实现精确地分割,且分割边界的细节表现较好,尤其是对较大长宽比的目标。
本文选择了近年来提出的几个比较经典的语义分割算法与本文提出方法做比较,在本文建立的数据集上,采用平均精度(AP),像素精度(PA),平均交并比(MIoU)及分割速度指标进行评估。定量指标见表3。
从表3可以看出,本文算法在平均精度(AP),像素精度(PA),平均交并比(MIoU)及分割速度指标上显著优于U⁃Net和Mask⁃RCNN方法。
表3 本文算法实验结果与其他算法对比
本文提出了一种基于改进Mask⁃RCNN的配电线路精准语义分割方法,采用高精度视觉相机作为信息输入,基于改进的Mask⁃RCNN语义分割网络,对配电线路进行语义分割工作。实验结果证明,本文提出的方法可以在复杂的不停电作业环境下对配电线路实现精准的语义分割。下一阶段研究方向是在保证分割精度的同时加快分割速度。