输电线路覆冰导线Mask R-CNN图像识别与分割

2022-03-15 09:15郝艳捧张伟勋梁苇王信媛何锦强廖永力赵林杰阳林
广东电力 2022年2期
关键词:锚框导线卷积

郝艳捧,张伟勋,梁苇,王信媛,何锦强,廖永力,赵林杰,阳林

(1.华南理工大学 电力学院,广东 广州 510641;2.南方电网科学研究院有限责任公司,广东 广州 510663)

架空输电线路在冬季湿度大、气温低的中高海拔地区、山地时容易覆冰。我国是世界上架空输电线路覆冰最为严重的国家之一。严重覆冰会导致输电线路机械和电气性能急剧下降,引起绝缘子闪络、线路跳闸、断线、倒塔、导线舞动和通信中断等事故[1]。同时,输电线路发生冰害事故时,气候恶劣,冰雪封山,交通受阻,通信中断,抢修困难,常常造成长时间大面积停电,带来巨大的经济损失和严重的社会影响[2]。

南方电网管辖的云南、贵州、广东、广西省级电网和超高压输电公司,国家电网管辖的华北、华东、华中、山西、湖南、四川和福建等地区电网均建立了输电线路覆冰监测系统[1-5]。图像监测是利用安装在输电线路铁塔上的摄像装置拍摄杆塔、绝缘子、导线现场覆冰图像,通过商用网络远程传送至主站,以了解线路覆冰情况。图像监测解决了人工巡线受地形环境、天气状况影响大,效率低,工作量大,复巡周期长等问题[6]。

对覆冰监测图像除了人工定性分析,还可以进行图像分析。图像分析对图像中感兴趣的目标进行提取和分割,获得目标的客观信息(特点或性质),建立对图像的描述[7]。

传统的图像分割有灰度阈值法、边缘检测算子、霍夫变换、区域法、图论法和聚类法等[7]。这些方法基于单张图像的灰度、颜色、纹理、形状、边缘等图像特征,提出了覆冰导线的图像分割和覆冰厚度计算方法,在覆冰监测系统建立初期高质量覆冰图像较少时发挥了作用,但需要截取原始图像提高导线占比,没有研究泛化能力等问题。随着覆冰监测系统图像数据的积累和监测终端规模的扩大,以及覆冰线路直升机和无人机巡检等新技术的应用,覆冰导线图像数量剧增,面向庞大图像数量的机器学习等覆冰导线人工智能技术显示了更高的图像分割泛化能力和效率[8]。

2014年瞬态光学与光子学国家重点实验室用匹配滤波器和一阶高斯导数识别候选线段并拼合成直、弯导线,对160张图像和一段视频图像进行图像分割,单张图像分割时间0.93 s,召回率仅38.96%,漏检率较高[9]。2014年北京航空航天大学提出一种基于杆塔与导线空间相关性的单向空间映射识别导线的方法,该方法将导线和杆塔之间的空间关系与其他线路特征作为输入,集成到贝叶斯框架中,用检测杆塔的方式来检测导线[10],但无法识别无杆塔图像中的导线。2019年安徽大学提出基于整体嵌套边缘检测(holistically-nested edge detection,HED)网络的导线分割方法,用Labelme软件对200多张输电线路图像中的导线人工分割标注,通过人工裁剪和数据增强方式形成训练集1 500张图像、验证集500张图像,实现导线自动分割[11]。2021年韩国的H. Choi结合深度学习和直线分类拼接的方法对导线的部分区域进行无人机巡检预警[12]。

传统的深度学习仅关注高维特征,而监测图像中导线较小,高维特征不足,因此识别效果不佳。掩膜卷积神经网络(mask region convolutional neural network,Mask R-CNN)用特征金字塔网络(feature pyramid network,FPN)结构融合高维和低维特征,Mask R-CNN特有的RoI Align可以精确地分割导线边缘,为进一步研究导线覆冰形态、覆冰程度提供技术基础。

基于深度学习的目标检测是一种数据驱动的智能学习型算法,能够自动学习到可进行有效定位和分类的深度特征[13-15]。而基于深度学习的方法需要大量数据,数据较少或缺失则无法达到预期效果。现在输电线路图像数据已经得到大量扩充,但仍存在数据质量难以保证、专家经验与训练样本融合度不高等问题。华南理工大学提出在电力设备状态分析数据库建设过程中应制订一系列数据处理及质量评价标准,提升数据可用性和易用性[16]。目前在电力领域尚无可用的图像数据集来推动深度学习的应用,建立图像数据集的难点在庞大的标注量上[17]。目前电力设备图像数据集较少,一般的深度学习方法也由于数据不足而无法得到充分训练[18-19]。

本文基于南方电网架空线路覆冰预警系统中2014—2018年监测数据,提出图像数据清洗规则和人工标注规则,对图像进行人工质量评估、分类标注及分割标注,建立南方电网输电线路覆冰图像数据集,提出基于Mask R-CNN的导线分割方法。通过数据集对Mask R-CNN进行训练,研究多种背景下输电线路覆冰导线的人工智能图像分割。

1 Mask R-CNN

Mask R-CNN由残差神经网络Resnet与FPN、区域候选网络(region proposal network,RPN)、RoI Align层、分类任务分支、目标框预测分支与掩膜预测分支等构成[20-21]。

1.1 Resnet和FPN

Resnet属于卷积神经网络(convolutional neural network,CNN)。CNN通过卷积、激活、池化等进行图像特征提取,卷积操作的输出称为特征图。多通道图像卷积原理如图1所示。

图1 多通道图像卷积过程

将原始图像分为红、绿、蓝3个通道,预设尺寸的卷积核通过步长S在各通道图像中滑动并进行卷积处理,卷积处理过程为:

Qj=b+∑WiXi,j.

(1)

式中:Qj为一个通道对应的特征图中第j个像素的值;Wi为卷积核中第i个元素的权重;Xi,j为原始图像一个通道中的卷积核在第j次滑动后第i个像素的值;b为偏置,1个卷积核对应1个偏置。

在卷积过程中卷积核尺寸可能与图像区域尺寸不符,因此需要在原始图像外围添加像素值为0的行和列以扩大图像尺寸,该操作称为零填充操作。输出特征图尺寸计算式为:

(2)

式中:W2、H2、D2分别为输出特征图的宽、高、深度;W1、H1分别为输入的宽、高;F为卷积核尺寸;C为零填充的行列数;K为卷积核个数。

通过非线性激活函数对特征图进行激活处理,通常使用修正线性单元(rectified linear unit,ReLU)作为非线性激活函数,其表达式为

R(x)=max(0,x).

(3)

式中x为特征图的像素值。

激活减少了关联性较差的特征,激活后对特征图进行池化,即对特征图中指定区域进行非极大值抑制,逐渐降低特征图空间尺寸,减少网络参数数量,有效控制过拟合。

一般来说,网络层数越深就越好拟合输入与输出的关系。然而,传统CNN在深度较深时,由于梯度消失,网络的性能反而变差。而Resnet很好地解决了梯度消失问题,Resnet由残差块组成,残差块结构如图2所示。其主要思想是通过恒等映射(F(x)=x),保证深层的拟合效果至少不弱于浅层。将原网络的输出从F(x)变为H(x)=F(x)+x,保证输出不弱于输入,使网络在输入的特征基础上学习到新的特征。

图2 残差块结构

以导线图像为例,其FPN结构如图3所示,最下层为包含导线的原始图像。传统的特征提取过程中,网络自下而上卷积,只使用最上层特征图进行预测,这种只关注高维信息的方法导致无法检测小物体。FPN加入了自上而下的上采样过程及横向连接,融合多尺度特征,更有利于挖掘多尺度信息。

图3 FPN结构

1.2 RPN与RoI Align层

RPN在特征图中使用滑动窗口遍历,生成若干个锚框,并计算每个锚框与目标框相交区域的面积比率,同时将面积比率大于0.7的锚框分配正标签(目标),面积比率小于0.3的分配负标签(背景),面积比率在0.3和0.7之间的锚框将被舍弃。以此对每个锚框进行背景与目标的二分类。

分配为正标签的锚框将进行目标框回归处理。目标框回归过程如图4所示,图中:P为原始锚框;G′为候选框;G为人工标注的包含导线的目标框。

图4 目标框回归过程

目标框回归即为找到一种变换方式f,使得P在经过该变换后得到一个与G更接近的G′。即

f(Px,Py,Pw,Ph)=(G′x,G′y,G′w,G′h).

(4)

式中:Px、Py为变换前锚框的中心横、纵坐标;Pw、Ph分别为变换前锚框的宽和高;G′x、G′y分别为变换后锚框的中心横、纵坐标;G′w、G′h分别为变换后锚框的宽和高。

当P与G接近时,可采用线性变换。具体做法是对锚框P先平移再缩放,偏移量和缩放量为:

(5)

式中:Ex、Ey为偏移量;dx(P)、dy(P)为平移尺度;Ew、Eh为缩放量;dw(P)、dh(P)为缩放尺度。

原始锚框P经过上述变换后成为锚框G′,而P与G的真实变换尺度为:

(6)

式中:tx、ty为锚框P到目标框G所需的偏移尺度;tw、th为锚框P到目标框G所需的缩放尺度。

目标框回归损失函数

(7)

式中:N为锚框总个数;*表示符号x、y、w、h之一;i为锚框序号;t*,i为第i个锚框到目标框G所需的偏移或缩放尺度;d*(Pi)为第i个锚框到目标框G′的偏移或缩放尺度。

RPN采用梯度下降法使得Lbox收敛,实现目标框回归,并将结果映射到特征图中。候选框内部即为感兴趣区域(region of interest,RoI)。由于候选框尺寸不一,每个RoI尺寸不同,通过RoI Align层对RoI归一化,以进一步用全连接网络处理。

候选框位置由RPN得到,其中心点坐标及宽、高通常为浮点数。由于像素点坐标不存在小数,在传统的RoI池化操作中会将浮点数进行取整,导致特征图归一化的候选框存在偏差,在特征图缩放到原图后偏差被放大,影响后续的掩膜预测效果。RoI Align层在池化时不对坐标取整,而是采用双线性插值计算坐标值为浮点数的像素点值,实现了更高的精确度。

1.3 目标框预测和掩膜预测

在RPN中的候选框仅分为导线部分与背景,并未细分类为有冰和无冰。将归一化的RoI传入全连接层中,通过预设标签进行分类训练,拟合特征图与图像的类别之间的函数,并进行目标框回归,预测图像的分类及图像目标框。

掩膜即为目标的轮廓边缘,生成掩膜的分支独立于分类和目标框回归分支,输入为归一化的RoI,输出为目标的掩膜。

1.4 模型评价指标

本文用精确率J、召回率Z和平均精度(average precision,AP)作为模型分割的评价指标:

(8)

式中:TP为正确分割成导线的图像数量;FP为错误分割成导线的图像数量;FN为漏分割导线的图像数量。将J和Z分别作为横、纵坐标得到精确率-召回率曲线,该曲线与横、纵坐标轴所围成区域的面积为AP值。

2 试验

2.1 覆冰图像监测系统

2008年冰灾后,南方电网建成覆冰监测预警系统并多年常态化运行。监测终端是覆冰监测预警系统的基础,可以采集杆塔(包括杆塔、导线、地线、绝缘子)现场图像、导线及地线拉力、绝缘子倾斜角、气象参数(包括温度、湿度、风速、气压)等信息,并通过GPRS/CDMA商用网络发送至主站[4]。主站对监测参数进行存储、查询、显示和分析,提供预警信息[2]。

覆冰预警系统包括通信及解析、数据库、历史数据查询、参数设置、冰厚计算、显示和预警等单元。通信及解析单元与图像监测终端通信,接收终端上传的图像。数据库单元包括实时数据库和历史数据库,用于存储采集的数据,历史数据查询单元根据需要提供线路历史覆冰信息。冰厚计算单元根据南方电网统一模型计算导、地线等效覆冰厚度。预警单元将实时监测、计算的等效覆冰厚度与设计承载阈值比较,向运维人员发出告警信息。

其中,图像监测终端包括摄像单元、图像处理单元、通信单元和供电单元。摄像单元(包括高速球机、定焦枪机或高清数码相机)安装于现场杆塔上且拍摄方向正对输电导线,定期拍摄。投入运行以来,摄像单元为输电线路自然覆冰研究积累了大量图像监测数据。

架空输电导线监测有以下特点:①图像包含杆塔、绝缘子、导线、地线,背景有森林、山地、岩土等;②监测终端厂家、型号不一,图像分辨率具有差异性;③监测终端存在积污现象,并在强覆冰天气下易凝冻。

2.2 覆冰数据集构建

本文建立南方电网架空线路覆冰导线数据集。首先人工评估覆冰图像质量,将图像分为正常、局部凝冻、全部凝冻、被遮挡和积污5类。

其次,人工标注图像分类。根据研究目标的类型,将图像分为仅含绝缘子、仅含导线、含导线和绝缘子,以及不含导线和绝缘子等4类。根据DL/T 5462—2012《架空输电线路覆冰观测技术规定》,将覆冰类型分为雨凇、雾凇、混合凇、湿雪和无覆冰5类,覆冰类型视感判别见表1。根据覆冰导线横断面覆冰形态,将图像分为多棱形、多棱针状、片状、近圆、扇形等5类覆冰(见图5)和无覆冰类。根据覆冰导线纵断面覆冰形态,将图像分为矩形、锯齿形2类覆冰(见图6)和无覆冰类。

表1 覆冰类型的视觉判据

图5 覆冰导线的横断面覆冰形态分类示意图

图6 覆冰导线的纵断面覆冰形态示意图

南方电网2014—2018年覆冰监测图像分类标注的数据集结构见图7。数据集的一部分是人工分类标注,以建立人工智能的训练集和验证集。根据上述图像清洗原则,用自编程软件Annotation V1.0对训练集图像逐张人工分类标注,生成终端表文件存储标注信息,包括图像质量、图像目标类型、横断面和纵断面覆冰形态等,见图8。

图7 覆冰导线图像数据集架构

图8 人工分类标注软件界面

最后,进行导线图像人工分割标注,建立导线图像分割的训练集和验证集。本文选取2017年覆冰形态为矩形的覆冰导线图像作为训练集(552张)、测试集(107张)。用开源软件labelImg按照下述规则人工描边分割标注导线:

a)用多边形分割导线,边界尽量贴近导线边缘。

b)导线细长,将图像的特殊位置作为导线的头尾,如防震锤、杆塔等。

c)有冰导线标签命名为PL_Ice,无冰导线标签命名为PL。

d)若是弯导线,则至少用8个点分割标注。

e)若导线过于密集,则标注成一股。

f)若导线分段覆冰,则一段覆冰导线和一段未覆冰导线均需要标注,尽量选取较长区域。

标注后生成导线目标框,即为分割标注多边形的外接矩形框。将导线类别、多边形顶点坐标、目标框顶点坐标、文件名和文件路径等分割标注信息存储于XML文件。

2.3 模型训练和测试

Mask R-CNN是用开源数据集COCO、ImageNet预训练的,不能直接用于输电线路覆冰图像。由于Mask R-CNN要求的JSON数据集格式和labelImg标注的XML格式不一致,需要转换格式,生成数据集字典。将该字典输入网络模型中训练,训练参数见表2。本文操作系统为Ubuntu16.04,使用NVIDIA RTX 2080Ti显卡,GPU数量为1。用上述参数训练552张导线图像中的929个导线实例,其中无冰431个,有冰498个,图像分辨率见表3,分辨率单位为像素。

表2 Mask R-CNN训练模型参数

表3 Mask R-CNN训练模型的输入与输出

3 结果与分析

3.1 数据集

2014—2018年南方电网架空线路覆冰监测图像质量、覆冰类型、覆冰横断面,以及覆冰纵断面图像数据统计见图9。

图9 2014—2018年覆冰监测图像数据集统计

3.2 覆冰分类人工标注典型类型

导线覆冰横断面典型图像见图10。导线覆冰纵断面典型图像见图11。不同覆冰类型的典型图像见图12。

图10 导线覆冰横断面的典型图像

图11 导线覆冰纵断面的典型图像

图12 导线覆冰类型的典型图像

对2017年659张图像进行覆冰导线像素级人工分割标注,其中有冰图像309张,无冰图像350张。人工分割典型图例见图13。

图13 覆冰导线的典型人工分割标注

3.3 导线Mask R-CNN图像分割

训练采用了学习率Warm-up方式,迭代次数小于1 000时学习率由0开始线性递增地变化,迭代次数不小于1 000时学习率为预设值训练。在Warm-up小学习率下,模型可以慢慢趋近于稳定,等模型达到相对稳定后选择预设的学习率训练可使模型收敛速度更快。本文训练迭代次数为30 000。训练损失值衰减过程见图14。

图14 覆冰导线图像Mask R-CNN训练模型的损失值变化

训练后生成pth文件,导入网络模型参数对测试集图像进行测试,并以预测导线目标框和标记导线目标框的重叠部分面积与两框并集面积之比来判断是否检测成功。当该比值超过0.7时,认为较精确地识别了导线。用训练模型对测试集和各年覆冰监测图像进行导线分割,其精准率P、召回率Z和AP值见表4。由表4可知,模型的导线分割准确率较高,均能达到92%以上,召回率70%以上。模型召回率不理想,原因在于每个监测终端在同一覆冰期的图像数量不均衡,同终端的图像相似程度较高,图像分割结果趋同。采用提取每个终端代表图像进行标注的方式来解决该问题,这些图像可以代表终端内大部分的图像。由于每个覆冰期的终端变化较小,该方式可大大提高召回率。在测试集107张图像的算法用时为25 s,2018年1 355张图像的用时为762 s,检测速度0.2 s/张,相比传统边缘检测方法的速度(约1 s/张)有较大提高[13]。

表4 测试集和各年覆冰图像的导线识别与分割结果

复杂背景下含杆塔的覆冰导线典型图像分割如图15所示。由图15可知,模型在林地、大雾、土地、局部凝冻等复杂背景下均能实现导线图像准确分割。

图15 复杂背景下含杆塔的覆冰导线典型图像分割

不同分辨率的导线图像分割如图16所示,导线弯曲及覆冰不规则时导线图像分割如图17所示。可以看出,该模型泛化性能较好,对不同分辨率、不同覆冰形状及弯曲导线都能准确分割。

图16 不同分辨率图像的导线分割

图17 不规则覆冰图像及弯导线的图像分割

分割中出现导线未完全被掩膜覆盖的情况,即导线区域未被分割完整。监测终端的摄像设备有固定的预置位,模型训练时可以考虑改变锚框生成位置或使用大尺度训练等方式提升算法性能,实现针对在线监测系统的导线分割模型优化。

4 结束语

本文基于南方电网输电线路覆冰预警系统,进行图像质量评估、图像分类人工标注和导线图像人工分割,提出图像分类原则和数据集逻辑关系构架,建立南方电网覆冰导线图像数据集。通过图像质量评估可知数据质量不高,存在较多损坏及凝冻图像,应考虑通过更换终端及加装摄像终端自加热装置来改善图像质量。本文采用Mask R-CNN对13 642张在线监测导线图像进行了分割,图像分割速度可达到0.2 s/张。该方法可实现有冰导线及无冰导线自动分类,对复杂背景下的导线识别与分割泛化能力较强,在各年监测图像数据中准确率达到了92%以上。这种分割方法可以有效地排除各种复杂背景或相似物体对导线分割的干扰,在图像质量不高的情况下精确分割导线,并可利用导线掩膜边缘进一步评估导线覆冰程度。

猜你喜欢
锚框导线卷积
锚框策略匹配的SSD飞机遥感图像目标检测
基于GA-RoI Transformer的遥感图像任意方向目标检测
基于3D-Winograd的快速卷积算法设计及FPGA实现
铝棒导线在汽车线束领域的应用
东华大学研发出可体内吸收型蚕丝导线
一种可变锚框候选区域网络的目标检测方法
基于深度学习的齿轮视觉微小缺陷检测①
汽车导线性能和应用分析
卷积神经网络的分析与设计
分裂导线覆冰的数值分析与实验研究