王 南,徐世超,欧阳超,高 峰,3,魏昊焜,马 磊,杨 彪
(1.国网陕西电力科学研究院,陕西西安 710100;2.哈尔滨工业大学(深圳)计算机科学与技术学院,广东深圳 518055;3.西安交通大学,陕西西安 710048;4.江苏复迪电气科技有限公司,江苏南通 226253;5.哈尔滨工业大学(深圳)建筑学院,广东深圳 518055)
电力网络作为重要的能源输送和配置平台负责电力系统的稳定运行[1]。随着智能电网技术快速发展,监控摄像机、无人机等自动化设备被广泛用于监控电网的安全状态[2-4]。传统的监控方式需要大量人员参与,人力成本增加的同时也存在监控效率低下等问题[5-8]。因此,借助图像识别技术对电网基础设施进行实时监控,针对潜在风险划分等级并及时预警对提高电网的安全性和巡检效率有重要作用[9-10]。
基于计算机视觉的图像识别模型[11-16]发展迅速,如深度残差网络系列模型[17-20]在物体识别等通用任务上效果较好。预警分类任务需要根据电网设施所处的环境预测发生潜在危险的几率,并从低到高给出无预警、蓝、黄、橙和红5 类预警级别,比物体识别等通用任务更加复杂。同时,由于监控摄像机采集到的大多是蓝和橙预警级别的图像,因此,预警分类任务的数据集存在严重的类别不平衡[21]现象。
现有模型较难解决类别分布不平衡的问题[22-24],在训练过程中容易产生过拟合现象。模型对数据集头部数量较多的图像识别准确率较高,但是较难识别尾部数量较少的图像。此外,现有模型不能很好地克服电网场景复杂多变[25]的情况,容易产生错误的预警分类结果,导致总体准确率偏低。
针对此类问题,本文借鉴双分支网络[26]的思想提出了一种双分支的预警识别模型,提高对尾部类图像的分类能力。同时,本文在模型中使用融合动态卷积和Inception 结构[27]的动态特征集成模块,在提高特征提取能力和多尺度感知能力的同时,针对不同场景的图像赋予不同的关注度,克服复杂场景对分类的干扰问题,提高预警的准确率。最后,本文提出了基于Sigmoid 函数的分支融合策略,各分支权重在训练过程中按Sigmoid 型函数动态改变。所提策略有效地融合了2 个分支的特征,进而提高总体的分类准确率。
图像分类问题作为计算机视觉的基础任务发展迅速。从乐存手写字体识别网络(简称LeNet)[12]发展到深度残差网络(简称ResNet)[17],通用图像分类模型的精度得到了极大提升。然而,由于电网场景图像的分辨率高,施工车辆等入侵目标以及电网设施的尺度较小,这些模型在电网场景下的效果不佳。针对上述问题,基于从局部到全局感知的预警识别网络(简称EWNet)[25]进行了初步的研究。
EWNet 针对图像分辨率高,入侵目标尺度较小的特点提出了从局部到全局感知的预警分类模型。模型分为局部响应器、特征集成模块(Feature Integration Module,FIM)和全局分类器3 部分。局部响应器的输入为存在入侵目标的局部像素块,负责提取局部区域和入侵目标的特征。EWNet 中使用ResNet 作为局部响应器;FIM 用于对局部响应器提取的特征进行多尺度特征融合。FIM 由3 种Inception 结构组成,3 种结构的卷积核尺寸分别为3×3,5×5 和7×7,能够有效捕捉不同尺度的特征;全局分类器由带有随机失活模块(Dropout)的全连接层组成。FIM 的输出通过全局平均池化层和全局分类器,最终输出整张图像的预警级别。
双分支网络(Bilateral-Branch Network,BBN)[26]为缓解类别不平衡问题提出了双分支结构,结构由传统学习分支和重平衡分支组成。传统学习分支的输入来自均匀采样器,保留了原始分布的特征。重平衡分支采用反向采样器提高尾部类的抽样概率,使尾部数据得到充分训练。
为使2 个分支得到充分训练,BBN 提出累积学习策略。传统学习分支的权重随训练轮数增加逐渐减小,而重平衡分支的权重逐渐增大。由此,模型的训练重心从传统学习分支转移到重平衡分支,从而提高尾部类的识别准确率。累计学习策略的权重计算公式为:
式中:ε为传统学习分支权重;T为当前训练轮数;Tmax为最大训练轮数。
本文提出的双分支预警识别网络(Bilateral-Branch Early Warning Classification Network,BEWNet)分为随机采样分支和加权重采样分支。每个分支有各自的采样器,随机采样分支使用传统的随机抽样采样器,而加权重采样分支使用增加尾部类图像采样概率的采样器。通过不同的采样策略使2 个分支的输入具有不同的数据分布,以此负责不同预警级别的分类任务。
每个分支由3 个部分组成,分别为骨干网络、动态特征集成模块(Dynamic Feature Integration Module,DFIM)和全局分类器。2 个分类器采用不同的采样策略获取各自分支的输入图像后,将图像输入骨干网络。骨干网络连接各自分支的动态特征集成模块,由该模块得到输入图像的特征表示,其流程如式(2)所示:
式中:I为输入图像;F为骨干网络;D为动态特征集成模块;fD为图像I经动态特征集成模块后的特征表示。
本文使用多路加和的深度残差网络(简称ResNeXt50)[19]作为骨干网络,2 个分支的骨干网络共享权重参数,以加快推理速度、减少模型的训练参数,并且可以利用随机采样分支的特征加强加权重采样分支的特征。
双分支预警识别网络的结构如图1 所示,其中,Inception1,Inception2 和Inception3 分别代表使用3×3,5×5 和7×7 卷积核的Inception 结构;I为随机采样分支权重;1-I为加权重采样分支权重;Ir为随机采样分支的输入图像;Iw为加权重采样分支的输入图像。
图1 双分支预警识别网络结构图Fig.1 Network structure of bilateral-branch early warning classification framework
电网场景下,入侵目标的尺寸大小不一,且有相当数量的小尺寸目标。小尺寸目标在进行图像缩放或者卷积操作时会造成信息丢失[28-30]。此外,电网图像中的背景多为被草木覆盖的山地或者遍布房屋的乡镇,施工车辆等入侵目标混杂在复杂的背景中容易被忽略。
针对这些问题,本文改进了EWNet 的特征集成模块,设计了DFIM。DFIM 在Inception 结构的基础上通过动态卷积[31]融入注意力机制。
Inception 结构使用不同大小的卷积核,其感受野大小不同,因而可以在多个尺度上提取图像特征。同时,DFIM 在不同Inception 结构的连接处使用带有注意力机制的动态卷积。动态卷积拥有多个并行的卷积核,并在这些卷积核上引入了注意力机制。对于不同的输入图像,注意力机制生成不同的卷积核权重。这些卷积核通过加权融合组装在一起作用于特征图上。因此,动态卷积可以将不同的权重赋予不同感受野的卷积核,在Inception 结构的基础上进一步增强了模型对于不同尺度的目标的感知能力。由于注意力机制的非线性,这些卷积核融合后的表征能力更强。同时,动态卷积虽有多个卷积核,但相比于多个卷积核的直接拼接,动态卷积只增加了少量的计算开销(即浮点运算次数)。
动态卷积的结构如图2 所示。其中,If为Inception 结构提取出的特征;Ou为输出;ReLu 为线性整流激活函数;Πs(s=1,2…k)为softmax 函数的输出值。
图2 动态卷积结构图Fig.2 Structure of dynamic convolution
电网图像经过骨干网络提取特征后,DFIM 利用不同卷积核对特征图进行多尺度处理,在一定程度上提高了模型处理复杂背景的能力。同时,借助注意力机制,DFIM 对图像中存在潜在风险的局部区域具有更高的关注度。
电网场景下,监控摄像机自然采集到的图像大多集中于蓝和橙预警级别,对于其它预警级别的图像数据采集困难。因此,训练预警分类任务的数据集存在严重的类别不平衡现象。
针对此问题,本文设计了带有随机采样分支和加权重采样分支的双分支结构(Bilateral-Branch Structure,BBS)。随机采样分支采用随机采样器,所有图像等概率地参与训练。由于在电网场景下不同预警级别的图像数量分布不平衡,所以随机采样分支对图像数量多的预警级别更加敏感,而忽略了部分数量少但潜在风险更大的高预警级别图像。
加权重采样分支聚焦于随机采样分支中采样率较低的类别。对于预警级别为i的图像,其在加权重采样分支中的采样概率pi如式(3)所示:
式中:ωi=1/ni,ωj=1/nj,ni,nj为预警级别为i,j的图像在训练集中的数量;C=5,为预警级别的数量。由此可见,加权重采样分支中尾部类图像参与训练的概率更大,该分支对尾部类图像的表征能力也更强。
双分支结构具有多目标学习的特点,随机采样分支对通用特征的表征能力更强,加权重采样分支更加关注尾部类的特征。由于2 个分支的表征能力各有侧重,直接加和等简单的融合方式容易使某个分支的性能大幅下降,进而降低整体的分类准确率。
本文设计了基于Sigmoid 函数的分支融合策略(Sigmoid Increment,SI),模型对训练集训练的轮数(epoch)确定了2 个分支进行特征融合的权重。设随机采样分支的权重为I,加权重采样分支的权重为1-I。随机采样分支权重I随训练次数的增加而增大,在训练过程中按Sigmoid 型函数动态改变,具体计算公式为:
式中:α为控制随机采样分支权重I上界的系数,本文取0.85;β为控制权重I从0 变到1 的步伐的系数,本文取5。
训练结束后,随机采样分支的权重为α,加权重采样分支的权重为1-α。α越大,训练结束后随机采样分支占的权重越大;β越大,步伐越大,2 个分支进行融合训练的轮数越少,单独训练的时间越长。
如图1 所示,随机采样分支的输入图像Ir和加权重采样分支的输入图像Iw经过骨干网络、DFIM和全局平均池化层,分别得到特征向量fr和fw。在融合阶段,2 个分支使用各自权重对特征向量以元素相加的形式进行加权融合。其融合公式为:
式中:W为全局分类器向量;p∈in为预测输出向量;ℝn为实数域。
在训练初期,随机采样分支的权重接近0。由于尾部类特征较难学习,借助Sigmoid 型函数的饱和区,模型主要进行尾部类特征的学习,这一阶段受β影响。此后进入特征融合阶段,训练重心逐渐从加权重采样分支转移到随机采样分支。
与其它分支融合策略,例如分支权重相等的分支融合策略(Equal Weight,EW)、基于线性函数的分支融合策略(Linear Increment,LI)、基于抛物线型函数的分支融合策略(Parabolic Increment,PI)相比,SI 优点为:Sigmoid 函数在其值域(0,1)区间内具有2 段变化速率较为平缓的区域。其中,在第1段区域,模型可以充分学习并微调尾部类特征,而不会因为权重变化速率过大导致尾部类特征未得到充分学习时,模型就已经侧重于学习通用特征;同理,在第2 段区域,模型可以充分学习通用特征,并能将尾部类特征和通用特征进行有效融合。
本文提出的BEWNet 采用双分支加权融合的交叉熵损失(Bilateral Weighted Cross Entropy Loss,BWCEL)作为损失函数。与单分支结构的模型不同,双分支模型在训练阶段需要同时输入2 张图像,这2 张图像相互独立,可能具有不同的预警级别。BWCEL 结合2 张图像的预警级别以及2 个分支各自的权重计算损失,以此实现2 个分支同时训练。BWCEL 如式(6)所示:
式中:L为BWCEL;yr为Ir的预警级别;yw为Iw的预警级别;LC为交叉熵损失函数,如式(7)所示:
式中:y为图像的预警级别;My为类别y的预测输出值;Mt为类别t的预测输出值。
传统的交叉熵损失函数使分类器关注单张输入图像的预警级别。而在BEWNet 中,需要同时兼顾2 张图像的预警级别及双分支权重。BWCEL 能使2 个分支同时得到充分训练,从而使模型的全局分类器具有更强的分类能力。
本文使用的数据集EWSPG1.0[25]采集自安装在电网基础设施上的监控摄像头,共采集到8 968 张图像,图像分辨率为1 200×900。数据集根据图像中的潜在风险从低到高定义了无预警、蓝、黄、橙、红5 个预警级别。含有火灾的图像的预警级别为红。由于火灾图像采集难度较大,数据集共合成3 195 张带有火灾的图像。加上合成数据,数据集共有12 163 张图像。其中,9 654 张图像作为训练集,2 459 张图像作为测试集。数据集中各预警级别图像的数量统计如表1 所示。
表1 预警级别样本数量统计表Table 1 Table of sample numbers with different early warning levels 张
本文提出的BEWNet 主要包括BBS,SI 及DFIM。为证明BEWNet 在性能上的优越性,以分类准确率和推理速度作为性能指标进行了对比实验,推理速度单位为帧每秒(Frames Per Second,FPS)。其中,EWNet 做了额外的数据增广操作(Data augmentation,DA)。实验结果如表2 所示。
表2 不同模型结构在电网数据集上的性能比较Table 2 Performance comparison of different models on grid dataset
从表2 可知,EWNet 使用ResNeXt50 作为骨干网络时的性能最好,其分类准确率为70.80%;本文提出的BEWNet 在同样使用ResNeXt50 的情况下分类准确率为71.98%,且使用ResNet50 时取得最高的分类准确率,为72.67%。无论骨干网络使用哪种网络,相同条件下BEWNet 的分类准确率均高于EWNet。在推理速度方面,BEWNet 相对于EWNet 并未下降过多,维持了分类准确率和推理速度的平衡。
图3 为最优性能下BEWNet 和EWNet 模型的宏观及微观的受试者工作特征(Receiver Operating Characteristic,ROC)曲线对比图。其中,曲线下方与坐标轴围成的面积记为AUC(Area Under the Curve)。从图3 可知,本文所提模型在宏观ROC 曲线下的AUC 值为0.815,在微观ROC 曲线下的AUC 值为0.911,相比EWNet 模型均有所提升。
图3 EWNet和BEWNet的ROC曲线对比Fig.3 Comparison of ROC curves between EWNet and BEWNet
本文针对不同预警级别对最优性能下的EWNet 和BEWNet 模型做了进一步的分析,并绘制出各个预警级别下的宏观ROC 曲线,如图4 所示。从图4 可知,BEWNet 模型在蓝预警级别下的AUC值由0.816 提升至0.826,在无预警等数量较少的预警级别下也均取得AUC 值的提升。证明了BEWNet 在尾部类的识别性能上更具优势。
图4 EWNet和BEWNet在不同预警级别下的ROC曲线对比Fig.4 Comparison of ROC curves of EWNet and BEWNet with different early warning levels
本文以EWNet为基准模型(Baseline),对BEWNet 进行了多组消融实验分析。如表3 所示,在消融实验中以ResNet50 为骨干网络,通过对改进的模块进行不同的组合对模型各个改进模块的有效性进行分析。其中,√表示该组实验中使用了相应的改进模块,×表示该组实验中未使用相应的改进模块。
表3 ResNet50为骨干网络的消融实验结果Table 3 Results of ablation experiments based on ResNet50
为证明BEWNet 所改进的模块带来的性能提升具有普适性,本文以ResNeXt50 为骨干网络,通过增量添加各模块的形式进行消融实验分析,如表4 所示。
表4 ResNeXt50为骨干网络的消融实验结果Table 4 Results of ablation experiments based on ResNeXt50
通过消融实验可知,添加各改进模块后,模型的性能逐步提升。同时使用3 个改进模块的模型达到了最好的分类效果,由此证明了本文提出的各模块的有效性。
此外,为缓解类别不平衡问题,EWNet 做了额外的数据增广工作。而本文提出的BEWNet 无需进行数据增广,且在分类准确率上有所提升。
为证明改进的融合策略的有效性,本文在双分支融合阶段进行了不同的策略研究,包括EW,LI,PI 和SI。实验以ResNeXt50 为骨干网络。为避免动态集成模块带来的影响,实验在未使用动态集成模块的双分支模型上进行。
如表5 所示,采用不同的融合策略会给模型性能带来不同影响,且性能变化较为明显。说明融合策略对于双分支模型是重要的。模型使用SI 时达到了71.23%的分类准确率,证明了SI 的有效性。
表5 融合策略实验结果Table 5 Experiments results of fusion strategy
为了进一步研究双分支结构中2 个分支的作用,本文通过多次改变2 个分支的权重进行实验,实验过程使用ResNeXt50 作为骨干网络,并绘制了混淆矩阵。混淆矩阵为每个类的预测结果,其中,Pre 为预测值,GT 为真值。首先将2 个分支的权重设为0.5,此时分类准确率为71.43%,混淆矩阵如表6 所示。
表6 随机采样分支权重为0.5时的混淆矩阵Table 6 Confusion matrix when the weight of random sampling branch is 0.5
相比于原来71.98%的准确率,调整权重后准确率下降了0.55%,没有造成模型性能的显著下降。然后将随机采样分支的权重设为0.25,加权重采样分支设为0.75。在此设置下,模型的分类准确率为67.67%,混淆矩阵结果如表7 所示。
表7 随机采样分支权重为0.25时的混淆矩阵Table 7 Confusion matrix when the weight of random sampling branch is 0.25
当随机采样分支的权重设为0 时,混淆矩阵结果如表8 所示,此时分类准确率为64.82%,模型性能显著下降。这证明了随机采样分支对头部类的表征能力较强。
表8 随机采样分支权重为0时的混淆矩阵Table 8 Confusion matrix when the weight of random sampling branch is 0
由表6—8 可知,随着加权重采样分支权重的升高,头部类的分类效果会下降,但尾部类的分类效果得到提升。由此可知,加权重采样分支的确能提取到随机采样分支忽略的尾部类特征,具备一定的尾部类数据的表征能力。
针对电网场景下外部入侵目标的预警识别问题,本文提出了一种双分支结构的预警识别模型。模型利用不同的采样器提高了尾部类图像的采样概率,在不使用增广数据的情况下取得分类准确率的提升。同时,针对电网图像中背景复杂及车辆等外部入侵目标尺度大小不一的问题,结合Inception结构和动态卷积操作提出了动态特征集成模块。
此外,提出了基于Sigmoid 函数的分支融合策略和基于加权融合的交叉熵损失函数,并分析了双分支结构的各类融合策略的有效性以及双分支结构对尾部类数据提取的有效性。
本文提出的模型的分类准确率为72.67%,高于其它对比模型。同时,本文通过消融实验验证了各个模块的有效性。本模型可提前感知电网周围的潜在风险并给出预警级别,在保障电网安全运行方面有重要意义。