基于改进的Faster RCNN的仪表自动识别方法*

2024-03-26 02:33王欣然赵成龙
机电工程 2024年3期
关键词:候选框准确率笔者

王欣然,张 斌*,湛 敏,赵成龙

(1.中国计量大学 计量测试工程学院,浙江 杭州 310018;2.杭州莱霆科技有限公司,浙江 杭州 310009)

0 引 言

随着现代工业的迅猛发展,工业仪表[1]被广泛应用于各类工业场景中。设备若要平稳运行,则需要采用大量的仪表对设备进行实时监测。

传统的巡检方式主要依靠人工排查、记录仪表当前情况,但由于设备分布在不同区域且仪表种类不一,如再遇到雨雪或大风等不佳环境情况的干扰,易发生误检、漏检。故传统的检测方法已经不能满足现代工业中自动化、智能化的需求。

目前,国内外已有众多学者针对目标检测算法[2]进行了研究。宋冬梅[3]提出了基于机器视觉的指针式仪表检测模型,采用优化后的YOLO v3检测方法,提高了指针仪表的检测精度;但当单张图片存在多个仪表进行同时检测时,上述算法存在漏检问题。赵麟坤等人[4]提出了改进的Faster RCNN碳纤维编织物缺陷检测算法模型,采用ResNet 50作为特征提取网络的方法,解决了小缺陷特征图在卷积操作中的失真问题;但缺陷检测速度较原模型并没有很大提升。杨彬等人[5]提出了改进Mask RCNN的焊缝缺陷检测模型,对模型中的残差网络最后阶段进行了变形卷积,使其充分提取到了不同的缺陷信息以防止细节的丢失;但其忽略了目标检测的实时性。张彦凯等人[6]提出了一种高精度优化Faster RCNN变电站安全帽检测方法,采用双线性插值的区域特征聚集方式(region of interest align,ROI Align)代替原始的兴趣区域池化(region of interest pooling,ROI Pooling)的方法,避免了量化操作引起的像素误差;但该方法在针对复杂场景中存在着遮挡、重叠情况,仍存在检测精度低的问题。

研究人员虽然已经在目标检测算法上进行了有效改进,但是在复杂环境中,多目标检测的精度与效率方面仍然不高。

针对上述问题,笔者在Faster RCNN模型的基础上,提出一种基于改进Faster RCNN的仪表自动识别方法:使用ResNet101代替VGG16特征提取网络,改进特征金字塔模块,采用注意力机制与Softer-MNS非极大值抑制算法,简化网络结构,融合高层语义信息,以获得识别效果更佳的图像。

1 Faster-RCNN模型结构

基于卷积神经网络模型的目标检测模型可以分为基于单个神经网络的目标检测系统(you only look once,YOLO)、单次多边框检测(single shot multi-box detector,SSD)、单阶段目标检测等[7-9]一阶段检测算法和RCNN、Fast RCNN等[10-12]二阶段目标检测算法。Faster RCNN属于二阶段目标检测。

Faster RCNN模型基本结构如图1所示。

图1 Faster RCNN结构图

Faster RCNN主要是由特征提取网络、候选框建议网络(region proposal networks,RPN)和检测网络三个主要部分组成。其中,特征提取网络为VGG16;RPN生成候选框,其核心为锚框机制;检测网络由统一大小特征向量的ROI Pooling层、分类层中的全连接层和回归层中的全连接层组成。

首先,笔者将数据集中的输入图像在预处理阶段进行归一化操作,然后将图像输入特征提取网络中进行提取,提取到图像特征,得到共享特征图,将共享特征图传入RPN层与ROI Pooling层继续使用。

候选框建议网络将获取的图像作为输入,生成候选矩形区域。锚框的作用是覆盖图像上各个位置各种大小的目标,经过卷积处理完成分类与回归后生成建议框。

笔者将候选框尺寸映射到特征图上,在ROI Pooling层进行池化处理并输出,得到局部特征层后,采用全连接层进行回归预测与分类预测。

2 改进Faster-RCNN仪表目标识别

Faster-RCNN算法是一种基于卷积神经网络的更快速且更准确的目标检测算法,但是当图像中包含重要的小目标和低质量图像时,存在识别精度低、检测效果差等问题。针对上述问题,笔者对Faster RCNN模型算法做以下四点改进:

1)为了解决VGG16网络训练时间长、存储容量大、信息传递时出现信息丢失或损耗等问题,引入了Resnet101网络代替VGG16网络;

2)为了将不同尺度的特征进行融合,更好地提取多尺度的特征信息,引入了特征金字塔网络,并进行改进;

3)为了抑制模型对背景和冗余信息的关注,提高模型对小目标的识别精度与效率,增强网络提取特征能力,引入了注意力机制;

4)为了提高定位框的定位精度,减少候选区域的重叠性,使结果得到更好地回归,引入了Softer-MNS算法。

改进后Faster RCNN结构图如图2所示。

图2 改进后Faster RCNN结构图

2.1 使用Resnet101残差网络

在深度学习的网络中,随着网络层次的深入,每一个特征无论大小都会经过非线性的变换,然后被转换成具有表征能力的深度特征。其中,2016年被HE Kai-ming等人[13]提出的残差网络推动了深层模型的发展,大大提升了模型的检测效果。

相比于VGG16,ResNet101拥有运算量更小、准确性更高的优点,ResNet101网络具有更强的表示能力,ResNet101网络的深度可以达到上百层或更深。改进后的ResNet101网络中,将第4个卷积层(convolu-tional layer 4,Conv Layer4)的输出作为RPN层和ROI Pooling层共享,ROI Pooling层池化后将特征图再传入第5个卷积层(convolutional layer 5,Conv Layer5)处理输出,将其用于分类和回归。

2.2 改进FPN特征金字塔网络

网络提取特征下,对语义的提取会直接影响到后面的检测效果。FPN[14]利用卷积神经网络模型提取图片中各维度特征,解决目标检测中多尺度的问题。FPN输出传入图像后,进行2倍上采样,再经过卷积,消除上采样中带来的混叠效应,得到特征图。

笔者在FPN网络上进行了改进,引入递归特征金字塔(recursive feature pyramid,RFP)网络。RFP建立在特征金字塔网络上,通过递归结构展开为顺序实现。

实现RFP的过程相当于输出两次FPN过程:首先按顺序展开的反馈链接,并将第一次FPN各层输出的特征传入空洞空间金字塔进行池化与输出;然后将其与主干网络的各层进行链接,最终将两次FPN结果融合输出。

RFP结构图如图3所示。

图3 RFP结构图

输出的特征图是经过空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)操作完成。

ASPP结构图如图4所示。

图4 ASPP结构图

笔者将第一次FPN提取的特征图作为其输入,共有4条并行分支对输入进行扩展。其中针对三条分支使用卷积层与激活函数(ReLU),所输出的通道数均为输入通道数的1/4;针对第4条分支使用全局平均池化层压缩特征,使用卷积层和ReLU函数将压缩后的特征转换为1/4;最后,将由四条分支得到的特征图进行连接,并生成尺寸相同的特征图以进行输出。

2.3 引入注意力机制

当Faster RCNN模型中的特征图权重相同时,将导致背景与目标运算分配不均,故笔者利用嵌入压缩和激励网络(squeeze-and-excitation networks,SENet)模块,以增强Faster RCNN模型对目标的运算能力和对特征的表达能力,排除干扰,提高准确率。

SENet模块[15]采用学习通道特征的方式,增强对特征图的分类,提取特征信息。权重s表示如下:

s=σ(W2δ(W1z))

(1)

式中:σ(*)为Sigmoid函数;δ(*)为ReLU函数;z为压缩操作输出向量;W1,W2为全连接操作权重矩阵。

笔者采用在空间维度压缩输入特征图的方式,得到特征信息以及全局的描述,对压缩后的特征图进行全局平均池化,得到全局统计值;通过激励关系中两个全连接层来降低模型的复杂度,还原维度向量,使用ReLU函数完成非线性变换,使用Sigmoid函数还原得到的维度向量,并进行归一化操作;将所得到各通道的权重s转换到[0,1]范围间,并将其与最初输入的特征相乘后得到最后结果。

2.4 引入Softer-NMS非极大值抑制算法

在Faster RCNN模型中,需要对候选框与锚框进行筛选,常使用NMS算法[16]。该算法通过在候选框中选出一个置信度最高,且对目标物体来说最准确的包围框而得以实现,但当物体发生重叠时,易发生漏检。

后又有Soft-NMS算法[17]代替NMS。

Soft-NMS表示如下:

(2)

式中:Si为第i个预测框对应的得分;M为最高得分的候选框;bi为待检预测框;Ni为预设阈值;IoU为M与bi的交并比;σ为惩罚项系数。

Soft-NMS是一种连续函数,解决了目标重叠的问题。其利用边框得分和IoU交并比,重新评定边框得分,当IoU交并比大于所设定的阈值时,降低边框得分,但仍存在定位精度不高的问题。

故笔者通过引入Softer-NMS非极大值抑制算法[18]来提高单个框的定位精度。

Softer-NMS通过高斯加权衰减降低置信度,以及对候选框进行加权平均优化计算,确定目标候选框的位置。

Softer-NMS结构图如图5所示。

图5 Softer-NMS结构图

首先,笔者需要分别对目标检测中产生的候选框与人工标注的真实框进行高斯分布函数构建与狄拉克函数构建;然后,利用相对熵(Kullback-Leibler diverg-ence,KL Divergence)进行网格训练;最后,利用Soft-NMS方法中所产生的不确定网络预测的标准差,对候选框进行加权平均。

回归分支比传统结构预测类别的class分支和预测坐标回归参数的Box分支多一个Box std分支。该分支用于预测每个候选框坐标的标准差,根据标准差的大小进一步预测候选框坐标的准确度。

3 实验与结果分析

3.1 数据集简介与预处理

为了增加对数据集场景中小目标的占比,数据集中使用了Mosaic数据增强[19]技术,采用随机缩放、随机剪裁、随机翻转以及随机排布等方式,可将现有数据集中的任意四张图片拼接成为一张新的样本图像。

Mosaic数据增强结构图如图6所示。

图6 Mosaic数据增强结构图

笔者采用Mosaic数据增强技术填充数据集,得到了更加丰富的数据集,增加了样本场景中的小目标图像的数量,增强了其对小目标的检测能力以及训练模型的鲁棒性。

此处使用的仪表图像数据来自于VOC 2007数据集,经过Mosaic数据增强处理后,最终得到了3 650张样本图像,大小均为640×480。

笔者将图片进行统一命名;进行训练时,将数据集的80%作为训练集,20%作为验证集;使用开源标注工具Labeling对每张图片进行标注,并生成.XML文件。

3.2 实验环境与训练策略

实验环境配置如表1所示。

表1 实验环境配置

实验装置平台示意图如图7所示。

图7 实验装置平台示意图

训练的参数设置如下:每次向神经网络喂入批次为32的数据,迭代次数为12 000次,最大学习率设为0.001,权重衰减系数为0.000 2。

3.3 评价指标

为了更好地衡量该改进Faster RCNN仪表检测算法的性能,笔者采用精确率(precision,P)、召回率(recall,R)、平均准确率均值(mean average precision,mAP)和目标识别速率作为该次实验的评价指标。

精确率P、召回率R表示如下:

(3)

(4)

式中:TP为图像中正确检测出来的仪表盘数量;FP为图像中错误检测到的仪表盘;FN为图像中没有检测出的仪表盘数量。

平均准确率(average precision,AP)是P-R曲线与坐标轴所围成的面积,表示如下:

(5)

平均准确率均值(mAP)是所有类别的AP值求平均后所得到的均值。考虑精确率和召回率对模型的平均,笔者采用mAP来评价模型优劣,表示如下:

(6)

3.4 实验结果与分析

3.4.1 改进主干网络的实验分析

首先,在实验1中,笔者在不改动Faster RCNN原有模型结构其他部分的基础上,对Faster RCNN的主干网络检测效果进行对比。笔者分别提取VGG16、Resnet50、ResNet101三种特征提取网络,进行实验对比。

实验结果如表2所示。

表2 不同特征提取网络对比实验

由表2对比可知:对比三种特征提取网络,ResNet101的召回率与准确率为90.2%和91.1%,单张检测时间为41 ms,与VGG16相比,召回率和准确率分别提高了2.1%和1.4%;与ResNet50相比,召回率和准确率分别提高了1.3%和0.9%。

由此也表明,ResNet101网络对特征的提取优于VGG16和ResNet50两种主干网络对特征的提取。

3.4.2 消融实验

然后,在实验2中,笔者针对该仪表自动识别改进方案的有效性,设计消融实验进行验证,即以原始Faster RCNN算法模型(原模型)为基础,分别增加一种改进方法进行对照实验,以验证改进方法对各模型的改进效果[20-21]。

消融实验在笔者所提供的数据集上进行。原模型算法在数据集上的消融实验结果如表3所示。

表3 不同模型算法在数据集上的消融实验结果

分析表3可知:改进1使用ResNet101主干网络,使该算法准确率提高了1.4%,mAP提高了1.2%;改进2在改进1的基础上使用了改进后的FPN,使其能够重复应用主干网络特征提取能力,迭代融合输出特征图,故算法准确率较改进1提高了1.2%,mAP提高了1.1%;改进3引入了注意力机制SENet模块,其能够增强该模型对目标的运算能力,较改进2的算法准确率提高了0.4%,mAP提高了0.5%;改进4在候选框筛选过程中将NMS改进为Softer-NMS算法,采用对候选框进行加权平均计算的方式来确定目标候选框的位置,使算法准确率较改进3提高了0.8%,mAP提高了0.9%。

综合改进2~改进4,基于ResNet101主干网络的改进准确率提高了2.4%,mAP提高了2.5%,较原Faster RCNN模型的mAP共提高了3.7%。

3.4.3 不同模型的实验分析

最后,通过实验3,笔者验证了改进后的Faster RCNN算法模型的有效性。

笔者选择SSD算法、YOLO v5算法、Mask RCNN算法、Faster RCNN算法、文献[4]提供的改进算法模型与改进后的Faster RCNN算法模型,采用相同的数据集与训练方法,将准确率与mAP值作为评估对比指标,进行实验对比,验证该方法的性能。

不同模型的实验结果如表4所示。

表4 不同模型实验结果

由表4可知:SSD算法的准确率与mAP值最低,Faster RCNN原算法的准确率与mAP值高于YOLOv5模型,但低于Mask RCNN算法;对比文献[4]中的算法可知,文献[4]中算法结果虽然优于Faster RCNN原算法,但其准确率与mAP值仍低于改进后的Faster RCNN模型。

故从总体来看,改进后的Faster RCNN模型在精度性能上更具优越性。

3.4.4 检测结果展示

为了可视化改进后的Faster RCNN模型,笔者在验证集上进行检测,检测结果如图8所示。

图8 算法改进前后的检测效果对比图

根据检测结果发现:无论是单目标检测还是多目标检测,改进后的Faster RCNN算法检测效果准确率更高,模型的适用度更好,可以更精准地检测到分辨率较低的目标。

4 结束语

针对在检测环境复杂的工业场景下,因仪表盘相似性高、类别分类多而导致的目标检测过程中识别效果差、检测效率低等问题,笔者以Faster RCNN网络作为基础框架,研究了基于改进Faster RCNN的仪表自动识别方法。

研究结论如下:

1)与原模型相比,采用Resnet101特征提取网络,解决了梯度下降的问题;采用改进递归特征金字塔网络提高了主干网络特征提取能力;通过引入SENet注意力机制,有效提高了目标权重;采用改进非极大值抑制算法,提高了目标定位精度;

2)对该模型进行了训练,实验结果表明,训练后的网络模型准确率为93.5%,提高了3.8%,mAP值为92.6%,提高了3.7%,证明该算法模型具有较强的鲁棒性与泛化能力。

在后续研究中,笔者将针对算法模型轻量化与仪表读数进行研究,进一步提高算法的检测精度与速度,训练出更好的检测网络模型,并将其应用到实际工业环境中。

猜你喜欢
候选框准确率笔者
重定位非极大值抑制算法
面向自然场景文本检测的改进NMS算法
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
基于Soft-NMS的候选框去冗余加速器设计*
2015—2017 年宁夏各天气预报参考产品质量检验分析
老师,别走……
换位思考,教育更精彩
老师,你为什么不表扬我
高速公路车牌识别标识站准确率验证法