饶毅,王鲁,赵亚军,王泓博
(1.贵州黔源电力股份有限公司,贵州 贵阳 550000;2.南京南自信息技术有限公司,江苏 南京 210031)
针对数字式仪表的识别方法,主要可以分为传统图像处理和深度学习方法。传统图像处理方法主要有基于HSV 空间的H 分量去定位图像中的数字符号。或者利用数字仪表字符的特点,以数码管作为特征进行数字识别。但随着对深度学习的研究深入,以YOLO 系列和SSD 系列为代表的一阶段检测器和以RCNN 系列为代表的二阶段检测器的快速发展。更多学者研究通过深度学习算法对数字仪表区域进行定位和识别,使用深度学习算法可以有效降低复杂环境对识别的干扰,但相对的深度学习的算法往往结构复杂且计算量大,因此,对于电厂大多数算力有限的设备往往会部署困难。
YOLOv5 是YOLO 系列检测器中的第5 个版本,它有YOLOv5s、YOLOv5m、YOLOv5l 和YOLOv5x 四个模型。其中YOLOv5s 模型最小,检测速度最快,因此非常适合边缘端部署,但同时检测精度也最低。
本文拟基于最便于部署的YOLOv5s 模型,通过改进算法提高识别精度,以便于针对电厂环境可以更好地完成检测任务。最后,在电厂现场应用中实际验证本文改进YOLOv5 算法的有效性。
YOLOv5 采 用CSPDarknet53 架 构 加SPP 层 作 为Backbone, 搭 配PANet 作 为Neck, 再 以YOLO 结 构为Prediction。我们提出的改进YOLOv5 算法计划在Backbone 中加入CBAM 注意力模块提高对小目标的识别精度,在Neck 中替换使用BiFPN 结构来加强特征聚合进一步提升网络特征融合能力。
改进的YOLOv5 的网络结构如图1 所示。
图1 改进YOLOv5 网络结构示意图
Input:采用多种数据增强方法,如几何失真对图像进行随机缩放、裁剪、旋转等;光度失真可以调整图像的亮度、色度、对比度以及加入噪点;Mosaic 增强可以随机缩放、拼接,可以丰富数据集样本,提高识别的成功率。
Backbone(骨干网络):采用了Focus、CBAM、CSP和SPP 结构。Focus 首先复制自己然后进行切片操作,原始输入图片尺寸为608×608×3 经过切片操作变为304×304×12,从而加快网络推理速度;CBAM 是一种轻量级的注意力模块,能直接集成进YOLOv5 架构中,有效加强骨干网络提取小目标的特征。CBAM 结构示意图如图2 所示。
图2 CBAM 注意力模块
如图2 所示,CBAM 模块拥有通道和空间两个维度的注意力机制,将输入特征与注意力映射相乘,从而细化特征。集成CBAM 可以有效提升网络对识别任务不同细粒度目标的识别精度;CSP 的残差结构可以优化训练时的梯度传导同时也可以减少推理的计算量。在我们的改进的YOLOv5 的网络结构中骨干网络使用了CSP1_X 结构,而Neck 使用了CSP2_X 结构;SPP 是空间金字塔结构通过concat 来融合直连和尺寸分别为5、9、13 的最大池化以提升感受野范围。
Neck( 颈部网络):使用BiFPN 结构代替原来的PANet 结构,以双向交叉的连接方式融合特征从而提高识别精度。BiFPN 网络相比PANet 集成了双向交叉和加权融合,是一种更加高效的多尺度特征融合网络结构(FPN)。原始的PANet 是基于FPN+PAN 结构,通过自顶向下加强语义特征,自底向上加强定位特征,利用不同检测层的特征进行融合,但这样计算量大同时自底向上时,输入特征没有融入骨干网络的原始输出。因此本文提出BiFPN 代替PANet 的方案。BiFPN 的结构如图3 所示,BiFPN 跨越连接来去除PANet 中对特征融合共享小的节点,同时在同一尺度下增加一个跳跃链接连接输入节点与输出节点,以此在减少计算成本同时融合更多特征。
图3 BiFPN 网络结构
Prediction:采用GIOU 作为边界框的损失函数,来预测值与真实值的误差,来解决边界框不重合的问题;并提供3 种检测尺度(76×76、38×38、19×19);另外,采用传统的非极大值抑制(NMS)舍弃得分低的预测框,保留得分最高的预测量,从而降低错检漏检的风险。
当本文以某发电厂的数字式电表箱为目标拍摄采集多组相关图像,发现电厂现场存在诸多问题,如电表箱型号多样大小不一,摄像头的拍摄角度和光照情况不同,电表屏幕有发光、污渍、阴影,各类仪表的字体颜色查表较大等各种复杂问题,对我们的改进YOLOv5 识别算法提出了很大的挑战。
为了增加识别准确率,我们深入现场,调用高清晰摄像头采集捕捉电厂电表箱中各类数字仪表图片并进行数据清洗与数据增强,总共得到10000 张图片,其中8000 张图片用于数字仪表识别模型训练,剩下的2000张图片用于图片识别的测试。
为了验证YOLOv5 改进后的检测效果,本文网络训练 环 境 为:Window10 系 统、Pytorch 1.12.1 框 架、CPU 为Intel Xeon Silver 4214、GPU 为 四 张Nvidia Tesla V100,从而对网络进行训练、测试实验。训练参数设置见表1,总迭代次数为500 次。
表1 网络训练参数设置
经过测试,该改进YOLOv5 模型有较好的准确率,且对小数点敏感,对于实际电厂采集的测试图片识别率为95%以上。实际识别效果如图4 所示,由于摄像头安装位置较高,数据集中大多数图片都存在倾斜形变和少部分仪表读数被箱体遮挡的现象。从结果来看,本文提出的算法模型对倾斜形变的数字仪表示数依然有很高的识别精度,但遗憾的是对遮挡的数字示数因为精度低而被非极大值抑制滤除从而无法定位与识别读数。
图4 电厂数字电表读数识别效果图
本文研究了一种改进的YOLOv5 的电厂数字仪表识别算法,在骨干网络中添加CBAM 模块强化了网络对小目标特征提取能力,在颈部网络用BiFPN 网络替换原来的PANet 网络结构,减少计算量的同时也增强了对特征的融合利用。本文在实际的发电厂的数字电表测试中,有95%以上的识别精度,同时鲁棒性强,拥有对倾斜形变的检测能力,后续工作将致力于对遮挡示数的预测。