面向电力智能安监的极低分辨率目标检测算法

2020-11-17 06:28郭敬东李晓林
计算机工程与设计 2020年11期
关键词:低分辨率背景建模

郭敬东,李晓林

(1.福建省电力有限公司电力科学研究院 福建省高供电可靠性配电技术企业重点实验室, 福建 福州 350007;2.武汉工程大学 计算机科学与工程学院,湖北 武汉 430205)

0 引 言

根据电力作业规范,工作人员必须配戴安全帽、护目镜和绝缘手套等[1]。但工作人员常未按要求进行电力施工,存在重大安全隐患。传统的安监方法是用人工来实时查看监控图像中工作人员在工作现场是否安全施工,排除安全隐患。这种方式需要大量的专职监管人员长时间不间断地关注视频。由于视觉疲劳的原因,工作人员不可能长时间目不转睛地盯着显示屏幕。这种人为疏忽可能造成重大安全事故隐患[2,3]。因此,利用计算机视觉算法实时检测这种违规行为,成为最有应用价值的方法之一。但是,低分辨率目标(其高或宽均小于50像素)与传统高分辨率目标检测不同。目标检测算法随着目标尺度的变小,性能会急剧下降[5]。为了能够准确地检测电力工作现场的极低分辨率的小目标(例如安全帽和护目镜),本文提出了一种面向电力系统智能安监的极低分辨率目标检测方法,该方法通过对视频图像中的小目标进行超分辨率增强,进而对增强图像进行目标检测。该方法极大地提高了目标检测方法的性能,同时满足电力系统智能安监实时性需求。本文的主要贡献有:提出一种针对极低分辨率目标的检测算法框架;提出一种改进的基于深度神经网络的目标检测算法;构建面向电力智能安监的极小目标(高宽小于30像素)数据集,并在该数据集上验证了本文方法的有效性。

1 算法设计

本文提出一种面向电力安监的极低分辨率下目标检测算法。该算法框架主要分成3个部分:①利用背景建模方法获取视频图像中运动目标;②将获取的运动目标前景图像进行超分辨率放大4倍;③放大图像送入改进的神经网络中进行目标检测。

1.1 背景建模技术

背景建模(background modeling)[6]假定背景图像像素值符合某种的概率分布,而前景图像像素则服从这种概率分布。根据这种假设,原始图像与背景图像做差,即可以得到前景图像,所以,该方法也被称为背景减除。高斯背景建模方法将概率分布设定为高斯概率分布。由于光照变化、噪声等对背景建模的影响,通常假设背景像素服从混合高斯分布模型[6]。为了获得准确的前景目标,本文采用混合高斯背景建模方法。混合多高斯背景建模描述如下:

假定背景图像中每个像素点符合K个高斯分布构成的混合模型,即

(1)

(2)

(3)

其中,K为高斯分布个数,η(xt;μi,t,τi,t) 为t时刻第i个高斯分布,μi,t为其均值,τi,t为其协方差矩阵,δi,t为方差,I为单位矩阵,ωi,t为t时刻第i个高斯分布的权重。实验中,为了提高背景建模算法的处理速度,我们对单通道灰度图像进行建模。混合高斯个数为3,即K=3。

1.2 图像超分辨重建技术

图像超分辨率重建技术(image super-resolution)[7]是利用一组低质量、低分辨率图像来构建单帧高质量、高分辨率图像的新技术。该技术可以提高图像的识别能力和识别精度。当前基于学习的超分辨率重建方法是主流,其中以稀疏表示模型和深度学习模型为代表。由于深度学习模型需要海量的训练数据,且重建过程消耗大量的计算资源,时间复杂度太高,因而在本文中采用基于稀疏表示的超分辨率重建方法。该方法具有模型简单,计算速度快,重建效果好,且不需要大量的训练数据。该方法描述如下:

给定图像块集合Y=[y1,…,yn],标准的无监督字典学习算法通过最小化重建误差约束试图学习到一个字典D=[d1,…,dm] 和一组关联的稀疏编码矩阵。其代价函数如下

(4)

尽管该问题是NP-hard问题,但在一定假设条件下,可以等价转化为可优化的问题,进而采用随机梯度下降算法求最优解[7,8]。通过添加正则项,可以实现这种变换,常用的正则项为Lasso惩罚项[8]

(5)

1.3 目标检测技术

目标检测技术在电力智能化有较广泛的应用。研究人员能够根据图像中的信息获得杆塔的编号[4]。传统的目标检测算法仅仅通过使用物体自身颜色的BGR值作为阈值对视频帧进行判断。然而同一颜色的BGR值随光照改变明显,针对不同的作业现场需要对该阈值进行精调来达到最优效果。当视野中存在与目标颜色或面积相近物体,目标检测难度会进一步提高。电力识别作业的场景主要在户外,背景复杂,根据传统的颜色及纹理特征进行判定很容易发生误检或者漏检。因此,传统的图像特征配合机器学习中的传统分类器无法达到理想的效果。目前主流的基于深度学习目标检测技术[5]是学术界和工业界关注的焦点。基于卷积神经网络的Fast R-CNN[9]和Faster R-CNN[10]算法在物体识别上有着准确度极高的识别性能,然而这些算法的网络构架十分复杂,检测过程耗时严重,加上后续的决策分析会有更大的耗时,难以满足电力作业场景中对不规范着装进行实行预警的要求。

SSD(single shot multi-box detector)[11]是由Wei Liu等在ECCV 2016上提出的一种目标检测算法,采用VGG分类网络并增加额外的特征提取层使其能够识别多尺度的物体,然而这种SSD在小目标的识别方面不尽人意。电力作业人员与摄像头的距离会因作业内容不同时远时近,导致劳动防护用品的尺度在视频帧中变化较大。当距离较远时,目标在视频帧中面积过小,SSD会失去对目标的检测。SSD具有如下主要特点:①从YOLO[12]中继承了将detection转化为regression的思路,同时一次即可完成网络训练。②基于Faster RCNN中的anchor,提出了相似的prior box。③加入基于特征金字塔(feature pyramid network)[13]的检测方式,相当于半个FPN思路。

针对电力施工现场特点,本文提出一种增强版的SSD目标检测算法,即I-SSD。I-SSD在定位上比普通SSD要更加准确。当神经网络层数增加变的更“深”后,能够学习到更抽象的特征,然而一味地加深也会导致在训练过程中发生诸如梯度消失或者过拟合的问题。为了在性能和准确度取得平衡,本次研究在SSD的特征值提取层里加入了Inception结构,增加了卷积内核的类型。由此使得SSD感受野的范围增大,对小目标更加敏感同时不会失去对大目标的识别[11]。图1展示的是I-SSD的网络结构。

图1 I-SSD网络结构

图1(a)为SSD网络结构,图1(b)为SSD-I的网络结构。预训练的网络在一个包含1261个人的1 100 000幅图像大规模ReID数据集上训练,由于该数据集包含不同光线、背景、角度条件下相同ID信息的行人数据,使得通过深度学到的特征适合行人检测。网络结构的参数配置见表1。

表1 网络结构配置

2 实验结果与分析

本次系统研发的应用场景主要在户外,因此要求模型能在较复杂的背景条件下实现精准的目标检测。同时,室外环境复杂、光线变化大,对系统挑战更高,更能检测模型的稳定性。本次模拟测试的所有的实验场景都选在了户外。采用Tensorflow来搭建网络并在Titan XP上对模型进行训练。

2.1 室内模型训练

本次研究收集了5种安全装备作为样本集,分别为红色安全帽、蓝色安全帽、白手套、反光背心和黑色橡胶鞋。每种目标样本分别由不同的实验人员穿戴上,在不同的户外条件下拍摄远近景照片作为训练样本。初步收集每种目标样本2000余张作为数据集,其中1500张作为训练集,500张作为测试集。

图2展示的是室内训练模型的Learning Rate和Loss(avg)随迭代次数的变化曲线。在室内模型训练时,首先用1.0×10-3的学习率进行了5000次迭代,然后继续用5×10-4继续迭代至24 000次,如图2(a)所示。当迭代次数达到20 000次以上,模型逐渐收敛,损失值趋于稳定,从图2(b)可以看出,最终的损失值在0.04左右。

图2 训练模型的Learning Rate和Loss(avg)变化曲线

经过2.4万次迭代之后,模型召回率趋于稳定,最终在0.9左右,如图3(a)所示,结合其它的迭代参数可以推测该模型已训练完全,可用于后续的验证测试。

图3 训练模型的Recall和Obj的变化曲线

将改进版的I-SSD与传统的SSD及YOLO及Faster RCNN在预标注的测试机上测试准确率,如图4所示,可以看出无论是在训练时提取特征的效率上,还是在测试时的准确度上,改进版的SSD效果明显优于其它检测模型。

图4 不同对比算法的准确率比较

对SSD和I-SSD在同一样的数据集上训练到收敛,并对自然电力作业场景下进行目标检测,从图5中可以看出,传统的SSD对诸如安全帽、手套等小目标识别效果不够稳定,而改进版的I-SSD对小目标的识别能力有较大提高,对于大目标也能有较稳定的识别能力。

图5 目标检测的可视化结果比较

2.2 室外测试

图6显示了迭代2.4万次的I-SSD深度网络模型在实时视频流中的识别效果。该系统可以在视频帧中检测到指定目标并且帧率能保持在15 fps左右,能够满足项目对于实时性方面的要求。

图6 深度网络模型在实时视频流中的识别结果

为了模拟电力作业现场,本文让不同实验人员穿戴上不同的安全装备并在摄像头范围内随机行走,模拟户外电力作业场景和作业行为,测试训练出的分类模型在不同背景光线、距离条件下模型对穿戴护具的识别效果。

从图6可以看出,手套相对于整个视频帧中面积是很小的,具有极低分辨率的特点,然而I-SSD算法仍能准确地识别出来。同时,通过人脸识别的结果与行人的ID绑定后,使人脸信息一直在当前的检测结果中,且具有很强的抗遮挡能力。

为验证本算法在电力监控场景下的检测效果和时间复杂度,为了检测头盔,护目镜和手套等极小目标,本项目从5个电力智能安监现场20个摄像头采集2小时的监控视频,并对数据集进行了标准整理,形成面向电力安监的极小目标检测数据集。该数据集共包含20万张图像,其分辨率为352×288像素,其中18万张作为训练集,剩余的作为测试集。该数据集共含有268个工作人员,35万个人体实例,戴头盔的行人约29万个,戴手套的行人约32万个,戴护目镜的行人约27万个。护目镜的最小分辨率为18×7,手套的最小分辨率约为23×10,头盔的最小分辨率约为 42×25 等。上述在ReID数据集上训练的行人检测算法得到的模型参数作为本数据集初始化参数。模型训练参数设置保持不变。在图像增强算法中,参数λ=0.5。实验对比算法选择当前速度最快的基于CNN的目标检测算法SSD[11]和YOLO[12],见表2。I-SSD为本文改进算法,BG表示背景建模,SR表示基于稀疏表示模型的图像超分变率算法。从表2中可以看出,本文方法在准确率和召回率等指标上取得最佳,同时也满足了项目实时性的需求。

表2 监控视频场景测试结果

3 结束语

针对电力作业现场的智能安监问题,本文提出了一个面向电力智能安监的极低分辨率目标检测算法。该方法使用google发布的Inception模块替换了原SSD中VGG16的额外层,同时也改进了SSD的输出层,提高了SSD对于视频帧中极低分辨率的小目标的识别性能。通过与其它特征提取网络对比检测效果,可发现I-SSD在准确率方面有较大的提高;同时该检测模型相较于Faster RCNN和YOLO,在同等条件的硬件GPU环境下,该检测框架比其它两类主流的检测框架具有明显的速度优势。

猜你喜欢
低分辨率背景建模
红外热成像中低分辨率行人小目标检测方法
“新四化”背景下汽车NVH的发展趋势
《论持久战》的写作背景
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
基于边缘学习的低分辨率图像识别算法
黑洞背景知识
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
树木的低分辨率三维模型资源创建实践
三元组辐射场的建模与仿真