基于单目深度估计的输电线路防外破监测方法*

2023-12-01 08:15陈华超李刚领廖承就张惠荣张磊
科学与信息化 2023年22期
关键词:深度图解码器深度

陈华超 李刚领 廖承就 张惠荣 张磊

1. 广东电网有限责任公司惠州供电局 广东 惠州 516000;2. 广州中科智巡科技有限公司 广东 广州 510623

引言

目前输电线路防外破监测的方式主要为视频监控,利用网络摄像机实时回传线路的监控画面,由工作人员判断线路是否存在外力破坏隐患,可以实现了输电线路状态与外力破坏风险的集中监测。但随着电网规模的增加,视频监控系统的规模也不断扩大,靠工作人员从监控画面中时刻判断线路是否存在外力破坏隐患变得不太现实。在电网智能化的大背景下,利用无线视频传输技术结合图像处理算法,自动化分析监控视频中的输电线路是否存在外力破坏隐患显得十分必要。本文基于单目深度估计方法结合,实现自动化、高准确率、高实用性的输电线路防外破监测。

1 相关理论

1.1 Transformer编码器

Transformer编码器的作用是负责把自然语言序列映射称为隐藏层(含有自然语言序列的数学表达),然后解码器把隐藏层在映射为自然语言序列。Transformer编码器由L层多头注意力模块和多层感知器模块的组合组成,本文采用的多头注意力模块和多层感知器模块均与常规的Transformer模型内的模块结构一致[1]。

1.2 CNN解码器

解码器(Decoder)是负责将特征(Feature)转化为目标(Target)的结构[2]。传统的CNN解码器为了将小尺寸多通道的特征图解码成大尺寸单通道的深度图,大多采用如UNet模型解码器一样的逐层上采样结构,通过多个上采样操作和卷积操作,在特征映射过程中逐层扩大尺寸并缩小特征通道,直至获取深度图[3]。

本文设计一种深度-空间转换模块应用于CNN解码器中实现高效率的特征映射:先使用两个3×3卷积层依次将Transformer解码器输出的张量特征通道从768减少至256[4],卷积层滤波器的数量分别是512和256;其次深度-空间转换模块直接将28×28×256的张量按照行优先的顺序将不同深度的特征依次重排列成448×448×1的深度图,像素重排列的过程可用公式表达为:

2 本文算法

2.1 构建改进深度估计模型

本文设计了一种结合Transformer编码器和CNN解码器的深度估计模型,所设计深度估计模型框架如下图所示。

在推理前需对图像进行预处理,首先,将输入图像缩放至448×448×3的尺寸后裁剪成784个长宽均为16的正方形图块(patch),得到784×16×16×3的张量;其次将这些图块逐个采用flatten()函数线性投影至一维向量,因此可以获得784×768的二维特征图,768代表每个图块的特征向量长度;最后,向特征图增加1个1×768的可学习向量实现位置信息嵌入,使模型在训练中学习到图块间的位置信息。图像经过预处理后最终得到785×768的二维特征图。

在推理时,将特征图输入Transformer编码器进行特征编码,通过一系列的多头注意力(Multi-Head Attention)模块和多层感知器(multi-layerperceptron,MLP)模块提取鲁棒性更高的特征,最终输出大小为785×768的特征图,删除位置信息特征,得到大小为784×768的特征图,并通过reshape()函数转换为28×28×768的张量。将张量输入CNN解码器,通过两个3×3卷积层和一个深度-空间转换(Depth-to-Space)模块实现特征映射,获取448×448×1的深度图,每个像素点上的值表示该点的深度信息。

图1 深度估计模型结构

2.2 深度估计模型训练

在深度估计模型部署进计算平台前,需先进行模型训练。由于获取图像深度图的工作十分复杂,因此本文直接采用公共的深度估计数据集Cityscape对所设计的深度估计模型进行训练。Cityscape数据集由2975组训练图像(RGB图像及其相应的深度图)和500对用于验证的图像组成。

在模型训练阶段,采用Huber()损失函数计算模型Loss值,计算公式如下:

在计算得到Loss值后,采用自适应矩估计优化器作为模型的训练优化策略,通过反向传播梯度优化模型权重,共训练100轮次。学习率从0.001开始动态调整,每一轮次更新完成后,学习率乘以0.9。观察验证集Loss值的变化,当Loss值连续5个轮次没有下降的时候,停止训练,获取收敛效果最好(最终Loss值最低)的深度估计模型。

3 实验过程与结果分析

3.1 算法过程

本文采用检测效率高的YOLOX模型对图像内施工机械目标进行检测。在模型推理前先将图像大小缩放为640×640以加快推理速度,之后图像经过模型推理后得到一个规模为(R,4)的二维数组,数组行数R表示模型检测出图像内施工机械目标的数量,每一行表示图像内一个施工机械目标的外接矩形框的位置信息是目标矩形框的左上角坐标的横坐标和纵坐标,是目标矩形框的右下角坐标的横坐标和纵坐标。

模型在部署前需进行训练,模型训练采用自适应矩估计优化器作为网络的训练优化策略,共训练50轮次。学习率从0.0003开始动态调整,每一轮次更新完成后,学习率乘以0.9。模型采用原YOLOX模型的主干网络和特征融合网络权重作为预训练模型权重,并初始化检测头网络的权重参数。前25个轮次冻结主干网络和特征融合网络的权重参数,仅对检测头网络进行微调以加速训练;后25个轮次则对模型整体进行训练。每一轮训练后计算模型在测试集上Loss值,当Loss值连续5个轮次没有下降的时候,停止训练,获取收敛效果最好(最终Loss值最低)的YOLOX模型。

训练所用的数据通过抽取输电线路区域监控视频的画面组成,并以人工分拣的方式,清洗亮度异常、噪声较大和图像模糊的数据。利用标注工具,对图像中的施工机械目标进行标注,并以VOC数据格式保存成xml标签文件。在本实施例中,施工机械目标主要包括吊车、挖掘机、推土机和塔吊。最后,将图像数据和对应标注文件按照4∶1的数量比例划分出训练集和测试集用于训练模型。检测到的图像内施工机械目标的检测框位置信息,可以在深度图的相同位置处获取每一个施工机械目标的深度区域,并以该区域内所有像素的深度值的平均值作为该目标的参考深度值,设定告警阈值,若图像内有任一施工机械目标的参考深度值大于告警阈值,则进行告警,提醒工作人员输电线路区域存在外破隐患。

推理图像利用模拟机械施工设备进入摄像头,进行抓拍的方式进行,得到不同距离和不同设备类型的数据875张。标注此批数据之后,即可进行自动化的比对。

3.2 实验环境与配置

采用设备参数如下:CPU:主频2.40GHz,8C/16T;显卡:NVIDIA Geforce 3070ti;操作系统:Redhat Centos 9.2207

3.3 算法训练与结果测试

表1 算法实验结果

3.4 结果分析

通过分析比较,基于单目深度估计的深度学习模型能够有效地监测现场是否存在施工机械,并且根据距离预警输出,满足现场实际应用的需要。

4 结束语

本文提出了一种结合Transformer编码器(一种采用自注意力机制的深度学习模型)和CNN解码器(一种采用卷积神经网络的深度学习模型)的强大性能,直接建立RGB彩色像素与深度值之间的关系映射,在单一图像上进行深度估计,获取深度图,最终根据目标检测结果和深度图进行告警判断,实现自动化防外破监测。

猜你喜欢
深度图解码器深度
科学解码器(一)
科学解码器(二)
科学解码器(三)
深度理解一元一次方程
线圣AudioQuest 发布第三代Dragonfly Cobalt蓝蜻蜓解码器
基于深度图的3D-HEVC鲁棒视频水印算法
深度观察
深度观察
深度观察
一种基于局部直方图匹配的深度编码滤波算法