红外和可见光图像融合的隧道火源深度估计技术

2024-12-31 00:00:00胡青松袁淑雅罗渝嘉李世银
工矿自动化 2024年11期

关键词:隧道火源识别;火源深度估计;多模态融合;两阶段训练;红外图像;可见光图像

中图分类号:TD67 文献标志码:A

0引言

我国地下矿井巷道和长大交通隧道数量众多,其安全性长期受火灾威胁。若能在火灾发生初期及时准确识别火源位置,将大幅提高火灾救援响应速度和救援效率,甚至将火灾扑灭在萌芽状态。矿井巷道、公路隧道等场景环境复杂,在火源强光和浓烟的影响下,仅靠视频监控系统往往无法有效识别火源[1]。随着人工智能技术的兴起与快速发展,基于图像的火灾探测方法展现出巨大潜力。

在智能火灾探测领域,端到端单目深度估计方法受到广泛关注。现有研究主要集中在通过改进特征提取方法来提高深度估计的精度和鲁棒性,如刘逸颖[2]引入多尺度特征提取器, 邵浩杰等[3]改进Wasserstein 距离损失,温静等[4]提出基于卷积神经网络的特征提取和加权深度迁移方法,均在不同程度上提升了单目图像深度估计的性能。此外,研究者发现特征融合技术可恢复准确、有效的深度信息,如王泉德等[5]采用多尺度特征融合的卷积神经网络算法,程德强等[6]提出一种基于层级特征融合的自监督单目深度估计网络模型,解决了复杂场景中预测深度信息不精确的问题。其中自监督单目深度估计网络对于数据集的限制更小,其训练方法一般分为基于立体像和基于视频序列影像2 种。基于立体像的训练方法需确定相机间的基线长度及相机焦距,且需要2 个视角下的图像,限制了可用于训练的数据集范围。为了进一步减少限制条件,基于视频序列影像的训练方法得到更大关注。Zhou Tinghui等[7]利用单目视频序列训练深度估计模型,采用2 个网络分别估计单帧图像的深度和视频序列中相机的姿态变化。C. Godard 等[8]提出每像素最小重投影损失和多尺度损失来解决遮挡和局部梯度问题。WangLijun 等[9]在文献[8]基础上,利用特征度量损失、时间几何一致性进一步提高了单目深度估计精度。Luo Xuan等[10]采用从运动中恢复结构(Structure fromMotion,SFM)技术结合学习的先验知识,通过联合优化每帧的深度和相机姿态,实现了对遮挡和动态场景的鲁棒处理。刘香凝等[11]提出了一种新型多阶段网络结构,通过自注意力机制和精细化损失函数,解决了深度估计中细节丢失问题。陈莹等[12]设计了密集特征融合的编解码网络结构,引入一种新的损失函数,改善了边界清晰度,并减少了伪影。C. Godard等[13]采用左右图像一致性作为训练信号,提出一种自监督单目深度估计方法。吴寿川等[14]采用双向递归卷积神经网络来提高单目红外视频深度估计精度。杜立婵等[15]采用单目双焦距图像及尺度不变特征转换(Scale-invariant Feature" Transform,SIFT)特征匹配方法,实现了单目相机深度估计。李旭等[16]采用基于深度学习的单目红外图像深度估计方法,解决了视觉辅助驾驶系统在夜间低能见度场景下的前视深度感知问题。曲熠等[17]采用基于边缘强化的无监督单目深度估计网络模型,解决了边缘深度估计不准确的问题。Xian Ke 等[18]通过数据增强技术解决了单目深度估计模型在图像受到干扰时性能下降的问题。Bi Hongbo 等[19]将深度图与RGB 图像结合,解决了伪装物体检测中的准确率问题。

尽管现有文献已在火源深度智能估计方面取得了较大进展,但这些方法面临时间序列一致性的挑战,且对相机姿态变化具有高度敏感性,在复杂动态环境中的识别性能下降,难以应对矿井巷道和隧道复杂纹理区域的火源深度估计任务。对此,本文提出一种红外(Infrared,IR)和可见光(RGB)图像融合的隧道火源深度估计方法,引入自监督学习框架的位姿网络构建单目深度估计网络模型,学习火灾图像时间序列上的运动模式和变化规律,提升深度估计的连续性和鲁棒性,同时引入相机高度损失,进一步提高复杂动态环境中火源探测的准确性和可靠性。

1隧道火源自监督单目深度估计网络模型

隧道火源自监督单目深度估计网络模型如图1所示。

模型采用深度估计网络和位姿网络相结合的方式进行自监督训练。位姿网络仅用于预测相邻帧间的位姿变化,深度信息的准确性主要受深度估计网络的影响。深度估计网络包括基于UNet[21]的IR和RGB特征编码器、IR−RGB特征融合模块、深度估计解码器。IR和RGB源视图经编码器提取特征,两模式特征由IR−RGB特征融合模块融合,再经深度估计解码器输出初步的深度图。位姿网络预测相机的位姿变化,经投影函数处理,将深度信息与源视图对齐。通过比较重建视图与源视图的一致性,得到用于自监督训练的损失值,进而优化网络性能,提高深度估计的准确性。

深度估计网络采用两阶段训练方法,如图2 所示。这种分阶段和多模态的训练方法可充分利用不同传感器的信息,提高深度估计的准确性和可靠性。

在第1 阶段, 依次使用RGB, IR 视频帧训练RGB−UNet 和IR−UNet。特别地,IR−UNet 训练过程中采用有效通道注意力(Efficient Channel Attention,ECA) 模块[20]提取RGB 图像的注意力图并注入IR 特征,此时冻结了RGB−UNet 参数,以确保稳定地学习IR 图像特征。

在第2 阶段, IR−RGB 特征融合模块将IR 和RGB 2种模态的图像特征进行融合,通过深度估计解码器进行深度估计。与传统的融合方法[22]不同,考虑不同模态图像在空间的信息分布具有差异性,采用非对称UNet 架构,根据中心核对齐(CenteredKernel Alignment,CKA)相似性结果来指导不同模态特征的有效融合,确保特征空间分布的一致性。具体地,第1 阶段RGB−UNet 提取的前4 层特征与IR−UNet 提取的后4 层特征交叉融合,形成4 组融合特征图输入IR−RGB 特征融合模块。该模块先对RGB特征图进行下采样,以匹配IR 特征图的维度,再通过特征加法和通道注意力机制对融合后的特征进行处理,以增强重要特征并抑制噪声。在解码器阶段,采用卷积和像素Shuffle 操作对特征图进行上采样,以逐渐恢复深度图像的分辨率。解码器的最后一层通过1×1卷积核进一步细化特征,生成最终的深度图。

2损失函数

在深度估计网络第1阶段训练过程中, 使用L2 范数作为IR−UNet 和RGB−UNet 的损失函数[23]。L2 范数通过计算输入图像和重建图像之间像素差异的均方根并将其最小化来优化隧道火源自监督单目深度估计网络模型的特征提取能力。第1阶段损失函数为

3实验及结果分析

3.1隧道火源数据集构建

目前隧道火源数据集特别是多模态数据集缺乏,因此,在隧道环境中设置单目相机距地面1.2 m,采集不同光照条件下的IR 与RGB 2种模态的火源图像,构建隧道火源数据集,用于评估自监督单目深度估计网络模型的有效性和鲁棒性。为了增强数据的多样性,数据集包括不同距离下的火源、烟雾及可能出现的干扰物图像,部分图像如图3 所示。此外还记录了相应的深度图像,以增强火灾场景下物理现象的多维度信息。

数据采集完毕后进行预处理,以提高数据集的图像丰富性和泛化能力,具体方法:①图像对齐。将同一场景拍摄的IR图像和RGB图像精确对齐,确保不同模态图像在像素级别的一致性。②图像标定。使用标准棋盘格图案对图像进行标定,以获取焦距、主点坐标、畸变参数等内参信息。③数据增强。为了模拟不同的成像条件并提升模型的泛化性,对数据集进行数据增强,包括图像旋转、缩放、裁剪、颜色变换等操作。

预处理后的数据集包含4200张图像,按5∶1∶1的比例划为训练集、验证集和测试集,即训练集含3000张图像,验证集和测试集均含600张图像。

3.2参数设置与评价指标选取

本文采用Pytorch 作为深度学习框架, 在NVIDIA GeForce RTX 4080 上实现隧道火源自监督单目深度估计网络模型。深度估计网络采用UNet,其输入和输出图像的分辨率均为384×288;位姿估计网络采用与深度估计网络相同的输入分辨率。此外,通过在ImageNet 上预训练的权重初始化深度估计网络和位姿网络的编码器。批次大小(batchsize)设置为8,epoch 设置为200,初始学习率设置为1×10−6,采用Adam 优化器。

遵循深度估计领域的常规实践[4],采用绝对值相对误差(Absolute Relative Error, AbsRel) 、平方相对误差(Square Relative Error, SqRel) 、均方误差(RootMean Squared Error, RMSE) 、对数均方误差(RootMeans Squared Error in Logarithmic Space, RMSElog)作为评价指标。上述指标值越小,表明模型性能越好。

3.3实验结果分析

3.3.1对比实验

将本文模型与目前最先进的单目深度估计模型进行对比实验, 包括Lite−Mono[26], MonoDepth[13],MonoDepth2[8],VAD[27],结果见表1。可看出当骨干网络为Resnet18 时,本文模型的AbsRel 和RMS最优,SqRel 和RMSELog为次优,精确度阈值为1.25和1.252 时深度估计准确性最优。当骨干网络为Resnet50时, 本文模型的AbsRel,SqRel,RMS,RMSELog 均最优,精确度阈值为1.252和1.253时深度估计准确性最优,精确度阈值为1.25时为次优。综合来看,本文模型较其他模型具有更准确的深度预测结果。

3.3.2消融实验

为了评估IR−RGB特征融合模块(FU)和相机高度损失(LH)的有效性,在自制数据集上进行消融实验。基准模型(Base)采用MonoDepth2,编码器主干网络采用Resnet18。消融实验结果见表2。可看出在基准模型中加入FU 后,满足δ<1.25条件的像素占比由0.884 提升至0.889,加入LH 后进一步提升至0.893。加入FU 和LH 后, AbsRel 由基准模型的0.112 降至0.105,提高了深度估计的准确性。虽然本文模型(Base+FU+LH)在部分指标上较基准模型没有显著改善,但综合AbsRel 和精确度指标可知,引入IR−RGB 特征融合模块和相机高度损失可有效增强模型对不同模态特征的感知能力,提高深度估计精度。

3.3.3可视化结果

采用本文模型对自制数据集中的图像进行识别,并与DepthAnything[28],MonoDepth2[8],Lite−Mono等模型的识别结果进行对比,结果如图4 所示,部分细节如图5 所示。

从图4、图5可看出,MonoDepth2模型将部分烟雾区域错误地估计成火源的一部分,识别准确度受烟雾影响较大;DepthAnything模型对处于图像边缘的物体估计效果不佳, 丢失了大量的细节信息;Lite−Mono 模型的识别结果易受背景干扰,导致火源与背景边缘不够清晰;本文模型采用多模态融合策略,针对RGB 图像中强光导致图像过曝、物体边界难以准确区分的问题,利用IR图像的稳定性来补充特征信息,并结合非对称UNet架构,增强了特征提取能力,因此对于近景区域中物体(如火源)和远景区域中物体(如车辆)的预测效果均优于其他模型。

4结论

1)隧道火源自监督单目深度估计网络模型采用两阶段训练方法,融合了IR 图像和RGB 图像特征,并引入自监督学习框架的位姿估计网络,能够学习火源图像时间序列上的运动模式和变化规律,提高了火源深度估计的连续性和准确性。

2)该模型引入相机高度损失作为约束,能够有效应对相机姿态变化的挑战,显著提升复杂动态环境中火源探测的准确性与可靠性。

3)实验结果表明,以Resnet50 为骨干网络时,该模型的AbsRel 为0.102, SqRel 为0.835,RMS 为4.491,优于主流的Lite−Mono, MonoDepth, MonoDepth2,VAD 模型,且精确度阈值为1.25,1.252,1.253 时整体准确度最优;该模型对近景和远景区域内物体的预测效果优于DepthAnything, MonoDepth2, Lite−Mono模型。

4)后续将进一步研究融合隧道机器人、小型无人机、透地雷达的火源识别、应急组网与路径规划方法,提高该模型的精确度和实用性。