隐特征监督的孪生网络弱光光流估计

2024-01-22 10:27肖照林苏展左逢源金海燕
中国图象图形学报 2024年1期
关键词:弱光光流监督

肖照林,苏展,左逢源,金海燕*

1.西安理工大学计算机科学与工程学院,西安 710048;2.陕西省网络计算与安全技术重点实验室,西安 710048

0 引言

光流估计算法已广泛应用于目标跟踪(Chen等,2022)、视频时域超分辨(Kong 等,2022)、行为识别(Li 等,2022b)以及深度场景估计(Lipson 等,2021)等领域。自Horn 和Schunck(1981)提出Horn-Schunck光流变分求解方法以来,研究人员先后提出了金字 塔Lucas-Kanade 方 法(Lucas 和Kanade,1981)、全局能量最优化方法(Brox 等,2004)以及区域特征匹配方法(Black 和Anandan,1996)等基于场景先验显式建模的光流估计方法。由于光流估计不考虑深度方向的变化,其运动方向的二维分布本质上具有欠定性,因此基于显式先验建模的光流求解易陷入局部最优,从而降低了光流估计算法的鲁棒性与准确性。

随着深度学习技术的兴起,研究人员将逐步由对场景动态先验的显式建模转为对样本学习的目标能量函数优化求解,并先后提出了包括FlowNet(optical flow networks)(Dosovitskiy 等,2015)、FlowNet 2.0(Ilg 等,2017)、SpyNet(spatial pyramid network)(Ranjan 和Black,2017)、PWC-Net(pyramidwarping-cost volume network)(Sun 等,2018)、RAFT(recurrent all-pairs field transforms)(Teed 和Deng,2020)、GMA(global motion aggregation)(Jiang 等,2021b)、GMFlow(global matching flow)(Xu 等,2022)和GMFlowNet(global matching flow network)(Zhao 等,2022)等多种深度光流估计网络。上述光流估计方法的性能已逐步满足正常光照条件下部分计算机视觉应用的需求。然而,对于弱光照条件下(简称弱光)的图像或视频成像数据,已有光流估计方法的性能普遍不佳。弱光光流估计的挑战大致包含以下3个方面:1)成像采集阶段的欠曝光导致图像噪声严重;2)弱光条件下所需的长曝光加剧了动态目标的成像模糊;3)低对比度的弱光成像结果导致场景目标语义与遮挡关系计算困难。

为了实现准确的弱光光流估计,对弱光数据进行提前去噪或增强是可行方案之一,即“先增强—再估计”方案。在这方面弱光图像增强算法(Danielyan等,2012)及图像去噪方法(Jiang 等,2021c)都在恢复视觉效果上取得了优异的性能。然而,以提升图像或视频的视觉质量为目标的弱光图像去噪或增强方法并不一定适合此后的光流计算,去噪和增强的部分操作甚至会恶化光流的可计算线索。因此,直接在光流估计之前加入传统弱光图像增强模块对弱光光流估计性能的提升有限。

与上述“先增强—再估计”的方案不同,本文方法通过搭建孪生网络架构将原始弱光视频帧与正常光照场景视频帧共同作为网络输入,采用双分支分别对二者的特征进行提取,并引入一个隐特征监督光流估计模块进行特征层聚合,从而建立弱光特征与正常光照特征的映射关系。最终,本文在不进行弱光图像显式增强的条件下实现了对弱光光流的准确估计,其效果如图1所示。

图1 弱光光流估计效果对比Fig.1 A visual comparison of low-light optical flow estimation

本文主要贡献可总结为以下两点:1)提出一个针对弱光光流估计的双分支孪生网络框架,采用网络权重参数共享方式,建立弱光图像与正常光照图像间运动特征的相关性;进而采用GMA 模块实现在特征隐空间的运动特征编码,提升了弱光运动特征的提取与编码精度。2)提出一个正常光照隐特征监督的光流估计模块。为了避免对弱光图像的显式增强,该模块以正常光照图像运动特征监督弱光图像运动特征的学习,实现了对弱光运动语义特征层的增强。

1 相关工作

自从Dosovitskiy 等人(2015)将卷积神经网络用于光流预测以来,基于深度学习的光流估计算法取得了众多前沿成果。将深度学习方法与传统光流估计关键技术相结合,Sun 等人(2018)提出了相关性卷表(correlation volume,CV)的概念,以查表方式简化对图像局部相似性特征的计算,采用多尺度特征金字塔及翘曲(warping)操作实现由粗到精的准确光流估计。基于4D 的全对相关性卷表,Teed 和Deng(2020)提出采用门控循环单元(gated recurrent unit,GRU),以可变次数的迭代更新实现高精度的光流估计。由于4D 的全对相关性卷表的时间和空间计算复杂度均较高,稀疏相关性卷表(sparse correlation volume,SCV)(Jiang 等,2021b)方法提出可降低与参考图像相关性卷表的计算冗余,仅构建稀疏的相关性卷表以建立部分点对之间的相关性也可实现高精度的光流估计。为了克服遮挡对光流估计的影响,Jiang 等人(2021a)采用Transformer 网络计算上下文特征图,构建参考帧图像的外观自相似性注意矩阵,并使用该注意力矩阵实现全局运动特征、局部运动特征及背景特征的隐空间连接,最终由GRU 解码高精度的场景光流信息。Xu 等人(2022)提出了将注意力机制直接用于特征增强阶段,将光流计算问题定义为以计算帧间像素特征相似性的全局匹配问题,并降低了匹配关系的线性推理时间,从而实现了高精度的光流估计。为计算大尺度的运动,Zhao 等人(2022)提出在全对相关性卷表上计算全局匹配,并采用注意力机制提取大尺度运动的上下文,实现了准确的光流估计。

上述光流估计的最新研究成果表明,采用多尺度相关性卷表可有效编码场景光流计算所需的运动及背景特征。然而,此类方法对运动目标变化特征的提取仍较依赖图像中显著的梯度变化,引入注意力机制对提取图像全局上下文信息有较好的效果。弱光照环境下成像数据低信噪比、亮度压缩等因素减弱图像的梯度变化,导致适用于正常光照条件成像数据的上述光流估计方法性能受限。此外,采用相关性卷表计算相邻帧特征的相似性具有较高时空计算复杂度。

在弱光或低光图像增强方面,基于Retinex 模型将低照度图像分解为反射分量和照明分量(Gu 等,2020;Ren 等,2020),并增强反射分量获取更多场景细节的方法取得了较好结果。采用监督学习、无监督学习以及对抗生成网络对噪声进行去除并增强图像亮度的深度学习方法研究(Chen 等,2018,2019;Jiang 等,2021c)也进展迅速。然而,现有弱光图像增强方法大多面向满足人类的视觉感知需求,并非针对特定视觉计算任务性能提升(Li 等,2022a;马龙 等,2022),如光流估计、场景重建、目标识别与跟踪等。因此,直接采用通用弱光数据增强方法,采用“先增强—再估计”策略往往效果不佳。

为了提升光流估计在弱光照环境下的准确性,研究人员(Zheng 等,2020;Zhang 等,2022)提出在正常光照光流估计数据集的基础上进行亮度调节并加入噪声,以合成弱光光流估计的训练数据。然而,针对弱光光流估计问题的理论改进及深度网络模型的探索仍亟待研究。

2 隐特征监督的弱光光流估计

为了建立正常光照(normal light,NL)与弱光照(low light,LL)光流估计特征之间的相关性,本文设计了一种双分支孪生网络结构,并引入隐特征监督光流估计模块实现用NL 光流对LL 光流估计的监督学习。提出方法的大致框架如图2 所示。本文提出孪生网络架构分别提取LL 和NL 光流特征;采用K近邻相关性卷表替代全对相关性卷表,以降低运动特征的时间和空间计算复杂度;通过注意力机制进行全局运动特征聚合,实现对LL 下抗强噪声、运动模糊及低对比度的光流特征高精度隐编码。为了避免显式增强LL图像导致的信息丢失,本文提出弱光运动语义增强的光流计算模块,以NL运动特征监督对LL 运动特征的学习,并采用GRU 迭代解码计算高精度LL 光流。该方法规避了“先增强—再估计”策略中“先增强”注重视觉质量提升,而忽略“再估计”侧重光流计算的问题。

图2 隐特征监督的弱光光流估计网络Fig.2 The network structure of low-light optical flow estimation with hidden feature supervision

2.1 提取光流特征的孪生网络

针对存在相关运动的两帧图像I1和I2,光流估计旨在估计两帧图像逐个像素之间的映射关系,具体为

式中,对于I1中的任意像素(x,y),计算其在I2中的对应像素(x,y),光流估计反映出像素坐标为(x,y)的目标点在不同帧图像中与其对应点坐标的运动变化,即位移矢量场f(·)。

对于NL 数据,采用如图2 左下分支的光流特征提取(或编码)网络即可高质量编码光流估计所需的场景运动特征。对于一对图像I1和I2,先将其输入由6 个残差块组成的特征提取网络gθ,输出运动特征图分辨率为原有数据分辨率的1/4,通道数C=256,即RH×W×3→RH/4×W/4×C。然而,LL 成像存在强噪声、运动模糊和低对比度等问题,直接采用现有适合NL数据的运动特征提取网络往往效果不佳。

为了实现对LL 数据运动特征的有效提取与编码,本文使用权重参数共享的两个特征编码器分别提取LL 光流和NL 光流特征。本文使用NL 光流特征对LL 光流特征的提取过程进行监督,以解决LL光流特征提取困难的问题。如图2 所示,采用特征判别器D,对权重共享特征提取网络gθ所提取的LL隐特征与NL 隐特征进行判别。当判别器D无法有效辨别LL 隐特征与NL 隐特征之间的差异时,则认为gθ对LL数据的特征提取性能已接近对NL数据的特征提取性能,该优化过程可表示为

式中,D(gθ(NL))和D(gθ(LL))分别为判别器D判定网络gθ提取NL或LL特征的概率,θ为可学习的网络参数。本文采用判别器D实现由NL 光流特征监督LL 光流特征的学习过程,当LL 特征提取结果与NL特征提取足够接近时,网络训练达到收敛。

为了构建两帧图像运动特征的相关性,与Teed和Deng(2020)的方法类似,本文以R 空间特征向量的点积构建相关性卷表,具体为

式中,V为相关性卷表,v为逐像素的运动特征相似性,该相似性即为图像对由gθ网络提取特征在RH×W×K空间的向量距离,“◦”为逐像素的特征计算。考虑构建原始分辨率RH×W×H×W密集相关性卷表的计算成本过高,与RAFT 方法不同,本文方法采用稀疏相关性卷表构建两帧图像之间的特征相关性。本文采用K 近邻(K-nearest neighbor,KNN)最大相似性算法(Jiang 等,2021b),仅计算每个特征在另一幅图像上的K 近邻特征,从而降低了全对特征相关性的大量计算冗余。考虑到计算效率与准确性之间的平衡问题,选择K=8 时可在实验中取得与RAFT 全对相关性卷表计算光流相近的效果。采用K 近邻相关性卷表后,特征空间由RH×W×H×W简化为RH×W×K,相关性卷表的存储效率与后续查询计算效率均得到显著提高。

2.2 全局运动特征聚合

由于LL 数据的降质问题,当场景大面积背景运动与前景小目标快速运动同时存在时,其光流估计的运动特征提取更为困难。受到Jiang 等人(2021b)提出的全局运动聚合(global motion aggregation,GMA)思想的启发,本文在特征提取阶段引入了注意力机制,将相关性卷表特征相似性与场景上下文语义进行聚合,获得更高质量的场景运动信息隐编码。

与经典自注意力机制(Vaswani 等,2017)中的query feature、key feature、value feature 通常构建图像同类特征的映射关系不同,本文采用注意力机制建立图像2D 上下文特征(query feature、key feature)与2D 运动特征(value feature)之间的映射关系。2D 运动特征主要表征局部运动信息,而2D上下文特征则包含全局结构信息,聚合两者得到更为高质量的全局运动特征。具体为

式中,m表示2D 上下文特征,v表示2D 运动特征,为GMA 编码后的聚合特征。mi与mj分别表示光流计算两帧图像的2D 上下文的映射特征,g(vi)表示2D运动特征的映射特征,N为特征图分辨率,α代表初始化为0的可学习参数。κ(·)为特征注意力,具体为

式中,为平均特征距离,φ(mi)、σ(mj)、g(vi)的计算过程为

式中,WQ,WK,WV分别为3 个可学习的权重矩阵,由网络训练获得。最终,上述将输入至隐特征监督的光流估计模块,进行后续迭代光流估计。

2.3 隐特征监督的光流估计

如2.1 节所述,本文采用NL 光流的隐特征训练LL 光流隐特征提取过程。本文设计了判别器D对孪生网络的训练过程进行监督,判别器D通过最小化隐特征监督损失LD以获得具有应对强噪声、运动模糊和低对比度的LL 光流特征提取能力。本文对隐特征监督损失LD的定义为

为了提升本文网络由LL 特征推断光流的能力,提出采用结合特征增强与门控循环单元(GRU)的迭代解码方案。该方案可实现由粗到细(coarse-tofine)的光流估计。相较于Sun 等人(2018)所提出PWC-Net(pyramid-warping-cost volume network)中的特征金字塔多尺度光流估计方法,采用GRU 迭代预测光流更为灵活,且不受特征金字塔层级数量的限制。依据场景目标大小与运动幅度,可灵活调节迭代次数,保证光流估计的准确性。GRU 解码单元以翘曲方式将逐次光流特征的增强结果用于更新光流结果。因此,本文采用迭代相似性损失Ls作为约束隐特征监督的光流估计模块训练过程的损失函数,具体为

式中,fgt为光流估计理想真值,fi为每次迭代更新的光流估计结果,γ为依据迭代次数的衰减因子,N为迭代次数。本文实验中采用经验选取γ=0.8,N=10。迭代光流估计采用前次光流估计结果与当前光流更新结果累加得到,即

式中,fi+1为第i+1次迭代结果,其由第i次迭代fi结果累加更新值Δfi获得,具体为

式中,GRUi为i次更新过程,为弱光特征增强图,E(·)为增强特征与fi的计算残差过程。本文网络训练采用的总体损失函数L为

式中,LD为隐特征监督损失,Ls为光流迭代相似性损失。本文在隐特征监督的光流估计模块结合LL 特征增强与GRU迭代解码实现由粗到精的光流估计。

3 结果与讨论

3.1 网络训练细节

本文在Windows10 操作系统上基于NVIDIA GeForce RTX 3080Ti,采用Python3.8 及PyTorch 1.8版本构建深度神经网络进行实验。

为了进行隐特征监督的弱光光流估计网络训练,本文使用Zheng 等人(2020)方法中所提供的FCDN(flying chairs dark noise)以及VBOF(various brightness optical flow)数据集。其中,FCDN 数据集是在明亮场景光流飞椅(FlyingChairs)数据集(Dosovitskiy 等,2015)的基础上,通过模拟白平衡未校正的图像,并添加噪声模型合成的LL光流数据集。因此,该数据集包含具有合成噪声的弱光图像及光流数据的真值。VBOF 数据集分别采用佳能、富士、尼康和索尼4 台相机拍摄,包含相同场景多组不同曝光的图像及光流真值数据。在弱光照图像训练阶段,本文将各个数据集中的图像统一裁剪为496 ×368 像素分辨率。首先,本文使用FlyingChairs 数据集以及FCDN 数据集完成模型的预训练,如图3 所示。模型训练过程采用旋转、缩放、水平与垂直翻转以及图像压缩等操作提高模型的泛化性。

3.2 实验分析

本文在实验部分与一些主流光流估计方法RAFT(Teed 和Deng,2020)、GMA(Jiang 等,2021b)、SCV(Jiang 等,2021a)、GMFlow(Xu 等,2022)和GMFlowNet(Zhao 等,2022)进行对比,以进行对本文方法的主客观评价。本文首先采用端点误差(endpoint-error,EPE)对光流估计结果进行评价,在KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute)数据集的评估中还使用了F1-All(%),即端点误差大于3 个像素的光流向量百分比。为了测试本文方法的泛化能力,实验对比了NL的Sintel 数据集上与现有方法的性能,如图4 所示,本文方法取得了与现有方法相近的光流估计结果,部分细节还优于其他方法,例如人物发梢部分(第1组)以及人物手臂腋窝等细节部分(第2 组),本文方法细节更接近真值(ground truth)。

不同方法在Sintel 数据集上的光流估计结果可视化对应的量化评价结果如表1所示。

在NL的Sintel数据集中包含多组不同场景图像对,每组场景中的运动存在变化,其中Clean 部分为渲染合成,其光照、纹理及噪声等均较为理想;而Final 部分则进行了模拟景深模糊、运动模糊、加入噪声等图像降质操作。表1 中Train-Clean、Train-Final、Test-Clean、Test-Final 为将上述两类数据分为训练集和测试集后,采用不同光流估计方法在每组数据集上得到结果的误差分析。1 px、3 px、5 px 表示光流估计结果误差分别在1、3、5 个像素距离的图像点占比。为了确保对比的公平性,本文采用同一平台进行训练和测试。所有对比方法均采用标准的光流估计模型训练流程:首先,针对Flying-Chairs 数据集,进行120 000 次迭代的模型预训练,训练中设置batchsize=2。在特定数据集测试之前,本文采用Sintel 数据集(Butler 等,2012)及KITTI数据集(Geiger 等,2013)对模型进行微调(finetune),将微调次数设置为默认值50 000 次,以优化各种对比方法的光流估计性能。在FlyingChairs 数据集和FCDN 数据集(Zheng 等,2020)上,设置学习率为0.000 25;在Sintel 数据集和KITTI 数据集上,设置学习率为0.000 1。如表1 所示,本文方法在Sintel数据集的Train-Clean部分的平均EPE为0.65,在Train-Final上的平均EPE 为1.11;在Test-Clean 数据集上本文方法略弱于RAFT 和GMA 方法,而优于GMA、GMFlow 以及GMFlowNet 等方法。值得注意的是,在降质后的Test-Final 数据集上本文方法最优,表明本文方法较对比方法具有较好的抗噪性能。

表2展示了几种方法在FlyingChairs训练集预训练后,在KITTI 训练集上进行微调及测试的结果,以进一步检验不同方法在小规模数据集上的泛化性能。

在KITTI的数据集评估中,在EPE误差以F1-All值的量化对比中,本文方法相比其他方法并不占优。其原因在于训练集和测试集之间存在明显的语义特征差距,这导致本文所采用K 近邻算法在特征提取过程中,没有足够的训练数据来确保特征相似性建模的可靠性。换言之,本文方法的隐特征编码以及监督学习需要较大的训练集以确保特征提取的有效性。此外,本文方法侧重点是采用NL 特征对LL 特征进行监督学习,对于NL光流估计并无显著的性能提升。考虑到对比方法未使用LL数据进行训练,本文又在相同设备上使用FCDN 和FCDN+VBOF 数据集重新 训练了RAFT、GMA、SCV、GMFlow 及GMFlowNet方法,以确保对比测试的公平性。

针对弱光光流估计问题,本文采用FCDN 数据集(Zheng 等,2020)进行了相关对比方法的训练和测试。为了测试各类模型的跨数据集泛化能力,实验中还测试了VBOF 数据集中的Fuji 数据部分,Fuji数据集包含大量不同曝光等级的测试样例,有利于评估模型的泛化性,如表3 所示。表3 的右侧(FCDN+VBOF)给出了采用两种弱光数据集训练进行模型微调的结果。本文选择VBOF 数据集中索尼、佳能、尼康部分以及FCDN 部分数据集进行模型微调。如表3所示,本文方法在采用FCDN数据集训练后的测试结果均优于对比方法;采用FCDN 和VBOF 数据混合训练后,在VBOF 数据集上的测试结果最优,在FCDN 测试集上结果次优,故本文方法的泛化能力良好。

表3 弱光照下光流估计结果的EPE误差对比Table 3 The EPE comparisons on LL datasets

图5 展示了不同方法在FCDN 数据集光流估计的部分测试样例,由图中的放大结果(第2 行和第4行)可以看出,本文方法在场景目标边缘的光流估计结果与真值更为接近。上述实验初步表明,本文方法对于存在较强噪声及运动模糊的LL 场景光流估计性能具有更优的精度。

图5 不同方法在FCDN数据集上的光流估计结果可视化对比Fig.5 Visual comparisons of the optical flow estimation results on the FCDN dataset

如表4 所示,本文采用496 × 368 像素固定分辨率的图像进行了模型参数量、内存消耗及运行时间对比。由于采用双分支孪生网络进行光流特征的监督学习,本文方法在计算复杂度及参数量方面并不占优。本文方法训练时参数量为11.3 MB,占用内存11.5 GB。由于仅有弱光分支参与预测,且采用K近邻稀疏相关性卷表构建特征相似性,故表4 中的预测阶段参数量及内存消耗并不高。

表4 不同方法预测阶段的参数量、内存及运行时间对比Table 4 Memory and run-time consumption comparisons

3.3 消融实验及K近邻参数分析

为了验证本文方法的两项改进(双分支孪生网络以及隐特征监督模块)对弱光图像光流估计领域的有效性,本文在FCDN以及VBOF数据集上进行了消融实验,如表5所示。

表5 消融实验EPE误差对比Table 5 The EPE comparison by applying ablations

由表5 前两行可见,本文所提出的孪生网络及隐特征监督模块能够有效提高纯卷积光流估计网络的性能。由表5 第3 行可知,GMA 全局运动聚合模块对光流估计性能的提升至关重要,全局运动与局部运动信息的有效聚合可有效提升光流估计的精度。本文采用孪生网络改进特征提取质量,进而采用GMA 进行运动特征聚合,最终以隐特征监督方式实现高精度光流估计取得了最优的效果,见表5 最后一行。

进一步地,本文实验分析了K 近邻稀疏相关性卷表构建过程以及K值选取对光流估计精度及计算量的影响,结果如表6所示。K值过小或过大均会影响光流估计精度,实验表明在测试数据集上,当K=8 时光流估计误差EPE 最小,其内存消耗及运行时间也可接受。

表6 K值对EPE误差及计算效率的影响对比Table 6 The EPE and computation efficiency comparisons with different K values

4 结论

本文提出一种隐特征监督的孪生网络弱光光流估计方法。该方法采用权重共享的双分支孪生网络,实现了对NL 数据及LL 数据的准确编码。其次,为了避免对弱光图像的显式增强,提出采用NL隐特征监督LL隐特征学习的光流估计模块,从而实现对弱光运动语义的特征层增强及光流信息的高精度解码。此外,本文所提方法采用K 近邻稀疏相关性卷表,改进了现有方法中的全对相关性卷表,以降低双分支网络所需的内存消耗。通过对光流估计实验证明,对于正常光照数据,本文方法光流估计性能与现有最优的GMFlow及GMFlowNet算法接近;对于弱光数据,本文所提方法的光流估计精度相较于对比方法具有明显优势。

由于采用了双分支网络结构,与现有方法相比,本文方法在模型参数量及运行时间方面并不占优。未来研究工作仍需考虑网络模型的轻量化及计算效率优化。此外,进一步探索更优的全局与局部运动特征注意力计算问题也是提升弱光光流估计精度的重要方向。

猜你喜欢
弱光光流监督
利用掩膜和单应矩阵提高LK光流追踪效果
突出“四个注重” 预算监督显实效
基于物理学的改善粒子图像测速稳健光流方法研究
太阳能联栋温室耐弱光蔬菜养心菜栽培初探
监督见成效 旧貌换新颜
夯实监督之基
拔节期弱光胁迫对扬麦15麦秸营养成分和体外发酵的影响
四苯基卟啉钯(Ⅱ)/9,10-二苯基蒽弱光上转换体系的介质效应
融合光流速度场与背景差分的自适应背景更新方法
监督宜“补”不宜“比”