黄颖聪,柳 伟
(1. 深圳信息职业技术学院计算机学院,广东 深圳 518172;2. 深圳大学电子与信息工程学院,广东 深圳 518060)
日常生活中,带有内置摄像头的移动设备的广泛使用简化了捕捉和共享屏幕内容的过程。然而,当使用这些设备拍摄屏幕时,经常会出现摩尔纹图案,降低了图像质量和视觉体验。摩尔纹图案是由相机滤色器阵列 (CFA) 和屏幕的子像素布局之间的频率混叠产生的,通常表现为条纹、振荡网格或曲线图案。这些图案会对后续的视觉理解任务造成影响,例如图像编辑[1-2]和目标检测[3-5]等。因此,图像去摩尔纹研究已成为视觉研究领域中的一个重要课题。
图像去摩尔纹是一个不适定问题,因为每个输入可能有多个去摩尔纹解。随着深度学习的蓬勃发展,基于卷积神经网络(Convolutional Neural Network, CNN)的数据驱动方法[6-7]在图像去摩尔纹任务中取得了良好的成果。针对摩尔纹图案的多频率特性,Sun[8]等人提出了一种多分辨率网络来消除不同频率下的摩尔纹图案。此后,越来越多的研究人员开始用CNN模型进行图像去摩尔纹研究。为了更好地利用摩尔纹图案的特征,He[9]等人引入了摩尔纹图案去除深度神经网络(Moiré Pattern Removal Deep Neural Network, MopNet),该网络专注于研究摩尔纹的频率分布、边缘强度和外观类别。然而,该网络的设计过于复杂并且具有大量参数。
目前,摩尔纹去除性能的提升主要是由模型架构创新驱动,很少有工作专注于优化损失函数来匹配摩尔纹图案的频率特性。大多数图像去摩尔纹模型使用空间域像素损失或感知损失来优化网络。然而,使用空间域中定义的损失函数通常会存在频谱偏差问题[10-11],即神经网络倾向于以有偏差的方式学习低频。并且由于一般图像的低频部分比高频部分具有更大的数量级,损失函数倾向于关注并更多地了解低频。由于被摩尔纹图案污染的图像会在频域中表现出大量的高频噪声,使用空间域损失进行优化无法完全去除这些高频噪声。因此,有必要针对这一问题进行解决,以产生具有良好视觉感知的图像。
本文提出一种用于训练图像去摩尔纹网络的傅里叶空间损失(Fourier Space Loss, FSL),使用二维离散傅里叶变换分别将复原的图像和Groundtruth图像转换为相应的频率表征并计算二者在频域空间中的距离。通过使用FSL来引导去摩尔纹模型专注于解决图像中对人类感知最重要的部分,监督恢复图像的频率信息。因此,通过这种指导可以更好地去除摩尔纹图案,并且可以获得具有高感知质量和更少伪影的结果。与空间域损失优化提供的局部指导不同,傅立叶变换引入的频域损失提供了全局指导[12]。本文实验验证所提出的方法在公共数据集上实现了SOTA的结果,并且提出的损失可以和其他空间域损失进行互补。
近年来,图像去摩尔纹的方法得到了显著的发展。现有的方法可以大致分为两类:模型驱动方法和数据驱动方法。
模型驱动方法采用滤波或图像分解技术。 Wei等人[13]引入了中值高斯滤波方法来消除 X 射线显微镜图像中的摩尔伪影。Liu等人[14]指出,摩尔纹图案在频域中的能量分布是集中的并且很少与纹理混合。他们通过在空间域中对纹理补丁实施低秩约束以及在 DCT 域中对摩尔纹图案实施稀疏约束,将退化图像分为纹理层和摩尔纹层。然而,这些模型驱动的方法通常会导致恢复图像过于平滑,缺乏精细的细节。
与模型驱动方法不同,数据驱动方法采用卷积神经网络直接学习摩尔纹图像到清晰图像的转换。例如,Sun等人引入一种非线性多分辨率全卷积神经网络,能够解决不同频段的摩尔纹图案。他们还提出了第一个大规模的真实世界数据集,这激发了许多后续的研究。2019年,考虑到摩尔纹的动态变化特性,Cheng等人[15]提出一种动态特征编码模块,专门用于处理多尺度摩尔纹图案。2020年,Zheng等人[16]提出一种多尺度带通卷积神经网络,将图像去摩尔纹任务分为纹理恢复任务和颜色恢复任务。他们采用两步骤色调映射策略来进行全局色偏校正。为了处理高分辨率图像,He等人[17]则提出了一种全高清去摩尔纹网络(Full High-Definition Demoireing Network, FHDe2Net),它利用两个分别聚焦于全局和局部摩尔纹图案的独立网络。Yang等人[18]则设计了一个高分辨率去摩尔纹网络(High-Resolution Demoire Network, HRDN),它由并行高分辨率网络、连续信息交换模块和最终的特征融合层组成。2022年,Yu等人[19]提出了ESDNet,采用语义对齐的尺度感知来去除超高清图像中的摩尔纹图案。
近年来,出现了许多算法,通过从频域提取信息来解决各种任务。例如,Liu等人[20]引入小波变换来取代传统的图像调整大小操作,提高了放大和缩小过程的质量。另一种方法,FDIT[21]则有效地将图像分解为低频和高频分量,从而增强了整体图像生成过程。在图像去模糊领域,SDWNet[22]已成功地将小波变换集成到深度神经网络中,从而实现了出色的去模糊效果。类似地,Xue等人[23]提出了一个紧凑的频域神经网络,通过具有激活函数的多个卷积层来学习低层结构,最终在频域中实现更高质量的图像重建。总体而言,这些方法显示了卷积神经网络 (CNN) 在频域空间操作时的有效性。
傅里叶变换是信号处理中广泛使用的强大工具,它可以将信号从时域变换到频域,将其分解为易于实现和具有可观察特性的基本信号的总和。它实现了从时间基到频率基的基变化。作为多维信号,图像的频率是衡量像素强度变化程度的指标。图像的二维离散傅立叶变换可以定义为:
式中,f(x,y)表示输入图像在位置(x,y)处的像素值,F(u,v)表示复频率分量,M和N是输入图像的宽度和高度,i是虚数单位。离散傅里叶变换后得到的图像,通常用幅度和相位来表示:
式中,Im和Re分别表示图像傅立叶变换的虚部和实部。幅度谱表示图像中不同频率分量的强度,而相位谱表示这些分量在图像中的位置和相对相位。
本文对不同损失函数进行优化的结果进行了频谱分析,结果如图1所示。可以看出,Ground-truth图像的大部分亮点都集中在频谱图的中心,即低频部分。而摩尔纹图像的频谱有更加对称的高频噪声分布,这表明摩尔纹大部分集中在高频区域。图1c-1e表明使用空间域损失优化的图像仍然具有一些无法去除的对称细线形状或点状噪声。基于这一观察,本文的动机是通过频谱正则化来学习更真实的图像。
图1 不同损失函数优化结果的频谱分析图
因此,本文提出一种与模型无关的傅里叶空间损失来训练图像去摩尔纹网络,图像傅里叶频谱中的特定空间频率在经过傅里叶变换后取决于所有图像像素,因此具有全局性质。目标是减少基于 CNN的方法产生的失真,并利用频率信息作为图像去摩尔纹的指导。对于深度网络,傅立叶空间约束可以提供额外的监督以实现更好的图像恢复。受这种直观理解的启发,设计了傅里叶空间损失来抑制摩尔纹图案的生成。具体来说,使用快速傅立叶变换来将输出和相应的地面真实图像转换到频域。在频域中,和之间的实部和虚部的L1范数差值分别表示为LF,Re和LF,Im。基于F(u,v)和,LF,Re和LF,Im计算如下:
由于图像由多个颜色通道组成,因此分别计算每个通道的傅里叶变换并按通道执行变换。公式中省略了通道的表示。最后,傅立叶空间损失定义为LF,Re和LF,Im之和:
摩尔纹的产生是频率混叠从而不满足奈奎斯特采样定理产生的,与图像在空间域中的表示相反,这些高频率的噪声可以在频率空间中清楚地分离。此外,傅立叶分量提供有关图像的全局信息,而不是由空间域中的像素表示的局部信息。利用这些属性来设计新的损失,以实现高效的感知去摩尔纹训练。算法的流程图如图2所示。
图2 傅里叶损失优化算法的框架流程图
本文将 FSL 作为空间域中定义的损失(例如L1 或 L2 损失等)的补充损失。完整的训练损失设置由空间域中的损失和提出的傅里叶域中的损失组成。如下式所示:
本文的实验是在三个可公开访问的基准数据集上进行的:LCD-Moiré、TIP2018和FHDMi。LCD-Moiré数据集包含10200对合成生成的图像。TIP2018数据集是从ImageNet中提取的真实照片的集合,每张照片的分辨率为400×400。它包含135000个图像对,其中90%-10%分别用于训练和测试。FHDMi数据集包括9 981个用于训练的图像对和2 019个用于测试的图像对,所有图像对的分辨率为1920×1080。为了进行评估,本文采用三个广泛使用的指标:PSNR(峰值信噪比)、SSIM(结构相似性)和LPIPS(学习感知图像块相似性)进行全面的定量分析。
本文选择DMCNN(一种具有多尺度结构的图像去摩尔纹网络)作为骨干网络来评估提出方法的有效性。初始学习率设置为0.000 1,并使用循环余弦退火策略进行调节,模型使用 Adam优化器进行优化。对于FHDMi和LCD-Moiré数据集,本文从高清图像中随机裁剪512×512块,并以batchsize为训练模型150个epoch。对于TIP2018数据集,本文使用batchsize为4训练模型70个epoch。
3.3.1 实验结果
本文对每个数据集都采用PSNR、SSIM和LPIPS进行定量评估,验证了所提出方法所带来的改进。较高的PSNR和SSIM 值表示较好的图像质量,而较低的LPIPS值则表示图像感知质量更好,因为它表明生成的图像的感知质量更接近干净的图像。对比实验结果如表1中所示,与仅使用L1损失相比,使用傅里叶空间损失优化的模型所有数据集都有一致的性能提升。与其他损失相比,FSL在大多数指标中实现了最佳性能。此外,本文还进行了消融实验,以探究幅度和相位对图像去摩尔纹网络性能的影响。实验结果表明,从整体傅里叶空间损失中单一去除幅度或相位分量会显着降低性能,这表明了同时考虑这两个分量的重要性。值得注意的是,可以观察到保留幅度信息的性能增益相对大于相位信息的性能增益,这是由于能量主要集中在振幅上。
表1 不同损失的性能比较
3.3.2 主观质量结果比较
本文还将提出的方法与广泛使用的损失函数(包括 L1 loss, ASL, Perceptual loss and FFL)进行主观质量结果比较。主观质量对比结果如图3和图4所示,显示了提出方法的有效性。对于合成的 LCD-moiré数据集,可以观察到使用傅里叶损失进行优化的复原结果比其他方法更自然,并且减轻了模糊性。对于第一张图像,FSL显着降低了在平坦区域中生成大面积伪影的风险,并有效去除了大多数高频摩尔纹图案,从而提高了图像的感知质量。在其他行中,提出的方法也比对比方法恢复得更好。使用傅里叶损失优化的结果中的纹理细节清晰,没有严重扭曲,而其他方法无法显示出令人满意的物体外观。
图3 不同损失函数合成LCD-Moiré上的主观质量结果
图4 不同损失函数在真实FHDMi上的主观质量结果
对真实数据集 FHDMi 的主观质量结果分析表明,通过提出的方法进行优化的模型获得的图像在主观上更令人愉悦。这也表明了提出方法具有很强的泛化能力,在不同的数据集和不同的场景下都能实现较好的性能提升。
3.3.3 消融实验
此外,本文还探究了了提出的FSL在不同网络架构中的适用性和通用性。表2中的结果表明,将FSL集成到各种架构中可以一致地提高所有评价指标的性能。这表明了FSL与模型无关的特性,从而验证了其在不同网络结构中使用的通用性。
表2 FSL用于不同网络中的PSNR和SSIM性能对比
表3 不同λ取值的结果
表4 不同损失函数和网络结构配置的结果对比
3.3.5 验证与相关损失互补性
本文还进行了一个实验来验证所提出的FSL和感知损失的互补性,结果如表 4所示。设置1至3表明,L1像素损失和FSL的组合可达到37.0480dB的性能,比单独使用L1损失高出约2.46dB。这表明了提出的FSL在提高去摩尔纹图像质量方面的有效性。设置4和5显示了所提出的FSL与感知损失的强大互补性,而设置6-8进一步证实了FSL在较大模型中与感知损失结合使用时的有效性。
本文介绍了一种新颖的损失函数 FSL,旨在提高图像去摩尔纹网络的恢复质量。通过使用傅立叶变换在频域中进行优化,FSL 可以更精确地消除高频摩尔纹图案和大面积黑色伪影。将 FSL 集成到训练过程中可以显着提高所需图像的视觉质量。本文的实验结果验证FSL 在定量指标和视觉质量方面都取得了较好的性能提升,证明了所提方法的有效性。