基于双域学习的JPEG压缩图像去压缩效应算法*

2019-12-18 07:35王新欢何小海王正勇李兴龙
网络安全与数据管理 2019年12期
关键词:分支残差像素

王新欢,任 超,何小海,王正勇,李兴龙

(四川大学 电子信息学院,四川 成都 610065)

0 引言

图像作为主要的信息载体之一,因其具有直观生动的特征,在人类的生产和生活中有着极为重要的地位。现阶段,随着图像信息量呈爆炸式增长,通常都会对图像进行一定倍数的压缩以节省存储空间和带宽资源。JPEG压缩由于其压缩率高、快速有效等优点,已成为目前最常用的图像压缩方法之一。JPEG压缩是对图像进行分块后,量化其DCT系数,从而减少图像高频分量,降低图像数据量。然而,这种操作会使压缩后的图像存在压缩伪影,即块效应。同时,随着压缩率的提高,图像的失真也越来越严重,造成图像的高频细节信息过度丢失,影响图像在社会生活中的应用。压缩图像的去压缩效应算法作为一种独立于编解码器的后处理算法,具有成本低、实用性强的特点,可以高效地消除压缩图像中的伪影、块效应等,从而提升压缩图像的质量。

压缩图像的去压缩效应算法一般包括基于重建的算法和基于学习的算法。基于重建的方法通常利用压缩图像的自身先验信息,在建立的模型中加入正则项来去除压缩噪声。例如,YANG Y等人[1-2]提出了使用传统的凸集投影算法(Projection Onto Convex Sets,POCS)去解决压缩图像的去压缩效应算法。ZHANG X等人[3-4]提出利用图像的自相似性模型先验,估计非局部图像块中重叠块的变换系数以减少压缩图像中的压缩伪影。这种在变换域对图像进行处理的算法首先将图像转换到变换域中,进行相应处理后进行逆变换,得到最终的结果图像。基于学习的算法依赖于大量图像训练集建立字典,通过学习原始图像与压缩图像间的映射关系,恢复压缩图像中丢失的细节信息。文献[5]和文献[6]提出使用稀疏表示算法来实现压缩图像中压缩效应的去除。针对JPEG压缩图像,为了从压缩失真的本质出发,LIU X等人[7]提出了一种在DCT域和像素域联合进行稀疏编码的方法,以同时利用JPEG码流的冗余信息和图像的稀疏性。近段时间,还有一些研究工作[8-9]致力于提升压缩图像的感知质量,使得生成的图像主观视觉效果更逼真,但是基于生成对抗网络的去压缩效应算法会使得处理后的图像中存在伪细节,使得其难以应用于某些对图像真实性需求较高的场景。

为了提高压缩图像的视觉效果,本文针对JPEG压缩图像,提出一种基于双域学习的JPEG压缩图像去压缩效应算法。该算法利用卷积神经网络,分别在DCT域和像素域学习图像细节特征,并将学习结果进行有效融合,以去除JPEG压缩图像中的压缩噪声,使图像获得更好的主客观效果;在构建的网络中以宽激活残差块作为基本结构单元,在不增加网络参数量的同时有效提升网络性能。

本文的网络能在参数量和网络复杂度不变的情况下,获取更好的去压缩效应效果,具有较好的理论研究意义和实际应用前景。

1 网络框架简介

本文提出的基于双域学习的JPEG压缩图像去压缩效应算法网络结构如图1所示。该框架以宽激活残差块为基本结构单元,利用卷积神经网络提升压缩图像的质量。该网络框架主要由像素域分支、DCT域分支和加权平均融合三部分组成。DCT域分支通过在DCT域预测图像未压缩前的DCT系数来减少量化噪声,恢复图像高频信息;像素域分支通过利用图像在像素域中结构信息间的相关性,实现压缩效应的去除;加权平均部分通过对双域的预测结果进行有效融合,实现更好的去压缩效应效果,同时输出最后的去压缩结果图像。

图1 基于双域学习的去压缩效应算法网络结构示意图

本文提出的联合DCT域和像素域的去压缩效应算法一方面充分利用压缩图像像素间剩余的冗余信息,在像素域中学习压缩图像和原始未压缩图像间的映射关系,另一方面从JPEG压缩图像产生失真的本质出发,设计DCT域深度学习网络,从而有效地去除压缩图像块效应。网络中使用宽激活残差块作为基本单元,能在有效提升网络预测性能的同时,不引入更多的网络参数和计算量。因此经过本文框架重建的JPEG压缩图像有更好的信息连贯性,并且能得到更丰富的图像细节信息。

2 宽激活残差块结构

在文献[10]中,提出了一种深度残差网络(Residual Network,ResNet)结构,其网络结构中的残差块如图2 (a)所示。LIM B等人[11]提出了增强残差网络结构EDSR,其结构如图2(b)所示,该结构去除了ResNet网络中的批归一化层,即BN层,且只使用了一次ReLU激活函数,增大了网络的灵活性,能够有效地实现图像超分辨率重建任务。此时网络的映射关系可表示为:

H(Il)=F(Il)+Il

(1)

其中,Il表示第l层网络的输入,H(Il)表示第l层网络的映射输出,F(Il)表示残差结构的内部输出。

因此,残差块对网络的预测结果为:

Il+1=F(Il,{Wl})+Il

(2)

式中,Il和Il+1分别表示第l层残差结构的输入和输出,F表示待学习的残差映射关系,Wl表示网络权重参数。

图2 不同类型残差块结构对比

因此,本文采用宽激活残差块作为网络的基本结构单元,分别构建DCT域和像素域的宽激活残差网络。实验结果表明,在参数量和网络复杂度一定的情况下,这种宽激活残差网络能够实现更好的去压缩效应效果,有效提升JPEG压缩图像的质量。

3 基于双域学习的去压缩效应网络

JPEG压缩方法作为一种快速有效的图像压缩方法,其主要原理为对编码图像进行非重叠分块,随后对每个图像块进行独立的DCT变换,并将其DCT系数按照量化表加以量化。在此过程中,图像的高频信息丢失,并且由于分块量化,压缩后的图像存在块效应。鉴于此,本文从JPEG压缩失真的本质出发,将图像变换到DCT域,学习原始未压缩DCT系数与压缩后DCT系数的映射关系,从而恢复压缩过程中丢失的信息。然而,由于量化过程的不可逆性,仅从DCT域学习不能完全恢复图像细节,因此,本文搭建像素域学习网络与DCT域形成互补,最后对二者的学习结果进行有效融合。这种基于双域的学习方式,可以在充分利用JPEG压缩在DCT域中全局信息的同时,充分利用像素域中图像结构信息间的相关性。

3.1 DCT域分支

针对JPEG压缩图像的特点,为了学习压缩图像DCT系数和原始未压缩图像DCT系数间的非线性映射关系,本文提出的DCT域分支的网络结构如图3所示。

图3 DCT域分支的网络结构示意图

给定JPEG压缩图像,首先对其进行DCT变换,得到图像的DCT系数;将DCT域信息进行特征提取,输入到搭建的宽激活残差网络中,以学习前述的非线性映射关系;将网络的学习结果与输入的DCT系数相加构成全局残差,再将结果做IDCT变换以变换到像素域,得到最终的DCT域去压缩效应结果图像。

3.2 像素域分支

像素域中的网络分支与DCT域分支类似,同样采用有效的宽激活残差结构单元,并将其串联成一种直连网络。与DCT域分支不同的是,DCT域分支网络的输入是图像的DCT系数,而像素域分支网络的输入是图像在像素域的像素值。故网络前后不再需要DCT变换和IDCT变换,宽激活残差网络的输出直接与网络的输入相加后,可得到像素域分支的去压缩效应结果图像。

3.3 双域融合

由于DCT域和像素域分支是在不同的空间对图像信息进行预测,网络学习结果具有不同的特性,因此可实现预测信息的互补。通过对双域信息进行有效融合,可以使网络的去压缩效应结果有较大的提升。在本文中,采用简单有效的加权平均方式将DCT域和像素域的输出进行结合,该过程可以表示为:

(3)

3.4 网络训练

(4)

其中,N表示一次前向预测时输入的训练样本对个数,在网络训练时代表批尺寸(Batch Size)的大小;ΘAR表示去压缩效应网络中的可训练参数;fAR(·)为去压缩效应网络的映射函数;lAR(·)为去压缩效应过程中的损失函数。

4 实验分析

4.1 参数设置

在本文搭建的网络中,卷积层中滤波器的尺寸均设置为3×3。在宽激活残差块中,设置其主干道通道数为32,激活函数前的通道数为128,即参数c和r分别设置为32和4。且在DCT域和像素域分支中,宽激活残差块的数目均为18,以达到网络性能和网络复杂度的平衡。在双域融合部分,由大量实验统计得出,当λ=0.489时,DCT域的预测结果和像素域的预测结果能够获得最优的融合性能。

本文中使用pytorch[14]深度学习框架与GTX1080Ti显卡来搭建和训练提出的去压缩效应网络,网络训练的Batch Size设置为64。在训练过程中使用ADAM优化算子来优化提出的去压缩效应算法网络,其中参数β1、β2和ε分别设置为0.9,0.999和10-8。初始的学习率设置为0.000 1,并且每10个epoch学习率降低1倍。

4.2 性能评估

在数字图像处理领域中,常用到的客观评价标准为峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和结构相似性索引测度(Structure Similarity Index,SSIM)。因此,为了充分验证去压缩效应算法的有效性,本文将同时采用这两个客观评价标准。选取去压缩领域常用的数据集Classic5和LIVE1作为测试集,并分别测试QF为20、30和40三种压缩质量下的实验效果。对于LIVE1数据集中的彩色图像,先将其转换至YCbCr空间后再提取亮度通道Y进行实验测试。

本文的对比算法为CONCOLOR[15]、SSRQC[16]、ARCNN[17]、DnCNN-3[18]、D2SD[19],将JPEG压缩图像作为对比基准。其中,CONCOLOR、D2SD和SSRQC是基于非深度学习的传统方法,ARCNN和DnCNN-3和本文一样采用深度学习的方法。下文主要从各个算法结果图像的主客观效果来验证本文算法的有效性。表1中给出了不同去压缩效应算法在Classic5和LIVE1上的PSNR和SSIM客观参数值。从表中可以看出,在Classic5数据集上,在QF=20时,提出的算法比对比算法中效果最好的DnCNN-3的PSNR值高出0.37 dB,SSIM值高出0.005 4;在LIVE1数据集上,在QF=40时,提出的算法比对比算法中效果最好的DnCNN-3的PSNR值高出0.34 dB,SSIM值高出0.003 3。说明无论压缩程度高低,提出的算法都能有效去除图像中的压缩效应,获得较好的重建结果。

在图像复原领域,除了算法结果的客观参数外,结果图像的主观视觉质量是另一至关重要的评价指标。图4~图6分别给出了图像Barbara、Lighthouse3和Peppers在QF=20的压缩情况下,各个对比算法对其处理后的主观视觉效果。从对比图可以看出,JPEG压缩后的图像存在严重的压缩噪声,图像视觉效果较差;DnCNN-3得到的重建图像质量有一定的提升,但是边缘部分不太清晰,对于压缩受损严重的细节部分也修复得不够完整;本文算法重建的图像边缘轮廓更加清晰,且能相对完整地恢复出图像的细节信息,与对比算法相比获得了更好的视觉效果。

表1 不同去压缩效应算法结果的PSNR(dB)/SSIM值比较

图4 图像Barbara在QF=20的主观视觉效果对比

图5 图像Lighthouse3在QF=20的主观视觉效果对比

图6 图像Peppers在QF=20的主观视觉效果对比

5 结论

本文针对JPEG压缩图像,从其失真本质出发,提出了一种联合DCT域和像素域的双域学习去压缩效应算法。所提出的算法一方面可以在DCT域预测压缩图像未压缩前的DCT系数以恢复高频信息,去除块效应,另一方面可以在像素域利用图像的局部结构信息,实现压缩效应的有效去除。通过双域有效融合,极大限度地去除了JPEG图像中的压缩伪影,保留更多图像细节信息。网络中采用宽激活残差块作为基本结构单元,可以在不提高网络复杂度的同时,实现网络性能的有效提升。实验表明,本文提出的去压缩效应算法能有效地去除压缩图像中的压缩效应,对于不同压缩质量因子压缩的图像,均能取得良好的实验效果,在客观参数和主观视觉效果上均获得了较好的结果。

猜你喜欢
分支残差像素
基于残差-注意力和LSTM的心律失常心拍分类方法研究
像素前线之“幻影”2000
基于双向GRU与残差拟合的车辆跟驰建模
一类离散时间反馈控制系统Hopf分支研究
软件多分支开发代码漏合问题及解决途径①
基于残差学习的自适应无人机目标跟踪算法
基于深度卷积的残差三生网络研究与应用
“像素”仙人掌
巧分支与枝
高像素不是全部