李恒鑫,常 侃,2*,谭宇飞,3,凌铭阳,覃团发,2
(1.广西大学计算机与电子信息学院,南宁 530004;2.广西多媒体通信与网络技术重点实验室(广西大学),南宁 530004;3.广西师范大学电子工程学院,广西桂林,541004)
为了降低商用数码相机的成本及技术难度,厂商通常在相机的光强传感器前端增加一个颜色滤波矩阵(Color Filter Array,CFA)。其中,应用最广泛的是Bayer 模式[1]。经过Bayer 模式采样得到的图片,包含有1/4 的红色(R)通道、1/2的绿色(G)通道及1/4 的蓝色(B)通道信息。由于在Bayer 采样图像上,每个像素点仅包含单个色彩通道信息,因此需要应用彩色图像去马赛克(Color image DeMosaicking,CDM)复原出全彩图像。
已有的CDM 算法可以大致分为两类:传统算法和基于卷积神经网络(Convolutional Neural Network,CNN)的算法。其中,CDM 传统算法可分为基于插值的算法及基于重建的算法。基于插值的算法包含像素间简单插值的算法[2-4]以及引入图像的稀疏先验信息的残差插值算法[5-7]等。基于插值的算法运行速度较快,但容易使彩色图像产生拉链效应及伪色彩效应。基于重建的算法通常将CDM 过程视为一个逆问题,引入一种或多种图像先验信息以约束求解。例如,黄丽丽等[8]结合稀疏编码与字典学习,提出了非局部稀疏表示算法;Zhang 等[9]利用非局部图像冗余先验,应用非局部自适应算法抑制插值误差;Chang 等[10]提出的CDM 算法则是联合通道间相关性与非局部自相似性。基于重建的算法需要在线迭代求解优化问题,计算负担过重,不易于实际应用。
随着并行计算技术的发展,基于CNN 的算法突破了硬件瓶颈,近年来逐渐成为了CDM 算法的主流[11-15],其中较有代表性的算法是:Gharbi 等[11]将输入的马赛克图像重新排列为四维特征图,并使用原始图像信息引导网络重建过程;Tan等[12]将CDM 过程分为两个阶段(2-stage),其中第一阶段产生中间结果,第二阶段则通过残差学习增强输出图像质量;在文献[13]中,将训练集分为粗糙、普通及光滑三类,独立训练3 个模型,并将3 个模型的输出进行融合而得到最终结果;Cui 等[14]在2-stage 基础上进一步提出了三阶段(3-stage)网络模型,其使用G 通道来引导R、B 通道的重建。
一般而言,通过增加网络深度和宽度,能够提升网络性能,但是,网络模型大小和计算量也会随之增加。部分算法并未考虑庞大的模型尺寸在实际应用中的困难。例如,文献[13]中提出对3 个去马赛克网络的输出进行融合,但3 个网络总的参数量达到了4.5×106,因此在设计CNN 网络的同时,必须要考虑算法性能和复杂度/模型尺寸之间的权衡。
已有一些学者设计了高效的网络构建模块,旨在以较低的参数量获得令人满意的网络性能。例如Chang 等[16]使用多支路以提取图像中不同尺度的特征,但多支路方案使网络的时间成本显著增加。Hui 等[17]提出信息蒸馏模块(Information Distillation Block,IDB),其部分特征通过跳跃连接实现信息蒸馏。但IDB 不针对蒸馏的信息进一步提炼特征,且存在着蒸馏特征与精炼特征不适配的情况。
为了以较小的网络尺寸与计算复杂度获得高质量的CDM 结果,本文提出了一种应用通道间相关性和增强信息蒸 馏(Inter-channel Correlation and Enhanced Information Distillation,ICEID)的彩色图像去马赛克网络。本文的主要工作包括了三个方面:
1)提出了一种应用通道相关性的初始重建模块(Interchannel-correlation-based Initial Reconstruction Module,IIRM)。该模块直接在重排列的子色彩通道上提取特征,并利用R、G、B 三个色彩通道之间的相关性辅助进行丢失信号的初始重建。
2)为在网络参数与网络性能等之间获得更好的平衡,提出增强信息蒸馏模块(Enhanced Information Distillation Module,EIDM)。在该模块中,通过引入信息蒸馏策略,有效地降低模型参数量;针对蒸馏的信息,进一步进行特征增强,以便与精炼的特征更好地适配,从而获得更强的特征表达能力。
3)将IIRM 与EIDM 模块进行级联,构成了完整的CDM网络ICEID。与其他典型的CDM 算法相比,所提出的网络能够以相对较低的网络复杂度和网络尺寸获得最高的主观质量与客观质量。
Cui 等[14]提出的三阶段网络是一种较为经典框架,如图1 所示。其中“Network”为通道重建子网络,“LossG”“LossRG”“LossGB”“LossRGB”分别代表G 通道、RG 通道、GB 通道、RGB通道的损失函数。该算法首先将马赛克图像进行双线性(Bilinear)插值得到初始图像,再将初始图像切分为R、G、B三通道分别进行重建。由于在Bayer 模式中,G 通道包含更多的采样信息,故采用重建后的G 通道引导R、B 通道的重建,以获得更高的重建质量。
图1 三阶段网络的结构Fig.1 Structure of 3-stage network
但是,上述三阶段网络存在着以下问题:首先,其初始图像由马赛克图像进行Bilinear 插值获得,在插值后的图像上提取信息,容易误导网络的学习过程;其次,在第一阶段重建G 通道信号时,并未使用R 和B 通道的信息进行辅助,从而限制了G 通道的重建质量;最后,在通道重建子网络中,对传统的“卷积层+批归一化+激活”模块进行级联,提取和精炼特征的效率不够高。为了解决上述问题,一方面,本文提出IIRM 模块进行初始的通道重建;另一方面,提出高效的EIDM 模块进行特征提取和精炼。
Hui 等[17]提出了一种轻量化的信息蒸馏网络(Information Distillation Network,IDN),其在网络参数量与性能之间达到了较好的平衡。图2 展示了IDN 中的基础构建块——信息蒸馏模块(IDB),其中,“Conv”表示卷积层,“”表示特征通道的级联(Concat)操作,“”表示特征通道的切分(Slice)操作,“⊕”表示特征通道的加操作。由图2 可见,IDB 在结构中部对特征进行切分,部分特征与输入特征级联后直接连接到模块末端,与经过提炼的特征进行相加。由于部分特征进行了跨层传输,IDB 的参数量得以减小。
图2 IDB的结构Fig.2 Structure of IDB
IDB 的结构存在着下述问题:首先,被切分出来的16 个特征通道没有作进一步的提炼,且与另一个支路的48 个特征通道的信息并不适配;其次,结构中存在多次特征通道的调整,需要过多地手工设计以匹配不同支路的特征维度,导致网络设计不够灵活。为了有效地解决IDB 中的缺陷,本文提出增强信息蒸馏模块(EIDM),并将其作为本文去马赛克网络中的基础构建块。
本文提出了一种应用通道相关性和增强信息蒸馏(ICEID)的彩色图像去马赛克网络。该网络的结构如图3 所示,主要由主要特征提取主支路与旁伴支路组成。为了避免Bilinear 插值所引入的误导信息,将输入的Bayer 图像重排列为4 维特征“RG1G2B”,其长宽尺寸由H×W变换为×4。在主要特征提取支路中,“RG1G2B”通过IIRM 及EIDM,输出特征尺寸为× 64,再传递给一个3×3 卷积层及子像素层[18](Sub-pixel),从而生成H×W× 3 的特征图。在旁伴支路中,“RG1G2B”通过一层5×5 卷积层及子像素层生成H×W× 3 的特征图,其输出直接跨层连接至主要特征提取支路尾端以便于网络进行残差学习。最后,将输出图像中各个通道的Bayer 采样位置像素替换为真实采样值。ICEID 网络内主要包含IIRM 与EIDM 两个子模块,采用端到端的训练方式以解决CDM 问题,各个子网络不进行独立训练。
图3 应用ICEID的CDM网络结构Fig.3 Structure of CDM network based on ICEID
如前文所述,从Bilinear 插值结果中提取特征,会一定程度上限制网络的性能。为了高效、准确地从Bayer 图像中提取特征,参照Gharbi 等[11]的算法,将H×W的Bayer 图像重排列为4 个的子色彩通道“R”“G1”“G2”和“B”,并在这4个子色彩通道上进行特征提取。重排列的4 个子色彩通道可由式(1)得到:
其中:X表示输入的Bayer 图像,表示重排列特征图像;(i,j)表示马赛克图像中像素的坐标位置,其中i∈[0,H/2-1],j∈[0,W/2-1];p=0,1,2,3 分别对应子色彩通道“R”“G1”“G2”和“B”。
图4 为IIRM 的结构,该结构用于初步重建出3 个色彩通道的丢失信息。
图4 IIRM的结构Fig.4 Structure of IIRM
具体地,对于R 和B 通道,IIRM 分别需要重建出3 个尺寸为的子通道;而对于G 通道,则仅需要重建出2 个的子通道。与文献[14]不一样,在本文提出的IIRM模块中,在G 通道的重建过程中使用R、B 通道信息进行辅助,从而提升G 通道的重建准确性。由于G 通道具备更多的采样信息,在G 通道重建后,再将其用于引导R、B 通道的重建。从上述结构可知,G 通道的重建准确度会影响R、B 通道的重建结果。因此在训练中,本文将G 通道的重建误差引入损失函数,以获得高质量的G 通道重建结果。为了更为有效地提取特征,本文采用了残差通道关注块(Residual Channel Attention Block,RCAB)[19],该模块的结构如图5 所示,其中“⊗”表示特征通道的乘操作。通过引入通道注意力(Channel Attention,CA)机制,RCAB 可以获得比传统的残差块(Residual Block)更强的特征表达能力。但需要注意的是,因为IIRM 模块仅负责对R、G、B 通道进行初始重建,所以在R、G、B 三个支路上都只使用了单个RCAB 块。
图5 RCAB的结构Fig.5 Structure of RCAB
在完成三个通道的丢失信息的初始重建后,将其分别与Bayer 采样得到的3 个子色彩通道信息级联,并采用3×3 卷积重新提取特征图,以便进行下一阶段的增强重建。
图6 为EIDM 的结构图,其由3 个信息蒸馏增强块(Enhanced Information Distillation Block,EIDB)堆叠而成。在EIDB 中,“RCAG”代表残差通道关注组(Residual Channel Attention Group,RCAG)。则EIDM 的函数形式可由式(2)表示:
图6 EIDM的结构Fig.6 Structure of EIDM
其中:FEIDB-3(·)表示3 个EIDB 的级联;为EIDM 函数输入特征,C1表示1×1 卷积。
在EIDB 中,首先将输入特征通过1×1 卷积层,以便隐式地学习如何进行特征的打包;接下来,通过Slice 操作,将前16 个特征通道划分到上支路,剩余48 个特征通道划分到下支路。针对上支路的16 个特征通道,采用了单个RCAB 块进行特征提炼,针对下支路的48 个特征通道,采用RCAG 模块进行特征提炼。RCAG 模块的结构如图7 所示,其中包含了M个级联的RCAB 块,以便有效地提炼48 个特征通道的深度特征。最后,将上下两个支路的特征通道进行级联,传递给下一个EIDB。
图7 RCAG的结构Fig.7 Structure of RCAG
本文所提出的EIDB 的结构与文献[17]中的IDB 结构的主要区别在于:一方面,在本文中,对蒸馏的信息,即上支路的16 个特征通道,也进行特征提炼;另一方面,经过蒸馏的信息与下支路精炼的信息是通过级联操作进行合并。这样的设计不仅有效地解决了两个支路特征信息的不适配的问题,也避免了文献[17]中超参数过多的问题。从参数量上来看,因为上支路仅针对16 个特征通道设置了一个RCAB 块,所耗费的参数量远低于下支路,所以仍然有利于将EIDB 的总参数量维持在相对较低的水平。而通过将多个EIDB 级联构成的CNN 网络,也能够保持高效、轻量化的优势。
为了能更好地证明本文算法的性能,将本文算法与自适应残差插值(Adaptive Residual Interpolation for color image demosaicking,ARI)[7]、深度联合去马赛克与去噪(Deep Joint Demosaicking and Denoising,DJDD)[11]、基于深度残差学习的彩色图像去马赛克(color image demosaicking via Deep Residual Learning,DRL)[12]、3-stage[14]这4 种主流的CDM 算法进行比较。其中,ARI 是传统的CDM 算法,DJDD、DRL、3-stage 算法是3 种基于CNN 的算法。为了保证实验的公平性,在本实验中,使用相同的学习策略重新训练DJDD、DRL与3-stage。具体地,使用自适应动量(ADAptive Momentum,ADAM)估计作为优化器,优化器初始化参数设置β1=0.9、β2=0.999 以及ε=10-8;网络初始学习速率为2× 10-4,总训练轮次(epoch)设置为200,其中学习率在epoch 为[100,140,180]时降低为之前的一半;使用Agustsson 等[20]提出的DIV2K 图像库作为训练集,其输入块(patch)大小为96× 96,每个批次(batch)包含了64 对输入块及目标块。
在本文网络中,EIDM 是重要的基础构建模块。参照IDN 中相关参数设置,EIDM 中增强蒸馏支路特征通道维度为16,提炼支路特征维度设置为48;为了控制网络参数量,EIDM 中M设置为3。本文算法采用L2 损失函数(loss function),如式(3)所示,其最终损失函数Loss由图3 中的LossRGB与图4 中的LossG组成:
其中:FICEID(·)表示ICEID 的函数形式,Θ1与Θ2分别表示初始G 通道重建阶段与整体网络重建阶段的参数,Xk与Yk分别表示输入Bayer 图像与全彩目标参照图像的第k个图像块表示全彩图像块Yk中的G 通道信号。
在测试阶段中,使用广泛应用的IMAX 与Kodak 数据集来测试网络实际性能。本文采用彩色峰值信噪比(Color Peak Signal-to-Noise Ratio,CPSNR)及结构 相似指 数(Structural SIMilarity index,SSIM)作为客观评价指标。以上所有实验在一块Nvidia GeForce RTX 2080Ti GPU 上进行。除ARI 外,所有算法在Pytorch 框架进行实验。
表1 展示了本文所提网络的不同变种模型的性能比较。其中,“Base”表示基础网络,其主体结构与ICEID 一致,但在EIDM 中仅使用特征通道数为48 的RCAG 替代EIDB;网络“w/Bayer”表示在ICEID 网络的基础上,取消像素重排列,直接将Bayer 图像输入网络;网络“w/ID”表示在ICEID 网络的基础上,去除每个EIDB 上支路的RCAB,而直接将16 个特征通道与精炼后的48 个特征通道级联;网络“w/EID”表示在“Base”网络中引入增强蒸馏机制,即完整的ICEID 网络。
表1 在IMAX数据集上的消融实验Tab.1 Ablation study on IMAX dataset
由表1 可知,在ICEID 网络中取消像素重排列后,其CPSNR 下降了0.01 dB,SSIM 下降了0.000 3,说明了像素重排列能有效保留图像结构特征信息,除此之外,像素重排列使色彩通道的分辨率降低为原来的1/4,能有效降低网络的计算复杂度;在“Base”网络中应用跨层传输结构后,其CPSNR 值提升了0.06 dB,说明了信息蒸馏结构能够有效地提炼重要特征;在“Base”网络中使用增强的信息蒸馏结构替代普通卷积后,其CPSNR 提升了0.09 dB,SSIM 提升了0.000 3,说明了增强的信息蒸馏策略能够有效提升网络的表达能力。从表1 可知,“w/EID”网络相较“w/ID”网络的参数量有少量的增加,原因在于“w/EID”在蒸馏信息支路增加了一个宽度为16 的RCAB。
将本文算法与4 种主流CDM 算法进行比较,其主观结果见图8、9,客观结果见表2、3。
图8、9 展示了本文算法与对比算法主观质量上的差别。从图8、9 中可以发现:传统算法ARI 的主观效果质量最差,其色彩伪影明显,图像边缘锯齿效应严重;DJDD、DRL、3-stage主观效果有一定的提升,但在细节丰富的区域存在伪影现象。本文算法能够获得最优主观质量:一方面,ICEID 能够更准确地恢复图像中的高频特征;另一方面,ICEID 能较好的抑制色彩伪影、拉链效应等各类失真的产生。
图8 对IMAX数据集中1号图的各个CDM算法的主观质量比较Fig.8 Subjective quality comparison of different CDM algorithms on Figure1 from IMAX dataset
由表2、3 可以看出,本文算法ICEID 在所有数据集中都获得了最好的客观结果。例如在Kodak 数据集中,相较于ARI[7]、DJDD[11]、DRL[12]、3-stage[14],本文算法在平均CPSNR上分别提升了3.37 dB、1.36 dB、0.72 dB、0.50 dB;在平均SSIM上分别提升了0.014 6、0.001 3、0.000 6、0.000 7。
表2 IMAX数据集上不同算法的定量比较Tab.2 Quantitative comparison of different algorithms on IMAX dataset
表3 Kodak数据集上不同算法的定量比较Tab.3 Quantitative comparison of different algorithms on Kodak dataset
图9 对Kodak数据集中24号图的各个CDM算法的主观质量比较Fig.9 Subjective quality comparison of different CDM algorithms on Figure24 from Kodak dataset
如表4 所示,本文通过网络参数量及浮点运算次数(FLOating Point of operations,FLOPs)衡量算法的复杂度,其中FLOPs 以目标参照图分辨率为1 280×720 进行计算。由表4 可知,3-stage 网络参数量远大于其他对比算法,但其性能却显著低于本文算法;DJDD 网络参数量虽然较小,但其重建性能较差。另外,DRL、3-stage 网络采用马赛克图像的Bilinear插值结果作为网络输入,其特征运算尺寸为H×W;而DJDD与本文算法将马赛克图像重排列后作为网络输入,其特征运算尺寸为。所以,若在相同参数量下,DRL 与3-stage的FLOPs 约为本文算法的4 倍。
表4 不同算法的参数量和FLOPsTab.4 Parameter number and FLOPs of different algorithms
本文提出了一种被称为ICEID 的彩色图像去马赛克网络。首先,针对Bayer 模式设计特征提取网络,能更充分、高效地利用彩色图像通道间相关性进行初始重建;其次,作为基础构建模块,EIDM 能够有效地对特征进行提炼,并保持相对较低的参数量。实验结果表明,在相同的实验环境下,与其他对比算法相比,ICEID 能够达到最高的CPSNR 与SSIM,并且获得最佳的主观质量;其次,本文算法网络参数量、复杂度都相对较低,更易于在实际应用场合中部署。下一步的工作重心是考虑在含有未知噪声的应用场景中,提升网络模型的性能与鲁棒性。
致谢 此次论文数据获得了广西多媒体通信和网络技术重点实验室和广西高性能计算平台的支持,在此表示衷心的感谢!