姚肇亮,刘宇男,张姗姗,杨 健
(南京理工大学 计算机科学与工程学院,江苏 南京 210094)
作为图像超分辨率(Image super-resolution,ISR)领域中的一个特定任务,人脸图像超分辨率(Face image super-resolution,FISR)任务在许多与面部相关的任务中起着至关重要的作用,例如人脸分析[1]、人脸识别[2,3]、人脸对齐[4]和人脸检测[5]等,获取更高分辨率的人脸图像进行任务间的辅助。人脸图像超分辨率,旨在使用低分辨率(Low resolution,LR)人脸图像恢复高分辨率(High resolution,HR)人脸图像,然而,人脸图像超分辨率是一种一对多的病态问题。输入一张特定的低分辨率人脸图像,模型以低分辨率图像生成高分辨率图像的方式有很多种,存在多种可能的合理解,即超分辨率的解是不确定的。
凭借强大的学习能力,卷积神经网络(Convolutional neural networks,CNNs)在计算机视觉中被广泛使用[6-9],包括图像超分辨率领域,并显现出较其他传统方法[10-12]的优越性。典型的基于卷积神经网络的超分辨率方法,采用像素级别的损失,例如L1损失[13],采用迭代训练的方式,迫使输入的低分辨率图像逐渐逼近高分辨率真实图像,最终输出令人满意的高分辨率图像。为了获取更好的超分辨率效果,大多数基于神经网络的方法往往倾向于设计更深、更复杂的网络结构。然而,这样的结构设计往往会使得网络训练消耗大量的计算资源和计算时间。为解决这些问题,本文提出一种高效的基于多尺度特征融合的属性感知人脸图像超分辨率网络(Multi-scale feature fusion based attribute-aware face image super-resolution network,MSFFN),这种网络不仅超分辨率性能优秀,并且能够根据需要进行按属性控制的人脸图像超分辨率。首先,本文提出一种新的多尺度特征融合模块(Multi-scale feature fusion block,MSFFB),有效地提取不同尺度的图像特征。此外,MSFFB作为网络子模块级联构成MSFFN网络,并通过一个多层次特征融合模块(Hierarchical feature fusion module,HFFM)共同学习。其次,本文将面部属性作为先验知识,提出一种属性感知模块(Attribute-aware module,AAM)用以将面部属性整合到人脸图像重建过程中。不同于以往直接将面部属性标签作为输入的方法,本文将面部属性以二进制掩膜的形式映射进多尺度特征提取的中间阶段。试验结果表明,使用面部属性辅助多尺度特征抽取,能够明显地提升人脸图像超分辨率效果,并且可修改面部属性进行人脸图像超分辨率效果控制。最后,在大规模数据集上进行的广泛试验证明,对比其他优秀方法,本文提出的方法具有出色的人脸图像超分辨率性能。
一般图像超分辨率方法,已有的包括插值法[14]、重构法[15,16]和基于学习的传统方法等[10-12]。近年来,自Dong等[17]首次基于卷积神经网络提出SRCNN用以图像超分辨率,相继出现许多基于卷积神经网络的图像超分辨率方法[13,17-22]。SRCNN学习从低分辨率图像到高分辨率图像的一种端到端映射,从而实现图像超分辨率,并在当时超越了以前的传统方法。在SRCNN之后,相继出现许多基于CNN的方法,例如EDSR[18]、RCAN[19]和DPSR[20]等,这些方法关注于寻找从低分辨率到高分辨率的更优映射方式。残差通道注意力超分辨率网络[19](Residual channel attention network,RCAN)是一个非常深的卷积神经网络,通过使用残差通道注意力的方式,在提高性能的同时,解决深层超分辨率网络难以训练的问题。Zhang等[20]提出一个灵活高效的深度即插即用超分辨网络(Deep plug-and-play super-resolution network,DPSR),用以解决更复杂的图像超分辨率问题。但是,训练这些模型需要很多技巧和计算资源。接着,出现了一些优秀而又轻便的方法。Li等[13]提出一个多尺度残差网络(Multi-scale residual network,MSRN),利用来自多个感受野的多尺度特征,为高分辨率图像的构建提供丰富的纹理信息。然而,MSRN仅对多尺度特征进行简单融合,忽略了特征之间的不同,导致了多尺度特征的未充分利用。受MSRN的启发,本文提出了充分利用多尺度特征和面部属性进行人脸图像超分辨率的MSFFN模型。
较之仅使用低分辨率图像作为输入的一般图像超分辨率任务,人脸图像超分辨率可以使用额外的面部属性信息作为输入,得到更好的超分辨率效果。尽管已有许多人脸图像超分辨率方法被提出,一些早期方法[23-25]的训练和实际应用难度较大,因为他们割裂了人脸图像超分辨率和人脸属性先验估计两个任务。于是,一些方法尝试将图像重构和先验估计整合到一个端到端的多任务框架中。与此同时,出现了一些人脸属性先验的研究,例如人脸解析[25,26]、人脸区域分割[27,28]和人脸属性分析[29-31]等。Yu等[32]使用上采样和鉴别器两个网络分支,将人脸属性整合到一个属性嵌入式网络中。受Yu等[33]的启发,本文将人脸属性作为一种抗人脸姿态变化且易在网络推理阶段被准确估计的先验知识。相比于Yu等[29],本文提出的MSFFN将人脸属性整合到网络中间模块中,更加高效且易于实现。
本节主要交代本文提出的基于多尺度特征融合的属性感知人脸图像超分辨率网络模型(Multi-scale feature fusion based attribute-aware face image super-resolution network,MSFFN)。MSFFN由两个模块构成:(1)多尺度特征抽取模块(Multi-scale feature fusion extraction module,MSFFEM),由多个MSFFB堆叠而成;(2)MFFM由多个MSFFB的特征级联组成,可提高图像重构表现。
如图1所示,本文将输入图像记作ILR,使用一个卷积层进行特征粗体取,由ILR提取得到R0
R0=f0(ILR)
(1)
式中:f0表示卷积操作。接着,R0被送到网络的多个MSFFB中逐层抽取特征。假设网络的第一个模块MSFFEM由N个MSFFB组成,则第n个MSFFB的输出可表示为
Rn=fn(Rn-1)=fn(fn-1(…(f1(R0))…))
(2)
式中:fn表示第n个MSFFB中的所有卷积过程。
图1 基于多尺度特征融合的属性感知人脸图像超分辨率网络模型(MSFFN)示意图
受Li等[13]的启发,本文使用HFFM自适应融合来自N个MSFFB的输出
RG=C[R0,R1,…,RN]
相对而言,弱势群体在社会政治、经济、法律、文化等资源的占有上明显处于劣势,使得他们的权益与诉求更容易遭受忽视与侵害。以本次疫苗事件为例,本次疫苗事件在曝光之前,很多受害人对于损害事实的发生根本不知情,而扭转这一局面的契机正是网络媒体对于相关违法事实的曝光与揭发。
(3)
(4)
MSFFEM由多个MSFFB级联组成,用以提取多尺度特征并且整合人脸属性信息进行更好的人脸图像超分辨。如图2所示,以第n个MSFFB模块的特征抽取、融合举例,本文先用3×3和5×5的卷积层抽取浅层的多尺度特征,接着使用局部特征融合模块进行特征融合,过程如式(5)
(5)
(6)
为使网络能够从人脸图像多尺度特征和人脸属性特征中获取到更多的信息,本文将这两种特征一起作为输入,使用一个属性感知模块(Attribute-aware module,AAM),进一步得到属性感知的特征图,AAM结构如图3所示。使用公式解释AAM的作用流程
(7)
AAM的使用,使得多尺度人脸特征和人脸属性信息能够更好地进行自适应融合,提高了人脸图像超分辨率的效果,如图3所示。本文用到了7种人脸属性,即K=7,并将7种人脸属性转化为二值特征图用作AAM网络的输入。例如,性别属性,男性标签对应的二值特征图由0组成,女性对应二值特征图由1组成。图中:⊕表示特征逐像素相加操作。
图2 属性感知模块示意图
图3 多尺度特征融合模块
在图像超分辨任务中,输出图像和输入图像高度相关[9]。因此,挖掘输入图像的特征,并且将其转移至网络的后续层,对网络的输出图像至关重要。然而,深度神经网络的网络结构加深,会导致特征在转移过程中逐渐损耗甚至消失。为解决这一问题,出现了许多方法,这些方法中的网络跳级连接(skip-connection)操作是一种最为简单却又很有效的方法。本文中的HFFM模块便包含网络跳级连接的应用。通过跳级连接,每个MSFFB的输出得以传输至网络的后续层,被用以辅助最终的高分辨率人脸图像输出。一方面,这些中间层网络特征带有大量的冗余信息;另一方面,直接使用这些网络特征进行高分辨率人脸图像预测会带来很大的计算资源消耗。因此,为了更高效地提取这些多层级网络特征中的有效信息,本文的HFFM模块还包含了由1×1卷积神经网络实现的瓶颈层(bottle-neck layer)设计。如图1所示,HFFM模块包含上述的跳级连接和瓶颈层设计,式(3)是对图4的补充说明。
图4 不同方法的PSNR和SSIM对比
表1 MSFFN与部分已有的最优方法对比
参照Jiang等[28]的设计,本文试验用到的数据集是CelebA人脸图像数据集[32]的一个子集,包含20000张训练图像和260张测试图像。此外,本文使用的7种人脸属性分别为化浓妆(是否)、魅力(高低)、高颧骨(是否)、嘴张开(是否)、微笑(是否)、涂抹口红(是否)和性别(男女)。高分辨率人脸图像HR从原数据集中裁取得到,分辨率为128像素×128像素,对应的低分辨率人脸图像LR由HR经过双3次插值得到,分辨率为16像素×16像素。在训练阶段,采用了在线随机旋转(旋转角度包括90°、180°和270°)和在线随机水平翻转的数据增广方式。学习率(Learning rate,Lr)设置为Lr=0.0001,并且每200个迭代下降为原来的二分之一大小。网络的训练选用Adam[33]优化器,batch size为20,共训练1 000个epoch。
本文方法与已有的方法做对比,如表1和图4所示,不管是超分辨率客观值(PSNR和SSIM)还是主观效果,表现都不错。如表1所示,本文的MSFFN超分辨率表现优于大部分已有的其他方法,如明显优于传统的双三次插值方法和LLE方法,同时也优于基于卷积神经网络的其他方法,如VDSR、DPSR、MNCE、FSRNet和MSRN方法。此外,本文的方法在对比旨在解决任意尺寸自然图像超分辨的SRWarp方法[34]以及基于GAN网络从而借助大量自然图像训练超分辨先验的GLEGAN方法[35]时略有不足,原因可能在于SRWarp的针对任意尺度训练时能够学习到更多的超分辨信息,而GLEGAN则是因为其使用了大量额外的自然图像进行GAN网络训练。值得注意的是,部分方法的超分变率结果,如LLE、VDSR和MNCE直接取自于一个已有工作的开源网站(https://github.com/junjun-jiang/IJCAI-18),没有再经过额外的训练,而其余方法的超分结果,如DPSR、FSRNet、SRWarp、GLEGAN和MSRN等则是采用与本文方法一致的训练超参数重新训练获取。如图4所示,本文的MSFFN方法不仅能够取得更优的超分误差PSNR和SSIM,还能够生成质量更高、效果更逼真的人脸图像。
2.3.1 网络深度设计
如图5所示,本文的方法MSFFN的性能表现受网络深度(主要指本文的网络模块MSFFB个数N)的影响,在网络深度较小时候,网络深度的增加有助于性能的提升。然而,试验结果表明,网络深度的增加不一定总是有助于性能的提升,例如PSNR指标,而且网络深度的增加会引入更多的网络参数,增加了网络训练难度。因此,合理设计MSFFN的网络深度尤为重要。本文在权衡网络复杂度(例如网络深度和网络参数量)以及性能表现过后,将网络深度设计为8个MSSFFB子模块(即N=8)。
图5 不同网络深度对性能的影响
2.3.2 属性感知模块
如表2所示,为验证属性感知模块对人脸图像超分辨率任务具有辅助效果,本文设置了4组对比试验:(a)原始的MSRN网络,即不包含属性感知模块的使用;(b)减配版的MSFFN网络,即本文提出的MSFFN方法,但是不包含属性感知模块;(c)完整版的MSFFN网络,即包括属性感知模块;(d)在完整版MSFFN网络基础上使用self-ensemble增强手段[18]的试验。从表2中的(a)和(b)的结果对比来看,减配版的MSFFN性能明显优于原始的MSRN方法,验证了本文方法的有效性。从(b)和(c)的结果对比来看,完整版的MSFFN性能优于减配版的MSFFN,验证属性感知模块AAM在本文方法上的有效性此外。从(c)和(d)的结果对比来看,借助sel-ensemble增强手段能够小幅提升本文的MSFFN超分辨率性能表现。
表2 属性感知模块的消融试验
2.3.3 人脸属性对人脸图像超分辨率的影响
本节主要探索人脸属性对人脸图像超分辨率任务的影响。首先,在表3中给出本文测试集的测试样本统计,每种属性的PSNR、SSIM值无明显差异,表明单一属性值的改变不会对最终的超分辨率性能产生负面影响。
表3 不同属性的图像样本超分性能统计(测试集)
接着,本文在图6展示了两张男性人脸图像超分辨率效果示例图。第一列是使用双三次插值方法得到的结果,第二列是不使用人脸属性标签得到的MSFFN方法结果,第三列是使用原始人脸属性标签(男性)得到的MSFFN方法结果,第四列是使用更改的人脸属性标签(女性)得到的MSFFN方法结果,第五列是高分辨率人脸图像真实图像。
图6 人脸属性对人脸图像超分辨率的影响
从图6的第二列和第一列的对比来看,第二列明显优于第一列,更加近似于最后一列的真实图像,验证了MSFFN的有效性。从第三列和第二列的对比来看,第三列的男性特征较第二列更明显,验证了正确的人脸属性特征对人脸图像超分辨率任务的正向辅助作用。然而,当本文把人脸属性从男性更改为女性后,如第四列和第三列的试验对比,人脸图像超分辨率的结果发生了明显的改变,第三列人脸图像更具男性特征;第四列人脸图像更倾向于具备女性特征,例如脸部线条更加柔和,眉毛、嘴巴和胡子更女性化等,表明了MSFFN通过改变人脸属性标签操纵人脸图像超分辨率效果的有效性。
本文提出了一个基于卷积神经网络的人脸图像超分辨率方法,即基于多尺度特征融合的属性感知人脸图像超分辨率网络。试验结果表明,本文的方法优于其他传统的方法,以及已有的一些基于卷积神经网络方法。此外,本文的方法还能够利用人脸属性对人脸图像超分辨率的效果进行操纵。未来,本文考虑继续扩展本文的研究,提出性能更好、体量更轻便的网络,并在人脸图像超分辨任务中关注更多的人脸属性细节。