SEGQM:一种基于SE-ResNet 的DCGAN 质量评价模型*

2021-05-20 12:07赵镥瑶齐苏敏周翔宇
通信技术 2021年5期
关键词:真实性准确率分数

赵镥瑶,齐苏敏,周翔宇,石 珂

(曲阜师范大学,山东 济宁 273100)

0 引言

近年来,深度学习在语音识别、图像识别和自然语言处理等各个领域都得到了广泛应用[1],各种网络模型不断出现,如卷积神经网络(Convolutional Neural Network,CNN)[2]、循环递 归神经网络(Recurrent Neural Network,RNN)[3]等。2014年,Goodfellow 提出了生成式对抗网络(Generative Adversarial Networks,GAN)[4],为深度学习领域注入了一种新的思想,一定程度上推动了人工智能在认知阶段的发展。随后,各种GAN 衍生模型层出不 穷,如CGAN[5]、InfoGAN[6]、Wasserstein GAN[7]以及DCGAN[8]等。但是,GAN 的生成质量难以评估,其中定性评价和一些传统的客观评价指标并不合适[9-10]。鉴于主观评价的内在缺陷和GAN 的发展水平[11],采用恰当的客观指标来指导GAN 的发展至关重要[12]。

目前,客观评价指标主要通过衡量真实分布和生成分布的差异来定量评价GAN,如Kernel MMD[13]、Inception Score[14]、Fréchet Inception Distance[15]以及GAN Quality Index[16]等。虽然它们能够在一定程度上评价GAN,但也存在不足,如无法确定GAN 分数低的原因,依赖于预训练的模型,无法捕捉图像特征通道之间的依赖关系等。针对上述不足,本文设计了一个全面且合理的质量评价指标SEGQI。利用SE-ResNet 网络引入通道注意力机制对生成图像进行分类,以更好地评价GAN。该指标能够分别评价生成图像的真实性和多样性,得到更准确的综合评价分数,是对GQI 的一种改进和补充。最后,定量评估经典模型DCGAN。实验表明,与其他指标相比,SEGQI 更全面和客观地评估了其生成图像的真实性和多样性。

1 DCGAN 模型

DCGAN 将卷积神经网络(CNN)首次应用到GAN,能更好地捕捉图像特征,广泛应用于图像生成任务。如图1 所示,DCGAN 将服从高斯分布或均匀分布的100 维随机噪声z输入生成器G,输出生成图像G(z);将生成图像G(z)和真实图像x输入判别器D,输出G(z)为真的概率。在一定批量的样本内,模型根据输出概率计算并反馈损失,使得生成器D 和判别器G 的参数不断优化。它的目标函数为:

式中,真实样本分布为pdata(x),生成样本分布为pz(z)。

生成器和判别器的优化目标不同,结成对抗学习关系。对于判别器D 来说,期望能够识别出真实样本x,即D(x)尽可能靠近1,log[D(x)]越大越好。反之,生成器G 期望生成足以乱真的假样本G(z)。

图1 DCGAN 生成图片的基本模型框架

DCGAN 的生成器和判别器采用改进后的卷积神经网络结构,去掉了全连接层和池化层,采用逆卷积的方式扩展矩阵大小,再经过BN 层、ReLU激活函数得到该层的输出,即下一层的输入。100维的随机噪声向量经过几次这样的过程后,通过输出层的tanh 激活函数得到生成图像。

2 质量评价模型SEGQM

评价GAN的两个关键标准是真实性和多样性。但是,传统评价方法不能将两者分开,对这两个标准各有倾向性,因此对GAN 模型的评估不够合理且指示性不强。所以,本文设计了基于深度学习的方法来评价GAN,以分类性能直观反映其生成图片的真实性和多样性。如果GAN 模型能够很好地学习到真实分布,那么生成器在特征空间层面上的表现应该接近于真实数据。本文利用SE-ResNet对真实数据集和GAN 生成数据集分类,定义真实性指标R、多样性指标D和综合性指标CS来评估DCGAN 的生成质量。

SE-ResNet[17]在ResNet 网络的基础上嵌入了SE 模块,通过学习特征通道之间的关系预测各通道权重,从而提高了分类任务的准确性。与原始的ResNet 相比,SE-ResNet 的TOP-1 错误率明显更低。

本文设计的基于SE-ResNet 的质量评价模型SEGQM 如图2 所示。

具体的评价流程为:

①利用真实数据集Sreal(N×M)、原始生成数据集Gfake和分类后的生成数据集GCfake训练分类器,分别得到三者的TOP-1 精度ACC(Sreal)、ACC(Gfake)及ACC(GCfake)。

②利用TOP-1 精度的比值计算真实性指标R和多样性指标D的值。

③将求得的真实性指标R和多样性指标D线性融合,得到综合性指标CS。

图2 SEGQM 评价模型

④(R,D,CS)即为最终的SEGQI 评价指标。

2.1 真实性指标

真实性指标度量生成数据的真实性程度。

①在真实数据集Sreal(N×M)(N代表类别,M代表每类样本数)上训练分类器SE-ResNet 和GAN模型,生成大量图片。

②利用分类器给生成图片赋标签,可以得到一个与真实数据集同构的生成图片数据集GCfake(N×M)。

③在GCfake(N×M)上训练一个分类器。两个分类器在同一真实图片测试集上得到的准确率分别为ACC(Sreal)和ACC(GCfake)。生成图像的真实性指标R为:

由于GCfake和Sreal类别均衡、大小相同,因此影响测试集准确率的因素是生成数据集的真实性。如果生成样本的分布越接近真实样本分布,则设计方案的真实性指标R应该越高,生成图片的真实性应该越高。

2.2 多样性指标

为了获得生成图片的多样性,令GAN 生成任意图片,得到一个新的生成图片数据集Gfake。它的大小与GCfake相同。

同样,在Gfake上训练一个分类器SE-ResNet,并在同一真实数据集上测试得到准确率ACC(Gfake)。

生成图像的多样性指标D计算为:

由于Gfake和GCfake类别不均衡、大小相同且都是生成图片,因此影响测试集准确率的因素是生成图片的多样性。如果生成样本对各类别样本分布的学习程度越平均,那么设计方案的多样性指标D应该越高,生成图片的多样性应该越高。

2.3 综合性指标

由式(2)和式(3)可知,真实性指标R和多样性指标D与生成图片的质量都呈正相关。为了简便表示,根据准确率影响程度设置了一个参数α将两个指标有效融合在一起,得到综合性指标CS:

式中,α表示视觉保真度对生成图像质量的影响程度。

式(4)表达了真实性和多样性对DCGAN 质量的影响程度,CS∈[0,1]。CS越高,GAN 模型生成图像的质量越好,也在一定程度上反映了该GAN模型的生成能力较好。

2.4 SEGQI 指标

由真实性指标R、多样性指标D和综合性指标CS组成的三元组称为SEGQI指标,可分为4种情况:

①当R和D的分数都很高时,CS分数也很高,说明GAN 生成图像质量较高且多样;

②当R的分数越高且D的分数越低时,说明GAN 生成图像具有高质量、低多样的特点,可能出现了模式崩溃现象;

③当R的分数越低且D的分数越低时,CS分数也很低,说明GAN 没有产生有意义的生成图像;

④当R的分数越低且D的分数越高时,说明GAN 生成图像多样但不够逼真。

SEGQI 指标反映了GAN 生成分布与实际数据分布之间的差别,对真实性和多样性分别进行评价,没有倾向性,可以更好地体现GAN 模型的特性。它不需要了解GAN 模型的内部结构,利用GAN 生成数据集就可以评估GAN 的质量。与传统的质量评估方法相比,本文方法更全面、直观,是对相关GAN 模型在实际应用中的切实检验。

3 DCGAN 的各类评价指标及分析

本节将对主要的几种指标进行简单介绍和比较分析。

3.1 Inception 分数

Inception 分数(Inception Score,IS)是已有文献中应用最广泛的指标,本质是利用分类模型评估生成图片的质量,将生成的图片输入训练好的Inception 分类网络,根据式(6)计算每张图片的分类表现。

如果图片x属于某个类的概率分布很大,那么p(y|x)呈尖锐分布,熵很小;如果图片标签在各类别中均匀分布,那么边缘分布p(y)的熵很大。理论上,期望概率分布越小越好,边缘分布越高越好,而这两个分布的散度自然越大越好。因此,IS 设想用DKL衡量这两个分布。分布越不像模型,表现越好。

但实际上,Inception 分数是一个存在很多问题的指标。一方面,它只考虑了生成分布Pg,并不能体现生成分布和真实分布之间的距离。另一方面,它依赖于预训练的inception 模型,并不适用于所有数据集。

3.2 Fréchet Inception 距离

Fréchet Inception 距 离(Fréchet Inception Distance,FID)利用Inception 网络提取特征,然后通过计算真实图片和生成图片在特征空间层面的距离进行评价。利用两者的均值μ和协方差C可计算FID 分数:

在特征空间上,生成样本和真实样本的FID 距离越小,两者的分布越接近。

FID 比IS 更合理,但并不能确定用FID 来衡量真实样本特征和生成样本特征是否足够合理。

3.3 GAN 质量指数

GAN 质量指数(GAN Quality Index,GQI)很好地利用了分类思想来衡量生成样本的质量,在同一个网络上训练生成样本和真实样本。在真实数据集上测试,根据式(8)得到两者的准确率之比。

这个比值越大,说明生成样本分布越接近真实样本分布,可以很好地分类真实样本。

但是,GAN 质量指数也存在不足。一方面,GQI使用ResNet 作为分类网络,没有考虑特征通道之间的关系。另一方面,GAN 质量指数无法确定影响准确率的具体因素,如图片不够逼真、图片多样性不足等。

4 实验结果与分析

4.1 模型评估

本文提出的方法设计了两个分数,分别指示生成图像的真实性和多样性,并通过一个简单的线性关系相加融合成一个有界指标[18]。表1 展示了DCGAN 生成图片的SEGQI 得分(R,D,CS)。

表1 DCGAN 的评价指标对比

CIFAR-10 数据集由来自10 个类的60 000 张图像组成,分为5 个训练批次和1 个测试批次。训练集中有50 000 张图像,每个类包含5 000 张;测试集有10 000 张图像,每个类包含1 000 张。与之相比,CIFAR-100 分类更加细致,是更具挑战性的数据集。它包括100 个类别的图像,每个类别分别有500 张训练图像和100 张测试图像。从表1 可以看出,设计的指标与其他指标在排名上表现一致。IS 评价指标并不合适,原因是只考虑了生成图像,删除某些类对IS 分数影响不大。FID 指标和GQI 指标变化较大,能够得到相对合理的评价分数来指示生成图像的质量,但没有反映出生成图像的多样性表现。而在设计的指标SEGQI 中真实性指标R明显下降,同时影响了多样性指标D,能够合理全面地指示生成图像的质量。

4.2 消融实验

本文针对GQI 指标进行了以下3 点改进:①将ResNet 网络替换成SE-ResNet 网络,学习通道之间的关系,以提高分类准确率;②分别评价真实性和多样性,更明确地反映GAN 的生成质量;③根据影响程度,将(R,D)分数融合为一个综合得分,比GQI 更合理。

分类网络准确率对赋标签的影响因子与真实性得分R正相关。同理,它与多样性D正相关。如表2 所示,SE-ResNet 在各类真实数据集上的准确率比ResNet 更高。究其原因,在于SE 模块对图片特征通道进行了权重分配,更利于提取有意义的特征。

表2 SEResNet 与ResNet 在不同数据集上的分类表现

为了更全面地评价GAN 生成图像,将真实性得分R和多样性得分D融合为一个综合得分CS,如表3 所示。首先,计算真实性,用CIFAR-10 数据集训练SE-ResNet 网络,得到93%的准确率。其次,利用同构的生成图片数据集训练同一个网络,得到78%的准确率,因此可以根据式(2)得到真实性R=0.84。再次,计算多样性,利用同大小的原始生成图片数据集训练同一个网络,得到72%的准确率,因此可以根据式(3)得到多样性D=0.92。最后,根据式(4)计算可得α=0.71,得到综合性指标CS=0.86。表4 展示了DCGAN 在同数据集上的GQI 得分。

表3 DCGAN 在CIFAR-10 数据集上的CS 得分

表4 DCGAN 在CIFAR-10 数据集上的GQI 得分

5 结语

目前,对于GAN 模型的评价来说仍然没有一个简洁而有力的指标能够得到公认。本文设计了基于深度学习的方法来评估GAN 生成图像的质量。提出的评价模型SEGQM 能够分别评估生成图像的真实性和多样性两个方面,是对GAN 生成质量更详细、更有针对性的评价方法,有利于GAN 的规范性发展。与其他模型的对比实验表明,所提的评价模型SEGQM 能够合理全面地指示生成图像的质量。后续验证多样性和真实性对模型质量的影响权重,形成统一的指标,是进一步研究的内容。

猜你喜欢
真实性准确率分数
分数
——分之有“术”
分数的脚步
论三维动画特效数字模拟真实性与艺术性的结合
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
分数的由来
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
无限循环小数化为分数的反思
全媒体时代关于新闻真实性的思考